Ensalada de Bits: ingenieria social

Mostrando entradas con la etiqueta ingenieria social. Mostrar todas las entradas

martes, 10 de diciembre de 2013

Robots.txt escondiéndonos de los buscadores

Muchos de los que lean esto recordarán los viejos buscadores (ya desaparecidos en su mayoría) como era el de terra.es, ozu.com, ole.com... Cuando Internet comenzó a crecer fue de forma exponencial, las web pasaron a contarse por cientos de miles en un lapso de tiempo muy corto.

Esto planteó el problema de catalogarlas y, para los que vivimos esa época y conocimos esos buscadores recordareis que existían unas webs que te daban de alta la tuya en cientos y miles de buscadores a la web. Siempre fallaban y al final de cientos solo daban de alta en una docena de ellos y el resto, te tocaba a mano.

Era una locura poder insertar tu web en los miles de buscadores que existían. Creo que esos fueron los comienzos del SEO, dar de alta tu web en miles de buscadores.

Pero la cosa cambió cuando llegó Google, ya no era necesaria esa locura, solo tenías que darte de alta en uno y muy seguramente, para cuando fuera a hacerlo, el ya te había encontrado a ti.

Antes de que te dieras de alta ya figuraba tu web en su buscador pero el problema es que figuraba ¡Toda tu web! ¿Y si no querías que ciertas partes salieran es sus búsquedas? La solución que se dio a este problema se llama robots.txt

¿Qué es robots.txt exactamente?

Es un archivo de texto que sigue una notación estándar mediante el cual indicamos a las arañas de los buscadores que partes de la web no han de incluir en sus directorios.

Una vez dicho esto has de tener en cuenta que:

- Que no lo incluyan no quiere decir que no lo puedan visitar, hay crawlers que sí lo visitan aunque no lo incluyen.

- Existen crawlers que no pertenecen a buscadores, son privados y, normalmente, sus intenciones no son nada buenas. Éstos no harán ni caso de tu archivo robots.

- Hay una notación estándar que la mayoría de crawlers siguen, pero también existen notaciones no estándar que muchos entienden, es tu responsabilidad usarla, luego no te quejes de que no te hacen caro las arañitas.

¿Cómo creo mi archivo robots?

El archivo robots es un txt que has de dejar en el directorio raíz de tu aplicación web, es ahí donde irán las arañas a buscarlo, si lo mueves no sabrán encontrarlo.

La dirección donde tendría que estar tu robots, por ejemplo:

http://www.miwebmaravillosa.com/robots.txt

Dejando ahí tu archivo los crawlers podrán acceder al mismo y leerlo. Los crawlers... y cualquiera que quiera verlo, por supuesto.

Y aquí es donde está la gracia o desgracia de el archivo robots y es que cualquiera puede acceder al mismo solo poniendo la dirección (como el ejemplo que te acabo de dar) en su navegador. Por si aún no eres consciente de porque esto puede ser peligroso, piensa que vas a crear una archivo de robots porque hay partes de tu web que no quieres que se indexen y visiten por lo que, si no lo haces con un poco de cuidado, puedes estar haciendo un detallado directorio de las partes sensibles de tu web a cualquiera que quiera visitarlo.

No nos asustemos aún, se pueden hacer algunas cosillas para que robots sea todo lo último que ha de ser.

Creando nuestro robots

El estándar definido para este archivo es muy sencillo. Veámoslo con algunos ejemplos:

---

User-agent: *

Disallow: /

----

User-agent indica sobre quien aplica el robots, en este caso el * dice que esto aplica para todos los crawlers que entren en tu web.

Disallow: / está diciendo que no visiten ni indexen nada de tu web. Les has prohibido el paso.

----

User-agent: *

Disallow:

-----

Este es el caso contrario, así se indica que todos los crawlers existentes, pueden acceder a toda la web.

Puede suceder que, en ocasiones, no queramos que unos buscadores indexen nuestra web pero otros si, por lo que se pueden indicar diferentes User-agent, veamos un ejemplo:

---

User-agent: Googlebot

Disallow: /lugar/

Disallow: /comunicar.php

User-agent: Slurp

Disallow: /lugar/

User-agent: Exabot

Disallow: /

User-agent: Speedy

Disallow: /

---

Este es más complejo, podemos ver diferentes casuísticas dependiendo de que crawler nos visite:
- GoogleBot tiene prohibido visitar la carpeta lugar, y todo lo que exista dentro de la misma. Al igual que tiene prohibido el archivo comunicar.php.
- Slurp solo tiene prohibido entrar en la carpeta lugar y todo lo que esta contiene.

- Mientras que Exabot y Speedy tienen prohibido entrar en toda la web.

Podéis ver se pueden definir según que crawlers el acceso de los mismos, no tiene ningún límite.

Existen infinidad de crawlers, os dejo aquí algunos listados que os pueden ayudar para cuando queráis definir vuestros robots:

http://www.robotstxt.org/db.html

http://www.user-agents.org/

http://user-agent-string.info/list-of-ua/bots

Ya os habia comentado antes, que cualquiera puede acceder a vuestro archivo de robots por lo que un archivo de robots que contenga muchos archivos deshabilitados, en malas manos, se convertirá en un directorio de "sitios a visitar", por ejemplo, en el robots de http://www.senado.es/robots.txt podemos ver lo siguiente:

---

User-agent: *
Disallow: /web/wcm-contrib/
Disallow: /web/wcm-design/
Disallow: /web/wcm/support/login/wcm-login.jsp
Disallow: /web/wcm/support/login/j_security_check
Disallow: /cgi-bin/
Disallow: */detalleiniciativa/
Disallow: */expedientappendixblobservlet/
Disallow: */expedientdocblobservlet/
Disallow: */fichasenador/
Disallow: */resultadobuscador/
Disallow: */*senstream*
Disallow: /legis9/publicaciones/html/textos/CG_B015.html
Disallow: /legis9/publicaciones/pdf/cortes/bocg/CG_B015.PDF
Disallow: /legis9/publicaciones/html/textos/CG_B100.html
Disallow: /legis9/publicaciones/pdf/cortes/bocg/CG_B100.PDF
Disallow: /legis9/publicaciones/pdf/cortes/bocg/CG_B103.PDF
Disallow: /legis4/publicaciones/pdf/senado/bocg/I0019.PDF
Disallow: /legis4/publicaciones/pdf/congreso/bocg/E_017.PDF
Disallow: /legis4/publicaciones/pdf/cortes/bocg/CG_B019.PDF
Disallow: /legis3/publicaciones/pdf/congreso/bocg/E_210.PDF
Disallow: /legis3/publicaciones/pdf/senado/bocg/I0342.PDF
Disallow: /legis2/publicaciones/pdf/congreso/bocg/E_118.PDF
Disallow: /legis3/publicaciones/pdf/senado/bocg/I0347.PDF
Disallow: /legis2/publicaciones/pdf/senado/bocg/I0140.PDF

---

De este robots podemos sacar varias conclusiones:

- ¿Quien que haya entrado en este archivo no va acceder a visitar esos PDF de forma inmediata? Colocarlos ahí es como decir a alguien "Yujuuu entra a ver que tengo aquí escondido" La única forma de que el crawler y los ojos curiosos no vean esa información a través de nuestro robots sería unificar esos archivos dentro de una carpeta y deshabilitar la misma, algo así:

---

- Hay ordenes no estándar, una de ellas es ese * delante de las carpetas. El riesgo que supone no hacer los robots estandarizados es que no todos los crawler lo soportan por lo que esos directorios seguro podemos encontrarlos en algún buscador indexados y visitados.

Tened cuidado con vuestro robot, sed un poco pícaros.

Extensiones más habituales no estándar

En Wikipedia se recogen muy bien las extensiones que más os podeis encontrar no estandarizadas, veamoslas con un ejemplo muy simpatico el de http://blogs.lavozdegalicia.es/robots.txt es un poco extenso pero os gustará:

---

#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml
#
# Primero el contenido adjunto.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
# Tambi�n podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php
Disallow: /wp-
#
# Sitemap permitido, b�squedas no.
#
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que s�lo
# sirven como Trackback URI (y son contenido duplicado).
#
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante
#
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
User-agent: BLP_bbot
Disallow: /
#
# Slurp (Yahoo!), Noxtrum y el bot de MSN obligandoles
# a reducir la marcha. El valor es en segundos
#
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 50
User-agent: Slurp
Crawl-delay: 50
User-agent: Googlebot
Crawl-delay: 30
# para evitar ataque desde http://www.80legs.com/webcrawler.html
User-agent: 008
Disallow: /

---

El archivo está perfectamente echo y muy simpáticamente comentado, os explico:

- Sitemap: Ya profundizaré mucho más sobre este tema en otro post. Es el mapa de la web, al contrario que robots.txt, sitemap.xml indica a los crawlers que SI quieres que visiten e indexen. Es esencial para SEO y con ello facilitas que las páginas que incluyas en ese archivo sean más rápidamente indexadas.

- Allow: Esta etiqueta habilita que pueda entrarse en una archivo o directorio. Se ha de situar encima de su correspondiente Disallow ya que la única utilidad que tiene esta orden es habilitar cierta parte de lo que has deshabilitado, observa el ejemplo:

---

Allow: /feed/$

Disallow: /feed

---

Deshabilita entrar en la carpeta feed pero ha habilitado correctamente que el contenido $ dentro de esa carpeta sí pueda ser visitado. Recuerda si pones Allow después de Disallow no tendrá mucho sentido.

- Crawl-delay: Los crawlers no descansan, es una de las ventajas de ser una máquina, trabajan tanto que, algunas veces, nos saturan a visitas. Con esta orden le indicamos cuantos segundos han de pasar, como mínimo, hasta que pueda volvernos a visitar. Cuando tu sitio crece agradeces esta etiqueta.

Os podéis divertir enormemente mirando los robots de las webs ahora que ya entendéis mejor que hacen.
Si queréis mas información sobre robots:
http://www.robotstxt.org
http://en.wikipedia.org/wiki/Robots.txt

Si queréis ver robots probad con esta orden en google: inurl:robots.txt filetype:txt

Casos curiosos

Antes de acabar y sabiendo que se ha alargado enormemente este documento sobre robots me gustaría compartir con vosotros algunos casis curiosos.

https://www.americanexpress.com/robots.txt

---

User-agent: *
Disallow: /us/heroes/ <<<¿Será el directorio de las tarjetas para super heroes?
Disallow: /us/rwd/
Allow: << ¿Que habilitas, el vacío?

---

El conocidísimo robots de la SGAE, esto habla por sí mismo:

http://www.sgae.es/robots.txt

---

User-agent: *
Disallow:/portal/
Disallow:/portal/
Disallow:/wp-*
Disallow:/?SGAE=LADRONES=MONOPOLIO
Disallow:/?ladrones
Disallow:/?mafiosos
Disallow:/?
Disallow:/?*
Disallow:/author/
Disallow:/category/
Disallow:/portal/
Disallow:/search/
Disallow:/home2/
Disallow:/sg0-no-tocar/
Disallow:/sg1-no-tocar/
Disallow:/sg2-no-tocar/
Disallow:/sg3-no-tocar/
Disallow:/sg4-no-tocar/
Disallow:/sg5-no-tocar/
Disallow:/sg-5-no-tocar/
Disallow:/sg-4-no-tocar/
Disallow:/sg-3-no-tocar/
Disallow:/sg-2-no-tocar/
Disallow:/sg-1-no-tocar/
Disallow:/sg*
Disallow:/search/search-es.jsp?texto=<a href="">ladrones</a>
Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E
Disallow:/search/search-es.jsp?texto=%3Ch1%3ESomos%20unos%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E
Disallow:/search/search-es.jsp?texto=%3Ca%20href=%22%22%3Eladrones%3C/a%3E
Disallow:/?utm_source=lasindias.info/blog

---

El archivo robots de http://www.fuerteventura2000.com/robots.txt, por dios no lo uséis para estas cosas¡¡¡ (Lo he copiado parcialmente)

# Google
User-agent: Googlebot
# Bloquear Directorios
Disallow: /Aplicacion/
Disallow: /Conections/
Disallow: /picts/
Disallow: /includes/
Disallow: /privado/
Disallow: /noticias/
Disallow: /flash/
Disallow: /cursos/catalogo/
Disallow: /cursos/cursos_para trabajadores/fichas_cursos/
# Bloquear archivos
Disallow: /LEEME_MUY_IMPORTANTE.txt << Te haremos caso
Disallow: /accesibilidad.php
Disallow: /aviso_legal.php
Disallow: /*.swf$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.jpg$
Disallow: /blog/wp-login.php
Disallow: /*?
# Permitidos
Allow: /index.php
Allow: /sitemap.xml

Archivo http://www.fuerteventura2000.com/LEEME_MUY_IMPORTANTE.txt que tanto nos dice que leamos:

*******************************************************
Â¡Â¡Â¡Â¡MUY IMPORTANTE!!!!
*******************************************************
ES MUY IMPORTANTE POR EL BUEN FUNCIONAMIENTO DEL SITIO
QUE NO SE MODIFIQUEN NINGUNO DE LOS SIGUIENTES ARCHIVOS
Y CARPETAS CONTENIDOS EN ESTE DIRECTORIO:

-blog
-contacto
-css
-css
-cursos
-documentacion
-error
-flash
-includes
-newsletter
-noticias
-picts
-privado
-scripts
-sobre_nosotros

accesibilidad.php
aviso_legal.php
contacto.php
empleo.php
index.php
mapaweb.php
servicios_a_empresas.php
robots.txt
sitemap.xml

*******************************************************
SI NECESITAN SUBIR ARCHIVOS AL SERVIDOR PÃ“NGANSE EN
CONTACTO OBLIGATORIAMENTE CON XXXX@fuerteventura2000.com

Â¡Â¡Â¡Â¡OBLIGATORIAMENTE!!!!
------------------------

*******************************************************
ESTO NO ES NINGÃšN JUEGO Y LOS CAMBIOS DE ARCHIVOS QUE
ESTÃN OCURRIENDO ÃšLTIMAMENTE POR PARTE DE TERCERAS
PERSONAS NO IDENTIFICADAS ESTÃ AFECTANDO NEGATIVAMENTE
A LA IMAGEN DE LA EMPRESA. A PARTIR DE HOY TODAS LAS
INCURSIONES EN EL SITIO DE TERCERAS PERSONAS NO
INFORMADAS A CARLOS SERÃN PUESTAS EN CONOCIMIENTO DE
LA DIRECCIÃ“N.
*******************************************************
*******************************************************

Ok, seremos buenos e informaremos a Carlos si tocamos algo. Por cierto, seguro que esto no afecta negativamente a la imagen de la empresa. Borrad eso por dios¡

domingo, 23 de junio de 2013

Alguien esta haciendo un tremendo blog sobre usted

Con esta apocalíptica frase me he levantado esta mañana, era un mensaje directo que recibía a través de Twitter, me ha hecho mucha gracia ya que el 99% de los mensajes que recibo en inglés son spam o, sencillamente, tonterías.

Pero a este le he seguido el juego y me he reído un buen rato.

He ido al link que tan amablemente me proporcionaba para poder ver quién es ese maldito que dice cosas de mi en un blog y… sorpresa¡¡¡ tengo que verificar mi password.

Interesante ¿Por qué iba a tener que hacer yo eso? La verdad es que la pantallita, está muy lograda pero la dirección no cuela XD

Al final he seguido con el engaño poniendo datos igual de falsos que ellos y, para no variar, la página no existe pero han hecho un redirect muy hábilmente al verdadero Twitter de modo que los más incautos no se darán cuenta de que acaban de regalar su cuenta de Twitter.

Os dejo el codigo fuente de ambas webs: Falso Twitter

martes, 11 de diciembre de 2012

Ingeniería Social

1 ¿Qué es?

Se denomina ingeniería social a los métodos y técnicas que utilizan el engaño de las personas para revelar contraseñas u otra información, en contraposición con la obtención de dicha información a través de las debilidades propias de la implementación de un sistema.

2 ¿Cómo funciona?

El mayor caso de la historia de ingeniería social fue el que realizó el mítico Kevin Mitnick (Anexo I. Kevin Mitnick). Según el propio Mitnick existen cuatro principios elementales basados en su experiencia:

1) Todos queremos ayudar.

2) El primero movimiento es siempre de confianza hacia el otro.

3) No nos gusta decir No.

4) A todos nos gusta que nos alaben.

Basándose en dichos principios los primeros casos de ingeniería social eran básicamente llamadas telefónicas haciéndose pasar por otra persona, o disfrazarse de operario para poder acceder a la oficina en busca de información en papeleras o contraseñas apuntadas en post-it sobre la mesa (una mala práctica que lamentablemente aún sigue vigente).

Pero con el tiempo hasta las técnicas más sencillas evolucionan y la ingeniería social ha dado lugar a otras ya muy conocidas y dañinas como son las siguientes:

- Phising o web spoofing

- Spam

- Robo de cookies

- Ataques a través de redes sociales.

En los siguientes apartados se describen en mayor detalle cada una de ellas:

3 Técnicas de ingeniería social: Phising

El término phising(pesca en inglés) hace alusión al intento por conseguir que los usuarios “piquen el anzuelo”.

La técnica es muy sencilla y por ese mismo motivo es, a la vez, muy peligrosa ya que es muy sencillo que un usuario sea víctima.

El primer paso de las técnicas de phising consiste en descargarse el index (la página de inicio) de cualquier web que se quiera falsear, por ejemplo, las webs de los bancos o paginas de servicios de correo electrónico.

Una vez descargado el index, se cambia el código de login para que en vez de entrar en el correo o banco del usuario, se manden al atacante los datos introducidos por dicho usuario, quedando éste ante una pantalla estática o siendo redirigido a la web original para que hagan un nuevo intento y puedan entrar ya con normalidad pensando que ha ocurrido un fallo, sin darse cuenta de que han sido estafados.

Las webs mas atacadas en la actualidad son las de servicios bancarios y de pago online, tal como puede apreciarse en la Figura 11. Los daños económicos que causa ésta técnica son, como puede suponerse, muy elevados.

La mejor forma de evitar este tipo de ataques consiste simplemente en observar la barra del navegador y comprobar que la web visitada es realmente la correcta. La Figura 12 muestra un ejemplo de web sospechosa de phising.

Hoy en día los antivirus y los propios navegadores llevan sistemas que nos avisan de sitios fraudulentos, lo cual es una ayuda para los usuarios menos observadores o con menos experiencia en informática.

4 Técnicas de ingeniería social: Spam

El spam y phising son técnicas muy relacionadas, puesto que es a través del spam como nos suelen llegar los enlaces a sitios fraudulentos de phising.

Se llama spam, correo basura o mensaje basura a los mensaje no solicitados, no deseados o de remitente no conocido, habitualmente de tipo publicitario, enviados en grandes cantidades (de forma incluso masiva) que perjudican de alguna o varias maneras al receptor.

Las cifras de millones de mails fraudulentos que recorren la red diariamente son realmente escandalosas. Nuestros gestores de correo están preparados para que al usuario le llegue la mínima cantidad de spam posible, correos que se pueden encontrar en carpetas de tipo “no deseado”. Actualmente casi nadie es ajeno a este término, ya que en los últimos años se ha hecho muy popular por los daños que hace a la economía.

La Figura 13 proporciona una comparación de la cantidad de correo legítimo y de spam en España en 2008. Bibliografía [19].

Como todas las técnicas el spam está evolucionando a nuevos medios y ahora es muy habitual la recepción de mensajes basura a través de las redes sociales, como por ejemplo Twitter (Figura 14).

5 Técnicas de ingeniería social: Robo de cookies

5.1 ¿Qué es una cookie?

Una cookie (galleta en inglés) es un fragmento de información que se almacena a través de su navegador en el disco duro del visitante de una página web, a petición del servidor de la página. Esta información puede ser luego recuperada por el servidor en posteriores visitas.

Las cookies pueden contener información sensible , como por ejemplo, el nombre de usuario, contraseña, fecha de la cookie así como otros datos de carácter privado

5.2 ¿Qué es el robo de cookies?

Las cookies viajan por la red en sesiones HTTP normales, es decir, son visibles para todo aquel que utilice un sniffer en la red e intercepte los datos que viajen por ella, siempre que no vayan cifrados mediante SSL , puesto que en ese caso, el cifrado dificulta el robo de la sesión.

A este mal uso se le llama robo de cookies y la consecuencia de utilizar una cookie de otra persona consiste en poder suplantar su identidad en el sitio web al que pertenece la cookie, por lo que tendrá acceso a todos sus datos y podrá utilizar el servicio afectado como su fuera el usuario legítimo.

5.3 Firesheep

Es un complemento para navegadores (Firefox 3.6.12 32 bits, Safari) que con un simple click devuelve todas las cookies que viajan por la red relacionadas con las redes sociales.

Este complemento se hizo muy famoso porque en redes universitarias causó verdaderos estragos dejando en evidencia la baja seguridad principalmente de los sistemas de autenticación de las redes sociales, donde los datos se transmiten en texto plano dentro de una cookie.

La Figura 15 muestra un ejemplo de utilización del complemento Firesheep.

6 Técnicas de ingeniería social: Ataques a través de redes sociales.

Las redes sociales son uno de los campos en los que la ingeniería social obtiene mejores resultados.

A través de las redes sociales se puede obtener un listado de los hábitos, gustos y costumbres de las víctimas, además de fotografías tanto suyas como de sus amistades o conocidos.

Con una buena configuración de las opciones de seguridad y aceptando sólo a usuarios conocidos se podría minimizar el daño que puede hacer una persona malintencionada evitando que obtuviera datos de ese modo.

Aunque puede parecer poco importante, esta forma de obtener datos está siendo objeto de atención por los cuerpos de seguridad de muchos países, ya que es una forma de obtener información de víctimas y atacantes (por ejemplo, pederastas) que actúan a través de perfiles inventados.