Seleccionar página

google crawler

robots.txt es un fichero de texto que recomienda a los buscadores como google qué buscar y qué no buscar dentro de una web. La palabra Disallow sirve para indicar lo que no queremos que vea el buscador, así, si en el fichero aparece la línea:

Disallow: /imagenes

estamos sugiriendo a los buscadores “buenos” que no miren en la carpeta de imágenes.
Decimos buscadores “buenos” (Google, Bing, Yahoo,..) porque hay buscadores “malos” que no respetan los robots.txt, nos referimos, por ejemplo, a buscadores cuyo objetivo es, entre otros, obtener cuentas de email para hacer spam.


Analizar el contenido de estos ficheros puede darnos información adicional y sorpresas. Si echamos un vistazo al robots.txt de la SGAE, deducimos que le preocupa la imagen que ladrones y mafiosos puedan dar a la sociedad:

sgae.es/robots.txt

SGAE ladrones mafiosos monopolio robots.txt google

SGAE ladrones robots.txt google


El de la Casa Real también es curioso, parece que no le tienen cariño a Urdangarín:

casareal.es/robots.txt

robots.txt Casa Real Urdangarin


El archivo robots de last.fm refleja una broma que hace referencia a las tres leyes de la robóticas de Isaac Asimov

last.fm/robots.txt
Las tres leyes de la robótica de Isaac Asimov en robots.txt de last.fm


Por último una broma de Google. En el hipotético caso de que surgiera SkyNet para exterminar a la especia humana, Larry Page y Sergei Brin, los fundadores de Google, quieren asegurarse de que estarán a salvo de sus Terminators:

google.com/killer-robots.txt

Google Sergei Brin Larry Page Terminator

¡Aunque tal vez no sea ninguna broma y estén tramando algo!.

SkyNet hand mano T-800