Robots.txt

Que es el archivo robots.txt y como se usa es algo muy importante para cualquier sitio web.

El archivo robots.txt es cumple la funcion de marcar rutas para los robots o crawlers de los buscadores por ejemplo googlebot.
De esta manera puedo permitir o denegar el indexado de ciertas carpetas o archivos especificos a un determinado robot o a todos.
Un ejemplo de esto es que si yo tengo un sitio con un panel de administrador en la carpeta /www/admin/ puedo bloquear el indexado de esa carpeta para que no aparezca en los buscadores ya que si bien es accesible esa carpeta no la quiero publicar abiertamente.
por ejemplo:

Código:
User-agent: *
Disallow: /admin/

Esto estaria denegando a todos los robots el indexado de la carpeta /admin
 

Código:
User-agent: googlebot
Disallow: /admin/

Esto se lo estaria denegando solamente a el robot de google.

Por default se encuentran todos los indexados permitidos a menos que lo especifiquemos explicitamente.
No todos los robots soportan el * en la ruta, osea que:

Código:
Disallow: /admin/*

deberia escribirse asi:

Código:
Disallow: /admin/

y con eso seria suficiente.

Otra funcionalidad seria evitar el trafico inutil en nuestro servidor, por ejemplo en el directorio que contiene datos estadisticos de nuestro site.
osea que con un Disallow: /stats/ estariamos evitando no solo el indexado de esa carpeta sino tambien trafico inutil que genera consumo de ancho de banda y de procesamiento y recursos de sistema.

Otro punto importante es la asiduidad con la que los crawlers acceden a nuestro sitio pudiendo esto tambien incidir en el consumo de recursos de nuestro sistema.
Para esto podemos controlar el intervalo que respetaran los crawlers para acceder a nuestro sitio.
Por ejemplo:

Código:
User-agent: *
 Disallow: /admin/
 Disallow: /stats/
 Crawl-delay: 20

Esta diciendo a todos los robots que el intervalo es de 20 segundos ademas de denegar el indexado de las carpetas /admin y /stats. (Atencion: No todos los crwalers soportan esta opcion de delay, google, MSN y Yahoo si por ejemplo )

Otra opción es permitir uno o mas directorios y denegar todo el resto. (Esto lo vi en alguna guia pero se supone que no es soportado el comando Allow)
Un ejemplo:

Código:
# Permitir un directorio puntual
User-agent: Teoma
Disallow: /
Allow: /images

Esto permitiria indexar la carpeta images y no el resto.

robots.txt nos permite tambien especificar la ruta al sitemap de nuestro sitio.
Por ejemplo:

El sitemap indica todas las URLS que queremos que sean indexadas. Esto le facilita las cosas a los Robots.

 

Algunos robots soportan en los META especificar si permitis o no.
por ejemplo:
Para que no indexe una pagina y no aparezca en las busquedas ponemos el siguiente codigo en el html de la pagina en cuestion:

Código:
< META NAME = "ROBOTS" CONTENT = "NOINDEX" >

Para que permita indexar pero no siga los vínculos ponemos esto:

Código:
< META NAME = "ROBOTS" CONTENT = "NOFOLLOW" >

O denegar todo con esto:

Código:
< META NAME = "ROBOTS" CONTENT = "NONE" >

ya con eso se puede denegar una pagina puntual sin que aparezca en el robots.txt

 

Tags: 

Predefined Sections

Seccion Cisco   Seccion Linux   Seccion Microsoft   Seccion Redes   Seccion Seguridad   Seccion General