Robots.txt

robotsEl Robots.txt es un archivo de texto que (permite o impide) que un rastreador web, rastree páginas determinadas de tu sitio. Se conoce como protocolo de exclusión de robots o protocolo de robots.txt. Referencia: http://es.wikipedia.org/wiki/Es%C3%A1ndar_de_exclusi%C3%B3n_de_robots

El archivo esta compuesto por directivas, que le indican a los rastreadores web las URL’s que pueden recuperar y las que no.

Ubicación de este archivo: Alojado en el directorio raíz del alojamiento web.

Se puede obtener mas información en el sitio oficial: http://www.robotstxt.org/.

Directivas

robots1

Directivas del archivo robots.txt

Desventajas

Este protocolo de exclusión de robots o protocolo de robots.txt se basa en la confianza de los robots ( rastreadores) de cada buscador web aplicar las directivas escritas dentro del archivo robots.txt que marca una o más áreas de un sitio fuera de los límites de búsqueda.

IMPORTANTE: Estas directivas no son necesariamente tomadas en cuenta por los robots e incluso entre ellos mismos cambian la sintaxis de las directivas.

Generador de robots.txt

Existen servicios online generadores de creación de estos archivos robots.txt:

Un ejemplo de ellos es:

Robot Control Code Generation Tool: http://www.mcanerin.com/en/search-engine/robots-txt.asp

Saludos, comparte y comenta

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s