Robots.txt

robotsEl Robots.txt es un archivo de texto que (permite o impide) que un rastreador web, rastree páginas determinadas de tu sitio. Se conoce como protocolo de exclusión de robots o protocolo de robots.txt. Referencia: http://es.wikipedia.org/wiki/Es%C3%A1ndar_de_exclusi%C3%B3n_de_robots

El archivo esta compuesto por directivas, que le indican a los rastreadores web las URL’s que pueden recuperar y las que no.

Ubicación de este archivo: Alojado en el directorio raíz del alojamiento web.

Se puede obtener mas información en el sitio oficial: http://www.robotstxt.org/.

Directivas

robots1

Directivas del archivo robots.txt

Desventajas

Este protocolo de exclusión de robots o protocolo de robots.txt se basa en la confianza de los robots ( rastreadores) de cada buscador web aplicar las directivas escritas dentro del archivo robots.txt que marca una o más áreas de un sitio fuera de los límites de búsqueda.

IMPORTANTE: Estas directivas no son necesariamente tomadas en cuenta por los robots e incluso entre ellos mismos cambian la sintaxis de las directivas.

Generador de robots.txt

Existen servicios online generadores de creación de estos archivos robots.txt:

Un ejemplo de ellos es:

Robot Control Code Generation Tool: http://www.mcanerin.com/en/search-engine/robots-txt.asp

Saludos, comparte y comenta

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

w

Conectando a %s