Cómo configurar correctamente el robots.txt de tu web

En esta oportunidad quiero mostrarte como configurar el robots.txt, un archivo en texto plano que ubicas en la raíz de tu servidor y a través del cual puedes, por así decirlo, controlar, a todos los buscadores.

Te vamos a enseñar como configurarlo de la manera adecuada, para que no tengas mayores percances durante la instalación.

Como configurar el Robots.txt

Antes de configurar el robots.txt, debes saber que el formato básico de un archivo robots.txt es:

User-agent: *

Allow: /

El símbolo “*” que aparecen en la primera línea, quiere decir que nos estamos dirigiendo a todos los robots que entren en nuestra página, mientras la segunda línea “Allow: /” nos está indicando a todos estos robots que nuestra intención es que estos puedan entrar e indexar todas la páginas de nuestro sitio web.

Sin embargo, en muchas ocasiones tenemos en nuestro sitio web, carpetas o archivos en los cuales no nos interesa que sean indexados puesto que no aportan ningún beneficio a nuestra página, mensajes que no representan ninguna importancia para nuestros usuarios, tales como script o mensajes guardados. En este caso podemos decirle a los robots que algunas de estas carpetas no tienen que ser indexadas.

Para realizar esta labor de manera sencilla,y lograr configurar el robots.txt vas a utilizar la siguiente conformación:

User-agent: *

Disallow: /js/

Disallow: /cgi/

 

En la primera línea del ejemplo anterior, estamos indicando que nos dirigimos a todos los robots que ingresen a la página, en las siguientes dos líneas, estamos sacando de la indexación a dos carpetas, a través del comando “Disallow”, le estamos diciendo al robot que no indexe la página, el archivo o la carpeta que citamos a continuación, utiliza siempre una línea con el comando “Disallow” para cada carpeta, archivo o página que desees evitar.

En algunas ocasiones incluso puedes desear eliminar un robot específico por algún motivo, en este caso puedes utilizar la siguiente conformación:

User-agent: Slurp

Disallow: /js/

User -agent: *

Allow: /

En la línea 1 del ejemplo anterior, nos dirigimos al robot de Yahoo (Slurp) y en la línea 2 le estamos indicando que nos indexe la carpeta js, mientras que en la línea 3 nos dirigimos  a todos los robots y les estamos diciendo que indexen toda la página.

Como te puedes dar cuenta, al configurar el Robots.txt, primero nos estamos dirigiendo a un robot en particular y luego a los demás robots, debido a que estos, leen de arriba hacia abajo y acatan las ordenes del archivo robots.txt en la medida en que las van encontrando, si quieres bloquear diferentes carpetas para diferentes robots, siempre te dirigirás primero a cada robot en particular y luego, al resto de robots en general quedando una configuración como:

User-agent: Slurp

Disallow: /js/

User-agent: Scooter

Disallow: /js/

Disallow: /img/”

User-agent: Teoma

Disallow: /

User -agent: *

Allow: /

En este ejemplo final, le indicamos al robot Slurp que indexe todo nuestro sitio, menos la carpeta “js”, y luego le decimos al robo Scooter que indexe todo, menos las carpetas “js” e “img”, mientras que al robot Teoma le decimos que no indexe nada y finalmente nos dirigimos a los demás robots y les indicamos que lo indexen todo.

Para que no te compliques la vida, te voy a dejar uno, que es el que uso y consegui en la web de un colega, donde se configura el robot.txt de una manera muy profesional.

Solo debes copiar esto y pegarlo en un blog de notas, guardarlo con el nombre de robo.tx y subirlo al dominio raiz de tu sitio web o blog:

#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad
# http://trucosblogger.net
#
# Primero el contenido adjunto.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php
Disallow: /wp-
#
# Sitemap permitido, búsquedas no.
#
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#
# A partir de aquí es opcional pero recomendado.
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante…
# Añadir al gusto del consumidor…
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10

Leave a Reply