Escrito por jlseom 15 dUTC diciembre dUTC 2010 6 Comentarios

En la anterior entrada primeros pasos para un seo, se especifico la forma en la cual trabaja una spider de un motor de busqueda y cuales eran los registros que estas dejaban en el servidor. Ahora intentaré describir la forma de configurar robot.txt.

El archivo robot.txt será lo primero que la spider intentará localizar en nuestro sitio, lo que busca es ver en un archivo que partes de un sitio puede indexar y cuales no. Así que aquí será donde le indicaremos que puede o no puede indexar, más adelante comentaré la posibilidad de incluir una etiqueta meta para hacer que no nos indexe una página en particular.

Discriminar entre Robots

El archivo robot.txt seguira los estándares del protocolo de exclusión de robots. La primera parte en este archivo hará referencia al agente de usuario, User-agent, esta etiqueta se usará para indicar que robots pueden o no pueden pasar a determinados sitios.

User-agent: *

El asterisco, indicara que todos los robot tienen que seguir las ordenes que se le dan a continuación. Cómo he indicado se puede indicar que robots pueden pasar o no, esta es una lista de los nombres que tendríamos que añadir a User-agent:

  • Google: Googlebot
  • Bing: MSNbot
  • Yahoo: Yahoo SLURP o sólo SLURP

Estos son los principales, de esta forma esta primera sentencia quedaría así, para indicar al robot de google que no indexe:

User-agent: Googlebot

Deshabilitar Carpetas

A continuación vamos a indicar que es lo que no tiene que indexar, esto se hará con la orden Disallow:, por ejemplo, no queremos que no indexe lo que esta contenido en la campeta de temporales de nuestro sitio, la carpeta es /tmp/, la orden la formularíamos así:

Disallow: /tmp/

Podemos ir añadiendo consecutivamente cuales son las partes que estan desabilitadas para la indexación de las spider, Disallow: /private/, Disallow: /cache/, etc.

Deshabilitar Links

Otra orden que podemos indicar a los robots es que no indexen los link de una determinada página, imaginemos que el contenido es importante y queremos que no lo tenga en cuenta, pero hemos incluido multitud de enlaces porque es una página de recursos y no queremos que lo siga, la página se llama recursos.html, con esto iremos al archivo robots.txt y añadiremos la siguiente orden:

Disallow: /links/recursos.html

Dejaremos inhabilitados todos los link de esa página para los indexizadores, pero el contenido si que lo tendrán disponible. En el caso en el que queramos desactivar una pagina dentro de nuestro sitio desde robots.txt, tendrémos que tener en cuenta los enlaces que provienen de otras páginas, quiere decir que si deshabilitamos una página de robots.txt, que esta siendo linkeada desde otros sitios, lo más probable que el robot acabe indexando la página que hemos intentado sacar de la indexación. Es importante tener esto en cuenta y solamente desactivar desde robots.txt las páginas que realmente no tienen una importancia vital en nuestra web, cómo contacto, etc.

Establecer un horario para Robots

Otro uso de robots.txt, sería indicarle a los robots cuando pueden indexar el sitio, imaginemos que tenemos nuestro sitio en un servidor con limitación de caudal, tenemos observado que ha determinadas horas el pico de usuarios de la web acaban con nuestro ancho de banda, tenemos por lo tanto preveninos para que los robots no accedan en esos momentos. La orden quedaría de la siguiente forma:

Allow: 12pm - 7pm

Permitiremos así que los robots sólo accedan en este horario, no causando molestias a los usuarios en los picos de mayor tráfico.

Distintas ordenes, estructura correcta

Los forma en la que los robots leen el archivo robots.txt, es fundamental para construir las ordenes, el robot, no leerá todo el archivo si localiza en primer lugar las directrices que tiene que seguir. Un ejemplo práctico, tenemos la hoja de contacto, que no queremos que sea indexada, en particular por el robot de google, los demás robot lo podrán indexar. ¿Cómo realizamos esa formulación?

  • Forma erronea
    • User-Agent: *
    • Disallow: /tmp/
    • User-Agent: Googlebot
    • Disallow: /tmp/
    • Disallow: /contacto.html

Con este archivo realmente lo que estamos diciendo es que todos los robots no pueden indexar la carpeta /tmp/, al leer esto el Googlebot dejará de leer y comenzará a indexar el sitio.

  • Forma Correcta
    • User-Agent: Googlebot
    • Disallow: /tmp/
    • Disallow: /contacto.html
    • User-Agent: *
    • Disallow: /tmp/

De esta forma el Googlebot leera lo que no puede indexar y comenzará a indexar, los demás robots buscarán la orden con asterisco que le esta indicando que no pueden leer y saltarán a indexar nuestro sitio. Es importante recordar que tenemos que ir de lo más específico a lo más general.

Metaetiqueta robots

Otra forma de indicar que tiene que hacer un robot con una página es incluir la metaetiqueta robots en la cabezera de la página, bastante útil si no tenemos acceso directo a nuestro servidor, la etiqueda se formularía de la siguiente forma:

<meta name="robots" content=" vacio de momento">

Cómo con el archivo robots con esta etiqueta le indicaremos a los robot que hacer con esta página y esto se lo indicaremos en el campo content, tenemos varios componentes:

  • index, el robot indexará la página.
  • follow, el robot seguirá los enlaces.
  • noindex, no indexará la página.
  • nofollow, el robot no seguirá los enlaces.

Una formulación completa de esta meta etiqueta en la que indicaremos al robot que indexe pero no siga los link sera:

<meta name="robots" content="index, nofollow">

Spambots

Por último mencionar que ninguno de los spambots harán caso a todas las indicaciones que aquí hagamos, ya que no van a buscar nunca este archivo, su tarea no es esa, sino rastrear todo el sitio en busca de un direcciones de correo, debilidades de la web o para lo que hayan sido programados.

Reflexiones Seo sobre robots.txt

Todas estas formas que he expuesto son usadas para poder controlar que queremos que sea indexado, la cuestión principal para un seo será si en los casos que se le indica a los robots, ya sea por la metaetiquetas o a través del archivo robot.tx, que no sigan a los enlaces si realmente lo harán o nos bajará la potencia de los otros enlaces por que cuenta con estos, aún habiendole indicado que no lo haga. ¿Qué pensais?

Entradas relacionadas

6 Responses so far.

  1. Vargas, José. | Gran Hermano 2012 en vivo dice:

    Hola, mi nombre es José y soy periodista de un blog sobre un programa de TV Argentina.

    Antes que nada decirte muchas gracias por el artículo, detallas todo muy bien.

    Quisiera consultarte si tienes idea de como hacer para que el robot de google no lea una párrafo del articulo ingresado al blog. Esto lo pregunto porque utilizo muchas frases dichas por famosos que ya están ingresadas en varios artículos webs, por lo cual sería contenido duplicado, lógico que el resto del contenido es original, pero la cita no.

    Gracias, saludos!
    José Vargas – Periodista

    • jlseom dice:

      Hola José,

      Te puedo comentar que hace tiempo (3 años aproximadamente) si que existía una etiqueta, que apareció en el portal de Apple, era especifica de google y servia para lo que quieres, es decir bloquear párrafos al motor para que no lo indexe, actualmente no sé si esta etiqueta sigue siendo valida, aunque realmente ya ni la recuerdo, no sé si alguien la recuerda y puede comentarlo

  2. Vargas, José. | Gran Hermano 2012 en vivo dice:

    Me parece muy poco ético que tu blog tengas comentarios, admita website y luego termines editando el comentario que amablemente hice hacia tu artículo para sacarle mi dirección web. De qué se trata esto? Hasta luego.

  3. sergy dice:

    Mi pregunta seria ahy que creea un archivo para mejorar de los motores abituales de la siguiente manera y si es correcto hacer eso.?

    User-Agent: *
    Disallow:

    o asi es el recomendable..?

    User-Agent: *
    All:

    O simplemente no hay que hacerlo y no poner el archivo en blanco?