Robots txt

De Seobility Wiki
Saltar a: navegación, buscar

¿Qué es el archivo Robots txt?

Robots txt
Imagen: Robots txt - Autor: Seobility - Licencia: CC BY-SA 4.0

Robots.txt es un archivo de texto que indica cuáles son las áreas de un sitio web a las que pueden acceder los robots de rastreo.

Para desarrollar su tarea, el archivo Robots.txt no nombra explícitamente a qué áreas pueden o no ingresar los bots de Google y otros rastreadores, sino que, imposibilita el ingreso de las arañas en aquellos sectores que están excluidos. No obstante, este archivo no protege contra accesos no autorizados.

De este modo, mediante el uso de este archivo de texto se pueden excluir fácilmente del rastreo de los buscadores a dominios enteros, directorios completos, uno o varios subdirectorios y también archivos individuales.

Para que pueda funcionar de manera correcta, el archivo Robots.txt se almacena en el directorio raíz de un dominio, siendo este el primer documento que abren los rastreadores al visitar un sitio web.

Además, entre sus funciones, el control del rastreo web es solo una de ellas. También se puede integrar un enlace al sitemap HTML para ofrecer a los robots de Google una visión general de las URL incluidas en ese dominio.

Robots.txt Checker

Comprueba la configuración del archivo robots.txt en tu web

¿Cómo funciona el archivo robots.txt?

En 1994 se publicó un protocolo al que llamaron Robots Exclusion Standard Protocol (REP), en el que se estipula que todas las arañas web deben iniciar con el archivo robots txt ubicado en el directorio raíz de un sitio web para leer las instrucciones que contiene antes de comenzar la indexación de la página web.

Según ya fue mencionado, el archivo debe estar ubicado en el directorio raíz del dominio y escrito en minúsculas para que los robots lean y entiendan sus instrucciones, ya que solo son sensibles a las minúsculas.

Y aunque no todos los robots cumplen con las reglas, el archivo funciona bien con los buscadores más importantes que son: Bing, Yahoo y Google, los cuales siguen con exactitud el REP y las instrucciones del archivo robots text.

Asimismo, en la práctica, robots txt puede utilizarse para diferentes tipos de archivos. Por ejemplo, si se emplea para archivos de imagen, impide que estos aparezcan en los resultados de búsqueda de Google y, de igual manera, los archivos menos importantes como los de script o de estilo también pueden bloquearse fácilmente.

Además, se puede excluir del rastreo las páginas web generadas dinámicamente con solamente usar los comandos adecuados. Por ejemplo, se pueden bloquear las páginas de resultados de una función de búsqueda interna, las de identificación de usuario o las acciones como la del carrito de compra.

De este modo, se pueden evitar los siguientes escenarios:

  • Que los robots rastreen muchas páginas web similares o sin importancia.
  • Gasto del presupuesto de rastreo desperdiciado sin necesidad.
  • Servidores sobrecargados de rastreadores.

En este contexto, también hay que considerar que el archivo robots txt no garantiza que el sitio o las subpáginas individuales no se indexen. Solo controla el rastreo del sitio web, pero no su indexación. Así, en el caso de preferir que las páginas web no sean indexadas, es necesario incluir la siguiente metaetiqueta en la cabecera de cada página:

<meta name="robots" content="noindex">

Sin embargo, se debe tener precaución de no bloquear aquellos archivos que resultan relevantes para los robots de búsqueda, ni tampoco los archivos CSS y JavaScript, ya que estos son utilizados para el rastreo e indexación de dispositivos móviles.

¿Qué instrucciones se utilizan en robots.txt?

El archivo robots txt debe guardarse como un archivo de texto UTF-8 o ACSII en el directorio raíz de la página web y es recomendable que solo exista un archivo con este nombre.

Aquí se incluyen uno o varios conjuntos de reglas estructurados en un formato claramente legible para los rastreadores. De este modo, cuando los robots procesan la información de arriba hacia abajo, solo consideran las minúsculas.

El archivo robots.txt contiene los siguientes comandos:

  • User agent o nombre del robot: describe el nombre del rastreador al que se dirige (se pueden encontrar en la base de datos de robots).
  • Disallow o desautorizado: impide el rastreo de determinados archivos, directorios o páginas web.
  • Allow o permitir: permite el rastreo de archivos, páginas web y directorios.
  • Sitemaps (opcional): muestra la ubicación del mapa HTML o XML del sitio.
  • *: representa cualquier número de caracteres.
  • $: representa el final de la línea.

Todas las instrucciones o entradas para los robots txt constan de dos partes. Primero, se define para qué robot aplican las instrucciones, mientras que la segunda parte contiene la indicación de permitir o rechazar. Por lo tanto, el resultado se vería de este modo:

User agent: "GoogleBot" Instrucción: "desautorizado: /clientes/"

Este ejemplo anterior es una instrucción para indicar a Googlebot que no está autorizado a rastrear el directorio /clientes/.

En el caso de que un sitio web completo no deba ser rastreado por un bot de búsqueda, la instrucción cambiaría a lo siguiente:

User agent: "*" Instrucción: "desautorizar: /". (En este caso se puede utilizar el signo de dólar "$" para bloquear páginas web que tengan una extensión determinada).

Por otra parte, la instrucción "disallow: /* .doc$" bloquea todas las URL con extensión .doc. Del mismo modo, es posible bloquear formatos de archivo específicos sugiriendo otras extensiones, como se muestra en la siguiente línea:

Robots.txt: "disallow: /*.jpg$".

Por ejemplo, el archivo robots.txt del sitio web https://www.ejemplo.com/ se vería de este modo:

User agent: *
Disallow: /login/ (Para inicio de sesión)
Disallow: /card/ (Tarjetas)
Disallow: /fotos/ (Para las imágenes)
Disallow: /temp/ (Para archivos temporales)
Disallow: /search/ (Para las búsquedas)
Disallow: /*.pdf$ (Para documentos de extensión PDF)

Sitemap: https://www.ejemplo.com/sitemap.xml

¿Qué papel juega el archivo robots.txt en el SEO?

Las instrucciones de un archivo robots.txt tienen gran influencia en el SEO, ya que permite controlar a los robots de búsqueda a su favor.

Cabe mencionar que, si los user agents se restringen con demasiadas instrucciones de desautorización, puede acarrear consecuencias negativas para el ranking del sitio web. Además, es importante considerar que si se restringen páginas web completas, no figurarán en el ranking de las SERPs.

Por otra parte, cuando no hay restricciones o existen muy pocas, también puede perjudicar al website, ya que puede que se indexen páginas con contenido duplicado, lo que terminará por afectar el ranking de las páginas web o el sitio web en general.

Previo al guardado del archivo en el directorio raíz del portal, conviene comprobar su sintaxis por si existe un mínimo error, los robots pueden ignorar las reglas de rechazo, aceptación e indexación, e implementar una acción no deseada.

Los errores de sintaxis pueden provocar que las páginas dejen de ser accesibles para los robots de búsqueda y que URLs completas no se indexen por estar desautorizadas por un fallo.

Por todo esto, y para mayor tranquilidad de las y los webmasters, se puede comprobar si el archivo robots txt no incluye errores mediante el uso de la Google Search Console. Ingresando en: “Estado actual” y luego en “Errores de rastreo" se puede acceder al listado de páginas bloqueadas por las instrucciones disallow.

Finalmente, al emplear correctamente el archivo robots txt se garantiza que el contenido más importante del sitio web pueda ser rastreado por los robots y que toda la información de la página sea indexada por Google u otros motores de búsqueda.

Ampliar conocimientos

Contenidos relacionados