¿Qué es el archivo Robots.txt?

¿Qué es el archivo Robots txt?

Imagen: Robots txt – Autor: Seobility – Licencia: CC BY-SA 4.0

Robots.txt es un archivo de texto que indica cuáles son las áreas de un sitio web a las que pueden acceder los robots de rastreo.

En realidad, el archivo Robots.txt no especifica a qué áreas pueden ingresar los bots de Google y otros rastreadores, sino que más bien, bloquea el ingreso de las arañas a aquellos sectores que están excluidos. Eso sí, este archivo no protege contra accesos no autorizados.

Así pues, con Robots.txt se pueden excluir dominios enteros del rastreo de los buscadores muy fácilmente, así como directorios completos, subdirectorios e inlcuso archivos individuales. Para ello, se almacena el archivo en el directorio raíz de un dominio, siendo este el primer documento que abren los rastreadores al visitar un sitio web.

Además, el control del rastreo web es solo una de sus muchas funciones, ya que también se le puede añadir un enlace al sitemap HTML para ofrecer a los robots de Google una visión general de las URL incluidas en ese dominio.

Robots.txt Checker

Comprueba la configuración del archivo robots.txt en tu web

¿Cómo funciona el archivo robots.txt?

En 1994 se publicó un protocolo al que llamaron Robots Exclusion Standard Protocol (REP), en el que se estipula que todas las arañas web deben iniciar con el archivo robots txt ubicado en el directorio raíz de un sitio web para leer las instrucciones que contiene antes de comenzar la indexación de la página web.

Según ya fue mencionado, el archivo debe estar ubicado en el directorio raíz del dominio y escrito en minúsculas para que los robots lean y entiendan sus instrucciones, ya que solo son sensibles a las minúsculas.

Y aunque no todos los robots cumplen con las reglas, el archivo funciona bien con los buscadores más importantes que son: Bing, Yahoo y Google, los cuales siguen con exactitud el REP y las instrucciones del archivo robots text.

Asimismo, en la práctica, robots txt puede utilizarse para diferentes tipos de archivos. Por ejemplo, si se emplea para archivos de imagen, impide que estos aparezcan en los resultados de búsqueda de Google y, de igual manera, los archivos menos importantes como los de script o de estilo también pueden bloquearse fácilmente.

Además, se puede excluir del rastreo las páginas web generadas dinámicamente con solamente usar los comandos adecuados. Por ejemplo, se pueden bloquear las páginas de resultados de una función de búsqueda interna, las de identificación de usuario o las acciones como la del carrito de compra.

De este modo, se pueden evitar los siguientes escenarios:

Que los robots rastreen muchas páginas web similares o sin importancia.
Gasto del presupuesto de rastreo desperdiciado sin necesidad.
Servidores sobrecargados de rastreadores.

En este contexto, también hay que considerar que el archivo robots txt no garantiza que el sitio o las subpáginas individuales no se indexen. Solo controla el rastreo del sitio web, pero no su indexación. Así, en el caso de preferir que las páginas web no sean indexadas, es necesario incluir la siguiente metaetiqueta en la cabecera de cada página:

<meta name="robots" content="noindex">

Sin embargo, se debe tener precaución de no bloquear aquellos archivos que resultan relevantes para los robots de búsqueda, ni tampoco los archivos CSS y JavaScript, ya que estos son utilizados para el rastreo e indexación de dispositivos móviles.

¿Qué instrucciones se utilizan en robots.txt?

El archivo robots txt debe guardarse como un archivo de texto UTF-8 o ACSII en el directorio raíz de la página web y es recomendable que solo exista un archivo con este nombre.

Aquí se incluyen uno o varios conjuntos de reglas estructurados en un formato claramente legible para los rastreadores. De este modo, cuando los robots procesan la información de arriba hacia abajo, solo consideran las minúsculas.

El archivo robots.txt contiene los siguientes comandos:

User agent o nombre del robot: describe el nombre del rastreador al que se dirige (se pueden encontrar en la base de datos de robots).
Disallow o desautorizado: impide el rastreo de determinados archivos, directorios o páginas web.
Allow o permitir: permite el rastreo de archivos, páginas web y directorios.
Sitemaps (opcional): muestra la ubicación del mapa HTML o XML del sitio.
*: representa cualquier número de caracteres.
$: representa el final de la línea.

Todas las instrucciones o entradas para los robots txt constan de dos partes. Primero, se define para qué robot aplican las instrucciones, mientras que la segunda parte contiene la indicación de permitir o rechazar. Por lo tanto, el resultado se vería de este modo:

User agent: «GoogleBot»
Instrucción: «desautorizado: /clientes/»

Este ejemplo anterior es una instrucción para indicar a Googlebot que no está autorizado a rastrear el directorio /clientes/.

En el caso de que un sitio web completo no deba ser rastreado por un bot de búsqueda, la instrucción cambiaría a lo siguiente:

User agent: «*»
Instrucción: «desautorizar: /». (En este caso se puede utilizar el signo de dólar «$» para bloquear páginas web que tengan una extensión determinada).

Por otra parte, la instrucción «disallow: /* .doc$» bloquea todas las URL con extensión .doc. Del mismo modo, es posible bloquear formatos de archivo específicos sugiriendo otras extensiones, como se muestra en la siguiente línea:

Robots.txt: «disallow: /*.jpg$».

Por ejemplo, el archivo robots.txt del sitio web https://www.ejemplo.com/ se vería de este modo:

User agent: *
Disallow: /login/ #Para inicio de sesión
Disallow: /card/ #Tarjetas
Disallow: /fotos/ #Para las imágenes
Disallow: /temp/ #Para archivos temporales
Disallow: /search/ #Para las búsquedas
Disallow: /*.pdf$ #Para documentos de extensión PDF

Sitemap: https://www.ejemplo.com/sitemap.xml

¿Qué papel juega el archivo robots.txt en el SEO?

Las instrucciones de un archivo robots.txt tienen gran influencia en el SEO, ya que permite controlar a los robots de búsqueda a su favor.

Cabe mencionar que, si los user agents se restringen con demasiadas instrucciones de desautorización, puede acarrear consecuencias negativas para el ranking del sitio web. Además, es importante considerar que si se restringen páginas web completas, no figurarán en el ranking de las SERPs.

Por otra parte, cuando no hay restricciones o existen muy pocas, también puede perjudicar al website, ya que puede que se indexen páginas con contenido duplicado, lo que terminará por afectar el ranking de las páginas web o el sitio web en general.

Previo al guardado del archivo en el directorio raíz del portal, conviene comprobar su sintaxis por si existe un mínimo error, los robots pueden ignorar las reglas de rechazo, aceptación e indexación, e implementar una acción no deseada.

Los errores de sintaxis pueden provocar que las páginas dejen de ser accesibles para los robots de búsqueda y que URLs completas no se indexen por estar desautorizadas por un fallo.

Por todo esto, y para mayor tranquilidad de las y los webmasters, se puede comprobar si el archivo robots txt no incluye errores mediante el uso de la Google Search Console. Ingresando en: “Estado actual” y luego en “Errores de rastreo» se puede acceder al listado de páginas bloqueadas por las instrucciones disallow.

Finalmente, al emplear correctamente el archivo robots txt se garantiza que el contenido más importante del sitio web pueda ser rastreado por los robots y que toda la información de la página sea indexada por Google u otros motores de búsqueda.

Robots txt

¿Qué es el archivo Robots txt?

Robots.txt Checker

¿Cómo funciona el archivo robots.txt?

¿Qué instrucciones se utilizan en robots.txt?

¿Qué papel juega el archivo robots.txt en el SEO?

Ampliar conocimientos

Contenidos relacionados