qué es, para qué sirve y cómo funciona para SEO

Entre las diversas atenciones que debe prestar al sitio web se encuentra la dedicada a robots.txt, un elemento decisivo en la estructura de su obra. Porque muchas veces te invitan a improvisar, a crear tú mismo un sitio web. Pero luego hay una serie de pasos que deben ser atendidos.

robots.txt
Y lo más importante, logró evitar problemas. O tal vez para aprovechar al máximo lo que tienes. Este es un paso al que ya nos hemos enfrentado con el archivo .htaccess y que hoy quiero retomar con el archivo robots.txt. Un recurso que asusta a los menos acostumbrados al tema, pero que los webmasters conocen bien: ¿Para qué sirve? ¿Cómo debe presentarse? Un paso a la vez.

Qué es robots.txt: una definición

¿Busquemos juntos una buena definición de robots.txt? Entonces, con este término queremos decir un archivo de texto, simple y llanamente, para ser colocado en la carpeta raíz de su sitio web. Por eso, basta con seguir la dirección www.mydomain.it/robots.txt para localizar el archivo en cuestión.

Un buen resumen sobre el tema: robots.txt se utiliza para comunicarse con los motores de búsqueda. Si bien las etiquetas meta de Google sugieren información con respecto a la página única, este documento es leído por el rastreador para organizar mejor el escaneo del contenido. ¿Cómo? ¿Con qué principios?

Para saber más: qué es y cómo usar FTP

Cómo funciona el archivo robots.txt de un sitio

Con robots.txt puedes dar directivas sobre el acceso a ciertas carpetas o recursos. Para ser precisos, puede limitar la atención del rastreador, el propio Google sugiere que las instrucciones incluidas en este archivo no son obligatorios para todos y en cada situación:

Los comandos en el archivo no son reglas que todos los rastreadores deben seguir, sino que son pautas para acceder a los sitios. Googlebot y otros rastreadores web respetables siguen las instrucciones contenidas en un archivo, pero es posible que otros rastreadores no sigan su ejemplo.

Pero, ¿cuál es la aplicación concreta de esta herramienta? A través de la información que queda en el archivo robots.txt, por ejemplo, puede sugerirle a una araña (no necesariamente a todos, tal vez solo a Google) que no ingrese a un cierta carpeta. O no indexar una página. ¿Necesitas un ejemplo claro de robots.txt? Perfecto, lee el siguiente párrafo.

Ejemplo de robots.txt: cómo se escribe

Este es el paso clave para aquellos que tienen que empezar a trabajar y quieren crear un archivo robots.txt: ¿cómo escribirlo? ¿Cuáles son los comandos para interactuar con las arañas que monitorean el sitio web? Simple, hay una sintaxis compartida para ser respetada en todo caso.

User-Agent: *
Disallow:

Aquí hay un ejemplo de robots.txt. Por agente de usuario nos referimos a la araña que se tiene en cuenta, y cuando ve el asterisco significa que el comando está dirigido a todos. Con rechazar pretende no permitir el acceso: este punto puede repetirse cada vez que desee limitar el acceso a un recurso. Aquí hay otra combinación muy común.

User-agent: *
Disallow: /cartella_con_file_privati/
Disallow: /cartella_pubblica/file_privato.html

User-agent: SpiderInutile
Disallow: /

En este caso el archivo robots.txt es más complejo, pero ¿qué indica? En la primera parte sugiere a todas las arañas indexar el sitio, excepto la carpeta con archivos privados que podrían ser los incluidos en un área privada dedicada únicamente a quienes se suscriben a la newsletter. Luego, en cualquier carpeta, hay un archivo que debe permanecer no público, por lo que lo excluyo.

Atención a los detalles (asterisco y barra)

En la segunda parte de robots.txt doy información importante: le comunico a esa araña, y solo a esa araña, que excluya todo el sitio de la indexación. Atención: si en lugar de la nombre de araña Inserto el asterisco y les digo a todos los rastreadores que ignoren mi sitio. Así que en Google mi trabajo será ignorado. Esta es la situación típica:

User-agent: *
Disallow: /

En este caso estoy comunicando la exclusión total del sitio web a cualquier araña. Muchas veces quien da los primeros pasos en este sector no es consciente del paso mencionado y se encuentra con un sitio no visible y no indexado debido a una simple barra incorrecta. En estos casos, aparecerá una redacción en Google: «No hay una descripción disponible para este resultado debido al archivo robots.txt de este sitio».

Generadores de robots.txt y herramientas para verificar

Hay varias herramientas para verificar robots.txt. Pero lo que sugiero es en Google Search Console. Aquí puede encontrar una herramienta que modificación y verificación el archivo, resalta los errores, le permite verificar si hay bloqueos con respecto a la araña que prefiera.

En resumen, aquí se puede hacer de todo. En comparación con la necesidad de utilizar un generador de robots.txt puedes usar este seobook.com/robots-txt/generator aunque mi consejo es simple: trabaja con un webmaster para definir tu documento. Y luego cárguelo en el directorio raíz del sitio web para indicar a los motores de búsqueda cómo moverse.

Leer: qué es y cómo insertar texto alternativo

Tu experiencia con robots.txt

¿Ya abordaste el tema? ¿Sabes configurar los pasos más delicados de este recurso? A veces un detalle es suficiente para marcar la diferencia. Por eso te sugiero que dejar en los comentarios cualquier pregunta: abordemos este tema juntos.

The following two tabs change content below.

kinobg

Apasionado del posicionamiento web y con muchos años de experiencia como SEO habiendo colaborado en muchos proyectos de webs y blogs.