Archivo robots.txt para los buscadores

Archivo robots.txt para los buscadores

El robots.txt es un archivo de texto que se instala en el sitio web, específicamente en la raíz del dominioPrincipalmente, es utilizado para impedir que los robots de ciertos buscadores rastreen contenido que no deseamos que indexen, ni muestren en sus resultados.

Este archivo de texto no es un mecanismo para mantener una página web fuera de Google, ya que para esto sirven las etiquetas con las directivas index o noindex. Este tipo archivo es principalmente utilizado para gestionar el tráfico de los robots rastreadores a tu sitio web.


De esta manera, si existen ciertos archivos multimedia como imágenes, vídeos y páginas dentro de un sitio web, se puede habilitar o deshabilitar el la lectura y acceso de cualquier robot de los buscadores.

¿Para qué nos sirve el archivo robots.txt?

Para que ciertas página o directorios del sitio web no sean accesibles a los buscadores.
Para bloquear el acceso de los robots a ciertos archivos o carpetas del sitio web.
Para indicarle al robot la ubicación del sitemap o mapa del sitio.

3 limitaciones del archivo robots.txt

  1. Las instrucciones de robots.txt son solo indicaciones, ya que, si se quiere bloquear o restringir el acceso a determinado sitio web, hay que emplear otras técnicas.
  2. Los distintos robots rastreadores interpretan la sintaxis de varias formas, y estas hay que conocerlas para poder dirigirnos a los distintos robots según sus propios códigos.
  3. Las páginas bloqueadas mediante un archivo robots.txt todavía pueden indexarse si hay enlaces a ellas en otros sitios web, para esto hay que proteger con contraseña los archivos en el servidor.

Para poder crearlo, necesitamos acceso a la raíz del dominio y subir el archivo en formato texto con nombre “robots.txt”, al directorio raíz de primer nivel del servidor de nuestra web.

Archivo robots.txt para los buscadores
Un ejemplo de archivo robots.txt

Principales comandos del robots.txt

  • User-agent: o agente de usuario, son los robots o arañas de los motores de búsqueda. En este enlace encontrarás una lista con la mayoría de robots rastreadores que conocemos en internet.

Su sintaxis sería:

User-agent: [nombre del robot al que aplicaremos la regla]

  • Disallow: indica al agente de usuario o user agent que no debe acceder, rastrear ni indexar una URL, subdirectorio o directorio concreto.

Disallow: [directorio que quieres bloquear]

  • Allow: surge como contra al anterior, con él indicas al rastreador una URL, subdirectorio o directorio al que si queremos que se entre, rastree o indexe.

Allow: [URL de un directorio o subdirectorio bloqueado que quieres desbloquear]


Cuando se especifica la regla allow o disallow solo se aplican a los agentes de usuarios que previamente se han mencionado en el inicio del archivo. Se puede incluir en diferentes líneas varios allow o disallow a diferentes url o carpetas del sitio web.

¿Cómo instalar y probar un robots.txt?

La creación del archivo robots.txt es muy fácil. Para instalarlo hay que darle acceso al archivo en la raíz del dominio y subir el archivo en formato texto con el nombre “robots.txt” al directorio de la raíz de primer nivel de nuestro servidor.

Una vez que tengas el archivo de texto listo, antes de subirlo, puedes ir a la herramienta de Google Search Console y en el apartado de Googlebot se leerá el archivo y te informarán de los posibles errores que pueda tener.

Siempre debemos tener claro que el archivo robots.txt es de acceso público, es decir, cualquier persona que tenga acceso a internet podría verlo.

Si quisiéramos bloquear acceso a cierto contenido de nuestro sitio web, no deberíamos utilizar este archivo como herramienta, sino proteger con contraseña en el servidor aquellas páginas que no queremos sean de conocimiento público.

Si quieres conocer más técnicas de posicionamiento SEO, SEM, analytics, gestión de páginas en WordPress, te recomendamos que realices un Máster presencial en Marketing Digital, para que así te formes y capacites más para el mercado digital que cada día crece y evoluciona más.

Bloguero apasionado por las aplicaciones web, software, apps móviles, SEO, IA, redes sociales y tecnología en general.

Entradas relacionadas

ThinkAny

ThinkAny: un nuevo motor de búsqueda impulsado por IA

La irrupción de la Inteligencia Artificial (IA) ha cambiado la forma en que utilizamos la tecnología y el ámbito de la búsqueda de información no es una…

AI Up House

AI Up House: el buscador de imágenes gratuitas generadas por IA

Si buscas una herramienta que te permita encontrar imágenes generadas por IA de forma rápida, AI Up House es la solución perfecta. Este innovador motor de búsqueda…

ProfileDiscover

ProfileDiscover: un nuevo buscador de perfiles en Redes Sociales

Las redes sociales se han convertido en una parte muy importante de nuestras vidas. Las utilizamos para conectar con amigos, familiares, compañeros de trabajo e incluso influencers….

Simple SEO Tool

Simple SEO Tool: sencilla extensión de Chrome para análisis SEO

El SEO es un componente fundamental para el éxito de cualquier sitio web en la actualidad. Sin embargo, optimizar una página web para los motores de búsqueda…

Globe Explorer

Globe Explorer: motor de búsqueda con IA y resultados visuales

En los últimos tiempos, hemos sido testigos de cómo la Inteligencia Artificial (IA) está transformando la manera en la que navegamos en internet. Uno de los mayores…

Crear arti?culos optimizados para SEO

Crear artículos optimizados para SEO desde vídeos de YouTube

En el mundo de la creación de contenido en línea, la optimización para motores de búsqueda (SEO) es clave para lograr visibilidad. YouTube Summarizer por SiteSpeakAI destaca…