Estándar de exclusión de robots para niños
El estándar de exclusión de robots, también conocido como el protocolo de robots.txt, es una forma de indicar a los programas automáticos, llamados bots, qué partes de un sitio web no deben visitar o analizar. Estos bots son usados a menudo por los motores de búsqueda para organizar la información de las páginas web, o por los administradores de sitios web (webmasters) para revisar o mejorar el código fuente de sus páginas. El objetivo principal es evitar que se agregue información innecesaria o no deseada a los resultados de búsqueda.
Contenido
- ¿Qué es el archivo robots.txt?
- ¿Cuáles son las limitaciones del protocolo robots.txt?
- Ejemplos de uso del archivo robots.txt
- Permitir que todos los bots visiten todo
- Bloquear el acceso a todos los bots
- Permitir el acceso a un solo bot
- Bloquear directorios específicos
- Bloquear un directorio para un bot específico
- Bloquear un archivo específico para todos los bots
- Cómo añadir comentarios en robots.txt
- Ejemplo de un archivo robots.txt completo
- Consideraciones importantes
- Novedades importantes
- Galería de imágenes
- Ver también
- Véase también
¿Qué es el archivo robots.txt?
Un archivo llamado robots.txt se coloca en la raíz de un sitio web. Funciona como una solicitud para que ciertos bots no revisen o incluyan en sus búsquedas algunos archivos o directorios específicos. Por ejemplo, esto se puede hacer para que ciertas páginas no aparezcan en los resultados de una búsqueda avanzada, o si el contenido de esos directorios no es relevante para la clasificación general del sitio.
¿Cuáles son las limitaciones del protocolo robots.txt?
Este protocolo es una sugerencia, no una orden estricta. Depende de que los bots cooperen y sigan las instrucciones. Aunque marques ciertas áreas de tu sitio como "prohibidas" para la búsqueda usando un archivo robots.txt, esto no garantiza que esas partes estén completamente ocultas. Como los archivos de un sitio web son públicos, cualquier persona con un navegador web y ciertos conocimientos podría ver su contenido.
En algunos casos, incluir un directorio en este archivo puede incluso alertar a personas con malas intenciones sobre su existencia. Así, podrían intentar descubrir qué programas se usan en el sitio buscando "pistas" en el archivo robots.txt.
Ejemplos de uso del archivo robots.txt
El archivo robots.txt usa reglas sencillas para comunicarse con los bots. Aquí te mostramos algunos ejemplos de cómo funciona:
Permitir que todos los bots visiten todo
Este ejemplo permite que todos los bots visiten todos los archivos en la página web. El símbolo * significa "todos los bots".
User-agent: * Disallow:
Bloquear el acceso a todos los bots
Este ejemplo impide que todos los bots accedan a cualquier parte del sitio web. El símbolo / significa "todo el sitio".
User-agent: * Disallow: /
Permitir el acceso a un solo bot
Aquí se permite el acceso a un bot específico (llamado "Unsolobot" en este ejemplo) y se bloquea a todos los demás.
User-agent: Unsolobot # Donde Unsolobot es el nombre del bot al que le queremos permitir el acceso Disallow: User-agent: * Disallow: /
Bloquear directorios específicos
Este ejemplo indica a todos los bots que no deben entrar en ciertos subdirectorios, como los de programas (cgi-bin), imágenes, archivos temporales o información privada.
User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/
Bloquear un directorio para un bot específico
Este ejemplo le dice a un bot en particular (llamado "BadBot") que no entre en un directorio específico.
User-agent: BadBot # sustituir 'BadBot' con el nombre del bot Disallow: /private/
Bloquear un archivo específico para todos los bots
Este ejemplo impide que todos los bots accedan a un archivo concreto dentro de un directorio. Los demás archivos en ese directorio seguirán siendo accesibles.
User-agent: * Disallow: /directory/file.html
Cómo añadir comentarios en robots.txt
Puedes añadir comentarios en el archivo robots.txt usando el símbolo "#". Esto ayuda a entender mejor las reglas.
# Los comentarios aparecen tras el símbolo "#"al comienzo de una línea o al final de un directorio User-agent: * # todos los bots Disallow: / # impedir su entrada
Ejemplo de un archivo robots.txt completo
Aquí tienes un ejemplo de cómo podría verse un archivo robots.txt para una página web ficticia, bloqueando varias secciones:
User-agent: * Disallow:/portal/ Disallow:/portal/ Disallow:/wp-* Disallow:/?Monopolio Disallow:/?Ficticia Disallow:/? Disallow:/?* Disallow:/author/ Disallow:/category/ Disallow:/portal/ Disallow:/search/ Disallow:/home2/ Disallow:/sg0-no-tocar/ Disallow:/sg1-no-tocar/ Disallow:/sg2-no-tocar/ Disallow:/sg3-no-tocar/ Disallow:/sg4-no-tocar/ Disallow:/sg5-no-tocar/ Disallow:/sg-5-no-tocar/ Disallow:/sg-4-no-tocar/ Disallow:/sg-3-no-tocar/ Disallow:/sg-2-no-tocar/ Disallow:/sg-1-no-tocar/ Disallow:/sg* Disallow:/
Consideraciones importantes
Los bots de los buscadores son muy precisos con las mayúsculas y minúsculas. Es importante que las rutas y nombres de archivos en el robots.txt coincidan exactamente con cómo están en el servidor para que las instrucciones sean entendidas correctamente.
Novedades importantes
El 1 de julio de 2019, la empresa Alphabet Inc., dueña de Google, hizo público en GitHub el código fuente que su robot de búsqueda había usado durante más de 20 años. Este código es el que ayuda a Google a organizar la información de su motor de búsqueda.
Galería de imágenes
Ver también
- Mapa de sitio web
- Metatag
- Nofollow
- Araña web
Véase también
En inglés: Robots exclusion standard Facts for Kids