robot de la enciclopedia para niños

Estándar de exclusión de robots para niños

Enciclopedia para niños

El estándar de exclusión de robots, también conocido como el protocolo de robots.txt, es una forma de indicar a los programas automáticos, llamados bots, qué partes de un sitio web no deben visitar o analizar. Estos bots son usados a menudo por los motores de búsqueda para organizar la información de las páginas web, o por los administradores de sitios web (webmasters) para revisar o mejorar el código fuente de sus páginas. El objetivo principal es evitar que se agregue información innecesaria o no deseada a los resultados de búsqueda.

¿Qué es el archivo robots.txt?

Un archivo llamado robots.txt se coloca en la raíz de un sitio web. Funciona como una solicitud para que ciertos bots no revisen o incluyan en sus búsquedas algunos archivos o directorios específicos. Por ejemplo, esto se puede hacer para que ciertas páginas no aparezcan en los resultados de una búsqueda avanzada, o si el contenido de esos directorios no es relevante para la clasificación general del sitio.

¿Cuáles son las limitaciones del protocolo robots.txt?

Este protocolo es una sugerencia, no una orden estricta. Depende de que los bots cooperen y sigan las instrucciones. Aunque marques ciertas áreas de tu sitio como "prohibidas" para la búsqueda usando un archivo robots.txt, esto no garantiza que esas partes estén completamente ocultas. Como los archivos de un sitio web son públicos, cualquier persona con un navegador web y ciertos conocimientos podría ver su contenido.

En algunos casos, incluir un directorio en este archivo puede incluso alertar a personas con malas intenciones sobre su existencia. Así, podrían intentar descubrir qué programas se usan en el sitio buscando "pistas" en el archivo robots.txt.

Ejemplos de uso del archivo robots.txt

El archivo robots.txt usa reglas sencillas para comunicarse con los bots. Aquí te mostramos algunos ejemplos de cómo funciona:

Permitir que todos los bots visiten todo

Este ejemplo permite que todos los bots visiten todos los archivos en la página web. El símbolo * significa "todos los bots".

User-agent: * Disallow:

Bloquear el acceso a todos los bots

Este ejemplo impide que todos los bots accedan a cualquier parte del sitio web. El símbolo / significa "todo el sitio".

User-agent: * Disallow: /

Permitir el acceso a un solo bot

Aquí se permite el acceso a un bot específico (llamado "Unsolobot" en este ejemplo) y se bloquea a todos los demás.

User-agent: Unsolobot # Donde Unsolobot es el nombre del bot al que le queremos permitir el acceso Disallow: User-agent: * Disallow: /

Bloquear directorios específicos

Este ejemplo indica a todos los bots que no deben entrar en ciertos subdirectorios, como los de programas (cgi-bin), imágenes, archivos temporales o información privada.

User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/

Bloquear un directorio para un bot específico

Este ejemplo le dice a un bot en particular (llamado "BadBot") que no entre en un directorio específico.

User-agent: BadBot # sustituir 'BadBot' con el nombre del bot Disallow: /private/

Bloquear un archivo específico para todos los bots

Este ejemplo impide que todos los bots accedan a un archivo concreto dentro de un directorio. Los demás archivos en ese directorio seguirán siendo accesibles.

User-agent: * Disallow: /directory/file.html

Cómo añadir comentarios en robots.txt

Puedes añadir comentarios en el archivo robots.txt usando el símbolo "#". Esto ayuda a entender mejor las reglas.

# Los comentarios aparecen tras el símbolo "#"al comienzo de una línea o al final de un directorio User-agent: * # todos los bots Disallow: / # impedir su entrada

Ejemplo de un archivo robots.txt completo

Aquí tienes un ejemplo de cómo podría verse un archivo robots.txt para una página web ficticia, bloqueando varias secciones:

User-agent: *
Disallow:/portal/
Disallow:/portal/
Disallow:/wp-*
Disallow:/?Monopolio
Disallow:/?Ficticia
Disallow:/?
Disallow:/?*
Disallow:/author/
Disallow:/category/
Disallow:/portal/
Disallow:/search/
Disallow:/home2/
Disallow:/sg0-no-tocar/
Disallow:/sg1-no-tocar/
Disallow:/sg2-no-tocar/
Disallow:/sg3-no-tocar/
Disallow:/sg4-no-tocar/
Disallow:/sg5-no-tocar/
Disallow:/sg-5-no-tocar/
Disallow:/sg-4-no-tocar/
Disallow:/sg-3-no-tocar/
Disallow:/sg-2-no-tocar/
Disallow:/sg-1-no-tocar/
Disallow:/sg*
Disallow:/

Consideraciones importantes

Los bots de los buscadores son muy precisos con las mayúsculas y minúsculas. Es importante que las rutas y nombres de archivos en el robots.txt coincidan exactamente con cómo están en el servidor para que las instrucciones sean entendidas correctamente.

Novedades importantes

El 1 de julio de 2019, la empresa Alphabet Inc., dueña de Google, hizo público en GitHub el código fuente que su robot de búsqueda había usado durante más de 20 años. Este código es el que ayuda a Google a organizar la información de su motor de búsqueda.

Galería de imágenes

Ver también

Véase también

Kids robot.svg En inglés: Robots exclusion standard Facts for Kids

kids search engine
Estándar de exclusión de robots para Niños. Enciclopedia Kiddle.