robot de la enciclopedia para niños

Búsqueda y recuperación de información para niños

Enciclopedia para niños

La búsqueda y recuperación de información es como un detective digital que encuentra datos en documentos electrónicos y colecciones digitales. Su trabajo es buscar dentro de estos documentos, encontrar descripciones de ellos (llamadas metadatos) o buscar en bases de datos en internet o en redes internas. El objetivo es encontrar textos, imágenes, sonidos o cualquier otro tipo de datos que sean útiles y relevantes para lo que se busca.

Este campo de estudio es muy variado y combina conocimientos de muchas áreas. Algunas de las disciplinas que participan son la psicología cognitiva (cómo pensamos y aprendemos), la arquitectura de la información (cómo se organiza la información), el diseño de la información, la inteligencia artificial, la lingüística (el estudio del lenguaje), la semiótica (el estudio de los signos), la informática, la biblioteconomía (cómo se organizan las bibliotecas), la archivística (cómo se guardan los archivos) y la documentación.

Para lograr su objetivo, la búsqueda y recuperación de información se apoya en los sistemas de información. Como es un campo multidisciplinario, trabajan juntos bibliotecólogos (expertos en organizar información) para decidir cómo buscar y qué tan importantes son los términos, junto con expertos en informática.

¿Cómo ha evolucionado la búsqueda de información?

Los inicios de la búsqueda digital

La idea de usar computadoras para encontrar información importante se hizo popular después de un artículo llamado As We May Think de Vannevar Bush en 1945. Los primeros sistemas automáticos para recuperar información aparecieron entre 1950 y 1960.

Durante la década de 1970, se hicieron pruebas con grandes colecciones de textos, como la colección Cranfield, para ver qué tan bien funcionaban diferentes técnicas de búsqueda. Los sistemas de búsqueda a gran escala, como el Sistema de Diálogo Lockheed, empezaron a usarse a principios de los años 70.

El impulso de los motores de búsqueda

En 1992, el Departamento de Defensa de Estados Unidos y el Instituto Nacional de Estándares y Tecnología (NIST) organizaron la Conferencia de Recuperación de Texto (TREC). Esto ayudó mucho a la comunidad de búsqueda de información, ya que proporcionó las herramientas necesarias para evaluar cómo funcionaban los métodos de búsqueda de texto en grandes colecciones. La aparición de los motores de búsqueda (como Google) hizo que fuera aún más necesario tener sistemas de búsqueda más potentes.

Desafíos de la información digital

El uso de métodos digitales para guardar y encontrar información ha llevado a un problema llamado obsolescencia digital. Esto ocurre cuando una fuente digital ya no se puede acceder porque el dispositivo físico, el lector o el programa que la controla ya no están disponibles. Al principio, la información digital es más fácil de encontrar que la de papel, pero si ocurre la obsolescencia, esa información puede perderse para siempre.

Los buscadores, como Google, Google Desktop Search, Lycos y Copernic, son algunas de las herramientas más conocidas para encontrar información. Básicamente, estos sistemas construyen un "vocabulario" (una lista de palabras clave), usan reglas lógicas para buscar y luego valoran los resultados. Este "motor de búsqueda" permite hacer una pregunta con varias palabras y muestra los resultados más relevantes.

Algunos de los expertos más importantes en este campo son Gerard Salton, W Bruce Croft, Karen Spärck Jones, Keith van Rijsbergen y Ricardo Baeza-Yates.

A veces, surgen problemas al buscar información debido a cómo usamos el lenguaje. Por ejemplo, el "silencio" ocurre cuando no se encuentra algo relevante por usar sinónimos, y el "ruido" ocurre cuando se encuentran cosas no relevantes debido a palabras con varios significados (polisemia) o palabras que se escriben igual pero significan diferente (homografía).

¿Cómo funciona la búsqueda de información?

Archivo:Information-Retrieval-Models
Modelos de recuperación de información.

Un proceso de búsqueda de información comienza cuando un usuario hace una pregunta o "consulta" al sistema. Una consulta es una forma de decirle al sistema qué información se necesita. En la búsqueda de información, una consulta no solo identifica un único elemento en la colección. De hecho, varios elementos pueden ser respuestas a una consulta, y cada uno tendrá un nivel diferente de relevancia.

Un "objeto" es algo que está representado por información en una base de datos. Dependiendo de la aplicación, estos objetos pueden ser archivos de texto, imágenes, audio, mapas, videos, etc. A menudo, los documentos no se guardan directamente en el sistema de búsqueda, sino que se representan de forma lógica.

La mayoría de los sistemas de búsqueda calculan una puntuación para saber qué tan bien cada objeto responde a la consulta. Luego, ordenan los objetos según esa puntuación. Los objetos con la puntuación más alta se muestran primero al usuario. El proceso puede repetirse si el usuario quiere mejorar su búsqueda.

¿Cómo se mide la calidad de una búsqueda?

Para saber qué tan bien funciona un sistema de búsqueda, se usan varias medidas. Estas medidas necesitan una colección de documentos y una consulta. A continuación, se describen algunas de las medidas más comunes, que asumen que cada documento es relevante o no relevante para una consulta específica. En la práctica, puede haber diferentes grados de relevancia.

Precisión

La precisión mide qué tan exactos son los resultados. Es la parte de los documentos encontrados que realmente son importantes para lo que el usuario buscaba. Por ejemplo, si el sistema encuentra 10 documentos y 7 de ellos son relevantes, la precisión es del 70%.

Exhaustividad

La exhaustividad mide qué tan completa es la búsqueda. Es la parte de todos los documentos importantes que fueron encontrados por el sistema. Por ejemplo, si hay 10 documentos relevantes en total y el sistema encuentra 8 de ellos, la exhaustividad es del 80%. Es fácil obtener una exhaustividad del 100% si el sistema devuelve todos los documentos de la colección, pero eso no sería útil. Por eso, la exhaustividad sola no es suficiente; también se necesita medir la precisión.

Proposición de fallo (Fall-out)

La proposición de fallo es la proporción de documentos que no eran importantes pero que el sistema encontró. Por ejemplo, si hay 100 documentos no relevantes y el sistema encuentra 5 de ellos, la proposición de fallo es del 5%. Es fácil obtener un 0% de proposición de fallo si el sistema no devuelve ningún documento, pero eso tampoco sería útil.

Medida F

La medida F es una forma de combinar la precisión y la exhaustividad en una sola puntuación. Ayuda a tener un balance entre encontrar muchos documentos relevantes y que esos documentos sean realmente importantes. La medida F más común (F1) da la misma importancia a la precisión y a la exhaustividad.

Precisión Promedio

La precisión promedio considera el orden en que se presentan los documentos. Calcula la precisión en cada punto de la lista de resultados y luego saca un promedio. Esto es útil porque no es lo mismo que los documentos más relevantes aparezcan al principio que al final.

Media de la precisión promedio (MAP)

La media de la precisión promedio (MAP) es el promedio de las puntuaciones de precisión promedio para un conjunto de varias consultas. Es una forma de evaluar el rendimiento general de un sistema de búsqueda en muchas búsquedas diferentes.

¿Cómo se organizan los modelos de búsqueda?

Para encontrar documentos relevantes de manera efectiva, los documentos se transforman en una representación lógica. Cada estrategia de búsqueda usa un modelo específico para representar los documentos. Los modelos se clasifican según dos aspectos: su base matemática y sus propiedades.

Archivo:ModelosJM
Categorización de los Modelos de Recuperación de Información

Base Matemática

  • Modelos basados en Teoría de Conjuntos: Los documentos se ven como un grupo de palabras o frases. Ejemplos: Modelo Booleano (usa lógica de "sí" o "no"), Modelo Booleano Extendido, Modelo Fuzzy (permite grados de pertenencia).
  • Modelos Algebraicos: Los documentos y las consultas se representan como vectores (listas de números) o matrices. La similitud entre un documento y una consulta se calcula con un número. Ejemplos: Modelo Vectorial, Modelo Vectorial Generalizado, Modelo Booleano Extendido, Indexación Semántica Latente.
  • Modelos Probabilísticos: Tratan la búsqueda de documentos como una predicción basada en probabilidades. La similitud se calcula como la probabilidad de que un documento sea relevante para una consulta. Ejemplos: Modelo de independencia binaria, Modelo de Relevancia Probabilístico, Redes de Inferencia, Redes de Creencia.

Propiedades de los Modelos

  • Modelos sin inter-dependencia entre términos: Consideran que las palabras son independientes entre sí.
  • Modelos con inter-dependencia entre términos: Permiten representar cómo las palabras se relacionan entre sí.

Véase también

Kids robot.svg En inglés: Information retrieval Facts for Kids

kids search engine
Búsqueda y recuperación de información para Niños. Enciclopedia Kiddle.