Macrodatos para niños
Los macrodatos, también conocidos como datos masivos o datos a gran escala (del inglés big data), son conjuntos de información tan grandes y complejos que necesitan herramientas especiales para ser procesados. Imagina que son tantos datos que los programas de computadora normales no pueden manejarlos bien.
Los datos son como piezas de información sobre algo. Por ejemplo, tu nombre, tu edad o el color de tu camiseta son datos. Cuando hablamos de macrodatos, nos referimos a muchísimas de estas piezas de información juntas. Para entender lo que significan todos estos datos, se usan programas de computadora muy avanzados que buscan patrones o cosas que se repiten.
Hoy en día, los macrodatos se usan mucho para entender cómo se comportan las personas, por ejemplo, qué les gusta comprar o qué videos ven. Al analizar estos patrones, se pueden hacer predicciones sobre lo que podría pasar en el futuro. Esta área de estudio es parte de las tecnologías de la información y la comunicación.
Manejar tantos datos puede ser un desafío. Las principales dificultades son recolectarlos, guardarlos, buscarlos, compartirlos, analizarlos y mostrarlos de forma clara. Se usan volúmenes gigantes de datos para crear informes, entender el mercado, mejorar la publicidad, estudiar enfermedades o ayudar a mantener la seguridad.
La cantidad de datos que el mundo almacena ha crecido muchísimo. Se calcula que en 2014 se guardaron unos 5 zettabytes de información. Para que te hagas una idea, si esa información se convirtiera en libros, ¡podrías hacer 4500 pilas de libros que llegarían hasta el Sol!
Los científicos a menudo se encuentran con muchísimos datos en áreas como el estudio del clima (meteorología), la genética (genómica) o el estudio del cerebro. Esto hace que necesiten herramientas muy potentes para analizarlos.
Los conjuntos de datos crecen porque se recoge mucha información de sensores inalámbricos, teléfonos móviles, cámaras de seguridad y otros dispositivos. La capacidad de almacenar datos por persona en el mundo se duplica cada pocos años desde los años 80. Se estima que en 2012 se crearon unos 2.5 billones de bytes de datos cada día.
Los programas de bases de datos tradicionales a menudo tienen problemas para manejar los macrodatos. Para esto, se necesita un software especial que pueda funcionar en muchos servidores al mismo tiempo. Lo que se considera "macrodatos" cambia constantemente, porque las computadoras y las herramientas mejoran todo el tiempo. Para algunas empresas, manejar cientos de gigabytes ya es un reto, mientras que para otras, el problema empieza con decenas o cientos de terabytes.
Contenido
¿Qué son los Macrodatos?
El término "macrodatos" se usa desde los años 90. Se refiere a una cantidad de datos tan grande que los programas normales no pueden capturarlos, administrarlos o procesarlos a tiempo. El volumen de estos datos sigue creciendo. En 2012, se estimaba que un solo conjunto de datos podía tener desde una docena de terabytes hasta varios petabytes.
Una forma de entender los macrodatos es a través de las "tres V":
- Volumen: Se refiere a la enorme cantidad de datos que se generan y guardan.
- Velocidad: Es la rapidez con la que se crean y procesan los datos. Piensa en cuántos mensajes se envían por segundo en internet.
- Variedad: Los macrodatos vienen en muchos tipos diferentes: textos, imágenes, audios, videos, etc.
Algunas personas añaden una cuarta "V":
- Veracidad: Se refiere a la calidad y fiabilidad de los datos. Si los datos no son correctos, los análisis no serán útiles.
- Valor: Los datos deben ser útiles y ayudar a tomar decisiones importantes.
Los macrodatos no solo buscan explicar lo que pasó, sino también predecir lo que podría pasar. Esto es diferente de la inteligencia de negocios, que usa datos para entender el pasado y las tendencias. Los macrodatos buscan encontrar relaciones y hacer predicciones a partir de grandes cantidades de información.
¿Cómo funcionan los Macrodatos?
Los sistemas de macrodatos han existido de muchas formas, a menudo creados por grandes empresas. Desde los años 90, se han desarrollado sistemas para manejar estos datos. Por ejemplo, en 1992, una empresa llamada Teradata fue pionera en almacenar y analizar 1 terabyte de datos. Hoy en día, manejan petabytes.
En 2004, Google publicó un método llamado MapReduce, que ayuda a procesar grandes cantidades de datos dividiendo las tareas en muchas partes y procesándolas al mismo tiempo. Este método fue tan exitoso que otros lo adoptaron, como el proyecto de código abierto Apache Hadoop.
Una forma de manejar los macrodatos es usar una arquitectura de varias capas. Esto significa que los datos se distribuyen entre muchos servidores, lo que acelera mucho el procesamiento.
Recolección de Datos
¿De dónde vienen todos estos datos? Los creamos nosotros mismos, directa e indirectamente, cada segundo. Un teléfono inteligente actual tiene más capacidad de cálculo que las computadoras de la NASA cuando el ser humano llegó a la Luna. Esto significa que cada persona genera una cantidad enorme de datos.
Los datos pueden venir de:
- Personas: Cuando envías correos electrónicos, mensajes por WhatsApp, publicas en Facebook o Twitter, o respondes encuestas, estás creando datos. Cada minuto se envían millones de correos y se hacen millones de búsquedas en Google.
- Transacciones: Las compras con tarjeta de crédito, las llamadas telefónicas, el uso de Wi-Fi público o las transacciones bancarias generan mucha información.
- Internet y Marketing: Cuando navegas por internet, se generan muchos datos. Las herramientas de seguimiento registran tus movimientos en una página web, cuánto tiempo pasas en ella y cuándo la visitas.
- Máquina a Máquina (M2M): Son datos recogidos por dispositivos como sensores de temperatura, luz o presión. Por ejemplo, los GPS en los coches o los sensores de signos vitales en pulseras inteligentes.
- Datos Biométrimétricos: Vienen de lectores biométricos como escáneres de huellas dactilares o de retina, usados para seguridad.
Preparación de Datos
Una vez que se recolectan los datos, es probable que estén en muchos formatos diferentes y no estén conectados entre sí. El siguiente paso es juntarlos en un solo lugar y darles un formato adecuado.
Para esto se usan plataformas llamadas ETL (Extraer, Transformar y Cargar). Su trabajo es sacar los datos de diferentes fuentes, limpiarlos, cambiarles el formato si es necesario y, finalmente, cargarlos en una base de datos o un almacén de datos.
Almacenamiento Especializado (NoSQL)
El término NoSQL significa "no solo SQL". Son sistemas de almacenamiento que son más flexibles y rápidos que las bases de datos tradicionales para manejar grandes cantidades de información.
Hay varios tipos de bases de datos NoSQL:
- Almacenamiento clave-valor: Los datos se guardan como en un diccionario, donde cada dato tiene una clave única para encontrarlo. Son muy rápidos para operaciones sencillas. Un ejemplo es Apache Cassandra.
- Almacenamiento documental: Guardan datos semiestructurados, como documentos en formato XML o JSON. Cada documento tiene una clave única. MongoDB es un ejemplo conocido.
- Almacenamiento en grafo: Se basan en la teoría de grafos, donde la información son "nodos" y las relaciones entre ellos son "aristas". Son útiles para conectar grandes cantidades de datos variables, como en las redes sociales. Neo4J es un ejemplo.
- Almacenamiento orientado a columnas: Permite guardar muchos atributos y objetos bajo una misma clave, y agrupar columnas para mejorar el rendimiento. Son buenos para datos que crecen mucho.
Análisis de Datos
El análisis de datos nos permite entender lo que está sucediendo. Con los datos almacenados, se usan diferentes técnicas:
- Asociación: Busca relaciones entre diferentes variables para predecir comportamientos. Por ejemplo, qué productos se compran juntos.
- Minería de datos (data mining): Combina métodos estadísticos y de aprendizaje automático para encontrar patrones y predecir comportamientos.
- Agrupación (clustering): Divide grandes grupos de datos en grupos más pequeños con características similares, incluso si no se conocían antes del análisis.
- Análisis de texto (text analytics): Extrae información de textos (correos, búsquedas web) para entender temas o predecir palabras.
- Análisis topológico de datos (TDA): Estudia la forma y estructura de los datos. Ha sido útil para agrupar datos y en el análisis de información médica.
Visualización de Datos

Como se dice, "una imagen vale más que mil palabras". Mostrar los resultados de los análisis en gráficos o mapas es mucho más fácil de entender que en tablas llenas de números. Con los macrodatos, la visualización es aún más importante para entender la complejidad de la información.
Existen plataformas como Tableau o Power BI que permiten visualizar la información de manera interactiva. Además, las infografías se han vuelto muy populares. Son materiales atractivos y simplificados que resumen los resultados de los análisis para que muchas personas puedan entenderlos.
¿Para qué se usan los Macrodatos?
Los macrodatos se usan en muchas áreas para entender mejor a las personas y mejorar la eficiencia.
Gobierno y Servicios Públicos
Los gobiernos usan macrodatos para mejorar los servicios públicos, reducir costos y ser más eficientes. Esto puede ayudar a entender las necesidades de los ciudadanos y a tomar mejores decisiones. Por ejemplo, se usan para mejorar el transporte en las ciudades o para ayudar en la seguridad.
Desarrollo Global
Los macrodatos pueden ayudar a mejorar la toma de decisiones en áreas importantes como la salud, el empleo, la economía y la gestión de desastres naturales en países en desarrollo. También permiten que las voces de personas que antes no eran escuchadas puedan ser consideradas.
Industria y Negocios
En la industria, los macrodatos ayudan a entender mejor el rendimiento de las máquinas y a predecir cuándo podrían fallar, lo que permite hacer mantenimiento antes de que ocurran problemas. Esto se llama "fabricación predictiva".
Medios de Comunicación y Publicidad
En los medios y la publicidad, los macrodatos se usan para entender qué le gusta a la gente y mostrarles anuncios o contenidos que sean más interesantes para ellos. Así, los mensajes llegan a las personas adecuadas en el momento justo.
Música
En la música, los macrodatos se usan para investigar cómo la música afecta las emociones de las personas. Se analizan datos de canciones para entender qué tipo de emociones pueden generar en los oyentes.
Seguros
Las empresas de seguros de salud recopilan datos sobre hábitos de vida, como lo que la gente come o cuánto ejercicio hace. Con esta información, pueden predecir posibles problemas de salud y ajustar sus servicios.
Deportes
En el deporte, donde se mueve mucho dinero, los macrodatos son fundamentales para analizar los partidos y ayudar a los entrenadores a tomar decisiones. Sistemas como Amisco graban los movimientos de los jugadores y analizan los datos para ofrecer estadísticas detalladas y reproducciones de los partidos.
Finanzas
En el mundo financiero, los macrodatos permiten procesar información rápidamente, entender mejor a los clientes, crear precios dinámicos, gestionar riesgos, prevenir fraudes y detectar tendencias de consumo.
Marketing y Ventas
Los macrodatos se usan cada vez más para entender a los consumidores, personalizar productos, adaptar la comunicación en cada etapa de la venta y encontrar nuevas oportunidades de negocio.
Investigación con Macrodatos
La investigación en macrodatos es muy activa. Por ejemplo, en 2014 se demostró cómo buscar información encriptada y agrupar macrodatos de forma segura.
En 2012, el gobierno de Estados Unidos lanzó una "Iniciativa de Macrodatos" con una inversión de más de 200 millones de dólares para proyectos de investigación. Instituciones como la Universidad de California, Berkeley, y el Instituto Tecnológico de Massachusetts están investigando cómo usar macrodatos para resolver problemas que van desde predecir el tráfico hasta ayudar en la lucha contra enfermedades.
El CERN, un centro de investigación en física, ha recolectado grandes cantidades de datos durante décadas, que son analizados con supercomputadoras.
El gobierno británico también fundó el Instituto Alan Turing para investigar nuevas formas de recolectar y analizar grandes conjuntos de datos.
Muestreo de Datos Masivos
Una pregunta importante es si se necesita ver todos los datos para sacar conclusiones o si una muestra es suficiente. Por ejemplo, ¿es necesario leer los 600 millones de mensajes de Twitter que se producen cada día para saber de qué se habla? A veces, una muestra bien elegida puede ser suficiente para entender las características de todo el conjunto de datos.
Salud y Medicina
En 2009, durante la pandemia de gripe H1N1, una herramienta llamada Google Flu Trends intentó predecir la gripe usando búsquedas de usuarios con síntomas. Aunque al principio parecía prometedora, luego se vio que no era tan precisa. Esto mostró que, aunque los macrodatos son útiles, no siempre deben reemplazar los métodos tradicionales de recolección de datos, sino complementarlos.
Un ejemplo exitoso es el de Brittany Wenger, una estudiante que en 2012 creó un software llamado Cloud4cancer. Este programa usa inteligencia artificial y bases de datos de hospitales para ayudar a diagnosticar el cáncer de mama temprano, diferenciando tejidos benignos de tumores malignos en segundos.
Seguridad
Los macrodatos son muy útiles para aumentar la seguridad, tanto en empresas como en gobiernos. Se usan para vigilar fronteras, combatir el crimen y el fraude, y planificar misiones de seguridad.
Proyecto Aloja
El proyecto Aloja, una colaboración entre el Barcelona Supercomputing Center y Microsoft Research, busca optimizar el uso de Hadoop (una tecnología de macrodatos) en diferentes infraestructuras.
Sostenibilidad
Organizaciones como Conservation International usan macrodatos para la sostenibilidad. Han colocado cámaras y sensores en bosques de varios continentes para grabar el comportamiento de la fauna y recoger datos sobre el clima. Esto les ayuda a entender cómo el cambio climático afecta a los animales y al medio ambiente.
Virtualización de los Macrodatos
La virtualización de los macrodatos es una forma de juntar información de muchas fuentes en un solo lugar de manera virtual. Esto significa que la mayoría de los datos se quedan en su lugar original y se acceden a ellos solo cuando se necesitan.
Galería de imágenes
-
Un sistema de representación creado por IBM que muestra macrodatos que consisten en las ediciones de Wikipedia realizadas por el bot Pearle. Su visualización más racional aparece acompañada de colores y posiciones en su representación.
-
Macrodatos se refiere a un fenómeno tecnológico que ha surgido desde mediados de los años ochenta. A medida que las computadoras han mejorado en capacidad y velocidad, las mayores posibilidades de almacenamiento y procesamiento también han generado nuevos problemas. Pero estos nuevos requisitos, que pueden observarse en patrones y tendencias nunca antes vistos en el manejo de estos conjuntos de datos fenomenalmente grandes, pueden ser difíciles de implementar sin nuevas herramientas analíticas que permitan ir orientando a los usuarios, destacando los posibles puntos de interés. El programa XDATA de DARPA y la comunidad de investigadores y artistas que se han reunido allí, serán esenciales para avanzar en el estado del arte relativo a los llamados macrodatos.
-
Una de las máquinas del Marenostrum, Supercomputador del BSC
Véase también
En inglés: Big data Facts for Kids
- Ciencia de datos
- Ciencias de la computación
- Internet de las cosas
- Privacidad digital
- Medios sociales
- Democracia digital
- Datos abiertos