robot de la enciclopedia para niños

DeepSeek para niños

Enciclopedia para niños
Datos para niños
DeepSeek
DeepSeek logo.svg
Tipo negocio, empresa emergente y empresa tecnológica
Industria tecnologías de la información y la comunicación
inteligencia artificial
gran modelo de lenguaje
Forma legal empresa privada
Fundación mayo de 2023
Fundador Liang Wenfeng
Sede central Hangzhou (República Popular China)
Propietario High-Flyer
Empresa matriz High-Flyer
Sitio web www.deepseek.com

DeepSeek (que significa 'Búsqueda Profunda' en español) es una empresa de inteligencia artificial de China. Se dedica a crear grandes modelos de lenguaje (LLM) de código abierto. Su sede está en Hangzhou, Zhejiang. La empresa es propiedad de High-Flyer, un fondo de inversión chino. Liang Wenfeng, cofundador de High-Flyer, creó DeepSeek en 2023 y es su director ejecutivo.

Los modelos de DeepSeek, como DeepSeek-R1, ofrecen respuestas similares a otros modelos avanzados. Lo interesante es que DeepSeek logra esto con un costo de entrenamiento mucho menor. Por ejemplo, se estima que entrenar DeepSeek-R1 costó unos 6 millones de dólares. Esto es mucho menos que los 100 millones de dólares que costó entrenar GPT-4 de OpenAI en 2023. Además, DeepSeek necesita menos potencia de computación.

Los modelos de IA de DeepSeek se desarrollaron en un momento en que había restricciones en la venta de ciertos chips de computadora a China. Estas restricciones buscaban limitar el desarrollo de sistemas de IA avanzados en el país.

El 10 de enero de 2025, DeepSeek lanzó su primera aplicación gratuita de bot conversacional. Esta aplicación, basada en el modelo DeepSeek-R1, estaba disponible para iOS y Android. Para el 27 de enero, DeepSeek-R1 se había convertido en la aplicación gratuita más descargada en la App Store (iOS) en Estados Unidos. El éxito de DeepSeek ha sido visto como un gran avance en el campo de la IA.

DeepSeek comparte sus algoritmos, modelos y detalles de entrenamiento de inteligencia artificial generativa como código abierto. Esto significa que su código está disponible para que otros lo usen, modifiquen y estudien. La empresa busca activamente a jóvenes investigadores de IA de las mejores universidades chinas. También contrata a personas de otras áreas para tener ideas diversas en sus modelos.

El bot conversacional de DeepSeek fue desarrollado por ingenieros de software chinos. Los modelos de IA de DeepSeek son un paso importante para que los países asiáticos desarrollen sus propias tecnologías avanzadas. Esto ayuda a que el talento se quede en países como India y China.

Orígenes de DeepSeek

En febrero de 2016, Liang Wenfeng, un entusiasta de la inteligencia artificial (IA), cofundó High-Flyer. Liang había estado trabajando en el campo de la IA desde 2007, mientras estudiaba en la Universidad de Zhejiang. En 2019, High-Flyer se convirtió en un fondo de inversión que usaba algoritmos de IA para operar en el mercado. Para 2021, High-Flyer ya usaba la IA de forma exclusiva en sus operaciones.

Antes de que se impusieran restricciones a los chips de IA en China, Liang había conseguido una gran cantidad de chips Nvidia A100. Se estima que DeepSeek tenía al menos 50.000 de estos chips.

En abril de 2023, High-Flyer creó un laboratorio dedicado a investigar la inteligencia artificial general. Este laboratorio buscaba desarrollar herramientas de IA que no estuvieran ligadas al negocio financiero de High-Flyer. En mayo de 2023, este laboratorio se convirtió en una empresa independiente llamada DeepSeek, con High-Flyer como uno de sus inversores.

Después de lanzar DeepSeek-V2 en mayo de 2024, que ofrecía un gran rendimiento a un precio bajo, DeepSeek se hizo muy conocido. Se le llamó el "Pinduoduo de la IA" en China. Grandes empresas tecnológicas como ByteDance, Tencent, Baidu y Alibaba comenzaron a bajar los precios de sus modelos de IA para competir con DeepSeek. A pesar de sus precios bajos, DeepSeek logró ser rentable.

Hasta ahora, DeepSeek se enfoca en la investigación y no tiene planes detallados para vender sus productos. La empresa prefiere contratar a estudiantes universitarios recién graduados o desarrolladores con menos experiencia en IA, valorando más sus habilidades técnicas.

Versiones de modelos de DeepSeek

DeepSeek LLM

El 2 de noviembre de 2023, DeepSeek presentó su primer modelo, DeepSeek Coder. Este modelo está disponible de forma gratuita para investigadores y empresas. Su código es de código abierto bajo la licencia MIT.

El 29 de noviembre de 2023, DeepSeek lanzó DeepSeek LLM. Este modelo tenía hasta 67 mil millones de parámetros y fue diseñado para competir con otros LLM de la época, con un rendimiento similar al de GPT-4. También se lanzó una versión de chatbot llamada DeepSeek Chat.

V2

DeepSeek-V2 se lanzó en mayo de 2024. El Financial Times informó que era más económico que otros modelos similares. La Universidad de Waterloo clasificó a DeepSeek-V2 en el séptimo lugar de su lista de modelos LLM.

V3

DeepSeek-V3 se lanzó en diciembre de 2024. Contaba con 671 mil millones de parámetros y se entrenó en unos 55 días. Su costo de entrenamiento fue de 5,58 millones de dólares, usando muchos menos recursos que otros modelos. Se entrenó con una gran cantidad de datos. Las pruebas mostraron que superó a LLaMA 3.1 y Qwen 2.5, y que era tan bueno como GPT-4o y Claude 3.5 Sonnet.

El modelo DeepSeek-V3 es un tipo de mezcla de expertos. Esto significa que usa diferentes "expertos" para resolver problemas, lo que lo hace muy eficiente.

El 27 de enero de 2025, el asistente de IA de DeepSeek superó a ChatGPT como la aplicación gratuita más popular en la App Store de EE. UU. Esto generó debates sobre la efectividad de las restricciones a la exportación de chips de IA avanzados a China. El modelo DeepSeek-V3, que usa chips H800 de Nvidia, está siendo reconocido por su buen rendimiento.

Costo total de entrenamiento del modelo DeepSeek-V3
Etapa Costo (en miles de horas de GPU) Costo (en millones de dólares estadounidenses)
Pre-entrenamiento 2.664 5,328
Extensión de contexto 119 0,24
Ajuste fino 5 0,01
Total 2.788 5,576

R1

En noviembre de 2024 se lanzó DeepSeek R1-Lite-Preview. Este modelo fue entrenado para tareas de lógica, matemáticas y resolución de problemas en tiempo real. DeepSeek afirmó que superó el rendimiento de OpenAI o1 en pruebas como el American Invitational Mathematics Examination (AIME) y MATH.

El 20 de enero de 2025 se lanzaron DeepSeek-R1 y DeepSeek-R1-Zero. Estos modelos se basaron en V3-Base. Al igual que V3, son una mezcla de expertos con muchos parámetros. También lanzaron modelos "DeepSeek-R1-Distill", que son diferentes y se ajustaron con datos sintéticos creados por R1.

R1-Zero se entrenó usando solo aprendizaje por refuerzo (RL), sin aprendizaje supervisado (SFT). Esto significa que el modelo aprendió a través de recompensas, mejorando sus respuestas con el tiempo.

Impacto y reacciones

DeepSeek lanzó su asistente virtual, que usa el modelo V3, como una aplicación de bot conversacional para iOS y Android. Para el 27 de enero de 2025, la aplicación ya era la más descargada en la App Store de iOS en Estados Unidos. Su bot conversacional puede responder preguntas, resolver problemas de lógica y escribir programas de computadora, al mismo nivel que otros bots avanzados.

DeepSeek-V3 usa muchos menos recursos que otros modelos. Mientras que las grandes compañías de IA usan supercomputadoras con miles de unidades de procesamiento gráfico (GPU), DeepSeek afirma haber necesitado solo unas 2000 GPU. Se entrenó en unos 55 días con un costo de 5,58 millones de dólares. Esto es aproximadamente 10 veces menos de lo que una empresa como Meta gastó en su tecnología de IA más reciente.

El buen rendimiento de DeepSeek con un costo bajo ha sido visto como un desafío para el liderazgo de los modelos de IA de Estados Unidos. Medios de comunicación como The Hill y The Guardian describieron el lanzamiento de su bot conversacional como un "momento importante" para la IA estadounidense. El rendimiento de su modelo R1 fue "igual" al de uno de los últimos modelos de OpenAI en tareas como matemáticas, programación y razonamiento.

El fundador de DeepSeek, Liang Wenfeng, ha sido comparado con el CEO de Open AI, Sam Altman. CNN lo ha llamado el "Sam Altman de China" y un "promotor de la IA".

Archivo:Deepseek login error
El error de inicio de sesión que DeepSeek mostró el 28 de enero de 2025 después de un ataque informático.

El éxito de DeepSeek al optimizar recursos limitados ha mostrado los posibles límites de las restricciones a la exportación de chips de IA avanzados a China. El éxito de los modelos de IA de la empresa causó un gran impacto en el mercado. Las acciones de importantes empresas tecnológicas globales cayeron el 27 de enero. Las acciones de Nvidia bajaron hasta un 17-18%, y también las de su rival Broadcom. Otras empresas tecnológicas como Microsoft y Alphabet (dueña de Google) también vieron caer sus acciones.

Las figuras importantes del sector de IA en Estados Unidos tuvieron diferentes reacciones al éxito de DeepSeek. Satya Nadella, CEO de Microsoft, y Sam Altman, CEO de OpenAI, calificaron a DeepSeek de "súper impresionante". El presidente estadounidense Donald Trump lo llamó una "llamada de atención" y un avance positivo. Otros líderes, como Alexandr Wang de Scale AI y Elon Musk, expresaron dudas sobre el rendimiento o la sostenibilidad de su éxito. Varias empresas, como Amazon Web Services, Toyota y Stripe, están interesadas en usar el modelo.

El 27 de enero, DeepSeek limitó el registro de nuevos usuarios a números de teléfono y correos electrónicos de China continental. Esto ocurrió después de un ataque informático que ralentizó sus servidores.

Integraciones

En febrero de 2025, se anunció que los modelos de IA de DeepSeek se integrarían en productos de fabricantes de electrodomésticos. Esto incluye televisores, refrigeradores y aspiradoras robotizadas de marcas como Haier, Hisense y TCL Electronics. Muchos de estos aparatos ya son dispositivos inteligentes que responden a comandos de voz. Los modelos de DeepSeek permitirán una mayor precisión. Por ejemplo, una aspiradora robotizada con el modelo R1 de DeepSeek podría entender instrucciones más complejas, como moverse alrededor de obstáculos mientras encera el suelo.

Consideraciones

Privacidad y seguridad

Existe la preocupación de que el sistema de IA pueda usarse para difundir información falsa o para la vigilancia. Los términos de privacidad de DeepSeek indican que almacenan la información que recopilan en servidores seguros en China. Esto incluye el texto o audio que los usuarios ingresan, los archivos que suben y el historial de chat. Aunque esta política es similar a la de ChatGPT, algunos medios han señalado que esto podría ser un problema de seguridad. En respuesta, la autoridad italiana de protección de datos ha pedido más información sobre cómo DeepSeek recopila y usa los datos personales. El Consejo de Seguridad Nacional de los Estados Unidos también ha iniciado una revisión de seguridad. Sin embargo, cuando DeepSeek AI se usa de forma local, los datos no se comparten públicamente.

Galería de imágenes

Véase también

Kids robot.svg En inglés: DeepSeek Facts for Kids

kids search engine
DeepSeek para Niños. Enciclopedia Kiddle.