Traducción automática para niños
La traducción automática (también conocida como TA) es un campo de la lingüística computacional que investiga cómo usar programas de computadora para traducir textos o lo que decimos de un lenguaje natural a otro. Al principio, la TA solo cambiaba palabras de un idioma por las del otro. Pero esto casi nunca funciona bien, porque las palabras no siempre tienen un significado exacto en otro idioma.
Hoy en día, los programas de traducción automática suelen permitir ajustes para temas específicos (como informes del tiempo o noticias). Esto ayuda a obtener mejores resultados. Esta técnica es muy útil en áreas donde se usa un lenguaje con fórmulas fijas. Por ejemplo, traducir documentos legales o administrativos con una computadora suele ser más efectivo que traducir conversaciones o textos que no siguen un patrón.
Algunos sistemas mejoran la calidad al permitir que las personas ayuden. Por ejemplo, le dan al usuario la opción de señalar los nombres propios en el texto. Con estas ayudas, la traducción automática es una herramienta muy útil para los traductores. En algunos casos, incluso puede dar resultados que se pueden usar sin necesidad de cambios.
Contenido
Cómo funcionan las traducciones automáticas
Técnicas estadísticas: Aprendiendo de muchos textos
En los últimos años, se ha avanzado mucho usando métodos estadísticos para crear sistemas de traducción automática. Para que estas técnicas funcionen entre dos idiomas, se necesita un conjunto de textos que estén escritos en ambos idiomas y que sean traducciones uno del otro. Con estos textos, los sistemas aprenden qué palabras suelen traducirse por otras y en qué lugar de la frase suelen aparecer.
Lo bueno de estas técnicas es que se puede crear un sistema para un par de idiomas de forma muy automática. No se necesita tanto trabajo de expertos en idiomas.
La ayuda de una persona puede mejorar la calidad de la traducción. Por ejemplo, algunos sistemas traducen mejor si el usuario les dice cuáles son los nombres propios. Con estas técnicas, la traducción por computadora ha demostrado ser una herramienta útil para los traductores humanos. Sin embargo, aunque a veces pueden dar resultados que se pueden usar directamente, los sistemas actuales no logran la misma calidad que un traductor humano. Esto es especialmente cierto cuando el texto usa lenguaje coloquial o informal. Aun así, las traducciones hechas por personas también pueden tener errores. Por eso, se están desarrollando formas de corregir automáticamente las traducciones hechas por máquinas.
Técnicas interactivas y predictivas: Trabajando juntos
Últimamente, están ganando importancia las técnicas de traducción asistida que son interactivas y predictivas. En estas, la computadora y el traductor humano trabajan muy de cerca. El sistema ofrece sugerencias de traducción para el texto original. Si una sugerencia es buena, el usuario la elige. Si no, la corrige hasta que esté bien. Con cada corrección, el sistema aprende y ofrece mejores predicciones. Este proceso sigue hasta que la traducción es perfecta para el usuario. Estudios han demostrado que este método reduce mucho el tiempo y el esfuerzo para obtener traducciones de buena calidad.
Desafíos de la traducción
La traducción es un gran desafío en la sociedad actual, donde hay muchísima información. Poder traducir automáticamente ayuda mucho a manejar esta gran cantidad de datos y a comunicarnos entre diferentes idiomas.
Los primeros avances importantes en computación para la traducción se hicieron en la famosa computadora Eniac en 1946. Uno de los investigadores pioneros fue Warren Weaver. Él habló públicamente sobre esta disciplina y sugirió métodos científicos para abordarla. Por ejemplo, usar técnicas de descifrado de códigos, aplicar teorías matemáticas y usar la estadística. También pensó en aprovechar la lógica del lenguaje humano.
Avances actuales
Hoy en día, se logran traducciones de muy buena calidad entre lenguas romances (como el español, portugués, catalán y gallego). Sin embargo, los resultados son peores cuanto más diferentes son los idiomas entre sí, como entre el español y el inglés o el alemán. Pero esto no es algo fijo; la tecnología de traducción mejora cada día.
Otro factor que influye mucho en la calidad es lo especializado que sea el sistema de traducción. Mejoran cuanto más se adaptan al tipo de texto y vocabulario que van a traducir. Un sistema que se especialice en traducir informes del tiempo logrará una calidad aceptable incluso entre idiomas muy diferentes. Pero no servirá para traducir, por ejemplo, noticias deportivas o financieras. Un sistema de traducción automática también puede incluir tecnologías para detectar el idioma, el tema y generar vocabularios automáticamente.
La traducción tradicional y la ambigüedad
Traducir tradicionalmente ha sido un arte y un oficio que requiere talento y dedicación. Una crítica común a la traducción automática es pensar que las computadoras solo cambian una palabra por otra. Sin embargo, los sistemas de TA actuales combinan diferentes tecnologías lingüísticas que van mucho más allá de traducir palabra por palabra. Un análisis lingüístico de un texto puede dar información sobre cómo se forman las palabras, la estructura de las frases y su significado. Esto es muy útil para traducir. También hay que considerar el estilo y el contexto del texto.
En cuanto a la ambigüedad (cuando una palabra o frase puede tener varios significados), no todas las personas la entienden igual. Un traductor humano podría interpretar mal una frase ambigua. A favor de las computadoras, podemos decir que usan algoritmos para aclarar significados. Por ejemplo, Wikipedia los usa para diferenciar páginas con títulos iguales o muy parecidos.
Métodos estadísticos basados en frases
Los mejores resultados en traducción automática vienen de métodos estadísticos que se basan en frases. Estos traducen sin preocuparse tanto por las reglas gramaticales. Hoy en día, la tendencia es combinar todo tipo de métodos: lingüísticos, basados en reglas, con ayuda humana, etc. Pero el componente principal, como en la mayoría de las tecnologías que usan grandes cantidades de datos (conocidas como Big Data), es el aprendizaje automático (o Machine Learning).
Historia de la traducción automática
Siglo XVII: La idea de Descartes
La idea de la traducción automática se remonta al siglo XVII. En 1629, René Descartes propuso un lenguaje universal. En este, las ideas iguales en diferentes idiomas compartirían un mismo símbolo.
Década de 1950: El experimento de Georgetown
En la década de 1950, el experimento de Georgetown (1954) logró una traducción completamente automática de más de sesenta oraciones del ruso al inglés. El experimento fue un gran éxito y dio inicio a una época con mucha inversión en la investigación de tecnologías para la traducción automática. Los creadores pensaron que en tres a cinco años, la traducción automática sería un problema resuelto.
Después de la Guerra Mundial
El mundo salía de una guerra mundial que había impulsado el desarrollo de métodos computacionales para descifrar mensajes secretos. Se dice que Warren Weaver comentó: "Cuando veo un artículo escrito en ruso, me digo: Esto en realidad está en inglés, aunque codificado con símbolos extraños. ¡Vamos a decodificarlo ahora mismo!" (citado por Barr y Feigenbaum, 1981). Hay que recordar que las ordenadores y las técnicas de programación de aquellos años eran muy básicas. Por eso, las posibilidades reales de probar estos métodos eran mínimas.
1960-1980: Informe ALPAC y modelos estadísticos
El progreso real fue mucho más lento. La financiación para las investigaciones se redujo bastante después del informe de ALPAC (1966). Esto fue porque se encontró que la investigación de diez años no había cumplido las expectativas. A partir de finales de la década de 1980, el poder de las computadoras aumentó y se hizo más económico. Esto generó un mayor interés en los modelos estadísticos para la traducción automática.
A. D. Booth y el Birkbeck College
La idea de usar computadoras digitales para traducir idiomas naturales ya se propuso en 1946 por A. D. Booth y quizás otros. El experimento de Georgetown no fue el primero. En 1954, se hizo una demostración con la computadora APEXC en el Birkbeck College (parte de la Universidad de Londres) de una traducción básica del inglés al francés. En ese tiempo, se publicaron varios estudios sobre el tema. Una aplicación similar, también pionera en el Birkbeck College, fue la lectura y escritura de textos en braille por la computadora.
John Hutchins
Para saber más sobre la evolución de la traducción automática, es importante conocer al académico británico John Hutchins. Su trabajo se puede consultar en Internet. La historia de la traducción automática se puede ver de forma simplificada por décadas, siguiendo el esquema de Jhonatan Slocum.
Tipos de traducción automática
Si tienen suficiente información, las traducciones automáticas pueden funcionar bastante bien. Permiten que personas de un idioma entiendan lo que otra persona ha escrito en su idioma. El principal desafío es conseguir la información adecuada para cada método de traducción.
Los sistemas de traducción automática se pueden clasificar en dos grandes grupos, según cómo se acercan al problema: los que se basan en reglas de idiomas y los que usan colecciones de textos.
Traducción automática basada en reglas
La traducción automática basada en reglas consiste en hacer cambios al texto original, reemplazando las palabras por su equivalente más adecuado. A este proceso de transformar el texto original se le llama preedición de textos.
Por ejemplo, algunas reglas comunes para el inglés son:
- Oraciones cortas (no más de 20 palabras).
- Evitar unir muchas oraciones con "y" o "pero".
- Poner artículos (como "el", "la") siempre que sea posible.
- Poner "that", "which", "in order to" en oraciones que dependen de otra, si es posible.
- Evitar pronombres que se refieren a algo ya mencionado (como "it", "them").
- Reescribir frases con "when", "while", "before" y "after" seguidas de "-ing".
- Reescribir frases con "if", "where", "when" seguidas de un verbo en participio pasado.
- Evitar el uso de frases con verbos complejos.
- Repetir el nombre cuando tenga dos o más adjetivos.
- Repetir las preposiciones cuando se unen frases con preposiciones.
- Reescribir grupos de más de tres nombres juntos.
En general, en una primera etapa, se analiza un texto y se crea una representación interna. Dependiendo de lo abstracta que sea esta representación, hay diferentes niveles: desde los directos, que traducen palabra por palabra, hasta los que usan un lenguaje intermedio completo.
Transferencia
En la traducción por transferencia, el análisis del texto original es muy importante. Se crea una representación interna que sirve de "puente" para traducir entre diferentes idiomas.
Lenguaje intermedio
La traducción automática con un lenguaje intermedio es un tipo especial de traducción basada en reglas. El idioma original se transforma a un lenguaje intermedio. La estructura de este lenguaje intermedio es independiente del idioma original y del idioma final. El texto en el idioma final se obtiene a partir de esta representación intermedia. A este lenguaje intermedio se le suele llamar "interlingua".
Traducción automática basada en colecciones de textos (corpus)
La traducción automática que usa colecciones de textos (corpus lingüísticos) se basa en analizar ejemplos reales de textos con sus traducciones. Entre los métodos que usan corpus están los estadísticos y los basados en ejemplos.
Estadística
El objetivo de la traducción automática estadística es crear traducciones usando métodos estadísticos basados en colecciones de textos bilingües. Un ejemplo son las actas del parlamento europeo, que están traducidas a todos los idiomas oficiales de la Unión Europea. A medida que se crean y analizan más colecciones de textos multilingües, los resultados al traducir textos de temas similares mejoran cada vez más.
El primer programa de traducción automática estadística fue Candide, creado por IBM. Google usó los servicios de SYSTRAN por algunos años, pero desde octubre de 2007 usa su propia tecnología de traducción automática basada en estadística. En 2005, Google mejoró sus capacidades de traducción al analizar 200 mil millones de palabras de documentos de las Naciones Unidas.
El avance de la traducción automática no es un fenómeno aislado. Las tecnologías de la información en general están creciendo muy rápido, gracias en gran parte a campos como el aprendizaje automático, la inteligencia artificial y la estadística. Estas, alimentadas por grandes cantidades de datos (Big Data y Big Language), han logrado resultados sorprendentes en el reconocimiento de voz, la conversión de texto a voz y la traducción de voz en tiempo real.
Basada en ejemplos
La traducción automática basada en ejemplos usa una colección de textos bilingües como su principal fuente de conocimiento. Es como traducir por analogía. Se puede entender como resolver un problema basándose en cómo se resolvieron problemas similares en el pasado.
Traducción automática basada en el contexto
La traducción automática basada en el contexto busca la mejor traducción para una palabra fijándose en las palabras que la rodean. Básicamente, este método trata el texto en grupos de 4 a 8 palabras. Traduce cada grupo al idioma de destino y elimina las traducciones que no tienen sentido. Luego, se mueve la "ventana" una palabra, volviendo a traducir la mayoría y filtrando de nuevo para dejar solo las frases coherentes. Este paso se repite para todo el texto. Finalmente, se unen los resultados de estas "ventanas" para obtener una única traducción del texto.
El filtro que decide si una frase tiene sentido usa una colección de textos del idioma de destino. En esta colección, se cuenta cuántas veces aparece la frase buscada.
Es un método con ideas bastante sencillas que ofrece muy buenos resultados comparado con otros.
Como ventajas, también es fácil añadir nuevos idiomas, ya que solo se necesita:
- Un buen diccionario, que puede ser una versión comercial adaptada con reglas gramaticales para tener los verbos conjugados y los nombres/adjetivos con sus variaciones de número y género.
- Una colección de textos en el idioma de destino, que se puede obtener, por ejemplo, de Internet, sin necesidad de traducir nada, a diferencia de los métodos estadísticos.
Idiomas antiguos
Los avances en las redes neuronales en los últimos años y en la traducción automática con pocos recursos (cuando hay muy pocos datos para entrenar el sistema) han permitido traducir idiomas antiguos. Algunos ejemplos son el acadio y sus dialectos, el babilónico y el asirio.
La traducción automática en España
La investigación en España ha pasado por tres etapas importantes. Desde 1985, la investigación comenzó con un interés repentino en España, un año después de su entrada a la Comunidad Europea. Tres grandes empresas financiaron la creación de varios grupos de investigación: IBM, Siemens y Fujitsu. En 1985, IBM y luego Siemens formaron grupos de investigación y desarrollo en Madrid y Barcelona, liderados por Luis de Sopeña y Montserrat Meya, respectivamente. IBM usó el Centro de Investigación en inteligencia artificial de la Universidad Autónoma de Madrid para un equipo especializado en lenguaje natural. Este equipo participó en el diseño de un prototipo y luego en la adaptación al español de un sistema diseñado en Estados Unidos.
Por su parte, Siemens decidió llevar a Barcelona el desarrollo del módulo español de su sistema Metal. Montserrat Meya, quien había trabajado en los laboratorios de Siemens en Múnich, contactó con Juan Alberto Alonso. Juntos formaron el centro de un equipo con muchos colaboradores. Después de 1992, el grupo de proyectos lingüísticos se convirtió en una empresa independiente, Incyta. Tras un acuerdo con la Generalidad de Cataluña y la Universidad Autónoma de Barcelona, desarrollaron el módulo catalán, que es ahora su principal actividad.
A finales de 1986, se crearon en Barcelona y Madrid dos nuevos grupos que se encargaron del desarrollo de los módulos del sistema EUROTRA, financiado por la Comisión Europea. Ramón Cerdá reunió en la Universidad de Barcelona a un grupo de especialistas. Mientras este grupo se ocupaba de la estructura de las frases y el significado, otro grupo en Madrid se encargaba de la forma de las palabras y los diccionarios, liderados por Francisco Marcos Marín.
Un año después, en 1987, se formó un quinto grupo en los laboratorios de investigación y desarrollo de la empresa Fujitsu en Barcelona. Este grupo trabajaba en los módulos de traducción al español del sistema japonés Atlas. Este grupo estaba liderado por Jorge Vivaldi y los filólogos José Soler y Joseba Abaitua. La empresa detuvo esta línea de investigación en 1992.
Otro grupo dedicado a la traducción automática en esos años fue el formado por Isabel Herrero y Elisabeth Nebot en la Universidad de Barcelona. Este grupo, supervisado por Juan Alberto Alonso, creó un prototipo de traducción árabe-español en colaboración con la Universidad de Túnez.
Está claro que la traducción automática fue el principal motor para el nacimiento de la lingüística computacional en España. No es casualidad que la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) se creara en 1983. Junto a Felisa Verdejo, otras dos personas destacaron en su fundación: Montserrat Meya y Luis de Sopeña, quienes en ese momento lideraban grupos de traducción automática. El tercer congreso de la asociación se celebró en julio de 1987 en la Universidad Politécnica de Cataluña, con dos temas importantes sobre traducción automática.
Algunos datos muestran la importancia de la traducción automática en la SEPLN entre 1987 y 1991. Durante esos años, de los 60 artículos publicados en la revista de la asociación, 23 (más de un tercio) trataban sobre traducción automática. El nivel de participación refleja la importancia de los grupos: ocho describen Eurotra, siete las investigaciones de IBM, cuatro Metal de Siemens y tres Atlas de Fujitsu. Solo uno de los 23 artículos publicados no estaba relacionado con estos cuatro proyectos principales.
Desde 1998, el Departamento de Lenguajes y Sistemas Informáticos de la Universidad de Alicante desarrolla sistemas de traducción automática entre lenguas romances: interNostrum, entre el español y el catalán; Traductor Universia, entre el español y el portugués; y, más recientemente, Apertium, un sistema de traducción automática de código abierto desarrollado con empresas y universidades españolas, que actualmente traduce entre las lenguas de España y otras lenguas románicas.
Desde 1994, ATLS ha desarrollado su plataforma lingüística que incluye motores de traducción automática híbridos de alto rendimiento. La plataforma se completa con componentes necesarios para resolver los desafíos multilingües y de diferentes formatos en grandes organizaciones.
En 2010, Pangeanic fue la primera empresa en el mundo en usar el traductor estadístico Moses en un entorno comercial. Desarrolló una plataforma con autoaprendizaje, limpieza de textos y reentrenamiento junto con el Instituto Técnico de Informática de Valencia (ITI) y un grupo de investigación de la Universidad Politécnica de Valencia. Pangeanic, miembro fundador de TAUS, obtuvo el mayor contrato de infraestructuras de traducción automática para la Comisión Europea con su proyecto iADAATPA en 2017.
Recursos para la traducción automática
- Corpus lingüístico (colecciones de textos)
- Diccionarios
- Gramática
- Industria del lenguaje
- Memorias de traducción
Véase también
En inglés: Machine translation Facts for Kids
- Apertium
- Inteligencia artificial
- Métodos de evaluación para la traducción automática
- Moses
- Open source (código abierto)
- Traducción asistida
- Traducción automática estadística
- Traducción automática neuronal
- Traducción automática mediante lenguaje intermedio
- Traducción automática basada en el contexto
- Traducción inmediata
- Aprendizaje automático basado en reglas