Meta quiere recuperar la ambición que impulsó la bíblica torre que, según el relato del Génesis (11:1-9), la humanidad quiso construir para llegar al cielo. “Son un solo pueblo y todos ellos tienen la misma lengua. (…) Ahora, nada de lo que se propongan les será imposible. Vamos, bajemos y allí confundamos su lengua, para que nadie entienda el lenguaje del otro”, reaccionó Jehová. La compañía de Mark Zuckerberg, la multinacional de Fb, Instagram y WhatsApp quiere conjurar esta maldición y mantener el liderazgo en las comunicaciones personales, para lo que ha desarrollado, según publica hoy miércoles la revista Nature, un modelo de inteligencia synthetic (IA) capaz de traducir de forma instantánea comunicaciones de voz a voz o de texto a voz y viceversa en hasta 101 idiomas, imitando la voz y el tono de los interlocutores.
El modelo, llamado SEAMLESSM4T, “supera a los sistemas existentes”, según la investigadora principal Marta Costa-Jussà, de la división de inteligencia synthetic de Meta (FAIR, Foundational AI Analysis), y se pondrá a disposición del público siempre que no se utilice con fines comerciales.
SEAMLESSM4T puede reconocer hasta 101 idiomas (escritos o hablados) y es capaz de traducirlos a 36 en formato de voz y a 96 en un archivo de texto. De acuerdo con los resultados de Costa-Jussà, “traduce con entre un 8% y un 23% más de precisión [de acuerdo con la Bilingual Evaluation Understudy] que los sistemas existentes, puede filtrar el ruido de fondo [entre un 42% y un 66% más] y se ajusta a la variación de voces”.
Dirección opuesta a las redes
Por otra parte, mientras Meta ha eliminado el sistema de verificación de datos y la moderación de contenidos en sus plataformas de comunicación, abriendo la puerta a bulos, sesgos y discursos de odio, con el sistema de traducción simultánea, ha optado por la estrategia contraria y se ha centrado en la “mitigación de la toxicidad” que se puede inferir al sistema durante el aprendizaje automático o en la traducción. En este sentido, Olga Koreneva Antonova, profesora de la Facultad de Traducción e Interpretación de la Universidad Pablo de Olavide (UPO), advierte que, por ejemplo, los traductores informáticos actuales “no consideran la igualdad de género” y tienden a sustituir el femenino por el masculino porque las fuentes con la que se entrena ya incluyen ese sesgo.
Meta considera toxicidad las blasfemias o resultados que pueden incitar al odio, la violencia o el abuso contra una persona o un grupo (como una religión, raza o género). Para mitigarla, ha desarrollado una herramienta, denominada Etox, especialmente entrenada en elementos tóxicos procedentes del habla.
Otra de las limitaciones que intenta superar el nuevo sistema es la escasez de idiomas operativos. Aunque más de la mitad de la humanidad habla principalmente media docena de idiomas, la diversidad es tan amplia que quedan fuera del servicio los más de 7.000 existentes en el mundo. El modelo de meta ha intentado paliar esta deficiencia incorporando hasta 101 lenguas, a pesar de la escasez de datos de audio y modelos para incorporarlos a la IA.
Tanel Alumäe, del laboratorio de tecnología del lenguaje de la Universidad de Tallin (Estonia) destaca en Nature la alta capacidad del sistema para traducir de forma simultánea el habla gracias a los datos de 4,5 millones de horas de audio hablado multilingüe. “Este tipo de entrenamiento ayuda al modelo a aprender los patrones de los datos, lo que facilita el ajuste para tareas específicas sin necesidad de grandes cantidades de datos de entrenamiento personalizados”, explica.
No obstante, en su opinión, “la mayor virtud de este trabajo no es la concept o el método propuesto, sino el hecho de que todos los datos y el código para ejecutar y optimizar esta tecnología estén disponibles públicamente, aunque el modelo en sí solo se puede utilizar para usos no comerciales”.
Allison Koenecke, del departamento de Ciencias de la Información en la Universidad de Cornell, advierte, también en Nature, de las limitaciones de estos sistemas de traducción, a pesar de su progreso, en entornos donde la precisión es elementary, como en actividades médicas o legales: “Modelos como el ideado por SEAMLESS están acelerando el progreso en este ámbito, pero los usuarios de estos modelos (médicos y funcionarios de los tribunales, por ejemplo) deben ser conscientes de la falibilidad de las tecnologías del habla”.
En este sentido, abunda: “Este tipo de error inducido por la máquina podría inducir un daño actual, como recetar erróneamente un medicamento o acusar a una persona. Y el daño afecta de manera desproporcionada a las poblaciones marginadas, que probablemente serán mal escuchadas”.
Koenecke celebra los esfuerzos por eliminar la “toxicidad” de las traducciones, pero aboga por “ampliar el alcance de los sesgos lingüísticos estudiados” y advertir a los usuarios de las posibilidades de error.
Críticas
A pesar del avance en el sistema de traducción, el modelo despierta recelos entre algunos investigadores. Uno de los más críticos es Víctor Etxebarria, catedrático de Ingeniería de Sistemas y Automática en la Universidad del País Vasco (UPV/EHU). “No contribuye al avance científico, ya que, partiendo de lo publicado, los especialistas independientes no tienen permiso para reproducir, comprobar o incluso mejorar sus bases tecnológicas. Tan solo tienen acceso a conectarse al traductor para efectuar traducciones superficiales. Este software program [programa] no cumple los principios de la IA en código abierto, tal y como lo outline la Open Supply Initiative: usar, estudiar, modificar y compartir para cualquier propósito. Esto no lo permite este traductor y, por tanto, no es coherente con los principios de la ciencia abierta”, declara a Science Media Centre (SMC) España.
Y aun reconociendo alguna virtud como herramienta de ayuda, el investigador añade: “El producto no evita los retardos de traducción ni los errores, que no enmienda en tiempo actual, como sí realizan las personas traductoras. Otra limitación es que solo puede utilizarse por web a través de la API (Utility Programming Interface) que impone la empresa. En conjunto, el traductor es un producto tecnológico avanzado y probablemente muy útil, pero cerrado a los principios de la ciencia abierta y con múltiples limitaciones tecnológicas y legales”.
Maite Martín, catedrática de Informática de la Universidad de Jaén e investigadora del grupo SINAI (Sistemas INteligentes de Acceso a la Información), destaca la incorporación de idiomas de pocos recursos (más minoritarios), aunque a costa de una mayor tasa de errores. “Este esfuerzo no solo mejora la accesibilidad de las tecnologías de traducción para estas comunidades, sino que también marca un avance en la inclusión lingüística al democratizar el acceso a herramientas avanzadas de comunicación”, explica.
Al contrario que Etxebarria, la investigadora sí considera que sí se garantiza el acceso a la comunidad científica, y alaba “la interacción en tiempo actual, la expresividad de la voz traducida y la mitigación de sesgos de género y toxicidad”. “Aunque SEAMLESSM4T supone un avance significativo, todavía queda trabajo por hacer para optimizar su implementación en escenarios prácticos”, concluye en SMC.
En relación con la toxicidad, Andreas Kaltenbrunner, investigador líder del grupo AI and Knowledge for Society de la UOC, recuerda la contradicción de Meta con su reciente estrategia de suprimir la moderación de contenidos y promoverla en el traductor. “Es digno de elogio que el estudio incluya un análisis sobre si las traducciones incrementan la toxicidad de los textos o cómo abordan posibles sesgos de género. Sin embargo, resulta desafortunado que Meta, la empleadora de los investigadores de este estudio, parece haber decidido recientemente abandonar los esfuerzos en este sentido con su nueva política de moderación de contenidos”.
Kaltenbrunner recuerda en SMC que el desarrollo es una variante de uno presentado en agosto de 2023, pero con mejoras en la unificación del entorno de uso, los idiomas incluidos, los filtros de ruido y la diversidad de acentos.