Un novo proxecto con intelixencia artificial busca fomentar o uso das linguas da península con menos recursos

Consiste na creación dun traductor baseado en redes neuronais.

Por Galicia Confidencial | Santiago de Compostela | 08/07/2023 | Actualizada ás 21:00

Comparte esta noticia

Estamos a vivir a auxe da intelixencia artificial, hoxe en día contamos cun amplo ábano de posibilidades á hora de utilizala. Hoxe falamos do proxecto Tradución automática neuronal para as linguas románicas da península ibérica (TAN-IBE), que busca atopar técnicas efectivas para adestrar sistemas de tradución automática baseados en redes neuronais (un tipo de IA) aplicadas a sete linguas románicas da península ibérica: español, portugués, catalán, galego, asturiano, aragonés e aranés.

texto
texto | Fonte: EP

E como será esto posible? Pois ben, os sistemas de tradución baseados en redes neuronais adéstranse a partir de millóns de oracións nunha lingua coa súa tradución noutra lingua. É o que se coñece como corpus paralelos. Unha vez que a rede neuronal está adestrada, é capaz de traducir con eficacia nesas linguas. O problema é que con aquelas linguas que teñen menos material dispoñible, como o aranés, o aragonés ou o asturiano, é complicado ter suficientes datos para adestrar á intelixencia artificial.

"O bo é que os sistemas neuronais poden aprender cousas dunha lingua a partir doutra que se lle pareza", explica Antoni Oliver, coordinador do proxecto TAN-IBE. "Por iso escollemos as linguas románicas. O proceso deberá ser capaz de aprender por transferencia utilizando un modelo entre dúas linguas para construír o sistema de tradución entre outras dúas. Así, por exemplo, cando estea terminada, a ferramenta de tradución español-aranés aprendería en parte grazas ao sistema español-catalán ou ao español-portugués", engade.

"A grandes liñas, o proxecto consiste, en primeiro lugar, en recompilar todos os corpus para as linguas con menos material (asturiano, aragonés e aranés), e, en segundo lugar, en adestrar os sistemas de tradución", engade Antoni Oliver. "O resultado final do proxecto será tanto a publicación libre dos recursos, na medida que sexa posible, como a creación dun sistema de tradución automática neuronal libre de uso", explica.

A primeira parte do proxecto estase a levar a cabo fóra dos laboratorios xa que é necesario recompilar o máximo material posible do asturiano, o aragonés e o aranés. "Por iso, esta primeira fase céntrase en lograr acordos con gobernos autonómicos, universidades ou editoriais para que nos faciliten o material para crear os corpus paralelos cos que adestrar ao sistema neuronal", sinala Oliver.

Neste sentido, este ano alcanzouse un acordo co goberno do Principado de Asturias para a cesión de todo o corpus de textos traducidos do castelán ao asturiano que posúe a Dirección Xeneral de Política Llingüística. O convenio recolle tamén que, se o Principado requíreo, poderá dispor dos desenvolvementos tecnolóxicos e lingüísticos do proxecto TAN-IBE para o seu aproveitamento en posibles proxectos propios de tradución automática.

"Ademais pretendemos axudar a fomentar o uso das linguas con menos recursos e que se publique máis nas devanditas linguas", engade o investigador da UOC. "Por exemplo, todas as leis poderían publicarse en dúas linguas de forma rápida e eficiente. Ademais, as persoas que non se atreven a usar estas linguas porque non senten seguras poden apoiarse nestas ferramentas para mellorar os seus textos. Por último, as linguas como o asturiano, o aragonés ou o aranés deben formar parte das tecnoloxías dixitais. Se non, poden ir desaparecendo e ser esquecidas", conclúe Oliver

Este proxecto está financiado polo Ministerio de Ciencia, Innovación e Universidades, coordinado pola Universitat Oberta de Catalunya (UOC) e coa participación das universidades de Oviedo, Lleida e Zaragoza.

Comparte esta noticia
¿Gústache esta noticia?
Colabora para que sexan moitas máis activando GCplus
Que é GC plus? Achegas    icona Paypal icona VISA
Comenta