Crean o mapa que mide matematicamente as distancias entre linguas europeas

Un equipo formado por expertos do CITiUS (Universidade de Santiago de Compostela), da empresa galega Imaxin∣Software e do IXA Nlp Group da Universidade do País Vasco creou un mapa mediante computación que cuantifica as distancias entre 44 idiomas de Europa. A rede de nodos resultante evidenciou que o galego escrito ten como máis próximo o castelán, mentres que o portugués ten como língua escrita máis próxima o galego. O inglés sitúase como núcleo do mapa. Pablo Gamallo, un dos seus autores, explícanos o modelo aplicado e os seus resultados.

Por Alberto Quian | Santiago de Compostela | 19/05/2017 | Actualizada ás 14:00

Comparte esta noticia

Canto de preto ou de lonxe está o galego doutras linguas? Agora podemos comprobalo visualmente nun mapa que mostra as distancias entre case todos os idiomas de Europa, creado por Pablo Gamallo, do Centro Singular de Investigación en Tecnoloxías da Información (CiTIUS) da Universidade de Santiago de Compostela; José Ramom Pichel, da empresa galega Imaxin∣Software; Iñaki Alegria, do IXA Nlp Group da Universidade do País Vasco, e a lingüísta Marta Muñoz González, revisora das coleccións de textos. 

Rede de linguas europeas e as súas distancias
Rede de linguas europeas e as súas distancias | Fonte: P. Gamallo et al., en Physica A 484 (2017) 152–162.

Os investigadores construíron unha rede de nodos, cada un dos cales representa unha lingua, conectados por arcos que marcan as distancias entre os distintos pares de idiomas. Esa rede construída sobre a base das distancias lingüísticas representa o mapa actual de similitudes e diverxencias entre as principais linguas de Europa. Así o explican os seus autores nun artigo que se publica na revista científica Physica A co título 'From language identification to language distance' (volume 484, 15 outubro 2017, páxinas 152–162).

En concreto, os autores do experimento mediron entre pares as distancias cuantitativas de 44 idiomas europeos, incluído o galego, para crear un mapa de rede actualizado das linguas do continente que visualiza o preto e lonxe que están unhas doutras.

O mapa de rede resultante mostra que as linguas romances e as eslavas son "os dous grupos con maior cohesión interna".

A diferenza doutros traballos de lingüística histórica (ou lingüística diacrónica), neste traballo a distancia das linguas non se calculou a partir de listas predefinidas de vocabulario estable e universal, senón de corpus textuais que conteñen unha gran variedade de fenómenos lingüísticos, incluíndo préstamos e palabras estranxeiras. Polo tanto, explican os autores do novo método, "a distancia lingüística que definimos ten a intención de medir as interaccións entre linguaxes desde unha perspectiva sincrónica", para o cal a representación máis axeitada dos datos "non é unha árbore xerárquica, senón unha rede que mostra as interaccións das linguas", describen os investigadores, que crearon así unha rede visual das relacións entre os distintos idiomas.

Pablo Gamallo
Pablo Gamallo | Fonte: CITiUS.

Para visualizar as redes lingüísticas utilizouse Cytoscape, un software de código aberto deseñado para simular reaccións bioquímicas e interaccións moleculares, xa que, clarifican os investigadores, "as linguas son atraídas e disociadas de maneira similar a como as moléculas interactúan entre si".

O mapa de rede resultante mostra que "os grupos de linguas que teñen distancias curtas e varios arcos internos (só compartidos polos nodos do grupo) tenden a formar unha familia ou subfamilia de idiomas", apuntan os autores. Entre o máis salientable, identifcaron as linguas romances e as eslavas como "os dous grupos con maior cohesión interna", é dicir, "aqueles que teñen máis ligazóns internas e distancias máis curtas". Con todo, na rede das linguas europeas as romances teñen unha posición central, xa que "os seus elementos están máis conectados a nodos externos cós idiomas eslavos", matizan os científicos.

"O inglés resulta ser o núcleo do mapa, xa que é o nodo con máis conexións a diferentes sub-áreas da rede".

Esta centralidade da familia romance explícase polo feito de que "a maioría das linguas tomaron prestados morfemas e unidades léxicas do latín no pasado, e moitos neoloxismos do inglés hoxe en día", clarifican os responsábeis do estudo, que engaden: "Obsérvese que unha parte significativa do vocabulario en inglés (aproximadamente o 56%) provén de linguas romances, unha parte destes préstamos provén directamente do latín (15%) e outra parte do francés (41%). Isto fai que o inglés sexa unha lingua especial entre as linguas románicas e xermánicas. Ademais, ten moitas interaccións con outros idiomas de diferentes familias. O inglés resulta ser o núcleo do mapa, xa que é o nodo con máis conexións a diferentes sub-áreas da rede".

Os investigadores tamén destacan outros casos interesantes, como o do maltés, que "é un idioma árabe escrito en alfabeto latino, interconectado tanto co inglés, o outro idioma nacional en Malta, e o italiano, probablemente debido á súa proximidade xeográfica e cultural". Ou o do eúscaro, "lingua non indoeuropea falada entre España e Francia" e que "é identificado pola nosa medida de distancia como o idioma máis próximo ao xeorxiano (de todos os xeitos a distancia é bastante alta)", explícase no artigo publicado na revista científica Physica A. Tamñen son salientables o casos do polaco e dos dous idiomas bálticos (lituano e letón), que "aínda que pertenzan á familia eslava, están moi lonxe do núcleo das linguas eslavas".

A rede tamén mostra que "todos os idiomas, indoeuropeos ou non indoeuropeos, están dalgunha maneira relacionados cos membros da familia das linguas románicas ou co inglés". Con todo, os autores do mapa advirten de que non pretenden "probar a existencia de familias de linguas e relacións históricas", senón "máis ben mostrar a existencia de vínculos fortes e a interacción actual desde unha perspectiva sincrónica".

Para afondar un pouco máis en como se creou este mapa de rede das linguas europeas e os resultados acadados, falamos con Pablo Gamallo, investigador no CITiUS.

"Do mesmo jeito que a interação molecular pode formar famílias de proteínas, as línguas agrupam-se em famílias. Estas agrupações podem observar-se facilmente no mapa".

- Como e por que se fixo este mapa das distancias entre as linguas europeas?

- O objectivo principal do trabalho é proponher uma nova medida quantitativa que calcula a distância lingüística entre duas línguas qualquer. Por exemplo, qual é a distância entre o galego e o português, entre o euskera e o galego, e entre o catalão e o moldavo? A distância calcula-se utilizando grandes quantidades de texto escrito nas diferentes línguas, criando modelos estatísticos para cada língua em função desses textos, e comparando os modelos com a nossa medida matemática da distância linguística. O mapa ou rede de nodos é só uma visualização do resultado de calcular as distâncias entre 44 línguas europeias. Queríamos aplicar a nossa medida estatística a um caso real: as línguas de Europa na actualidade.

- Como se construíu?

- O mapa de nodos visualiza as distâncias linguísticas actuais entre 44 línguas europeias. O mapa é uma rede. Os nodos são as línguas (mais concretamente os modelos matemáticos de cada língua) e os arcos são as distâncias entre esses modelos. A visualização foi feita com um software pensado para visualizar as interações moleculares no campo da bioinformática. No nosso casso, as moléculas são línguas e as suas interações as distâncias que as separam e as unem. E do mesmo jeito que a interação molecular pode formar famílias de proteínas, as línguas agrupam-se em famílias. Estas agrupações podem observar-se facilmente no mapa que construimos.

"Existe uma velha teoria que liga o euskera com o georgiano. É uma conjectura mui discutível entre os filólogos. O nosso modelo achega estas duas línguas".

- Que ten de novidoso?

- Hai outros estudos dentro do âmbito que se conhece como filogenética linguística que proponhem comparar línguas em base a listas multilíngues de palavras. Por exemplo, comparam como se escreve e se pronuncia a palavra "eu" em diferentes línguas ("I", "yo", "io", "je", "ich", etc.). Dada uma lista deste tipo e uma medida quantitativa, duas línguas são consideradas semelhantes se hai similitudes em muitas das palavras da lista. No nosso trabalho não utilizamos listas artificialmente criadas, senã textos reais com os que construimos os modelos matemáticos. Essa é a novidade. Utilizamos duas grandes colecções de textos: páginas extraídas de internet em diferentes línguas, e as traduções da Bíblia. Todos os textos foram normalizados a um alfabeto comum para serem comparáveis. 

- Que utilidade e aplicacións pode ter?

- Pode ter uma utilidade puramente filológica em linguística histórica. Nestes momentos, José Ramom Pichel está aplicando a medida matemática a textos de diferentes épocas do galego, do português e do castelhano, para observar como foram evoluindo as distâncias entre estas línguas ou variantes ao longo dos séculos.  

Pode ter aplicações mais tecnológicas. Por exemplo, pode servir para ajudar a escolher o tradutor automático mais ajeitado entre duas línguas. Existem muitos tipos de estratégias na tradução automática, algumas melhor adaptadas a línguas próximas e outras a línguas mais afastadas. Se temos um número que quantifica a distância entre qualquer par de línguas ou variedades, um metatradutor poderá escolher o tipo de tradutor que melhor funcione para o par que escolhamos.

"O galego escrito tem como língua mais próxima o castelhano, enquanto que o português tem como língua escrita mais próxima o galego".

- Que é o máis salientable para vós do mapa resultante?

- Pessoalmente, chamou-me a atenção a proximidade entre o euskera e o georgiano, uma língua não indoeuropeia do Cáucaso, da família kartveliana. Existe uma velha teoria que liga o euskera com o georgiano. É uma conjectura mui discutível entre os filólogos. Nessa teoría, fala-se dum substrato pre-indoeuropeu que dominaria o continente antes das invassões indoeuropeias, sendo o euskera e o georgiano dous restos desse substrato. O nosso modelo achega estas duas línguas. Não demostra nada, mas é certo que pode ser uma nova evidência a favor desta teoria e que pode ser usada polos filólogos que a apoiam para fortalezê-la um pouco mais.

Chama tamém a atenção a enorme latinização do inglês e mesmo do euskera, o primeiro por influência do francês (a sua língua mais próxima no nosso modelo), e o segundo por influência do castelhano e do latim.

Por último, o nosso modelo não conecta o húngaro com o resto de línguas urálicas europeias: finês e estonio. Neste caso, o modelo afasta-se da classificação mais habitual, mesmo se existem estudos que ponhem em dúvida esta ligação.

- E o máis salientable da situación da lingua galega neste mapa de distancias?

- O galego escrito tem como língua mais próxima o castelhano, enquanto que o português tem como língua escrita mais próxima o galego. O galego escrito com a norma actual situa-se portanto entre o português e o castelhano. Isto não é mais que uma foto do uso actual dum tipo de galego. Queremos fazer muitos mais experimentos com diferentes variedades do galego, do português e do castelhano. Por agora, os experimentos foram feitos com uma língua escrita normalizada. Queremos tamém fazê-los para a língua oral com modelos fonéticos.

Comparte esta noticia
¿Gústache esta noticia?
Colabora para que sexan moitas máis activando GCplus
Que é GC plus? Achegas    icona Paypal icona VISA
Comenta
Comentarios 11 comentarios

3 A historia roubada

Iso ven demostrar as teses mais avanzadas, de que no imperio romano non se falaba latín, mais que na Latina,. Que os diferentes povos do sul de Europa falaban unha lingua semellante as faladas nos pobos mais pretos. Agás o euskara que ten moita influencia na estructura do castelán, que suponse que ben das antigas lingoas íberas. A influencia do latin nas linguas romances ven da man das liturxias do clero. Por iso o rumano (a lingua mis fidel do latín ) é a menos doada de entender.

1 A historia roubada

A gramatica das linguas romances non ten semellanza coa gramática latina. No latin (lingua desinental) se declinan os sustantivos dependendo da función gramatical a depender na oración. Ningunha lingua romance declina os seus sustantivos, agás o rumano. O latin coma o grego ten xénero neutro, ademais de masc. e femini. Ningunha lingua romance o ten. Vostede non existe no latín. A síntaxe latina non ten nada coa sintaxe das linguas romances. Hai moitas provas Guerra, (gale. port. italiano) guerre (francaise) bellun (latín) As linguas romances non veñen do latín.

2 Kollontai luguesa

As teses "máis avanzadas onde"????!! Eu creo que se falaba en marciano... A ver, ho, ti de lingüística románica, e de lingüística en xeral moito non entendes, non? Non se sabe con certeza de onde provén o vasco. As similitudes atopadas coa epigrafía ibérica poderían responder a unha situación de contacto lingüístico por exemplo. Sen mencionar que as fontes son ben escasas e que non admiten un estudo en profundidade. E mira que eu admiro a Humboldt, pai da idea, por certo. O máis probable é que o euskaro formase parte dunha familia lingüística estendida por parte de Europa e mesmo anterior ao íbero. Con respecto ás linguas románicas cómpre dicir que non proveñen do latín culto, senón do vulgar, o falado por soldados (fundamentalmente) procedentes de diversas partes do Imperio e con moi diferentes acentos.

3 Kollontai luguesa

Vaites que os romanos, que eran uns imperialistas ben listos, adoitaban desprazar aos soldados moi lonxe das súas rexións natais para evitar que se sumasen a posibles revoltas ou tivesen simpatías polos posibles rebeldes. Así que aquí chegaron de moi diversos lugares! Ademais este latín, xa moi diverso en toda a Romania, está influído polas linguas que se falaban antes da súa chegada. A caída do -n- que se produciu no galego (lúa provén de LUNAM en latín) e a súa conservación no castelán son claras mostras da influencia do substrato destas linguas. E tamén moi probablemente a existencia de cinco vogais no castelán sexa atribuíble ao substrato éuskaro, xa que esta lingua nace en territorio euskaro falante naquela época

4 Kollontai luguesa

O sistema de declinacións simplificicouse no latín onde só, como indicades, se conservan restos no romanés, pola xeneralización no latín vulgar das preposicións. Por certo, o ruso e o alemán conservan declinacións e isto non implica que proveñan do latín, aínda que si descenden da lingua ou linguas indoeuropeas. Os exemplos de léxico que indicas proceden dos pobos xermánicos que conquistaron o Imperio Romano. Esta influencia coñécese coma superestrato lingüístico. Por poñerche un exemplo, que almofada ou alcalde proveñan do árabe non quere dicir que o galego ou o castelán descendan destas linguas, senón que son préstamos... Igual que hoxe nos presta moitas palabras o inglés. En cuestións de semellanza lingüistica é fundamental ter en conta a estrutura e non só o léxico. Dito isto, estou preoucupada: puxeches xa o gorriño de aluminio? Un pouco de seriedade e rigor... Ou ben es o troll máis divertido que me atopei nunca.

2 Reservado

A entrevista non se entende un carallo, ¿ou vai haber que dicir caralho?

1 Oráculo Galego

Sim, a segunda opção é a recomendável.

2 Anonymous

Un exercicio de respecto do autor da entrevista á variedade do galego que emprega o entrevistado digno de aplauso, iso que che falta a ti. Se non o entendes será porque non sabes ler, meu, porque se entende clariño.

3 Sesees

A min tamen custame entenderlo. Podiamos pasarnos xa diretamemte ao portugués . Así cando vaia a copacabana , entendereime mellor

4 Kollontai luguesa

Debe de ser todo un proceso mental a estudar recoñecer publicamente a vosa ignorancia. Ata miña nai que foi á escola cando as ovellas nadaban, que di ela, pode entendela explicándolle catro cousiñas (correspondencia do nh co ñ, inexistencia do z...). En fin, sempre a tirar en contra da supervivencia do galego e da súa historia. Ogallá este ano na RAG contribuiran un pouquiño lembrando a don Ricardo Carballo Calero ou Ricardo Carvalho Calero coma prefirades porque hora é. Pero non nos daran esa sorpresa agradable... Seguro. Por certo é lóxico que che custe entendelo, eu diría que ao mellor ata o galego da Galiza: "Tamén cústame"... Nótase que ou ben xa non coan os vellos prexuízos ou xa non xeneran tanta polémica e agora descubrides a lusofoniafobia...Que país! Alá un agasalliño musical a ver se mirades por esa fobia: https://www.youtube.com/watch?v=nT1...

1 eusi

Grazas á política lingüística PPodre, o galego está tan preto do castelán que os nenos xa nin o falan. PPaoPParo PPodresAoCachó