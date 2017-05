Canto de preto ou de lonxe está o galego doutras linguas? Agora podemos comprobalo visualmente nun mapa que mostra as distancias entre case todos os idiomas de Europa, creado por Pablo Gamallo, do Centro Singular de Investigación en Tecnoloxías da Información (CiTIUS) da Universidade de Santiago de Compostela; José Ramom Pichel, da empresa galega Imaxin∣Software; Iñaki Alegria, do IXA Nlp Group da Universidade do País Vasco, e a lingüísta Marta Muñoz González, revisora das coleccións de textos.

Rede de linguas europeas e as súas distancias | Fonte: P. Gamallo et al., en Physica A 484 (2017) 152–162.

Os investigadores construíron unha rede de nodos, cada un dos cales representa unha lingua, conectados por arcos que marcan as distancias entre os distintos pares de idiomas. Esa rede construída sobre a base das distancias lingüísticas representa o mapa actual de similitudes e diverxencias entre as principais linguas de Europa. Así o explican os seus autores nun artigo que se publica na revista científica Physica A co título 'From language identification to language distance' (volume 484, 15 outubro 2017, páxinas 152–162).

En concreto, os autores do experimento mediron entre pares as distancias cuantitativas de 44 idiomas europeos, incluído o galego, para crear un mapa de rede actualizado das linguas do continente que visualiza o preto e lonxe que están unhas doutras.

O mapa de rede resultante mostra que as linguas romances e as eslavas son "os dous grupos con maior cohesión interna".

A diferenza doutros traballos de lingüística histórica (ou lingüística diacrónica), neste traballo a distancia das linguas non se calculou a partir de listas predefinidas de vocabulario estable e universal, senón de corpus textuais que conteñen unha gran variedade de fenómenos lingüísticos, incluíndo préstamos e palabras estranxeiras. Polo tanto, explican os autores do novo método, "a distancia lingüística que definimos ten a intención de medir as interaccións entre linguaxes desde unha perspectiva sincrónica", para o cal a representación máis axeitada dos datos "non é unha árbore xerárquica, senón unha rede que mostra as interaccións das linguas", describen os investigadores, que crearon así unha rede visual das relacións entre os distintos idiomas.

Pablo Gamallo | Fonte: CITiUS.

Para visualizar as redes lingüísticas utilizouse Cytoscape, un software de código aberto deseñado para simular reaccións bioquímicas e interaccións moleculares, xa que, clarifican os investigadores, "as linguas son atraídas e disociadas de maneira similar a como as moléculas interactúan entre si".

O mapa de rede resultante mostra que "os grupos de linguas que teñen distancias curtas e varios arcos internos (só compartidos polos nodos do grupo) tenden a formar unha familia ou subfamilia de idiomas", apuntan os autores. Entre o máis salientable, identifcaron as linguas romances e as eslavas como "os dous grupos con maior cohesión interna", é dicir, "aqueles que teñen máis ligazóns internas e distancias máis curtas". Con todo, na rede das linguas europeas as romances teñen unha posición central, xa que "os seus elementos están máis conectados a nodos externos cós idiomas eslavos", matizan os científicos.

"O inglés resulta ser o núcleo do mapa, xa que é o nodo con máis conexións a diferentes sub-áreas da rede".

Esta centralidade da familia romance explícase polo feito de que "a maioría das linguas tomaron prestados morfemas e unidades léxicas do latín no pasado, e moitos neoloxismos do inglés hoxe en día", clarifican os responsábeis do estudo, que engaden: "Obsérvese que unha parte significativa do vocabulario en inglés (aproximadamente o 56%) provén de linguas romances, unha parte destes préstamos provén directamente do latín (15%) e outra parte do francés (41%). Isto fai que o inglés sexa unha lingua especial entre as linguas románicas e xermánicas. Ademais, ten moitas interaccións con outros idiomas de diferentes familias. O inglés resulta ser o núcleo do mapa, xa que é o nodo con máis conexións a diferentes sub-áreas da rede".

Os investigadores tamén destacan outros casos interesantes, como o do maltés, que "é un idioma árabe escrito en alfabeto latino, interconectado tanto co inglés, o outro idioma nacional en Malta, e o italiano, probablemente debido á súa proximidade xeográfica e cultural". Ou o do eúscaro, "lingua non indoeuropea falada entre España e Francia" e que "é identificado pola nosa medida de distancia como o idioma máis próximo ao xeorxiano (de todos os xeitos a distancia é bastante alta)", explícase no artigo publicado na revista científica Physica A. Tamñen son salientables o casos do polaco e dos dous idiomas bálticos (lituano e letón), que "aínda que pertenzan á familia eslava, están moi lonxe do núcleo das linguas eslavas".

A rede tamén mostra que "todos os idiomas, indoeuropeos ou non indoeuropeos, están dalgunha maneira relacionados cos membros da familia das linguas románicas ou co inglés". Con todo, os autores do mapa advirten de que non pretenden "probar a existencia de familias de linguas e relacións históricas", senón "máis ben mostrar a existencia de vínculos fortes e a interacción actual desde unha perspectiva sincrónica".

Para afondar un pouco máis en como se creou este mapa de rede das linguas europeas e os resultados acadados, falamos con Pablo Gamallo, investigador no CITiUS.

"Do mesmo jeito que a interação molecular pode formar famílias de proteínas, as línguas agrupam-se em famílias. Estas agrupações podem observar-se facilmente no mapa".

- Como e por que se fixo este mapa das distancias entre as linguas europeas?

- O objectivo principal do trabalho é proponher uma nova medida quantitativa que calcula a distância lingüística entre duas línguas qualquer. Por exemplo, qual é a distância entre o galego e o português, entre o euskera e o galego, e entre o catalão e o moldavo? A distância calcula-se utilizando grandes quantidades de texto escrito nas diferentes línguas, criando modelos estatísticos para cada língua em função desses textos, e comparando os modelos com a nossa medida matemática da distância linguística. O mapa ou rede de nodos é só uma visualização do resultado de calcular as distâncias entre 44 línguas europeias. Queríamos aplicar a nossa medida estatística a um caso real: as línguas de Europa na actualidade.

- Como se construíu?

- O mapa de nodos visualiza as distâncias linguísticas actuais entre 44 línguas europeias. O mapa é uma rede. Os nodos são as línguas (mais concretamente os modelos matemáticos de cada língua) e os arcos são as distâncias entre esses modelos. A visualização foi feita com um software pensado para visualizar as interações moleculares no campo da bioinformática. No nosso casso, as moléculas são línguas e as suas interações as distâncias que as separam e as unem. E do mesmo jeito que a interação molecular pode formar famílias de proteínas, as línguas agrupam-se em famílias. Estas agrupações podem observar-se facilmente no mapa que construimos.

"Existe uma velha teoria que liga o euskera com o georgiano. É uma conjectura mui discutível entre os filólogos. O nosso modelo achega estas duas línguas".

- Que ten de novidoso?

- Hai outros estudos dentro do âmbito que se conhece como filogenética linguística que proponhem comparar línguas em base a listas multilíngues de palavras. Por exemplo, comparam como se escreve e se pronuncia a palavra "eu" em diferentes línguas ("I", "yo", "io", "je", "ich", etc.). Dada uma lista deste tipo e uma medida quantitativa, duas línguas são consideradas semelhantes se hai similitudes em muitas das palavras da lista. No nosso trabalho não utilizamos listas artificialmente criadas, senã textos reais com os que construimos os modelos matemáticos. Essa é a novidade. Utilizamos duas grandes colecções de textos: páginas extraídas de internet em diferentes línguas, e as traduções da Bíblia. Todos os textos foram normalizados a um alfabeto comum para serem comparáveis.

- Que utilidade e aplicacións pode ter?

- Pode ter uma utilidade puramente filológica em linguística histórica. Nestes momentos, José Ramom Pichel está aplicando a medida matemática a textos de diferentes épocas do galego, do português e do castelhano, para observar como foram evoluindo as distâncias entre estas línguas ou variantes ao longo dos séculos.

Pode ter aplicações mais tecnológicas. Por exemplo, pode servir para ajudar a escolher o tradutor automático mais ajeitado entre duas línguas. Existem muitos tipos de estratégias na tradução automática, algumas melhor adaptadas a línguas próximas e outras a línguas mais afastadas. Se temos um número que quantifica a distância entre qualquer par de línguas ou variedades, um metatradutor poderá escolher o tipo de tradutor que melhor funcione para o par que escolhamos.

"O galego escrito tem como língua mais próxima o castelhano, enquanto que o português tem como língua escrita mais próxima o galego".

- Que é o máis salientable para vós do mapa resultante?

- Pessoalmente, chamou-me a atenção a proximidade entre o euskera e o georgiano, uma língua não indoeuropeia do Cáucaso, da família kartveliana. Existe uma velha teoria que liga o euskera com o georgiano. É uma conjectura mui discutível entre os filólogos. Nessa teoría, fala-se dum substrato pre-indoeuropeu que dominaria o continente antes das invassões indoeuropeias, sendo o euskera e o georgiano dous restos desse substrato. O nosso modelo achega estas duas línguas. Não demostra nada, mas é certo que pode ser uma nova evidência a favor desta teoria e que pode ser usada polos filólogos que a apoiam para fortalezê-la um pouco mais.

Chama tamém a atenção a enorme latinização do inglês e mesmo do euskera, o primeiro por influência do francês (a sua língua mais próxima no nosso modelo), e o segundo por influência do castelhano e do latim.

Por último, o nosso modelo não conecta o húngaro com o resto de línguas urálicas europeias: finês e estonio. Neste caso, o modelo afasta-se da classificação mais habitual, mesmo se existem estudos que ponhem em dúvida esta ligação.

- E o máis salientable da situación da lingua galega neste mapa de distancias?

- O galego escrito tem como língua mais próxima o castelhano, enquanto que o português tem como língua escrita mais próxima o galego. O galego escrito com a norma actual situa-se portanto entre o português e o castelhano. Isto não é mais que uma foto do uso actual dum tipo de galego. Queremos fazer muitos mais experimentos com diferentes variedades do galego, do português e do castelhano. Por agora, os experimentos foram feitos com uma língua escrita normalizada. Queremos tamém fazê-los para a língua oral com modelos fonéticos.