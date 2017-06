As redes sociais en liña desempeñan un papel vital na difusión da información no mundo de hoxe. Esa propagación da información está habilitada pola existencia dunha conectividade subxacente dos usuarios. Un factor que inflúe na conectividade en liña, que só recentemente estivo recibindo atención, é a lingua utilizada polos usuarios das redes nas súas actividades. A comprensión da propagación da información desde a perspectiva das linguas é de particular interese porque vivimos nun mundo cun conxunto moi diverso de idiomas que interaccionan na Rede. A partir destas premisas, Priya Saha, experta en minaría de datos e computación en Ciencias Sociais, desenvolveu un estudo utilizando os enfoques da chamada Ciencia de Redes que demostra que os usuarios de Twitter teñen unha forte preferencia por conectarse con persoas que usan o seu propio idioma. Pero o máis importante é que esta preferencia é máis forte que a tendencia para conectarse con persoas cun nivel de popularidade similar (é dicir, a noción tradicional de homofilia).

FLN (Follower Language Network): o tamaño de cada nodo baséase no seu grao e a cor do nodo representa o bloque ao que pertence. Os nodos no mesmo bloque mostran un patrón similar de conexións. O identificador do galego é gl. | Fonte: Priya Saha, 'Language Relations on Twitter: A Network Science Approach' (2017)

No seu estudo, Priya Saha analizou as conexións entre as 57 principais linguas de todo o mundo utilizadas en Twitter, incluído o galego. E atopou datos moi curiosos, mesmo sorprendentes.

O estudo demostra que o malaio, o ruso e o galego son os tres idiomas con maior grao de desorde nas redes de rechíos que se crean en Twitter.

En primeiro lugar, comprobou que os patróns de conexión entre usuarios de diferentes linguas varían considerablemente e tales patróns arroxan luz sobre sobre a similitude entre idiomas desde o punto de vista da preferencia do usuario. Ademais, o seu estudo desvela o que a autora chama "Rede de Idiomas de Twitter", un sistema conectado de moitas linguas diferentes sobre o que analizou varias características interesantes, tamén para o caso do galego.

Nesta liña de investigación, Saha examinou os patróns de conectividade das linguas mediante o cálculo da entropía, partindo de que "poderiamos ter unha lingua que se conecta de maneira uniforme a outros idiomas ou poderiamos ter unha lingua que se conecte fortemente a un só idioma". Aínda que en ambos os casos as linguas considéranse diversas, a autora explica que "a diversidade da primeira lingua é máis alta que a segunda, ou a asociación da primeira lingua a outras linguas é moito máis desordenada que a segunda".

Entropía ou grao de desorde das linguas no RLN (Retweet Language Network). O identificador do galego é gl. | Fonte: Priya Saha, 'Language Relations on Twitter: A Network Science Approach' (2017)

Antes de proseguir, é necesario explicar que a entropía é unha medida do desorde dun sistema. Unha das leis básicas da Física, o Segundo Principio da Termodinámica, dinos que en todo sistema illado a entropía crece sempre. Así, os sistemas illados fanse cada vez máis desordenados, a información necesaria para describilos diminúe continuamente, ata que chegan ao seu máximo de entropía. Para que un sistema poida aumentar a súa complexidade debe deixar de estar illado, é dicir, é preciso que teña unha achega externa de enerxía.

Un dos aspectos máis importantes que proba este estudo é que o malaio, o ruso e o galego —nesta orde— son os tres idiomas con maior grao de entropía, ou de desorde, nas redes de rechíos que se crean en Twitter. En concreto, Saha expón nos resultados da súa investigación: "Na rede de retweets [...] observamos que o malaio, o ruso e o galego teñen unha entropía moi alta, o que significa que os seus patróns de conexión están desordenados". Noutras palabras: estas tres linguas son as que mostran máis conexións aleatorias con outros idiomas.

O que fixo a investigadora foi medir a diversidade de cada lingua calculando a relación entre as conexións entre si e a suma das súas conexións a outros idiomas, tanto na rede de seguidores que se estable en Twitter como na rede de rechíos. Así, sobre a primeira, a chamada Follower Language Network, observou que algunhas linguas son máis uniformes (teñen menos conexións a outros idiomas), ou dito doutro xeito, son menos diversas. "Idiomas como o inglés, o español ou o ruso adoitan mostrar unha forte preferencia por conectarse dentro de si mesmos en contraste co xeorxiano, o urdú ou o serbio, que se conectan principalmente a outros idiomas", aporta a autora.

Porén, na rede de rechíos —a chamada Retweet Language Network— atopou que "a preferencia é aínda máis acentuada". Así, por exemplo, "o turco, o italiano e o inglés conéctanse entre si en comparación con idiomas como o lituano, o serbio ou o estoniano". É nesta rede de interaccións onde atopou que o galego é unha das tres linguas con maior entropía.

Outros idiomas como o grego e o francés mostran tamén unha entropía alta, o que indica que a súa asociación con outras linguas é moi desordenada. "Segundo o vector da exposición do idioma francés, este asóciase consigo mesmo e o inglés case uniformemente; o grego exhibe conexións con varios idiomas como inglés, español, portugués, alemán, e outros", describe.

Idiomas con entropía baixa na rede de rechíos son o hindú, o turco e o italiano, que "están menos desordenados na rede". Priya Saha explica que a baixa entropía dunha lingua pode ter dúas explicacións: "En primeiro lugar, idiomas como o turco e o italiano mostran unha moi alta preferencia a rechouchiarse entre si. En segundo lugar, os idiomas como o hindú asócianse fortemente co inglés, aínda que o hindú non mostra unha preferencia por conectarse consigo mesmo".

É dicir, os resultados mostran que o retweeting e os patróns de seguimento das linguas varían.

SEMELLANZAS ENTRE GALEGO, HINDÚ, LITUANO E URDÚ

Priya Saha mediu as semellanzas entre as linguas baseándose na existencia de conexións entre estas. Pescudando se os idiomas dos usuarios poden agruparse en función de como os falantes se conectan entre si en Twitter, a investigadora identificou as linguas que tenden a interactuar máis entre si.

"O hindú, o galego, o lituano e o urdú son estruturalmente similares porque todos eles se conectan a idiomas importantes como o inglés, o español e o alemán nun só paso".

Para agrupar as linguas, primeiro examinou os patróns das conexións dos idiomas, creando unha árbore a partir das conexións entre usuarios baseada nos seus idiomas. Esta árbore agrupa catro sub-árbores que mostran os idiomas que pertencen a cada grupo.

Para medir a semellanza entre linguas, calculouse o índice de similitude de Jaccard de cada par de linguas. O índice de Jaccard é unha métrica que se utiliza para calcular o grao de similitude entre dous conxuntos.

A investigadora comprobou que o hindú, o galego, o lituano e o urdú "teñen coeficientes de Jaccard moi altos". Estas tres linguas "son similares desde o punto de vista dos seus veciños comúns". É dicir: "Son estruturalmente similares porque todos eles se conectan a idiomas importantes como o inglés, o español e o alemán nun só paso. Así que se o galego ten unha peza de información, o lituano é probable que teña esa información tamén", argúe a autora do estudo en base aos datos obtidos.

ALTA CORRELACIÓN CO SERBIO, LITUANO, VASCO E CATALÁN

Outra proba foi medir a similitude entre pares de linguas baseada na calidade das conexións. Os estudos veñen demostrando que as interaccións entre as persoas dentro dun grupo tenden a ser maiores que as interaccións entre as persoas de distintos grupos en Twitter. Tal observación se conceptualiza como "distancia social interactiva". O obxectivo neste caso foi medir esa distancia desde a perspectiva das linguas. Para isto, as interaccións entre idiomas son tomadas como a "forza" das linguas: "Unha maior forza entre dúas linguas pode ser debido ao vocabulario similar deses idiomas, o que pode resultar na comprensión de ambas as linguas sen moito esforzo, ou pode ser debido a que as linguas teñen unha familia de orixe similar", esclarece Priya Saha, quen identifica esa "forza" coa calidade das conexións entre os distintos idiomas.

"Canto maior sexa o número de falantes comúns entre dúas linguas, maior é a probabilidade de que a información flúa dun idioma a outro. Dúas linguas fortemente conectadas poden difundir información entre si máis rapidamente que dúas linguas debilmente conectadas", advirte a investigadora, quen engade: "Dúas linguas considéranse similares se teñen alta correlación porque os falantes das dúas linguas interactúan de maneira similar con outros idiomas. Unha menor correlación entre dúas linguas indica menor similitude".

"O lituano, o serbio, o vasco, o catalán e o galego forman un grupo", xa que "os seus usuarios teñen un patrón similar de interaccións con outros idiomas".

No estudo comprobouse que o inglés dá unha "alta correlación negativa coa maioría das linguas". Isto prodúcese porque "o inglés é un idioma moi influente; conéctase á maioría das linguas da rede e, por tanto, a súa similitude con outros idiomas é débil, dado que ningún outro ten un patrón de conectividade similar".

Tamén se constatou que "o lituano, o serbio, o vasco, o catalán e o galego forman un grupo distinto", xa que "os seus usuarios teñen un patrón similar de interaccións con outros idiomas". De feito, "agás o eúscaro, todas as demais linguas deste grupo forman parte da familia indoeuropea (aínda que as subfamilias son diferentes), e dous deles son falados xeralmente por castelánfalantes", explica Priya Saha.

Outro caso curioso é, por exemplo, o do grupo que forman o alemán suízo, o holandés, o hindú e o urdú, que "mostran alta correlación entre si". Para este caso, a autora clarifica que "o hindú e o urdú proceden da mesma subfamilia sánscrito; tanto o holandés como o suízo alemán son orixinarios da subfamilia xermánica; tanto o xermánico como o sánscrito están na mesmo árbore xenealóxica, que pode utilizarse para explicalos agrupados".

Idiomas latinos como o portugués e o italiano tamén mostran patróns de interacción similares nos datos.

As cousas mudan na matriz de correlación da rede de retweets, onde "as linguas latinas como o catalán, o español, o galego e o portugués forman un grupo, xunto co vasco". É dicir, o seu patrón de rechíos é moi similar. Tamén aquí mostran alta correlación entre si linguas como o búlgaro, o croata e o alemán, por exemplo.

En definitiva, o estudo mostra que o patrón de asociación das linguas en Twitter varía. Así, hai linguas que mostran unha asociación máis forte con elas mesmas ou que gozan de tal popularidade mundial que os seu usuarios non necesitan entender outro idioma para recibir ou espallar información. Porén, outros usuarios de idiomas mostran menos asociación entre eles e necesitan entender outra lingua para recibir información na rede. Debido á variación nos patróns de conexión, algúns idiomas están máis ou menos desordenados ca outros en Twitter.

Priya Saha vén de presentar os resultados do seu estudo na súa tese de doutoramento 'Language Relations on Twitter: A Network Science Approach', defendida o pasado mes de abril no Florida Institute of Technology (Estados Unidos).