Os problemas da lingua galega para sobrevivir na era dixital

O noso idioma ocupa o posto 59 das linguas en Internet. Ten menos peso na Rede que o catalán e o éuscaro. “Existe o perigo de que linguas con escasos recursos como o galego queden atrás no futuro”, advirten expertos do proxecto European Language Equality.

Por Galicia Confidencial | Santiago de Compostela | 17/05/2022 | Actualizada ás 22:08

Comparte esta noticia

O 17 de maio, os galegos celebramos o Día das Letras Galegas, a nosa maior festa, canda o 25 de xullo, Día da Patria. Un día para celebrar que temos unha lingua propia milenaria e para render homenaxe a aqueles que a practicaron, defenderon, coidaron, enriqueceron, difundiron e promocionaron. O 17 de maio é o noso día. Ou érao... Porque agora as Letras Galegas teñen que deixar oco a outras conmemoracións e festividades nun calendario que xa non dá máis de si pola burbulla festivo-conmemorativa. Así que o noso día, o das letras impresas en galego, deixou hai xa tempo de ser só o noso día.

Asociación puntoGal
Asociación puntoGal

O Día das Letras Galegas é agora tamén o Día de Internet, da reciclaxe, da loita contra a LGTBfobia e da hipertensión, que se apropiaron tamén deste día para celebrarse e visibilizarse.

Por iso, o 17 de maio é unha data apropiada para preguntarse cal é a saúde do galego na Internet. E o certo é que non é moi boa, e mesmo podería pasar a estado crítico nun futuro se non se adoptan medidas para facer do galego unha lingua viva e útil na era dixital.

POSTO 59 EN CONTIDOS EN INTERNET

A lingua galega atópase no longo grupo de idiomas que representan o 0,1 por cento ou menos dos contidos en Internet. En concreto, os contidos web en galego aproxímanse ao 0,004 por cento do total da Rede, o que coloca a nosa lingua no posto 59 no mundo, entre o támil (lingua dravídica falada no sueste da India e na parte setentrional de Sri Lanka, que ocupa o posto 58) e o nynorsk (novo noruegués, que se sitúa no 60).

O éuscaro superou o galego en Internet en 2017 e, desde entón, mantívose por diante; a lingua propia de Galicia perdeu dez postos desde aquel ano

Así mesmo, o galego mantense, como en anos anteriores, detrás do catalán e do éuscaro, que ocupan os postos 36 e 54 en sitios web con contidos nestes idiomas.

Son datos estimados, a 14 de maio, por W3Techs, división de Q-Success Web-based Services que actualiza a diario estatísticas da Rede a partir dos metadatos recollidos dos 10 millóns de sitios web máis populares do mundo.

O galego perdeu dez postos respecto ao ano 2017, cando se atopaba no 49 e representaba o 0,01 por cento do total de contidos web. Foi o seu maior pico. Desde entón, foi perdendo peso porcentual entre todas as linguas utilizadas en Internet. Así, os sitios web en galego xa eran tan só o 0,0037 % do total da Rede en 2020, o que colocaba a nosa lingua no posto 61 no mundo aquel ano, con datos moi similares aos actuais.

Con todo, 2021 foi un ano de caída, sempre por debaixo do 0,003 por cento dos contidos na Web, chegando ao seu mínimo en decembro de 2021, por baixo do 0,0025 por cento. Os peores datos dos últimos sete anos. Mais a partir de febreiro de 2022 repuntou, cunha suba sostida até case o 0,004, aínda que moi lonxe daquel 0,01 por cento de 2017 e aínda máis das cotas acadadas en 2013, por exemplo, cando o seu peso estaba preto do 0,015 por cento. Aquel ano, até maio de 2014, a lingua galega viviu unha caída, até o 0,0075 por cento, pero a curva foi logo ascendente e o seu peso na Rede foi crecendo e estabilizándose preto do 0,01 %, até o ano 2019, cando comezou unha caída continuada que o levou aos mínimos acadados en 2021.

A continuación mostramos, por orde, as gráficas de evolución de sitios web en galego para os períodos maio 2021-maio 2022, maio 2019-maio 2020, maio 2016-maio 2017, decembro 2014-decembro 2015 e maio 2013-maio 2014.

A caída do galego en Internet nos últimos anos plantea dúas hipóteses: ou ben se producen menos contidos en galego, ou ben a produción de contidos noutras linguas se ampliou moito máis que a nosa, hipótese que semella a máis probable. 

Hai que ter en conta que estes son datos estimados, pero a mostra (10 millóns de sitios web) é o suficientemente ampla para ter unha idea da popularidade das linguas na Rede.

POR BAIXO DO CATALÁN E DO ÉUSCARO

Das tres linguas cooficiais no Estado español, a galega segue perdendo peso tamén respecto ao catalán e o éuscaro. De feito, a lingua vasca xa superara a galega en 2017 en contidos: a finais de 2015, o éuscaro non chegaba ao 0,007 % do total de sitios web no mundo, ocupando o posto 52; en 2017 atopábase no 46, con case o 0,013 %; en 2020 baixou até o 53, ocupando o 0,0075 % de sitios web no mundo, e actualmente sitúase no 54, con arredor do 0,0065 %.

O catalán é, das linguas cooficiais do Estado, a que ten maior peso en Internet e ocupa o posto 36 no mundo; mentres, o español sitúase como terceiro idioma na Rede

O catalán segue sendo destes tres idiomas o que goza de mellor saúde na Rede. Actualmente atópase no posto 36 no mundo, co 0,05 % dos contidos web, mesma porcentaxe que tiña en 2020, e multiplica por 12 a presenza do galego en sitios web. Con todo, a lingua catalá tamén perdeu peso na Rede, xa que ten agora a metade de peso do que chegou ter en 2017, cando representaba aproximadamente o 0,1 % do total de contidos web en Internet.

Mentres, o castelán mantense como terceira lingua con máis uso en sitios web, co 3,7 %, por detrás do ruso, que está presente no 5,7 %, e do inglés, que domina Internet de xeito case esmagador, cun 62,4 %.

No caso da lingua irmá portuguesa, nos últimos anos viviu unha estrepitosa caída porcentual, pasando do 2,9 % en 2019 ao 2 % en 2020 e o 0,8 % en 2021 e 2022, datos que a sitúan actualmente no posto 15, moi lonxe do sétimo lugar que alcanzou en 2017.

Destes datos estimados de sitios web por idiomas é doado deducir que a saúde das linguas, cando menos en Internet, non pasa só polo número de falantes nativos que teñan, senón, e sobre todo, polo volume da produción de contidos.

Porcentaxes que ofrece W3Techs dos cinco idiomas con máis sitios web (maio 2022).
Inglés
 

62,4%
Ruso
 

5,7%
Español
 

3,7%
Turco
 

3,4%
Francés
 

2,9%

O DOMINIO .GAL SEGUE SEN DESPEGAR

Unha iniciativa para gañar peso e visibilidade na rede é o PuntoGAL, o dominio propio na Internet para o idioma e a cultura de Galicia. Con todo, o identificador do país .gal é o que menos creceu entre todos os novos dominios creados para linguas e culturas europeas, aprobados no seu día pola ICANN nun período similar.

Hai 6.460 dominios .gal, menos da metade dos rexistrados co .eus da cultura e lingua éuscaras

Así, o .scot (para a lingua e cultura escocesas) eran 13.724 dominios, a 14 de maio de 2022, o .cyrmru (para a lingua e cultura galesas) eran 8.267, o .bzh (para a lingua e cultura bretoas) sumaba 12.669 e o .eus (para a lingua e cultura éuscaras) tiña 13.233 dominios, segundo datos de NTLDstats.com a día 14 de maio de 2022.

Porén, contabiliízanse 6.460 dominios .gal rexistrados, moi lonxe das cifras dos demais citados.

GALIPEDIA, POR DETRÁS DA VIQUIPÈDIA E A EUSKARAZKO WIKIPEDIA

Outra iniciativa para potenciar o galego na Rede é a Galipedia, a Wikipedia en galego. A perda de peso que reflicte W3Techs para o galego nos sitios web nos últimos anos semella ter certa correspondencia na caída da Galipedia na clasificación de wikipedias por idiomas, aínda que a caída porcentual é máis leve.

En 2017, a versión galega da enciclopedia libre ocupaba o posto 47 entre 296 linguas con presenza no universo wikipedista por entón, por número de artigos publicados, con 139.094 artigos en galego a 16 de maio daquel ano, é dicir, o 0,3109 % do total de páxinas de contido publicadas na Wikipedia (44.735.293); en 2020, polas mesmas datas, ocupaba o posto 50, con 165.085 artigos, que representaban o 0,3089 % do total (53.431.755); e a 14 de maior de 2022 tiña 181.936 páxinas de contidos, que representan o 0,309 por cento dos 58.742.512 artigos publicados en todas as wikipedias, ocupando o posto 52 entre 326 linguas rexistradas nesta enciclopedia libre e colaborativa.

A Wikipedia en catalán cuadruplica en contidos a Galipedia e a éuscara duplícaos

Polo tanto, aínda que se seguiron xerando novos contidos na Galipedia, esta baixou tamén lixeiramente na clasificación de wikipedias por idiomas e no seu peso porcentual

A lingua galega segue tamén moi por debaixo do catalán e o éuscaro no universo wikipedista. A Viquipèdia en català suma xa 701.267 entradas publicadas (case catro veces máis que a galega) e a Euskarazko Wikipedia, 393.256 (máis do dobre que a Galipedia).

SEN RECURSOS TECNOLÓXICOS NON HAI FUTURO PARA O GALEGO

Segundo o informe para a lingua galega do proxecto European Language Equality (ELE) para a plena igualdade lingüística dixital en Europa no ano 2030, o noso idioma están nunha “situación con moita marxe de mellora, non só en termos de presenza na Internet, senón tamén no tocante a recursos e soporte dixital”.

Este informe, que vén de ser publicado, foi elaborado por José Manuel Ramírez Sánchez e Carmen García Mateo, profesores do Departamento de Teoría do Sinal e Comunicacións da Universidade de Vigo. Nel, advirten, “existe o perigo de que linguas con escasos recursos como o galego queden atrás no futuro.

O seu propósito foi mostrar o estado actual das tecnoloxías lingüísticas en canto a recursos, servizos e comunidade de falantes para a lingua galega.

“Como conclusión xeral, pódese dicir que existe un número bastante reducido de recursos, produtos e tecnoloxías para a lingua galega. Hai poucas aplicacións de síntese de voz, recoñecemento de voz, corrección ortográfica e gramatical e tradución automáticas. É ben certo que existen bases de datos de texto en galego de gran dimensión e de gran calidade, pero hai un baleiro importante en canto a recursos multimedia adecuados para desenvolver aplicacións tan importantes no mundo actual como os axentes conversacionais por voz de última xeración. En cambio, as tecnoloxías e os servizos baseados en texto están nunha fase máis madura”, describen os profesores.

Os datos que recompilaron mostran unha “fenda considerable” en comparación con outras linguas con maior número de falantes, pero tamén coas outras linguas cooficiais do Estado español (catalán e éuscaro), demostrando que o galego está en desavantex con estas, como explicamos até agora.

“De non reverterse esta situación, posiblemente o galego quede fóra da revolución do big data e da intelixencia artificial"

Segundo os autores do informe, esta diferenza “é crítica en canto a recursos e servizos relacionados con datos de tipo multimedia ou do ámbito da saúde, pois os existentes son pobres en diversidade e pequenos en tamaño”.

O maior perigo que identifican a curto prazo para a nosa lingua é que, “de non reverterse esta situación, posiblemente o galego quede fóra da revolución que o big data e a intelixencia artificial está a provocar en moitos sectores estratéxicos polo simple feito da falta de recursos para aplicar estas tecnoloxías”, alertan.

En contraposición, salientan a existencia dunha “experimentada comunidade investigadora en áreas tales como o recoñecemento automático da fala, a síntese de voz ou o procesamento de linguaxe natural e, por suposto, en áreas humanísticas como a filoloxía ou a lingüística”.

Tamén destacan que, “malia que a industria galega baseada en tecnoloxías da linguaxe é escasa, a existente posúe unha gran compoñente de base tecnolóxica proveniente de spin-offs de universidades públicas e centros de investigación galegos”, o cal, din, evidencia “unha boa comunicación entre as entidades produtoras de coñecemento e o tecido empresarial galego”. Pero lamentan que “os esforzos se están a centrar máis en desenvolver solucións para a lingua oficial do Estado, o español, que para o galego”.

E constatan unha “tendencia nas grandes empresas do sector consistente en reducir os seus esforzos en desenvolver tecnoloxías específicas para linguas minoritarias como o galego”.

A todo isto engaden unha “falta de interese polas linguas cooficiais, en xeral, dentro dalgunhas estratexias estatais relacionadas coas tecnoloxías da lingua, como na Estratexia Procesamento da Linguaxe Natural 2020 ou na Estratexia Nacional de Intelixencia Artificial 2020.

Por todo isto, Ramírez Sánchez e García Mateo consideran que “sería conveniente a creación dun ente público que se encargue de custodiar de maneira centralizada e estandarizada todos os recursos desenvolvidos para a lingua galega”. Para eles, este sería un “primeiro paso de vital importancia” para dinamizar a produción e a distribución de recursos lingüísticos para o galego, xa que, apuntan, “actualmente están diseminados en páxinas web ou en servidores internos dos desenvolvedores, facendo complexa a súa procura e seguimento”.

"Hai unha comunidade galega científica e tecnolóxica capaz e interesada na creación de tecnoloxías lingüísticas para a súa lingua, pero con insuficientes recursos"

Entre as súas recomendacións tamén piden investir na creación de bases de datos de recursos lingüísticos de calidade e gran tamaño con contido multimedia, que cubran as distintas variantes e estilos da lingua falada no territorio galego. Tamén ven clave apoiar a produción científica e a transferencia tecnolóxica baseada en tecnoloxías da fala e a linguaxe para que o galego gañe presenza en solucións comerciais e sexa considerado como un nicho de mercado de interese.

En canto ás comunidades de falantes, din que é “indispensable” que consuman e produzan contidos en galego, pero tamén que estas “esixan soporte para o galego” nos servizos e produtos que consomen regularmente (plataformas de contidos, medios dixitais, aplicacións móbiles ou de escritorio, sistemas operativos, etc.).

“Os datos obtidos neste estudo deixan clara a existencia dunha comunidade galega científica e tecnolóxica capaz e interesada na creación de tecnoloxías lingüísticas para a súa lingua, pero con insuficientes recursos como para levala a niveis de soporte e presenza como a do español ou outras linguas cooficiais”, describen estes expertos, que ven no caso do galego “lagoas substanciais tanto nos recursos como nas ferramentas, especialmente nas baseadas en datos multimedia”.

Por isto, Ramírez Sánchez e Carmen García Mateo consideran “vital facer un esforzo substancial e crear recursos lingüísticos para o galego, especialmente de tipo multimedia, como paso imprescindible para acadar a igualdade multilingüe dixital no espazo europeo”.

“A necesidade de grandes cantidades de datos é agora máis urxente que nunca debido ao gran potencial que poden ofrecer a intelixencia artificial e o big data. Estas tecnoloxías xa son cruciais hoxe en día, e existe o perigo de que linguas con escasos recursos como o galego queden atrás no futuro”, rematan.

Comparte esta noticia
¿Gústache esta noticia?
Colabora para que sexan moitas máis activando GCplus
Que é GC plus? Achegas    icona Paypal icona VISA
Comenta
Comentarios 2 comentarios

2 uu1

Carbalho Calero “O futuro da língua galega está principalmente determinado polo feito de que a opçom que os galegos, os galegos em geral ou as pessoas que tenhem o poder linguístico escolham...SE NÓS NOS CONSIDERAMOS COMO PROPRIETÁRIOS DE UMA LÍNGUA DE ÂMBITO REGIONAL, REDUZIDO, entom resultará dificilmente competitiva essa fala nossa frente ao castelhano e O PORVIR É SOMBRIZO, (o castelhano) é o romance mais estendido polo mundo, a continuaçom está o galego senom o gebramos da sua derivaçom portuguesa, neste sentido parece-me que O PORVIR DO GALEGO ESTÁ EM NOM DESVINCULAR-SE DAS OUTRAS FORMAS DO ANTIGO GALEGO-PORTUGUÊS” Pôde-se ver o debate O Porvir da Língua https://www.youtube.com/watch?v=GkH...

1 PasabaPorAqui

Con respecto ao dominio .gal, non axuda moito que o prezo de rexistro sexa moito maior que outros. Por exemplo comparando prezos en https://dominio.gal/es/registradore... e https://www.domeinuak.eus/es/regist... podemos ver que o dominio galego chega a practicamente o dobre de prezo, en ocasións mais. E iso sen comparar con outros moito mais baratos como o .eu, .es, .org, etc. Por iso non despega, porque nos toman por parvos.