Temas: INVESTIGACIóN INTERNET REDES SOCIAIS TWITTER

O galego, entre os 13 idiomas de Twitter que máis se están conservando para o futuro

Kalev Leetaru, académico da prestixiosa Georgetown University, explorou o arquivado de chíos de todo o mundo e descubriu que a lingua galega ten unha taxa de preservación do 31,8%. O sueco lidera a clasificación, cun 44.8%, seguido polo alemán (41,9%), italiano (39,1%), xaponés (38,1%), finés (37,8%), inglés (37,6%), francés (37,0 %), castelán (35,6%) e portugués (33,8%). O catalán ten unha taxa do 33,5% e o éuscaro, do 28,1%.

Por Alberto Quian | Santiago de Compostela | 20/07/2017 | Actualizada ás 09:00

Un dos aforismos máis célebres de George Orwell, autor da novela distópica 1984 —a do Grande Irmán que todo e a todos vixía—, foi: "O pasado é unicamente o que digan os testemuños escritos e a memoria humana". A cuestión da conservación do coñecemento en relación ao uso das novas tecnoloxías e os colectores virtuais que almacenan miles de millóns de datos e información, a nosa memoria individual e colectiva, é un asunto que vén preocupando a algúns expertos analistas e científicos. De feito, non son poucos os sitios web que desapareceron sen deixar rastro algún. O asunto é preocupante e transcendental, porque todos e cada un de nós, como individuos e como células conectadas en rede, estamos a arquivar e a compartir datos e informacións, e xerando coñecemento, nunha finísima e delicada liña que separa a memoria da amnesia: a nosa historia e o metarrelato da nosa sociedade poden ser borrados en cuestión de microsegundos na Rede (lembren como se volatilizou, por exemplo, a hemeroteca en liña de Xornal de Galicia, ou pensen como se evaporan por contratempos tecnolóxicos as fotos que gardamos nas nosas computadoras e teléfonos móbiles e que son parte dos nosos relatos de vida). No plano da información pública, este problema non só afecta ás tradicionais páxinas web, senón tamén ás redes sociais en liña. Que vai suceder con ese vasto arquivo de miles e miles de millóns de mensaxes que compartimos cada día? Onde vai estar no futuro ese macrorrelato? Co obxectivo de afondar neste asunto, Kalev Leetaru —académico da prestixiosa Georgetown University— explorou como as bibliotecas e os arquivos poden traballar para preservar estes "xardíns amurallados" que son as redes sociais da mesma maneira que os arquivos web como o Internet Archive serven para preservar os contidos que se publican na rede aberta (libros, filmes, música, software, sitos web...).

"Twitter, en particular, foi un gran foco para a comunidade de arquivado social debido ás súas APIs e a natureza pública predeterminada da maioría das comunicacións enviadas a través da plataforma. De feito, en 2010 a Biblioteca do Congreso de Estados Unidos recibiu unha doazón con todo o historial de Twitter e segue arquivando todos os chíos públicos que se publican", explica Leetaru, quen se pregunta se isto é suficiente para preservar completamente Twitter —todo o seu contido— para as xeracións futuras, mesmo no caso de que Twitter desapareza.

Nun experimento levado a cabo en xaneiro de 2017, Leetaru puido constatar cales son as mensaxes compartidas en Twitter coas taxas de preservación máis altas na Wayback Machine do Internet Archive, desglosadas por idiomas. Sorprendentemente, ou non, o galego apareceu no posto 13 entre todas as linguas do mundo desta rede social das que máis mensaxes se arquivan.

Na súa exploración, dentro dun proxecto de investigación sobre o uso de Twitter en contextos de conflito, Leetaru atopárase con que moitos enlaces compartidos levaban a páxinas de Erro 404, a páxinas desaparecidas ou casos nos que as ligazóns utilizadas de servizos externos para acurtar os enlaces orixinais expiraran. Isto levou ao académico a preguntarse se ao arquivar cada chío publicado en Twitter estamos realmente preservando Twitter. "Calquera obxecto illado perde gran parte do seu significado sen o contido que enlaza ou incrusta", expón Leetaru, quen engade: "Preservar só o rexistro JSON dun tweet que contén un vídeo incrustado realmente serve de pouco para preservar ese tweet, xa que se os medios incrustados desaparecen, o tweet perde efectivamente a maioría do seu significado. Isto é especialmente certo para a miríade de tweets que conteñen hipervínculos a sitios web externos".

A METADE DOS CONTIDOS PODERÍAN DESAPARECER

Para explorar máis a fondo esta cuestión, examinou o 1% da Streaming API de Twitter (unha mostra de aproximadamente o 1% de todos os tweets publicados) no mes de xaneiro de 2017. En total, 148.062.230 chíos, isto é, arredor de 4.776.200 por día. Destes, 33.686.810 chíos (23%) contiñan un ou máis hipervínculos, producindo un universo de 12.274.651 ligazóns externas únicas. Desas ligazóns únicas, 5,479,585 (45%) resolveron a acurtadores de URL. "Isto significa que se algún deses servizos para acurtar as URL desaparece ou expiran as ligazóns curtas antigas, a conexión entre estes tweets e as páxinas ás que enlazan curtarase permanentemente, facendo imposible rastrexar a que se vinculou no tweet, aínda que a páxina enlazada siga existindo", clarifica o investigador.

"Para empeorar as cousas, estes 5,5 millóns de URL recurtadas distribuíronse en 19.906 dominios distintos de URL acurtados, o que reflicte a gran diversidade de servizos a medida para acurtar as URL de dominios específicos". Os dez redutores máis comúns foron "fb.me , "Bit.ly", "dlvr.it", "ift.tt", "goo.gl", "ow.ly", "youtu.be", "buff.ly", "twcm.me" e "tinyurl.com". A estes únense un grupo de pequenos redutores, moitos deles operados polos sitios web vinculados a si mesmos. Por exemplo, os artigos do xornal The New York Times adoitan aparecer usando o acortador propio deste medio, "nyti.ms.".

Isto significa que se algún día desaparecesen estes servizos para acurtar as URL —cousa probable—, case a metade de todas as ligazóns compartidas deixarían de ser útiles e os contidos enlazados deixarían de ser accesibles.

DIFERENZAS POR LINGUA

Baseándose en traballos previos que suxeriron diferenzas lingüísticas substanciais en como se usa Twitter e diferenzas xeográficas e lingüísticas no contido preservado polos principais arquivos web, Leetaru pasou a analizar os chíos arquivados desde a perspectiva do idioma utilizado. Para isto, seleccionou as mil ligazóns máis e menos populares para cada idioma compartidas en Twitter.

En total, detectáronse 75 valores distintos, isto é, 75 idiomas diferentes, finalmente reducidos a 37 polo volume de chíos, cun mínimo de mil. Así, seleccionáronse as mil ligazóns máis viralizadas e as menos comúns para cada idioma e obtivéronse en total 71.004 enlaces distintos, dos cales 46.268 (65%) estaban redirixidos a unha URL que era diferente dalgunha maneira. Despois de seguir todas as redireccións, as 71.004 ligazóns distintas resolveron 66.965 enlaces únicos.

Un total de 7.141 ligazóns (10,1%) deron erros de HTTP 4XX ou 5XX, é dicir, non accesibles. Pero o que interesaba ao analista era, sobre todo, coñecer a porcentaxe destas ligazóns que foron gardadas en arquivos web. As 66.965 URL resoltas únicas foron enviadas ao servizo Availability API do Internet Archive —a iniciativa de arquivado web máis coñecida— e así se comprobou que 47.293 destas ULR (71%) non tiñan nin unha soa captura na Wayback Machine.

En resumo, desta mostra de chíos de xaneiro de 2017 que contiña hipervínculos a recursos externos da web, o 71% desas ligazóns non foron capturadas nin sequera unha vez pola Wayback Machine. É dicir, sete de cada dez chíos semellan condenados ao esquecemento.

Na desagregación por linguas, as ligazóns enviadas polos usuarios europeos de Twitter a este servizo de arquivado web mostraron as taxas máis altas de conservación na Wayback Machine, cos chíos suecos coa taxa de arquivado máis alta, un 44,8%, seguidos polos chíos en alemán, cunha taxa do 41,9%. Pola contra, os tweets enviados polos usuarios de linguas asiáticas e de Oriente Medio tiveron as taxas de preservación máis baixas (as menores, 8,5% para o filipino e 11,9% para o vietnamita).

Nesta clasificación, a lingua galega apareceu no posto 13, cunha taxa do 31,8%, xusto por diante do serbio (31,1%) e por debaixo do ucraíno (32.3%).

Os resultados finais foron: sueco (43,8%), alemán (41,9%), italiano (39,1%), xaponés (38,1%), finés (37,8%), inglés (37,6%), francés (37,0 %), español (35,6%), portugués (33,8%), catalán (33,5%), holandés (32,6%), ucraíno (32.3%), galego (31,8%), serbio (31,1%), noruegués (30,7%) , turco (30,6%), danés (28,9%), eúscaro (28,1%), grego (27,5%), checo (27,4%), croata (26,3%), indonesio (26,3%), húngaro (25,8%), hebreo (25,6%), chinés (25,2%), persa (24,6%), búlgaro (23,6%), árabe (23,1%), romanés (22,4%), corano (22,1%), ruso (21,5%), tailandés (21,0 %), malaio (14,7%), polaco (14,2%), hindi (12,9%), vietnamita (12,0%) e filipino (8,6%).

CONCLUSIÓNS

Que podemos aprender destes números? Para Leetaru quizais a lección máis importante é que "nun mundo de información en rede a conservación dun só obxecto illado pode non preservalo se se trata de ligazóns a outros recursos que se perden".

Por último, Leetaru observa unha "considerable disparidade lingüística e xeográfica entre as linguas", cunha maior porcentaxe de vínculos conservados en linguas occidentais, o cal "reforza unha vez máis o forte rumbo occidental e centrado no inglés que se dá nas nosas estratexias actuais de recolección", o que lle leva a concluír que é necesario "investir en garantir que se conserve o resto da web global".

Os resultados do seu estudo presentounos nun artigo titulado 'Why We Need To Archive The Web In Order To Preserve Twitter', publicado na revista Forbes.

Noticias relacionadas

Temas: INVESTIGACIóN INTERNET REDES SOCIAIS TWITTER