Páginas

15 junho 2023

Qual língua domina a Internet?

Está estimado que cerca de 63% dos seres humanos vivos agora têm acesso à Internet, o que colocaria o número de pessoas conectadas digitalmente em pouco mais de 5 bilhões de dólares. Essas pessoas são de todo o planeta e potencialmente falam milhares de idiomas diferentes. Se você pesquisar, poderá encontrar centenas de idiomas on-line, do urdu ao catalão.

Mas algumas línguas são mais difíceis de encontrar do que outras. Rest of World procurou a W3Techs, uma empresa de digitalização na web com sede na Áustria, para contar todos os endereços da Web acessíveis ao público na Internet para obter números concretos sobre a discrepância. Nossos dados mostram que pouco mais da metade dos sites na Web usa o inglês como idioma principal. Isso é muito mais do que se poderia esperar, já que os falantes nativos de inglês representam apenas pouco menos de 5% da população global. Enquanto isso, chinês e hindi são o segundo e o terceiro idiomas mais falados do mundo, mas a mesma verificação constatou que eles representam apenas 1,4% e 0,07% dos domínios, respectivamente. 



Como a internet é muito vasta, os dados vêm com advertências e pontos cegos (detalhados abaixo), mas a verificação ainda revela enormes desequilíbrios no uso da linguagem. Idiomas como bengali e urdu, cada um falado por centenas de milhões de pessoas, são quase impossíveis de encontrar online.

O W3Techs rastreia principalmente as linguagens de programação usadas online. Ele varre regularmente domínios publicamente disponíveis e os categoriza por idioma, fornecendo relatórios em tempo real para clientes interessados. Comparamos os dados do W3Techs com números de idiomas falados de uma pesquisa da Ethnologue, uma organização sem fins lucrativos amplamente considerado a autoridade mundial no uso da linguagem. 

Combinados, os dois conjuntos de dados sugerem uma super e sub-representação significativa. Inglês, alemão e japonês comandam uma parte muito maior da Internet do que entre os falantes nativos. Por outro lado, muitas línguas não europeias quase não existem na internet.

Para alguns grupos internacionais, essas discrepâncias são um sinal ameaçador para o futuro. Já em 2003, A UNESCO estava pedindo aos setores público e privado que mantivessem o conteúdo on-line em toda a gama de idiomas humanos. Mas à medida que a web cresce, a diferença entre o idioma falado e o que é usado na internet só aumenta. 

Bhanu Neupane, gerente de programa da UNESCO que trabalha com a desigualdade de idiomas, disse Resto do mundo podemos estar caminhando para um mundo em que apenas um punhado de idiomas esteja significativamente presente online. "O mundo está convergindo", disse Neupane. “E depois de 15 anos, pode haver apenas cinco ou dez idiomas que são falados e usados com destaque nos negócios e online. Então, estamos muito preocupados com isso."

As pesquisas sobre o problema variam, mas a avaliação da UNESCO é consistente com os resultados do W3Techs, mostrando apenas 14 idiomas presentes em mais de 1% dos domínios.

Há algumas advertências que você deve ter em mente sobre esse conjunto de dados: os dados vêm de varreduras de sites publicamente disponíveis; portanto, qualquer coisa que esteja por trás de um login provavelmente será incontada, incluindo aplicativos e redes sociais. (Essa peculiaridade sugere que as digitalizações podem estar subestimando a Internet chinesa, em particular, embora seja difícil saber quanto.) Mesmo em redes sociais acessíveis pela Web, como o Reddit, as digitalizações não foram projetadas para percorrer todas as páginas de um domínio, o que significa que elas podem estar subcontratando comunidades não inglesas em sites em inglês. Há mais detalhes aqui, mas os dados devem ser lidos como uma ampla pesquisa de sites, não como uma medida precisa. 

Dito isto, é difícil perder o quadro geral. Milhões de falantes de inglês não nativos e falantes de inglês não estão presos usando a web em um idioma diferente daquele em que nasceram. E como o texto disponível publicamente na internet agora está sendo usado para treinar modelos de idiomas grandes como Bard e GPT-4, isso sugere que já estamos construindo o mesmo desequilíbrio na próxima fronteira da tecnologia: artificialinteligência

Fonte: aqui

Veja um dado interessante do gráfico acima. A língua portuguesa é a oitava online, mas a sétima mais falada do mundo. Bom ou ruim?

Nenhum comentário:

Postar um comentário