Translate

Mostrando postagens com marcador língua. Mostrar todas as postagens
Mostrando postagens com marcador língua. Mostrar todas as postagens

15 junho 2023

Qual língua domina a Internet?

Está estimado que cerca de 63% dos seres humanos vivos agora têm acesso à Internet, o que colocaria o número de pessoas conectadas digitalmente em pouco mais de 5 bilhões de dólares. Essas pessoas são de todo o planeta e potencialmente falam milhares de idiomas diferentes. Se você pesquisar, poderá encontrar centenas de idiomas on-line, do urdu ao catalão.

Mas algumas línguas são mais difíceis de encontrar do que outras. Rest of World procurou a W3Techs, uma empresa de digitalização na web com sede na Áustria, para contar todos os endereços da Web acessíveis ao público na Internet para obter números concretos sobre a discrepância. Nossos dados mostram que pouco mais da metade dos sites na Web usa o inglês como idioma principal. Isso é muito mais do que se poderia esperar, já que os falantes nativos de inglês representam apenas pouco menos de 5% da população global. Enquanto isso, chinês e hindi são o segundo e o terceiro idiomas mais falados do mundo, mas a mesma verificação constatou que eles representam apenas 1,4% e 0,07% dos domínios, respectivamente. 



Como a internet é muito vasta, os dados vêm com advertências e pontos cegos (detalhados abaixo), mas a verificação ainda revela enormes desequilíbrios no uso da linguagem. Idiomas como bengali e urdu, cada um falado por centenas de milhões de pessoas, são quase impossíveis de encontrar online.

O W3Techs rastreia principalmente as linguagens de programação usadas online. Ele varre regularmente domínios publicamente disponíveis e os categoriza por idioma, fornecendo relatórios em tempo real para clientes interessados. Comparamos os dados do W3Techs com números de idiomas falados de uma pesquisa da Ethnologue, uma organização sem fins lucrativos amplamente considerado a autoridade mundial no uso da linguagem. 

Combinados, os dois conjuntos de dados sugerem uma super e sub-representação significativa. Inglês, alemão e japonês comandam uma parte muito maior da Internet do que entre os falantes nativos. Por outro lado, muitas línguas não europeias quase não existem na internet.

Para alguns grupos internacionais, essas discrepâncias são um sinal ameaçador para o futuro. Já em 2003, A UNESCO estava pedindo aos setores público e privado que mantivessem o conteúdo on-line em toda a gama de idiomas humanos. Mas à medida que a web cresce, a diferença entre o idioma falado e o que é usado na internet só aumenta. 

Bhanu Neupane, gerente de programa da UNESCO que trabalha com a desigualdade de idiomas, disse Resto do mundo podemos estar caminhando para um mundo em que apenas um punhado de idiomas esteja significativamente presente online. "O mundo está convergindo", disse Neupane. “E depois de 15 anos, pode haver apenas cinco ou dez idiomas que são falados e usados com destaque nos negócios e online. Então, estamos muito preocupados com isso."

As pesquisas sobre o problema variam, mas a avaliação da UNESCO é consistente com os resultados do W3Techs, mostrando apenas 14 idiomas presentes em mais de 1% dos domínios.

Há algumas advertências que você deve ter em mente sobre esse conjunto de dados: os dados vêm de varreduras de sites publicamente disponíveis; portanto, qualquer coisa que esteja por trás de um login provavelmente será incontada, incluindo aplicativos e redes sociais. (Essa peculiaridade sugere que as digitalizações podem estar subestimando a Internet chinesa, em particular, embora seja difícil saber quanto.) Mesmo em redes sociais acessíveis pela Web, como o Reddit, as digitalizações não foram projetadas para percorrer todas as páginas de um domínio, o que significa que elas podem estar subcontratando comunidades não inglesas em sites em inglês. Há mais detalhes aqui, mas os dados devem ser lidos como uma ampla pesquisa de sites, não como uma medida precisa. 

Dito isto, é difícil perder o quadro geral. Milhões de falantes de inglês não nativos e falantes de inglês não estão presos usando a web em um idioma diferente daquele em que nasceram. E como o texto disponível publicamente na internet agora está sendo usado para treinar modelos de idiomas grandes como Bard e GPT-4, isso sugere que já estamos construindo o mesmo desequilíbrio na próxima fronteira da tecnologia: artificialinteligência

Fonte: aqui

Veja um dado interessante do gráfico acima. A língua portuguesa é a oitava online, mas a sétima mais falada do mundo. Bom ou ruim?

10 outubro 2022

Internet está mudando a língua e como a moderação do algoritmo tem seu papel

 

A presença de "controles" nos sites mais populares está mudando como as pessoas estão se comunicando. Os algoritmos de moderação do TipTok, do Facebook e de outras plataformas foram programados para evitar certos debates. Para o usuário esta regra significa tentar dizer algo, evitando certas palavras, para não ser banido ou excluído. 

As empresas tem interesse em alinhar ao poder, para evitar um questionamento regulatório que seja ruim para seus negócios. Esta escolhe envolve a moderação de conteúdos considerados polêmicos. Esta postura provoca uma reação nos usuários em reinventar as palavras para expressar o que deseja. Veja um exemplo simples: na China os usuários são punidos se falarem mal de Xi. Para fugir da restrição, os chineses começaram a substituir Xi pelo Ursinho Pooh - já que o personagem tem a aparência de Xi. Depois de algum tempo, falar do personagem também foi objeto de censura. 

A mudança da língua sempre ocorreu. Mas com a internet parece que a dinâmica é bem mais veloz. Um texto publicado no site Mashable sinaliza que realmente isto ocorre nos dias atuais. Assim como no passado os religiosos evitavam o termo "diabo" e usavam, no lugar, derivações como "tinhoso", nos dias atuais é impossível controlar a criação de novos termos para evitar a seletividade dos algoritmos. Isto torna a linguagem mais sutil, acredito, e mais complexa. Basicamente as pessoas procuram substitutos para comunicar algo que usando os termos diretos seriam barrados nos sites. 

Na metade do texto eis que encontro o seguinte:

No TikTok as pessoas dizem SA em vez de "agressão sexual" e "berinjela picante" em vez de "vibrador"; as profissionais do sexo se tornaram "contadoras" (...)





21 março 2021

Língua alemã e o Coronavírus

A língua alemã tem um vocabulário enorme e a todo momento está criando novas palavras, a partir da junção de palavras já existentes. Além de uma gramática complexa, o alemão tem no vocabulário um desafio para quem deseja aprender a língua.

O Coronavírus permitiu a junção de palavras, com o aumento no vocabulário. O Leibnitz Institute afirmou que mais de mil palavras novas foram criadas. A seguir, algumas delas (via aqui)

Máscara facial para proteger do vírus. Junção com a palavra Kondom (camisinha)
Pessoa que age como hamsters
Esta é boa: ansiedade causada pelo Corona. 
Típico de nosso tempo: estilo de cabelo provocado pelo corte doméstico
Beber cerveja respeitando a distância social
Em lugar do aperto de mão, o toque dos pés.


27 setembro 2018

Efeito da Tradução na nossa vida

A popularização dos programas que permitem a tradução de um texto, como o Translate, tem alterado substancialmente a nossa vida. Recentemente fiz um curso de línguas onde a professora lutava contra os alunos que usavam o celular em sala para obter as traduções. A professora argumentava que o aluno deveria aprender a usar o cérebro para pensar na outra língua.

Durante a Copa do Mundo, o uso do Translate aumentou pois os fãs queriam iniciar conversas com os anfitriões ou com outros fás do mundo. Havia uma demanda elevada pelas palavras “estádio” e “cerveja”.

Apesar da melhoria substancial dos aplicativos, seus resultados podem ainda deixar a desejar. Dois problemas podem ocorrer. As palavras estão dentro de um contexto e o software pode entender errado. Um texto do Journal of Accountancy traduziu o nome do presidente do Fasb, Russell Golden, de tal forma que o título “2 new members appointed to FASB as Golden remains chairman” ficou como “2 novos membros nomeados para o FASB como presidente dos restos mortais de ouro”. Outro ponto é que uma palavra pode ter mais de um significado, e a tradução adequada vai depender do contexto. A música Blue, de LeAnn Rimes, começa com “Blue, Oh, so lonesome for you. Why can´t you be blue over me?”. No translate ficou: “Azul, oh, tão solitário por você. Por que você não pode ser azul por cima de mim?”. O Translate traduziu “blue” como azul, mas a palavra também pode ser “triste”. (Tudo bem, a tradução de músicas e poesias é bem mais difícil).

Nós temos a sorte de estarmos entre as línguas mais faladas do mundo. Em geral, os softwares de tradução são melhores para as línguas com maior número de pessoas, já que alguns deles dependem do feedback de tradução.

Um teste simples é solicitar uma tradução e retornar o texto para a língua original. Por exemplo, coloquei a primeira frase desta postagem no Translate e solicitei a tradução para o inglês. Depois, colei o resultado e solicitei uma nova tradução para o português. O resultado foi:  A popularização de programas que permitem a tradução de um texto, como o Tradutor, mudou substancialmente nossas vidas. Compare o resultado com a primeira frase e veja como o Translate traduziu o seu nome e mudou “tem alterado” para “mudou”, o que é um pouco diferente.

Mesmo assim, é inegável reconhecer o impacto do Translate. Uma pesquisa muito interessante mostrou isto. Dois pesquisadores usaram dados do eBay para mostrar isto. Quando a empresa colocou uma MT (machine translation inglês-espanhol, o número de transações dos Estados Unidos e América Latina aumentou substancialmente.

Mais interessante, identificamos os seguintes efeitos heterogêneos de tratamento: o aumento nas exportações é mais pronunciado para (1) produtos com mais palavras em títulos de listagem, (2) produtos diferenciados, (3) produtos baratos e (4) compradores menos experientes.

(O texto acima foi traduzido no Translate). O gráfico abaixo mostra as exportações no Ebay para América Latina e para outros países. A linha que corta o gráfico é o momento da entrada da tradução.

02 maio 2018

Castelhano ou Catalão?

A Catalunha, uma região que atualmente faz parte da Espanha, iniciou um processo de independência bastante noticiado. Uma pesquisa feita por uma empresa gestora de dados mostrou algo interessante:

Las empresas catalanas se inclinan por el castellano a la hora de decidir los términos con los que se inscriben en el Registro Mercantil, por lo que prevalece frente al catalán en las razones sociales de la región.

Assim, a empresas da Catalunha usam termos do castelhano, como “construciones” ou “servicios”, do que o correspondente termo em catalão:

De esta forma, el análisis refleja que las compañías catalanas prefieren utilizar la palabra gestión, en lugar de gestió, o asociación, en lugar de associació, una circunstancia que se encuadra en un contexto en que la batalla lingüística vuelve a tener un fuerte protagonismo tras el anuncio del Gobierno el pasado mes de febrero de poner fin a la denominada inmersión lingüística catalana para garantizar que las familias puedan escoger el castellano como lengua vehicular en las escuelas de la región, más de cuatro meses después de aprobarse las medidas excepcionales al amparo del artículo 155 de la Constitución.

21 fevereiro 2018

Avaliações online e erros de redação

Uma relação curiosa encontrada pelo Priceonomics (via aqui): as avaliações online com uma estrela apresentam mais erros de ortografia e gramática do que os produtos avaliados com cinco estrelas. Além disto, estas avaliações são mais longas e mais detalhadas. E a quantidade de erros é bastante razoável. Esta pesquisa é válida para língua inglesa.

27 janeiro 2018

Literalmente

Um bar, em Nova Iorque, está expulsando os clientes que ... falarem a palavra "Literally":

Quem dizer a palavra, terá cinco minutos para terminar sua bebida e sair. E se a frase começar com "I literally", o cliente deve sair imediatamente. O texto termina com um "Pare de Kardashianismo Já".

27 setembro 2017

Aprendendo um idioma

A tecnologia moderna tem feito incrivelmente fácil para as pessoas conectarem e comunicarem uma com as outras. (...) Esses avanços tornam mais próximos o tradutor universal de Star Trek, onde podemos entender o que outra pessoa (ou aliem) está dizendo (...). Nós podemos pensar que aprender uma língua como nós conhecemos pode se tornar obsoleto. No Reino Unido, por exemplo, o número de estudantes que estão fazendo uma língua moderna caiu. Pesquisadores acreditam que é por causa do aumento de ferramentas como o Google Translate.

No entanto, ao mesmo tempo que os adolescentes estão virando as costas para línguas europeias tradicionalmente apreciadas, como alemão, francês e espanhol, na Grã-Bretanha está ocorrendo uma forte onda de interesse pelos idiomas locais. Houve uma aceitação de crianças aprendendo línguas como gaélico irlandês e escocês nos últimos cinco anos (...)

No entanto, esses fenômenos aparentemente contraditórios estão realmente relacionados: são simplesmente reações diferentes à automação e à globalização (...) À medida que nos tornamos mais conscientes do mundo que nos rodeia, também queremos voltar para as raízes locais (...)

Uma pesquisa recente de 15 países mostrou que uma linguagem comum é o fator mais importante na definição da identidade de uma nação. (...) Esta noção atrai muitas culturas, particularmente aquelas que foram oprimidas por serem negadas o acesso à sua língua


Continue lendo aqui

20 fevereiro 2014

Benefícios do inglês

O fato de a língua inglesa ser dominante pode beneficiar, em termos econômicos, os Estados Unidos? Com um grande déficit comercial, problemas relacionados com o declínio do poder econômico, os Estados Unidos ainda são considerados um país seguro para investir.

Parte desta percepção pode estar na hegemonia cultural: as séries, as músicas e os filmes que são populares no mundo geralmente são produzidos pela indústria dos Estados Unidos:

Como resultado, os estrangeiros enxergam os EUA como sendo mais familiar do que em outros países. Isto por sua vez significa que, embora ativos americanos carreguem riscos, eles são considerados como carregando menos incerteza ou ambigüidade. E como os investidores realmente odeiam a incerteza e gosta dessa relativa falta de ambiguidade, significa que os EUA podem emprestar mais barato do que os seus fundamentos econômicos expressam.

(Fonte: aqui)

Pesquisas recentes estão descobrindo a importância da língua, seja no desempenho econômico ou no ranking de futebol da Fifa.

27 março 2013

Proficiência em Inglês

O mapa apresenta os países segundo o índice de proficiência em inglês. Em azul, os países onde a população é muito proficiente. Basicamente a Escandinávia. Em vermelho, as pessoas são proficientes, representado pela Alemanha e vizinhos. De laranja, moderadamente proficiente, que inclui Argentina, Ibéria, França e Índia (mas esta foi colonizada pela Inglaterra). De verde, baixa proficiência, que está representado pelo México, Rússia, China, Peru, Uruguai, entre outros. De amarelo, muito baixa proficiência, que está o Brasil.

E iremos receber turistas na Copa e Olimpíadas.

19 março 2013

Comportamento e línguas

Inúmeras pesquisas comprovaram que o comportamento das pessoas é afetado por diversas variáveis. Uma pesquisa recente mostrou que a língua também tem seu papel em decisões como economizar, fazer exercícios, fumar e usar camisinha. No início do mês postamos um vídeo do TED talks sobre Keith Chen. Falemos mais sobre o assunto...

Keith Chen, da Universidade de Yale, nos Estados Unidos, investigou como as diferentes línguas fazem distinção entre eventos presentes e futuros. Enquanto no inglês, ao se mencionar uma chuva amanhã, você diz “It will rain tomorrow”, no alemão a mesma frase é “morgen regnet” (algo como 'chuva amanhã'). Há diferença entre as duas formas. O inglês exige, para compor a frase, o uso do verbo “will”, que indica que a ação irá ocorrer no futuro. Assim, a distinção entre o evento no futuro é mais forte na língua inglesa que na alemã.

Chen se questionou se esta distinção, que ocorre entre várias línguas, pode influenciar as chamadas “escolhas intertemporais”. Estas escolhas estão presentes na vida diária de cada um de nós: a escolha, por exemplo, de assistir televisão ao invés de fazer exercício físico numa manhã de terça-feira. Quando eu decido fazer uma atividade mais saudável, a opção terá diversos reflexos no futuro.

O estudo partiu da suposição que quando a língua faz uma grande distinção entre as ações do presente e do futuro, poderá afetar as escolhas intertemporais. Nas línguas nas quais a distinção entre presente e futuro não é forte, as pessoas seriam mais econômicas? E teriam mais hábitos saudáveis?

Chen encontrou que esta distinção afeta sim muitas decisões. Ele utilizou uma base de dados ampla sobre o comportamento das pessoas em diversos países e relacionou à presença (ou ausência) de uma referência ao tempo futuro (FTR, na abreviatura do autor). A comparação levou em consideração as características idênticas de renda, educação, família, entre outras. Pessoas com fraca FTR, como é o caso dos alemães, são mais econômicos (31% a mais), guardam mais dinheiro para aposentadoria (39% a mais), provavelmente fumam menos (24%), fazem mais atividade física (29% a mais) e são menos propensos a obesidade (13% a menos).

Mesmo em países que usam mais de uma língua, como é o caso da Suíça, a diferença persiste. E os países que possuem fraca FTR economizam, em média, 6% a mais do PIB por ano. Na conclusão da pesquisa, Chen diz acreditar que os resultados encontrados indicam que a língua pode ser a causa, não o reflexo, de algumas das diferenças.

Ao ler o texto fiquei pensando como é importante que pesquisas ousadas sejam realizadas na academia. Para um leigo, seria difícil imaginar a relação entre decisões econômicas e efeito da língua. Mas a criatividade de um pesquisador permitiu que se pudessem entender um pouco melhor escolhas intertemporais.

CHEN, M. Keith. The Effect of Language on Economic Behavior: evidence from savings rates, health behaviors, and retirement assets. American Economic Review, vol. 103, n. 2, 2013 (a ser publicado brevemente). Aqui uma versão preliminar do texto.

12 março 2013

Chinês

Na língua chinesa (mandarim), algumas palavras são resultados de palavras menores. O mapa acima traz a tradução literal das províncias e países fronteiriços pelo significado das palavras menores. Assim, existe uma província que faz fronteira com a Coréia do Norte com o nome de Distant Peace (Paz Distante). Mas Coréia do Norte, em chinês, é Morning Calm.

19 fevereiro 2012

Rir é o melhor remédio

A revista RollingStone Brazil decidiu fazer um comercial usando a canção Imagine, de John Lennon. A primeira manchete é "No Hell Bellow Us". Só o correto é "Below". Fonte: Aqui. Aqui, afirma que Lennon foi morto de novo, com a sugestão de pagar cem pratas e contratar um revisor.

17 maio 2011

Qualidade da escrita e a quantidade de vendas

Quem disse que escrever bem não ajuda?

[Anindya Ghose e Panagiotis Ipeirotis] notaram que "a procura de um hotel aumenta se as opiniões online no TripAdvisor e Travelocity são bem escritas, sem erros ortográficos; não importa se a revisão for positivo ou negativa." Ghose e Ipeirotis encontraram tendências semelhantes para produtos na Amazon.com.
(Does Reviewer Quality Matter? - Freakonomics - 12 de abr de 2011. Foto, aqui