No final de 2023, tentei utilizar o Google para realizar uma verificação tradicional de plágio entre os trabalhos que recebi dos alunos. O Google costumava ser bastante útil para detectar a origem de vários trabalhos, mas percebi que algumas consultas não estavam retornando resultados, mesmo quando a frase pesquisada, proveniente do trabalho, era relativamente comum. A impressão era de que, como resultado, o desempenho do Google havia piorado.
Gabriel Ferreira enviou um link de um extenso texto sobre pesquisas realizadas entre diferentes ferramentas e ele também começava com a mesma percepção: os resultados da pesquisa no Google nos dias atuais são muito piores do que há dez anos. O texto é de um especialista e o autor considera que essa percepção dos usuários ocorre devido às pessoas se acostumarem a trabalhar com produtos ruins e não experimentarem. Uma possível razão é que os mecanismos de pesquisa são baseados em ranqueamento, onde os cliques dos usuários correspondem aos melhores resultados.
Aqui vai um parêntese. A tecnologia usada é denominada MDS (escalonamento multidimensional) e recentemente postei neste blog um uso dela para a classificação de músicos. Fechando o parêntese aqui.
Um dos problemas é que, se os usuários humanos forem bons, as melhores páginas serão colocadas em primeiro lugar. Mas, se forem inexperientes, páginas inúteis aparecerão nos resultados da pesquisa. Outro problema é que os sites querem gerar receita e, por isso, colocam os anúncios patrocinados em primeiro lugar. Um usuário comum da internet muitas vezes não consegue fazer essa distinção, e a qualidade do resultado cai.
Se você quiser testar a qualidade do resultado do seu buscador, digite "automóvel" ou "celular" e veja a quantidade de anúncios, intercalados por uma página da Wikipedia. (A seguir, os três primeiros resultados quando digitei celular no Google)
Com base nisso, o link fez seis consultas em seis instrumentos de pesquisa. As perguntas foram: como baixar um vídeo do YouTube, como bloquear anúncios, como baixar o Firefox, qual a razão dos pneus mais largos terem melhor aderência, qual a razão da redução dos transmissores de CPU e qual a previsão de neve em Vancouver. As perguntas não foram exatamente essas, e estavam em língua inglesa.
Para as respostas, foram utilizados cinco buscadores tradicionais (Google, Bing, Kagi, Mwmbl e Marginalia), além do ChatGPT. O teste também incluiu o DDG (DuckDuckGo, que eventualmente utilizo nas pesquisas, além do Google) e alguns outros, mas que não foram incluídos seja por apresentarem resultados similares ou por um problema técnico.
Como diz o autor da postagem, é óbvio que não se trata de um artigo avaliado por pares ou que esgota o assunto, mas a conclusão é bastante interessante. Portanto, os resultados estão apresentados a seguir, e o vencedor é...
O Marginalia, que é construído e mantido por uma pessoa. Isso é uma grande surpresa, já que o código é aberto. O resultado é melhor que o famoso ChatGPT. No texto que cito aqui, há um detalhamento dos resultados da pesquisa e a razão de cada classificação apresentada acima.