Páginas

26 abril 2019

Big Data e Ciência

Zhang mostra com a grande presença de dados criou uma crise na ciência. O seu argumento parte de uma história envolvendo o estatístico Ronald Fisher. Uma senhora fez uma afirmação de que seria capaz de separar corretamente uma bebiba. Usando oito xícaras, Fisher distribuiu xícaras aleatoriamente para que a senhora provasse, sendo quatro de um sabor e quatro de outro. Lidando com uma distribuição hipergeométrica, ao acertar todos as xícaras, Fisher calculou que a chance do acerto ser por advinhação seria de 1,4%.

O processo usado por Fisher corresponde a construir uma hipótese, coletar dados e analisar o resultado. O problema é que o grande número de dados torna difícil fazer isto nos dias atuais.

Por exemplo, os cientistas podem agora coletar dezenas de milhares de expressões genéticas de pessoas, mas é muito difícil decidir se alguém deve incluir ou excluir um gene em particular na hipótese. Nesse caso, é atraente formar a hipótese baseada nos dados. Embora tais hipóteses possam parecer convincentes, as inferências convencionais dessas hipóteses são geralmente inválidas. Isso ocorre porque, em contraste com o processo do “de degustação da senhora”, a ordem de construir a hipótese e ver os dados se inverteu.

Se um cientista hoje usar 100 senhoras que não sabem distinguir o sabor após provar todas as oito xícaras. Mas existe uma chance de 75,6% de pelo menor uma pessoa advinhar, por sorte, o sabor. Se a análise fosse feita somente para esta pessoa, poderia concluir que ela tem condição de fazer a distinção entre os sabores. O problema é que o resultado não é reproduzível.

Se a mesma senhora fizesse o experimento novamente, ela provavelmente classificaria os copos erroneamente - não tendo a mesma sorte que na primeira vez - já que ela não poderia realmente dizer a diferença entre eles.

O exemplo mostra como algumas pesquisas, nos dias atuais, dependem de “sorte” para produzir resultados desejados.

Nenhum comentário:

Postar um comentário