Translate

Mostrando postagens com marcador viés da publicação. Mostrar todas as postagens
Mostrando postagens com marcador viés da publicação. Mostrar todas as postagens

12 setembro 2022

Mechanical Turk e o problema do p-hacking

Na postagem sobre p-hacking e o viés da publicação, onde mostramos uma pesquisa que verificou se procedimentos de registro de análise prévia poderia resolver este problema, a boa notícia é que um dos procedimentos, o PAP, pode ser uma possível resposta para a questão. Lembrando que p-hacking é a tendência a forçar um resultado que torna a pesquisa com mais chance de ser publicada ou de ser citada. E o viés da publicação é o fato de que editores e pareceristas de periódicos terem uma preferência prévia por certos resultados, afetando a decisão de aceite de um artigo. 

Em um exemplo, é mais "publicável" um estudo que afirma que um alimento pode ajudar a reduzir uma doença do que outra pesquisa que diz não existir nenhuma relação. A nossa postagem mostrou que fazendo fazendo um registro prévio das hipóteses e da forma como a questão será abordada na pesquisa pode ajudar a resolver o p-hacking e o viés da publicação. 

Três dos quatro autores do estudo que descrevemos na postagem analisaram também o Mechanical Turk. Para quem não conhece, é uma ferramenta de propriedade da Amazon que tem sido muita usada em pesquisas em diversas áreas. Sua grande vantagem é permitir que uma pesquisa seja realizada com um universo de respondentes demograficamente mais diverso, sendo possível obter grandes amostras com baixo custo. 

Analisando os estudos publicados entre 2010 e 2020, os autores constataram que a amostra dos estudos é relativamente baixa (média de 249 respondentes). Em uma das notas de rodapé da pesquisa há um caso interessante de um estudo realizado em 2013 em que cinco anos depois o líder não se lembrava de nada do experimento com 956 participantes. Isto seria um sinal de que o MTurk apresenta um baixo custo de oportunidade: se a pesquisa tivesse sido presencial, você iria lembrar de algo, já que seu custo de aplicação é elevado. 

O resultado final é que pesquisas que usam o MTurk possuem p-hacking, viés de publicação e confiança excessiva nos resultados. O próprio comportamento da comunidade de responde pode afetar o resultado. 

Eis o abstract:

Amazon Mechanical Turk is a very widely-used tool in business and economics research, but how trustworthy are results from well-published studies that use it? Analyzing the universe of hypotheses tested on the platform and published in leading journals between 2010 and 2020 we find evidence of widespread p-hacking, publication bias and over-reliance on results from plausibly under-powered studies. Even ignoring questions arising from the characteristics and behaviors of study recruits, the conduct of the research community itself erode substantially the credibility of these studies’ conclusions. The extent of the problems vary across the business, economics, management and marketing research fields (with marketing especially afflicted). The problems are not getting better over time and are much more prevalent than in a comparison set of non-online experiments. We explore correlates of increased credibility

Eis um gráfico que diz tudo sobre o MTurk:

Esta é a curva dos resultados da estatística Z. A curva deveria está em formato decrescente - caso as pesquisas não tivessem problemas. 

(Uma curiosidade: o MTurk tem este nome em homenagem da Edgar Allan Poe. Na sua época, apareceu uma máquina que jogava xadrez, um robô, representado por um turco. Poe é do século XIX, então esta máquina era um truque. O escritor relata como a "maquina" funcionava)

08 setembro 2022

Uma possível solução para o p-hacking e o viés da publicação

Um dos problemas da pesquisa científica publicada é a existência do p-hacking, ou seja, a manipulação e/ou a seleção de resultados com determinados valores estatísticos. Como o pesquisador sabe que certos resultados podem aumentar a chance de publicação da sua pesquisa, há uma escolha ou uma tentativa de forçar certos resultados.

Suponha uma pesquisa sobre a relação entre o anúncio de resultados contábeis afetando o preço das ações. E considere também que os resultados serão mais aceitos caso tenha a comprovação da relação. Haverá uma tendência do pesquisador em forçar a apresentação dos resultados. Para o periódico, a publicação de uma pesquisa com esta relação será mais interessante, pois pode aumentar o número de pessoas que irá ler o trabalho e o número de outros pesquisadores que irão citá-lo. Isto é o p-hacking e sua consequência é um viés de publicação dos resultados. 

Um forma de resolver este problema é exigir um registro prévio do método a ser empregado, antes de iniciar a pesquisa. Isto irá garantir que não exista mudança na técnica estatística usada, que é algo comum quando o pesquisador deseja encontrar certo resultado. Uma forma mais rigorosa ainda é garantir que hipótese será testada e como isto irá ocorrer; Isso deve ser feito antes da pesquisa começar e é chamada de análise prévia ou PAP em inglês. 

Como o p-hacking passou a ser discutido nas ciências, ambas as soluções (registro prévio e análise prévia do planejamento) tornaram-se desejáveis. 
O gráfico mostra que o registro prévio nos periódicos de economia estão crescendo substancialmente. E entre os periódicos mais relevantes isto parece ser uma regra básica. Os outros periódicos estão acompanhando a onda. 

Mas será que isto funciona? Já foram desenvolvidos testes para verificar a existência de p-hacking e do viés da publicação que ocorre. Agora, quatro pesquisadores analisaram quase 16 mil estudos, com ensaios aleatórios controlados (RCT em inglês) e se isto reduziu os dois problemas. 
 
Como o pré-registro e o PAP são procedimentos distintos, a pesquisa analisou ambos. O gráfico acima mostra a distribuição dos testes estatísticos para a primeira situação, ou seja, do pré-registro. Na verdade, o gráfico da esquerda é a pesquisa sem pré-registro e o gráfico da direito é com o pré-registro. Se você achou que os gráficos parecem iguais, sua impressão é correta. Será que isto muda com um maior rigor, ou seja, com o PAP? O resultado está abaixo:
Os dois gráficos podem parecer idênticos, mas quando os autores analisaram os testes para verificar a presença de p-hacking o resultado mostrou que são estatisticamente diferentes. 

Eis o resumo do artigo:

Randomized controlled trials (RCTs) are increasingly prominent in economics, with preregistration and pre-analysis plans (PAPs) promoted as important in ensuring the credibility of findings. We investigate whether these tools reduce the extent of p-hacking and publication bias by collecting and studying the universe of test statistics, 15,992 in total, from RCTs published in 15 leading economics journals from 2018 through 2021. In our primary analysis, we find no meaningful difference in the distribution of test statistics from pre-registered studies, compared to their non-pre-registered counterparts. However, preregisterd studies that have a complete PAP are significantly less p-hacked. This results point to the importance of PAPs, rather than pre-registration in itself, in ensuring credibility

04 setembro 2019

Viés da publicação

Um dos grandes problemas da pesquisa científica é o chamado viés da publicação. Geralmente as pesquisas com resultados estatisticamente significativos possuem maiores chances de serem publicados. Uma pesquisa, da edição de agosto do American Economic Review (via aqui) mostrou que estas chances são de 30 vezes para os resultados da economia experimental. Como consequência, os resultados publicados podem estar inflados.

A figura abaixo mostra uma correção para experimentos que foram publicados no The American Economic Review e no Quarterly Journal of Economics, entre 2011 e 2014. A estimativa original está em roxo e a estimativa revisada em cor preta. O gráfico apresenta os intervalos de confiança de 95%. Os valores ajustados são, em geral, menores que os valores originais. Observe que o último estudo, de Kuziemko et al, tornou-se insignificante depois da correção.

No entanto, muitos resultados passam de significativos para insignificantes. Apenas dois dos dezoito resultados originais foram estatisticamente insignificantes. Após considerar o viés de publicação, doze resultados são estatisticamente insignificantes no nível de 5%.

03 abril 2019

Viés da publicação

Um problema sério que atinge a pesquisa científica é o viés da publicação. Da mesma forma que ocorre com os tabloídes, os periódicos e os membros das comissões de avaliação gostam de pesquisas que sejam mais “excitantes”. Em geral, isto significa pesquisas em apresentaram um p-valor elevado (vide sobre isto, postagem recente do blog). Caso o resultado não seja “excitante”, os periódicos tendem a não publicar e os avaliadores a questionar a validade do trabalho. Conforme destaca Guerra Pujol, isto gera uma falha de mercado acadêmica, gerando uma superprodução de estudos sensuais.

Para cada estudo que mostra que há uma relação entre gerenciamento de resultado e relatório de auditoria com ressalva temos diversos estudos “entediantes” que mostram que esta relação não existe. Se não sabemos deste estudo, não temos uma ideia real se efetivamente existe uma relação entre gerenciamento e auditoria.

Neste ponto, nós pesquisadores temos uma parcela enorme de culpa. Quando o resultado mostra com pouca significância, tentamos diversas técnicas, buscando um resultado que seja condizente com o que esperamos. E aceitamos que avaliadores descartem nossa pesquisa por não apresentarem resultado “sensuais”.

Uma forma de reduzir este problema é deixar registrado, antes do início da pesquisa, quais os testes serão realizados. Isto evitaria a “dragagem de dados" (ou aqui)