De um trecho do livro Distrust, de Gary Smith, sobre uma pesquisa de Yukun Lin e Aleh Tsyvinski, publicada no NBER, eu encontrei uma consideração crítica ao uso da tortura de dados. Inicialmente o resumo da pesquisa de Lin e Tsyvinski:
Estabelecemos que a troca de risco-retorno de criptomoedas (Bitcoin, Ripple e Ethereum) é distinta da de estoques, moedas e metais preciosos. As criptomoedas não têm exposição aos fatores macroeconômicos e do mercado de ações mais comuns. Eles também não têm exposição aos retornos de moedas e mercadorias. Por outro lado, mostramos que os retornos das criptomoedas podem ser previstos por fatores específicos dos mercados de criptomoedas. Especificamente, determinamos que há um forte efeito de momento da série temporal e que os proxies para a atenção do investidor prevêem fortemente o retorno da criptomoeda. Finalmente, criamos um índice de exposições a criptomoedas de 354 indústrias nos EUA e 137 na China.
A principal crítica do trabalho de L&T, feita por Gary Smith, é a busca por relação entre variáveis:
Liu e Tsyvinski relatam correlações entre o número semanal de pesquisas do Google pela palavra bitcoin (em comparação com a média nas últimas quatro semanas) e as variações percentuais nos preços do bitcoin uma a sete semanas depois. Eles também analisaram a correlação entre a proporção semanal de pesquisas de hackers de bitcoin e as variações percentuais nos preços de bitcoin uma a sete semanas depois. O fato de eles terem relatado resultados de pesquisa de bitcoin olhando para trás quatro semanas e para frente sete semanas deve nos alertar para a possibilidade de que eles tentem outras combinações de retrocesso e encaminhamento que também não funcionaram. O mesmo vale para o fato de que eles não olharam para trás quatro semanas com pesquisas de hackers de bitcoin. Evidentemente, eles torturaram os dados em sua busca por correlações.
Mesmo assim, apenas sete de suas catorze correlações pareciam promissoras para prever os preços do bitcoin. Owen Rosebeck e eu examinamos as previsões feitas por essas correlações durante o ano seguinte ao estudo e descobrimos que elas eram inúteis. Eles também podem ter lançado moedas para prever os preços do bitcoin.
Este tipo de questão é comum em pesquisa empírica. É feito um monte de modelo e somente aqueles que apareceram com significantes que são relatados.
Tradicionalmente, a pesquisa empírica começa especificando uma teoria e depois coletando dados apropriados para testar a teoria. Muitos agora adotam o atalho para procurar padrões em dados não onerados pela teoria. Isso é chamado de mineração de dados, na medida em que os pesquisadores vasculham os dados, sem saber o que encontrarão.
Estamos empenhados em buscar padrões, mas o dilúvio de dados torna a grande maioria dos padrões esperando para ser descoberta ilusória e inútil. Bitcoin é novamente um bom exemplo. Como não existe uma teoria lógica (exceto ganância e manipulação de mercado) que explique flutuações nos preços do bitcoin, é tentador procurar correlações entre os preços do bitcoin e outras variáveis sem pensar muito sobre se as correlações fazem sentido. Além de torturar dados, Liu e Tsyvinski extraíram seus dados.
Eles calcularam correlações entre os preços do bitcoin e outras 810 variáveis, incluindo itens caprichosos como o dólar canadense - EUA. taxa de câmbio do dólar, preço do petróleo bruto e retorno de ações nas indústrias automobilística, de livros e de cerveja. Você pode pensar que estou inventando isso. Infelizmente eu não sou.
(Tradução via Vivaldi). Foto