Translate

Mostrando postagens com marcador big data. Mostrar todas as postagens
Mostrando postagens com marcador big data. Mostrar todas as postagens

14 outubro 2022

Um ponto de dados pode vencer o big data

Um dos exemplos citados no livro "Todo mundo Mente" é sobre como o Google usou os dados de pesquisa sobre os sintomas da gripe para antecipar a doença. Stephens-Davidowitz mostra que baseado no que as pessoas inseriram na página do Google era possível prever um potencial surto de gripe. Esta pesquisa gerou muita controvérsia e posteriormente questionamento sobre a qualidade do modelo. Isto ocorreu em 2008, mas o caso está descrito no livro citado.

Em outro livro, lançado este ano, o pesquisador alemão Gigerenzer não somente questiona a pesquisa como propõe uma alternativa, baseada em uma informação somente. Antes de prosseguir é importante destacar que Gigerenzer (foto) é um dos mais conceituados pesquisadores na área comportamental. O alemão é diretor do Center for Adaptive Behavior and Cognition do Instituto Max Planck e diretor do Harding Center for Risk Literacy, todos em Berlim. 

Embora não seja tão conhecido como Kahneman, Gigerenzer tem estudos que rivalizam com o israelense. Seu foco são as heuríticas, ou regras práticas, que as pessoas usam. Em língua portuguesa o pesquisador tem publicado um livro, exatamente sobre o risco.
Agora ele lançou um novo livro, How to Stay Smart in a Smart World. E um dos capítulos do livro é sobre como um ponto de dados pode vencer o big data. Usando as informações da gripe, entre 2008 a 2013, Gigerenzer comparou o modelo do Google - um algoritmo baseado em dezenas de variáveis - com um modelo mais simples, com uma variável somente. Antes de mostrar o comparativo, a figura a seguir mostra que o modelo do Google estava cometendo erros.

Na parte de cima da figura é possível perceber que o modelo do Google teve um desempenho pior que o modelo de Gigerenzer ("recency heuristic" na figura). Em 2009, por exemplo, o Google Flu Trends, como foi denominado, errou para menos, pois subestimou a gripe suína. 

Alguns podem encolher os ombros e dizer: sim, já ouvimos isso antes, mas isso foi em 2015; os algoritmos de hoje são infinitamente maiores e melhores. Mas meu argumento não é o sucesso ou fracasso de um algoritmo específico desenvolvido pela empresa Google. O cerne é que o princípio do mundo estável se aplica todos algoritmos que usam o passado para prever um futuro indeterminável. Antes do fracasso da análise de big data do Google, sua reivindicação à fama foi tomada como prova de que o método e a teoria científicos estavam prestes a se tornar obsoletos. A pesquisa cega e rápida através de terabytes de dados seria suficiente para prever epidemias. Reivindicações semelhantes foram feitas por outros por desvendar os segredos do genoma humano, do câncer e do diabetes. Esqueça a ciência; basta aumentar o volume, a velocidade e a variedade e medir o que se correlaciona com o quê. Chris Anderson, editor-chefe da Wireless, afirmou: “A correlação substitui a causa, e a ciência pode avançar mesmo sem modelos coerentes... É hora de perguntar: o que a ciência pode aprender com o Google?"

Vamos agora falar sobre o modelo de Gigerenzer. Usando um conceito de 1838, formulado por Thomas Brown, no século XIX. A lei da recência diz que experiências recentes vêm à mente de maneira mais rápida que as experiências de um passado mais distante. E estas experiências "recentes" são mais relevantes para a decisão humana. 

Usando isto, Gigerenzer elaborou o seguinte modelo: o número de pessoas que irão consultar um médico em uma semana é igual ao número da semana passada. O modelo é muito simples. Mas é melhor que o do Google? Em termos de erro a resposta é sim:

O teste foi realizado entre 2007 a 2015. O erro médio absoluto para o modelo usando a lei da recência foi de 0,20, versus um erro médio de 0,38 para o modelo do Google. 

26 abril 2019

Big Data e Ciência

Zhang mostra com a grande presença de dados criou uma crise na ciência. O seu argumento parte de uma história envolvendo o estatístico Ronald Fisher. Uma senhora fez uma afirmação de que seria capaz de separar corretamente uma bebiba. Usando oito xícaras, Fisher distribuiu xícaras aleatoriamente para que a senhora provasse, sendo quatro de um sabor e quatro de outro. Lidando com uma distribuição hipergeométrica, ao acertar todos as xícaras, Fisher calculou que a chance do acerto ser por advinhação seria de 1,4%.

O processo usado por Fisher corresponde a construir uma hipótese, coletar dados e analisar o resultado. O problema é que o grande número de dados torna difícil fazer isto nos dias atuais.

Por exemplo, os cientistas podem agora coletar dezenas de milhares de expressões genéticas de pessoas, mas é muito difícil decidir se alguém deve incluir ou excluir um gene em particular na hipótese. Nesse caso, é atraente formar a hipótese baseada nos dados. Embora tais hipóteses possam parecer convincentes, as inferências convencionais dessas hipóteses são geralmente inválidas. Isso ocorre porque, em contraste com o processo do “de degustação da senhora”, a ordem de construir a hipótese e ver os dados se inverteu.

Se um cientista hoje usar 100 senhoras que não sabem distinguir o sabor após provar todas as oito xícaras. Mas existe uma chance de 75,6% de pelo menor uma pessoa advinhar, por sorte, o sabor. Se a análise fosse feita somente para esta pessoa, poderia concluir que ela tem condição de fazer a distinção entre os sabores. O problema é que o resultado não é reproduzível.

Se a mesma senhora fizesse o experimento novamente, ela provavelmente classificaria os copos erroneamente - não tendo a mesma sorte que na primeira vez - já que ela não poderia realmente dizer a diferença entre eles.

O exemplo mostra como algumas pesquisas, nos dias atuais, dependem de “sorte” para produzir resultados desejados.

27 fevereiro 2019

Teoria na Era do Big Data


  • Na era do Big Data, há um questionamento se a teoria ainda é importante
  • A grande presença de dados pode alterar a escolha sobre como fazer uma pesquisa
  • O perigo é a possibilidade de correlação espúria

Uma vez que a pesquisa científica está usando cada vez mais dados, em grandes quantidades, há um questionamento se a teoria ainda é importante. Jackson, em The Role of Theory in an Age of Design and Big Data, discussa a questão sob a ótica dos economistas. Mas sua visão pode ser expandida para a contabilidade. Ele relembra que recentemente Duflo afirma que economistas seriam como plumbers encanadores, onde o trabalho envolve questões para melhorar a vida das pessoas. E acrescenta que as pesquisas teóricas estão em claro declínio: eram 57% dos artigos publicados em 1983 e representava 19% em 2011. Mas na visão dele, a teoria ainda é necessária na era do design e do big data.

Uma típica pesquisa na era do Big Data coleta uma grande quantidade de dados e procura extrair dali algum tipo de relação estatística. Explora as informações, sem um conhecimento prévio do que pode encontrar. Com o resultado encontrado, o pesquisador tenta buscar teorias que poderia sustentar os achados. Um trabalho deste tipo começaria com a metodologia e análise dos dados para depois fazer a revisão da literatura ou revisão da teoria (são coisas distintas). Alguns pesquisadores acham que esta maneira de fazer pesquisa está errada. É uma opinião baseada no fato de que, em alguns casos, os achados não possuem vínculo com uma base teórica. Isto ocorre quando temos a situação de correlação espúria (aqui, aqui, aqui e aqui), onde o tamanho do vestido apresenta correlação com o comportamento do mercado acionário.

Entretanto, é inegável que algumas descobertas da ciência são feitas desta forma. O que parece estranho quando temos o resultado, pode ser um achado importante. O famoso paper de Fama e French usou uma pesquisa deste tipo para chegar ao modelo de três fatores, segundo afirma Justin Fox. Criticando Fama, é bem verdade.

Para o pesquisador, é importante saber que sua escolha por este tipo de pesquisa também leva a algumas escolhas de técnicas. Uma pesquisa que trabalha os dados, “sem uma teoria”, deveria usar o método Stepwise na regressa múltipla; já uma pesquisa com base teórica precedendo a análise dos dados poderia optar pelo método Enter (vide Andy Field no seu livro de estatística).

Imagem, a partir de uma imagem retirada daqui

14 janeiro 2019

Big Data e Teoria

A questão do Big Data ainda irá gerar uma boa discussão na ciência. Há uma certa associação entre a chegada do Big Data e o fato de estarmos livre da teoria. A pesquisa tradicional começa com uma teoria. Em uma ótica mais atual, coleta-se uma tonelada de dados para validar o palpite e tenta encontrar padrões.

A questão é que os padrões podem surgir em um grande conjunto de dados sem que exista uma base para isto

Em seu best-seller 2001 Good to Great, Jim Collins comparou 11 empresas que superaram o mercado de ações geral nos últimos 40 anos com 11 empresas que não o fizeram. Ele identificou cinco características que as empresas de sucesso tinham em comum. "Nós não começamos este projeto com uma teoria para testar ou provar", gabou-se Collins. "Procuramos construir uma teoria a partir do zero, derivada diretamente da evidência".


O fracasso de Collins é bastante conhecido.

Após a publicação de Good to Great, o desempenho das magníficas 11 ações da Collins foi claramente medíocre: cinco ações tiveram um desempenho melhor do que o mercado de ações em geral, enquanto seis tiveram resultados piores.

Em um exemplo mais recente, a empresa Google criou um programa que usava as consultas de pesquisa para prever os surtos de gripe. Usando 50 milhões de consultas de pesquisa, foram identificados 45 termos que possuíam mais correlação com a incidência de gripe. Depois disto, o programa estimou os casos. Na verdade, superestimou, já que o número de casos previsto foi o dobro do que realmente ocorreu.

Segundo Gary Smith:

Uma boa pesquisa começa com uma ideia clara do que alguém está procurando e espera encontrar. A mineração de dados apenas procura padrões e, inevitavelmente, encontra alguns.

Um pouco nesta linha, aqui uma interessante discussão entre o aprendizado de máquina e a econometria.

05 junho 2018

Big Data e custo de Capital

Uma relação interessante entre Big Data e custo de capital:

Exploramos a hipótese de que o uso de big data nos mercados financeiros reduziu o custo de capital para grandes empresas, em relação às pequenas, permitindo que as grandes empresas crescessem. Grandes empresas, com mais atividade econômica e uma história mais longa da empresa, oferecem mais dados para processar. À medida que os processadores mais rápidos processam cada vez mais dados - anúncios de macro, demonstrações de lucros, métricas de desempenho dos concorrentes, demanda de exportação etc. - as grandes empresas tornam-se alvos mais valiosos para essa análise de dados. Uma vez processados, esses dados podem prever melhor o valor da empresa, reduzir o risco de investimento de capital e, assim, reduzir o custo de capital da empresa.

BEGENAU, Juliane; FARBOODI, Maryam; VELDKAMP, Laura. Big data in finance and the growth of large firms. National Bureau of Economic Research, 2018.

Basicamente a relação seria:

Grandes empresas = mais dados para processar = prever melhor o valor da empresa = reduzir o risco de investimento de capital = reduzir o custo de capital da empresa.

13 agosto 2017

Tricia Wang: As percepções humanas que faltam no big data


Por que tantas empresas tomam decisões ruins, mesmo com acesso a quantidades de dados sem precedentes? Com histórias da Nokia à Netflix e aos oráculos da Grécia antiga, Tricia Wang desmistifica o big data e identifica suas armadilhas, sugerindo que nos concentremos em "thick data" - percepções preciosas e não quantificáveis de pessoas reais - para tomar as decisões de negócios corretas e prosperar no desconhecido.

18 maio 2017

Descobrindo os bons pagadores

Aqui estão as palavras usadas em pedidos de empréstimo por pessoas mais propensas a quitar a dívida: dívida livre, menor taxa de juros, depois de impostos, pagamento mínimo, pós-graduação.

E aqui estão as palavras usadas por aqueles menos propensos a pagar seus empréstimos:
Deus, promessa, vai pagar, obrigado, hospital.

(...) Frases como "taxa de juros mais baixa" ou "depois de impostos" indicam um certo nível de sofisticação financeira na parte do mutuário, por isso não é surpreendente que eles se correlacionam com alguém mais propensos a pagar seu empréstimo de volta. Além disso, se ele ou ela fala sobre realizações positivas, como ser um graduado de faculdade e ser "livre de dívidas", também é provável que pague seus empréstimos.

Agora, vamos considerar a linguagem que sugere que alguém é improvável que pague seus empréstimos. Geralmente, se alguém lhe diz que ele pagará de volta, ele não pagará de volta. Quanto mais firme a promessa, mais provável ele irá quebrá-la. Se alguém escreve "Prometo que vou pagar de volta, então me ajude Deus", ele está entre os menos propensos a pagar de volta. Apelando à sua misericórdia - explicando que ele precisa do dinheiro porque ele tem um parente no "hospital" - também significa que ele é improvável que pague de volta. De fato, mencionar qualquer membro da família - marido, esposa, filho, filha, mãe ou pai - é um sinal que não pagará. Outra palavra que indica padrão é "explicar", ou seja, se as pessoas estão tentando explicar por que eles vão ser capazes de pagar um empréstimo, eles provavelmente não.

Os autores não têm uma teoria de por que agradecer as pessoas é prova de padrão provável.

Alguém que menciona Deus foi 2,2 vezes mais propensos a inadimplência. Este foi um dos únicos indicadores mais altos que alguém não iria pagar de volta.

Mas os autores também acreditam que seu estudo levanta questões éticas.Embora este tenha sido apenas um estudo acadêmico, algumas empresas relatam que usam dados on-line para aprovar empréstimos. Isso é aceitável? Queremos viver em um mundo em que as empresas usam as palavras que escrevemos para prever se devemos pagar um empréstimo? É, no mínimo, assustador - e, possivelmente, assustador.


Fonte: Aqui

18 maio 2016

A ilusão com o Big Data

O mundo vive a era do volume colossal de dados. Muitas pessoas acham que a solução para problemas de diversas áreas virá do acúmulo e análise de grandes volumes de dados. No entanto, descrever em detalhes as moléculas que compõem os investidores no mercado financeiro não ajudará na formulação de políticas para evitar crises financeiras. Em sistemas complexos o mais importante é saber quais informações são as mais relevantes. O segredo é  determinar quais informações são pivotais e alteram o comportamento de um sistema. Para a compreensão dos dados, é necessário identificar os padrões, que são determinados por um pequeno conjuntos de informações. Além disso, é preciso identificar as transições que ocorrem num sistema. Identificar o comportamento passado não é a solução.


Devido a complexidade do mundos, as tradicionais ferramentas do cálculo e da estatística falham em identificar mudanças radicais em diversos sistemas físicos e sociais. Num sistema complexo, as unidades do sistema não agem de forma totalmente independente ou juntas. Em verdade, elas são interdependentes: uma influencia a outra. Assim, as técnicas acadêmicas tradicionais não conseguem capturar esse comportamento interdependente.

Um exemplo de sistema complexo é o mercado de commodities. A teoria econômica tradicional pressupõem que os agentes decidem seus investimentos de maneira racional e independente, gerando uma curva de demanda e oferta em equilíbrio. O problema dessa análise não é a questão da racionalidade, mas da independência.  Pela ótica de sistemas complexos, as decisões das pessoas influenciam as outras e vice-versa (trend-following). Ou seja, não são totalmente independentes, o que leva as ações individuais se combinarem em oscilações coletivas (bandwagon effect). Não entanto, os conceitos e a matemática utilizado pelos economistas não são capazes de descrever essa dinâmica, apesar das evidências dos trabalhos econômicos mostrarem esses efeitos no mercado.

Sob esse contexto, uma explicação para a formação de bolhas quebras é a interação entre investidores especuladores (denominados trend-followers, que compram quando o preço está subindo e vendem quando o preço está caindo) e investidores fundamentalistas ( que compram na baixa e vendem quando o mercado está em alta). Com o uso do método da  renormalização em grupo , é possível identificar com sucesso a dinâmica de bolhas e quebras do mercado de commmodities, por exemplo. Quando o preço está subindo, os investidores que seguem tendências (trend-followers) tendem a entrar no mercado comprando o ativo, levando o preço para longe do seu equilíbrio. Quando o preço está em alta, investidores fundamentalistas passam a vender o ativo e o preço cai em direção ao equilíbrio. Nesse momento, a interação entre os agentes leva a um efeito de vagão, em que os investidores seguem o comportamento uns dos outros e acabam vendendo o ativo, gerando mais vendas e por consequência, o mercado quebra. Um raciocínio simétrico é válido para o caso de bolhas. Em suma, quando os investidores seguem tendências, bolhas ou quebras são induzidas por esse padrão de comportamento em larga escala.



O problema das metodologias tradicionais utilizadas pela academia (como o cálculo e a estatística) é que elas apenas modelam sistemas simples, em que há separação do comportamento entre a escala micro e macro. Não obstante, a interação entre as partes, gera o comportamento de larga escala, que não é correspondente a separação entre as partes. Assim, uma nova ferramenta matemática denominada  renormalização em grupo foi desenvolvida por físicos para dar detemerminar quais informações são importantes em larga escala. Ou seja, esse método considera a importância da informação (escala). O método da renormalização em grupo  já foi aplicado com sucesso em áreas da biologia e sistemas sociais.

Descrever todos os detalhes de um sistema complexo ( como sistemas biológicos e sistemas sociais), gera excesso de informação. Por outro lado, descrever  somente a média é insuficiente para entender o funcionamento do sistema. Assim, é preciso saber quais variáveis são relevantes.

O perfil de complexidade representa a quantidade de informação necessária para descrever um sistema em função de sua escala . Quanto maior a escala, menos informação é necesária para representar de maneira fidedigna o sistema. Segundo esse perfil, cada pedaço de informação de um sistema tem um tamanho. Dessa maneira, ao invés de acumular detalhes sobre o sistema, é melhor começar a compreender o sistema pelo seu padrão de comportamento em larga escala e adicionar informação apenas quando necessário.

Quanto maior a escala de um sistema, menos detalhes são visíveis e apenas distinções agregadas são vistas. A agregação das partes de um sistema é uma função de como cada parte depende uma da outra. Entender como as propriedades das partes se unem auxilia a compreensão das propriedades do sistema em larga escala. Assim, modelar sistemas com o método de  renormalização em grupo  permite a compreensão das interdependências de um sistema, indentificação de sua a estrutura e entendimento de como realizar intervenções de maneira formal.


Fonte: Yaneer Bar-Yam and Maya Bialik, Beyond Big Data: Identifying important information for real world challenges,2013

29 julho 2014

Big Data e Fraude

O uso da tecnologia do big data, termo usado para a análise de grandes quantidades de dados, na detecção de fraudes e corrupção, é aprovado pela maior parte dos representantes de empresas no Brasil. No entanto, ainda é pequena a parcela das companhias que utilizam de fato esse tipo de recurso.

A conclusão é de um relatório da empresa de auditoria Ernst Young realizado com executivos de empresas em 11 países.

O levantamento mostrou que 75% dos entrevistados no Brasil acreditam que ferramentas de big data são importantes na prevenção e detecção de fraudes. Entre os motivos, está o fato de que esse tipo de tecnologia permite varrer uma grande quantidade de dados em um curto espaço de tempo.

Porém, o caminho entre teoria e prática ainda é longo. Apenas 5% das empresas sondadas faz uso de recursos de big data, como o FDA (sigla em inglês para "análise legista de dados"), que examina bancos de informações em busca de pistas de crimes financeiros.

De acordo com a pesquisa da Ernst Young, o maior desafio para 28% dos representantes brasileiros é o acesso a ferramentas e conhecimento mais adequados na área de FDA.


O estudo apurou que para 13% dos entrevistados brasileiros as despesas em tecnologias de big data devem aumentar expressivamente nos próximos três anos, enquanto que 48% disseram que o investimento aumentará pouco.


Fonte: Aqui