Translate

Mostrando postagens com marcador base de dados. Mostrar todas as postagens
Mostrando postagens com marcador base de dados. Mostrar todas as postagens

18 janeiro 2014

Frase

Cerca de 90% do total de dados do mundo foram criados nos dois últimos anos.


Dominic Barton via Estadão

10 março 2011

Emails dos funcionários da Enron

Emails dos funcionários da Enron - Postado por Pedro Correia

Em outubro de 2003, Andrew McCallum, cientista da computação da Universidade de Massachusetts, observou que o governo americano tinha uma coleção de mais de cinco milhões de mensagens de email da Enron, que era investigada na época. Ele comprou uma cópia do banco de dados por 10 mil dólares e tornou disponível gratuitamente para pesquisadores acadêmicos e corporativos. Aqui está o link para a base de dados.

17 janeiro 2011

CRSP

Nas pesquisas na área de contabilidade e de finanças são comuns trabalhos que partem de uma base já pronta para fazer testes estatísticos e provar hipóteses. Tudo isto começou quando um reitor da Universidade de Chicago, Jim Lorie, criou, em 1960, o Centre for Research in Security Prices (CRSP, ou "crisp"). Podemos afirmar que a pesquisa moderna na nossa área tem um divisor: antes e depois do CRSP.

Antes da existe do Centro a pesquisa era mais teórica; após, mais quantitativa, com uso intenso de números. Segundo informação da revista The Economist (Data birth, 18 de novembro de 2010), um terço de todas as pesquisas empíricas nos últimos quarenta anos usou os dados do CRSP. Um dos primeiros trabalhos que aproveitou os dados do CRSP foi o texto de Eugene Fama, sobre a hipótese de mercado eficiente. Fama, na época, encontrou que o mercado segue um caminho aleatório (random walk) no preço das ações.


 

Com a criação da base de dados CRSP os economistas, subitamente, acreditaram que "finanças tornou-se mais científica", diz Robert Shiller, um economista da Universidade de Yale e um cético de longa dada da hipótese do mercado eficiente.

02 setembro 2010

Dados

HOUVE UM TEMPO em que a Bolsa de Valores era gritada. Não era um caos, mas certas horas parecia rúgbi. Na última década a informatização foi tão completa que o chão da Bolsa, hoje, nem precisa existir.

Em alguns casos, a massa humana que se esgoelava por um bom negócio foi substituída por algoritmos, regras executadas por computadores nem tão gigantescos como nossa imaginação gostaria, dando conta de transações que duram frações de segundo.

Esse é o caso das negociações em alta frequência, onde os humanos saíram da transação propriamente dita e foram para o planejamento da cadeia de valor das transações, transformando a negociação em embate de regras executáveis por máquinas.

Aqui e ali um defeito mais ou menos catastrófico num ou noutro sistema envia uma ordem de venda de alguns bilhões de dólares de uma vez, como se os computadores resolvessem testar os nervos dos homens e das mulheres do mercado.

Até agora temos nos recuperado de tais eventos de uma forma ou outra, e não há evidência de que um bug, em algum sistema, tenha causado uma crise. Pode até ter detonado alguma crise já armada, pronta para explodir, mas ainda estamos para ver a primeira "crise algorítmica" da economia planetária.

Enquanto isso, o volume de dados criados, processados e usados nas empresas já é muito grande e dobra a cada 18 meses, segundo texto recente da "The Economist".

Os negócios estão debaixo de um verdadeiro dilúvio digital, exemplificado pelo Walmart: os clientes do maior varejista do mundo fazem 1 milhão de transações por hora, criando 2,5 petabytes (1 PB é igual a 1.125.899.906.842.624 bytes) de dados a cada 60 minutos, ou 167 vezes a informação armazenada na biblioteca do Congresso americano, principal repositório mundial de conhecimento clássico, aquele armazenado em livros e em filmes.

Muito bem: sua empresa está funcionando e todos que com ela interagem, comprem alguma coisa ou não, geram dados, muitos dados.

Quase todo negócio competente coleta dados em quantidade e em qualidade que só os censos costumavam fazer no passado, e faz isso por mês, semana ou, em casos como o do Walmart e de seus competidores, por dia ou por hora.

Isso cria a possibilidade de redesenhar ofertas, produtos, processos e serviços em tempo real, se o negócio conseguir entender e reagir ao dilúvio de dados no qual está imerso a tempo de se reinventar à medida que seu contexto muda.

Há quem já faça isso muito bem, especialmente os suspeitos on-line usuais, Google, Amazon e eBay.

Mas muito mais gente está pensando seriamente no problema e começa a entender que a análise de "big data" (volumes de dados gigantescos, segundo um relatório recente da McKinsey, no link http://bit.ly/9yHofW [http://bit.ly/9yHofW]) e a capacidade de simular e experimentar comportamentos em tempo real pode ser essencial na competição cada vez mais acirrada na maioria dos mercados.

No Japão, o redesenho dinâmico das ofertas das cadeias de lojas de conveniência, em que até a previsão do tempo é parte da simulação, é quase lendário.

O grande volume de dados nos negócios cria a possibilidade de exercitar um dos princípios de Deming: "Acreditamos em Deus; todos os outros devem trazer dados".

Medir e processar para entender e melhorar é o que está por trás de tal linha de raciocínio e essa é a possibilidade aumentada por "big data" e experimentação barata, baseada em computação de muito grande porte e testes reais, que fornecem mais dados e mais possibilidades de processamento e aquisição de informação e conhecimento.

Mas, falando em Deming, ele também considerava a administração baseada somente em dados um dos sete pecados capitais das organizações. Segundo ele, há aspectos importantes dos negócios que são desconhecidos e, pior, impossíveis de serem conhecidos, por mais dados e processamento que se tenha.

O que não deixa de ser uma boa notícia: por muito tempo, parece, haverá papéis para seres humanos na gestão das organizações...


Negócios baseados em dados - 2 Set 2010 - Folha de São Paulo - Silvio Meira

11 agosto 2008

Faz sentido?

O valor dos dados será tratado como um ativo no balanço e relatado pelo CFO, ao mesmo tempo em que a qualidade dessas informações se tornará uma métrica de relatório técnico e um indicador-chave de desempenho da área de TI. Novas práticas de contabilidade surgirão para medir o valor dos dados, de modo a ajudar as empresas a demonstrar como a qualidade das informações alavanca o desempenho das companhias.

Informações bem gerenciadas - Jornal do Commércio do Rio de Janeiro - 11/08/2008

24 julho 2008

Dados em Excesso, Teoria e Ciência



A existência de dados em excesso (e a fácil disponibilidade dos mesmos através da internet) aliada à existência de softwares estatísticos tem transformado a ciência moderna. E isso também é perceptível nas pesquisas contábeis, onde os dados sobre comportamento dos preços das ações no mercado acionário, além das informações contábeis dos relatórios trimestrais das empresas abertas, têm sido usados exaustivamente. É muito comum a construção de pesquisas onde os autores apresentam uma técnica de tratamento dos dados, geralmente análise multivariada, testam em dados empíricos e chegam a resultados estatísticos. Mas parece que falta algo importante: a teoria ou o modelo que permitiria a explicação do estudo. É o quantitativo pelo quantitativo.

Tenho tido oportunidade de analisar muitos trabalhos nos últimos anos e esse problema tem sido comum. Mas seria que isso é realmente uma ciência? Seria possível construir modelos teóricos dessa forma? Mais ainda, os modelos teóricos são necessários? Basicamente podemos afirmar que nesse novo mundo a diferença entre correlação estatística e causação é muito tênue.

Leia mais sobre esse assunto neste texto do blog Academic Producitivity.com. Chris Anderson, autor do livro sobre Cauda Longa, em The End of Theory: The Data Deluge Makes the Scientific Method Obsolete, comenta o fim dos modelos. Anderson afirma de forma contundente: a abordagem de ciência com hipotese, modelo e teste está tornando-se obsoleta. No mundo dos dados, “correlação é suficiente”.

We can stop looking for models. We can analyze the data without hypotheses about what it might show. We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot.

27 março 2007

Reescrevendo a história

Três pesquisadores, Alexander Ljungqvist (New York University), Christopher Malloy (London Business School) e Felicia Marston (University of Virginia) fizeram uma comparação na base I/B/E/S em dois períodos de tempos distintos (2002 e 2004) e descobriram algo que pode influenciar várias pesquisas acadêmicas da área de finanças, contabilidade e economia.

Usando o período de 1993 a 2002 os pesquisadores compararam as informações que estavam disponíveis em 2002 e em 2004. Esperava-se que a base de dados não tivesse mudado com o tempo. Não foi o que ocorreu.

A base I/B/E/S é muito utilizada por pesquisadores por ter as recomendações dos analistas de mercado: compra, manter ou vender. Por esse motivo tem sido considerado um "termometro do sentimento do mercado" num determinado perído de tempo.

A comparação mostrou mais de 54 mil mudanças (num total de 280 mil observações), incluindo alterações de recomendação (onde estava comprar mudou para vender, e vice-versa), adição de arquivos, remoção de recomendação ou do nome do analista. A mudança não foi aleatória, e teve mais impacto nas grandes empresas de corretagem. Em outras palavras, alguns analistas estavam "reescrevendo a história", exatamente o título da pesquisa.

O artigo é interessante para alertar aos pesquisadores sobre os problemas de se usar, sem uma análise crítica, uma base de dados.

Para ler o artigo, clique aqui