Translate

05 junho 2019

Paradoxo do Big Data: enganados pela aleatoriedade

Resumo:
Statisticians are increasingly posed with thought-provoking and even paradoxical questions, challenging our qualifications for entering the statistical paradises created by Big Data. By developing measures for data quality, this article suggests a framework to address such a question: “Which one should I trust more: a 1% survey with 60% response rate or a self-reported administrative dataset covering 80% of the population?” A 5-element Euler-formula-like identity shows that for any dataset of size n, probabilistic or not, the difference between the sample average X¯nand the population average X¯N is the product of three terms: (1) a data quality measure, ρR,X, the correlation between Xj and the response/recording indicator Rj; (2) a data quantity measure, (Nn)/n, where N is the population size; and (3) a problem difficultymeasure, σX, the standard deviation of X. This decomposition provides multiple insights: (I) Probabilistic sampling ensures high data quality by controlling ρR,X at the level of N1/2; (II) When we lose this control, the impact of N is no longer canceled by ρR,X, leading to a Law of Large Populations (LLP), that is, our estimation error, relative to the benchmarking rate 1/n, increases with N; and (III) the “bigness” of such Big Data (for population inferences) should be measured by the relative size f=n/N, not the absolute size n; (IV) When combining data sources for population inferences, those relatively tiny but higher quality ones should be given far more weights than suggested by their sizes.
Estimates obtained from the Cooperative Congressional Election Study (CCES) of the 2016 US presidential election suggest a ρR,X0.005for self-reporting to vote for Donald Trump. Because of LLP, this seemingly minuscule data defect correlation implies that the simple sample proportion of the self-reported voting preference for Trump from 1% of the US eligible voters, that is, n2,300,000, has the same mean squared error as the corresponding sample proportion from a genuine simple random sample of size n400, a 99.98% reduction of sample size (and hence our confidence). The CCES data demonstrate LLP vividly: on average, the larger the state’s voter populations, the further away the actual Trump vote shares from the usual 95% confidence intervals based on the sample proportions. This should remind us that, without taking data quality into account, population inferences with Big Data are subject to a Big Data Paradox: the more the data, the surer we fool ourselves.
Fonte:
Meng, Xiao-Li. Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. Ann. Appl. Stat. 12 (2018), no. 2, 685--726. doi:10.1214/18-AOAS1161SF. https://projecteuclid.org/euclid.aoas/1532743473

Resultado de imagem para big data taleb



Dinheiro é passivo na contabilidade pública

Não, segundo Bossone e Costa. Segundo eles:

A correct application of the general principles of accounting raises fundamental doubts about the current conceptions of money. This column argues that such an application allows the inconsistency whereby cryptocurrencies are not a debt liability if they are issued by private-sector entities, but become so if they are issued by central banks, to be resolved. In both cases, cryptocurrencies actually represent equity capital of the issuing entities, a conclusion that should greatly assist national monetary and financial authorities in shaping regulations.

ou seja,
A correct application of the general accounting principles should instead recognise that state monies may not be considered as debt. The income associated with their issuance, and undistributed, should go into retained earnings and be treated as equity.

Teoria 4a. edição

Em 2008 estes dois jovens lançaram no CFC o livro Teoria da Contabilidade:
Neste instante da postagem estou trabalhando na quarta edição, finalizando o décimo capítulo. Muitas mudanças em relação a terceira edição.

Iasb estuda mudança nas demonstrações contábeis

O Iasb está começando uma boa discussão sobre as demonstrações financeiras. O seu projeto se desdobra em quatro partes: comparação das demonstrações, medidas de desempenho de gestão (MPM), desagregação de certos itens e alteração na demonstração dos fluxos de caixa. Vamos explicar, em linhas gerais, as principais mudanças sugeridas.

Comparação - aqui o foco é a demonstração do resultado. A proposta pretende tornar esta demonstração mais didática, estabelecendo três grandes grupos. O primeiro, que inclui as receitas menos o custo do produto vendido, despesas de salários, despesa de amortização/depreciação e resultados do teste de impairment, irá compor o chamado lucro operacional. Se a primeira parte da DRE traz informações sobre o desempenho operacional da entidade, a segunda trata do resultado de investimento realizado, contemplando as mudanças no valor justo dos ativos financeiros, o resultado com investimentos, incluindo dividendos. O efeito disto será um resultado antes do imposto e das despesas de financiamento. Chegamos então a terceira parte, que está associado a atividade de financiamento da empresa, representada principalmente pela despesa financeira (além da receita financeira com caixa e equivalentes). Isto irá compor o lucro antes de impostos.

Medida de desempenho de gestão (MPM) - Aqui o foco são as medidas não-GAAP, reconhecidas como uteis pelo Iasb. E as medidas que não estão nos padrões IFRS relacionadas com o desempenho da entidade. O objetivo do regulador é assegurar a existência de consistência nestas medidas ao longo do tempo. Assim, se existir uma mudança na MPM, a entidade deve indicar isto e a razão desta alteração. Além disto, permitir que haja uma conciliação com a medida de IFRS mais próxima possível. Um aspecto importante é a tentativa de divulgar a MPM juntamente com a DRE: notas explicativas devem ser usadas.

Desagregação de certos itens - as despesas devem estar apresentadas por natureza ou função. Isto não está muito claro e pode gerar um aumento de complexidade. Um segundo aspecto é a divulgação, em separado, de itens não usuais. Aqui o regulador evitou o termo “perda” ou “ganho” e faz questão de definir como itens com valor preditivo limitado já que itens semelhantes não irão aparecer no futuro.

Demonstração dos Fluxos de caixa - o objetivo é (1) começar a DFC do lucro operacional e (2) evitar a existência de alternativas na classificação de certos itens. Com respeito ao primeiro aspecto, atualmente a DFC começa com o lucro líquido da entidade. Isto poderá mudar. No segundo caso, juros e dividendos pagos serão considerados como financiamento na DFC (exceto para entidades financeiras), sendo que atualmente podem ser operacional ou financeira. E juros e dividendos recebidos serão classificados como investimento (novamente, exceto para entidades financeiras), e não mais operacional ou investimento.

Minha opinião - Achei muito positivo as mudanças na DFC, pois melhoram a qualidade da informação e permite melhor comparabilidade. Na desagregação de itens, tenho dúvidas sobre se isto não aumentará a complexidade da informação, sem ganhos na qualidade. Mas a definição de itens não usuais pareceu ser uma evolução. As medidas de desempenho ao mesmo tempo que “institucionaliza” as medidas “não-GAAP”, expulsa estes números da DRE. Isto pode dificultar o uso destes números para manipular o usuário. Sobre a divisão da DRE em três grandes grupos (operacional, investimento e financiamento), acho que ainda continua com a visão errônea de que o resultado de aplicações financeiras não é operacional, ou seja, resultante da falta de sincronia do ciclo operacional da empresa ou de sazonalidade. As escolhas parecem remeter a uma visão mais voltada para a Teoria da Entidade (em detrimento à Teoria do Proprietário.)