Translate

Mostrando postagens com marcador regressão. Mostrar todas as postagens
Mostrando postagens com marcador regressão. Mostrar todas as postagens

23 setembro 2018

Suposição

Em muitos trabalhos realizados no Brasil e submetidos em congressos / periódicos tem sido comum a solicitação dos famosos testes do modelo de regressão (como a normalidade dos erros). Eis o que diz Gellman:

The key assumptions of a regression model are validity and additivity. Except when you’re focused on predictions, don’t spend one minute worrying about distributional issues such as normality or equal variance of the errors.

28 abril 2016

Análise de regressão engana até especialistas

Resumo:

Does the manner in which results are presented in empirical studies affect perceptions of the predictability of the outcomes? Noting the predominant role of linear regression analysis in empirical economics, we asked 257 academic economists to make probabilistic inferences based on different presentations of the outputs of this statistical tool. The questions concerned the distribution of the dependent variable, conditional on known values of the independent variable. The answers based on the presentation mode that is standard in the literature demonstrated an illusion of predictability; the outcomes were perceived to be more predictable than could be justified by the model. In particular, many respondents failed to take the error term into account. Adding graphs did not improve the inference. Paradoxically, the respondents were more accurate when onlygraphs were provided (i.e., no regression statistics). The implications of our study suggest, inter alia, the need to reconsider the way in which empirical results are presented, and the possible provision of easy-to-use simulation tools that would enable readers of empirical papers to make accurate inferences.


Meu resumo (bem superficial):

A análise de regressão está interessada em verificar a relação entre variáveis dependentes (resultados de algum fenômeno) e variáveis independentes (possíveis causas). Assim, busca encontrar variáveis que tenham algum efeito significativo sobre os resultados. No entanto, ela olha apenas para efeitos médios, o que é insuficiente para realizar previsões probabilísticas, pois não há uma caracterização mais completa da relação entre variáveis dependentes e independentes.

O artigo acima mostra que a maioria dos professores e pesquisadores das melhores universidades do mundo da área de economia não sabem fazer previsões probabilísticas acuradas oriundas de analise de regressão. Como essa técnica está preocupada apenas com relações causais na média,  eles ignnoram a incerteza inerente da variável dependente, condicionada aos valores da variável independente. De maneira mais técnica, os pesquisadores focaram as incertezas das previsões nas estimativas dos parâmetros, mas não no erro padrão da regressão, que corresponde a variância da variável dependente que não pode ser explicada pela variável independente, dada por $(1-R^2$). Em suma, os economistas (e demais pesquisadores de ciências sociais) caem na Ilusão da Previsibilidade oriunda de regressões lineares.


07 abril 2015

Regressão

A figura abaixo apareceu no balanço da Cesp. A empresa estava apresentando os aspectos atuariais...
Utilizou uma regressão log, que apresentou um elevado R2. Mas os pontos mostram que esta talvez não seja a melhor opção em termos estatísticos.

10 dezembro 2014

Falhas Metodológicas das pesquisas empíricas em contabilidade

Some Methodological Deficiencies in Empirical Research Articles in Accounting. Accounting Horizons: September 2014
Resumo:

This paper uses a sample of the regression and behavioral papers published in The Accounting Review and the Journal of Accounting Research from September 2012 through May 2013. We argue first that the current research results reported in empirical regression papers fail adequately to justify the time period adopted for the study. Second, we maintain that the statistical analyses used in these papers as well as in the behavioral papers have produced flawed results. We further maintain that their tests of statistical significance are not appropriate and, more importantly, that these studies do not—and cannot—properly address the economic significance of the work. In other words, significance tests are not tests of the economic meaningfulness of the results. We suggest ways to avoid some but not all of these problems. We also argue that replication studies, which have been essentially abandoned by accounting researchers, can contribute to our search for truth, but few will be forthcoming unless the academic reward system is modified.

Keywords:  research methodology, statistical analysis

Received: September 2013; Accepted: May 2014 ;Published Online: May 2014

Thomas R. Dyckman and Stephen A. Zeff (2014) Some Methodological Deficiencies in Empirical Research Articles in Accounting. Accounting Horizons: September 2014, Vol. 28, No. 3, pp. 695-712.

 http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2324266


Thomas R. Dyckman is a Professor Emeritus at Cornell University and an Adjunct Professor at Florida Gulf Coast University, and Stephen A. Zeff is a Professor at Rice University.

Recomendações dos Autores:

In summary we have endeavored to make the following points:

First, authors must adequately defend their selection of the sample period by convincing the reader that the period is stable itself and in relation to periods in close proximity.

Second, the accounting academy should actively seek and reward replications as an essential element in its aspirations to be a scientific community.

Third, authors should attend to the economic significance as well as the statistical significance of their investigations.

Fourth, authors should respect the limitation of conventional hypothesis tests applied to their data, which implies enhanced caution when declaring results to be statistically significant.

Fifth, authors could consider reporting the use of statistical intervals as a way to mitigate the problems of determining the most likely alternative hypothesis and thereby the appropriate Type ll error.

Sixth, authors need to be sure that, in their “Conclusions” section, they discuss the limitations of their research and how these limitations might be overcome, as well as suggest extensions for future research.
Seventh, authors should consider the use of descriptive statistics and other approaches as a means of, or support for, establishing the validity of their research objective.

Eighth, editors should consider requiring authors of accepted papers to provide a complete description of their methodology, including data collection, accuracy, and verification

05 dezembro 2014

Idade dos jogadores e performance na Copa



Following his squad’s early exit, Vicente del Bosque, the Spanish manager, dismissed concerns that his men were over the hill. “This is a mature team with players in their prime”, he insisted. On the surface, the results of the 2010 World Cup seem to confirm that he had little reason to worry. In that tournament, there was no statistically significant relationship between teams’ average age and their final standing. The two youngest teams were Spain and North Korea: one finished first, the other dead last.

However, it is hard to detect the impact of a factor like age using a sample of just 32 teams in a single World Cup, because so many other variables also influence performance. After all, Spain and North Korea differed in every meaningful way except for their average age. In order to isolate the age factor, we must compare teams of otherwise roughly similar skill. One simple way to control for overall quality is to limit the study to defending World Cup champions, all of whom were good enough to win a title four years before the tournament in question.


And within this group, age seems to have a remarkably strong impact. The single strongest factor that influenced their performance was probably the (close to) home-field advantage: teams that played on their own continent performed nearly six places better in the final standings than those that had to travel further afield. But after adjusting for the effect of geography, a one-year increase in average age was associated with a four-place drop in performance (see chart). In other words, if a reigning champion simply brought back its roster from four years before, its mean age would increase by four years, and it would be expected to finish a dismal 17th. Although the sample of title defenders is small, the examples seem compelling. When Italy repeated as the victor in 1938—it is still only one of two teams to win back-to-back Cups—it had the second-youngest team of any returning champion in tournament history. One-third of Cup victors won with an average age below 26, including Spain itself in 2010. Conversely, France in 2002 and Italy in 2010 sent two of the oldest squads, and neither won a single match.

Had the oddsmakers placed greater weight on this variable, they would have been far more bearish on Spain’s chances—and on Argentina’s. The players on this year’s edition of La Roja had an average age of 28, two years older than those who won in South Africa in 2010. Based on that factor alone, they would not have even be expected to reach the quarterfinals. Yet even this rather gray Spanish squad was not the oldest in the 2014 World Cup. That honour goes to Mr Messi and Co.—who have the added misfortune of facing a Belgian team that is the tournament’s second-youngest.

Why do a few piddling birthdays seem to be the difference between triumph and collapse? While there is clearly some value to experience and mastering the intricacies of the game, the raw physical demands of football at the highest level have grown increasingly extreme. In the 1970s players ran a modest four km (2.5 miles) per match; today the figure is over ten. In most other continuous-play sports, managers have the flexibility to rest older veterans to keep them fresh for key moments: the San Antonio Spurs won the National Basketball Association this year by keeping their three biggest stars on the bench 43% of the time. But football’s limit of just three substitutions per match puts a premium on endurance above all else. And it takes a huge amount of guile and technique to compensate for even a small loss of foot speed or stamina. As a result, modern football players tend to peak between the ages of 23 and 25, and are usually well into their decline phase by their late 20s.

Managers are understandably reluctant to leave stars with a relatively recent record of success on the bench or off the team altogether. In addition to prompting an uproar from fans, promoting a green youngster over a battle-tested veteran could easily sow friction among players. But the evidence suggests that managers would be well-advised to kill their darlings at the first opportunity. For all but the most precocious or durable players, even a second World Cup appearance is probably one too many.

Fonte: aqui

26 novembro 2011

Basileia II

O acordo de Basileia II no Brasil vai permitir que os bancos utilizem modelos internos, na abordagem IRB avançada, que sirvam de base para o cálculo dos requisitos mínimos de capital em função do nível de exposição ao risco de crédito. Dentre os principais componentes estimados estão a probabilidade de descumprimento (PD – probability of default), a perda dado o descumprimento (LGD – loss given default) e a exposição no descumprimento (EAD – exposure at default). Este trabalho tem como objetivo investigar mecanismos de estimação de LGD utilizando modelos de regressão. Considerando que o mercado brasileiro ainda se encontra em um estágio incipiente na análise de LGD e a disponibilidade de dados de taxas de recuperação é restrita, foram simulados portfólios de crédito através de técnicas de Monte Carlo. A dependência entre LGD e as variáveis explicativas das percentagens de perdas em caso de inadimplência é modelada através de cópulas gaussianas e de matrizes bi-estocásticas. Os resultados sugerem que a análise de regressão multivariada, usando diversas funções de transformação, possibilita identificar adequadamente as variáveis que explicam LGD.

A concessão de crédito é requisito essencial para o desenvolvimento de um país. Nos últimos anos, a oferta de crédito no Brasil tem aumentado de maneira significativa, influenciada por diversos fatores importantes, como a queda nas taxas de juros, o aumento do prazo médio das operações e a estabilidade econômica.

Segundo dados do Banco Central do Brasil (Bacen), o estoque total de empréstimos bancários no sistema financeiro em relação ao PIB passou de 31,6% em 2007 para 47,2% em 2010. Essa ampliação de recursos destinados à concessão de crédito causa também o aumento dos riscos e a necessidade de maior controle por parte das instituições financeiras e do regulador do mercado, o Bacen.

O Gráfico 1 mostra a Relação Crédito/PIB no Brasil e em outros países do mundo, em porcentagem, e indica que o Brasil ainda empresta pouco em relação a seu Produto Interno Bruto (PIB), comparando-se com países desenvolvidos como Espanha e Estados Unidos e com países emergentes como o Chile e a Malásia. Se a tendência de aumento do crédito atual for mantida, é possível que o Brasil alcance em alguns anos os níveis dos países com maior volume de financiamentos em relação ao PIB no mundo. Por isso, será cada vez mais importante para os bancos precificarem e gerenciarem o risco de crédito de maneira mais precisa, utilizando sistemas mais sofisticados de gestão. Já o Bacen deve estar apto a exigir requisitos mínimos de capital que consigam refletir o verdadeiro risco das carteiras de crédito dos bancos, seguindo diretrizes traçadas internacionalmente pelo Comitê de Basileia II e adaptando algumas regras para as especificidades do mercado brasileiro.



No Brasil, o Banco Central determinou, em 2004, através do comunicado nº 12.746, o cronograma de implementação de Basileia II, com previsão de encerramento no final de 2011. Em outubro de 2009 ocorreu a última atualização do cronograma, através do comunicado nº 19.028, e a previsão de encerramento do processo de implantação foi alterada para o final do primeiro semestre de 2013. Em fevereiro de 2011, o Bacen publicou o Edital de Audiência Pública nº 37, com as regras que devem fazer parte do documento final de Basileia II no Brasil e que irão reger o sistema bancário nacional.

O presente estudo pretende verificar o comportamento das perdas em carteiras de crédito simuladas com técnicas de Monte Carlo e, além disso, realizar estimativas de LGD utilizando dois diferentes modelos descritos na literatura e comparar os resultados obtidos por cada um deles. Os valores estimados de LGD são utilizados no cálculo do Capital Mínimo Exigido (CME), determinante do capital alocado pela instituição financeira, através dos modelos internos na abordagem IRB avançada. Dada a escassez de dados de perdas em carteiras de empréstimos disponíveis ao público, este estudo utiliza bases de dados simuladas com técnicas de Monte Carlo. Para a criação de dependência entre algumas variáveis explicativas aleatórias, foram utilizadas cópulas gaussianas e, no processo de junção das variáveis com as observações de LGD, foram utilizadas matrizes estocásticas duplas.

No procedimento utilizado, primeiramente os valores de LGD e das variáveis explicativas que compõem as bases de dados do estudo são simulados. Em seguida, essas bases são utilizadas para a realização de estimativas do parâmetro LGD através: (i) do modelo desenvolvido por Hamerle et al. e (ii) do LossCalc, da Moody’s KMV, descrito por Gupton e Stein. Finalmente, os resultados obtidos por cada modelo de estimação de LGD dentro dos portfólios de crédito resultantes das simulações serão comparados.

Este trabalho pode servir como base para as instituições financeiras analisarem e estimarem de forma mais precisa suas perdas de crédito e as eventuais recuperações incorridas em seus portfólios, utilizando a metodologia nele descrita e adaptando as informações e as variáveis do estudo pelos seus dados observados internamente. Além disso, o trabalho pode ser utilizado pelos bancos com poucas observações de perdas na simulação de portfólios de crédito fictícios.

Em resumo, a metodologia se baseia em três etapas principais: (i) desenvolvimento de portfólios de crédito utilizando simulação de Monte Carlo, cada um contendo 10.000 observações de LGD, que são formadas pela junção de duas variáveis com distribuição Beta, uma com assimetria à direita e outra com assimetria à esquerda, e 10.000 observações de quatro variáveis explicativas de clientes inadimplentes, sendo duas delas seguindo uma distribuição Beta, uma com distribuição normal e uma com distribuição de Bernoulli; (ii) realização de estimativas de LGD das carteiras simuladas, utilizando dois modelos descritos na literatura e (iii) comparação dos resultados obtidos com a aplicação dos dois modelos de estimação de LGD.

Mais especificamente, a simulação de dados envolve (i) o uso de cópulas gaussianas para a modelagem de dependência entre as variáveis explicativas associadas à inadimplência e (ii) o confronto entre percentis da variável LGD e das variáveis independentes levando-se em consideração uma matriz bi-estocástica como referência. A estimação do modelo de LGD através dos dados gerados por simulação de Monte Carlo é realizada usando-se regressão linear múltipla.

As cópulas gaussianas são geradas a partir da correlação entre as variáveis explicativas. Dentro do estudo, foram utilizados quatro conjuntos de correlações diferentes na simulação das carteiras de crédito, e verificou-se que não houve impacto significativo nos resultados das regressões dependendo da correlação utilizada.

A simulação de dados é fundamental no desenvolvimento deste trabalho, dadas as dificuldades na obtenção de dados reais de LGD em carteiras de crédito no Brasil. Desta forma, o presente estudo deve resultar em uma ferramenta teórica importante de análise de carteiras para as instituições financeiras, que serão capazes de controlar melhor suas perdas esperadas e inesperadas, seguindo também as diretrizes do acordo de Basileia II e do Bacen. A metodologia desenvolvida pode ser utilizada por instituições financeiras que desejem realizar estimativas de LGD para verificar quais variáveis impactam nas perdas em seus portfólios de crédito.

Depois de simuladas as bases de dados, foram utilizados no estudo dois modelos descritos na literatura, que são apresentados a seguir.

Modelo Logit

Uma vez que a LGD é expressa de forma percentual, variando entre 0 e 1, não é possível realizar estimativas diretamente através de regressão linear. Assim, é necessário seguir um procedimento de transformação do tipo Logit nas observações de LGD da base de dados de desenvolvimento para então realizar estimativas através de regressão linear e obter os coeficientes de cada variável transformada. Em seguida, utilizando os coeficientes obtidos na regressão, são estimados os valores que serão posteriormente transformados em observações de LGD através da função inversa utilizada no início do procedimento.

Nos dados deste trabalho, são realizadas regressões lineares dos parâmetros explicativos que foram simulados contra os valores transformados das observações de LGD, utilizando-se o método dos mínimos quadrados ordinários.

Modelo LossCalc, da Moody’s KMV

O LossCalc é um sistema desenvolvido pela Moody’s KMV que considera a taxa de recuperação no momento da inadimplência como uma variável estocástica independente da PD e igual a 1 – LGD. É utilizado por investidores e instituições financeiras nas estimativas de LGD para eventos de inadimplência ocorridos imediatamente ou que venham a ocorrer dentro de um ano.

Partindo das observações de LGD nas bases de dados simuladas, criadas através da combinação de duas variáveis com distribuição Beta, característica bimodal e que variam entre 0 e 1, é necessário realizar uma transformação Beta para deixar a variável dependente normalmente distribuída e utilizar, assim, uma regressão linear na estimativa dos coeficientes apropriados dos fatores preditivos, tendo como variável dependente o valor transformado de LGD. Depois de estimados os valores de LGD no “espaço normal”, aplica-se a transformada inversa para levar estes valores ao “espaço de LGD”, resultando nas estimativas de LGD para cada exposição de crédito.

Novamente, foi utilizado o método dos mínimos quadrados ordinários na regressão linear dos parâmetros explicativos contra os valores transformados de LGD.

Resultados e comentários finais

Os resultados das regressões lineares indicam que o modelo de Hamerle et al., que utiliza a transformação do tipo Logit, em comparação ao LossCalc, com a transformação Beta, foi o que teve a melhor qualidade no ajuste à linha de regressão, ou o maior valor de R2, em todas as bases de dados simuladas neste estudo, independentemente da correlação utilizada entre as variáveis explicativas. A Figura 1 (Histograma das variáveis simuladas no estudo) apresenta a distribuição das variáveis dependentes e independentes simuladas em uma das bases de dados utilizadas.

Algumas limitações da metodologia de simulação podem ser elencadas, como, por exemplo, o alto ajuste observado dos modelos em relação à reta de regressão, devido ao tipo de construção das bases utilizado. Como sugestão, as combinações entre as variáveis explicativas e LGD poderiam ser feitas por outros métodos em vez da matriz estocástica dupla utilizada. Outra limitação é a não avaliação da acurácia e do desempenho dos modelos de previsão em testes fora-da-amostra e fora-do-tempo, devido à utilização de bases de dados simuladas.

Para a criação de dependência, uma sugestão em trabalhos futuros semelhantes seria a utilização de relações não-lineares entre as variáveis explicativas, ou seja, a criação de cópulas não gaussianas, visto que em dados reais é provável que as relações existentes entre as variáveis não sejam lineares. Outra sugestão seria a utilização da metodologia descrita em bases de dados reais de instituições financeiras com muitas ou poucas operações inadimplentes, para verificar o comportamento de variáveis não simuladas nas estimativas de perdas em portfólios de crédito. Adicionalmente, outras técnicas de estimação podem ser investigadas, em substituição à análise de regressão linear múltipla utilizada no presente estudo.

Finalmente, as instituições financeiras podem utilizar esse trabalho como base metodológica para sua gestão de risco de crédito, visto que ele apresenta importantes ferramentas de simulações de dados e, ao mesmo tempo, propõe modelos que podem ser utilizados na mensuração das perdas em portfólios de crédito. Além disso, os bancos seriam capazes de estimar de forma mais precisa a LGD de suas carteiras, parâmetro essencial no cálculo dos requisitos mínimos de capital, na abordagem IRB avançada, seguindo as diretrizes do acordo de Basileia II e as regras definidas pelo Bacen.

Fonte: Valor

20 setembro 2011

Otimização de resultados na Tata

A Tata Iron Steel Company Ltd. é uma das maiores empresas da Índia. Por causa do suprimento pouco confiável de energia elétrica, a empresa se defronta com faltas frequentes de energia e deve gerir cuidadosamente seu consumo de energia elétrica -alocando a energia escassa à aplicações mais rentáveis. A estimação das necessidades de energia em cada posto de processamento na usina siderúrgica foi a primeira cosntrução de um modelo de gestão aprimorado do consumo de energia. A adminisração utilizou a regressão simples por mínimos quadrados para estimar os componentes fixo e variável de da carga de nergia elétrica. O consumo total de energia era a variável dependente, e a variável independente era o número de toneladas de aço processadas. O componete fixo estimado a partir da regressão por mínimos quadrados foi o consumo fixo de energia, em quilowatts-hora por mês, e o componente variável era o consumo de energia por tonelada de aço processada.

Fonte: "How Tata Steel Optimized Its Results", The Managemente Accountant, maio de 1996,pp.372-376.

28 fevereiro 2007

10 Stocks to Last the Decade

Esse é o título de um artigo publicado em 2000 pela Fortune. Listava dez empresas que estavam prontas para ... vencer. Segundo o artigo, com essas ações era possível proteger o patrimônio contra a volatilidade do mercado. Quais eram as ações?

O sítio Fool relembra as dicas da Fortune. Ao lado, o retorno desde agosto de 2000. Muito interessante a previsão:

Broadcom (Nasdaq: BRCM) = (78%)
Charles Schwab (Nasdaq: SCHW) = (51%)
Enron = Sem Palavras!!!
Genentech (Nasdaq: DNA) = 121%
Morgan Stanley (NYSE: MS)= 0%
Nokia (NYSE: NOK) = (45%)
Nortel Networks (Nasdaq: NT) = (96%)
Oracle (Nasdaq: ORCL) = (53%)
Univision = (42%)
Viacom = !!

Uma das possíveis explicações para o desastre da Fortune: a revista olhou o passado, não o futuro. Se for verdade, temos um típico caso de regressão à média, um fenômeno muito conhecido pelos estatísticos e financistas.

Um exemplo muito conhecido de regressão à média ocorre nos esportes. Quando um atleta se destaca numa competição seu nome vai para as manchetes. Mas o destaque do atleta ocorreu em razão do seu desempenho estar muito acima da sua média histórica de desempenho. Na próxima competição seu padrão volta ao normal - regride à média. É muito conhecido o azar da capa da Sports Illustrated, onde o atleta que aparece na capa piora o desempenho. Explicado pela regressão à média.