Translate

Mostrando postagens com marcador texto. Mostrar todas as postagens
Mostrando postagens com marcador texto. Mostrar todas as postagens

27 janeiro 2023

A cor das palavras

Our paper relies on stock price reactions to colour words, in order to provide new dictionaries of positive and negative words in a finance context. We extend the machine learning algorithm of Taddy (2013), adding a cross-validation layer to avoid over-fitting. In head-to-head comparisons, our dictionaries outperform the standard bag-of-words approach (Loughran and McDonald, 2011) when predicting stock price movements out-of-sample. By comparing their composition, word-by-word, our method refines and expands the sentiment dictionaries in the literature. The breadth of our dictionaries and their ability to disambiguate words using bigrams both help to colour finance discourse better.

Aqui


O primeiro parágrafo é bem esclarecedor:

Since Tetlock (2007), the literature in Finance and Accounting studying different types of textual data has flourished.1 The current state of the art to measure sentiment is to use a “bag-of-words” approach, counting words in dictionaries that are specialized to Finance and Accounting jargon, namely those developed by Loughran and McDonald (2011) (LM dictionaries). This approach has been criticized as potentially having low power in comparison to more sophisticated machine learning techniques (Gentzkow et al., 2019). Our paper contributes to this debate by constructing new dictionaries using techniques from the natural language processing literature (NLP) in Computer Science, explicitly comparing their composition and predictive power relative to the LM dictionaries.

Foto: Sharon Pittaway

20 novembro 2020

A Língua da Economia

Blair Fix faz uma interessante análise das palavras usadas na economia. Ele usa alguns dos livros que são adotados no ensino da disciplina e compara com os outros livros publicados (inclusive literatura). Por exemplo:


A palavra preço aparece 13.900 vezes (em um milhão de palavras) nos livros de economia; mas só aparece 296 vezes (também em um milhão) nos demais livros. Ou seja, a frequência relativa é de 46,9 ou 13900/296. Isto indica que palavra é muito utilizada nos livros de economia. Parece óbvio, pois trata-se do jargão da disciplina. Já a palavra ciência ocorre menos na economia do que nos demais livros. Aqui Fix observa que isto talvez seja um reflexo do fato da economia ser uma pseudo-ciência. 

Observe que a última coluna da tabela é mais importante, pois relaciona o uso de um termo na economia com os demais livros. "Murder" (assassino) parece não interessante muito a economia quanto as demais obras. "Ditchdigger" (escavador de valas) é um termo muito pouco usado nos livros, mas ainda assim aparece mais nos livros de economia. As palavras mais usadas, de forma relativa, nos livros de economia, são:

Mas Fix considera que é importante analisar as palavras que não foram usadas ou foram usadas em uma quantidade menor que os demais livros. Veja o resultado a seguir:

Muitas palavras estão ligadas a religião (gospel, judeu, Deus, etc). Eis sua análise:

Os livros de economia, no entanto, são um tipo muito particular de escrita secular. Eles estão promovendo uma ideologia secular . E isso torna a subutilização de palavras religiosas dos economistas mais interessante. Enquadrado dessa forma, podemos pensar na Figura 4 como mostrando duas ideologias contrastantes. A ideologia secular da economia exclui amplamente a linguagem usada pelas ideologias religiosas. Fascinante.

Mas um resultado que Fix não esperava é o termo "anti". Em lugar de dizer "João é anti-democrático", os economistas constroem a frase como "João tem preferência pela não democracia".  Ou seja,

Os livros de economia estão vendendo uma ideologia que legitima o status quo. E a melhor maneira de fazer isso é silenciar qualquer conversa de oposição. Elimine 'anti' do seu vocabulário.

Contabilidade? - Alguém por favor use o método de Fix e faça um trabalho parecido para a contabilidade. 

14 outubro 2018

Boatos e Estilometria

Uma pesquisa usa a estilometria (stylometry) para rastrear os manipuladores do mercado de capitais. A estilometria é o estudo de um texto, analisando o estilo, a escolha de palavras, a pontuação e outros aspectos, para identificar um autor.

Na pesquisa, Mitts, da Universidade de Colúmbia, identificou pessoas que divulgavam boatos sobre empresas para lucrar no mercado de opções. Como estas pessoas repetiam a estratégia de desinformação, o estilo tornou-se conhecido. Foram estudados 2 mil ataques publicados no Seeking Alpha, um site de análise de investimento. Antes da publicação dos textos, alguém (o redator, o editor ou outra pessoa) comprava opções.

Com o passar do tempo, os autores que divulgavam boatos perdem credibilidade e o texto deixam de ter efeito. Mas os autores trocam de identidade para continuar com a estratégia. Neste momento, a estilometria pode ajudar a identificar a relação entre os autores.

Leia mais aqui e aqui

20 abril 2017

Texto Como Dado

As primeiras pesquisas na área contábil usavam os números produzidos pela contabilidade e os preços das ações das empresas. Nos últimos anos, cresce as pesquisas que extrapolam o conforto de tomar as cotações das ações e fazer relações estatísticas com alguma variável (divulgação de uma notícia, desempenho da empresa, evolução temporal são alguns dos itens de uma lista grande). Os pesquisadores começaram a perceber que contabilidade não significa só número. Quando uma empresa divulga suas demonstrações contábeis, a grande maioria das informações, nos dias de hoje e para grandes empresas, são apresentadas em textos. Somente uma pequena parcela sãos os números das demonstrações contábeis. Mais ainda, a comunicação de desempenho de uma empresa com seus investidores não ocorre somente em quatro datas fixas ao longo do ano; nos dias de hoje, uma empresa está entregando informações sobre seu desempenho cada vez que divulga uma informação na rede social ou num fato relevante ou numa declaração de um gestor para algum canal de comunicação.

Se o número tem o poder de dar uma informação de forma “precisa”, o texto pode ser amorfo. Se a coleta do valor do lucro de uma empresa é feita rapidamente através da linha deste item na demonstração do resultado, o mesmo não se pode dizer do sentimento da empresa sobre as suas perspectivas futuras, que poderia estar expressa no relatório da administração ou num comentário do seu twitter oficial.

Assim, não é surpresa nenhuma olhar a história da pesquisa contábil e certificar que a grande maioria dos artigos tiveram nas suas informações numa base de dados numérica. Além disto, o pesquisador que se aventurou em usar os dados textuais – oral ou escrito – teve que enfrentar dois grandes desafios. O primeiro é a coleta e tratamento dos dados. As narrativas geralmente não estão disponíveis a um clique da base de dados existente na minha universidade; elas precisam ser coletadas, reunidas, convertidas de PDF para um arquivo texto e criadas as condições de análise. O trabalho é enorme.

O segundo grande desafio é a subjetividade da informação. Quando um pesquisador coleta um lucro de 134 milhões de reais num exercício social de uma empresa, esta é a informação “precisa” e clara que ele irá usar. Mas quando um executivo de uma empresa escreve “outra conquista importante foi conviver e superar um contexto macroeconômico hostil” o que isto significa? (Esta frase peguei por acaso o Relatório da Administração da CEB) Isto é uma afirmação otimista ou pessimista? E junto com a subjetividade existe a desconfiança sobre a existência de “erros” na pesquisa.

Mas o aparente esgotamento das pesquisas estritamente numéricas, a exigência dos avaliadores de que uma pesquisa deve trazer algo mais que uma aplicação de um método quantitativo para um conjunto de números que estão disponíveis, a expansão da comunicação não numérica entre empresa e usuário, além do surgimento de instrumentos para este tipo de pesquisa, podem ser um anúncio de que as pesquisas com textos serão promissoras.

Neste sentido, o artigo “Text as Data”, de Matthew Gentzhow, Bryan Kelly e Matt Taddy não somente destacam a relevância deste tipo de pesquisa, como indicam algumas das ferramentas existentes e apresentam alguns exemplos relevantes. Um exemplo é sua utilização para preços das ações. Outro, a determinação de autoria de um texto. Também é possível usar a pesquisa narrativa para determinar o sentimento de um banco central nos seus comunicados. Ou observar o sentimento da imprensa. E assim por diante.

Futuros pesquisadores: o desafio está lançado.

15 agosto 2015

Fontes para leitura de textos longos

Hoje eu fui procurar no Google qual a melhor fonte para leitura e encontrei uma postagem que falava um pouco o que eu estava pensando e resolvi compartilhar aqui. Em resumo:

Quais as melhores fontes para ler em pdf? E em livro/papel impresso?

[...]

Estou finalizando a edição de um artigo traduzido com 24 páginas, então a questão de uma fonte que seja adequada pra uma leitura longa tem ficado na minha cabeça há alguns dias. Lembrei também da tag “fonts” do delicious do Moreno, que tem 35 links sobre fontes (coisa pra caramba!) e enfim… Escolher uma fonte foi se tornando uma tarefa cada vez mais difícil. Na verdade acho que foi que nem escolher vestido pra festa: provei o armário inteiro pra sair com a roupa que eu tinha escolhido inicialmente.
[...]

Acredito que aconteça uma confusão nos resultados de busca também por conta da ambiguidade da palavra “fontes”: fontes (tipografia?), fontes (bibliográficas, de informação?), fontes (de energia?), enfim. Em inglês cacei “what’s the best font” onde me foram sugeridos: for a resume, for resumes, to use, for a novel, to use on a resume. Apareceu muita coisa e praticamente todos os resultados da primeira página foram bem relevantes e recentes, mas alguns mais que os outros. Entre eles selecionei:

Online Journalism Review, Question of the week: What’s the best font for the Web?(01/06/2008)
Galleycat, What’s the best font for a book? (14/01/2011)
Stackoverflow, What’s the most readable, appealing font? (07/04/2010)
Integral Web Solutions, What’s the best font for websites and blogs? (02/04/2011) – um dos posts que mais gostei.
[...]

Mas o que eu queria saber mesmo é o que as pessoas que conheço – meus colegas – acham que seja uma boa fonte (excetuando-se claro as que ninguém aguenta mais: Arial, Times New Roman e a Comic Sans, que todo mundo adora odiar). [...] Me parece que muita gente [...] acha que as fontes serifadas são melhores para leitura de material impresso.
[...]

[São os tipos que contem serifas, ou seja, pequenos traços, ornamentos e/ou prolongamentos que ocorrem no fim das hastes das letras. Exemplos de tipos: Times New Roman, Baskerville, Bookman, Century, Georgia, Garamond e Rockwell]

Um especialista de design deu as seguintes dicas:

Serifada ou não? Preferivelmente fontes sem serifa. As serifas ajudam na leitura no papel, mas não é exatamente assim que acontece na tela. O formato mais quadrado dessas fontes facilita a leitura.

Contraste: na minha experiência, manter fundo branco e fontes pretas, como nos impressos. Alguns autores, no entanto, defendem o contrário pra leitura web (fundo preto e fontes brancas), pq diminui a emissão de luz e aumenta o conforto do usuário.

Tamanho: algo entre 12 e 14 pontos é legal, dependendo da fonte e do formato do material. se o usuário vai ver o meterial inteiro na tela (100%) sempre, o tamanho acima funciona. Se ele vai ser forçado a puxar o zoom, usar barras de rolagem, etc, pode ser menor (não muito).

Entrelinha: espaçamentos em geral devem ser maiores do que o ‘normal’. Um entrelinha mais generoso pode facilitar a leitura e tirar aquela impressão de texto muito denso pro usuário. Se for muito grande, no entanto, vai ficar mais difícil dele se achar. O espaçamento entre parágrafos também pode ser bem generoso.

Peso: tentar manter o regular pro geral do texto, e dosar bem os destaques em negrito/bold. Muito peso não destaca nada e ‘agride’ o usuário. Pequenos extratos de texto podem usar a versão light das fontes, por exemplo.

Sugestões de fontes: Myriad Pro, Frutiger, Helvetica Neue, Univers (tem uma cara mais display, mas pode funcionar), Optima (essa fonte é semi-serifada, ou seja, tem pequenas serifas que funcionam como linhas-guia, e um pouco de contraste no próprio tipo). O site ExLjbris tem algumas fontes gratuitas. A Calluna Sans e a Fontin Sans também podem ser boas pedidas.

Fonte: Aqui