Translate

03 agosto 2019

Big Data e Pesquisa em Ciências Humanas/Sociais

Salganik, em Bit by Bit: Social Research in the Digital Age, faz um interessante apanhado sobre o uso de Big Data em pesquisa social. O autor, um sociólogo da Princeton, considera três grandes vantagens e três desvantagens neste tipo de fonte de dados.

As vantagens são: big, always-on e não reativo. O que significa isto? Segundo Salganik, o fato de termos um grande número de dados permite que o pesquisador possa estudar eventos que são raros, estudar a heterogeneidade de maneira mais completa (eu posso pesquisar o homem branco, que vive em Brasília, com idade de 20 anos e que torce para o América de Natal) e conseguir detectar diferenças que são pequenas. A segunda grande vantagem é o fato de estar constantemente coletando informações. Se uso o Twitter para saber como as pessoas estão pensando sobre a economia, posso fazer uma pesquisa com as últimas mensagens que foram postadas. Finalmente, a base de dados onde podemos obter um grande número de informações geralmente são não reativas. Ou seja, o comportamento das pessoas não muda por estarem sendo observadas ou suas opiniões não se alteram na frente de um pesquisador. Assim, uma pessoa que está pesquisando no "search" do Google tenderá a ser mais verdadeiro que aquela pessoas diante de uma questão de uma pesquisa (vide o que diz o livro Todo Mundo Mente)

Mas o uso do big data em pesquisa possui sete inconvenientes. Alguns dos problemas apontados podem ser solucionados. Mas não deixam de representar um risco para qualidade da pesquisa. Os problemas são: incompletude, inacessibilidade, não representatividade, drifting, influenciado pelo algoritmo, sujeira e o fato de ser sensível. Em geral informações derivadas de big data não foram feitas para a sua pesquisa.Isto significa dizer que nem toda informação estará disponível. Se desejo saber o efeito da raça na escolha de um time de futebol, talvez não tenha esta informação no Facebook. Assim, o big data geralmente é falho nas informações demográficas. É possível resolver parte deste problema com técnicas, como imputação ou fazendo cruzamento de bases diferentes.

Um segundo problema é a inacessibilidade. Poucos pesquisadores possuem acesso da base de dados do Facebook. E quando conseguem este acesso, precisam fazer compromissos que podem prejudicar a pesquisa. A questão da inacessibilidade é muito menos uma barreira tecnológica do que problemas legais, éticos e de negócios.

Grande número de dados é bom para pesquisa, mas muitas vezes eles não representam a população de maneira adequada. A não representatividade faz com que uma pesquisa usando as postagens do Twitter não sejam representativos já que está restrito as pessoas que possuem conta nesta rede social e utilizam de maneira regular. Assim como Salganik, não acredito que isto seja um empecilho para pesquisa. O autor faz uma discussão importante ao lembrar que dificilmente uma amostra da população consegue ser realmente representativa em todos os aspectos. 

Drifting significa aqui mudança. Grandes bases de dados precisam lidar com mudanças na forma como as pessoas usam um sistema, que pessoas usam o sistema e com as mudanças do sistema. Parece-me que o Facebook teve, ao longo do tempo, este tipo de mudança: inicialmente, a rede social no Brasil era predominantemente habitada por jovens; com o tempo, pessoas mais idosas passaram a se cadastrar na rede. Muitos jovens transferiram sua preferência para o Instagram, nos anos recentes. Este tipo de mudança pode alterar os resultados coletados com dados do Facebook, por exemplo.

Uma mudança técnica ocorre no próprio algoritmo. Recentemente, uma rede social passou a não divulgar mais o número de likes em cada postagem. Isto naturalmente afeta os dados coletados nesta rede social. Este problema é importante, já que muitos sites estão mudando constantemente sua configuração, procurando maximizar o tempo de navegação do usuário no mesmo. Se estas mudanças não estão documentadas, podem influenciar os resultados obtidos nas pesquisas.

As fontes de um grande número de dados geralmente são sujas. Ou seja, são afetadas por porcarias, como spam. O número de hastags pode ser manipulado por robôs e isto tem sido feito com bastante frequência. Mesmo uma Wikipedia pode ser editada, apesar dos controles existentes para evitar manipulações nos verbetes.

Finalmente, o Big Data é uma informação sensível. Imagine que deseja verificar o volume de pesquisa da minha universidade através do uso da rede existente lá. Se o objetivo da pesquisa é procurar saber quais as áreas que estão sendo objeto de interesse por parte dos alunos e docentes, o endereço da internet que está sendo consultado agora pode representar uma fonte de informação valiosa. Entretanto, com este tipo de informação, a pesquisa irá descobrir que muitas pessoas usam a rede para assistir um filme na Netflix, ou um jogo de futebol ou até um site pornográfico. A informação obtida pode revelar preferências sexuais e ideológicas, dados pessoais que podem constranger as pessoas. Isto explica a inacessibilidade deste tipo de informação.

Nenhum comentário:

Postar um comentário