Quando um pesquisador possui um número de informações e decide construir um modelo para explicar os resultados, o resultado pode trazer um sobre ajuste (overfitting em inglês). Um software estatístico poderá calcular várias curvas e determinar aquela que melhor descreve seus dados. Assim, para um conjunto de dados, o pesquisador pode calcular uma regressão linear simples, múltipla, exponencial, logaritma, etc.
O problema em buscar o melhor modelo é que no conjunto de dados que o pesquisador estiver usando deverão existir alguns que são “ruídos”, em razão de erros de medição, por exemplo. Esses ruídos tendem a desvirtuar o resultado, mesmo que a qualidade do modelo seja elevada.
O sobre ajuste é um problema: apesar do modelo parecer muito bom depois dos cálculos inicias, quando é testado na realidade revela-se ruim.
O sobre ajuste é muitas vezes ignorado pelos pesquisadores por duas razões: (a) desconhecimento do problema; (b) necessidade de ter dois momentos, um para determinação das variáveis e outro para sua comprovação.
Para Ler mais:
SILVER, Natan. O sinal e o ruído. Capitulo 5. São Paulo: Intrínseca, 2012.
Mostrando postagens com marcador sobre ajuste. Mostrar todas as postagens
Mostrando postagens com marcador sobre ajuste. Mostrar todas as postagens
Assinar:
Postagens (Atom)