Receba gratuitamente todos os nossos conteúdos.

Fique por dentro das novidades e oportunidades referentes à Psicometria e Análise Quantitativa de Dados.

O que são dados faltantes?

Missing data ou em bom português, dados faltantes, é uma ocorrência comum na pesquisa científica. Dados faltantes ocorrem quando os valores das variáveis de interesse não são medidos ou registrados para todos os sujeitos da amostra. Perda de informações, tanto nos preditores como no desfecho, pode levar a problemas sérios na análise dos dados.

Por que acontece dados faltantes?

Os dados podem estar ausentes por vários motivos, incluindo: (i) recusa do participante em responder a perguntas específicas (os participantes não queiram fornecer certas respostas sobre algum tema sensível, por exemplo, participante não relata dados sobre renda); (ii) perda de participantes para seguimento; (iii) erro do investigador ou mecânico (por exemplo, falha em algum aparelho utilizado durante a pesquisa); e (iv) participantes abandonem o estudo por cansaço, tédio, outras prioridades.

Resumidamente, os dados faltantes indicam que por algum motivo os participantes deixaram de responder alguma parte da pesquisa. Portanto, é importante entender as condições sob as quais as questões não foram respondidas.

Lá em 1987, um pesquisador chamado Donald Rubin descreveu três diferentes de dados ausentes. Para ele, os dados são considerados “dados faltantes completamente ao acaso” (MCAR), “dados faltantes ao acaso” (MAR) e “dados faltantes não aleatoriamente” (MNAR).

Dados faltantes completamente ao acaso (MCAR): se a probabilidade de uma variável estar ausente para um determinado assunto for independente de ambos variáveis observadas e não observadas para aquele sujeito. Isto é, os dados faltantes não tem nenhuma relação com sujeito, com o item ou com a resposta aos outros itens. Por exemplo, o participantes esquece de responder uma ou outra questão. O que popularmente chamamos de pula a questão sem querer, não é sistemático.

Dados faltantes ao acaso (MAR): se, após contabilizar todas as variáveis observadas, a probabilidade de uma variável estar ausente for independente dos dados não observados. Isto é, a ausência da resposta não tem relação direta com a questão, é causado por um agente externo. Por exemplo, uma pesquisa com idosos em que é solicitado que lembrem do padrão de compra dos pais quando ele era criança. Nesse caso, pode acontecer do idoso não lembrar. A ausência da resposta está relacionada a idade do participante.

Dados faltantes não aleatoriamente (MNAR): se a probabilidade de uma variável estar ausente, mesmo depois de contabilizar todas as variáveis observadas, for dependente do valor da variável ausente. Isto é, a ausência de resposta está diretamente ligada a pergunta. Um exemplo de dados que são MNAR é a renda, na qual o participante pode não querer responder. Outro exemplo são questões sobre hábitos sexuiais.

O que fazer com dados faltantes?

Historicamente, todos os participantes com dados ausentes eram excluidos da amostra e as análises estatísticas eram conduzidas apenas com os participantes que tinham dados completos (de acordo, essa abordagem é frequentemente chamada de “Listwise”). Porém, com a redução no tamanho da amostra, há uma redução correspondente no poder do teste. Consequentemente, os intervalos de confiança estimados serão mais amplos ao usar a análise de caso completa do que se todos os dados fossem usados. Além disso, diferentes análises podem usar diferentes subconjuntos da amostra geral, de modo que é difícil comparar resultados mesmo dentro do mesmo artigo.

Com o passar dos anos, para evitar a perda de participantes, os pesquisadores começaram a adotar estratégias de imputação de dados. Uma abordagem comum à imputação era a “imputação de valor médio”, na qual os participantes para os quais uma determinada variável está ausente têm o valor ausente substituído pelo valor médio dessa variável entre todos os sujeitos para os quais a variável está presente. Uma limitação da imputação do valor médio é que ela reduz artificialmente a variação no conjunto de dados. Por exemplo, a imputação média diminuirá artificialmente o desvio padrão estimado da variável que inclui valores imputados. Portanto, a imputação por meio do valor médio não é mais recomendado!

Atualmente para abordar a questão dos dados faltantes temos duas alternativas: expected maximization e a imputação múltipla.

A expected maximization gera a média dos itens com o padrão de covariância das variáveis. Na sequência é gerado um banco de dados sem os dados ausentes, por meio desse “novo banco de dados”, o processo é refeito, buscando substiruir novamente os valores que apresentaram dados faltantes. Esse processo é realizado N vezes até que não se encontre diferenças estatisticamente significativas entre os resultados das interações A imputação múltipla é bem parecida.

A imputação múltipla resulta na criação de vários conjuntos de dados completos nos quais os valores faltantes foram preenchidos com valores plausíveis. A medida que esses bancos de dados são gerados você consegue ter uma estimativa de erro padrão e intervalo de confiança para as imputações realizadas.

Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referências

Austin et al (2021). Missing Data in Clinical Research: A Tutorial on Multiple Imputation, Canadian Journal of Cardiology,37(9). doi.org/10.1016/j.cjca.2020.11.010.

Rubin, D.B. (1987). Multiple Imputation for Nonresponse in Surveys. John Wiley & Sons, New York.

BRUNO FIGUEIREDO DAMÁSIO

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) eEditor-Associado da Spanish Journal of Psychology, na sub-seção Psicometri e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 3000 citações, nas melhores revistas nacionais e internacionais. Atualmente, me dedico a formação de novos pesquisadores, através da Psicometria Online Academy. Minha missão é ampliar a formação em Psicometria no Brasil e lhe auxiliar a conquistar os seus objetivos profissionais.

Deseja se tornar completamente autônomo e independente na análise dos seus dados?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Veja mais

Posts relacionados

Um Guia Completo sobre a PEDro: Physiotherapy Evidence Database

Um Guia Completo sobre a PEDro: Physiotherapy Evidence Database

Se você é um profissional ou um estudante da área da saúde e está interessado nas práticas baseadas em evidências, este post é para você. Vamos descobrir como a base

Diferença entre as regressões logísticas: binária, ordinal e multinomial

Diferença entre as regressões logísticas: binária, ordinal e multinomial

A análise de regressão é uma técnica amplamente utilizada para verificar a existência de uma relação entre uma variável dependente e uma ou mais variáveis independentes. Existem diferentes tipos de

Construção de itens para instrumentos de autorrelato

Construção de itens para instrumentos de autorrelato

A elaboração de itens para instrumentos de autorrelato desempenha um papel crucial na pesquisa psicométrica, pois é por meio deles que os participantes expressam suas próprias experiências e percepções. Neste

Dados Normativos: Entendendo o Escore Z

Dados Normativos: Entendendo o Escore Z

Interpretar os resultados derivados do uso de um teste é tão crucial quanto criar ou adaptar os instrumentos e aplicá-los corretamente. Para a interpretação dos resultados, é essencial a criação

Compreendendo a Confiabilidade Duas-Metades (Split-Half Reliabity)

Compreendendo a Confiabilidade Duas-Metades (Split-Half Reliabity)

No campo da Psicometria, pesquisadores e profissionais frequentemente buscam garantir a precisão e consistência de seus instrumentos de medição. Um dos métodos usados para avaliar a confiabilidade de um teste

Um Guia Completo sobre a PEDro: Physiotherapy Evidence Database

Um Guia Completo sobre a PEDro: Physiotherapy Evidence Database

Se você é um profissional ou um estudante da área da saúde e está interessado nas práticas baseadas em evidências, este post é para você. Vamos descobrir como a base

Diferença entre as regressões logísticas: binária, ordinal e multinomial

Diferença entre as regressões logísticas: binária, ordinal e multinomial

A análise de regressão é uma técnica amplamente utilizada para verificar a existência de uma relação entre uma variável dependente e uma ou mais variáveis independentes. Existem diferentes tipos de

Construção de itens para instrumentos de autorrelato

Construção de itens para instrumentos de autorrelato

A elaboração de itens para instrumentos de autorrelato desempenha um papel crucial na pesquisa psicométrica, pois é por meio deles que os participantes expressam suas próprias experiências e percepções. Neste

Dados Normativos: Entendendo o Escore Z

Dados Normativos: Entendendo o Escore Z

Interpretar os resultados derivados do uso de um teste é tão crucial quanto criar ou adaptar os instrumentos e aplicá-los corretamente. Para a interpretação dos resultados, é essencial a criação

Compreendendo a Confiabilidade Duas-Metades (Split-Half Reliabity)

Compreendendo a Confiabilidade Duas-Metades (Split-Half Reliabity)

No campo da Psicometria, pesquisadores e profissionais frequentemente buscam garantir a precisão e consistência de seus instrumentos de medição. Um dos métodos usados para avaliar a confiabilidade de um teste

Cadastre-se para ser notificado com o link das aulas ao vivo:

Módulo 4: Redes neurais artificiais

• Introdução a Deep Learning

• Avaliando sistemas de Deep Learning

• Redes Neurais feitas (sem programação) no SPSS

• Aula bônus: O futuro da IA na Sociedade

• Aula bônus: Dois Estudos de Caso 

Módulo 3: Interpretar e reportar resultados

• Gerar, interpretar e reportar resultados em Machine Learning

Módulo 2: Criando o seu sistema

• Selecionando algoritmos e métodos 
• Práticas de Machine Learning (Sem programação): Decision Tree (JASP), Linear Discriminant Classification (JASP) e Plataforma ORANGE
• Aula Bônus: Avaliação Psicológica e Machine Learning
• Aula Bônus: Livros e Cursos recomendados  
• Aula Bônus: Entrevista com Cientista de Dados focado na área da Saúde

Módulo 1: O que é Machine Learning

• O que é Machine Learning?
• Como a máquina aprende?
• Machine Learning para Psicometria e Pesquisa Quantitativa (pesquisas comentadas)
• Tipos de Machine Learning (Supervisionado e Não-supervisionado)
• Práticas de Machine Learning (Sem programação): JASP e SPSS
Aula Bônus: Filosofia da Inteligência Artificial
• Aula Bônus: Entrevista com Cientista de Dados graduado em Psicologia
• Aula bônus: Estudo de Caso sobre Redução Dimensional 

Preencha abaixo para
participar gratuitamente

Fique tranquilo, não utilizaremos suas informações de contato para enviar qualquer tipo de SPAM. Os dados coletados são tratados nos termos da Lei Geral de Proteção de Dados e você pode se descadastrar da nossa lista de contatos a qualquer momento.