Receba gratuitamente todos os nossos conteúdos.

Fique por dentro das novidades e oportunidades referentes à Psicometria e Análise Quantitativa de Dados.

O que é Regressão Logística?

A Regressão Logísitica é um método usado para prever uma variável de resultado que seja categórica a partir de variáveis preditoras categóricas ou contínuas. As variáveis de resultado também costumam ser chamadas de dependentes e as preditoras de independentes. O processo de prever uma categoria específica pode ser chamado de classificação.

As variáveis de resultado categóricas são aquelas cujos valores são categorias distintas, como a cor dos olhos, se uma pessoa é do sexo masculino, feminino ou outro, ou até se uma pessoa tem determinado diagnóstico ou não. Ou seja, estas variáveis não podem ser expressadas de maneira numérica.

Tipos de regressão logística

Dependendo da variável de resultado, a regressão logística pode ser classificada de duas formas: Regressão Logística Binária, quando estamos prevendo uma variável com duas categorias, como “sim” ou “não”, e Regressão Logística Politômica, quando a variável de resultado tem mais do que duas categorias, como diferentes níveis educacionais.

De maneira mais detalhada, na regressão logística, tentamos encontrar a probabilidade de Y acontecer (a variável de resultado), P(Y), dado um conjunto de valores conhecidos, X1, X2, …, Xn. O que pode ser formalizado da seguinte maneira:

p(X) = eβ0 + β1X / 1+eβ0+β1X

Qual é a diferença entre uma Regressão Linear e uma Regressão Logística?

Aqueles já familiarizados com a regressão linear podem reparar que sua fórmula está presente na regressão logística. A regressão logística é uma transformação da regressão linear em uma distribuição logística.

É necessário fazer isso, e não usar a regressão linear para prever categorias, uma vez que a regressão linear tem como pressuposto que a relação entre a variável de resultado e as variáveis preditoras segue uma distribuição linear, o que não acontece quando temos uma variável de resultado categórica.

Como analisar o modelo de Regressão Logística?

Ao analisar os resultados da regressão logística, podemos avaliar o quão bem o modelo logístico se adequa aos dados através do valor de um valor de pseudo R2, que indica a relação entre a variável de resultado e cada um dos preditores, com valores que variam de -1 a 1.

Os valores próximos de zero indicam que não há relação. Valores positivos indicam que o aumento dos valores das variáveis preditoras está associado a um aumento dos valores da variável de resultado. Valores negativos indicam que o aumento dos valores das variáveis preditores está associado a uma diminuição dos valores da variável de resultado.

Quanto mais próximo de 1 ou -1, maior é a força desta relação.

Também existem outros critérios de avaliação do modelo, como o log-likelihood, o desvio (-2LL) e os critérios AIC e BIC. Também existem diferentes formas de calcular o pseudo R2, como o de McFadden e CoxSnell, cada qual com vantagens e desvantagens.

Quando usar a Regressão Logística

Existem muitas situações de pesquisa, no entanto, quando a variável dependente de interesse é categórica (por exemplo, ganhar/perder; falhar/passar; morto/vivo).

Podemos usar a Regressão Logística quando:

  • Existem apenas dois resultados possíveis para a resposta categórica. Como no exemplo acima – fumam x não fumam
  • As variáveis ​​de resposta incluem três ou mais variáveis, que não estarão em nenhuma ordem. Por exemplo, prever se os clientes de um determinado bar preferem um determinado tipo de cerveja – ale, ipa ou weiss.
  • Há uma ordem que segue o seguinte. Um exemplo é avaliar um restaurante em uma escala de 1 a 5.

No exemplo a seguir, tentamos identificar se uma pessoa é filho único ou não, observando o interesse por música, filmes, animais de estimação, por socializar e sua idade. Utilizamos o R2 de Tjur, que obteve valor de 0,014, o que indica que este modelo não é muito eficiente em prever a variável de resultado à partir destas variáveis preditoras.

 Filho único
PredictorsRazão de chancesICp
(Intercept)0.160.03 – 1.000.049
Music1.090.87 – 1.350.452
Movies1.140.92 – 1.400.220
Pets0.970.88 – 1.060.499
Socializing1.020.89 – 1.160.808
Age1.101.04 – 1.170.001
Observations983
R2 Tjur0.014

Mas além de avaliar o modelo como um todo, podemos avaliar cada preditor individualmente. A primeira coisa que podemos fazer é observar os valores de significância, p. Valores menores que 0,05 indicam que aquela variável apresenta impacto estatisticamente significativo.

No nosso exemplo, isto é verdadeiro apenas para a variável idade. No entanto, isso apenas nos diz que a idade é uma preditora da variável de resultado, mas não nos diz o quão bem ela é capaz de prever. Para isso, podemos usar estatísticas como a razão de chances.

Entendendo a Razão de chances (odds ratio)

A razão de chances (ou odds ratio) é a chance de um evento acontecer divido pela chance de um evento não acontecer. No exemplo, é a chance de ser filho único divido pela chance de não ser filho único.

A razão de chances associada à cada preditor indica que, aumentando uma unidade nos valores da variável preditora, aumenta-se a razão de chance associada ao evento predito. No exemplo, há um pequeno aumento da chance de um indivíduo não ser filho único conforme a idade aumenta (1,10 vezes maior para cada aumento de uma unidade em idade).

Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

BRUNO FIGUEIREDO DAMÁSIO

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) eEditor-Associado da Spanish Journal of Psychology, na sub-seção Psicometri e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 3000 citações, nas melhores revistas nacionais e internacionais. Atualmente, me dedico a formação de novos pesquisadores, através da Psicometria Online Academy. Minha missão é ampliar a formação em Psicometria no Brasil e lhe auxiliar a conquistar os seus objetivos profissionais.

Deseja se tornar completamente autônomo e independente na análise dos seus dados?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Veja mais

Posts relacionados

Teste de Wilcoxon

Teste de Wilcoxon

O teste de Wilcoxon é um teste de hipóteses para analisar a diferença entre duas amostras pareadas. Portanto, podemos usá-lo quando temos duas medidas de uma mesma amostra, isto é,

O que é um teste post hoc?

O que é um teste post hoc?

Alguma vez, durante a sua jornada como pesquisador, já deve ter se perguntado o que é um teste post hoc ou o que significa fazer um teste post hoc. Testes

O que é a distância de Cook?

O que é a distância de Cook?

A distância de cook é uma estatística para avaliar o quanto um único caso é capaz de influenciar a estimativa de um modelo de regressão.

Entenda o que são graus de liberdade

Entenda o que são graus de liberdade

Os graus de liberdade são uma medida que nos ajuda a determinar o número de observações independentes que temos em nossos dados. Em outras palavras, eles indicam quantos valores podemos

O que são parâmetros livres e fixos em uma AFC?

O que são parâmetros livres e fixos em uma AFC?

Parâmetros livres e fixos são uma parte fundamental para o entendimento da Análise Fatorial Confirmatória (AFC). É útil entender estes conceitos, para quando falarmos de índices de modificação e identificação

Teste de Wilcoxon

Teste de Wilcoxon

O teste de Wilcoxon é um teste de hipóteses para analisar a diferença entre duas amostras pareadas. Portanto, podemos usá-lo quando temos duas medidas de uma mesma amostra, isto é,

O que é um teste post hoc?

O que é um teste post hoc?

Alguma vez, durante a sua jornada como pesquisador, já deve ter se perguntado o que é um teste post hoc ou o que significa fazer um teste post hoc. Testes

O que é a distância de Cook?

O que é a distância de Cook?

A distância de cook é uma estatística para avaliar o quanto um único caso é capaz de influenciar a estimativa de um modelo de regressão.

Entenda o que são graus de liberdade

Entenda o que são graus de liberdade

Os graus de liberdade são uma medida que nos ajuda a determinar o número de observações independentes que temos em nossos dados. Em outras palavras, eles indicam quantos valores podemos

O que são parâmetros livres e fixos em uma AFC?

O que são parâmetros livres e fixos em uma AFC?

Parâmetros livres e fixos são uma parte fundamental para o entendimento da Análise Fatorial Confirmatória (AFC). É útil entender estes conceitos, para quando falarmos de índices de modificação e identificação

Cadastre-se para ser notificado com o link das aulas ao vivo:

Módulo 4: Redes neurais artificiais

• Introdução a Deep Learning

• Avaliando sistemas de Deep Learning

• Redes Neurais feitas (sem programação) no SPSS

• Aula bônus: O futuro da IA na Sociedade

• Aula bônus: Dois Estudos de Caso 

Módulo 3: Interpretar e reportar resultados

• Gerar, interpretar e reportar resultados em Machine Learning

Módulo 2: Criando o seu sistema

• Selecionando algoritmos e métodos 
• Práticas de Machine Learning (Sem programação): Decision Tree (JASP), Linear Discriminant Classification (JASP) e Plataforma ORANGE
• Aula Bônus: Avaliação Psicológica e Machine Learning
• Aula Bônus: Livros e Cursos recomendados  
• Aula Bônus: Entrevista com Cientista de Dados focado na área da Saúde

Módulo 1: O que é Machine Learning

• O que é Machine Learning?
• Como a máquina aprende?
• Machine Learning para Psicometria e Pesquisa Quantitativa (pesquisas comentadas)
• Tipos de Machine Learning (Supervisionado e Não-supervisionado)
• Práticas de Machine Learning (Sem programação): JASP e SPSS
Aula Bônus: Filosofia da Inteligência Artificial
• Aula Bônus: Entrevista com Cientista de Dados graduado em Psicologia
• Aula bônus: Estudo de Caso sobre Redução Dimensional 

Preencha abaixo para
participar gratuitamente

Fique tranquilo, não utilizaremos suas informações de contato para enviar qualquer tipo de SPAM. Os dados coletados são tratados nos termos da Lei Geral de Proteção de Dados e você pode se descadastrar da nossa lista de contatos a qualquer momento.