Modelo de Regressão Logística Binária com R prof. José Rodrigo de Moraes/UFF

jrodrigo

 

 

 



Modelos Lineares Generalizados

Modelos lineares generalizados (MLGs) são definidos por uma distribuição de probabilidade para a variável resposta Y pertencente à família exponencial, um conjunto de variáveis explicativas que podem ser numéricas ou categóricas e uma função de ligação.

Modelo de regressão logística binária

Um dos modelos lineares generalizados mais utilizados na área de saúde é o modelo de regressão logística binária, onde a variável resposta do modelo tem distribuição de Bernoulli (ou Binomial) e a função de ligação é a função logística. Na área de saúde, o referido modelo poderia ser adotado, por exemplo, para estimar a probabilidade do paciente: aderir ao tratamento medicamentoso (adesão=1; não adesão=0); reportar um estado de saúde não bom (não bom=1; bom=0); ter uma determinada doença crônica (ter DC=1; não ter DC=0).

Função “glm”

A função utilizada para ajustar modelos lineares generalizados é a função “glm”. Nesta função é necessário especificar as variáveis explicativas e a variável resposta do modelo, a distribuição de probabilidade da variável resposta do modelo (family) e a função de ligação (link) desejada pelo pesquisador. Com a função “glm” é possível obter as estimativas pontuais dos parâmetros do modelo e algumas medidas de qualidade do ajuste (AIC e deviances).

Função “summary”

Após a ajustar o MLG de interesse é necessário utilizar a função “summary” para obter outros resultados do ajuste do modelo além das estimativas pontuais. Entre os resultados obtidos com a função “summary” do RStudio estão: as estimativas pontuais, os erros padrão referentes as estimativas pontuais, os valores observados da estatística de Wald e os p-valores do teste de Wald.

Situação em questão

Na área de saúde, os pesquisadores estão mais interessados em analisar as estimativas das medidas de associação (como, por exemplo, a razão de prevalência ou a razão de chance, em inglês odds ratio) ao invés das estimativas pontuais dos parâmetros do modelo. Entretanto, estas medidas de associação não fazem parte do conjunto de resultados fornecidos pela função “summary” do RStudio. O exemplo a seguir mostra como ajustar o modelo de regressão logística binária usando a função “glm”, e como obter as medidas de razão de chance e seus respectivos intervalos de confiança a partir das saídas fornecidas pelo comando “glm”.

Ilustração 1

Os dados se referem a um estudo sobre autoavaliação geral de saúde (1=não boa, 0=boa) de n=30 indivíduos com idade variando de 20 a 95 anos. O objetivo do estudo é estudar a relação entre a autoavaliação de saúde (Y) e as seguintes variáveis explicativas: idade(em anos) e renda familiar per capita (1=Mais de 3 s.m, 0= Até 3 s.m=base).

idade=c(21,20,25,26,22,35,36,40,42,46,59,50,60,72,85,59,29,45,39,45,20,25,36,58,95,52,80,85,62,72)
renda=c(1,1,1,1,0,0,1,1,1,1,1,0,1,1,1,1,1,0,0,0,0,0,0,1,0,0,0,0,0,1)
saude=c(0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1)

Ajuste do modelo de regressão logística binária (estimativas pontuais dos parâmetros)

Os parâmetros do modelo são estimados pelo método de máxima verossimilhança (MV).

modelo1=glm(saude~idade+renda,family=binomial(link="logit"));modelo1
## 
## Call:  glm(formula = saude ~ idade + renda, family = binomial(link = "logit"))
## 
## Coefficients:
## (Intercept)        idade        renda  
##      -2.938        0.133       -3.179  
## 
## Degrees of Freedom: 29 Total (i.e. Null);  27 Residual
## Null Deviance:       38.19 
## Residual Deviance: 18.71     AIC: 24.71

Resultados do ajuste do modelo de regressão logística binária

Fornece as estimativas pontuais dos parâmetros e os seus erros padrão, os valores observados da estatística de Wald e os p-valores do teste de Wald, entre outras informações.

summary(modelo1)
## 
## Call:
## glm(formula = saude ~ idade + renda, family = binomial(link = "logit"))
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.9396  -0.3251   0.1493   0.5154   2.1727  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept) -2.93790    1.74439  -1.684  0.09214 . 
## idade        0.13296    0.05123   2.595  0.00945 **
## renda       -3.17898    1.45863  -2.179  0.02930 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 38.191  on 29  degrees of freedom
## Residual deviance: 18.711  on 27  degrees of freedom
## AIC: 24.711
## 
## Number of Fisher Scoring iterations: 6

Medidas de associação (razões de chance)

Pode-se demonstrar matematicamente que a razão de chance é o exponencial da estimativa pontual

OR1=exp(modelo1$coefficients);OR1
## (Intercept)       idade       renda 
##  0.05297680  1.14220209  0.04162821

Intervalos de 95% de confiança

Os intervalos de 95% de confiança para os parâmetros do modelo, com base na estatística de Wald:

ICbeta1=confint.default(modelo1,level=0.95);ICbeta1
##                   2.5 %     97.5 %
## (Intercept) -6.35684588  0.4810436
## idade        0.03255546  0.2333606
## renda       -6.03783801 -0.3201166

Os intervalos de confiança para as razões de chance (odds ratio – OR), fixando o nível de confiança de 95%:

ICOR1=exp(ICbeta1);ICOR1
##                   2.5 %    97.5 %
## (Intercept) 0.001734830 1.6177619
## idade       1.033091190 1.2628368
## renda       0.002386713 0.7260644

Razões de chance e os seus respectivos intervalos de confiança (com 3 casas decimais).

Através do comando a seguir os resultados de interesse são condensados, de modo a facilitar a interpretação das medidas de razão de chance e a análise sobre a significância da associação entre cada variável explicativa e a chance do indivíduo reportar um estado de saúde não bom.

round((cbind(OR1, ICOR1)),3)
##               OR1 2.5 % 97.5 %
## (Intercept) 0.053 0.002  1.618
## idade       1.142 1.033  1.263
## renda       0.042 0.002  0.726

Interpretação das razões de chance (odds ratio)

Tanto a idade quanto a renda familiar per capita estão significativamente relacionadas com a chance de autoavaliação de saúde não boa (OBS: Note que o p-valor é menor que o nível de significância de 5% e o IC para OR não inclui a unidade).

A chance do indivíduo reportar um estado de saúde não bom aumenta em 14,2% ao aumentar em 1 ano a idade.

Indivíduos com mais de 3 salários mínimos tem uma chance de reportar um estado de saúde não bom 95,8% menor do que os indivíduos que ganham no máximo 3 salários mínimos.


 

 

Comments

comments

Esta entrada foi publicada em Uncategorized e marcada com a tag , , , . Adicione o link permanente aos seus favoritos.

Uma resposta para Modelo de Regressão Logística Binária com R prof. José Rodrigo de Moraes/UFF

  1. José Rodrigo de Moraes disse:

    Olá Elias e João, muito obrigado pelo contato. Desculpe não ter retornado antes. João você tem toda razão!!! Em breve vou escrever sobre modelo de regressão de Poisson para estudos seccionais ou transversais. Meu e-mail de contato é jrodrigo78@gmail.com

Deixe uma resposta