Sunteți pe pagina 1din 37

REGRESSO LOGSTICA I

PAULO NOVIS ROCHA (PAULONROCHA@UFBA.BR)

Crditos para o livro: Principles of Biostatistics, Marcello Pagano e Kimberlee Gauvreau

NA REGRESSO LINEAR
Ajustamos um modelo do formato y = + 1x1 + 2x2 + + qxq +

Pressuposto importante: a varivel y era de natureza contnua e seguia uma distribuio normal. O modelo se preocupava em estimar (ou predizer) o valor mdio de y dado um certo conjunto de valores das variveis explanatrias.

E SE A VARIVEL Y FOR DICOTMICA?


Doena presente = 1 Doena ausente = 0 Morto = 1 Vivo = 0 1 = sucesso do ponto de vista estatstico, corresponde a ocorrncia do evento 0 = falha do ponto de vista estatstico, corresponde no ocorrncia do evento

E SE A VARIVEL Y FOR DICOTMICA?


A mdia desta varivel dicotmica y ser designada p Onde p a proporo de vezes que a varivel assume o valor 1 p = P (Y = 1) p = P (sucesso) Para estimar a probabilidade p associada a uma resposta dicotmica para diversos valores de uma varivel explanatria, utilizamos uma tcnica chamada de REGRESSO LOGSTICA.

SITUAO CLNICA
Considere os neonatos de baixo peso (definido como < 1750 gramas) que satisfazem os seguintes critrios:
Confinados a uma UTI neonatal Necessitaram de IOT e VM durante as 12 primeiras horas de vida Sobreviveram por pelo menos 28 dias

Amostra aleatria de n = 223 neonatos com estas caractersticas 76 foram identificados como portadores de displasia broncopulmonar; os 147 restantes no.

P (Y = 1)
Y = varivel aleatria dicotmica onde:
1 = presena de DBP 0 = ausncia de DBP

A probabilidade estimada de que um neonato retirado desta populao tenha DBP a proporo de DBP na amostra aleatria:
p = 76/223 = 0,341 (ou 34,1%).

PREDITORES / FATORES DE RISCO


Podemos suspeitar que alguns fatores maternos e neonatais devem afetar a probabilidade de um neonato em particular desenvolver DBP.

O conhecimento da presena ou ausncia destes fatores pode:


aumentar a preciso da nossa estimativa p desenvolver intervenes para reduzir essa probabilidade

Analogia com a regresso linear


Equao visa melhorar a estimativa em relao simples mdia aritmtica

FATOR DE RISCO: PESO DO NEONATO


Se a varivel dependente y fosse contnua, poderamos comear a anlise construindo um diagrama de disperso de pontos das variveis x versus y. Ser que podemos fazer o mesmo com uma varivel y dicotmica?

DIAGNOSIS OF BRONCHOPULMONARY DYSPLASIA VERSUS BIRTH WEIGHT FOR A SAMPLE OF 223 LOW BIRTH WEIGHT INFANTS
FIGURE 20.1

DIVIDINDO O PESO EM INTERVALOS DE CLASSE


Peso ao nascer (em gramas) 0 - 950 951 - 1350 1351 - 1750 Tamanho da amostra 68 80 75 Nmero com DBP 49 18 9 p 0,721 0,225 0,120

EXPLORANDO UM POUCO MAIS:

223 AGORA SIM!

76

0,341

Parece que a probabilidade de desenvolver DBP aumenta medida que o peso do neonato diminui e vice-versa.

Como parece haver uma relao entre estas duas variveis, gostaramos de utilizar o peso ao nascer para ajudar na estimativa da probabilidade do neonato vir a desenvolver DBP.

A FUNO LOGSTICA - I
A primeira estratgia poderia ser tentar ajustar um modelo do tipo: p = + x onde x representa o peso ao nascer. primeira impresso, este modelo no adequado. Como p uma probabilidade, s pode aceitar valores entre 0 e 1.

A FUNO LOGSTICA - II
Uma alternativa seria tentar ajustar um modelo do tipo: = : onde e o nmero de Euler (um nmero irracional aproximadamente igual a 2,718281828459045...), que representa a base do logaritmo natural ou neperiano. O logaritmo natural definido para todos os nmeros reais estritamente positivos

Esta equao garante que a estimativa de p ser positiva.


No entanto, a equao tambm inadequada, pois pode produzir um nmero maior que 1.

A FUNO LOGSTICA - III


Para se adequar a esta ltima exigncia, poderamos ajustar um modelo do tipo: : = 1 + : Esta expresso, conhecida como funo logstica, no admite valores negativos nem maiores que 1.

PROBABILIDADE X CHANCE
Uma chance (do Ingls odds) uma razo entre duas probabilidades = = 1

Probabilidade de tirar cara ao jogar uma moeda = 0,5


Chance de tirar cara ao jogar uma moeda = 1

CHANCE E FUNO LOGSTICA


Se =
+ 1 : +
+ (1 ++ ) 1 (1 ++ )

1;

= :

1;

= :

Tirando o logaritmo natural de cada lado da equao, ficamos com: ln = ln : 1 ln = + 1

CONCLUNDO
Modelar uma probabilidade p com uma funo logstica equivale a ajustar um modelo de regresso linear onde a varivel dependente contnua y foi substituda pelo logaritmo neperiano da chance de ocorrncia de um evento dicotmico. Em vez de assumir que a relao entre p e x linear, assume-se que a relao entre ln[/(1 )] e x linear.

Essa tcnica conhecida com REGRESSO LOGSTICA.

A EQUAO LOGSTICA
Mtodo da verossimilhana mxima: utiliza informaes obtidas na amostra para encontrar as estimativas dos parmetros mais provveis de terem produzido os dados observados ln
1;

= +

Para a amostra de 223 neonatos de baixo peso, a equao estimada atravs deste mtodo :
ln
1;

= 4,0343 0,0042

Interpretao: para cada grama de aumento no peso ao nascer, o ln da chance de que um neonato ir desenvolver DBP diminui, em mdia, 0,0042.

TESTE DE HIPTESES
H0: = 0 (ausncia de associao entre p e x) HA : 0 =

APLICAO
Qual a probabilidade de que um neonato retirado desta populao, pesando 750 gramas ao nascer, ir desenvolver DBP? ln = 4,0343 0,0042 1

ln

1;

= 4,0343 0,0042(750) = 0.8843

Tirando o anti-log de cada lado da equao: . = 0 8843 = 2.4213 1 2.4213 = = 0.708. 1 + 2.4213

USANDO O MESMO MTODO...


PESO AO NASCER 750 1150 1550 PROBABILIDADE ESTIMADA DE DBP 0.708 0.311 0.078

Se calcularmos a probabilidade estimada para cada valor observado de peso ao nascer e plotarmos essa probabilidade estimada x peso, o resultado seria a curva a seguir.

LOGISTIC REGRESSION OF BRONCHOPULMONARY DISPLASIA ON BIRTH WEIGHT


FIGURE 20.2

ln[/(1 )] = 4,0343 0,0042

REGRESSO LOGSTICA MLTIPLA


Idade gestacional (semanas) 28 29-30 31 Tamanho da amostra 58 73 92 223 Nmero com DBP 40 26 10 76 Probabilidade estimada 0.690 0.356 0.109 0.341

Para comear a explorar a possibilidade de que a idade gestacional tambm poderia interferir na probabilidade de um neonato desenvolver DBP, a populao de neonatos de baixo peso foi subdividida em trs categorias. A tabela mostra que a probabilidade estimada de DBP diminui medida que aumenta a idade gestacional.

REGRESSO LOGSTICA MLTIPLA


Peso ao nascer (gramas) 0-950 951-1350 1351-1750 Idade gestacional (semanas) 28 0.805 (41) 0.412 (17) - (0) 29-30 0.714 (21) 0.194 (36) 0.250 (16) 31 0.167 (6) 0.148 (27) 0.085 (59)

Classificao cruzada dos 223 neonatos estratificados em trs categorias de de peso ao nascer e trs categorias de idade gestacional. Observem as seguintes tendncias:

Para uma determinada categoria de peso, a probabilidade estimada de DBP parece diminuir medida que a idade gestacional aumenta Para uma determinada categoria de idade gestacional, a probabilidade estimada de DBP parece diminuir medida que o peso ao nascer aumenta (salvo uma exceo, onde o n pequeno)

REGRESSO LOGSTICA MLTIPLA


Parece que seremos capazes de estimar a probabilidade de DBP com mais preciso se soubermos os valores de peso ao nascer e idade gestacional ln = + 1 1 + 2 2 1

onde x1 designa o peso e x2 a idade.

REGRESSO LOGSTICA MLTIPLA


ln = + 1 1 + 2 2 1 ln = 13.8273 0.00241 0.39832 1

Notem que o coeficiente de peso ao nascer diminuiu um pouco agora que outra varivel explicativa foi adicionada ao modelo, mas permanece significativamente diferente de zero para um alfa de 0,05 (sic).

Interpretao: se o peso ao nascer permanecer constante, para cada uma semana de aumento na idade gestacional, haver, em mdia, uma reduo de 0.3983 no ln da chance de desenvolver DBP.

APLICAO
Peso ao nascer (gramas) 750 1150 Idade gestacional (semanas) 27 32 Probabilidade estimada de DBP 0.781 0.157

Como realizado anteriormente, basta inserir os valores de idade gestacional e peso ao nascer na equao para encontrar a probabilidade estimada de DBP.

E SE A VARIVEL X FOR DICOTMICA


ln
1;

= + 3 3

Onde x3 o desfecho da varivel aleatria indicando se a me teve pr-eclmpsia durante a gravidez. Pr-eclmpsia SIM = 1 Pr-eclmspia NO = 0

E SE A VARIVEL X FOR DICOTMICA


Para a amostra de 233 neonatos com baixo peso ao nascer, a equao foi: ln = 0,5718 0,77193 1 Note que o coeficiente de pr-eclmpsia negativo, implicando que o ln da chance de desenvolver DBP menor para crianas cujas mes tiveram pr-eclmpsia. Quando a varivel explanatria dicotmica, o tem uma interpretao especial.

ODDS RATIO (RAZO DE CHANCES)


O antilogaritmo do beta uma razo de chances! Isto :

= 3 = ;0,7719 = 0,46 Interpretao: a chance de DBP 54% mais baixa nos neonatos cujas mes tiveram pr-eclmpsia. Para variveis x contnuas, o antilog do , ou seja a OR, representa o aumento ou reduo na chance para cada unidade de aumento na varivel x. O pode ser multiplicado por 10 ou 100, por exemplo, para que, aps a aplicao do antilog, a OR represente o aumento ou reduo na chance para cada 10 ou 100, respectivamente, unidades de aumento na varivel x.

ODDS RATIO (RAZO DE CHANCES)


Toxemia

Sim No
TOTAL

6 23
29

70
194

76 147
223

Os mesmos resultados poderiam ter sido obtidos arrumando os dados amostrais em uma tabela de contingncia 2 x 2. =
(6)(124) (70)(23)

= 0,46

INTERVALO DE CONFIANA
Primeiro calcula-se o intervalo de confiana do coeficiente ; depois, tira-se o antilogaritmo dos limites superior e inferior. Assumindo que 3 = 0,4822, o IC 95% pode ser calculado da seguinte maneira: 95% 3 = 0,7719 1,96 0,4822 95% 3 = (0,7170; 0,1732) 95% = ( ;0,7170 ; 0,1732 ) 95% = (0,18; 1,19) Temos 95% de confiana de que estes limites cobrem o verdadeiro OR para DBP na populao de neonatos cujas mes tiveram pr-eclmpsia (versus neonatos cujas mes no experimentaram pr-eclmpsia). Como o intervalo inclui o valor 1,0, podemos concluir que os dados obtidos com esta amostra no sugerem que a probabilidade de um neonato de baixo peso desenvolver DBP no depende da histria de pr-eclmpsia de sua me.

INCREMENTANDO O MODELO
Suponha que adicionemos uma segunda varivel explicativa dicotmica indicando se a me recebeu corticoide durante a gravidez ao modelo que j contenha pr-eclmpsia. Recebeu corticoide SIM = 1 Recebeu corticoide NO = 0

ln

= 0,7172 0,78833 + 0,30004 1

O coeficiente de pr-eclmpsia (x3) mudou muito pouco com a adio da nova varivel.

O coeficiente de x4 positivo, sugerindo que a probabilidade de desenvolver DBP aumenta com o uso de corticoide, mas no houve significncia estatstica.

INCREMENTANDO O MODELO
ln = 0,7172 0,78833 + 0,30004 1

A incluso de uma segunda varivel dicotmica na regresso logstica anloga a uma anlise estratificada usando o mtodo de Mantel-Haenszel. O antilog do coeficiente de pr-eclmpsia fornece uma estimativa do OR de um neonato cuja me apresentou pr-eclmpsia desenvolver DBP (versus neonatos cujas mes no experimentaram pr-eclmpsia), j ajustado para o efeito do uso de corticoide. = ;0,7883 = 0,45 Se quisssemos determinar se a presena de pr-eclmpsia teria um efeito diferente sobre a probabilidade de um neonato desenvolver DBP depender de se a me usou ou no corticoide na gestao, seria necessrio incluir um termo de interao (x3 * x4)

PR-SELEO DE VARIVEIS
Evitar sobrecarregar o modelo de variveis Critrios de pr-seleo
No estatsticos:
Conhecimento prvio (clnica, literatura) Hiptese do autor

Estatsticos
Valor p (0,10? 0,25?)

Anlises estratificadas Comparaes entre mdias, comparaes entre propores, regresso logstica univariada

TCNICAS DE MODELAGEM
1. 2.

Todos os modelos possveis Enter


Todas as variveis pr-selecionadas so foradas a ficar no modelo final

3.

Forward selection

Variveis pr-selecionadas colocadas uma a uma no modelo, comeando com a que mais explica o desfecho Acrescenta a varivel que mais aumenta o poder de explicao do modelo Termina quando nenhuma das variveis restantes adiciona poder de explicao ao modelo

4.

Backward elimination

Comea colocando todas as variveis pr-selecionadas no modelo Variveis retiradas uma a uma, comeando com a que menos reduz o poder de explicao do modelo Termina quando todas as variveis restantes no modelo explicam uma poro significativa da varivel dependente y

5.

Stepwise selection

Rene caractersticas de forward e backward Comea como forward, mas a cada nova varivel acrescentada, as variveis anteriores so re-avaliadas para ver se mantm a sua significncia estatstica.

AVALIAO DO MODELO
R2 Hosmer and Lemeshow Goodness of fit test

Anlise de resduos

EXEMPLOS NO SPSS
BANCO: LTX RESEARCH

S-ar putea să vă placă și