Documente Academic
Documente Profesional
Documente Cultură
1. Introducere
2. Regresia logistică binomială
• 2.1 Șanse, raport de șanse
• 2.2 Distribuţii de probabilitate
• 2.3 Regresia logistică binomială simplă
1 2
RL se aplică în:
• Regresia logistică se folosește când variabila dependentă (răspuns) este categorială.
• modelarea probabilităților unei variabile răspuns ca funcție de variabilele explicative;
• Variabilele explicative pot fi categoriale și/sau numerice.
• Alte metode de analiză pentru variabila dependentă categorială:
• analiza diferențelor dintre indivizi/organizații (unități statistice) grupați/grupate în 2 sau
• Analiza logit ( toate variabilele explicative sunt categoriale); mai multe clase ca funcție de variabilele explicative;
• Analiza discriminant (toate variabilele explicative sunt numerice).
3 4
• estimarea probabilităților ca un individ/o firmă să aparțină uneia din două sau mai
multe categorii ca funcție de o serie de variabile explicative; deoarece se calculează • Variabila răspuns/dependentă este categorială
probabilitatea de succes raportată la probabilitatea de eșec, rezutatele analizei sunt
sub forma raportului de șanse. • Variabila dependentă NU este necesar să urmeze o distribuție normală.
• clasificarea unităților (indivizi /firme/țări) în două sau mai multe categorii pe baza • Modelul binomial de regresie logistică presupune distribuția binomială a
variabilelor explicative. variabilei răspuns.
6
5 6
• Variabilele explicative/independente nu este necesar să fie numerice, nici • Erorile trebuie să fie independente, dar NU este necesar să fie distribuite
11/22/2019
11/22/2019
• Regresia logistică NU presupune o relație liniară între variabila dependentă și • Pentru estimarea paramerilor se folosește metoda verosimilității maxime.
variabila independentă;
7 8
11/22/2019
• Categoriile (grupurile) trebuie să fie mutual exclusive și exhaustive: un caz
11/22/2019
poate aparține doar unui grup și fiecare caz trebuie să aparțină unuia dintre • Pentru normalizarea distribuției este necesară transformarea logaritmică.
grupuri). • Transformarea log a valorilor p într-o distribuție log permite crearea unei
legături (link ) cu ecuația de regresie clasică.
• Sunt necesare eșantioane mai mari decât în cazul regresiei liniare deoarece • Distribuția log (transformarea logistică a lui p) se mai numește și logitul lui
coeficienții estimați cu metoda verosimilității maxime sunt folosiți pentru p sau logit(p).
eșantioane mari. Se recomandă un minim de 50 cazuri per predictor.
9 10
9 10
11/22/2019
B I N O M I AL Ă SIMPLĂ B I N O M I AL Ă SIMPLĂ
• O regresie simplă reprezintă o medie a variabilei dependente Y condiționată • poate lua orice valoare, pentru X variind de la
de o variabilă independentă X, .
• În cazul regresiei liniare, această medie este exprimată printr-o ecuație liniară: • Graficul este o dreapta de pantă .
𝐸 𝑌 𝑋 =𝛽 + 𝛽 𝑋 + 𝑒 Ecuația de
regresie • Pentru o variabilă dependentă binară, , pentru orice
11 12
11 12
11/22/2019
11/22/2019
B I N O M I AL Ă SIMPLĂ exp(𝒃 + 𝒃 𝐱)
𝛑𝐢 = 𝐏𝐫(𝐘𝐢 = 1|𝐗) =
1 + exp(𝒃 + 𝒃 𝐱)
,
• 𝜋= ln = ln = ln 1 = 0
,
13 • 𝒃𝟎 + 𝒃𝟏 𝒙 = 0 𝑥=− 14
13 14
11/22/2019
B I N O M I AL Ă SIMPLĂ B I N O M I AL Ă SIMPLĂ
15 16
15 16
11/22/2019
B I N O M I AL Ă SIMPLĂ
17 18
17 18
EXEMPLU
11/22/2019
11/22/2019
i ii iii iv v vi vii
• X – vârsta gestațională a bebelușului (săptămâni) la momentul nașterii
Y Raportul
• Y – dacă bebelușul a fost hrănit la sân în perioada spitalizării (la momentul șanselor
ieșirii din spital); pentru Log
Total Y=1 Odds
• ” Nu” 0 X 0 1 ii+iii Prob (Y=1) Ratio
• ” Da” 1 28 4 2 6 0,3333 0,5000 -0,6931
29 3 2 5 0,4000 0,6667 -0,4055
30 2 7 9 0,7778 3,5000 1,2528
31 2 7 9 0,7778 3,5000 1,2528
19 32 4 16 20 0,8000 20 4,0000 1,3863
33 1 14 15 0,9333 14,0000 2,6391
19 20
• Estimatorul verosimilității maxime (ML) este valoarea parametrului pentru care datele
observate au cea mai mare probabilitate de apariție. (Agresti A.).
21 22
• Estimarea prin verosimilitate maximă completă (VMC) include în funcția de verosimilitate Pentru obținerea de estimatori de verosimilitate maximă, în literatura de specialitate au
atât coeficienții de regresie cât și componentele varianței. fost propuși o varietate de procedee și algoritmi. Printre aceștia se numără:
• algoritmul EM
• Funcția de verosimilitate aferentă estimării prin verosimilitate maximă restrânsă (VMR) • cele mai mici pătrate generalizate calculate iterativ (IGLS) pentru
include numai componentele varianței, coeficienții de regresie fiind estimați într-o a doua verosimilitatea maximă completă: cele mai mici pătrate generalizate restricționate
etapă. calculate iterativ (RIGLS) pentru verosimilitatea maximă restrânsă, algoritmul Fisher,
pentru modelele cu coeficienți aleatori, algoritmul Newton-Raphson.
• Estimarea prin verosimilitate maximă restrânsă este, de obicei, metoda standard în cele
mai multe pachete soft de analiză statistică.
23 24
• Sunt consistenți asimptotic; converg către parametru pe măsură ce n function) maximixează și logaritmul acestei funcții.
crește;
• Este mai ușor de maximizat log verosimilitatea (log likelihood) deoarece
• Sunt eficienți asimptotic, producând erori standard pentru eșantioane
mari cel mult la fel de mari ca cele produse cu alte metode de este o sumă de termeni (Agresti, A.).
estimare (Agresti, A.).
25 26
𝑙 𝛽 =∏ 𝑓 𝑦 ,𝜋 𝑥 =∏ 𝜋(𝑥 ) ) 1 − 𝜋 𝑥
f(Y|θ) = f (𝑦 , 𝑦 ,.., 𝑦 | θ) = f (𝑦 | θ) * f (𝑦 | θ) * …* f (𝑦 | θ) = L(θ| 𝑦 , 𝑦 ,.., 𝑦 ) = L(θ|Y)
27 28
29 30
31 32
33 34
33 34
35 36
35 36
• Testul Wald
W=
37
37