Sunteți pe pagina 1din 40

ANALIZA LEGĂTURILOR DINTRE

VARIABILE
Depinde de tipul variabilelor analizate

1. Calitative
2. Ordinale
3. Cantitative
Tipuri de legături
1. Nulă

2. Deterministă

3. Statistică (stohastică sau probabilistă) –


caracterizată de funcția y(x) = f(x) + ɛ
Tipuri de variabile
1. Endogene / explicate / dependente

2. Exogene / explicative / factoriale

3. Reziduale
Specificități în analiza legăturilor
• Natura probabilistă a legăturilor – datorată unui
anumit grad de nedeterminare.
• Modalități de alegere a variabilelor explicative
(introducere succesivă vs. eliminare succesivă).
• Multicoliniaritatea – fenomen care apare dacă
variabilele exogene nu sunt independente între ele.
• Măsurarea variabilelor.
• Modelul matematic.
• Calitatea datelor.
Etape în analiza legăturii dintre variabile:
• Organizarea rezultatelor observării populaţiei sau
eşantionului în raport cu variabilele cercetate
• Reprezentarea grafică a variabilelor
• Analiza statistică a existenţei legăturii
• Analiza statistică a intensităţii legăturii sau a
gradului de asociere dintre variabilele observate
• Formularea unor ipoteze cu privire la forma matematică a
legăturii
• Estimarea parametrilor funcţiei de regresie
• Analiza reprezentativităţii funcţiei de regresie
Existența legăturii (1)
• Cel mai general test de analiză a existenței
legăturii este testul hi-pătrat χ2, care se poate
aplica tuturor tipurilor de variabile.
• Pornește de la ipoteza nulă H0 – variabilele sunt
independente și pentru aceasta calculează
frecvențele teoretice N*ij .


2 I
 
J 
N ij  N ij
*
2

*
i 1 j 1
N ij
Existența legăturii (2)
Interpretarea se poate face în 2 moduri:
• Comparativ cu 0 (statistică descriptivă)
• Comparativ cu χ2 tabelar (statistică inferențială –
prag minim dat de riscul de eroare).
Exemple (1)
Exemple (1)
• p = 5% ⇒ χ2 tabelar = 12,6
• χ2 calculat = 15,48
Exemple (2)
Exemple (2)
• p = 5% ⇒ χ2 tabelar = 15,5
• χ2 calculat = 13,96
Existența legăturii (3)
• Pentru variabilele cantitative, dacă Vexp ≠ 0,
atunci există legătură între variabile.

Varianța Valoarea

Explicită 273,19
Reziduală 180,4
Totală 453,59
Intensitatea legăturii
Legătura dintre două sau mai multe variabile este
denumită diferit, în funcție de tipul acestora:
• Grad de asociere sau contingență – variabile
calitative,
• Corelație a rangurilor – variabile ordinale,
• Corelație – variabile cantitative.
Intensitatea legăturii – variabile calitative
(1)
1. Coeficientul de asociere (contingență) al
lui Pearson:
Intensitatea legăturii – variabile calitative
(2)
2. Coeficientul de asociere (contingenţă) al
lui Ciuprov
Intensitatea legăturii – variabile calitative
(3)
3. Coeficientul corelaţiei informaţionale al
lui Onicescu (de citit din carte)
• Pentru exemplele de mai sus, evaluați gradul de
asociere dintre variabile.
Intensitatea legăturii – variabile ordinale
(1)
• Unitățile populației trebuie să fie ordonate în
raport cu variabilele cercetate.
• Rangul unității statistice = locul ocupat de
unitatea statistică în clasamentul construit pe
baza valorilor variabilei.
Unitatea
statistică U1 U2 .... Ui ... Un
Variabila
X 1 2 ... i ... n
Y r1 r2 ... ri ... rn
Intensitatea legăturii – variabile ordinale
(2)
1. Coeficientul de corelație a rangurilor al
lui Kendall
Intensitatea legăturii – variabile ordinale
(3)
• Coeficientul de concordanță multiplă a
rangurilor al lui Kendall
Intensitatea legăturii – variabile ordinale
(4)
• Coeficientul de corelație a rangurilor al
lui Spearman
Intensitatea legăturii – variabile cantitative
• Dată de Raportul de corelație:
Analiza legăturii dintre
variabilele cantitative
Presupune:
• Formularea unor ipoteze cu privire la forma
legăturii
• Estimarea parametrilor funcției de regresie
• Analiza reprezentativității funcției de regresie
pentru modelarea legăturii dintre variabile
1. Formularea unor ipoteze cu privire la
forma legăturii

• Se face pe baza norului de puncte


1 0 0 0 0 02 0 0 0 0 03 0 0 0 0 04 0 0 0 0 05 0 0 0 0 06 0 0 0 0 0

64
45
63
58
57 48
62 35 61 98 40 47
91 59
70 7399
76 72 7568
8049
71 93
86
856269
23
39 81
82 94
4 100
9753
101 42 19
60
77 74 46
132755 7 83
38
29 52
88
15
79
56
78
87
24
11
30
50 84
8 12 44
21
B u d g e t (e u ro )

1454 1037 20 28 25
22 33 31
36 66 69
90 17
5143 41
96
2 89
16
18 32 5
3 1
67

34
65
92

95

0 500 1000 1500


Number of persons counselled
2. Estimarea parametrilor funcției de
regresie

• Orice variabilă se poate scrie în funcție de


factorii săi de influență astfel:
Y = f(X1, X2, ..., Xn) + ɛ
f(Xi) – funcția care aproximează cel mai bine
forma legăturii
ɛ - variabila aleatoare (reziduală)

• f(Xi) - valoarea medie a lui Y condiționată de


valorile pe care le iau variabilele factoriale.
2. Estimarea parametrilor funcției de
regresie – forme posibile
• Liniară
- simplă: Y = a + bX +ɛ = +ɛ
- multiplă: Y = a0 + a1X1 + a2X2 + ... + anXn+ ε
• Parabolică: Y = a + bX + cX2 +ε
• Hiperbolică: Y = a + b*(1/X) + ε
• Exponențială: Y = a* bX + ε
2. Estimarea parametrilor funcției de
regresie
• Se pornește de la principiul pătratelor minime.
• Se minimizează suma pătratelor abaterilor
valorilor lui Y de la media calculată pe baza
funcției.
• Condiția de minim a sumei este echivalentă cu:
M[Y – f(X1, X2, …, Xn)]2 = M(ε2)
2. Estimarea parametrilor funcției de
regresie – funcția liniară simplă
Prin metoda pătratelor minime se obține:
a + bM(X) = M(Y)
aM(X) + bM(X2) = M(XY)
2. Estimarea parametrilor funcției de
regresie – funcția liniară multiplă
Se obține sistemul:
a0 + a1M(X1) + ... + anM(Xn) = M(Y)
a0M(Xj) + a1M(X1Xj) + ... + anM(XnXj) =
M(YXj)

Particularizați pentru 2 factori.


2. Estimarea parametrilor funcției de
regresie – funcția parabolică
• Este pe principiul funcției liniare multiple cu 2
factori de influență.

• Scrieți sistemul de ecuații aferent ei.


2. Estimarea parametrilor funcției de
regresie – funcția hiperbolică
• Este la fel ca funcția liniară, cu deosebirea că
variabila X este considerată inversă 1/X
2. Estimarea parametrilor funcției de
regresie – funcția exponențială
• Se transformă întro regresie liniară prin
logaritmare.
Analiza reprezentativității funcției de
regresie pentru modelarea legăturii dintre
variabile
• Se face pe baza coeficientului de corelație rYX.
• Se pornește de la raportul de corelație în care
varianța este calculată pe baza abaterilor de la
valoare medie obținută prin funcție și nu de la
media grupei.

• Spre exemplu, pentru funcția liniară simplă:


rYX = cov (X,Y)/(σYσX)
Regresia – ex. 1
• Teoria numită ”Tranziția demografică” specifică
faptul că pe măsură ce o societate se dezvoltă,
rata natalității scade.
• Fie ecuația: nr_copii = a + b*educ + ε
1. Cum ar trebui să fie b pentru ca teoria să fie
validată?
2. Ce factori sunt incluși în ε?
3. Pot acești factori să fie, de fapt, corelați cu
nivelul educațional al mamei?
Regresia – ex. 2
• Pe un eșantion de 1300 de paciente s-a estimat
următoarea relație dintre numărul de țigări/zi și
greutatea nou-născutului:
Greutate_nn = 3390,5 – 14,55*nr_tig
1. Care este greutatea estimată a nou-născutului
pentru o mamă nefumătoare?
2. Dar pentru una care fumează 15 țigări/zi?
3. Credeți că funcția liniară este cea mai adecvată
pentru aceasta relație? Explicați.
Regresia – ex. 3
Educ = 11,5 + 0,136*educ_m + 0,2*educ_t
– 0,1*educ_frat
1. Interpretați efectele factorilor analizați asupra educației
individuale (educ).
2. Au toți factorii coeficienții așteptați?
3. Fie individul I1, fără frați, a cărui mamă are 12 ani de
educație și al cărui tată are 18 ani de educație. Care este
nivelul său educațional estimat?
4. Comparați educația estimată a I1 cu cea a lui I2, care are 1
frate, mama cu 20 de ani de educație și tatăl cu 17.
5. Care este nivelul de reprezentativitate al acestei ecuații,
știind că R2=0,26?
Regresia – ex. 4
Fie distribuția a 11 firme producătoare de blănuri în funcție de
vânzări (mii lei) și profit (mii lei):

Vânzări Profit 1.Estimați printr-o regresie relația


dintre profit și vânzări.
21 2.8
2.Care este cea mai adecvată
24 3.4
funcție?
26 3
3.Interpretați efectul vânzărilor
27 3.5 asupra profitului utilizând
29 3.6 funcția cea mai reprezentativă
25 3 obținută.
25 2.7
30 3.7
23 2.6
28 3.5
30 3.6
Regresia – ex. 4

Profit
3.9
3.7
3.5
3.3
3.1
2.9
2.7
2.5
20 22 24 26 28 30 32

Vânzări

S-ar putea să vă placă și