Documente Academic
Documente Profesional
Documente Cultură
Bazele Statisticii Cap 6 4 Pag
Bazele Statisticii Cap 6 4 Pag
1 3
Capitolul VI
Analiza seriilor
interdependente: 6.1. Generalităţi
măsurarea legăturii dintre
variabile
2
Variabile interdependente (1) Tipuri de legături (1)
• Observările statistice conțin mai multe variabile, • In statistică, legătura dintre variabile este
care pot fi analizate independent sau în relație studiată prin relația dintre o variabilă
cu una sau mai multe din celelalte variabile dependentă (efect, explicată) notată cu Y
observate și una sau mai multe variabile
• Fenomenele din societate și din economie sunt independente (cauză, explicative) notate
influențate simultan de mai mulți factori; factorii cu Xi
sunt observați ca variabile statistice între care • Intrebare: în ce fel este modificată
există legături variabila dependentă de modificarea
• Explicarea modului de manifestare a legăturilor variabilelor independente ?
din trecut ajută la predicția manifestărilor viitoare
5 7
10 12
6.2.1. -Distributiile statistice bi-
Metode parametrice dimensionale
• Metoda corelației • Cea mai simplă metodă de studiere a
– Măsoară intensitatea relației dintre variabile relației dintre variabile
– Arată existența corelației, dar nu indică • Ne propunem sa studiem o populatie după
dependența două caracteristici care au fiecare diverse
• Metoda regresiei modalitati
– Definirea unei funcții matematice care descrie • Tabelele de date cu dubla intrare poartă
relația dintre variabilele independente și numele de tabele de contingenţă
variabila dependentă
13 15
Caracteristicile distribuției
Distribuția se prezintă in urmatoarea forma
x1 x2 … xn
6.2. Metoda corelației
y1 y2 … yn
• Seriile bi-dimensionale
Așadar este facilă calcularea mediei și
• Caracteristicile marginale si condiționale
• Măsurarea corelației distributiei valorilor xi si yi
– Metode neparametrice
– Metode parametrice
14 16
Tabelul de contingență (1) Reprezentările grafice
y1 ... yj ... yq Total Reprezentările grafice ale distribuțiilor
x1 n11 ... n1j ... n1q n1. bidimensionale au formele deja cunoscute
pentru distributiile unidimensionale
Reprezentarea graficului pentru două
xi ni1 ... nij ... niq ni. variabile cantitative nu este posibila decat
intr-un spatiu in trei dimensiuni
xp np1 ... npj ... npq np. Pentru variabilele calitative sunt utilizabile
Total n.1 ... n.j ... n.q n. . graficele sub forma de bare
17 19
18
Distribuțiile marginale si Caracteristicile marginale ale
condiționale variabilei Y
• Fiecare linie si fiecare coloană a tabelului de contingență • Media artimetică a variabilei Y
definesc o distributie dupa o singura variabila
1 p q
1 q
• Ultima linie si ultima coloana dau repartitia populatiei
totale dupa fiecare variabila. Le numim distributii
y
n
n
i 1 j 1
ij y j n jy j
n j1
marginale
• Celelalte linii si coloane ne dau repartitia populatiei care • Dispersia marginală a variabilei Y
corespunde unei conditii a uneia dintre variabile in
functie de cealalta variabila. Le numim distributii 1 q
condiționale V(Y)
n j1
n j (y j y) 2
21 23
n ij(x i x j)2
i
n i 1 Vj(X)
n .j i 1
22 24
Caracteristicile condiționale ale
variabilei Y pentru Xi Relația între medii (1)
• Media condițională • Expresia mediilor marginale in functie de
1
q
mediile condiționale
yi n ijy j
n i. j1 1 q
• Dispersia condițională
x n j x j
n j1
1 p
1 q y ni yi
Vi (Y)
n i. j1
n ij(y j y i )2 n i1
• Media marginală este media ponderată a
mediilor condiționale
25 27
1 p 1 p
V(Y) i i
n i 1
n V (Y) n i ( y i y) 2
n i 1
28
Relațiile intre dispersii (2) Exemplul 1 : datele
• Dispersia marginală este suma dintre media
dispersiilor condiționale și dispersia mediilor Y 2 4 6
condiționale X
• Dispersia mediilor condiționale arată dispersia
2 0 1 1
mediilor condiționale între ele, numită si
dispersia (varianța) explicată
4 2 3 0
• Media dispersiilor condiționale arată dispersia
medie a tuturor distribuțiilor condiționale ale lui X
(sau Y), numită dispersie reziduală 6 1 1 1
29 31
Exemplul 1 : calcule
Caracteristici marginale Caracteristici condiționale
y 1 5 ; V 1 (y) 1
COV(X, Y) 0,36 y 3,2 ; V (y) 0,96
2 2
y 3 4 ; V 3 (y) 2,66
32
Exemplul 2 : datele Exemplul 2 : calcule (2)
Repartitia salariatilor de la intreprinderea X in functie de sex si numarul de copii
Nr. copii Barbati Femei Total Daca vom considera distributia marginala a populatiei totale dupa
numarul de copii, putem sa definim o medie si dispersie marginala
0 4 1 5
1 3 2 5 x=
5 x0 5x1 8x2 2 x3 1,35 copii
20
2 6 2 8
50 -1,35 51 - 1,35 82 1,35 23 -1,35
2 2 2 2
3 1 1 2 V x 0,9275
20
Total 14 6 20
33 35
• Pentru barbati : xB =
4x0 3x1 6x2 1x3 1,29 copii 6.2.4. Măsura corelației
14
V x f 0 ,9167
6
34 36
Coeficientul de asociere Yule
(2)
n11 n 22 n12 n 21
6.2.4.1. Metode Q
n11 n 22 n12 n 21
neparametrice
• Ia valori între -1 și +1.
• Valorile negative arata o asociere inversa; cele
pozitive o asociere directa
• Ca cât valorile tind spre +/- 1, cu atât asocierea
este mai puternică
37 39
Coeficientul de corelație a
Coeficientul de asociere Yule (1) rangurilor Spearman (1)
• Se aplică în cazul a două variabile alternative • Pentru două variabile sortate (dupa
(Da/Nu; 1/0) marime sau importanță), acest coeficient
• Datele se prezintă într-un tabel de asociere nu face sa intervină decât noțiunea de
rang. Poate fi calculat pentru orice
variabilă (cantitativă sau calitativă) sub
X \ Y y1 y2 Total condiția că este ordinală
x1 n11 n12 n1.
• Calculăm
x2 n21 n22 n2. N
6 D i2
Total n.1 n.2 n.. 1 i 1
N(N 2 1)
38 40
Coeficientul de corelație a
rangurilor Spearman (2) Exemplu (2)
• D este diferența dintre rangurile valorilor • Coeficientul Spearman este de 0,886
corespondente ale variabilelor X si Y • Rata de alfabetizare este puternic corelată
• N este numărul cuplurilor de valori (X,Y) pentru cele șase țări analizate
• Coeficientul este cuprins între -1 și 1
• Cu cât este mai aproape de 1, cu atât
corelația rangurilor este mai mare
41 43
Coeficientul de corelație a
Exemplu (1) rangurilor Kendall (1)
• Rata de alfabetizare masculină (xi) și feminină • Are mai multe forme de prezentare
(yi) in șase țări (Kendall Tau) si ia in calcul perechile
ordonate ale rangurilor variabilelor studiate
Țara
• Una dintre ele se bazeaza numai pe
1 2 3 4 5 6
rangurile variabilei Y, după ce datele au
Rangul 6 5 4 3 1 2
xi fost sortate după variabila X
Rangul yi 6 4 5 2 1 3
D 0 1 1 1 0 1
D2 0 1 1 1 0 1 42 44
Coeficientul de corelație a Coeficientul de corelație a
rangurilor Kendall (2) rangurilor Kendall (4)
• Exemplu
rk
P Q
i i Nr. Cifra de Profit Rx Ry Pi Qi Di2
1
nn 1
crt. afaceri (mld. Lei).
(mld. Lei)
2 1 47 4,0 1 1 7 0 0
2 54 4,7 2 2 6 0 0
• P reprezintă suma numărului de ranguri
i 3 58 5,9 3 7 1 4 16
superioare rangului i analizat 4 60 5,2 4 4 3 1 0
• Qi reprezintă suma numărului de ranguri 5 61 5,0 5 3 3 0 4
inferioare rangului i analizat 6 62 5,8 6 6 1 1 0
• n este numărul de ranguri analizate 7 64 5,6 7 5 1 0 4
45
8 70 6,4 8 8 0 0 047
Total - - - - 22 6 24
46 48
Coeficientul de corelație a
rangurilor Spearman Covarianţa
• Rezultat Covarianţa a două variabile statistice X și
Y este definită de
6 24
1 0,71
8(64 1)
1 n
Cov(X,Y) = x - x y i - y
n i1 i
Corelaț
Corelația este directă și relativ mare ca intensitate
49 51
Proprietățile covarianţei
• Cov(X,X)=V(X)
• Modificarea de variabilă
6.2.4.2. Metode parametrice – Dacă pentru orice i, xi’=axi+b și yi’=cyi+d
atunci Cov(X’,Y’)=acCov(X,Y)
• Covarianța
• Coeficientul de corelație liniară
• Raportul de corelație
50 52
Coeficientul de corelație liniară Raportul de corelație
• Este raportul dintre covarianță și produsul • Dispersia marginală (totală) = dispersia
abaterilor medii pătratice ale celor două variabile explicată + dispersia reziduală
observate (sau coeficientul Bravais-Pearson)
• Definirea raportului de corelație
• Ia valori între -1 și +1
• Proprietăți
Cov(X, Y)
rxy =
x . y
53 55
Proprietățile coeficientului de
Varianța marginală (totală)
corelație liniară
– Coeficientul de corelație liniară r este invariant • Am exprimat dispersia marginală ca o sumă a
la schimbarea de variabilă si este simetric in dispersiei mediilor condiționale și media
raport cu X si Y dispersiilor condiționale
– Este cuprins intre -1 si 1 p p
1 1
n
– Daca este pozitiv (respectiv negativ) avem o V(Y) n i.(y i y)2 n i.Vi (Y)
corelație pozitivă (respectiv negativă) i1 n i1
– Cu cat r este mai apropiat de 1 in valoare V(Y) = V(Yi ) Vi (Y)
absoluta, cu atat legătura dintre X si Y este
mai puternică • Disp.marginală = Disp.explicată+Disp.reziduală
54 56
Definirea si proprietățile Definirea coeficientului de
raportului de corelație determinație (1)
• Definim raportul de corelație • Este strâns legat de conceptul de regresie liniară
– R = radacina patrata din (Varianța explicată / • Prin modelul de regresie, valorile empirice
Varianța totală) (observate) yi sunt aproximate cu valori calculate ŷi
• Se calculeaza pe baza valorilor observate • V(Y) se poate scrie, in cazul unei ajustări liniare
• Acest raport variaza intre 0 si 1 1n 1n
– Cand ia valoarea 0, semnifica faptul ca V(Y)
n i1
(yi ŷi )2 (ŷi y)2
n i1
mediile condiționale sunt toate egale
– Cand ia valoarea 1, cunoașterea unei
variabile antrenează cunoașterea celeilalte Y Y / r Y / X
57 59
Definirea coeficientului de
Coeficientul de determinație
determinație (2)
• Definirea coeficientul de determinație • Primul termen reprezintă dispersia in jurul
dreptei de ajustare. Este varianța reziduală (ne-
• Definirea coeficientului de nedeterminație
explicată prin ajustare)
• Raportul de corelație • Al doilea termen exprimă dispersia valorilor
estimate in jurul mediei. Este varianța explicată
prin ajustare
• Ajustarea este cu atat mai bună cu cât
coeficientul de determinație = varianță
explicată/varianță totală este mai mare (raportul
este cuprins intre 0 si 1)
58 60
Rezultate
• Coeficientul de Y / X
determinație R2
Y
• Coeficientul de Y /r 6.3.1. Căutarea formei relației
nedeterminație K2
Y
• Raportul de corelație
Y / X
R Y Y / r 1 Y / r 1 K 2
Y Y Y
61
62 64
Semnificația curbei de ajustare Semnificația curbei de ajustare
(1) (3)
• Legătura funcțională • Existența corelației
– Legatura functională reciprocă între Y si X – Este cazul in care se aplica metodele
face ca fiecărei valori xi să îi corespundă o statistice. Există o legătura între cele două
singură valoare și numai una yi și reciproc variabile
– Tratarea acestui tip de relatie tine mai mult de – Cunoașterea valorii luate de o variabila
matematica decat de statistică. Relația este permite estimarea influentei unei variabile
de tip y=f(x) asupra unei alteia ca și ordinul de marime pe
care il va lua cealalta variabila
65 67
66 68
Metoda celor mai mici pătrate
(1)
• Constă in determinarea parametrilor a si b astfel
incat ecarturile, calculate paralel la axa valorilor
y, sa fie cat mai mici cu putință
6.3.2. Ajustarea liniară • Aceasta inseamnă să minimizam suma
pătratelor ecarturilor
n n
(y yˆ )
i 1
i i
2
min sau [y (a b x )]
i i
2
min
i 1
71
74 76