Sunteți pe pagina 1din 19

Bazele statisticii

VI. Analiza seriilor


Anul II – Facultatea de stiinte
economice interdependente
Universitatea Titu Maiorescu
6.1. Generalități
6.2. Metoda corelației
Dr. Dan GHERGUT 6.3. Metoda regresiei

1 3

Capitolul VI
Analiza seriilor
interdependente: 6.1. Generalităţi
măsurarea legăturii dintre
variabile

2
Variabile interdependente (1) Tipuri de legături (1)
• Observările statistice conțin mai multe variabile, • In statistică, legătura dintre variabile este
care pot fi analizate independent sau în relație studiată prin relația dintre o variabilă
cu una sau mai multe din celelalte variabile dependentă (efect, explicată) notată cu Y
observate și una sau mai multe variabile
• Fenomenele din societate și din economie sunt independente (cauză, explicative) notate
influențate simultan de mai mulți factori; factorii cu Xi
sunt observați ca variabile statistice între care • Intrebare: în ce fel este modificată
există legături variabila dependentă de modificarea
• Explicarea modului de manifestare a legăturilor variabilelor independente ?
din trecut ajută la predicția manifestărilor viitoare
5 7

Variabile interdependente (2) Tipuri de legături (2)


• Exemple: • Se pot întâlni mai multe situații:
– Persoanele mai înalte au o greutate mai mare ? – Legătură univocă: variabila independentă determină
– Venitul unei familii influențează rezultatele școlare ale modificarea variabilei dependente;
copiilor ? – Legătură reciprocă: variabilele se influențează
– Există o relație între tabagism și cancerul pulmonar ? simultan – nu se poate face o separație netă între
– Randamentul producției de cereale este influențat de variabila dependentă și cele independente;
cantitatea de îngrășăminte utilizate ? – Variabilele au un comportament similar, dar nu se
– Este productivitatea unei întreprinderi influențată de influențează – o altă variabilă, externă, le influențează
salariul angajaților ? simultan;
– Variabilele au întâmplător o evoluție similară, fără să
existe o legătură între ele
6 8
Etapele analizei legăturii dintre
Tipuri de legături (3)
variabile
• După natura relației de interdependență • Identificarea variabilelor cauza si
– Deterministe si stohastice ierarhizarea acestora
• După numărul variabilelor independente • Culegerea datelor
– Uni si multifactoriale • Verificarea existentei si formei legaturii
• După natura caracteristicilor intre date
– De asociere si de corelație • Calculul indicatorilor de corelație
• După directia legăturii • Testarea semnificatiei indicatorilor de
– Directe si indirecte corelație
9 11

Metode simple de studiere a


Tipuri de legături (4)
legăturii dintre variabile
• După forma funcției de legatură • Metoda seriilor paralele interdependente
– Liniară si neliniară • Metoda grupărilor
• După manifestarea factorului timp • Metoda tabelului de corelație
– Sincrone (concomitente) și asincrone (cu • Metoda grafică
decalaj)

10 12
6.2.1. -Distributiile statistice bi-
Metode parametrice dimensionale
• Metoda corelației • Cea mai simplă metodă de studiere a
– Măsoară intensitatea relației dintre variabile relației dintre variabile
– Arată existența corelației, dar nu indică • Ne propunem sa studiem o populatie după
dependența două caracteristici care au fiecare diverse
• Metoda regresiei modalitati
– Definirea unei funcții matematice care descrie • Tabelele de date cu dubla intrare poartă
relația dintre variabilele independente și numele de tabele de contingenţă
variabila dependentă

13 15

Caracteristicile distribuției
Distribuția se prezintă in urmatoarea forma

x1 x2 … xn
6.2. Metoda corelației
y1 y2 … yn
• Seriile bi-dimensionale
Așadar este facilă calcularea mediei și
• Caracteristicile marginale si condiționale
• Măsurarea corelației distributiei valorilor xi si yi
– Metode neparametrice
– Metode parametrice

14 16
Tabelul de contingență (1) Reprezentările grafice
y1 ... yj ... yq Total Reprezentările grafice ale distribuțiilor
x1 n11 ... n1j ... n1q n1. bidimensionale au formele deja cunoscute
pentru distributiile unidimensionale
Reprezentarea graficului pentru două
xi ni1 ... nij ... niq ni. variabile cantitative nu este posibila decat
intr-un spatiu in trei dimensiuni
xp np1 ... npj ... npq np. Pentru variabilele calitative sunt utilizabile
Total n.1 ... n.j ... n.q n. . graficele sub forma de bare

17 19

Tabelul de contingență (2)


Are p linii și q coloane
Ca să construim un tabel de contingență, 6.2.3. Caracteristicile
înscriem la încrucișarea fiecărei linii cu fiecare
coloană - în caseta (i,j) - frecvența nij care marginale si condiționale
corespunde numărului de unități ale populației
statistice care dețin simultan varianta Xi a
variabilei X și varianta Yj a variabilei Y.
Apoi adăugăm o coloană de ”Total” și o linie de
”Total”.

18
Distribuțiile marginale si Caracteristicile marginale ale
condiționale variabilei Y
• Fiecare linie si fiecare coloană a tabelului de contingență • Media artimetică a variabilei Y
definesc o distributie dupa o singura variabila
1 p q
1 q
• Ultima linie si ultima coloana dau repartitia populatiei
totale dupa fiecare variabila. Le numim distributii
y
n
n
i 1 j 1
ij  y j   n  jy j
n j1
marginale
• Celelalte linii si coloane ne dau repartitia populatiei care • Dispersia marginală a variabilei Y
corespunde unei conditii a uneia dintre variabile in
functie de cealalta variabila. Le numim distributii 1 q
condiționale V(Y)  
n j1
n  j (y j  y) 2

21 23

Caracteristicile marginale ale Caracteristicile condiționale ale


variabilei X variabilei X pentru Yj
• Media artimetica a variabilei X • Media condițională
p
1 p q
1 p 1
x   nij  xi  nixi x j   n ijx i
n i1 j1 n i1 n .j i 1
• Dispersia marginala a variabilei X • Dispersia condițională
p
1
V(X)  n (x i  x ) 2 1
p

 n ij(x i  x j)2
i
n i 1 Vj(X) 
n .j i 1
22 24
Caracteristicile condiționale ale
variabilei Y pentru Xi Relația între medii (1)
• Media condițională • Expresia mediilor marginale in functie de
1
q
mediile condiționale
yi   n ijy j
n i. j1 1 q
• Dispersia condițională
x  n j x j
n j1
1 p
1 q y ni yi
Vi (Y)  
n i. j1
n ij(y j  y i )2 n i1
• Media marginală este media ponderată a
mediilor condiționale
25 27

Relațiile intre dispersii (1)


• Expresia dispersiilor marginale în funcție
Relațiile între variabilele de dispersiile condiționale
marginale și condiționale 1 q 1 q
V(X)  
n j1
n  jVj (X)   n  j ( x j  x ) 2
n j1

1 p 1 p
V(Y)   i i
n i 1
n V (Y)   n i  ( y i  y) 2
n i 1

28
Relațiile intre dispersii (2) Exemplul 1 : datele
• Dispersia marginală este suma dintre media
dispersiilor condiționale și dispersia mediilor Y 2 4 6
condiționale X
• Dispersia mediilor condiționale arată dispersia
2 0 1 1
mediilor condiționale între ele, numită si
dispersia (varianța) explicată
4 2 3 0
• Media dispersiilor condiționale arată dispersia
medie a tuturor distribuțiilor condiționale ale lui X
(sau Y), numită dispersie reziduală 6 1 1 1

29 31

Exemplul 1 : calcule
Caracteristici marginale Caracteristici condiționale

x  4,2; V(X)  1,96 x 1  4,66 ; V 1 (x)  0,95


y  3,8; V(Y)  1,96 x 2  4 ; V 2 (x)  1,6

Calcule practice Covarianta


x 3  4 ; V 3 (x)  4

y 1  5 ; V 1 (y)  1
COV(X, Y)  0,36 y  3,2 ; V (y)  0,96
2 2

y 3  4 ; V 3 (y)  2,66

32
Exemplul 2 : datele Exemplul 2 : calcule (2)
Repartitia salariatilor de la intreprinderea X in functie de sex si numarul de copii

Nr. copii Barbati Femei Total Daca vom considera distributia marginala a populatiei totale dupa
numarul de copii, putem sa definim o medie si dispersie marginala
0 4 1 5

1 3 2 5 x=
5 x0   5x1  8x2   2 x3  1,35 copii
20
2 6 2 8
50 -1,35   51 - 1,35  82  1,35  23 -1,35 
2 2 2 2
3 1 1 2 V x    0,9275
20

Total 14 6 20
33 35

Exemplul 2 : calcule (1)


Daca luam in considerare distributia condiționala a numarului de copii in
functie de sex, putem sa definim medii si dispersii condiționale

• Pentru barbati : xB =
4x0  3x1  6x2  1x3  1,29 copii 6.2.4. Măsura corelației
14

40 - 1,29   31 - 1,29  62  1,29   13 - 1,29


2 2 2 2
V x B  
14
 0,9184
• Metode neparametrice
1x0  2x1  2 x2  1x3  1,50 copii • Metode parametrice
• Pentru femei xf =
6

10 - 1,50   21- 1,50   2 2  1,50   13 - 1,50 


2 2 2 2

V x f    0 ,9167
6
34 36
Coeficientul de asociere Yule
(2)
n11  n 22  n12  n 21
6.2.4.1. Metode Q
n11  n 22  n12  n 21
neparametrice
• Ia valori între -1 și +1.
• Valorile negative arata o asociere inversa; cele
pozitive o asociere directa
• Ca cât valorile tind spre +/- 1, cu atât asocierea
este mai puternică
37 39

Coeficientul de corelație a
Coeficientul de asociere Yule (1) rangurilor Spearman (1)
• Se aplică în cazul a două variabile alternative • Pentru două variabile sortate (dupa
(Da/Nu; 1/0) marime sau importanță), acest coeficient
• Datele se prezintă într-un tabel de asociere nu face sa intervină decât noțiunea de
rang. Poate fi calculat pentru orice
variabilă (cantitativă sau calitativă) sub
X \ Y y1 y2 Total condiția că este ordinală
x1 n11 n12 n1.
• Calculăm
x2 n21 n22 n2. N
6  D i2
Total n.1 n.2 n..   1 i 1
N(N 2  1)
38 40
Coeficientul de corelație a
rangurilor Spearman (2) Exemplu (2)
• D este diferența dintre rangurile valorilor • Coeficientul Spearman este de 0,886
corespondente ale variabilelor X si Y • Rata de alfabetizare este puternic corelată
• N este numărul cuplurilor de valori (X,Y) pentru cele șase țări analizate
• Coeficientul este cuprins între -1 și 1
• Cu cât este mai aproape de 1, cu atât
corelația rangurilor este mai mare

41 43

Coeficientul de corelație a
Exemplu (1) rangurilor Kendall (1)
• Rata de alfabetizare masculină (xi) și feminină • Are mai multe forme de prezentare
(yi) in șase țări (Kendall Tau) si ia in calcul perechile
ordonate ale rangurilor variabilelor studiate
Țara
• Una dintre ele se bazeaza numai pe
1 2 3 4 5 6
rangurile variabilei Y, după ce datele au
Rangul 6 5 4 3 1 2
xi fost sortate după variabila X
Rangul yi 6 4 5 2 1 3
D 0 1 1 1 0 1
D2 0 1 1 1 0 1 42 44
Coeficientul de corelație a Coeficientul de corelație a
rangurilor Kendall (2) rangurilor Kendall (4)
• Exemplu
rk 
 P  Q
i i Nr. Cifra de Profit Rx Ry Pi Qi Di2
1
nn  1
crt. afaceri (mld. Lei).
(mld. Lei)
2 1 47 4,0 1 1 7 0 0
2 54 4,7 2 2 6 0 0
•  P reprezintă suma numărului de ranguri
i 3 58 5,9 3 7 1 4 16
superioare rangului i analizat 4 60 5,2 4 4 3 1 0
•  Qi reprezintă suma numărului de ranguri 5 61 5,0 5 3 3 0 4
inferioare rangului i analizat 6 62 5,8 6 6 1 1 0
• n este numărul de ranguri analizate 7 64 5,6 7 5 1 0 4

45
8 70 6,4 8 8 0 0 047
Total - - - - 22 6 24

Coeficientul de corelație a Coeficientul de corelație a


rangurilor Kendall (3) rangurilor Kendall (5)
• Exemplu • Rezultat
– Analizăm coloana Ry si numărăm:
22  6 2  16 32
• Pentru i =1 : Cate din rangurile care urmeaza sunt mai mari rk     0 ,57
1 56 56
8 7 
decat Ry = 1 ? Raspuns: Sunt 7 ranguri mai mari decat 1: 2,
7, 4, 3, 6, 5, 8
• Pentru i =1 : Cate din rangurile care urmeaza sunt mai mici 2
decat Ry = 1 ? Raspuns: Sunt 0 ranguri mai mici decat 1: 2,
7, 4, 3, 6, 5, 8
• Pentru i =5 : Cate din rangurile care urmeaza sunt mai mari Corelaț
Corelația este directă și relativ mare ca intensitate
decat Ry = 3 ? Raspuns: Sunt 3 ranguri mai mari decat 3: 6,
5, 8
• Pentru i =5 : Cate din rangurile care urmeaza sunt mai mici
decat Ry = 3 ? Raspuns: Sunt 0 ranguri mai mici decat 3: 6,
5, 8

46 48
Coeficientul de corelație a
rangurilor Spearman Covarianţa
• Rezultat Covarianţa a două variabile statistice X și
Y este definită de
6  24
  1  0,71
8(64 1)
1 n
Cov(X,Y) = x - x y i - y 
n i1 i
Corelaț
Corelația este directă și relativ mare ca intensitate

49 51

Proprietățile covarianţei
• Cov(X,X)=V(X)
• Modificarea de variabilă
6.2.4.2. Metode parametrice – Dacă pentru orice i, xi’=axi+b și yi’=cyi+d
atunci Cov(X’,Y’)=acCov(X,Y)

• Covarianța
• Coeficientul de corelație liniară
• Raportul de corelație

50 52
Coeficientul de corelație liniară Raportul de corelație
• Este raportul dintre covarianță și produsul • Dispersia marginală (totală) = dispersia
abaterilor medii pătratice ale celor două variabile explicată + dispersia reziduală
observate (sau coeficientul Bravais-Pearson)
• Definirea raportului de corelație
• Ia valori între -1 și +1
• Proprietăți
Cov(X, Y)
rxy =
 x . y
53 55

Proprietățile coeficientului de
Varianța marginală (totală)
corelație liniară
– Coeficientul de corelație liniară r este invariant • Am exprimat dispersia marginală ca o sumă a
la schimbarea de variabilă si este simetric in dispersiei mediilor condiționale și media
raport cu X si Y dispersiilor condiționale
– Este cuprins intre -1 si 1 p p
1 1
n
– Daca este pozitiv (respectiv negativ) avem o V(Y)  n i.(y i  y)2   n i.Vi (Y)
corelație pozitivă (respectiv negativă) i1 n i1
– Cu cat r este mai apropiat de 1 in valoare V(Y) = V(Yi )  Vi (Y)
absoluta, cu atat legătura dintre X si Y este
mai puternică • Disp.marginală = Disp.explicată+Disp.reziduală

54 56
Definirea si proprietățile Definirea coeficientului de
raportului de corelație determinație (1)
• Definim raportul de corelație • Este strâns legat de conceptul de regresie liniară
– R = radacina patrata din (Varianța explicată / • Prin modelul de regresie, valorile empirice
Varianța totală) (observate) yi sunt aproximate cu valori calculate ŷi
• Se calculeaza pe baza valorilor observate • V(Y) se poate scrie, in cazul unei ajustări liniare
• Acest raport variaza intre 0 si 1 1n 1n
– Cand ia valoarea 0, semnifica faptul ca V(Y)  
n i1
(yi  ŷi )2  (ŷi  y)2
n i1
mediile condiționale sunt toate egale
– Cand ia valoarea 1, cunoașterea unei
variabile antrenează cunoașterea celeilalte Y Y / r Y / X
57 59

Definirea coeficientului de
Coeficientul de determinație
determinație (2)
• Definirea coeficientul de determinație • Primul termen reprezintă dispersia in jurul
dreptei de ajustare. Este varianța reziduală (ne-
• Definirea coeficientului de nedeterminație
explicată prin ajustare)
• Raportul de corelație • Al doilea termen exprimă dispersia valorilor
estimate in jurul mediei. Este varianța explicată
prin ajustare
• Ajustarea este cu atat mai bună cu cât
coeficientul de determinație = varianță
explicată/varianță totală este mai mare (raportul
este cuprins intre 0 si 1)
58 60
Rezultate
• Coeficientul de Y / X
determinație R2 
Y
• Coeficientul de  Y /r 6.3.1. Căutarea formei relației
nedeterminație K2 
Y

• Raportul de corelație

Y / X   
R  Y Y / r  1 Y / r  1  K 2
Y Y Y
61

Punerea grafică în evidență a


unei relații
• Fiecare individ este reprezentat prin
coordonatele sale (xi,yi) pe o digramă carteziană
numită graficul împrăștierii
6.3.Regresia liniară • Seria observată este prezentata in acest fel
printr-un nor de puncte
• Căutarea formei de relație • Metoda constă in trasarea, cu mâna, a unei
curbe regulate cât mai simple posibil trecând
• Ajustarea liniară
printre puncte, astfel încât diferențele pozitive si
cele negative sa se compenseze

62 64
Semnificația curbei de ajustare Semnificația curbei de ajustare
(1) (3)
• Legătura funcțională • Existența corelației
– Legatura functională reciprocă între Y si X – Este cazul in care se aplica metodele
face ca fiecărei valori xi să îi corespundă o statistice. Există o legătura între cele două
singură valoare și numai una yi și reciproc variabile
– Tratarea acestui tip de relatie tine mai mult de – Cunoașterea valorii luate de o variabila
matematica decat de statistică. Relația este permite estimarea influentei unei variabile
de tip y=f(x) asupra unei alteia ca și ordinul de marime pe
care il va lua cealalta variabila

65 67

Semnificația curbei de ajustare Semnificația curbei de ajustare


(2) (4)
• Absența relației • Norul de puncte ne oferă de asemenea
– Un al doilea caz scapă, prin definiție, analizei informații asupra semnului corelației
statistice atunci când variabilele X si Y sunt – Dacă atât timp cât X creste, creste si Y,
total independente vorbim despre o corelație pozitiva intre X si Y
– In cazul independenței, distribuțiile – Dacă atât timp cât X creste, Y descreste,
condiționale ale fiecărei variabile sunt identice vorbim despre o corelație negativa intre X si Y
cu distribuțiile marginale corespondente

66 68
Metoda celor mai mici pătrate
(1)
• Constă in determinarea parametrilor a si b astfel
incat ecarturile, calculate paralel la axa valorilor
y, sa fie cat mai mici cu putință
6.3.2. Ajustarea liniară • Aceasta inseamnă să minimizam suma
pătratelor ecarturilor
n n
 (y  yˆ )
i 1
i i
2
 min sau [y  (a  b  x )]
i i
2
 min
i 1

71

Metoda celor mai mici pătrate


Ajustarea liniară
(2)
• Sa presupunem ca studiul grafic ne determină • Prin derivare succesivă în raport cu a și b
să demonstrăm că forma curbei de ajustare este găsim
o dreaptă f(x) = yˆ = ax + b
• Incercăm să determinăm a si b printr-o funcție
afină (funcție a cărei reprezentare grafică este o Cov(X,Y)
dreaptă) a=
• Valoarea yi a lui Y pentru valoarea xi este egala V(X)
cu yi=f(xi)+ei unde ei este ecartul intre valoarea si
reala yi si valoarea estimata yˆ i . Problema este
de a determina dreapta care satisface cel mai b = y - ax
bine relația yi=f(xi)
70 72
Metoda celor mai mici pătrate Calitatea dreptelor de ajustare
(3) (2)
• In acelasi mod, putem determina dreapta • Suntem limitati sa estimam coeficientii dreptei de
de regresie a lui X asupra lui Y prin ajustare. Este evident ca estimarea coeficientilor
ecuatia f(y)=a’y+b’ (calculand ecarturile altor curbe, care prin transformare se apropie de
ajustarea liniara, urmeaza aceeasi logica. Este
paralele la axa valorilor x) vorba despre regresiile logaritmice, exponentiale
• Găsim sau polinomiale
Cov(X,Y)
a' = si b'= x - a' y • Suntem, de asemenea, limitati sa lucram cu 2
V(Y)
variabile (X si Y), asadar in spatiul cu doua
dimensiuni. Peste acest nivel vorbim despre
• Notăm a.a’=rxy2
regresia multiplă.
73 75

Calitatea dreptelor de ajustare Utilitatea metodei regresiei


(1) liniare
• Dreptele de ajustare a lui Y pe X si a lui X • O bună ajustare (prin parametrii a si b)
pe Y trec prin punctul mediu al distributiei permite realizarea de previziuni pe baza
• Raspandirea punctelor in jurul dreptelor observatiilor trecute:
dau o fiabilitate mai mica sau mai mare – Prin creșterea lui x cu o unitate, y crește cu
ajustarii. O masura si o analiza a a*(x+1) +b unități
dispersiei punctelor in jurul dreptei va fi de – Daca x ia o anumită valoare x0, atunci
natura sa estimeze precizia estimarii y0 = a*x0 + b

74 76

S-ar putea să vă placă și