Sunteți pe pagina 1din 34

1

CURS 7
ANALIZA STATISTIC A SERIILOR DE
DATE BIVARIATE
STATISTIC
2
Legturi statistice. Definiie, clasificare

Fenomenele i procesele social-economice nu sunt, n general,


fenomene independente, ci ele se manifest ca rezultat al aciunii unor
factori de influen i condiioneaz, la rndul lor, manifestarea altora.

Legturile statistice (stochastice) sunt relaii prin care se realizeaz


procesul de determinare, apariie i dezvoltare a fenomenelor de mas
(X cauza, Y efectul).

Dac dou variabile se modific (n acelai sens ori n sensuri contrare)


se spune despre ele c sunt corelate. Cu toate acestea, descoperirea
unei corelaii ntre dou variabile nu implic, n mod necesar, c
schimbrile unei variabile cauzeaz schimbrile celeilalte variabile.
Este posibil ca o relaie de cauzalitate s existe, dar este posibil ca
ambele variabile s se modifice n pas cu o a treia variabil.
3
Legturi statistice. Definiie, clasificare
Legturi l e stati sti ce se cl asi fi c n funcie de urmtoarele criterii:
a) dup natura variabilelor:
1. legturi ntre variabile numerice (numite corel ai i )
2. legturi ntre variabile nenumerice sau intre o variabil numeric i una
nenumeric (numite asoci eri )
b) dup numrul variabilelor:
1. legturi simple (ntre dou variabile, din care una este cauz
/i ndependent (X) i alta efect /dependent (Y))
2. legturi multiple (ntre trei sau mai multe variabile, din care una este
efect i celelalte sunt variabile cauzale)
4
Legturi statistice. Definiie, clasificare
c) dup direcia sau sensul legturii:
1. legturi directe (modificarea ntr-un sens a unei variabile este nsoit
de modificarea n acelai sens a celeilalte variabile X => Y )
2. legturi inverse (modificarea ntr-un sens a unei variabile este nsoit
de modificarea n sens invers a celeilalte variabile X => Y )
d) Dup forma legturii
1. legturi liniare (care semnific o schimbare uniform a unei variabile
sub influena schimbrii altei/altor variabile, legturi ce pot fi modelate
cu ajutorul unei funcii liniare)
2. legturi neliniare sau curbilinii (legturi ce pot fi modelate cu ajutorul
unor funcii neliniare: parabol de gradul 2, exponenial, polinomial
de ordin superior)
5
Legturi statistice. Definiie, clasificare
e) Dup modul de mani festare n ti mp a l egturi i :
1. l egturi si ncrone, concomitente (modificarea unei variabile are
loc aproximativ o dat cu modificarea alteia/altora)
2. l egturi asi ncrone, cu decalaj (efectul se manifest dup un
interval de timp de la producerea cauzei)
6
Legturi statistice. Metode de analiz
Metodele de analiz a legturilor statistice dintre variabile se
mpart n dou mari categorii:
A. Metode el ementare (si mpl e), care permit stabilirea
existenei, a direciei i a formei legturii
B. Metode compl exe, clasificate n:
1. Metode parametri ce
2. Metode neparametri ce
7
Legturi statistice. Metode elementare de analiz
Metodel e el ementare de analiz a legturilor dintre variabile sunt:
1. Metoda grafi c ( nor de puncte)
2. Metoda seri i l or paral el e (sau interdependente)
3. Metoda grupri i
4. Metoda tabel ul ui de corel ai e
1. Metoda grafi c

Reprezentarea grafic a datelor bivariate se realizeaz prin intermediul


corelogramei ( nor de puncte).

Prin interpretarea modului de amplasare a punctelor n spaiul


determinat de cele dou axe se pot stabili: existena, sensul i forma
legturii.

Este cea mai utilizat metod elementar de analiz a legturii dintre


variabile i precede, de regul, analiza prin metode complexe.
8
Legturi statistice. Metode elementare de analiz

Corelograma.
Tipuri de legturi. a) legtur liniar direct; b) legtur liniar invers; c), d), e) absena legturii; f) legtur liniar determinist
direct; g) legtur liniar determinist invers; h), i) legturi neliniare.

a)
b)
c)
d) e) f)
g)
h)
i)
9
Legturi statistice. Metode elementare de
analiz
Exemplu
Un analist dorete s studieze legtura dintre cheltuielile pentru promovarea
produselor i nivelul vnzrilor realizate. n acest scop el sistematizeaz date
pentru 15 mrfuri alimentare privind cheltuielile luna re cu promovarea
produsului (mii lei) i ncasrile lunare realizate (mii lei)
Nr. crt. Cheltuieli promovare (mi i lei) ncasri lunare (mi i lei)
1 20,0 2190
2 14,8 1900
3 20,5 1990
4 12,5 1210
5 18,0 1500
6 14,3 1980
7 24,9 3340
8 16,5 1880
9 24,3 3100
10 20,2 2130
11 22,0 2880
12 19,0 3120
13 12,3 1860
14 14,0 1730
15 16,7 1740

10
Legturi statistice. Metode elementare de analiz
Pentru a analiza existena, sensul i forma legturii vom construi corelograma:
0
500
1000
1500
2000
2500
3000
3500
4000
0 5 10 15 20 25 30
cheltuieli de promovare
i
n
c
a
s
a
r
i

l
u
n
a
r
e

Se observ c ntre cele dou variabile exist legtur liniar direct .
11
Legturi statistice. Metode elementare de analiz
2. Metoda seri i l or i nterdependente, const n ordonarea cresctoare
sau descresctoare a valorilor variabilei cauzale i compararea modului
de variaie a valorilor celor dou caracteristici, determinndu-se
existena i sensul legturii
3. Metoda grupri i presupune gruparea unitilor statistice dup
valorile variabilei cauz i determinarea unor indicatori derivai pentru
variabila efect (ex. medii condiionate). Prin compararea variaiei celor
dou variabile se identific existena i sensul legturii. Metoda se
utilizeaz n cazul unui numr mare de uniti statistice.
4. Metoda tabel ul ui de corel ai e se aplic n cazul unor grupri
combinate ale datelor statistice dup dou variabile. n funcie de
modul de amplasare a frecvenelor n interiorul tabelului se identific
existena i sensul legturii.
12
Legturi statistice. Metode complexe de analiz
Metode compl exe de analiz
1. Metode parametri ce
a) Metoda regresi ei este utilizat pentru a previziona nivelul unei
variabile efect Y n funcie de valorile uneia sau mai multor variabile
cauz folosind un model matematic numit funcie de regresie, de
forma Y=f(X).
b) Metoda corel ai ei permite msurarea intensitii legturii dintre
dou variabile numerice. Acest lucru se realizeaz cu ajutorul
indicatorilor:

Covari ana

Coefi ci entul de corel ai e l i ni ar si mpl Pearson

Coefi ci entul de determi nai e

Raportul de corel ai e
Metoda regresiei
13
Elaborarea corect a unui model de regresie presupune
parcurgerea urmtoarelor etape:
definirea modelului unifactorial de regresie se face
printr-o relaie matematic n care variabila efect
(dependent/rezultativ), y, depinde de dou categorii de
factori:
un factor principal, determinant, notat cu x;
o variabil rezidual, u, care este constituit din toi
ceilali factori care se consider neeseniali;

Metoda regresiei
14
specificarea modelului unifactorial:
( ) u x f y +
, unde:
y = variabil endogen;
x = variabil exogen.
identificarea modelului unifactorial presupune alegerea unei
funcii matematice care red cel mai bine legtura dintre valorile
variabilei endogene/efect (rezultative) i valorile variabilei
exogene/cauz (factorial). Cel mai adesea identificarea formei
legturii se realizeaz cu ajutorul metodei grafice (corelograma).
n funcie de modul de grupare al punctelor pe grafic putem avea
funcii liniare, exponeniale, polinomiale etc.

Metoda regresiei
15
Forma modelului de regresie liniar unifactorial este:
u bx a y
i i
+ +

unde:
x
i
= valorile variabilei exogene (cauz, factorial) x;
y
i
= valorile variabilei endogene (efect, rezultative) y;
a, b = parametrii ecuaiei de regresie.

Metoda regresiei
16
Grafic, funcia liniar arat astfel:















y
x
i i
bx a y +

Metoda regresiei
17
Parametrul a reprezint valoarea funciei de regresie pentru
x = 0, adic reprezint punctul de intersecie al dreptei de
regresie cu axa OY.
Parametrul b reprezint panta dreptei i ne arat cu cte
uniti de msur se modific variabila rezultativ y dac
variabila factorial se modific cu o unitate de msur.
Din semnul lui b putem deduce direcia legturii dintre cele
dou variabile: dac b > 0 exist legtur direct ntre y i x,
dac b < 0 exist legtur invers ntre y i x.
u reprezint variabila rezidual (aleatoare).

18
Legturi statistice. Metode parametri ce
Covari ana
Plecnd de la reprezentarea grafic prin intermediul diagramei de mprtiere,
putem calcula un indicator care s msoare legtura dintre cele dou variabile.
Pentru punctele de pe grafic, determinate de x
i
i y
i
, putem calcula devierile x
i


x
i x
i

y
, la fel ca i produsele acestor devieri (x
i

x
)(y
i

y
). Acest indicator,
numit covari ana ntre X i Y, ne arat ct de mult se modific mpreun cele
dou variabile:
n
) y - )(yi x - (xi
) y , x cov(
n
1 i


Covariana este pozitiv dac legtura dintre variabile este direct i negativ,
dac legtura dintre variabile este invers. Dac valoarea covarianei este egal
cu zero, acest lucru implic lipsa legturii ntre variabile, sau, cel puin, lipsa
legturii liniare.
19
Legturi statistice. Metode parametri ce
Covariana, fiind un indicator absolut, poate lua valori orict de mari n valoare
absolut, ceea ce o face greu de interpretat i comparat. Covariana indic direcia
legturii, dar nu i intensitatea ei (ct de puternic este legtura dintre variabile).

Coeficientul de corelaie , indicator al corelaiei folosit n cazul legturii
simple liniare , standardizeaz media produselor abaterilor: semnul coeficientului
indic direcia legturii , iar valoarea lui indic intensitatea legturii .
1
]
1

1
]
1

n
i
i
n
i
i
n
i
i i
y x
xy
) y y ( ) x x (
) y y )( x x (
s s
) y , x cov(
r
1
2
1
2
1

sau, prin transformri elementare:
1
1
]
1

,
_

1
1
]
1

,
_





n
i
n
i
i i
n
i
n
i
i i
n
i
n
i
n
i
i i i i
xy
y y n x x n
y x y x n
r
1
2
1
2
1
2
1
2
1 1 1
.
Coeficientul de corelaie
20
n cazul distribuiilor de frecven, formula
coeficientului de corelaie este:
( )( )

r
1 i
y x i
r
1 i
i i i
x / y
n
n y y x x
r


Coeficientul de corelaie
21
Coeficientul de corelaie r
y/x
este cuprins ntre [-1, 1].
Dac: r
y/x
< 0 nseamn c ntre cele dou variabile exist
legtur invers;
r
y/x
> 0 nseamn c ntre cele dou variabile exist
legtur direct;
r
y/x
= 0 ntre cele dou variabile nu exist legtur;
r
y/x
t1 legtura dintre cele dou variabile este foarte
puternic;
r
y/x
= t 1 legtura dintre cele dou variabile este
funcional.

Coeficientul de determinaie
22
Pentru a stabili intensitatea legturii dintre dou
variabile se utilizeaz coeficientul de
determinaie calculat ca ponderea varianei
factoriale n variana total:
( )
( )
[ ] 1 , 0

1
1
2
1
2
2
/

n
i
i
n
i
i
x y
y y
y y
R


Coeficientul de determinaie
23
0 R
2
x / y

dac
y y

i

, adic dac b =
0. n acest caz nu exist legtur ntre y i x.
1 R
2
x / y

dac toate punctele (x, y) se gsesc pe
o dreapt, iar n acest caz erorile sunt nule.
R
2
cu ct este mai apropiat de 1 cu att partea din
varia ia lui y explicat de x este mai mare i deci
intensitatea legturii dintre cele dou variabile mai
mare.
Raportul de corelaie
24
Extrgnd radical din coeficientul de determinaie
se obine raportul de corelaie:

( )
( )


n
i
i
n
i
i i
x y
y y
y y
R
1
2
1
2
/

1


Raportul de corelaie
25
Raportul de corelaie R
y/x
ia valori cuprinse ntre
0 i 1.
Dac: R
y/x
= 0 atunci nu exist legtur ntre
variabile;
R
y/x
= 1 atunci ntre cele dou variabile exist
o legtur funcional (n acest caz toate
punctele se gsesc pe dreapta de regresie);
R
y/x
1 legtura este mai puternic;

26
Metode parametri ce. Exempl u

Exemplu
Pe baza datelor din exemplul anterior i a prelucrrilor din tabel putem determina
coefi cientul de corelaie:
Nr. crt. Chelt. (X) ncas. (Y)
2
x
2
y

xy
1 12,30 1860 151,29 3459600 22878
2 12,50 1210 156,25 1464100 15125
3 14,00 1730 196,00 2992900 24220
4 14,30 1980 204,49 3920400 28314
5 14,80 1900 219,04 3610000 28120
6 16,50 1880 272,25 3534400 31020
7 16,70 1740 278,89 3027600 29058
8 18,00 1500 324,00 2250000 27000
9 19,00 3120 361,00 9734400 59280
10 20,00 2190 400,00 4796100 43800
11 20,20 2130 408,04 4536900 43026
12 20,50 1990 420,25 3960100 40795
13 22,00 2880 484,00 8294400 63360
14 24,30 3100 590,49 9610000 75330
15 24,90 3340 620,01 11155600 83166
T 270,00 32550 5086,00 76346500 614492
( )
796 , 0
32550 76346500 15 )( 270 5086 15
32550 270 614492 15
r
2 2


,
ceea ce ne arat o legtur direct i de intensitate destul de puternic ntre cele
dou variabile .
27
Legturi statistice. Metode neparametri ce
2. Metode neparametri ce
Se utilizeaz pentru msurarea intensitii legturii dintre:
variabile numerice care nu provin din populaie cu distribuie
normal sau aproximativ normal;
variabile numerice, ns datele provin din eantioane de volum
redus (sunt informaii insuficiente pentru a putea presupune
normalitatea distribuiei;
variabile numerice, indiferent de forma legturii (liniar sau
neliniar);
variabile nenumerice sau o variabil numeric i una nenumeric;
Aadar corelaia neparametric (sau l i ber de di stri bui e) se utilizeaz atunci
cnd presupunerile sub care se folosesc metodele parametrice nu sunt
ndeplinite.
28
Legturi statistice. Metode neparametri ce
Asocierea variabilelor alternative
n cazul variabilelor alternative, datele se sistematizeaz ntr -un tabel de forma:
Clasele lui Y
Clasele lui x
Y(y
1
) non Y(y
2
)
Total
0 1 2 3
X(x
1
) n
11
n
12
n
1.
nonX(x
2
) n
21
n
22
n
2.
Total n.1 n.
2
n..
O asociere put ernic ntre variabile se remarc n cazul concentrrii frec venelor pe una
dintre diagonalele tabelului.
Dac toate unitile statis tice sunt dispuse doar pe diagonala principal (n
11
i n
22
), vorbim de
o aso ciere perfect pozitiv
Dac unitile statistice sunt dispuse pe diagonala secundar (n
21
i n
12
), vorbim de o
asociere perfect negativ
Coeficientul de asociere Yule (Q) msoar intensitatea asocierii dintre variabile
alternative i are formula:
12 21 22 11
12 21 22 11
n n n n
n n n n
Q
+

.
Acest indicator ia valori cuprinse ntre 1 i +1;
- el ia valoarea 0 cnd n
11
n
22
= n
21
n
12
, deci exist o independen ntre variabile;
- o valoare apropiat de +1 arat o asociere pozitiv;
- o valoare apropiat de 1 arat o asociere negativ.


29
Legturi statistice. Metode neparametri ce
Exemplu
Despre distribuia turitilor n funcie de naionalitate, n dou hoteluri de
categoriile 3 i 4 stele se cunosc datele:

Categorie confort
Naionalitate
3 stele 4 stele
TOTAL
Romn 802 118 920
Strin 245 497 742
Total 1047 615 1662

865 , 0
118 245 497 802
118 245 497 802
Q
+

,

ceea ce demonstreaz o asociere puternic ntre naionalitatea turitilor i
categoria de confort aleas.

30
Legturi statistice. Metode neparametri ce
Asoci erea variabi l el or cal i tati ve ordinal e. Corel ai a ranguri lor

Variabilele calitative ordinale sunt variabile pentru care pot fi ordonate
variantele de rspuns.
Variabilele social -economice msurate pe o scal ordinal permit acor-
darea unor numere de ordine (ranguri) tuturor unitilor, astfel nct
unitile s poat fi ordonate n funcie de criteriile studiate.
Rangurile sunt de la 1 (unitatea cea mai puin performant, ori cu
valoarea cea mai sczut a varia bilei), pn la n (unitatea cea mai
performant)
Rangurile indic poziiile n serii ale uniti lor, dup variabilele studiate
Dac mai multe uniti statistice au aceeai variant/valoare a unei
variabile, atunci se acord media rangurilor succesive .
Metoda de studiu al corelaiei rangurilor poate fi apli cat i atunci cnd
nu sunt posibile msurtori numerice, dar sunt identi ficabile poziii mai
bune ori mai puin bune
31
Legturi statistice. Metode neparametri ce
Din clasa metodelor de corelaie a rangurilor fac parte:
a) Coeficientul de corelaie a rangurilor Spearman
- se bazea z pe analiza concordanei rangurilor acordate pentru fiecare din
cele n uniti statistice, dup variabila X i dup variabila Y.
- dac exi st o asociere direct perfect, atunci fiecrui rang i, i =
n , 1
dup
variabila X (
i
x
r
) i va corespunde acelai rang i, dup variabila Y(
i
y
r
) i
diferena din rangu rile acordate aceleiai uniti statistice va fi nul: di = r
xi

r
yi
= 0. Dac aso cierea nu este perfect, rangurile nu sunt identice i, atunci,
di = r
xi
r
yi
0.
- Coeficientul de corelaie a rangurilor Spearman (r
s
) se determin:
( ) 1 n n
d 6
1 r
2
2
i
s




unde d
i
= r
xi
r
yi
reprezint diferena dintre rangurile perechi acordate aceleiai
uniti statistice.
- Coeficientul de corelaie a rangurilor Spearman ia valori cuprinse n
intervalul [ -1, 1]. Valori (n modul) apropiate de unitate indic o asociere
puternic ntre variabi le, iar valori apropiate de zero indic o asociere slab
ntre variabile.
32
Legturi statistice. Metode neparametri ce
b) Coeficientul de corelaie a rangurilor Kendall ( r
K
),
care se bazeaz, n fapt, tot pe studiul concordanei
rangurilor, necesit ordonarea cresctor a uni tilor
dup rangurile acordate variabilei X i nscrierea, n pa ralel,
a rangu rilor acor date dup variabila Y. Atunci:
r
K
( ) 1
2

n n
S
,
unde: S = P Q, P = p
i
, Q = q
i

p
i
= numrul rangurilor superioare fiecrui rang r
yi
, acordat
dup varia bila Y, de la el n jos;
q
i
= numrul rangurilor inferioar e fiecrui rang r
yi
, acordat
dup variabila Y, de la el n jos.
Acest indicator ia valori cuprinse n intervalul [ -1, 1], iar
interpretarea este similar cu cea a coeficientului de
corelaie a rangurilor Spearman.
33
Legturi statistice. Metode neparametri ce
Exemplu : Sosirile vizitatorilor strini n Romnia i plecrile de vizitatori romni
n strintate au fost n anul 2000, pentru cteva ri urmtoarele:
ara
Sosiri vizitatori
(mii)
Plecri vizitatori
romni (mii)
R
x
R
y
d
2
Austria 56 103 12 7 25
Belgia 17 14 15 14 1
Danemarca 9 6 18 17,5 0,25
Frana 64 50 11 11 0
Germania 259 178 5 5 0
Grecia 71 51 10 10 0
Italia 151 63 6 8 4
Olanda 48 23 14 13 1
Regatul Unit 54 32 13 12 1
Spania 10 10 17 16 1
Suedia 14 6 16 17,5 0,25
Bulgaria 464 603 2 4 4
Iugoslavia 112 1525 8 2 36
Polonia 105 61 9 9 0
Federaia Rus 124 11 7 15 64
Turcia 263 630 4 3 1
Ucraina 424 111 3 6 9
Ungaria 829 3087 1 1 0
TOTAL - - - - 147,5

8478 , 0
323 18
5 , 147 6
1 r
s



34
Legturi statistice. Metode neparametri ce
Calcul Calculul coeficientului de corelaie Kendall
rx ry p q
1 2 3 4
1 1 17 0
2 4 14 2
3 6 12 3
4 3 13 1
5 5 12 1
6 8 10 2
7 15 3 8
8 2 10 0
9 9 8 1
10 10 7 1
11 11 6 1
12 7 6 0
13 12 5 0
14 13 4 0
15 14 3 0
16 17.5 0 1
17 16 1 0
18 17.5 0 0
TOTAL - 131 21
7190 , 0
17 18
110 2
r
k

.
Cei doi indicatori ne arat o corelaie direct i puternic ntre cele dou
variabile: sosirile vizitatorilor strini n Romnia i plecrile vizitatorilor romni n
strintate.