Sunteți pe pagina 1din 30

1

CURS 10
Prezentarea i caracterizarea
descriptiv a datelor statistice
bivariate

2
Prezentarea datelor bivariate
Seriile statistice de date bivariate sunt formate prin
considerarea concomitent a dou variabile numerice
sau nenumerice (X i Y).





Variabila X Variabila Y
1
x
1
y
2
x
2
y

i
x
i
y
. .
n
x
n
y

3
Prezentarea datelor bivariate
n cazul variabilelor alternative datele se pot prezenta
ntr-un tabel de asociere de forma:

Clasele lui Y
Clasele lui X
Y (y
1
) nonY (y
2
)
TOTAL
X (x
1
) n
11
n
12
n
1
. = n
11
+ n
12

nonX (x
2
) n
21
n
22
n
2
. = n
21
+ n
22

TOTAL n.
1
= n
11
+ n
21
n.
2
= n
12
+ n
22
n.. = n
11
+ n
12
+n
21
+n
22


4
Prezentarea datelor bivariate
Exemplu
Distribuia asigurailor unei companii de asigurri n funcie de
gen i i statutul marital, n anul 2008 a fost:

5
Reprezentarea grafic a datelor bivariate
Descrierea grafic a relaiei dintre dou variabile numerice se
realizeaz prin intermediul corelogramei.
Fiecare unitate statistic este reprezentat printr-un punct de
coordonate xi i yi.
Dac se analizeaz doar existena legturii dintre dou
variabile alegerea poziiei variabilelor pe axe este arbitrar.
Dac analiza legturii dintre variabile are drept scop
evidenierea unei relaii de tip cauz-efect atunci variabila
cosiderat factor cauzal (X) este reprezentat pe abscis, iar
variabila cosiderat factor efect (Y) este reprezentat pe
ordonat.
6
Reprezentarea grafic a datelor bivariate
Un productor din industria uoar dorete s afle dac numrul purtat la
nclminte de femei i nlimea acestora exist o legtur. Pentru aceasta, au fost
nregistrate date referitoare la cele dou variabile pentru un eantion de 10 femei:
nlimea (cm) 168 175 155 180 165 160 185 172 150 145
Nr. purtat la
nclminte
36 38 35 39 36 35 38 39 35 34

33
34
35
36
37
38
39
40
140 150 160 170 180 190
inaltimea
n
r
.
i
n
c
a
l
t
a
m
i
n
t
e

7
Reprezentarea grafic a datelor bivariate
Forma de distribuire a punctelor pe grafic ofera
informaii privind:

a) existena legturii dintre variabile:

a) b) c)
a) existena; b) c) inexistena legturii
8
Reprezentarea grafic a datelor bivariate
b) sensul legturii dintre variabile:


a) legtur direct b) legtur invers

9
Reprezentarea grafic a datelor bivariate
c) forma legturii dintre variabile:
dac punctele se concentreaz n jurul unei drepte oblice atunci legtura
este de tip liniar;
dac diagrama arat puncte adunate n jurul unei curbe legtura dintre
variabile nu este de tip liniar, fiind numit legtur neliniar.

Legtur neliniar
10
Tipuri de legturi statistice
Exist trei scopuri principale, atunci cnd
analizm legturile dintre variabile statistice:
s descriem i s nelegem relaiile de
dependen;
s previzionm o nou valoare a variabilei
efect;
s ajustm i s controlm variabila efect,
prin intervenia asupra variabilei cauz.
11
Tipuri de legturi statistice
Criterii de clasificare a legturilor statistice :
1. n funcie de tipul variabilelor luate n consideraie
i de scala pe care sunt msurate
- asocieri statistice (dou variabile calitative)
- corelaii statistice (dou variabile cantitative)
2. n funcie de sensul legturilor dintre variabile

Legturi directe: X => Y

Legturi inverse: X => Y
12
Tipuri de legturi statistice
3. n funcie de modul de manifestare n timp a legturii
dintre variabile
- legturi sincrone (concomitente), cele n care modificarea
unei variabile are loc aproximativ o dat cu modificarea
alteia/altora)
- legturi asincrone (cu decalaj), cele n care efectul se
manifest dup un interval de timp de la producerea cauzei.

4. Dup forma funciei care descrie relaia dintre variabile
- legturi liniare
- legturi neliniare
13
Metode de analiz a legturilor statistice
1. ANALIZA DE CORELAIE care arat ct de puternic sunt legate
cele dou variabile, ct de mult tind s se modifice mpreun

2. ANALIZA DE REGRESIE care studiaz schimbrile unei variabile
ca o funcie de schimbrile sau nivelurile altei variabile.

n analiza statistic a legturilor dintre variabilele social-economice cu
ajutorul metodelor corelaiei i regresiei, se noteaz cu:
X variabila cauzal, numit i independent sau exogen, explicativ;
Y variabila efect, numit i dependent sau endogen, explicat, care
poate fi cunoscut cnd se cunoate variabila explicativ.
14
ANALIZA DE CORELAIE
n analiza corelaiei, presupunem c cele dou variabile, X i Y, se modific
mpreun, dar nu implic o relaie de tip cauz-efect.
Exist dou categorii de metode de analiz a corelaiei:
A. Metode parametrice
- se folosesc n cazul n care variabilele X i Y sunt numerice cu distribuie normal
- legtura dintre variabilele X i Y este de tip liniar
- utilizeaz parametrii distribuiilor (media i dispersia)

B. Metode neparametrice (libere de distribuie)
se folosesc n cazul n care:
- variabilele X i Y sunt nenumerice
- variabilele X i Y nu au distribuie normal sau aproximativ normal
- datele provin din eantioane de volum redus i nu se poate aprecia forma distribuiei
- legturi liniare i neliniare
15
ANALIZA DE CORELAIE
A. Metode parametrice
1. Covariana
2. Coeficientul de corelaie Pearson

B. Metode neparametrice
3. Coeficientul de asociere Yule (pentru variabile binare)
4. Coeficientul de corelaie al rangurilor Spearman
5. Coeficientul de corelaie al rangurilor Kendall
16
1. COVARIANTA
n analiza corelaiei, presupunem c cele
dou variabile, X i Y, se modific mpreun,
dar nu implic o relaie de tip cauz-efect.
Covariana se determin ca medie a
produselor abaterilor valorilor xi si yi de la
mediile fiecarei variabile
Covariana este un indicator absolut al
legturii dintre variabile i arat ct de mult se
modific mpreun cele dou variabile

17
COVARIANA
Cadranul
x
i
x
y
i
y (x
i
x )(y
i
y )
I
II
III
IV
+


+
+
+


+

+


18
COVARIANA
legtur direct = modificarea n acelai sens
a celor dou variabile, punctele se vor situa
predominant n cadranele I i III (produse
pozitive).
legtur invers= variabilele se modific n
sensuri contrare, punctele se vor situa
predominant (dar nu exclusiv) n cadranele II
i IV (produse negative)
19
COVARIANA




Covariana este pozitiv dac legtura dintre variabile este
direct i negativ, dac legtura dintre variabile este invers.
Dac covariana este zero, acest lucru implic lipsa legturii ntre
variabile, sau, cel puin, lipsa legturii liniare.
Covariana poate lua valori orict de mari, fiind greu de
interpretat i comparat.
Covariana arat sensul legturii, nu i intensitatea ei.

2
1 1 1 1
cov
n
y x y x n
n
) y - )(y x - (x
s (x,y)
n
i
n
i
n
i
i i i i
n
i
i i
xy

= = = =

= = =
20
2. Coeficientul de corelaie

Coeficientul de corelaie Pearson (rxy)

se obine prin standardizarea covarianei (adic mprirea
la produsul abaterilor standard ale variabilelor)
se folosete pentru analiza legturii simple liniare dintre
dou variabile numerice distribuite normal
evalueaz att sensul, ct i intensitatea legturii (semnul
indic direcia, iar valoarea lui indic intensitatea)
21
2. Coeficientul de corelaie
(

= =

= =
=
n
i
i
n
i
i
n
i
i i
y x
xy
y x
xy
y y x x
y y x x
s s
s
s s
y x
r
1
2
1
2
1
) ( ) (
) )( (
) , cov(
(
(

|
.
|

\
|

(
(

|
.
|

\
|

|
.
|

\
|
|
.
|

\
|

=


= = = =
= = =
n
i
n
i
i i
n
i
n
i
i i
n
i
n
i
i
n
i
i i i
xy
y y n x x n
y x y x n
r
1
2
1
2
1
2
1
2
1 1 1
22
2. Coeficientul de corelaie
Coeficientul de corelaie r Interpretare
1 = r

Legtura liniar perfect direct
1 r

Legtur direct puternic
0 0 > r r

Legtur direct slab.
0 = r

Nu exist legtur.
0 0 < r r

Legtur invers, slab.
1 r

Legtur invers puternic
1 = r

Legtura liniar perfect
invers

23
Exemplu
Un productor din industria uoar dorete s afle dac numrul purtat la nclminte
de femei i nlimea acestora exist o legtur. Pentru aceasta, au fost nregistrate
date referitoare la cele dou variabile pentru un eantion de 10 femei

nlimea
(cm)
Nr. purtat la
nclminte
168 36
2,5 -0,5 -1,25
175 38
9,5 1,5 14,25
155 35
-10,5 -1,5 15,75
180 39
14,5 2,5 36,25
165 36
-0,5 -0,5 0,25
160 35
-5,5 -1,5 8,25
185 38
19,5 1,5 29,25
172 39
6,5 2,5 16,25
150 35
-15,5 -1,5 23,25
145 34 -20,5 -2,5 51,25
medie 165,5 36,5 0 0 193,5
abatere
standard
13,041 1,841
) ( x x
i
) ( y y
i
) )( ( y y x x
i i

=

n
i
i i
y y x x
1
) )( (

=

n
i
i
x x
1
) (

=

n
i
i
y y
1
) (
24
Exemplu
35 , 19
10
5 , 193
) )( (
) , cov(
1
= =

=

=
n
y y x x
y x
n
i
i i
806 , 0
841 , 1 * 041 , 13
35 , 19 ) , cov(
= = =
y x
xy
s s
y x
r
25
3. Coeficientul de asociere Yule
Considerm tabelul de asociere:

Clasele lui Y
Clasele lui x
Y(y
1
) non Y(y
2
)
Total
X(x
1
) n
11
n
12
n
1.
nonX(x
2
) n
21
n
22
n
2.
Total n.1 n.
2
n..

- Dac toate unitile statistice sunt dispuse doar pe diagonala principal (n
11
i n
22
),
vorbim de o asociere perfect pozitiv
- Dac unitile statistice sunt dispuse pe diagonala secundar (n
21
i n
12
), vorbim de
o asociere perfect negativ.
- Dac variabilele statistice nu sunt asociate, atunci frecvenele de pe aceeai linie
i frecvenele de pe aceeai coloan se afl n acelai raport:
0 ,
21 12 22 11
22
12
21
11
= = n n n n
n
n
n
n
.
26
3. Coeficientul de asociere Yule
Coeficientulde asociere Yule (Q) msoar intensitatea asocierii dintre variabile
alternative:

12 21 22 11
12 21 22 11
n n n n
n n n n
Q
+

=


- ia valori cuprinse n intervalul
| | 1 , 1
;
- o valoare apropiat de +1 ne arat o asociere pozitiv;
- o valoare apropiat de 1, o asociere negativ.

27
3. Coeficientul de asociere Yule
Despre distribuia turitilor n funcie de naionalitate, n dou
hoteluri de categoriile 3 i 4 stele se cunosc datele:

Categorie confort
Naionalitate
3 stele 4 stele
TOTAL
Romn 802 118 920
Strin 245 497 742
Total 1047 615 1662

865 , 0
118 245 497 802
118 245 497 802
=
+

= Q


Coeficientul indic asociere direct ntre naionalitatea turitilor
i categoria de confort aleas.
28
Corelaia rangurilor
Se utilizeaz pentru msurarea sensului i intensitii legturii dintre:
Dou variabile nenumerice msurate pe scala ordinal
Dou variabile numerice
O variabil numeric i una nenumeric msurat pe scala
ordinal

Presupune acordarea unor numere de ordine, numite ranguri, tuturor unitilor,
astfel nct unitile statistice s poat fi ordonate n funcie de variabilele
studiate
Rangurile sunt de la 1 (unitatea cea mai performant, ori cu valoarea cea mai
mare a variabilei), pn la n (unitatea cea mai puin performant)
Rangurile indic poziiile n serii ale unitilor dup variabilele studiate.
Dac mai multe uniti statistice au aceeai variant/valoare atunci se acord
media rangurilor succesive.
29
5. Coeficientul de corelaie al rangurilor Spearman
( )
| | 1 , 1 ,
1
6
1
2
1
2
e

=

=
S
n
i
i
S
r
n n
d
r
i i
y x i
r r d = reprezint diferenele rangurilor perechi acordate aceleiai uniti statistice.
30
Exemplu
Pentru 6 salariai care au urmat un curs de perfecionare au fost
nregistrate date privind calificativul obinut i productivitatea muncii
(buc/h):

Calificativ
(X)
Productivitatea
(Y)
Rx Ry d
2
=(Rx-Ry)
2
Foarte bine 15 1,5 2 0,25
Bine 16 3,5 1 6,25
Foarte bine 14 1,5 3 2,25
Suficient 13 5 4,5 0,25
Insuficient 12 6 6 0
Bine 13 3,5 4,5 1
r
S
=1-(6*10)/(6*35)=0,71

S-ar putea să vă placă și