Sunteți pe pagina 1din 29

Analiza unei serii statistice bivariate

1. Distribuţie bidimensională cu o variabilă exprimată cantitativ şi


o variabilă exprimată calitativ; Distribuţie marginală; Distribuţie
condiţionată
2. Frecvenţe absolute marginale, parţiale şi condiţionate
3. Frecvenţe relative marginale, parţiale şi condiţionate
4. Medii condiţionate (de grupă), media marginală și media totală
5. Varianțe condiţionate (de grupă), varianța marginală și varianța
totală.

1
Exemplu de distribuție bidimensională
În urma grupării unui număr de 100 de firme mici după variabilele:

X - numărul de salariati, variabilă cantitativă discretă xi  1,6

Y - județul de aparteneta a firmei, variabilă calitativă y j  Bc, Sv, Is


Yj Y
ni.
Bc Bc Sv Sv Is Is
1 1 3 3 6 6 16 1625

2 2 4 4 4 4 12 1220

3 3 3 3 3 3 9 9 15
XiX
4 4 3 3 4 4 7 7 14

5 5 2 2 5 5 6 6 13

6 6 4 4 3 3 6 6 13

n.jn.j 19 19 25 25 56 56100
1. Distribuţie bidimensională
O serie bivariată prezintă variaţia simultană a valorilor
corespunzătoare unităţilor unui colectivități după două variabile de
grupare:
- variabila X: xi , i  1,m si variabila Y: y j , j  1, p
Frecvențele absolute nij poartă denumirea de frecvențe parțiale și
reprezintă numărul unităților statistice care iau simultan valoarea xi
pentru variabila X si valoarea yj pentru variabila Y.
Distribuţia bivariată este reprezentată de mulțimea ordonată a
 
tripletelor: xi , y j , nij , i  1, m, j  1, p
Presupunem că variabila X este o variabilă cantitativă în timp ce
variabila Y este o variabilă calitativă.
3
2. Frecvenţe absolute marginale și
frecvențele absolute parţiale

Frecvențele absolute nij poartă denumirea de frecvențe absolute


parțiale și reprezintă numărul unităților statistice care iau simultan
valoarea xi pentru variabila X si valoarea yj pentru variabila Y sunt.
Frecvențele absolute marginale ni. și n.j reprezintă numărul
unităților statistice care iau valoarea xi respectiv valoarea yj.
Relațiile dintre frecvențele
p absolute m marginale și frecvențele

absolute parțiale: ni  nij și n j   nij .


j 1 i 1

Volumul colectivității, în cazul unei distribuții bidimensionale se


notează cu n.. și se poate
m
calcula
p
printr-una
m p
din relațiile:
n    n i   n  j   n ij
i 1 j1 i 1 j1 4
3. Frecvenţe relative marginale, parţiale şi
condiţionate
n ij
1. Frecvenţe relative parţiale: f ij 
n 
m p m p
n    n i   n  j   n ij
unde i 1 reprezintă
j1 i 1efectivul
j1 total.
n i n j
f i  respectiv f j 
2. Frecvenţe relative marginale n n
p m

unde
ni  , nij n j  nij
reprezintă frecvențele marginale
j 1 i 1
absolute. n ij
fi / j  j  fixa cu i  1, m
3. Frecvenţe relative condiţionate nj
n ij
f j/ i  i - fixa cu j  1, p
n i 5
1. Distribuţia marginală și distribuţia
condiţionată

În cadrul unei distribuţii bivariate se disting:


a) Două distribuţii marginale p
- Distribuţia marginală în X : x i , n i  , i si
 1, m ni  nij
j 1
m
- Distribuţia marginală în Y :  y j , n  j , j si
 1, p n j   nij
b) m+p distribuţii distribuţii condiţionate i 1

- p distribuții condiționate ale variabilei X condiționate de Y = yj:


 
X/Y=yj: x i , n ij , i  1, m si j  fixat cu j  1, p
- m distribuții condiționate ale variabilei Y condiționate de X = xi:
 
Y/X=xi: y j, nij , j  1, p si i  fixata cu i  1,m
6
4. Medii condiţionate (de grupă), media
marginală și media totală
1. Medii condiţionate (medii de grupă) – reprezintă media
variabilei X la nivelul grupei j
m

 x n i ij m
xj  i 1
, cu n j   nij , j  1, p
n j i 1

2. Media generală - reprezintă media variabilei X la nivelul întregii


colectivități observate
x
j
j  n j x
j
j  n j  x n
i j
i ij  x n
i i
x    i
n n n
n
j
j
7
5. Varianțe condiţionate (de grupă), media
varianțelor de grupă și varianța totală
1. Varianţe condiţionate (varianţe de grupă) - măsoară influenţa
factorilor întâmplători, la nivelul fiecărei grupe.
m

 i j  nij
( x  x ) 2

s 2j  ipentru
1 Y  yj
n j

b. Media varianţelor condiționate/ de grupă –măsoară variația


medie a unităților statistice observate, datorată factorilor
întâmplători, față de meidia grupei de care aparțin.
p
2
 s j n j
j 1
s2  p
 n j
j 1 8
c. Varianţa mediilor de grupă/condiționate (varianţa între grupe
sau intergrupe) – măsoară variația medie a unităților statistice
observate, datorată factorilor esențiali, de grupare, față de media
p
generală. 2
( x  x )  n j j
j 1
s x2j  p
 n j
j 1
d. Varianţa generală – măsoară variația medie a unităților statistice
observate, sub influenţa simultană a factorilor aleatori și a factorilor
esențiali, de grupare.m p m

(x  x)
i
2
 ni  i  nij
j
( x
i
 x ) 2

sx2  i
m

n
n i
i 9
Relații între varianțe
Variația datorată influenței simultane a factorilor întâmplători şi
factorilor esenţiali = Variaţia datorată influenței factorilor
întâmplători + Variaţia datorată influenţei factorilor esenţiali

2 2 2
s s s
x xj

10
Gradul de influenţă al celor două categorii de factori se poate
măsura cu ajutorul a doi coeficienţi:
Coeficientul influenţei factorului de grupare ( k1 ):
s X2 j
k1  2 100
s
Coeficientul influenţei factorilor întâmplători sau reziduali (k2):
s2
k 2  2 100
s
k1  k 2  1 sau 100%

Interpretare - cu cât valoarea lui k1 este mai mare, cu atât factorul


esenţial (de grupare) are o influenţă mai importantă asupra variaţiei
variabilei X. 11
Exercițiu: Calculați mediile și varianțele de grup și
totale pentru exemplul dat la curs

Județ de x s 2j n.j
j
proveniență
Bc
Is
Sv
TOTAL - 100

12
Aplicaţii
1. Se cunoaşte distribuţia salariaţilor unor firme după
vâ rstă , pe medii de rezidenţă , prezentată astfel:
Vârsta (ani) Urban Rural
25-35 5 0
35-45 3 2
45-55 2 5
55-65 1 10
Aplicaţii

a) Să se calculeze vâ rsta medie a persoanelor din mediul urban;


b) Să se calculeze vâ rsta medie a persoanelor din mediul rural;
c) Să se calculeze vâ rsta medie a persoanelor din eșantion;
d) Factorul de grupare (mediul de rezidență ) are influență
semnificativă asupra vâ rstei?
Discretizarea variabilei numerice

Vâ rsta Urban Rural yj y1 y2


(ani) xi
30 5 0 x1 n11 n12
40 3 2 x2 n21 n22
50 2 5 x3 n31 n32
60 1 10 x4 n41 n42

m=4: numă rul de valori posibile ale variabilei numerice


(vâ rsta)
p=2: numă rul de valori posibile ale variabilei nenumerice
(mediul de rezidență )
- Construirea celor două distribuţii condiţionate ale variabilei
numerice (vârsta) în funcţie de valorile posibile ale variabilei
nenumerice (zona de rezidență)

Urban xi ni1 Rural xi ni2


j=1 j=2
30 5 30 0
40 3 40 2
50 2 50 5
60 1 60 10
total(n.1) 11 total(n.2) 17
Calculul mediilor condiţionate
(medii pe grupe)

m
 xi  nij m
i 1
xj  , cu n j   nij , j  1, p
n j i 1

: vâ rsta medie a persoanelor din mediul urban


: vâ rsta medie a persoanelor din mediul rural
Calculul mediilor condiţionate (medii pe grupe)
4

∑ 𝑥 1 ∙ 𝑛𝑖 1 𝑥 1 ∙ 𝑛1 1 +𝑥 2 ∙ 𝑛 21 + 𝑥 3 ∙ 𝑛3 1 +𝑥 4 ∙ 𝑛4 1
𝑖 =1
𝑥1 = ⟹ 𝑥 1=
𝑛.1 𝑛.1

Urban 30 ∙ 5+ 4 0 ∙ 3+5 0 ∙ 2+6 0 ∙ 1 150+120 +100+60


⟹ 𝑥 1= ⟹ 𝑥1 =
j=1 11 11
430
⟹ 𝑥 1= ⟹ 𝑥1 =3 9,09
11

Interpretare: Persoanele din mediul urban au, în medie, vâ rsta de 39,09 ani

∑ 𝑥 1 ∙ 𝑛𝑖 2 𝑥1 ∙ 𝑛 2+ 𝑥 2 ∙ 𝑛22 + 𝑥3 ∙ 𝑛32 + 𝑥 4 ∙ 𝑛42


𝑖 =1
𝑥2 = ⟹ 𝑥 2=
𝑛.2 𝑛. 2

Rural 30 ∙ 0+ 4 0∙ 2+5 0 ∙ 5+6 0 ∙1 0 0+ 80+250+600


⟹ 𝑥 2= ⟹ 𝑥 2=
j=2 17 17
930
⟹ 𝑥 2= ⟹ 𝑥2 =54,70
17

Interpretare: Persoanele din mediul rural au, în medie, vâ rsta de 54,70 ani
Calculul mediilor pe total

p
 x j  n j
j 1
x p
.
 n j
j 1
2
 x j  n j
j 1 x1  n1  x2  n 2
x 2

n1  n2
 n j
j 1

48,57

Interpretare: Persoanele din eșantion au, în medie,


vâ rsta de 48,57 ani 19
Calculul varianţelor condiţionate
(varianţe de grupă)
- mă soară variaţia în cadrul unei grupe (intragrupă ).

 i j  nij
( x  x ) 2

s 2j  i 1
n j

s12: Varianța persoanelor din mediul urban;

s22: Varianța persoanelor din mediul rural.


Calculul varianţelor condiţionate (varianţe de grupă)
măsoară diferențele dintre indivizii unei grupe (intragrupă)

Urban
j=1
=99,17

Rural
j=2
=48,44
Calculul mediei varianţelor de grupă
măsoară, la nivel general, diferențele dintre indivizii de același fel (din aceeași grupă)

p
2
 s j  n j
j 1
s2  p
 n j
j 1

2
2
 s j  n j
j 1 s12  n1  s 22  n 2
s2  2

n1  n 2
 n j
j 1
Calculul varianţei între grupe (varianţa intergrupe)
măsoară, la nivel general, diferențele dintre indivizii din grupe diferite

p
2
 ( x j  x )  n j
j 1
s x2 j  p
 n j
j 1
2
2
 ( x j  x )  n j
j 1 ( x1  x ) 2  n1  ( x2  x ) 2  n2
s x2 j  2

n1  n2
 n j
j 1

58,12
Calculul varianţei generale
măsură generală a diferențelor dintre indivizi

2 2 2
s  s s
X xj

126,48
Măsurarea gradului de influenţă a celor două categorii de factori
Coeficientul influenţei sx2j
k1  2 100
factorului de grupare sX
45,95%

s2
Coeficientul influenţei k2  2 100
sX
factorilor întâ mplă tori ,05%

Dacă k1<k2, atunci factorul de grupare nu are o influență semnificativă asupra


variației variabilei numerice; în acest caz, varianţa din interiorul grupelor este
mai mare decâ t varianţa dintre grupe.
Există diferenţe mai mari de comportament între unită țile statistice din
aceeaşi grupă decâ t între unită țile statistice din grupuri diferite.
Prin urmare, nu putem spune că gruparea salariaților în funcţie de mediul de
rezidență a dus la o omogenizare privind vâ rsta.
Rezultatul este că , cel mai probabil, mediul de rezidență nu influenţează
variaţia vâ rstei.
Aplicaţii
1. 2. Se cunoaşte distribuţia salariaţilor unei firme după
salariu, pe sexe, prezentată astfel:

Salariu (sute lei) Masculin Feminin


8 2 0
9 1 0
14 0 2
15 0 1
16 0 2
25 2 0
Aplicaţii
Se cere să se calculeze:
Ponderea persoanelor de sex feminin. Ce tip de frecvență este
aceasta?
Ponderea persoanelor care au un salariu de 14 sute lei. Ce tip
de frecvență este aceasta?
Salariul mediu al persoanelor de sex masculin și feminin.

Salariul mediu pe total eșantion.


Coeficientul k1.
Aplicaţii
2
3. Pentru o firmă se cunosc x  10 mil.lei, s x  4 şi datele de
mai jos:
Domeniul de activitate n.j
s 2j
A 1,2 20
B 0,9 30
C 1,4 50
TOTAL - 100

Să se afle varianţa care cuantifică diferențele dintre


domeniile de activitate.
Aplicaţii

4. Pentru o firmă se cunosc: s = 4 milioane lei şi datele


x

prezentate în tabelul de mai jos:


Domeniul de activitate n.j
xj
A 12 20

B 9 30

C 14 50

TOTAL - 100

Să se afle coeficientul k .
2

S-ar putea să vă placă și