Documente Academic
Documente Profesional
Documente Cultură
Pe baza acestui tabel se remarc faptul c 42,78% din indivizii din eantion sunt
brbai iar 57,22% sunt femei. Apoi, tabelul observat arat c 63,83% din indivizii
chestionai au votat la ultimele alegeri, n timp ce 36,17% nu au participat la vot.
Testul 2 se aplic pentru variabilele calitative nominale (care nu implic existena
unei relaii de ordine ntre diversele categorii). Ideea de baz a acestui test este aceea c,
pentru dou evenimente independente A i B, P(AB)=P(A)*P(B).
Astfel, dac sexul i prezena la vot sunt variabile independente, atunci, folosind
procentajele de mai sus, putem calcula valorile ateptate pentru fiecare din cele 4
categorii de indivizi cu drept de vot (brbai care au votat, brbai care n-au votat, femei
care au votat, femei care n-au votat). Practic, pe baza acestor procentaje putem calcula
tabelul de mai jos, care se mai numete i tabelul ateptat (E).
Au votat
N-au votat
Total
Tabelul ateptat conine frecvenele absolute ce s-ar obine n cazul n care sexul
indivizilor ar fi independent de participarea acestora la vot. Tabelul ateptat este ns
diferit de tabelul observat n practic. Dac cele dou tabele sunt diferite n mod
semnificativ, atunci vom spune c, n practic, sexul i prezena la urne sunt variabile
corelate, dependente. Dac ns cele dou tabele nu difer n mod semnificativ, atunci
vom spune c sexul i prezena la urne sunt variabile independente.
Diferena dintre cele dou tabele este calculat ca sum a patru componente,
fiecare dintre acestea cuantificnd diferena dintre celulele corespunztoare. cij=(OijEij)2/Eij, i=1,2, j=1,2, iar Oij reprezint valoarea observat, n timp ce Eij reprezint
valoarea ateptat. Astfel,
c11=(2.792-2.731)2/2.731=1,3625,
c12=(3.591-3.652)2/3.652=1,0189,
c21=(1.486-1.547)2/1.547=2,4053,
c22=(2.131-2.070)2/2.070=1,7976,
iar 2=c11+c12+c21+c22=6,5843.
Acest indicator (statistic) 2 este apoi comparat cu valoarea tabelat pentru
distribuia hi ptrat cu k grade de libertate, unde k=(numrul rndurilor-1)*(numrul
coloanelor-1). n cazul nostru, k=(2-1)*(2-1)=1, i folosim tabelul de la pagina 569 din
Andrei, Stancu i Pele. Pentru k=1, valoarea 5,024 corespunde unei probabiliti de 2,5%,
iar valoarea 6,635 corespunde unei probabiliti de 1%. ntruct valoarea calculat
anterior, 2=6,5843, este situat ntre aceste dou valori tabelate, spunem c
probabilitatea cu care cele dou variabile (sexul individului i prezena la urne) sunt
independente este situat ntre 1% i 2,5%. nseamn c, cu o probabilitate ridicat,
situat ntre 97,5% i 99%, putem afirma c, n regiunea studiat, prezena la urne i
sexul individului sunt corelate. Mai mult, ntruct sexul respondentului este o
caracteristic exogen, fixat pentru individ, putem intui direcia cauzalitii: prezena la
urne depinde de sexul persoanei cu drept de vot, i nu invers (datele de mai sus indic
faptul c brbaii au fost prezeni la vot ntr-o msur mai mare dect femeile).
Exerciiu: Se cunosc urmtoarele date cu privire la incidena a trei tipuri de malarie (A, B
i C) n trei regiuni tropicale (Asia, Africa, America de Sud):
Asia Africa America de Sud Total
Malaria de tip A 31
14
45
90
Malaria de tip B
2
5
53
60
Malaria de tip C 53
45
2
100
Total
86
64
100
250
Folosind testul 2, apreciai dac exist o legtur ntre tipul de malarie i zona
geografic, ignornd faptul c tabelul conine celule cu mai puin de 5 observaii.
Rezolvare: Trebuie s construim tabelul ateptat, dar pentru aceasta avem nevoie de
probabilitile asociate fiecrei categorii (tipuri de malarie i zon geografic).
Din tabelul de mai sus, observm c 34,4% (86/250*100) din cazuri au loc n
Asia, 25,6% au loc n Africa, iar 40% au loc n America de Sud. Apoi, observm c 36%
(90/250*100) dintre cazuri sunt de malarie de tipul A, 24% sunt malarie de tipul B, iar
40% sunt de tipul C.
Presupunnd c tipul de malarie este independent de zona geografic, tabelul
ateptat se determin prin nmulirea procentelor corespunztoare de mai sus i a
numrului total de cazuri observate (250). De exemplu, numrul ateptat de cazuri de
malarie de tipul A n Asia este 0,344*0,36*250=30,96. Apoi, numrul ateptat de cazuri
de malarie de tipul A n Africa este 0,256*0,36*250=23,04. Urmnd acest raionament,
tabelul ateptat este:
Asia Africa America de Sud Total
Malaria de tip A 30,96 23,04
36
90
Malaria de tip B 20,64 15,36
24
60
Malaria de tip C 34,40 25,60
40
100
Total
86
64
100
250
Se calculeaz apoi valorile cij=(Oij-Eij)2/Eij, unde Oij reprezint valoarea observat
iar Eij valoarea ateptat.
c11=(31-30,96)2/30,96=0,00005
c12=(14-23,04)2/23,04=3,546
...
c33=(2-40)2/40=36,1
Statistica 2 se calculeaz ca sum a valorilor cij i reprezint o msur a diferenei
dintre tabelul observat i cel ateptat. n cazul nostru, 2=c11+c12+...+c33=125,52.
Aceast valoare este apoi comparat cu valorile tabelate pentru distribuia 2 cu k grade
de libertate, unde k=(3-1)*(3-1)=4.
n11
n21
n12
n22
nm1 nm2
n.1 n.2
...
... n1k
... n2k
nij
... nmk
... n.k
fy
n1.
n2.
nm.
n..
unde
-
variabila X poate lua k valori distincte (sau este grupat n k intervale) ordonate
cresctor;
- variabila Y poate lua m valori (sau este grupat n m intervale) ordonate cresctor;
- fx i fy reprezint frecvenele condiionate.
Metoda tabelului de corelaie poate fi folosit pentru dou variabile cantitative
discrete, dou variabile cantitative continue, care au fost grupate ntr-un numr relativ
redus de categorii, sau dou variabile calitative ordinale. ntruct este necesar ordonarea
valorilor variabilelor X i Y, aceast metod nu poate fi aplicat pentru variabilele
calitative ordinale.
Un tabel ca cel de mai sus poate indica sensul legturii dintre variabilele X i Y
dar, ntr-o oarecare msur, i intensitatea acesteia. Direcia corelaiei dintre cele dou
variabile este apreciat n funcie de modul de distribuire a frecvenelor nij din tabel fa
de diagonala principal, iar intensitatea legturii poate fi apreciat n funcie de valorile
acestor frecvene absolute. Astfel, repartizarea frecvenelor n apropierea diagonalei
principale indic o legtur direct ntre variabilele X i Y, o repartizare n jurul
diagonalei secundare indic o legtur invers ntre cele dou variabile, n timp ce
repartizarea relativ uniform a frecvenelor n tabel indic lipsa unei corelaii ntre
variabila X i Y.
Exemplu: Vezi punctul 1.5 din modelul de proiect din Statistic, autori E. Lilea, M.
Vtui, D. Boldeanu i Z. Goschin, carte disponibil online n biblioteca digital a ASEului, seciunea Finane.
Metoda grafic
Aceast metod se aplic pentru acelai gen de variabile ca i metoda tabelului
frecvenelor, respectiv pentru variabile calitative ordinale sau pentru variabile cantitative,
care nu trebuie ns a fi neaprat grupate.
Dat fiind c lum n considerare dou serii de date, X i Y, graficul se construiete
pornind de la valorile (xi, yi), care se reprezint n sistemul de axe rectangulare. Graficul
rezultat poart numele de corelogram sau grafic al norului de puncte. Exemplele de
grafice de mai jos sunt construite pentru valori pozitive ale lui X i Y.
n graficul (a) din dreapta punctele
sunt dispersate la ntmplare, fapt pentru
care se mai poate considera c aceste
puncte sunt mprtiate n jurul unei drepte
paralele cu axa OX. Acest grafic arat c
ntre cele dou variabile nu exist o
legtur semnificativ.
Dac ns punctele se concentreaz
n jurul unei anumite linii care nu este
paralel cu axa OX, acest fapt indic
existena unei corelaii ntre cele dou
variabile. Mai precis, concentrarea norului
de puncte n jurul unei drepte cu pant
pozitiv, aa cum este cazul graficului (b)
(a)
de mai jos, indic existena unei legturi
directe ntre variabilele X i Y, n timp ce
concentrarea n jurul unei drepte cu pant negativ, aa cum se ntampl n graficul (c),
indic existena unei legturi inverse.
(b)
(c)
Covariana
Covariana este un indicator al dependenei liniare dintre dou variabile
cantitative, numerice. Pentru dou caracteristici X i Y, formula de calcul a covarianei,
1 n
deseori notat i prin cov(x,y), este s xy = ( xi x)( y i y ), care se mai poate scrie
n i =1
n
1
s xy = xi y i x y. n cazul n care seria de valori pentru cele dou caracteristici este
n i =1
dat sub forma unui tabel de contingen (xi, yj, nij), i,j=1, 2, ..., n, atunci relaia de calcul
1
a covarianei devine cov( x, y ) = ( xi x)( yi y )nij .
n i, j
Definirea covarianei are la baz ncadrarea celor n observaii, a celor n puncte
(xi,yj) din cadrul unei serii bidimensionale, ntr-unul din cele patru cadrane definite de
mediile celor dou variabile. Pentru
simplitatea expunerii, graficul alturat
II
I
ia n considerare dou variabile ce pot
lua doar valori pozitive.
Punctele din cadranele I i III
scot n eviden o legtur direct ntre
cele dou caracteristici, n timp ce
punctele situate n cadranele II i IV
evideniaz o dependen invers. Prin
urmare, dac majoritatea punctelor
sunt dispuse n jurul primei bisectoare
III
IV
(n cadranele I i III), atunci covariana
7
va fi un numr pozitiv, ce va indica existena unei dependene liniare directe, iar dac
punctele sunt ncadrate cu preponderen n cadranele II i IV, valoarea calculat a
covarianei va fi negativ, indicnd existena unei legturi inverse. Dac punctele sunt
distribuite neregulat n cele patru cadrane, atunci valoarea apropiat de zero a covarianei
va indica faptul c cele dou variabile sunt independente.
Proprieti ale covarianei:
Acest indicator nu poate fi utilizat direct pentru aprecierea intensitii dependenei
dintre caracteristici ntruct nu este un indicator normalizat, depinznd de unitatea
de msur a acestora.
Covariana este o msur simetric: cov(x,y)=cov(y,x).
Covariana a dou variabile independente este egal cu zero.
Covariana unei variabile numerice cu o constant este egal cu zero.
Covariana unei variabile numerice cu ea nsi este variana (dispersia) acelei
1 n
variabile: cov( x, x) = s x2 = ( xi x)( xi x) = x2 .
n i =1
Dat fiind formula de calcul a covarianei, este evident c aceasta
pentru o serie bidimensional (format din dou variabile numerice).
Pentru o serie multidimensional, care
cuprinde p>2 variabile, se poate construi matricea
s12 s12 s13
varianelor i covarianelor, notat V. Pe diagonala
s22 s23
s32
va conine variana (dispersia) fiecrei dintre cele p
V =
variabile, n timp ce deasupra diagonalei principale
se calculeaz
.
.
s1 p
s2 p
s3 p
.
s p 1 p
s 2p