Sunteți pe pagina 1din 22

Modulul 2B Analiza datelor

 Tipuri de date

Variabilele cu care se lucrează în domeniul statisticii sunt


variabile aleatoare (va), iar datele înregistrate în mod uzual
sunt măsurătorile acestor variabile din eşantioane.

Există două tipuri principale de variabile aleatoare:


calitative şi cantitative care determină două tipuri de date.
O variabilă aleatoare calitativă generează răspunsuri de tip
categorial (dihotomice sau cu mai multe alternative), iar o
variabilă aleatoare cantitativă generează răspunsuri
numerice (discrete sau continue).

Exemple:
va calitative: cele dihotomice pot avea două alternative de
tip Da/Nu sau Decedat/In viaţă. Variabilele aleatoare
calitative cu mai multe alternative pot descrie de exemplu
distribuţia bolnavilor după grupa de sânge (A, B, AB, O) sau
pot lua următoarele valori pentru întrebarea “Cât de bine ştiţi
limba engleză?”: “deloc”, “puţin”, “suficient”, “fluent”.

va cantitative discrete: apar în mod normal atunci când


măsurătorile sunt numere întregi. Exemple de va cantitative
discrete pot fi: numărul de accidente suferite de o persoana
în decurs de 2 ani (un număr cuprins probabil între 0 şi 8),
sau numărul de îngheţate consumate de o persoană într-o
săptămână (cuprins probabil între 0 şi 10).

va cantitative continue: fiecare măsurătoare se încadrează


într-o scală de numere continue (reale). Exemple de va
cantitative continue sunt: tensiunea arterială, înălţime,

1
greutate, cantitatea în grame a îngheţatei consumate de o
persoană într-o săptămână.

 Reprezentarea datelor: Distribuţii de frecvenţă

Datele (măsurate pe populaţia generală sau pe eşantion)


sunt de obicei organizate în distribuţii de frecvenţă, pentru
că reprezintă formatul cel mai convenabil de sinteză şi
prezentare.

In distribuţiile de frecvenţă se prezintă descrierea calitativă


sau cantitativă a observaţiilor (măsurătorilor) împreună cu
numărul de apariţii ale măsurătorii respective (frecvenţă
absolută). Se utilizează de obicei şi frecvenţa relativă
obţinută prin împărţirea frecvenţei absolute la numărul total
al observaţiilor. Aşadar, suma tuturor frecvenţelor relative
este 1. Dacă se înmulţeşte frecvenţa relativă cu 100, se
obţine frecvenţa procentuală.
Reguli generale de urmat în construirea intervalelor pentru
va cantitative:
- numărul de clase este bine să fie mai mic de 15;
- limitele fiecărei clase trebuie să se potrivească cu gradul
de acurateţe al datelor măsurate;
-intervalele de lungime egală sunt mai convenabile şi
facilitează procesările ulterioare;
- clasele trebuie să fie mutual exclusive (să nu se
suprapună);
- este bine să se calcule mijlocul fiecărei clase.

Exemple de distribuţii de frecvenţă:

1. Un student a obţinut următoarele note la 10 teste:

6 7 6 8 5

2
7 6 9 10 6

Distrubuţia de frecvenţă pentru aceste date este:

Nota Frecvenţa Frecvenţa relativă


absolută
5 1 0.1
6 4 0.4
7 2 0.2
8 1 0.1
9 1 0.1
10 1 0.1
Total 10 1.0

2. 20 de cutii cu fructe au următoarele greutăţi nete în


hectograme per cutie:

19.7 19.9 20.2 19.9 20.0


20.6 19.3 20.4 19.9 20.3
20.1 19.5 20.9 20.3 20.8
19.9 20.0 20.6 19.9 19.8

Greutate Valoare Frecvenţa Frecvenţa Frecvenţa


centrală absolută relativă cumulată
19.2-19.4 19.3 1 0.05 1
19.5-19.7 19.6 2 0.10 3
19.8-20.0 19.9 8 0.40 11
20.1-20.3 20.2 4 0.20 15
20.4-20.6 20.5 3 0.15 18
20.7-20.9 20.8 2 0.10 20
Total 20 1.00

 Date cantitative: valori caracteristice


3
Orice serie de date cantitative se poate descrie prin trei
elemente caracteristice:
1.indicatorii tendinţei centrale
2.împrăştiere sau dispersie

Dacă aceste elemente sunt obţinute dintr-un studiu


populaţional, ele se numesc parametri, dacă sunt obţinute
dintr-un eşantion se numesc indicatori statistici.

Indicatorii tendinţei centrale

Aceşti indicatori pun în evidenţă faptul că toate datele


măsurate tind să se grupeze în jurul unei valori centrale.
Valoarea centrală caracterizează întregul domeniu al datelor
(val.min.-val.max.). Dacă privim ambele exemple anterioare,
se poate observa că valorile tind să se grupeze în jurul unei
valori care are cea mai mare frecvenţă de apariţie.

Cele mai utilizate măsurători ale tendinţei centrale sunt:


media aritmetică
mediana
modul
cuantilele

Media aritmetică

Definiţie: pentru o distribuţie de frecvenţa a unor date


cantitative, media aritmetică este valoarea care, dacă s-ar
substitui fiecărei valori a distribuţiei, nu ar schimba suma
totală.

Dacă madia aritmetică se calculează pentru o populaţie


(este un parametru), se notează cu caracterul grecesc μ;

4
dacă se calculează pentru un eşantion (indicator statistic)
se notează cu simbolul X .

Media aritmetică se calculează în două moduri:


- media aritmetică simplă, pentru distribuţiile de frecvenţă
cu frecvenţe unitare.
N
1 1 n
formula de calcul: μ= N
 Xi
i 1
sau X = n  Xi
i 1

unde N=numărul de observaţii populaţionale


n=numărul de observaţii din eşantion
X=valoarea variabilei aleatoare măsurate

- media aritmetică ponderată, pentru distribuţiile de


frecvenţă cu frecvenţe neunitare.
N n

 Xifi  Xifi
formula de calcul: μ= N
i 1
sau X = i 1
n

 fi  N
i 1
 fi  n
i 1

unde N=numărul de observaţii populaţionale


n=numărul de observaţii din eşantion
Xi=valoarea variabilei aleatoare măsurate, cu
frecvenţa fi

Exemple:
a) Fie Xi o va într-o populaţie, cu următoarele valori:
2 5 1 4 3
Media aritmetică va fi:
μ = 1/5(2+5+1+4+3) = 15/5 = 3

5
Dacă înlocuim valoarea fiecărei variabile Xi cu valoarea
mediei aritmetice, obţinem: 3+3+3+3+3=15, ceea ce
corespunde definiţiei mediei.

b) Dacă ne referim la distribuţia de frecvenţă din exemplul


1, se poate calcula media ponderată:
μ = 1/10[(5x1)+(6x4)+...+(10x1)] = 70/10 = 7

c)Pentru a calcula media ponderată pentru distribuţia de


frecvenţă din exemplul 2, se va lua în considerare
valoarea centrală a fiecărei clase, care reprezintă fiecare
clasă.
X = 1/20[(19.3x1)+...+(20.8x2)] = 401.6/20 = 20.08

Observând diferenţele (deviaţiile) între fiecare valoare


observată şi medie, cu cât |Xi - X | se apropie de 0, cu atât
media se apropie mai mult de valorile observate, deci
caracterizează bine întreaga populaţie sau eşantion.

Dacă luăm în considerare următoarele exmple:


Exemplul 1A:
Variabila Observaţia Media Deviaţia
aritmetică
X1 2.0 2.5 -0.5
X2 2.5 2.5 0
X3 1.5 2.5 -1.0
X4 3.5 2.5 1.0
X5 4.5 2.5 2.0
X6 1.0 2.5 -1.5
Σ 16.0 16.0 0.0
Exemplul 1B:
Variabila Observaţia Media Deviaţia
aritmetică
X1 2.0 1000.0 -998.0

6
X2 3.0 1000.0 -997.0
X3 2995.0 1000.0 1995.0
Σ 3000.0 3000.0 0.0

In exemplul 1A, media easte foarte apropiată de valorile


observate; în următorul exemplu valoarea mediei este mult
efectată de a treia valoare observată şi nu mai
caracterizează bine întregul eşantion.
Dar, din ambele exemple se poate observa că:

 ( Xi  X )  0
i

Aceasta reprezintă o caracteristică importantă a mediei.


O altă caracteristică importantă a mediei este că:

 ( Xi  X )
i
2
0

Modul

Definiţie: pentru o distribuţie de frecvenţă dată, modul


reprezintă valoarea observată care apare de cele mai multe
ori (frecvenţa de apariţie maximă).

Pentru va discrtete, modul poate fi obţinut direct din


distribuţia de frecvenţă.

Pentru va continue şi reprezentate prin clase, modul poate fi


calculat din formula:

d1
mod = L d 1  d2
c

undeL=valoarea minimă a clasei modale


d1=diferenţa dintre frecvenţa clasei modale şi frecvenţa
clasei precedente

7
d2= diferenţa dintre frecvenţa clasei modale şi
frecvenţa clasei următoare
c=lungimea claselor

Exemple:
pentru datele din exemplul 1:
mod=6

pentru datele din exemplul 2:


6
mod=19.8 6  4 0.3 = 19.98
Modul este mai puţin utilizat în prelucrările statistice decât
media. Un dezavantaj al modului este acela că pentru un
număr mic de observaţii s-ar putea să nu existe mod. Există
distribuţii bi sau multi-modale.

Mediana

Definiţie: pentru o distribuţie de frecvenţă ordonată (de la


cea mai mică valoare la cea mai mare), media reprezintă
valoarea de la mijlocul distribuţiei.

Pentru va discrete, media este valoarea de pe locul (N+1)/2.

Pentru date grupate:


N /2F
mediana = L+ fm c

undeL=cea mai mică valoare din clasa medianei


N=număr de observaţii
F=suma frecvenţelor până la clasa medianei (exclusiv)
fm=frecvenţa clasei mediane

Exemple:

8
pentru datele din exemplul 1, după ordonarea datelor:
mediana=(6+7)/2=6.5, pentru că (10+1)/2=5.5

pentru datele din exemplul 2:


20 / 2  3
mediana=19.8+ 8 0.3=20.06

Principalul avantaj al mediei este acela că nu este afectată


de valorile extreme.
Deşi în ultima vreme este din ce în ce mai folosită în
prelucrările statistice, totuşi este mai puţin utilizată decât
media.

Cuantilele

Plecând de la mediană, se poate defini valoarea care este


mediana valorilor de la stânga medianei; această valoare
reprezintă 25% (1/4) din distribuţie şi se numeşte cuartilă. In
orice distribuţie există 3 cuartile: prima relativă la 25% din
valori, a doua care este de fapt mediana şi reprezintă 50%
din valori, a treia care corespunde la 75% din valori.

In acelaşi mod se pot defini decilele ca valoarea sub care


sunt situate 10% din observaţii.

Imprăştierea sau dispersia

Când datele sunt foarte diferite, media nu caracterizează


bine distribuţia, pentru că două seturi de date pot produce
aceeaşi medie dar pot fi foarte diferite în ceea ce priveşte
variabilitatea.

9
Trebuie construite nişte măsurători care să arate cât de mult
diferă observaţiile de o valoare de referinţă (de obicei media
sau mediana).

Dispersia faţă de medie

Luând în considerare deviaţiile faţă de medie, deviaţiile


individuale arată dacă observaţiile sunt similare sau nu.

Se utilizează ca măsură a variaţiei, media deviaţiilor la


pătrat; această măsură se numeşte varianţă şi se notează
cu σ2 pentru populaţie (N observaţii) şi cu s2 pentru
eşantioane (n observaţii).
N
1 1 n
2
σ = N
 ( X  )
1
i
2
sau s 2
= n  ( Xi  X ) 2
1

In practică, varianţa se calculează prin împărţirea la (n-1) în


loc de n.

Dacă va este reprezentată într-o distribuţie de frecvenţă,


cele 2 formule de mai sus devin:
N
1 1 n
2
σ = N
 fi ( Xi   ) 2 sau s 2
= n  fi ( Xi  X ) 2
1 1

Rădăcina pătrată a varianţei se numeşte deviaţie standard,


şi are formula:

N
1 1 n
σ= N
 f ( X  )
1
i i
2
sau s=  fi ( Xi  X ) 2
n 1

O altă măsură a variaţiei este coeficientul de variaţie,


obţinută prin împărţirea deviaţiei standard la medie:

10
 s
V=  (pentru populaţie) sau v= X (pentru eşantion)

Calculându-se media şi varianţa, se poate şti dacă media


este sau nu relevantă.

Exemple:

utilizând datele din exemplul 1:


6 7 6 8 5
7 6 9 10 6

μ=7, deviaţiile şi pătratul deviaţiilor sunt:

-1 0 -1 1 -2
0 -1 2 3 -1

şi
1 0 1 1 4
0 1 4 9 1

cu un total de 22, deci:

σ2=22/10=2.2 σ= 2.2 =1.48

V=1.48/7=0.21 21% faţă de medie

utilizând datele grupate din exemplul 2:

Clasa Valoar Frecve Media Deviaţi Pătrat Frecv.


ea nţa a faţă ul x
central absolut de deviaţi pătrat
ă ă medie ei ul
11
deviaţi
ei
19.2- 19.3 1 20.08 -0.78 0.6084 0.6084
19.4
19.5- 19.6 2 20.08 -0.48 0.2304 0.4608
19.7
19.8- 19.9 8 20.08 -0.18 0.0324 0.2592
20.0
20.1- 20.2 4 20.08 0.12 0.0144 0.0576
20.3
20.4- 20.5 3 20.08 0.42 0.1764 0.5292
20.6
20.7- 20.8 2 20.08 0.72 0.5184 1.0368
20.9
Σ 20 2.9520

deci:

s2= 2.9520/19=0.1554
s= 0..1554 = 0.3924
v=0.3924/20.08=0.0196 sau ≈ 2%

Modulul 2C Distribuţiile principale

S-a dovedit ştinnţific că teoria probabilităţilor stă la baza


metodelor statistice de inferenţă.

Inferenţa statistică este procesul prin care se pot trage


concluzii referitoare la o populaţie din valorile măsurate într-
un eşantion (cu alte cuvinte generalizarea rezultatelor
obţinute pe eşantion la întraga populaţie).

12
Distribuţia normală (gaussiană)

Este distribuţia cea mai importantă şi mai utilizată în


statistică. Este foarte importantă deoarece multe distribuţii
ale măsurătorilor practice în populaţii aproximează curba
normală (clopotul lui Gauss). Mai important poate, în
tehnicile de obţinere a inferenţei statistice, distribuţia
normală ocupă un loc central.
Chiar dacă distribuţia valorilor dintr-un eşantion nu are chiar
forma curbei normale, în anumite condiţii generale
distribuţia normală stă la baza inferenţei statistice.

Distribuţia normală este o distribuţie teoretică de


probabilităţi şi are ecuaţia generală:
1 x 2
2 1 [ ]
f (X) = N(x;µx;σ x) = x 2
e2 

unde: µx şi σx sunt valorile aşteptate ale mediei şi abaterii


standard pentru va X.
X este o va continuă cu valori între -X

Reprezentarea grafică a acestei distrubuţii este:

Caracteristicile principale ale acestei distribuţii sunt:


13
1.Distribuţia normală este unimodală, cu o formă de
clopot, şi simetrică după µx.
2.Principalii parametri ai distribuţiei normale sunt: media (µx)
şi abaterea standard (σx). Schimbând valoarea lui µx , se
deplasează întreaga distribuţie de-a lungul axei Ox.
Modificând valoarea lui σx, se modifică gradul de
împrăştiere al distribuţiei. Cu cât σx este mai mic, cu atât
curba se strânge mai mult în jurul mediei. σx furnizează
mai multe informaţii decât µx.
3.Curba este definită între - şi +.
4.Curba are două puncte de inflexiune, corespunzând
valorilor:
x=µ2σ
Dacă o va are o distribuţie normală, probabilitatea ca x să
aibă o valoare în intervalul (a,b) este:
b

prob (aX=xb) =  f ( x ) dx =
a

unde f(x) este funcţia definită pentru distribuţia normală.

Din fericire, se poate calcula această probabilitate destul de


simplu. Pentru acest scop, se defineşte distribuţia normală
standard, care are media 0 şi abaterea standard 1:
1 2
1 z
f(Z) = 2
e2 = N(Z;0;1)

Se poate obţine în orice situaţie distribuţia normală


standard, utilizând următoarea transformare:

( X  )
Z= 

14
Pentru distribuţia normală standard există tabele de calcul al
integralei de mai sus. Dacă se obţine valoarea lui Z, se
poate calcula apoi valoarea lui X.

Exemplu:
Presupunând că media şi abaterea standard pentru o
distribuţie normală sunt µ şi σ, să se calculeze valorile astfel
încât prob (x1Xx2)=0.95
Deci, trebuie să găsim valorile lui x1 şi x2 cunoscând
probabilitatea. Deoarece distribuţia normală standard este
simetrică faţă de 0, se vor lua în considerare doar valorile
pozitive; se va împărţi deci probabilitatea la 2
(0.95/2=0.475). Din tabele se va găsi valoarea cea mai
apropiată sau egală cu 0.475. Această valoare este 1.96 şi
va constitui valoarea din dreapta a intervalului:
0Z1.96
Prin simetrie, celălalt capăt al intervalului va avea valoarea
-1.96.
Deci:
prob (-1.96Z1.96)=0.95
Se poate obţine uşor valoarea lui X:
x1=µ-1.96σ
x2=µ+1.96σ
Distribuţia χ2

Presupunem că X1,X2,......,X n sunt n variabile aleatoare


normale şi independente., cu aceeaşi medie µ şi aceeaşi
varianţă σ2. Valorile standard corespunzătoare sunt
U1,U2,......,U n. Se poate defini acum o nouă variabilă:

Yn=ΣYi=ΣUi2 i=1,2,.....,n

15
Această variabilă se numeşte χ2 şi are n grade de libertate,
unde n este numărul de variabile independente din formula
de mai sus.
Cu cât n este mai mare, distribuţia χ2 tinde să se apropie de
distribuţia normală.

Distribuţia t-Student

Este o altă distribuţie importantă care derivă din distribuţia


normală şi se defineşte ca raportul între o variabilă standard
normală şi rădăcina pătrată a unei valori independente χ2
împărţită la numărul de grade de libertate.

Fiind dată o variabilă normală X cu gradele de libertate


N(μ,σ) şi variabila χ2n, independente între ele, se poate
defini variabila t-Student astfel:
( X  ) / 
t= 2 / n

şi cu funcţia de densitate asociată.

Variabila t ia valori între - şi +.


Distribuţia t este simetrică faţă de 0 şi este mai împrăştiată
decât distribuţia N(0,1).
Totuşi, cu cât numărul de grade de libertate este mai mare
cu atât distribuţia t tinde către distribuţia N(0,1). Deci pentru
n cât mai mare, se pot utiliza tabelele pentru distribuţia
normală standard.

Testele de comparaţie

16
Demersul necesar construirii unui criteriu de semnificaţie
porneşte de la stabilirea ipotezei nule, H0, care postulează
faptul că nu există nici o diferenţă semnificativă între
indicatorii obţinuţi din eşantion şi cei ai populaţiei.
Aceşti indicatori sunt de regulă media (sau proporţia),
abaterea standard şi efectivul.
Pentru verificarea ipotezei statistice se utilizează diferite
teste de semnificaţie statistică, constând din calcularea unei
statistici (tα, uα, z, etc). şi din stabilirea de reguli precise de
acceptare sau de respingere a ipotezei nule, H0, cu o
anumită probabilitate.
Pentru un anumit test statistic, valoarea probabilităţii sub
care se respinge ipoteza nulă se numeşte prag de
semnificaţie şi este ales de cercetător. La testarea
semnificaţiei se pot comite două tipuri de erori:
 eroarea de speţa I-a sau α, adică decizia de a respinge
ipoteza nulă când aceasta este adevărată
 eroarea de speţa a II-a sau β, adică decizia de a aceepta
în mod eronat ipoteza nulă când aceasta este falsă

S-a demonstrat că probabilitatea de a comite o eroare de


speţa II-a descreşte odată cu creşterea mărimii
eşantionului.
Acceptarea ipotezei nule presupune că diferenţa testată
este nesemnificativă, iar respingerea ei că diferenţa este
semnificativă.

Testul t-Student

Se utilizează pentru compararea mediilor a două eşantioane


independente. Cu alte cuvinte, se doreşte să se aprecieze
dacă diferenţa între mediile obţinute din două eşantioane
este semnificativă statistic sau se datorează întâmplării.

17
Pentru folosirea testului Student se impune o restricţie
privind varianţa celor două eşantioane, cerându-se ca
diferenţa dintre ele să nu depăşească un anumit raport. In
acest scop se aplică testul F, prin care raportul dintre
valoarea cea mai mare şî cea mai mică de la cele două
varianţe se compară cu o valoare F, dependentă de
mărimea riscului asumat şi de gradele de libertate din
fiecare eşantion.

In cazul eşantioanelor cu cel puţin 50 de observaţii,


compararea valorilor calculate se face cu un parametru
tabelar u.
Condiţii: mediile cunoscute, dispersiile cunoscute. Ipoteza
nulă: x = x . Pentru luarea deciziei trebuie testată
1 2

inegalitatea:

| x1  x 2|
 u
s12 s2 2

n1  1 n 2  1

unde: x şi x - mediile în primul şi respectiv al doilea


1 2

eşantion
s12 şi s22 - varianţele în primul şi respectiv al doilea
eşantion
n1 şi n2 - mărimea celor două eşantioane (număr de
observaţii)
uα - valoarea tabelară, pentru distribuţia normală,
corespunzătoare unui risc α

Dacă inegalitatea este adevărată, diferenţa între medii este


semnificativă.

Exemplu: Se testează diferenţa constatată între greutatea la


naştere pe două eşantioane de 101 copii, unul de băieţi şi

18
unul de fete (3000g şi respectiv 2950g, o varianţă de 10000
g2). Aplicând formula de mai sus, se obţine:

|3000  2950|
 3.536
10000 10000

100 100

Se constată că valoarea calculată (3.536) este mai mare


decât valoarea teoretică din tabel uα=0.05=1.96, deci se poate
afirma că diferenţa este semnificativă statistic. Rezultă că,
pentru o probabilitate de 95% (în 95 de cazuri din 100),
băieţii sunt mai grei la naştere decât fetele, nu numai în
cazul celor două eşantioane ci în general în populaţia din
care provin loturile.

Testul Χ2

Acest test se utilizează pentru compararea caracteristicilor


calitative. Se poate astfel determina dacă două caracteristici
sunt realmente asociate într-o populaţie sau dacă relaţia
observată este doar rolul hazardului.
Acest test se aplică în două situaţii diferite: pentru tabele de
contingenţa de tip 2x2 şi pentru tabele de contingenţă cu
mai mult de două rânduri sau două coloane.

1. Compararea unor repartiţii observate şi încadrate în


tabele 2x2

Forma generală a unui tabel de contingenţă 2x2 este:


Atribut 2
Atribut I Varianta I I1 Varianta I I2 Total
Varianta I1 a b a+b
Varianta I2 c d c+d
Total a+c b+d n
19
In acest caz, valoarea lui Χ2 poate fi calculată cu formula:

2 n ( ad  bc) 2
Χ = ( a  b )(c  d )(a  c)(b  d )

Dacă valoarea calculată a lui Χ2 > Χ2α,ν (tabelată, unde α de


obicei este 0.05, iar ν reprezintă numărul de grade de
libertate şi în acest caz ν=1), atunci diferenţa este
semnificativă, respingându-se ipoteza nulă. Ipoteza nulă
compară varianta I1 cu varianta I2 în ceea ce priveşte
rezultatele obţinute, măsurate prin atributul 2.
Exemplu: Se doreşte să se demonstreze că obezitatea este
un factor de risc în apariţia diabetului. S-au obţinut
următoarele rezultate:

Diabet
Obezitate Prezent Absent Total
Prezentă 40 30 70
Absentă 20 10 30
Total 60 40 100

Aplicând formula de mai sus, rezultă valoarea calculată a lui


Χ2:

100( 40x10  30x 20) 2


Χ2 = 70x 30x 60x 40
= 0.79

Χ2α=0.05,ν=1=3.841

Deci pentru că 0.79<3.841, rezultă că apariţia diabetului nu


este influenţată de obezitate, cu o probabilitate de 95%.

2. Compararea unor repartiţii observate şi încadrate în


tabele r x c
20
Principiul de testare constă în compararea frecvenţelor
observate de apariţie (oi) cu frecvenţele calculate (ci), în
conformitate cu aplicarea ipotezei nule adică a lipsei oricărei
deosebiri. Formula de calcul în acest caz este:

( oi  ci ) 2
2
Χc=  ci   2 , 

unde: oi - frecvenţa observată de apariţie


ci - frecvenţa calculată
Χ2α,ν - valoarea teoretică, tabelată, pentru un risc α şi ν
grade de libertate, calculate după formula: ν =
(nr.rânduri-1)x(nr.coloane-1)

Dacă inegalitatea este adevărată, diferenţa este


semnificativă.
Aplicarea testului Χ2 cere îndeplinirea următoarelor condiţii:
a. Eşantionul să fie construit aleator.
b. Observaţiile să fie independente.
c. Eşantionul să fie mai mare de 50 de observaţii şi să
cuprindă mai mult de 5 observaţii în fiecare clasă a
tabelului de contingenţă.
d. Valoarea calculată se obţine utilizându-se valori absolute,
nu procente.

Exemplu:
S-au administrat trei tratamente diferite la trei loturi de
bolnavi. S-au înregistrat valorile din tabelul de mai jos.
Rezultatul celor trei tratamente diferă semnificativ?
Starea bolnavului
Tratamen Vindecaţi Amelioraţi Staţionari Total
t
Trat A 20 20 10 50
oi (80/200)x5 (90/200)x5 (30/200)x5
21
0=20 0=22.5 0=7.5
ci
Trat B 30 25 5 60
oi (80/200)x6 (90/200)x6 (30/200)x6
0=24 0=27 0=9
ci
Trat C 30 45 15 90
oi (80/200)x9 (90/200)x9 (30/200)x9
0=36 0=40.5 0=13.5
ci
Total 80 90 30 200

Χ2c = (20-20)2/20+(30-24)2/24+(30-36)2/36+(20-
22.5)2/22.5+(25-27)2/27+(45-40.5)2/40.5+(10-7.5)2/7.5+(5-
9)2/9+(15-13.5)2/13.5 = 6.20

Χ2c = 6.20 < Χ2t = 9.488 pentru α=0.05 (probabilitate de


95%) şi ν=(3-1)x(3-1)=4. Concluzia este că diferenţa între
cele trei tratamente este nesemnificativă în ceea ce priveşte
rezultatul obţinut.*

22

S-ar putea să vă placă și