Documente Academic
Documente Profesional
Documente Cultură
• Tipuri de date
Exemple:
va calitative: cele dihotomice pot avea două alternative de tip Da/Nu sau
Decedat/In viaţă. Variabilele aleatoare calitative cu mai multe alternative pot
descrie de exemplu distribuţia bolnavilor după grupa de sânge (A, B, AB, O) sau
pot lua următoarele valori pentru întrebarea “Cât de bine ştiţi limba engleză?”:
“deloc”, “puţin”, “suficient”, “fluent”.
6 7 6 8 5
7 6 9 10 6
Orice serie de date cantitative se poate descrie prin trei elemente caracteristice:
1. indicatorii tendinţei centrale
2. împrăştiere sau dispersie
Dacă aceste elemente sunt obţinute dintr-un studiu populaţional, ele se numesc
parametri, dacă sunt obţinute dintr-un eşantion se numesc indicatori statistici.
Media aritmetică
N n
∑ Xifi
i =1
∑ Xifi
i =1
formula de calcul: μ= N sau X = n
∑ fi = N
i =1
∑ fi = n
i =1
unde N=numărul de observaţii populaţionale
n=numărul de observaţii din eşantion
Xi=valoarea variabilei aleatoare măsurate, cu frecvenţa fi
Exemple:
a) Fie Xi o va într-o populaţie, cu următoarele valori:
2 5 1 4 3
Media aritmetică va fi:
μ = 1/5(2+5+1+4+3) = 15/5 = 3
∑ ( Xi − X )
i
2
→0
Modul
d1
mod = L c
d 1 +d 2
Exemple:
pentru datele din exemplul 1:
mod=6
Mediana
Definiţie: pentru o distribuţie de frecvenţă ordonată (de la cea mai mică valoare
la cea mai mare), media reprezintă valoarea de la mijlocul distribuţiei.
Exemple:
pentru datele din exemplul 1, după ordonarea datelor:
mediana=(6+7)/2=6.5, pentru că (10+1)/2=5.5
Cuantilele
In acelaşi mod se pot defini decilele ca valoarea sub care sunt situate 10% din
observaţii.
Când datele sunt foarte diferite, media nu caracterizează bine distribuţia, pentru
că două seturi de date pot produce aceeaşi medie dar pot fi foarte diferite în
ceea ce priveşte variabilitatea.
Trebuie construite nişte măsurători care să arate cât de mult diferă observaţiile
de o valoare de referinţă (de obicei media sau mediana).
N
1 1 n
σ=
N
∑ fi ( Xi − µ) 2
1
sau s= ∑ fi ( Xi − X ) 2
n 1
σ s
V= µ (pentru populaţie) sau v= (pentru eşantion)
X
Calculându-se media şi varianţa, se poate şti dacă media este sau nu relevantă.
Exemple:
-1 0 -1 1 -2
0 -1 2 3 -1
şi
1 0 1 1 4
0 1 4 9 1
deci:
s2= 2.9520/19=0.1554
s= 0..1554 = 0.3924
v=0.3924/20.08=0.0196 sau ≈ 2%
Inferenţa statistică este procesul prin care se pot trage concluzii referitoare la o
populaţie din valorile măsurate într-un eşantion (cu alte cuvinte generalizarea
rezultatelor obţinute pe eşantion la întraga populaţie).
Este distribuţia cea mai importantă şi mai utilizată în statistică. Este foarte
importantă deoarece multe distribuţii ale măsurătorilor practice în populaţii
aproximează curba normală (clopotul lui Gauss). Mai important poate, în
tehnicile de obţinere a inferenţei statistice, distribuţia normală ocupă un loc
central.
Chiar dacă distribuţia valorilor dintr-un eşantion nu are chiar forma curbei
normale, în anumite condiţii generale distribuţia normală stă la baza inferenţei
statistice.
Distribuţia normală este o distribuţie teoretică de probabilităţi şi are ecuaţia
generală:
1 x −µ 2
2 1 [ ]
f (X) = N(x;µx;σ ) =
x e2 σ
σx 2π
( X − µ)
Z=
σ
Exemplu:
Presupunând că media şi abaterea standard pentru o distribuţie normală sunt µ
şi σ, să se calculeze valorile astfel încât prob (x1≤ X≤ x2)=0.95
Deci, trebuie să găsim valorile lui x1 şi x2 cunoscând probabilitatea. Deoarece
distribuţia normală standard este simetrică faţă de 0, se vor lua în considerare
doar valorile pozitive; se va împărţi deci probabilitatea la 2 (0.95/2=0.475). Din
tabele se va găsi valoarea cea mai apropiată sau egală cu 0.475. Această
valoare este 1.96 şi va constitui valoarea din dreapta a intervalului:
0≤ Z≤ 1.96
Prin simetrie, celălalt capăt al intervalului va avea valoarea -1.96.
Deci:
prob (-1.96≤ Z≤ 1.96)=0.95
Se poate obţine uşor valoarea lui X:
x1=µ-1.96σ
x2=µ+1.96σ
Distribuţia χ2
Yn=ΣYi=ΣUi2 i=1,2,.....,n
Distribuţia t-Student
Testele de comparaţie
Testul t-Student
| x1 − x 2 |
> uα
s12 s2 2
+
n1 − 1 n 2 − 1
|3000 − 2950 |
= 3.536
10000 10000
+
100 100
Testul Χ2
n ( ad − bc ) 2
Χ2 =
( a + b )( c + d )( a + c)( b + d )
Dacă valoarea calculată a lui Χ2 > Χ2α,ν (tabelată, unde α de obicei este 0.05, iar
ν reprezintă numărul de grade de libertate şi în acest caz ν=1), atunci diferenţa
este semnificativă, respingându-se ipoteza nulă. Ipoteza nulă compară varianta
I1 cu varianta I2 în ceea ce priveşte rezultatele obţinute, măsurate prin atributul 2.
Exemplu: Se doreşte să se demonstreze că obezitatea este un factor de risc în
apariţia diabetului. S-au obţinut următoarele rezultate:
Diabet
Obezitate Prezent Absent Total
Prezentă 40 30 70
Absentă 20 10 30
Total 60 40 100
100 ( 40 x10 − 30 x 20 ) 2
Χ2 = = 0.79
70 x 30 x 60 x 40
Χ2α=0.05,ν=1=3.841
( oi − ci ) 2
Χ2c = ∑ ci
> χ 2α , ν
Exemplu:
S-au administrat trei tratamente diferite la trei loturi de bolnavi. S-au înregistrat
valorile din tabelul de mai jos. Rezultatul celor trei tratamente diferă
semnificativ?
Starea bolnavului
Tratament Vindecaţi Amelioraţi Staţionari Total
Trat A oi 20 20 10 50
ci (80/200)x50=20 (90/200)x50=22. (30/200)x50=7.5
5
Trat B oi 30 25 5 60
ci (80/200)x60=24 (90/200)x60=27 (30/200)x60=9
Trat C oi 30 45 15 90
ci (80/200)x90=36 (90/200)x90=40. (30/200)x90=13.
5 5
Total 80 90 30 200
Χ2c = (20-20)2/20+(30-24)2/24+(30-36)2/36+(20-22.5)2/22.5+(25-27)2/27+(45-
40.5)2/40.5+(10-7.5)2/7.5+(5-9)2/9+(15-13.5)2/13.5 = 6.20
Χ2c = 6.20 < Χ2t = 9.488 pentru α=0.05 (probabilitate de 95%) şi ν=(3-1)x(3-1)=4.
Concluzia este că diferenţa între cele trei tratamente este nesemnificativă în
ceea ce priveşte rezultatul obţinut.*