Bio Statistic A

Modulul 2B Analiza datelor
• Tipuri de date
Variabilele cu care se lucrează în domeniul statisticii sunt variabile aleatoare

(va), iar datele înregistrate în mod uzual sunt măsurătorile acestor variabile din
eşantioane.
Există două tipuri principale de variabile aleatoare: calitative şi cantitative care

determină două tipuri de date. O variabilă aleatoare calitativă generează
răspunsuri de tip categorial (dihotomice sau cu mai multe alternative), iar o
variabilă aleatoare cantitativă generează răspunsuri numerice (discrete sau
continue).
Exemple:
va calitative: cele dihotomice pot avea două alternative de tip Da/Nu sau
Decedat/In viaţă. Variabilele aleatoare calitative cu mai multe alternative pot
descrie de exemplu distribuţia bolnavilor după grupa de sânge (A, B, AB, O) sau
pot lua următoarele valori pentru întrebarea “Cât de bine ştiţi limba engleză?”:
“deloc”, “puţin”, “suficient”, “fluent”.
va cantitative discrete: apar în mod normal atunci când măsurătorile sunt

numere întregi. Exemple de va cantitative discrete pot fi: numărul de accidente
suferite de o persoana în decurs de 2 ani (un număr cuprins probabil între 0 şi
8), sau numărul de îngheţate consumate de o persoană într-o săptămână
(cuprins probabil între 0 şi 10).
va cantitative continue: fiecare măsurătoare se încadrează într-o scală de

numere continue (reale). Exemple de va cantitative continue sunt: tensiunea
arterială, înălţime, greutate, cantitatea în grame a îngheţatei consumate de o
persoană într-o săptămână.
• Reprezentarea datelor: Distribuţii de frecvenţă
Datele (măsurate pe populaţia generală sau pe eşantion) sunt de obicei

organizate în distribuţii de frecvenţă, pentru că reprezintă formatul cel mai
convenabil de sinteză şi prezentare.
In distribuţiile de frecvenţă se prezintă descrierea calitativă sau cantitativă a

observaţiilor (măsurătorilor) împreună cu numărul de apariţii ale măsurătorii
respective (frecvenţă absolută). Se utilizează de obicei şi frecvenţa relativă
obţinută prin împărţirea frecvenţei absolute la numărul total al observaţiilor.
Aşadar, suma tuturor frecvenţelor relative este 1. Dacă se înmulţeşte frecvenţa
relativă cu 100, se obţine frecvenţa procentuală.
Reguli generale de urmat în construirea intervalelor pentru va cantitative:
- numărul de clase este bine să fie mai mic de 15;
- limitele fiecărei clase trebuie să se potrivească cu gradul de acurateţe al
datelor măsurate;
-intervalele de lungime egală sunt mai convenabile şi facilitează procesările
ulterioare;
- clasele trebuie să fie mutual exclusive (să nu se suprapună);
- este bine să se calcule mijlocul fiecărei clase.
Exemple de distribuţii de frecvenţă:
1. Un student a obţinut următoarele note la 10 teste:
6 7 6 8 5
7 6 9 10 6
Distrubuţia de frecvenţă pentru aceste date este:
Nota Frecvenţa absolută Frecvenţa relativă

5 1 0.1
6 4 0.4
7 2 0.2
8 1 0.1
9 1 0.1
10 1 0.1
Total 10 1.0
2. 20 de cutii cu fructe au următoarele greutăţi nete în hectograme per cutie:
19.7 19.9 20.2 19.9 20.0

20.6 19.3 20.4 19.9 20.3
20.1 19.5 20.9 20.3 20.8
19.9 20.0 20.6 19.9 19.8
Greutate Valoare Frecvenţa Frecvenţa Frecvenţa

centrală absolută relativă cumulată
19.2-19.4 19.3 1 0.05 1
19.5-19.7 19.6 2 0.10 3
19.8-20.0 19.9 8 0.40 11
20.1-20.3 20.2 4 0.20 15
20.4-20.6 20.5 3 0.15 18
20.7-20.9 20.8 2 0.10 20
Total 20 1.00
• Date cantitative: valori caracteristice
Orice serie de date cantitative se poate descrie prin trei elemente caracteristice:
1. indicatorii tendinţei centrale
2. împrăştiere sau dispersie
Dacă aceste elemente sunt obţinute dintr-un studiu populaţional, ele se numesc
parametri, dacă sunt obţinute dintr-un eşantion se numesc indicatori statistici.
Indicatorii tendinţei centrale
Aceşti indicatori pun în evidenţă faptul că toate datele măsurate tind să se

grupeze în jurul unei valori centrale. Valoarea centrală caracterizează întregul
domeniu al datelor (val.min.-val.max.). Dacă privim ambele exemple anterioare,
se poate observa că valorile tind să se grupeze în jurul unei valori care are cea
mai mare frecvenţă de apariţie.
Cele mai utilizate măsurători ale tendinţei centrale sunt:

media aritmetică
mediana
modul
cuantilele
Media aritmetică
Definiţie: pentru o distribuţie de frecvenţa a unor date cantitative, media

aritmetică este valoarea care, dacă s-ar substitui fiecărei valori a distribuţiei, nu
ar schimba suma totală.
Dacă madia aritmetică se calculează pentru o populaţie (este un parametru), se

notează cu caracterul grecesc μ; dacă se calculează pentru un eşantion
(indicator statistic) se notează cu simbolul X .
Media aritmetică se calculează în două moduri:

- media aritmetică simplă, pentru distribuţiile de frecvenţă cu frecvenţe unitare.
N
1 1 n
formula de calcul: μ=
N
∑ Xi
i =1
sau X = ∑ Xi
n i =1
unde N=numărul de observaţii populaţionale

n=numărul de observaţii din eşantion
X=valoarea variabilei aleatoare măsurate
- media aritmetică ponderată, pentru distribuţiile de frecvenţă cu frecvenţe

neunitare.
N n
∑ Xifi
i =1
∑ Xifi
i =1
formula de calcul: μ= N sau X = n
∑ fi = N
i =1
∑ fi = n
i =1
unde N=numărul de observaţii populaţionale
n=numărul de observaţii din eşantion
Xi=valoarea variabilei aleatoare măsurate, cu frecvenţa fi
Exemple:
a) Fie Xi o va într-o populaţie, cu următoarele valori:
2 5 1 4 3
Media aritmetică va fi:
μ = 1/5(2+5+1+4+3) = 15/5 = 3
Dacă înlocuim valoarea fiecărei variabile Xi cu valoarea mediei aritmetice,

obţinem: 3+3+3+3+3=15, ceea ce corespunde definiţiei mediei.
b) Dacă ne referim la distribuţia de frecvenţă din exemplul 1, se poate

calcula media ponderată:
μ = 1/10[(5x1)+(6x4)+...+(10x1)] = 70/10 = 7
c) Pentru a calcula media ponderată pentru distribuţia de frecvenţă din exemplul

2, se va lua în considerare valoarea centrală a fiecărei clase, care reprezintă
fiecare clasă.
X = 1/20[(19.3x1)+...+(20.8x2)] = 401.6/20 = 20.08
Observând diferenţele (deviaţiile) între fiecare valoare observată şi medie, cu cât

|Xi - X | se apropie de 0, cu atât media se apropie mai mult de valorile
observate, deci caracterizează bine întreaga populaţie sau eşantion.
Dacă luăm în considerare următoarele exmple:

Exemplul 1A:
Variabila Observaţia Media aritmetică Deviaţia
X1 2.0 2.5 -0.5
X2 2.5 2.5 0
X3 1.5 2.5 -1.0
X4 3.5 2.5 1.0
X5 4.5 2.5 2.0
X6 1.0 2.5 -1.5
Σ 16.0 16.0 0.0
Exemplul 1B:
Variabila Observaţia Media aritmetică Deviaţia
X1 2.0 1000.0 -998.0
X2 3.0 1000.0 -997.0
X3 2995.0 1000.0 1995.0
Σ 3000.0 3000.0 0.0
In exemplul 1A, media easte foarte apropiată de valorile observate; în următorul

exemplu valoarea mediei este mult efectată de a treia valoare observată şi nu
mai caracterizează bine întregul eşantion.
Dar, din ambele exemple se poate observa că:
∑( Xi − X ) = 0
i
Aceasta reprezintă o caracteristică importantă a mediei.

O altă caracteristică importantă a mediei este că:
∑ ( Xi − X )
i
2
→0
Modul
Definiţie: pentru o distribuţie de frecvenţă dată, modul reprezintă valoarea

observată care apare de cele mai multe ori (frecvenţa de apariţie maximă).
Pentru va discrtete, modul poate fi obţinut direct din distribuţia de frecvenţă.
Pentru va continue şi reprezentate prin clase, modul poate fi calculat din

formula:
d1
mod = L c
d 1 +d 2
unde L=valoarea minimă a clasei modale

d1=diferenţa dintre frecvenţa clasei modale şi frecvenţa clasei precedente
d2= diferenţa dintre frecvenţa clasei modale şi frecvenţa clasei următoare
c=lungimea claselor
Exemple:
pentru datele din exemplul 1:
mod=6

6
mod=19.8 0.3 = 19.98
6 +4
Modul este mai puţin utilizat în prelucrările statistice decât media. Un dezavantaj
al modului este acela că pentru un număr mic de observaţii s-ar putea să nu
existe mod. Există distribuţii bi sau multi-modale.
Mediana
Definiţie: pentru o distribuţie de frecvenţă ordonată (de la cea mai mică valoare
la cea mai mare), media reprezintă valoarea de la mijlocul distribuţiei.
Pentru va discrete, media este valoarea de pe locul (N+1)/2.
Pentru date grupate:

N / 2 −F
mediana = L+ c
fm
unde L=cea mai mică valoare din clasa medianei

N=număr de observaţii
F=suma frecvenţelor până la clasa medianei (exclusiv)
fm=frecvenţa clasei mediane
Exemple:
pentru datele din exemplul 1, după ordonarea datelor:
mediana=(6+7)/2=6.5, pentru că (10+1)/2=5.5

20 / 2 − 3
mediana=19.8+ 0.3=20.06
8
Principalul avantaj al mediei este acela că nu este afectată de valorile extreme.

Deşi în ultima vreme este din ce în ce mai folosită în prelucrările statistice, totuşi
este mai puţin utilizată decât media.
Cuantilele
Plecând de la mediană, se poate defini valoarea care este mediana valorilor de

la stânga medianei; această valoare reprezintă 25% (1/4) din distribuţie şi se
numeşte cuartilă. In orice distribuţie există 3 cuartile: prima relativă la 25% din
valori, a doua care este de fapt mediana şi reprezintă 50% din valori, a treia care
corespunde la 75% din valori.
In acelaşi mod se pot defini decilele ca valoarea sub care sunt situate 10% din
observaţii.
Imprăştierea sau dispersia
Când datele sunt foarte diferite, media nu caracterizează bine distribuţia, pentru
că două seturi de date pot produce aceeaşi medie dar pot fi foarte diferite în
ceea ce priveşte variabilitatea.
Trebuie construite nişte măsurători care să arate cât de mult diferă observaţiile
de o valoare de referinţă (de obicei media sau mediana).
Dispersia faţă de medie
Luând în considerare deviaţiile faţă de medie, deviaţiile individuale arată dacă

observaţiile sunt similare sau nu.
Se utilizează ca măsură a variaţiei, media deviaţiilor la pătrat; această măsură
se numeşte varianţă şi se notează cu σ2 pentru populaţie (N observaţii) şi cu s2
pentru eşantioane (n observaţii).
N
1 1 n
σ2 =
N
∑( Xi − µ) 2 sau
1
s2= ∑( Xi − X ) 2
n 1
In practică, varianţa se calculează prin împărţirea la (n-1) în loc de n.
Dacă va este reprezentată într-o distribuţie de frecvenţă, cele 2 formule de mai

sus devin:
N
1 1 n
σ2 =
N
∑f ( X
1
i i − µ) 2 sau s2= ∑ fi ( Xi − X ) 2
n 1
Rădăcina pătrată a varianţei se numeşte deviaţie standard, şi are formula:
N
1 1 n
σ=
N
∑ fi ( Xi − µ) 2
1
sau s= ∑ fi ( Xi − X ) 2
n 1
O altă măsură a variaţiei este coeficientul de variaţie, obţinută prin împărţirea

deviaţiei standard la medie:
σ s
V= µ (pentru populaţie) sau v= (pentru eşantion)
X
Calculându-se media şi varianţa, se poate şti dacă media este sau nu relevantă.
Exemple:
utilizând datele din exemplul 1:

6 7 6 8 5
7 6 9 10 6
μ=7, deviaţiile şi pătratul deviaţiilor sunt:
-1 0 -1 1 -2
0 -1 2 3 -1
şi
1 0 1 1 4
0 1 4 9 1
cu un total de 22, deci:

σ2=22/10=2.2 σ= 2.2 =1.48
V=1.48/7=0.21 21% faţă de medie
utilizând datele grupate din exemplul 2:
Clasa Valoarea Frecvenţa Media Deviaţia Pătratul Frecv. x

centrală absolută faţă de deviaţiei pătratul
medie deviaţiei
19.2-19.4 19.3 1 20.08 -0.78 0.6084 0.6084
19.5-19.7 19.6 2 20.08 -0.48 0.2304 0.4608
19.8-20.0 19.9 8 20.08 -0.18 0.0324 0.2592
20.1-20.3 20.2 4 20.08 0.12 0.0144 0.0576
20.4-20.6 20.5 3 20.08 0.42 0.1764 0.5292
20.7-20.9 20.8 2 20.08 0.72 0.5184 1.0368
Σ 20 2.9520
deci:
s2= 2.9520/19=0.1554
s= 0..1554 = 0.3924
v=0.3924/20.08=0.0196 sau ≈ 2%
Modulul 2C Distribuţiile principale
S-a dovedit ştinnţific că teoria probabilităţilor stă la baza metodelor statistice de

inferenţă.
Inferenţa statistică este procesul prin care se pot trage concluzii referitoare la o
populaţie din valorile măsurate într-un eşantion (cu alte cuvinte generalizarea
rezultatelor obţinute pe eşantion la întraga populaţie).
Distribuţia normală (gaussiană)
Este distribuţia cea mai importantă şi mai utilizată în statistică. Este foarte
importantă deoarece multe distribuţii ale măsurătorilor practice în populaţii
aproximează curba normală (clopotul lui Gauss). Mai important poate, în
tehnicile de obţinere a inferenţei statistice, distribuţia normală ocupă un loc
central.
Chiar dacă distribuţia valorilor dintr-un eşantion nu are chiar forma curbei
normale, în anumite condiţii generale distribuţia normală stă la baza inferenţei
statistice.
Distribuţia normală este o distribuţie teoretică de probabilităţi şi are ecuaţia
generală:
1 x −µ 2
2 1 [ ]
f (X) = N(x;µx;σ ) =
x e2 σ
σx 2π
unde: µx şi σx sunt valorile aşteptate ale mediei şi abaterii standard pentru va X.

X este o va continuă cu valori între -∞≤ X≤∞
Reprezentarea grafică a acestei distrubuţii este:
Caracteristicile principale ale acestei distribuţii sunt:

1. Distribuţia normală este unimodală, cu o formă de clopot, şi simetrică
după µx.
2. Principalii parametri ai distribuţiei normale sunt: media (µx) şi abaterea
standard (σx). Schimbând valoarea lui µx , se deplasează întreaga distribuţie
de-a lungul axei Ox. Modificând valoarea lui σx, se modifică gradul de
împrăştiere al distribuţiei. Cu cât σx este mai mic, cu atât curba se strânge mai
mult în jurul mediei. σx furnizează mai multe informaţii decât µx.
3. Curba este definită între -∞ şi +∞ .
4. Curba are două puncte de inflexiune, corespunzând valorilor:
x=µ± 2σ
Dacă o va are o distribuţie normală, probabilitatea ca x să aibă o valoare în

intervalul (a,b) este:
b
prob (a≤ X=x≤ b) = ∫ f ( x ) dx =

a
unde f(x) este funcţia definită pentru distribuţia normală.
Din fericire, se poate calcula această probabilitate destul de simplu. Pentru

acest scop, se defineşte distribuţia normală standard, care are media 0 şi
abaterea standard 1:
1 2
1 z
f(Z) = e 2 = N(Z;0;1)
2π
Se poate obţine în orice situaţie distribuţia normală standard, utilizând
următoarea transformare:
( X − µ)
Z=
σ
Pentru distribuţia normală standard există tabele de calcul al integralei de mai

sus. Dacă se obţine valoarea lui Z, se poate calcula apoi valoarea lui X.
Exemplu:
Presupunând că media şi abaterea standard pentru o distribuţie normală sunt µ
şi σ, să se calculeze valorile astfel încât prob (x1≤ X≤ x2)=0.95
Deci, trebuie să găsim valorile lui x1 şi x2 cunoscând probabilitatea. Deoarece
distribuţia normală standard este simetrică faţă de 0, se vor lua în considerare
doar valorile pozitive; se va împărţi deci probabilitatea la 2 (0.95/2=0.475). Din
tabele se va găsi valoarea cea mai apropiată sau egală cu 0.475. Această
valoare este 1.96 şi va constitui valoarea din dreapta a intervalului:
0≤ Z≤ 1.96
Prin simetrie, celălalt capăt al intervalului va avea valoarea -1.96.
Deci:
prob (-1.96≤ Z≤ 1.96)=0.95
Se poate obţine uşor valoarea lui X:
x1=µ-1.96σ
x2=µ+1.96σ
Distribuţia χ2
Presupunem că X1,X2,......,Xn sunt n variabile aleatoare normale şi

independente., cu aceeaşi medie µ şi aceeaşi varianţă σ2. Valorile standard
corespunzătoare sunt U1,U2,......,Un. Se poate defini acum o nouă variabilă:
Yn=ΣYi=ΣUi2 i=1,2,.....,n
Această variabilă se numeşte χ2 şi are n grade de libertate, unde n este numărul

de variabile independente din formula de mai sus.
Cu cât n este mai mare, distribuţia χ2 tinde să se apropie de distribuţia normală.
Distribuţia t-Student
Este o altă distribuţie importantă care derivă din distribuţia normală şi se

defineşte ca raportul între o variabilă standard normală şi rădăcina pătrată a
unei valori independente χ2 împărţită la numărul de grade de libertate.
Fiind dată o variabilă normală X cu gradele de libertate N(μ,σ) şi variabila χ2n,

independente între ele, se poate defini variabila t-Student astfel:
( X − µ) / σ
t=
χ2 / n
şi cu funcţia de densitate asociată.
Variabila t ia valori între -∞ şi +∞ .

Distribuţia t este simetrică faţă de 0 şi este mai împrăştiată decât distribuţia
N(0,1).
Totuşi, cu cât numărul de grade de libertate este mai mare cu atât distribuţia t
tinde către distribuţia N(0,1). Deci pentru n cât mai mare, se pot utiliza tabelele
pentru distribuţia normală standard.
Testele de comparaţie
Demersul necesar construirii unui criteriu de semnificaţie porneşte de la

stabilirea ipotezei nule, H0, care postulează faptul că nu există nici o diferenţă
semnificativă între indicatorii obţinuţi din eşantion şi cei ai populaţiei.
Aceşti indicatori sunt de regulă media (sau proporţia), abaterea standard şi
efectivul.
Pentru verificarea ipotezei statistice se utilizează diferite teste de semnificaţie
statistică, constând din calcularea unei statistici (tα, uα, z, etc). şi din stabilirea de
reguli precise de acceptare sau de respingere a ipotezei nule, H 0, cu o anumită
probabilitate.
Pentru un anumit test statistic, valoarea probabilităţii sub care se respinge
ipoteza nulă se numeşte prag de semnificaţie şi este ales de cercetător. La
testarea semnificaţiei se pot comite două tipuri de erori:
 eroarea de speţa I-a sau α, adică decizia de a respinge ipoteza nulă când
aceasta este adevărată
 eroarea de speţa a II-a sau β, adică decizia de a aceepta în mod eronat
ipoteza nulă când aceasta este falsă
S-a demonstrat că probabilitatea de a comite o eroare de speţa II-a descreşte

odată cu creşterea mărimii eşantionului.
Acceptarea ipotezei nule presupune că diferenţa testată este
nesemnificativă, iar respingerea ei că diferenţa este semnificativă.
Testul t-Student
Se utilizează pentru compararea mediilor a două eşantioane independente. Cu

alte cuvinte, se doreşte să se aprecieze dacă diferenţa între mediile obţinute din
două eşantioane este semnificativă statistic sau se datorează întâmplării.
Pentru folosirea testului Student se impune o restricţie privind varianţa celor

două eşantioane, cerându-se ca diferenţa dintre ele să nu depăşească un
anumit raport. In acest scop se aplică testul F, prin care raportul dintre valoarea
cea mai mare şî cea mai mică de la cele două varianţe se compară cu o valoare
F, dependentă de mărimea riscului asumat şi de gradele de libertate din fiecare
eşantion.
In cazul eşantioanelor cu cel puţin 50 de observaţii, compararea valorilor

calculate se face cu un parametru tabelar u.
Condiţii: mediile cunoscute, dispersiile cunoscute. Ipoteza nulă: x1 = x 2 . Pentru
luarea deciziei trebuie testată inegalitatea:
| x1 − x 2 |
> uα
s12 s2 2
+
n1 − 1 n 2 − 1
unde: x1 şi x 2 - mediile în primul şi respectiv al doilea eşantion

s12 şi s22 - varianţele în primul şi respectiv al doilea eşantion
n1 şi n2 - mărimea celor două eşantioane (număr de observaţii)
uα - valoarea tabelară, pentru distribuţia normală, corespunzătoare unui
risc α
Dacă inegalitatea este adevărată, diferenţa între medii este semnificativă.
Exemplu: Se testează diferenţa constatată între greutatea la naştere pe două

eşantioane de 101 copii, unul de băieţi şi unul de fete (3000g şi respectiv 2950g,
o varianţă de 10000 g2). Aplicând formula de mai sus, se obţine:
|3000 − 2950 |
= 3.536
10000 10000
+
100 100
Se constată că valoarea calculată (3.536) este mai mare decât valoarea

teoretică din tabel uα=0.05=1.96, deci se poate afirma că diferenţa este
semnificativă statistic. Rezultă că, pentru o probabilitate de 95% (în 95 de
cazuri din 100), băieţii sunt mai grei la naştere decât fetele, nu numai în cazul
celor două eşantioane ci în general în populaţia din care provin loturile.
Testul Χ2
Acest test se utilizează pentru compararea caracteristicilor calitative. Se poate

astfel determina dacă două caracteristici sunt realmente asociate într-o
populaţie sau dacă relaţia observată este doar rolul hazardului.
Acest test se aplică în două situaţii diferite: pentru tabele de contingenţa de tip
2x2 şi pentru tabele de contingenţă cu mai mult de două rânduri sau două
coloane.
1. Compararea unor repartiţii observate şi încadrate în tabele 2x2

Forma generală a unui tabel de contingenţă 2x2 este:
Atribut 2
Atribut I Varianta I I1 Varianta I I2 Total
Varianta I1 a b a+b
Varianta I2 c d c+d
Total a+c b+d n
In acest caz, valoarea lui Χ2 poate fi calculată cu formula:
n ( ad − bc ) 2
Χ2 =
( a + b )( c + d )( a + c)( b + d )
Dacă valoarea calculată a lui Χ2 > Χ2α,ν (tabelată, unde α de obicei este 0.05, iar
ν reprezintă numărul de grade de libertate şi în acest caz ν=1), atunci diferenţa
este semnificativă, respingându-se ipoteza nulă. Ipoteza nulă compară varianta
I1 cu varianta I2 în ceea ce priveşte rezultatele obţinute, măsurate prin atributul 2.
Exemplu: Se doreşte să se demonstreze că obezitatea este un factor de risc în
apariţia diabetului. S-au obţinut următoarele rezultate:
Diabet
Obezitate Prezent Absent Total
Prezentă 40 30 70
Absentă 20 10 30
Total 60 40 100
Aplicând formula de mai sus, rezultă valoarea calculată a lui Χ2:
100 ( 40 x10 − 30 x 20 ) 2
Χ2 = = 0.79
70 x 30 x 60 x 40
Χ2α=0.05,ν=1=3.841
Deci pentru că 0.79<3.841, rezultă că apariţia diabetului nu este influenţată de

obezitate, cu o probabilitate de 95%.
2. Compararea unor repartiţii observate şi încadrate în tabele r x c
Principiul de testare constă în compararea frecvenţelor observate de apariţie (oi)

cu frecvenţele calculate (ci), în conformitate cu aplicarea ipotezei nule adică a
lipsei oricărei deosebiri. Formula de calcul în acest caz este:
( oi − ci ) 2
Χ2c = ∑ ci
> χ 2α , ν
unde: oi - frecvenţa observată de apariţie

ci - frecvenţa calculată
Χ2α,ν - valoarea teoretică, tabelată, pentru un risc α şi ν grade de libertate,
calculate după formula: ν = (nr.rânduri-1)x(nr.coloane-1)
Dacă inegalitatea este adevărată, diferenţa este semnificativă.

Aplicarea testului Χ2 cere îndeplinirea următoarelor condiţii:
a. Eşantionul să fie construit aleator.
b. Observaţiile să fie independente.
c. Eşantionul să fie mai mare de 50 de observaţii şi să cuprindă mai mult de 5
observaţii în fiecare clasă a tabelului de contingenţă.
d. Valoarea calculată se obţine utilizându-se valori absolute, nu procente.
Exemplu:
S-au administrat trei tratamente diferite la trei loturi de bolnavi. S-au înregistrat
valorile din tabelul de mai jos. Rezultatul celor trei tratamente diferă
semnificativ?
Starea bolnavului
Tratament Vindecaţi Amelioraţi Staţionari Total
Trat A oi 20 20 10 50
ci (80/200)x50=20 (90/200)x50=22. (30/200)x50=7.5
5
Trat B oi 30 25 5 60
ci (80/200)x60=24 (90/200)x60=27 (30/200)x60=9
Trat C oi 30 45 15 90
ci (80/200)x90=36 (90/200)x90=40. (30/200)x90=13.
5 5
Total 80 90 30 200
Χ2c = (20-20)2/20+(30-24)2/24+(30-36)2/36+(20-22.5)2/22.5+(25-27)2/27+(45-
40.5)2/40.5+(10-7.5)2/7.5+(5-9)2/9+(15-13.5)2/13.5 = 6.20
Χ2c = 6.20 < Χ2t = 9.488 pentru α=0.05 (probabilitate de 95%) şi ν=(3-1)x(3-1)=4.
Concluzia este că diferenţa între cele trei tratamente este nesemnificativă în
ceea ce priveşte rezultatul obţinut.*

Bio Statistic A

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Bio Statistic A

Încărcat de

Drepturi de autor:

Formate disponibile

Modulul 2B Analiza datelor

Variabilele cu care se lucrează în domeniul statisticii sunt variabile aleatoare

Există două tipuri principale de variabile aleatoare: calitative şi cantitative care

va cantitative discrete: apar în mod normal atunci când măsurătorile sunt

va cantitative continue: fiecare măsurătoare se încadrează într-o scală de

• Reprezentarea datelor: Distribuţii de frecvenţă

Datele (măsurate pe populaţia generală sau pe eşantion) sunt de obicei

In distribuţiile de frecvenţă se prezintă descrierea calitativă sau cantitativă a

Exemple de distribuţii de frecvenţă:

1. Un student a obţinut următoarele note la 10 teste:

Distrubuţia de frecvenţă pentru aceste date este:

Nota Frecvenţa absolută Frecvenţa relativă

2. 20 de cutii cu fructe au următoarele greutăţi nete în hectograme per cutie:

19.7 19.9 20.2 19.9 20.0

Greutate Valoare Frecvenţa Frecvenţa Frecvenţa

• Date cantitative: valori caracteristice

Indicatorii tendinţei centrale

Aceşti indicatori pun în evidenţă faptul că toate datele măsurate tind să se

Cele mai utilizate măsurători ale tendinţei centrale sunt:

Definiţie: pentru o distribuţie de frecvenţa a unor date cantitative, media

Dacă madia aritmetică se calculează pentru o populaţie (este un parametru), se

Media aritmetică se calculează în două moduri:

unde N=numărul de observaţii populaţionale

- media aritmetică ponderată, pentru distribuţiile de frecvenţă cu frecvenţe

Dacă înlocuim valoarea fiecărei variabile Xi cu valoarea mediei aritmetice,

b) Dacă ne referim la distribuţia de frecvenţă din exemplul 1, se poate

c) Pentru a calcula media ponderată pentru distribuţia de frecvenţă din exemplul

Observând diferenţele (deviaţiile) între fiecare valoare observată şi medie, cu cât

Dacă luăm în considerare următoarele exmple:

In exemplul 1A, media easte foarte apropiată de valorile observate; în următorul

Aceasta reprezintă o caracteristică importantă a mediei.

Definiţie: pentru o distribuţie de frecvenţă dată, modul reprezintă valoarea

Pentru va discrtete, modul poate fi obţinut direct din distribuţia de frecvenţă.

Pentru va continue şi reprezentate prin clase, modul poate fi calculat din

unde L=valoarea minimă a clasei modale

pentru datele din exemplul 2:

Pentru va discrete, media este valoarea de pe locul (N+1)/2.

Pentru date grupate:

unde L=cea mai mică valoare din clasa medianei

pentru datele din exemplul 2:

Principalul avantaj al mediei este acela că nu este afectată de valorile extreme.

Plecând de la mediană, se poate defini valoarea care este mediana valorilor de

Imprăştierea sau dispersia

Dispersia faţă de medie

Luând în considerare deviaţiile faţă de medie, deviaţiile individuale arată dacă

In practică, varianţa se calculează prin împărţirea la (n-1) în loc de n.

Dacă va este reprezentată într-o distribuţie de frecvenţă, cele 2 formule de mai

Rădăcina pătrată a varianţei se numeşte deviaţie standard, şi are formula:

O altă măsură a variaţiei este coeficientul de variaţie, obţinută prin împărţirea

utilizând datele din exemplul 1:

μ=7, deviaţiile şi pătratul deviaţiilor sunt:

cu un total de 22, deci:

V=1.48/7=0.21 21% faţă de medie

utilizând datele grupate din exemplul 2:

Clasa Valoarea Frecvenţa Media Deviaţia Pătratul Frecv. x

Modulul 2C Distribuţiile principale

S-a dovedit ştinnţific că teoria probabilităţilor stă la baza metodelor statistice de

Distribuţia normală (gaussiană)

unde: µx şi σx sunt valorile aşteptate ale mediei şi abaterii standard pentru va X.

Reprezentarea grafică a acestei distrubuţii este:

Caracteristicile principale ale acestei distribuţii sunt:

Dacă o va are o distribuţie normală, probabilitatea ca x să aibă o valoare în

prob (a≤ X=x≤ b) = ∫ f ( x ) dx =

unde f(x) este funcţia definită pentru distribuţia normală.