Sunteți pe pagina 1din 14

Modulul 2B Analiza datelor Tipuri de date Variabilele cu care se lucreaz n domeniul statisticii sunt variabile aleatoare (va), iar

r datele nregistrate n mod uzual sunt msurtorile acestor variabile din eantioane. Exist dou tipuri principale de variabile aleatoare: calitative i cantitative care determin dou tipuri de date. O variabil aleatoare calitativ genereaz rspunsuri de tip categorial (dihotomice sau cu mai multe alternative), iar o variabil aleatoare cantitativ genereaz rspunsuri numerice (discrete sau continue). Exemple: va calitative: cele dihotomice pot avea dou alternative de tip Da/Nu sau Decedat/In via. Variabilele aleatoare calitative cu mai multe alternative pot descrie de exemplu distribuia bolnavilor dup grupa de snge (A, B, AB, O) sau pot lua urmtoarele valori pentru ntrebarea Ct de bine tii limba englez?: deloc, puin, suficient, fluent. va cantitative discrete: apar n mod normal atunci cnd msurtorile sunt numere ntregi. Exemple de va cantitative discrete pot fi: numrul de accidente suferite de o persoana n decurs de 2 ani (un numr cuprins probabil ntre 0 i 8), sau numrul de ngheate consumate de o persoan ntr-o sptmn (cuprins probabil ntre 0 i 10). va cantitative continue: fiecare msurtoare se ncadreaz ntr-o scal de numere continue (reale). Exemple de va cantitative continue sunt: tensiunea arterial, nlime, greutate, cantitatea n grame a ngheatei consumate de o persoan ntr-o sptmn. Reprezentarea datelor: Distribuii de frecven Datele (msurate pe populaia general sau pe eantion) sunt de obicei organizate n distribuii de frecven, pentru c reprezint formatul cel mai convenabil de sintez i prezentare. In distribuiile de frecven se prezint descrierea calitativ sau cantitativ a observaiilor (msurtorilor) mpreun cu numrul de apariii ale msurtorii respective (frecven absolut). Se utilizeaz de obicei i frecvena relativ obinut prin mprirea frecvenei absolute la numrul total al observaiilor. Aadar, suma tuturor frecvenelor relative este 1. Dac se nmulete frecvena relativ cu 100, se obine frecvena procentual. Reguli generale de urmat n construirea intervalelor pentru va cantitative: - numrul de clase este bine s fie mai mic de 15;

- limitele fiecrei clase trebuie s se potriveasc cu gradul de acuratee al datelor msurate; -intervalele de lungime egal sunt mai convenabile i faciliteaz procesrile ulterioare; - clasele trebuie s fie mutual exclusive (s nu se suprapun); - este bine s se calcule mijlocul fiecrei clase. Exemple de distribuii de frecven: 1. Un student a obinut urmtoarele note la 10 teste: 6 7 7 6 6 9 8 10 5 6

Distrubuia de frecven pentru aceste date este: Nota 5 6 7 8 9 10 Total Frecvena absolut 1 4 2 1 1 1 10 Frecvena relativ 0.1 0.4 0.2 0.1 0.1 0.1 1.0

2. 20 de cutii cu fructe au urmtoarele greuti nete n hectograme per cutie: 19.7 19.9 20.6 19.3 20.1 19.5 19.9 20.0 Greutate 19.2-19.4 19.5-19.7 19.8-20.0 20.1-20.3 20.4-20.6 20.7-20.9 Total 20.2 20.4 20.9 20.6 19.9 19.9 20.3 19.9 20.0 20.3 20.8 19.8 Frecvena absolut 1 2 8 4 3 2 20 Frecvena relativ 0.05 0.10 0.40 0.20 0.15 0.10 1.00 Frecvena cumulat 1 3 11 15 18 20

Valoare central 19.3 19.6 19.9 20.2 20.5 20.8

Date cantitative: valori caracteristice Orice serie de date cantitative se poate descrie prin trei elemente caracteristice:

1. indicatorii tendinei centrale 2. mprtiere sau dispersie Dac aceste elemente sunt obinute dintr-un studiu populaional, ele se numesc parametri, dac sunt obinute dintr-un eantion se numesc indicatori statistici. Indicatorii tendinei centrale Aceti indicatori pun n eviden faptul c toate datele msurate tind s se grupeze n jurul unei valori centrale. Valoarea central caracterizeaz ntregul domeniu al datelor (val.min.-val.max.). Dac privim ambele exemple anterioare, se poate observa c valorile tind s se grupeze n jurul unei valori care are cea mai mare frecven de apariie. Cele mai utilizate msurtori ale tendinei centrale sunt: media aritmetic mediana modul cuantilele Media aritmetic Definiie: pentru o distribuie de frecvena a unor date cantitative, media aritmetic este valoarea care, dac s-ar substitui fiecrei valori a distribuiei, nu ar schimba suma total. Dac madia aritmetic se calculeaz pentru o populaie (este un parametru), se noteaz cu caracterul grecesc ; dac se calculeaz pentru un eantion (indicator statistic) se noteaz cu simbolul X . Media aritmetic se calculeaz n dou moduri: - media aritmetic simpl, pentru distribuiile de frecven cu frecvene unitare. 1 formula de calcul: = N

Xi
i =1

sau

1 n X = Xi n i =1

unde N=numrul de observaii populaionale n=numrul de observaii din eantion X=valoarea variabilei aleatoare msurate - media aritmetic ponderat, pentru distribuiile de frecven cu frecvene neunitare.

formula de calcul:

fi = N
i =1

i =1 N

Xifi

sau

fi = n
i =1

i =1 n

Xifi

unde N=numrul de observaii populaionale n=numrul de observaii din eantion Xi=valoarea variabilei aleatoare msurate, cu frecvena fi Exemple: a) Fie Xi o va ntr-o populaie, cu urmtoarele valori: 2 5 1 4 3 Media aritmetic va fi: = 1/5(2+5+1+4+3) = 15/5 = 3 Dac nlocuim valoarea fiecrei variabile Xi cu valoarea mediei aritmetice, obinem: 3+3+3+3+3=15, ceea ce corespunde definiiei mediei. b) Dac ne referim la distribuia de frecven din exemplul 1, se poate calcula media ponderat: = 1/10[(5x1)+(6x4)+...+(10x1)] = 70/10 = 7 c) Pentru a calcula media ponderat pentru distribuia de frecven din exemplul 2, se va lua n considerare valoarea central a fiecrei clase, care reprezint fiecare clas. X = 1/20[(19.3x1)+...+(20.8x2)] = 401.6/20 = 20.08 Observnd diferenele (deviaiile) ntre fiecare valoare observat i medie, cu ct |Xi - X | se apropie de 0, cu att media se apropie mai mult de valorile observate, deci caracterizeaz bine ntreaga populaie sau eantion. Dac lum n considerare urmtoarele exmple: Exemplul 1A: Variabila Observaia Media aritmetic X1 2.0 2.5 X2 2.5 2.5 X3 1.5 2.5 X4 3.5 2.5 X5 4.5 2.5 X6 1.0 2.5 16.0 16.0 Exemplul 1B: Variabila Observaia Media aritmetic X1 2.0 1000.0 X2 3.0 1000.0 X3 2995.0 1000.0

Deviaia -0.5 0 -1.0 1.0 2.0 -1.5 0.0 Deviaia -998.0 -997.0 1995.0

3000.0

3000.0

0.0

In exemplul 1A, media easte foarte apropiat de valorile observate; n urmtorul exemplu valoarea mediei este mult efectat de a treia valoare observat i nu mai caracterizeaz bine ntregul eantion. Dar, din ambele exemple se poate observa c:

( Xi X ) = 0
i

Aceasta reprezint o caracteristic important a mediei. O alt caracteristic important a mediei este c:

( Xi X )
i

Modul Definiie: pentru o distribuie de frecven dat, modul reprezint valoarea observat care apare de cele mai multe ori (frecvena de apariie maxim). Pentru va discrtete, modul poate fi obinut direct din distribuia de frecven. Pentru va continue i reprezentate prin clase, modul poate fi calculat din formula: mod = L
d1 c d1 +d 2

unde L=valoarea minim a clasei modale d1=diferena dintre frecvena clasei modale i frecvena clasei precedente d2= diferena dintre frecvena clasei modale i frecvena clasei urmtoare c=lungimea claselor Exemple: pentru datele din exemplul 1: mod=6 pentru datele din exemplul 2: mod=19.8 Modul este mai puin utilizat n prelucrrile statistice dect media. Un dezavantaj al modului este acela c pentru un numr mic de observaii s-ar putea s nu existe mod. Exist distribuii bi sau multi-modale. Mediana Definiie: pentru o distribuie de frecven ordonat (de la cea mai mic valoare la cea mai mare), media reprezint valoarea de la mijlocul distribuiei.
6 0.3 = 19.98 6+4

Pentru va discrete, media este valoarea de pe locul (N+1)/2. Pentru date grupate: mediana = L+
N / 2 F c fm

unde L=cea mai mic valoare din clasa medianei N=numr de observaii F=suma frecvenelor pn la clasa medianei (exclusiv) fm=frecvena clasei mediane Exemple: pentru datele din exemplul 1, dup ordonarea datelor: mediana=(6+7)/2=6.5, pentru c (10+1)/2=5.5 pentru datele din exemplul 2: mediana=19.8+
20 / 2 3 0.3=20.06 8

Principalul avantaj al mediei este acela c nu este afectat de valorile extreme. Dei n ultima vreme este din ce n ce mai folosit n prelucrrile statistice, totui este mai puin utilizat dect media. Cuantilele Plecnd de la median, se poate defini valoarea care este mediana valorilor de la stnga medianei; aceast valoare reprezint 25% (1/4) din distribuie i se numete cuartil. In orice distribuie exist 3 cuartile: prima relativ la 25% din valori, a doua care este de fapt mediana i reprezint 50% din valori, a treia care corespunde la 75% din valori. In acelai mod se pot defini decilele ca valoarea sub care sunt situate 10% din observaii. Imprtierea sau dispersia Cnd datele sunt foarte diferite, media nu caracterizeaz bine distribuia, pentru c dou seturi de date pot produce aceeai medie dar pot fi foarte diferite n ceea ce privete variabilitatea. Trebuie construite nite msurtori care s arate ct de mult difer observaiile de o valoare de referin (de obicei media sau mediana). Dispersia fa de medie

Lund n considerare deviaiile fa de medie, deviaiile individuale arat dac observaiile sunt similare sau nu. Se utilizeaz ca msur a variaiei, media deviaiilor la ptrat; aceast msur se numete varian i se noteaz cu 2 pentru populaie (N observaii) i cu s2 pentru eantioane (n observaii). 2 = 1 N

( Xi ) 2 sau
1

s2=

1 n ( Xi X ) 2 n 1

In practic, variana se calculeaz prin mprirea la (n-1) n loc de n. Dac va este reprezentat ntr-o distribuie de frecven, cele 2 formule de mai sus devin: 2 = 1 N

f ( X
i 1

) 2

sau

s2=

1 n fi ( X i X ) 2 n 1

Rdcina ptrat a varianei se numete deviaie standard, i are formula: =


1 N

fi ( Xi ) 2
1

sau

s=

1 n fi ( Xi X ) 2 n 1

O alt msur a variaiei este coeficientul de variaie, obinut prin mprirea deviaiei standard la medie:

V= (pentru populaie)

sau

v=

s X

(pentru eantion)

Calculndu-se media i variana, se poate ti dac media este sau nu relevant. Exemple: utiliznd datele din exemplul 1: 6 7 6 8 7 6 9 10 5 6

=7, deviaiile i ptratul deviaiilor sunt: -1 0 i 1 0 0 1 1 4 1 9 4 1 0 -1 -1 2 1 3 -2 -1

cu un total de 22, deci: 2=22/10=2.2 V=1.48/7=0.21 =


2.2 =1.48

21% fa de medie

utiliznd datele grupate din exemplul 2: Clasa 19.2-19.4 19.5-19.7 19.8-20.0 20.1-20.3 20.4-20.6 20.7-20.9 deci: s2= 2.9520/19=0.1554 s= 0..1554 = 0.3924 v=0.3924/20.08=0.0196 Valoarea central 19.3 19.6 19.9 20.2 20.5 20.8 Frecvena absolut 1 2 8 4 3 2 20 Media 20.08 20.08 20.08 20.08 20.08 20.08 Deviaia fa de medie -0.78 -0.48 -0.18 0.12 0.42 0.72 Ptratul deviaiei 0.6084 0.2304 0.0324 0.0144 0.1764 0.5184 Frecv. x ptratul deviaiei 0.6084 0.4608 0.2592 0.0576 0.5292 1.0368 2.9520

sau 2%

Modulul 2C Distribuiile principale S-a dovedit tinnific c teoria probabilitilor st la baza metodelor statistice de inferen. Inferena statistic este procesul prin care se pot trage concluzii referitoare la o populaie din valorile msurate ntr-un eantion (cu alte cuvinte generalizarea rezultatelor obinute pe eantion la ntraga populaie). Distribuia normal (gaussian) Este distribuia cea mai important i mai utilizat n statistic. Este foarte important deoarece multe distribuii ale msurtorilor practice n populaii aproximeaz curba normal (clopotul lui Gauss). Mai important poate, n tehnicile de obinere a inferenei statistice, distribuia normal ocup un loc central.

Chiar dac distribuia valorilor dintr-un eantion nu are chiar forma curbei normale, n anumite condiii generale distribuia normal st la baza inferenei statistice. Distribuia normal este o distribuie teoretic de probabiliti i are ecuaia general: f (X) = N(x;x;2x) =
1 x 2 [ ] 1 e2 x 2

unde: x i x sunt valorile ateptate ale mediei i abaterii standard pentru va X. X este o va continu cu valori ntre -X Reprezentarea grafic a acestei distrubuii este:

Caracteristicile principale ale acestei distribuii sunt: 1. Distribuia normal este unimodal, cu o form de clopot , i simetric dup x. 2. Principalii parametri ai distribuiei normale sunt: media (x) i abaterea standard (x). Schimbnd valoarea lui x , se deplaseaz ntreaga distribuie de-a lungul axei Ox. Modificnd valoarea lui x, se modific gradul de mprtiere al distribuiei. Cu ct x este mai mic, cu att curba se strnge mai mult n jurul mediei. x furnizeaz mai multe informaii dect x. 3. Curba este definit ntre - i +. 4. Curba are dou puncte de inflexiune, corespunznd valorilor: x=2 Dac o va are o distribuie normal, probabilitatea ca x s aib o valoare n intervalul (a,b) este: prob (aX=xb) =

f ( x ) dx =
a

unde f(x) este funcia definit pentru distribuia normal. Din fericire, se poate calcula aceast probabilitate destul de simplu. Pentru acest scop, se definete distribuia normal standard, care are media 0 i abaterea standard 1:

f(Z) =

1 2 1 z e 2 = N(Z;0;1) 2

Se poate obine n orice situaie distribuia normal standard, utiliznd urmtoarea transformare: Z=
( X )

Pentru distribuia normal standard exist tabele de calcul al integralei de mai sus. Dac se obine valoarea lui Z, se poate calcula apoi valoarea lui X. Exemplu: Presupunnd c media i abaterea standard pentru o distribuie normal sunt i , s se calculeze valorile astfel nct prob (x1Xx2)=0.95 Deci, trebuie s gsim valorile lui x1 i x2 cunoscnd probabilitatea. Deoarece distribuia normal standard este simetric fa de 0, se vor lua n considerare doar valorile pozitive; se va mpri deci probabilitatea la 2 (0.95/2=0.475). Din tabele se va gsi valoarea cea mai apropiat sau egal cu 0.475. Aceast valoare este 1.96 i va constitui valoarea din dreapta a intervalului: 0Z1.96 Prin simetrie, cellalt capt al intervalului va avea valoarea -1.96. Deci: prob (-1.96Z1.96)=0.95 Se poate obine uor valoarea lui X: x1=-1.96 x2=+1.96 Distribuia 2 Presupunem c X1,X2,......,Xn sunt n variabile aleatoare normale i independente., cu aceeai medie i aceeai varian 2. Valorile standard corespunztoare sunt U1,U2,......,Un. Se poate defini acum o nou variabil: Yn=Yi=Ui2 i=1,2,.....,n

Aceast variabil se numete 2 i are n grade de libertate, unde n este numrul de variabile independente din formula de mai sus. Cu ct n este mai mare, distribuia 2 tinde s se apropie de distribuia normal. Distribuia t-Student Este o alt distribuie important care deriv din distribuia normal i se definete ca raportul ntre o variabil standard normal i rdcina ptrat a unei valori independente 2 mprit la numrul de grade de libertate.

Fiind dat o variabil normal X cu gradele de libertate N(,) i variabila 2n, independente ntre ele, se poate defini variabila t-Student astfel: t=
( X ) /

2 / n

i cu funcia de densitate asociat. Variabila t ia valori ntre - i +. Distribuia t este simetric fa de 0 i este mai mprtiat dect distribuia N(0,1). Totui, cu ct numrul de grade de libertate este mai mare cu att distribuia t tinde ctre distribuia N(0,1). Deci pentru n ct mai mare, se pot utiliza tabelele pentru distribuia normal standard. Testele de comparaie Demersul necesar construirii unui criteriu de semnificaie pornete de la stabilirea ipotezei nule, H0, care postuleaz faptul c nu exist nici o diferen semnificativ ntre indicatorii obinui din eantion i cei ai populaiei. Aceti indicatori sunt de regul media (sau proporia), abaterea standard i efectivul. Pentru verificarea ipotezei statistice se utilizeaz diferite teste de semnificaie statistic, constnd din calcularea unei statistici (t , u, z, etc). i din stabilirea de reguli precise de acceptare sau de respingere a ipotezei nule, H 0, cu o anumit probabilitate. Pentru un anumit test statistic, valoarea probabilitii sub care se respinge ipoteza nul se numete prag de semnificaie i este ales de cercettor. La testarea semnificaiei se pot comite dou tipuri de erori: eroarea de spea I-a sau , adic decizia de a respinge ipoteza nul cnd aceasta este adevrat eroarea de spea a II-a sau , adic decizia de a aceepta n mod eronat ipoteza nul cnd aceasta este fals S-a demonstrat c probabilitatea de a comite o eroare de spea II-a descrete odat cu creterea mrimii eantionului. Acceptarea ipotezei nule presupune c diferena testat este nesemnificativ, iar respingerea ei c diferena este semnificativ. Testul t-Student Se utilizeaz pentru compararea mediilor a dou eantioane independente. Cu alte cuvinte, se dorete s se aprecieze dac diferena ntre mediile obinute din dou eantioane este semnificativ statistic sau se datoreaz ntmplrii.

Pentru folosirea testului Student se impune o restricie privind variana celor dou eantioane, cerndu-se ca diferena dintre ele s nu depeasc un anumit raport. In acest scop se aplic testul F, prin care raportul dintre valoarea cea mai mare cea mai mic de la cele dou variane se compar cu o valoare F, dependent de mrimea riscului asumat i de gradele de libertate din fiecare eantion. In cazul eantioanelor cu cel puin 50 de observaii, compararea valorilor calculate se face cu un parametru tabelar u. Condiii: mediile cunoscute, dispersiile cunoscute. Ipoteza nul: x1 = x 2 . Pentru luarea deciziei trebuie testat inegalitatea:
| x1 x 2| s12 s2 2 + n1 1 n 2 1 > u

unde: x1 i x 2 - mediile n primul i respectiv al doilea eantion s12 i s22 - varianele n primul i respectiv al doilea eantion n1 i n2 - mrimea celor dou eantioane (numr de observaii) u - valoarea tabelar, pentru distribuia normal, corespunztoare unui risc Dac inegalitatea este adevrat, diferena ntre medii este semnificativ. Exemplu: Se testeaz diferena constatat ntre greutatea la natere pe dou eantioane de 101 copii, unul de biei i unul de fete (3000g i respectiv 2950g, o varian de 10000 g2). Aplicnd formula de mai sus, se obine:
|3000 2950| = 3.536 10000 10000 + 100 100

Se constat c valoarea calculat (3.536) este mai mare dect valoarea teoretic din tabel u=0.05=1.96, deci se poate afirma c diferena este semnificativ statistic. Rezult c, pentru o probabilitate de 95% (n 95 de cazuri din 100), bieii sunt mai grei la natere dect fetele, nu numai n cazul celor dou eantioane ci n general n populaia din care provin loturile. Testul 2 Acest test se utilizeaz pentru compararea caracteristicilor calitative. Se poate astfel determina dac dou caracteristici sunt realmente asociate ntr-o populaie sau dac relaia observat este doar rolul hazardului.

Acest test se aplic n dou situaii diferite: pentru tabele de contingena de tip 2x2 i pentru tabele de contingen cu mai mult de dou rnduri sau dou coloane. 1. Compararea unor repartiii observate i ncadrate n tabele 2x2 Forma general a unui tabel de contingen 2x2 este: Atribut 2 Atribut I Varianta I I1 Varianta I I2 Varianta I1 a b Varianta I2 c d Total a+c b+d In acest caz, valoarea lui 2 poate fi calculat cu formula: 2 =
n ( ad bc) 2 ( a + b )( c + d )( a + c)(b + d )

Total a+b c+d n

Dac valoarea calculat a lui 2 > 2, (tabelat, unde de obicei este 0.05, iar reprezint numrul de grade de libertate i n acest caz =1), atunci diferena este semnificativ, respingndu-se ipoteza nul. Ipoteza nul compar varianta I1 cu varianta I2 n ceea ce privete rezultatele obinute, msurate prin atributul 2. Exemplu: Se dorete s se demonstreze c obezitatea este un factor de risc n apariia diabetului. S-au obinut urmtoarele rezultate: Diabet Obezitate Prezent Absent Total Prezent 40 20 60 Absent 30 10 40 Total 70 30 100

Aplicnd formula de mai sus, rezult valoarea calculat a lui 2: 2 =


100( 40x10 30x 20) 2 = 0.79 70x 30x 60x 40

2=0.05,=1=3.841 Deci pentru c 0.79<3.841, rezult c apariia diabetului nu este influenat de obezitate, cu o probabilitate de 95%. 2. Compararea unor repartiii observate i ncadrate n tabele r x c Principiul de testare const n compararea frecvenelor observate de apariie (oi) cu frecvenele calculate (ci), n conformitate cu aplicarea ipotezei nule adic a lipsei oricrei deosebiri. Formula de calcul n acest caz este:

2c =

( o i ci ) 2 > 2 , ci

unde: oi - frecvena observat de apariie ci - frecvena calculat 2, - valoarea teoretic, tabelat, pentru un risc i grade de libertate, calculate dup formula: = (nr.rnduri-1)x(nr.coloane-1) Dac inegalitatea este adevrat, diferena este semnificativ. Aplicarea testului 2 cere ndeplinirea urmtoarelor condiii: a. Eantionul s fie construit aleator. b. Observaiile s fie independente. c. Eantionul s fie mai mare de 50 de observaii i s cuprind mai mult de 5 observaii n fiecare clas a tabelului de contingen. d. Valoarea calculat se obine utilizndu-se valori absolute, nu procente. Exemplu: S-au administrat trei tratamente diferite la trei loturi de bolnavi. S-au nregistrat valorile din tabelul de mai jos. Rezultatul celor trei tratamente difer semnificativ? Starea bolnavului Tratament Vindecai Ameliorai Staionari Total
Trat A Trat B Trat C oi ci oi ci oi ci 20 (80/200)x50=20 30 (80/200)x60=24 30 (80/200)x90=36 20 (90/200)x50=22. 5 25 (90/200)x60=27 45 (90/200)x90=40. 5 10 (30/200)x50=7.5 5 (30/200)x60=9 15 (30/200)x90=13. 5 50 60 90

Total

80

90

30

200

2c = (20-20)2/20+(30-24)2/24+(30-36)2/36+(20-22.5)2/22.5+(25-27)2/27+(4540.5)2/40.5+(10-7.5)2/7.5+(5-9)2/9+(15-13.5)2/13.5 = 6.20 2c = 6.20 < 2t = 9.488 pentru =0.05 (probabilitate de 95%) i =(3-1)x(3-1)=4. Concluzia este c diferena ntre cele trei tratamente este nesemnificativ n ceea ce privete rezultatul obinut.*

S-ar putea să vă placă și