Sunteți pe pagina 1din 50

Statistica analitica

Probabilitati
Probabilitatea unui eveniment specificat
este fractiunea sau proportia din toate
evenimentele posibile ale evenimentului
specificat intr-o succesiune aproape
nelimitata a probelor in conditii similare.
Probabilitatea unui eveniment nu poate fi
mai mare de 1 (100%) sau mai mica decat
0 (0%).
Aplicatii
Valorile probabile intr-o populatie sunt
distribuite intr-o maniera definita care
poate fi folosita pentru a analiza populatia.
Valorile probabile care nu urmeaza o
distributie pot fi analizate folosind metode
neparametrice.
Tipuri
Cele mai uzuale distributii de probabilitate
sunt:
a. distributia binomiala
b. distributia normala
c. distributia t
d. distributia
2
(Chi)
Calcul
Probabilitatea unui eveniment este
determinata de formula:
Pr (A) = n/N
Pr (A) = probabilitatea evenimentului A
n = nr. de cate ori evenimentul A s-a produs
N = nr. de cate ori evenimentul A este
posibil sa se produca (nr. total de
evenimente posibile)
Reguli de calcul a probabilitatilor
Regula aditiva: daca avem cel putin doua
evenimente mutual exclusive sau
disjuncte (realizarea unuia inseamna
automat nerealizarea celuilalt) atunci
probabilitatea lui A sau B se calculeaza
prin insumarea probabilitatilor fiecarui
eveniment.
Calcul: Pr(A sau B)=Pr(A)+Pr (B)
Reguli de calcul a probabilitatilor
Regula multiplicativa: se aplica in situatia
a 2 sau mai multe evenimente
independente care se produc concomitent
si consta in multiplicarea probabilitatilor
individuale ale evenimentelor.
Calcul: Pr(A si B)=Pr(A)xPr(B)

Ipoteza nula
H
0
este ipoteza care postuleaza faptul ca
esantioanele sau populatiile pe care le
avem de comparat in cadrul unui studiu,
experiment sau test sunt similare, sau cu
alte cuvinte, orice diferenta este atribuita
sansei si nu unui anumit factor.
Aplicatii si caracteristici
Ipoteza nula postuleaza absenta unor deosebiri
care pot aparea in orice problema de comparare
statistica.
Este folosita pentru a defini semnificatia
diferentei. Semnificatia diferentei, numita si
semnificatie statistica, este concluzia ca
diferenta intre esantioane, populatii sau ambele,
este datorata unor factori altora decat sansa.
Diferenta semnificativa apare cand ipoteza nula
este respinsa.
Cand ipoteza nula este respinsa, cel putin una
din ipotezele alternative este acceptata, deci
diferenta poate fi explicata prin alt factor decat
sansa.
Cand nici o diferenta nu poate fi sustinuta intre
2 populatii, inseamna ca se accepta ipoteza
nula, dar nu inseamna ca mediile populatiilor
sunt identice.
Valoarea probabilitatii pentru care diferenta se
datoreaza numai sansei se numeste nivel de
semnificatie. Daca el este de maximum 5%
atunci ipoteza nula este respinsa si o ipoteza
alternativa este acceptata; spunem ca diferenta
este statistic semnificativa.
Nivelul de semnificatie se noteaza cu
sau p-value si este ales de cercetator a
priori.
In orice procedeu de comparare se pot
emite 2 tipuri de erori:
Eroarea de speta I care reprezinta decizia
de a respinge ipoteza nula cand ea este
adevarata;
Eroarea de spata aII-a care reprezinta
decizia de a accepta ipoteza nula cand
aceasta este falsa.
Probabilitatile erorilor asociate sunt:
Pr (respH
0
/H
0
=adevarat)==riscul erorii de speta I
Pr(acceptH
0
/H
0
=fals)==riscul erorii de speta aII-
a
1- = puterea testului
Pe baza acestei interpretari, in spatiul
esantioanelor multimea valorilor posibile
calculate se divide in 2 intervale:
Intervalul de acceptare sau intervalul critic
reprezinta multimea valorilor pentru care daca o
valoare a statisticii calculate se inscrie printre
valorile sale, se accepta ipoteza nula.
Intervalul de respingere reprezinta multimea
valorilor pentru care daca o valoare a statisticii
calculate prin test se inscrie printre valorile sale
se respinge ipoteza nula.
Diferentele statistic semnificative pot sa
nu fie semnificative clinic, si diferentele
clinic importante pot sa nu fie statistic
semnificative.
Ipoteza nula poate fi testata fie prin test
unilateral one-tailed test sau bilateral
two-tailed test
Testul unilateral
Este acel test pentru care intervalul de
respingere este format (dupa distributia
normala) dintr-o singura coada stanga sau
dreapta testul fiind unilateral stang sau
drept.
Este folosit pentru a testa o ipoteza nula
pentru care ipoteza alternativa este
directionata, comparatia facandu-se intr-
un singur sens , si este mai puternic ca un
test bilateral.
Testul bilateral
Este acel test pentru care intervalul de
respingere este format din 2 cozi-in stanga si
in dreapta curbei
Este folosit pentru a testa o ipoteza nula nefiind
necesara nici o presupunere privind ipoteza
alternativa
Se folosesc cand generam ipotezele alternative
si sunt mai utilizate in comparatie cu testele
unilaterale
Calcul
H
0
:P
1
-P
0
=0 sau P
1
=P
0
H
a
:P
1
-P
0
=0 sau P
1
=P
0
Unde P
1
este probabilitatea caracteristicii
studiate in esantion, iar P
0
este
probabilitatea aceleiasi caracteristici in
populatie sau o probabilitate teoretica sau
din literatura.

Tabele de contingenta si grade de
libertate
Reprezinta o clasificare a datelor in functie de 2
criterii in cadrul carora datele sunt in continuare
divizate in 2 sau mai multecategorii discrete si
mutual exclusive.
Tabelul de contingenta in care sunt mai mult de
2 categorii pentru fiecare din cele 2 criterii este
numit tabelul rxc.
Un tabel de contingenta in care avem numai 2
categorii pentru fiecare din cele 2 criterii de
grupare este numit tabelul 2x2
Aplicatii
Este o metoda simpla de prezentare a
datelor si mult folosita cand aplicam testul
chi patrat sau alte teste neparametrice.
Tabelul 2x2 se foloseste in domeniul
epidemiologiei.
Grade de libertate
Este un numar legat de efectivul valorilor dintr-o
serie sau o distributie; el poate fi in mod liber
atribuit cand suma valorilor este fixata.
Intr-un tabel de contingenta, gradele de
libertate reprezinta numarul celulelor din tabel
carora li se pot atribui in mod liber valori,
presupunand totalul si valorile marginale
stabilite.
Daca valorile din aceste celule au fost stabilite,
valorile tuturor celulelor ramase din tabel sunt
determinate in mod automat.
Aplicatie si calcul
In cadrul unor distributii de probabilitate, cum ar
fi distributia t si distributia
2
valorile
probabilitatilor de respingere a ipotezei nule
variaza in functie de numarul de grade de
libertate ale esantionului.
Calcul: cand distributia are fie o singura linie, fie
o singura coloana, numarul de grade de libertate
este determinat prin formula: df=c-1, daca r=1
sau df=r-1, daca c=1
Cand tabelul are cel putin 2 linii si/sau cel putin
2 coloane, nr. de grade de libertate este
determinat de formula: df=(r-1)x(c-1)
Distributia unui esantion de 100 nou-
nascuti in functie de sex si de mediul
de rezidenta
Criteriul A (sex)
Criteriul B
(mediu)
Masculin Feminin Total
Urban a (21) b (19) a+b (40)
Rural c (32) d (28) c+d (60)
Total a+c (53) b+d (47) n (100)
Distributia binomiala
Este acea distributie a rezultatelor
obtinute in cadrul unui experiment, cand
acestea au numai valori discrete si mutual
exclusive.
Aplicatii: este folosita cand ne referim la
probabilitatea a 2 rezultate mutual
exclusive intr-un numar cunoscut de
probe. Probabilitatea fiecaruia dintre cele
2 rezultate este aceeasi in fiecare proba,
dar rezultatul fiecarei probe este
independent de rezultatul altei probe.
Calcul
Pentru o distributie binomiala, probabilitatea este data
de formula:
f(x) =[n!/x!(n-x)!]p
x
q
n-x
f(x)= probabilitatea obtinerii valorii x in probe
p=probabilitatea unuia din cele 2 rezultate posibile (un
succes) intr-o singura proba
q=probabilitatea celuilalt rezultat posibil (un esec) intr-o
singura proba
n=nr. total de probe din cadrul experimentului
x=nr. de succese obtinute in cadrul unui experiment de n
probe
n-x=numarul de esecuri obtinute in cadrul aceluiasi
experiment
!=semnul factorial
Distributia binomiala se refera deci la o variabila
aleatorie discreta x pentru care valoarea medie
si dispersia sunt date de formulele:

x
=np

2
=npq
Pentru diverse valori ale lui n si p se obtin
diverse curbe reprezentative pentru
probabilitatile f(x).
Pentru np>10 si nq>10, curbele devin
insuficient de simetrice in jurul valorii lui
x
si se
poate asimila distributia binomiala cu o distributie
normala.

Daca in cazul distributiei binomiale consideram n
foarte mare si probabilitatea p foarte mica, astfel
ca produsul np==x devin:
f(x)=e
-
.
x
/x! probabilitati care conduc la
distributia Poisson. Se demonstreaza ca valoarea
medie si dispersia pentru aceasta distributie
sunt:
x
=

2
x
=
Prin cresterea lui se obtin curbe cat mai
simetrice, astfel pentru >20 sau =20, distributia
lui Poisson poate fi asimilata cu o distributie
normala.
Distributia normala (Gauss Laplace)
Este o distributie teoretica, continua,
simetrica, unimodala, si poate, teoretic, sa
varieze intre infinit si +infinit.
Curba distributiei normale are doua cozi
simetrice si este determinata prin media
si deviatia standard a populatiei .
Media, mediana si modulul unei populatii
distribuite normal sunt egale.
Aplicatii
Poate fi folosita pentru a studia multe
populatii si esantioane, esantioanele
trebuie sa fie de minimum 30 de cazuri.
Distributia normala si aproximarea
normala constituie bazele unui numar de
teste analitice, cum ar fi testul t sau chi
patrat.
Raportul critic sau scorul z
Este numarul deviatiilor standard ce separa un
indicator calculat in esantion de parametrul
corespunzator intr-o populatie normala.
Cresterea raportului critic corespunde
descresterii probabilitatii de acceptare a ipotezei
nule
Pot fi calculate si listate proportiile populatiei in
interiorul intervalului si/sau in afara intervalului.

Intr-o populatie distribuita normal,
aproximativ 68% din populatie este
situata in interiorul unui raport critic,
aproximativ 95% din populatie este
situata in interiorul a 2 rapoarte critice ale
mediei si in jur de 99,7% este situata in
interiorul a 3 rapoarte critice mediei.
In esantioanele numeroase, raportul critic
este folosit pentru a calcula intervalele de
incredere in jurul mediei de esantion.
Calcul
z=lx-l/
z=raportul critic
x=valoarea de testat
=media populatiei
=deviatia standard a populatiei
Testul t (student)
Este bazat pe distributia t, distributie care
reflecta o mai mare variatie datorata
sansei in comparatie cu distributia
normala.
Este continua, simetrica, unimodala,
variaza de la infinit la +infinit, este mult
mai larga in comparatie cu distributia
normala.
Este utilizata pentru a analiza esantioane
mici.
Cand volumele esantioanelor cresc,
distributia t se apropie de distributia
normala, astfel ca pentru un numar infinit
de grade de libertate cele 2 distributii sunt
identice si valorile critice ale lui t sunt
egale cu raportul critic al distributiei
normale.
Testul t pentru un esantion mic
Testul t pentru un singur esantion mic
compara o singura medie (x) a
esantionului cu media populatiei.
Aplicatii si caracteristici
Sunt folosite pentru a evalua ipoteza nula pentru
variabile cantitative, pentru esantioane de volum mai mic
de 30 de cazuri.
Sunt utilizate in analiza pentu care SD din esantioane
sunt substituite ca estimatii pentru SD din populatii.
Valoarea probabilitatii de respingere a ipotezei nule,
cand aceasta este adevarata =p-value este obtinuta din
tabela t corespunzatoare lui df=n-1 grade de libertate.
In cazul esantioanelor mici, sub 30 de cazuri, distributia t
este folosita pentru a calcula intervalele de incredere in
jurul mediei esantioniului.
Calcul
Valoarea calculata a testului pentru compararea mediei
esantionului cu media populatiei este determinata prin
formula:
t(df)=lx-l/(SD/n)
t(df)=valoarea calculata a testului la df. gr. de libertate
df=nr. de grade de libertate
x=valoarea medie a esantionului
=media populatiei
SD=deviatia standard
n=volumul esantionului
Numitorul ecuatiei se numeste eroarea standard a
mediei esantionului.
Testul t pentru esantioane
independente
Compara valori medii a 2 esantioane mici.
Utilitatea si restrictiile sunt aceleasi cu
exceptia ca esantioanele trebuie sa fie sub
30 de cazuri.
Este nepotrivit cand avem de comparat
mai multe valori medii.
Calcul
t(df)=lx-yl/SDp1/n
1
+1/n
2
SDp=(x
i
-x)
2
+ (y
i
-y)
2
/(n
1
-1)+(n
2
-1)
SDp=deviatia standard ponderata a celor
2 esantioane

Testul t pentru esantioane perechi
Compara valorile medii a 2 esantioane
perechi.
In acest caz numarul de perechi trebuie sa
fie sub 30.
t(df)=d /(SDp/n)
SDp= (d
i
-d)
2
/(n-1)
d
i
=diferentele in cadrul fiecarei perechi
d=valoarea medie a diferentelor
Numitorul testului t pe perechi este
eroarea standard a diferentei mediilor.
Valoarea calculata a testului t este folosita
pentru a stabili probabilitatea ca diferenta
intre esantioanele perechi, la gradele de
libertate respective sa se datoreze sau nu
sansei.
Eroarea standard si limitele de
incredere
Este bazata pe un esantion al populatiei si este o
estimatie a deviatiei standard a masuratorilor
pentru populatie.
Este o masura a acuratetei mediei esantionului
ca o estimatie a mediei populatiei.
Este raportul dintre deviatia standard si radical
de ordinul 2 din volumul esantionului.
Este folosita pentru a construi limitele de
incredere in jurul mediei esantionului.
Este folosita la testul t.
SEM=SD/n unde n=nr. de obs. in esantion
Limitele de incredere ale valorii
medii
Definesc valorile probabile pentru un parametru
al populatiei, pe baza volumului esantionului si a
valorii erorii standard.
Intervalele de incredere sunt exprimate in
termenii probabilitatii bazate pe eroarea .
Un interval de incredere (1- ), exprima faptul
ca probabilitatea ca parametrul populatiei sa se
gaseasca in intervalul de incredere este 1- , iar
probabilitatea ca parametrul populatiei sa se
gaseasca in afara intervalului de incredere este
.
Limitele de incredere ale mediei populatiei
() definesc intervalul de incredere pentru
media populatiei pe baza mediei
esantionului.
Pentru esantioane mai mari sau egale cu
30 limitele de incredere sunt bazate pe
raportul critic corespunzator probabilitatii
asociate.
Pentru esantioane mici sub 30 limitele de
incredere sunt bazate pe valorile lui t din
tabele, corespunzator numarului de grade
de libertate si probabilitatii asociate.
Utilitate
Sunt folosite pentru a estima media
populatiei pe baza mediei esantionului
extras din populatie.
Cel mai des folosite sunt limitele de
incredere de 95%, care indica faptul ca
probabilitatea ca valoarea mediei
necunoscuta din populatie sa se afle intre
aceste limite este de 95%, iar in afara lor
este de 5%.
Calcul
Pentru esantioane mari
Limitele de incredere (1- )=xz

SEM

Pentru esantioane mici
Limitele de incredere (1- )=xt
df,
SEM
Testul chi patrat
2

Compara o distributie de frecvente absolute
observate cu o distributie teoretica (asteptata)
de frecvente absolute pe baza distributiei de
probabilitate chi patrat.
Este o distributie continua, simetrica si se
bazeaza pe aproxiamtia normala a distributiei
binomiale. Distributia chi patrat cu 1 grad de
libertate este identica cu distributia patratului
raportului critic.
Aplicatii si caracteristici
Testul chi patrat de tip rxc este folosit pentru a compara
o distributie observata cu o distributie teoretica sau
compara 2 sau mai multe distributii observate.
Categoriile de date folosite trebuie sa fie mutual
exclusive si discrete.
Trebuie folosite numai valori absolute.
Frecventele teoretice trebuie sa fie mai mari decat 5,
cele observate pot fi mai mici decat 5.
Valorile probabilitatii pentru respingerea ipotezei nule
sunt obtinute din tabele speciale pentru distributia chi
patrat corespunzator numarului de grade de libertate.
Corectia Yates
Deoarece distributia chi patrat este bazata
pe aproximatia normala a distributiei
binomiale, se impune o corectie de
continuitate numita corectia Yates,
aceasta consta intr-o modificare in formula
de calcul a testului chi patrat
Corectia Yates se foloseste pentru
esantioane mici si scade valoarea lui chi
patrat, deci scade probabilitatea
respingerii ipotezei nule.
Calcul

2
c
(df)= (|O
i
-E
i
|-1/2)
2
/E
i

2
c
(df)=valoarea calculata a testului chi
patrat cu corecta Yates
O
i
=frecventele absolute observate din
fiecare celula a tabelului
E
i
=frecventele teoretice corespunzatoare
frecventelor observate
=corectia yates

Testul chi patrat 2x2
Este un caz particular si se aplica pantru
tabelele de contingenta de tip 2x2 si are
un grad de libertate.

2
c
(1)=n(|ad-bc|-
n/2)
2
/(a+b)(c+d)(a+c)(b+d)
Testul McNemar
Este un test chi patrat 2x2 specific pentru
compararea esantioanelor perechi.
Ipoteza nula care este de testat este
aceea ca frecventele asteptate pentru
perechile discordante sunt egale.
Testul are un grad de libertae si se poate
calcula dupa formula:

2
c
=(|f-g|-1)
2
/f+g unde f si g sunt valorile
perechilor discordante

S-ar putea să vă placă și