Sunteți pe pagina 1din 50

Statistica analitica

Probabilitati

• Probabilitatea unui eveniment specificat


este fractiunea sau proportia din toate
evenimentele posibile ale evenimentului
specificat intr-o succesiune aproape
nelimitata a probelor in conditii similare.
• Probabilitatea unui eveniment nu poate fi
mai mare de 1 (100%) sau mai mica decat
0 (0%).
Aplicatii

• Valorile probabile intr-o populatie sunt


distribuite intr-o maniera definita care
poate fi folosita pentru a analiza populatia.
• Valorile probabile care nu urmeaza o
distributie pot fi analizate folosind metode
neparametrice.
Tipuri

• Cele mai uzuale distributii de probabilitate


sunt:
a. distributia binomiala
b. distributia normala
c. distributia “t”
d. distributia 2‫( אַ‬Chi)
Calcul

• Probabilitatea unui eveniment este


determinata de formula:
Pr (A) = n/N
Pr (A) = probabilitatea evenimentului A
n = nr. de cate ori evenimentul A s-a produs
N = nr. de cate ori evenimentul A este
posibil sa se produca (nr. total de
evenimente posibile)
Reguli de calcul a probabilitatilor

• Regula aditiva: daca avem cel putin doua


evenimente mutual exclusive sau
“disjuncte” (realizarea unuia inseamna
automat nerealizarea celuilalt) atunci
probabilitatea lui A sau B se calculeaza
prin insumarea probabilitatilor fiecarui
eveniment.
• Calcul: Pr(A sau B)=Pr(A)+Pr (B)
Reguli de calcul a probabilitatilor

• Regula multiplicativa: se aplica in situatia


a 2 sau mai multe evenimente
independente care se produc concomitent
si consta in multiplicarea probabilitatilor
individuale ale evenimentelor.
• Calcul: Pr(A si B)=Pr(A)xPr(B)
Ipoteza nula

• H0 este ipoteza care postuleaza faptul ca


esantioanele sau populatiile pe care le
avem de comparat in cadrul unui studiu,
experiment sau test sunt similare, sau cu
alte cuvinte, orice diferenta este atribuita
sansei si nu unui anumit factor.
Aplicatii si caracteristici

• Ipoteza nula postuleaza absenta unor deosebiri


care pot aparea in orice problema de comparare
statistica.
• Este folosita pentru a defini semnificatia
diferentei. Semnificatia diferentei, numita si
semnificatie statistica, este concluzia ca
diferenta intre esantioane, populatii sau ambele,
este datorata unor factori altora decat sansa.
• Diferenta semnificativa apare cand ipoteza nula
este respinsa.
• Cand ipoteza nula este respinsa, cel putin una
din ipotezele alternative este acceptata, deci
diferenta poate fi explicata prin alt factor decat
sansa.
• Cand nici o diferenta nu poate fi sustinuta intre 2
populatii, inseamna ca se accepta ipoteza nula,
dar nu inseamna ca mediile populatiilor sunt
identice.
• Valoarea probabilitatii pentru care diferenta se
datoreaza numai sansei se numeste nivel de
semnificatie. Daca el este de maximum 5%
atunci ipoteza nula este respinsa si o ipoteza
alternativa este acceptata; spunem ca diferenta
este statistic semnificativa.
• Nivelul de semnificatie se noteaza cu α
sau p-value si este ales de cercetator a
priori.
• In orice procedeu de comparare se pot
emite 2 tipuri de erori:
• Eroarea de speta I care reprezinta decizia
de a respinge ipoteza nula cand ea este
adevarata;
• Eroarea de spata aII-a care reprezinta
decizia de a accepta ipoteza nula cand
aceasta este falsa.
• Probabilitatile erorilor asociate sunt:
Pr (respH0/H0=adevarat)=α=riscul erorii de speta I
Pr(acceptH0/H0=fals)=β=riscul erorii de speta aII-a
1- β = puterea testului
• Pe baza acestei interpretari, in spatiul
esantioanelor multimea valorilor posibile
calculate se divide in 2 intervale:
• Intervalul de acceptare sau “intervalul critic”
reprezinta multimea valorilor pentru care daca o
valoare a statisticii calculate se inscrie printre
valorile sale, se accepta ipoteza nula.
• Intervalul de respingere reprezinta multimea
valorilor pentru care daca o valoare a statisticii
calculate prin test se inscrie printre valorile sale
se respinge ipoteza nula.
• Diferentele statistic semnificative pot sa nu
fie semnificative clinic, si diferentele clinic
importante pot sa nu fie statistic
semnificative.
• Ipoteza nula poate fi testata fie prin test
unilateral “one-tailed test” sau bilateral
“two-tailed test”
Testul unilateral

• Este acel test pentru care intervalul de


respingere este format (dupa distributia
normala) dintr-o singura coada stanga sau
dreapta testul fiind unilateral stang sau
drept.
• Este folosit pentru a testa o ipoteza nula
pentru care ipoteza alternativa este
directionata, comparatia facandu-se intr-
un singur sens , si este mai puternic ca un
test bilateral.
Testul bilateral

• Este acel test pentru care intervalul de


respingere este format din 2 “cozi”-in stanga si
in dreapta curbei
• Este folosit pentru a testa o ipoteza nula nefiind
necesara nici o presupunere privind ipoteza
alternativa
• Se folosesc cand generam ipotezele alternative
si sunt mai utilizate in comparatie cu testele
unilaterale
Calcul

• H0:P1-P0=0 sau P1=P0


• Ha:P1-P0=0 sau P1=P0
Unde P1 este probabilitatea caracteristicii
studiate in esantion, iar P0 este
probabilitatea aceleiasi caracteristici in
populatie sau o probabilitate teoretica sau
din literatura.
Tabele de contingenta si grade de
libertate
• Reprezinta o clasificare a datelor in functie de 2
criterii in cadrul carora datele sunt in continuare
divizate in 2 sau mai multecategorii discrete si
mutual exclusive.
• Tabelul de contingenta in care sunt mai mult de
2 categorii pentru fiecare din cele 2 criterii este
numit “tabelul rxc”.
• Un tabel de contingenta in care avem numai 2
categorii pentru fiecare din cele 2 criterii de
grupare este numit “tabelul 2x2”
Aplicatii

• Este o metoda simpla de prezentare a


datelor si mult folosita cand aplicam testul
chi patrat sau alte teste neparametrice.
• Tabelul 2x2 se foloseste in domeniul
epidemiologiei.
Grade de libertate
• Este un numar legat de efectivul valorilor dintr-o
serie sau o distributie; el poate fi in mod liber
atribuit cand suma valorilor este fixata.
• Intr-un tabel de contingenta, gradele de libertate
reprezinta numarul celulelor din tabel carora li se
pot atribui in mod liber valori, presupunand
totalul si valorile marginale stabilite.
• Daca valorile din aceste celule au fost stabilite,
valorile tuturor celulelor ramase din tabel sunt
determinate in mod automat.
Aplicatie si calcul
• In cadrul unor distributii de probabilitate, cum ar
fi distributia “t” si distributia “2‫ “ אַ‬valorile
probabilitatilor de respingere a ipotezei nule
variaza in functie de numarul de grade de
libertate ale esantionului.
• Calcul: cand distributia are fie o singura linie, fie
o singura coloana, numarul de grade de libertate
este determinat prin formula: df=c-1, daca r=1
sau df=r-1, daca c=1
• Cand tabelul are cel putin 2 linii si/sau cel putin
2 coloane, nr. de grade de libertate este
determinat de formula: df=(r-1)x(c-1)
Distributia unui esantion de 100 nou-
nascuti in functie de sex si de mediul
de rezidenta
Criteriul A (sex)

Criteriul B Masculin Feminin Total


(mediu)
Urban a (21) b (19) a+b (40)

Rural c (32) d (28) c+d (60)

Total a+c (53) b+d (47) n (100)


Distributia binomiala
• Este acea distributie a rezultatelor
obtinute in cadrul unui experiment, cand
acestea au numai valori discrete si mutual
exclusive.
• Aplicatii: este folosita cand ne referim la
probabilitatea a 2 rezultate mutual
exclusive intr-un numar cunoscut de
probe. Probabilitatea fiecaruia dintre cele
2 rezultate este aceeasi in fiecare proba,
dar rezultatul fiecarei probe este
independent de rezultatul altei probe.
Calcul
• Pentru o distributie binomiala, probabilitatea este data
de formula:
f(x) =[n!/x!(n-x)!]pxqn-x
f(x)= probabilitatea obtinerii valorii x in probe
p=probabilitatea unuia din cele 2 rezultate posibile (un
succes) intr-o singura proba
q=probabilitatea celuilalt rezultat posibil (un esec) intr-o
singura proba
n=nr. total de probe din cadrul experimentului
x=nr. de succese obtinute in cadrul unui experiment de n
probe
n-x=numarul de esecuri obtinute in cadrul aceluiasi
experiment
!=semnul factorial
• Distributia binomiala se refera deci la o variabila
aleatorie discreta x pentru care valoarea medie
si dispersia sunt date de formulele:
µx=np
2‫=סּ‬npq

Pentru diverse valori ale lui n si p se obtin


diverse curbe reprezentative pentru
probabilitatile f(x).
Pentru np>10 si nq>10, curbele devin
insuficient de simetrice in jurul valorii lui µx si se
poate asimila distributia binomiala cu o distributie
normala.
• Daca in cazul distributiei binomiale consideram n
foarte mare si probabilitatea p foarte mica, astfel
ca produsul np=θ=x devin:
f(x)=e- θ. Θx/x! probabilitati care conduc la
distributia Poisson. Se demonstreaza ca valoarea
medie si dispersia pentru aceasta distributie
sunt: µx= θ
2‫ = סּ‬θ
x

Prin cresterea lui θ se obtin curbe cat mai


simetrice, astfel pentru θ>20 sau θ=20, distributia
lui Poisson poate fi asimilata cu o distributie
normala.
Distributia normala (Gauss Laplace)

• Este o distributie teoretica, continua,


simetrica, unimodala, si poate, teoretic, sa
varieze intre – infinit si +infinit.
• Curba distributiei normale are doua cozi
simetrice si este determinata prin media µ
si deviatia standard a populatiei ‫סּ‬.
• Media, mediana si modulul unei populatii
distribuite normal sunt egale.
Aplicatii

• Poate fi folosita pentru a studia multe


populatii si esantioane, esantioanele
trebuie sa fie de minimum 30 de cazuri.
• Distributia normala si aproximarea
normala constituie bazele unui numar de
teste analitice, cum ar fi testul t sau chi
patrat.
Raportul critic sau scorul z

• Este numarul deviatiilor standard ce separa un


indicator calculat in esantion de parametrul
corespunzator intr-o populatie normala.
• Cresterea raportului critic corespunde
descresterii probabilitatii de acceptare a ipotezei
nule
• Pot fi calculate si listate proportiile populatiei in
interiorul intervalului si/sau in afara intervalului.
• Intr-o populatie distribuita normal,
aproximativ 68% din populatie este situata
in interiorul unui raport critic, aproximativ
95% din populatie este situata in interiorul
a 2 rapoarte critice ale mediei si in jur de
99,7% este situata in interiorul a 3
rapoarte critice mediei.
• In esantioanele numeroase, raportul critic
este folosit pentru a calcula intervalele de
incredere in jurul mediei de esantion.
Calcul

• z=lx-µl/‫סּ‬
z=raportul critic
x=valoarea de testat
µ=media populatiei
‫=סּ‬deviatia standard a populatiei
Testul t (student)

• Este bazat pe distributia t, distributie care


reflecta o mai mare variatie datorata
sansei in comparatie cu distributia
normala.
• Este continua, simetrica, unimodala,
variaza de la –infinit la +infinit, este mult
mai larga in comparatie cu distributia
normala.
• Este utilizata pentru a analiza esantioane
mici.
• Cand volumele esantioanelor cresc,
distributia t se apropie de distributia
normala, astfel ca pentru un numar infinit
de grade de libertate cele 2 distributii sunt
identice si valorile critice ale lui t sunt
egale cu raportul critic al distributiei
normale.
Testul t pentru un esantion mic

• Testul t pentru un singur esantion mic


compara o singura medie (x) a
esantionului cu media populatiei.
Aplicatii si caracteristici
• Sunt folosite pentru a evalua ipoteza nula pentru
variabile cantitative, pentru esantioane de volum mai
mic de 30 de cazuri.
• Sunt utilizate in analiza pentu care SD din esantioane
sunt substituite ca estimatii pentru SD din populatii.
• Valoarea probabilitatii de respingere a ipotezei nule,
cand aceasta este adevarata α=p-value este obtinuta din
tabela t corespunzatoare lui df=n-1 grade de libertate.
• In cazul esantioanelor mici, sub 30 de cazuri, distributia t
este folosita pentru a calcula intervalele de incredere in
jurul mediei esantioniului.
Calcul
• Valoarea calculata a testului pentru compararea mediei
esantionului cu media populatiei este determinata prin
formula:
• t(df)=lx-µl/(SD/√n)
• t(df)=valoarea calculata a testului la df. gr. de libertate
• df=nr. de grade de libertate
• x=valoarea medie a esantionului
• µ=media populatiei
• SD=deviatia standard
• n=volumul esantionului
• Numitorul ecuatiei se numeste eroarea standard a
mediei esantionului.
Testul t pentru esantioane
independente
• Compara valori medii a 2 esantioane mici.
• Utilitatea si restrictiile sunt aceleasi cu
exceptia ca esantioanele trebuie sa fie sub
30 de cazuri.
• Este nepotrivit cand avem de comparat
mai multe valori medii.
Calcul

• t(df)=lx-yl/SDp√1/n1+1/n2
• SDp=√Σ(xi-x)2+ Σ(yi-y)2/(n1-1)+(n2-1)
• SDp=deviatia standard ponderata a celor
2 esantioane
Testul t pentru esantioane perechi

• Compara valorile medii a 2 esantioane


perechi.
• In acest caz numarul de perechi trebuie sa
fie sub 30.
• t(df)=d /(SDp/√n)
• SDp= √Σ(di-d)2/(n-1)
• di=diferentele in cadrul fiecarei perechi
• d=valoarea medie a diferentelor
• Numitorul testului t pe perechi este
eroarea standard a diferentei mediilor.
• Valoarea calculata a testului t este folosita
pentru a stabili probabilitatea ca diferenta
intre esantioanele perechi, la gradele de
libertate respective sa se datoreze sau nu
sansei.
Eroarea standard si limitele de
incredere
• Este bazata pe un esantion al populatiei si este o
estimatie a deviatiei standard a masuratorilor
pentru populatie.
• Este o masura a acuratetei mediei esantionului
ca o estimatie a mediei populatiei.
• Este raportul dintre deviatia standard si radical
de ordinul 2 din volumul esantionului.
• Este folosita pentru a construi limitele de
incredere in jurul mediei esantionului.
• Este folosita la testul t.
• SEM=SD/√n unde n=nr. de obs. in esantion
Limitele de incredere ale valorii
medii
• Definesc valorile probabile pentru un parametru
al populatiei, pe baza volumului esantionului si a
valorii erorii standard.
• Intervalele de incredere sunt exprimate in
termenii probabilitatii bazate pe eroarea α.
• Un interval de incredere (1- α), exprima faptul
ca probabilitatea ca parametrul populatiei sa se
gaseasca in intervalul de incredere este 1- α, iar
probabilitatea ca parametrul populatiei sa se
gaseasca in afara intervalului de incredere este
α.
• Limitele de incredere ale mediei populatiei
(µ) definesc intervalul de incredere pentru
media populatiei pe baza mediei
esantionului.
• Pentru esantioane mai mari sau egale cu
30 limitele de incredere sunt bazate pe
raportul critic corespunzator probabilitatii
asociate.
• Pentru esantioane mici sub 30 limitele de
incredere sunt bazate pe valorile lui t din
tabele, corespunzator numarului de grade
de libertate si probabilitatii asociate.
Utilitate

• Sunt folosite pentru a estima media


populatiei pe baza mediei esantionului
extras din populatie.
• Cel mai des folosite sunt limitele de
incredere de 95%, care indica faptul ca
probabilitatea ca valoarea mediei
necunoscuta din populatie sa se afle intre
aceste limite este de 95%, iar in afara lor
este de 5%.
Calcul

• Pentru esantioane mari


Limitele de incredere (1- α)=x±zαSEM

• Pentru esantioane mici


Limitele de incredere (1- α)=x±tdf,αSEM
Testul chi patrat 2‫א‬

• Compara o distributie de frecvente absolute


observate cu o distributie teoretica (asteptata)
de frecvente absolute pe baza distributiei de
probabilitate chi patrat.
• Este o distributie continua, simetrica si se
bazeaza pe aproxiamtia normala a distributiei
binomiale. Distributia chi patrat cu 1 grad de
libertate este identica cu distributia patratului
raportului critic.
Aplicatii si caracteristici
• Testul chi patrat de tip rxc este folosit pentru a compara
o distributie observata cu o distributie teoretica sau
compara 2 sau mai multe distributii observate.
• Categoriile de date folosite trebuie sa fie mutual
exclusive si discrete.
• Trebuie folosite numai valori absolute.
• Frecventele teoretice trebuie sa fie mai mari decat 5,
cele observate pot fi mai mici decat 5.
• Valorile probabilitatii pentru respingerea ipotezei nule
sunt obtinute din tabele speciale pentru distributia chi
patrat corespunzator numarului de grade de libertate.
Corectia Yates

• Deoarece distributia chi patrat este bazata


pe aproximatia normala a distributiei
binomiale, se impune o corectie de
continuitate numita corectia Yates,
aceasta consta intr-o modificare in formula
de calcul a testului chi patrat
• Corectia Yates se foloseste pentru
esantioane mici si scade valoarea lui chi
patrat, deci scade probabilitatea
respingerii ipotezei nule.
Calcul

• 2‫א‬c(df)=Σ (|Oi-Ei|-1/2)2/Ei
• 2 ‫א‬c(df)=valoarea calculata a testului chi
patrat cu corecta Yates
• Oi=frecventele absolute observate din
fiecare celula a tabelului
• Ei=frecventele teoretice corespunzatoare
frecventelor observate
• ½=corectia yates
Testul chi patrat 2x2

• Este un caz particular si se aplica pantru


tabelele de contingenta de tip 2x2 si are
un grad de libertate.
• 2‫א‬c(1)=n(|ad-bc|-n/2)2/(a+b)(c+d)(a+c)
(b+d)
Testul McNemar

• Este un test chi patrat 2x2 specific pentru


compararea esantioanelor perechi.
• Ipoteza nula care este de testat este
aceea ca frecventele asteptate pentru
perechile discordante sunt egale.
• Testul are un grad de libertae si se poate
calcula dupa formula:
• 2‫א‬c=(|f-g|-1)2/f+g unde f si g sunt valorile
perechilor discordante