P. 1
Statistica analitica

Statistica analitica

|Views: 1,624|Likes:
Published by Stefania Mocanu

More info:

Published by: Stefania Mocanu on May 14, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PPT, PDF, TXT or read online from Scribd
See more
See less

03/03/2013

pdf

text

original

Statistica analitica

Probabilitati
Probabilitatea unui eveniment specificat este fractiunea sau proportia din toate evenimentele posibile ale evenimentului specificat intr-o succesiune aproape intrnelimitata a probelor in conditii similare. Probabilitatea unui eveniment nu poate fi mai mare de 1 (100%) sau mai mica decat 0 (0%).

Aplicatii
Valorile probabile intr-o populatie sunt intrdistribuite intr-o maniera definita care intrpoate fi folosita pentru a analiza populatia. Valorile probabile care nu urmeaza o distributie pot fi analizate folosind metode neparametrice.

Tipuri
Cele mai uzuale distributii de probabilitate sunt: a. distributia binomiala b. distributia normala c. distributia t d. distributia 2 (Chi)

Calcul
Probabilitatea unui eveniment este determinata de formula: Pr (A) = n/N Pr (A) = probabilitatea evenimentului A n = nr. de cate ori evenimentul A s-a produs sN = nr. de cate ori evenimentul A este posibil sa se produca (nr. total de evenimente posibile)

Reguli de calcul a probabilitatilor Regula aditiva: daca avem cel putin doua evenimente mutual exclusive sau disjuncte (realizarea unuia inseamna automat nerealizarea celuilalt) atunci probabilitatea lui A sau B se calculeaza prin insumarea probabilitatilor fiecarui eveniment. Calcul: Pr(A sau B)=Pr(A)+Pr (B) .

Reguli de calcul a probabilitatilor Regula multiplicativa: se aplica in situatia a 2 sau mai multe evenimente independente care se produc concomitent si consta in multiplicarea probabilitatilor individuale ale evenimentelor. Calcul: Pr(A si B)=Pr(A)xPr(B) .

experiment sau test sunt similare. sau cu alte cuvinte. .Ipoteza nula H0 este ipoteza care postuleaza faptul ca esantioanele sau populatiile pe care le avem de comparat in cadrul unui studiu. orice diferenta este atribuita sansei si nu unui anumit factor.

. Semnificatia diferentei. populatii sau ambele. Este folosita pentru a defini semnificatia diferentei. este datorata unor factori altora decat sansa.Aplicatii si caracteristici Ipoteza nula postuleaza absenta unor deosebiri care pot aparea in orice problema de comparare statistica. numita si semnificatie statistica. este concluzia ca diferenta intre esantioane. Diferenta semnificativa apare cand ipoteza nula este respinsa.

inseamna ca se accepta ipoteza nula. . Daca el este de maximum 5% atunci ipoteza nula este respinsa si o ipoteza alternativa este acceptata. deci diferenta poate fi explicata prin alt factor decat sansa. cel putin una din ipotezele alternative este acceptata.Cand ipoteza nula este respinsa. Valoarea probabilitatii pentru care diferenta se datoreaza numai sansei se numeste nivel de semnificatie. dar nu inseamna ca mediile populatiilor sunt identice. Cand nici o diferenta nu poate fi sustinuta intre 2 populatii. spunem ca diferenta este statistic semnificativa.

Eroarea de spata aII-a care reprezinta aIIdecizia de a accepta ipoteza nula cand aceasta este falsa.Nivelul de semnificatie se noteaza cu sau p-value si este ales de cercetator a ppriori. . In orice procedeu de comparare se pot emite 2 tipuri de erori: Eroarea de speta I care reprezinta decizia de a respinge ipoteza nula cand ea este adevarata.

Probabilitatile erorilor asociate sunt: Pr (respH0/H0=adevarat)= =riscul erorii de speta I Pr(acceptH0/H0=fals)= =riscul erorii de speta aIIaIIa 1. Intervalul de respingere reprezinta multimea valorilor pentru care daca o valoare a statisticii calculate prin test se inscrie printre valorile sale se respinge ipoteza nula. se accepta ipoteza nula. .= puterea testului Pe baza acestei interpretari. in spatiul esantioanelor multimea valorilor posibile calculate se divide in 2 intervale: Intervalul de acceptare sau intervalul critic reprezinta multimea valorilor pentru care daca o valoare a statisticii calculate se inscrie printre valorile sale.

Diferentele statistic semnificative pot sa nu fie semnificative clinic. si diferentele clinic importante pot sa nu fie statistic semnificative. Ipoteza nula poate fi testata fie prin test unilateral one-tailed test sau bilateral onetwotwo-tailed test .

intrun singur sens . . si este mai puternic ca un test bilateral.Testul unilateral Este acel test pentru care intervalul de respingere este format (dupa distributia normala) dintr-o singura coada stanga sau dintrdreapta testul fiind unilateral stang sau drept. Este folosit pentru a testa o ipoteza nula pentru care ipoteza alternativa este directionata. comparatia facandu-se intrfacandu.

Testul bilateral Este acel test pentru care intervalul de respingere este format din 2 cozi -in stanga si in dreapta curbei Este folosit pentru a testa o ipoteza nula nefiind necesara nici o presupunere privind ipoteza alternativa Se folosesc cand generam ipotezele alternative si sunt mai utilizate in comparatie cu testele unilaterale .

iar P0 este probabilitatea aceleiasi caracteristici in populatie sau o probabilitate teoretica sau din literatura. .Calcul H0:P1-P0=0 sau P1=P0 Ha:P1-P0=0 sau P1=P0 Unde P1 este probabilitatea caracteristicii studiate in esantion.

Tabele de contingenta si grade de libertate Reprezinta o clasificare a datelor in functie de 2 criterii in cadrul carora datele sunt in continuare divizate in 2 sau mai multecategorii discrete si mutual exclusive. Un tabel de contingenta in care avem numai 2 categorii pentru fiecare din cele 2 criterii de grupare este numit tabelul 2x2 . Tabelul de contingenta in care sunt mai mult de 2 categorii pentru fiecare din cele 2 criterii este numit tabelul rxc .

.Aplicatii Este o metoda simpla de prezentare a datelor si mult folosita cand aplicam testul chi patrat sau alte teste neparametrice. Tabelul 2x2 se foloseste in domeniul epidemiologiei.

el poate fi in mod liber atribuit cand suma valorilor este fixata. gradele de libertate reprezinta numarul celulelor din tabel carora li se pot atribui in mod liber valori. presupunand totalul si valorile marginale stabilite. . valorile tuturor celulelor ramase din tabel sunt determinate in mod automat. IntrIntr-un tabel de contingenta.Grade de libertate Este un numar legat de efectivul valorilor dintr-o dintrserie sau o distributie. Daca valorile din aceste celule au fost stabilite.

fie o singura coloana.Aplicatie si calcul In cadrul unor distributii de probabilitate.)x(c- . Calcul: cand distributia are fie o singura linie. de grade de libertate este determinat de formula: df=(r-1)x(c-1) df=(r. numarul de grade de libertate este determinat prin formula: df=c-1. nr. cum ar fi distributia t si distributia 2 valorile probabilitatilor de respingere a ipotezei nule variaza in functie de numarul de grade de libertate ale esantionului. daca r=1 df=cr=1 sau df=r-1. daca c=1 df=rc=1 Cand tabelul are cel putin 2 linii si/sau cel putin 2 coloane.

Distributia unui esantion de 100 nounounascuti in functie de sex si de mediul de rezidenta Criteriul A (sex) Criteriul B (mediu) Urban Rural Total Masculin a (21) c (32) a+c (53) Feminin b (19) d (28) b+d (47) Total a+b (40) c+d (60) n (100) .

Aplicatii: Aplicatii: este folosita cand ne referim la probabilitatea a 2 rezultate mutual exclusive intr-un numar cunoscut de intrprobe. Probabilitatea fiecaruia dintre cele probe. exclusive. .Distributia binomiala Este acea distributie a rezultatelor obtinute in cadrul unui experiment. dar rezultatul fiecarei probe este independent de rezultatul altei probe. probe. 2 rezultate este aceeasi in fiecare proba. cand acestea au numai valori discrete si mutual exclusive.

total de probe din cadrul experimentului x=nr.Calcul Pentru o distributie binomiala. probabilitatea este data de formula: f(x) =[n!/x!(n-x)!]pxqn-x =[n!/x!(nf(x)= probabilitatea obtinerii valorii x in probe p=probabilitatea unuia din cele 2 rezultate posibile (un succes) intr-o singura proba intrq=probabilitatea celuilalt rezultat posibil (un esec) intr-o intrsingura proba n=nr. de succese obtinute in cadrul unui experiment de n probe n-x=numarul de esecuri obtinute in cadrul aceluiasi experiment !=semnul factorial .

insuficient de simetrice in jurul valorii lui µx si se poate asimila distributia binomiala cu o distributie normala. . Pentru np>10 si nq>10. curbele devin np>10 nq>10.Distributia binomiala se refera deci la o variabila aleatorie discreta x pentru care valoarea medie si dispersia sunt date de formulele: µx=np 2=npq Pentru diverse valori ale lui n si p se obtin diverse curbe reprezentative pentru probabilitatile f(x).

x/x! probabilitati care conduc la distributia Poisson. distributia 20.Daca in cazul distributiei binomiale consideram n foarte mare si probabilitatea p foarte mica. astfel pentru >20 sau =20. lui Poisson poate fi asimilata cu o distributie normala. Se demonstreaza ca valoarea medie si dispersia pentru aceasta distributie sunt: µx= 2 = x Prin cresterea lui se obtin curbe cat mai simetrice. astfel ca produsul np= =x devin: f(x)=e.. .

sa varieze intre infinit si +infinit. mediana si modulul unei populatii distribuite normal sunt egale. teoretic. Curba distributiei normale are doua cozi simetrice si este determinata prin media µ si deviatia standard a populatiei . continua.Distributia normala (Gauss Laplace) Este o distributie teoretica. simetrica. si poate. Media. unimodala. .

esantioanele trebuie sa fie de minimum 30 de cazuri. cum ar fi testul t sau chi patrat.Aplicatii Poate fi folosita pentru a studia multe populatii si esantioane. . Distributia normala si aproximarea normala constituie bazele unui numar de teste analitice.

intrCresterea raportului critic corespunde descresterii probabilitatii de acceptare a ipotezei nule Pot fi calculate si listate proportiile populatiei in interiorul intervalului si/sau in afara intervalului. .Raportul critic sau scorul z Este numarul deviatiilor standard ce separa un indicator calculat in esantion de parametrul corespunzator intr-o populatie normala.

aproximativ 68% din populatie este situata in interiorul unui raport critic. raportul critic este folosit pentru a calcula intervalele de incredere in jurul mediei de esantion.IntrIntr-o populatie distribuita normal. aproximativ 95% din populatie este situata in interiorul a 2 rapoarte critice ale mediei si in jur de 99. .7% este situata in interiorul a 3 rapoarte critice mediei. In esantioanele numeroase.

Calcul z=lxz=lx-µl/ z=raportul critic x=valoarea de testat µ=media populatiei =deviatia standard a populatiei .

Testul t (student) Este bazat pe distributia t. Este continua. . este mult mai larga in comparatie cu distributia normala. variaza de la infinit la +infinit. simetrica. distributie care reflecta o mai mare variatie datorata sansei in comparatie cu distributia normala. unimodala.

.Este utilizata pentru a analiza esantioane mici. astfel ca pentru un numar infinit de grade de libertate cele 2 distributii sunt identice si valorile critice ale lui t sunt egale cu raportul critic al distributiei normale. distributia t se apropie de distributia normala. Cand volumele esantioanelor cresc.

.Testul t pentru un esantion mic Testul t pentru un singur esantion mic compara o singura medie (x) a esantionului cu media populatiei.

df=nIn cazul esantioanelor mici. . cand aceasta este adevarata =p-value este obtinuta din =ptabela t corespunzatoare lui df=n-1 grade de libertate. Valoarea probabilitatii de respingere a ipotezei nule.Aplicatii si caracteristici Sunt folosite pentru a evalua ipoteza nula pentru variabile cantitative. Sunt utilizate in analiza pentu care SD din esantioane sunt substituite ca estimatii pentru SD din populatii. pentru esantioane de volum mai mic de 30 de cazuri. distributia t este folosita pentru a calcula intervalele de incredere in jurul mediei esantioniului. sub 30 de cazuri.

de grade de libertate x=valoarea medie a esantionului µ=media populatiei SD=deviatia standard n=volumul esantionului Numitorul ecuatiei se numeste eroarea standard a mediei esantionului. de libertate df=nr. gr. .Calcul Valoarea calculata a testului pentru compararea mediei esantionului cu media populatiei este determinata prin formula: t(df)=lxt(df)=lx-µl/(SD/ n) t(df)=valoarea calculata a testului la df.

Testul t pentru esantioane independente Compara valori medii a 2 esantioane mici. . Utilitatea si restrictiile sunt aceleasi cu exceptia ca esantioanele trebuie sa fie sub 30 de cazuri. Este nepotrivit cand avem de comparat mai multe valori medii.

Calcul t(df)=lxt(df)=lx-yl/SDp 1/n1+1/n2 SDp= (xi-x)2+ (yi-y)2/(n1-1)+(n2-1) SDp=deviatia standard ponderata a celor 2 esantioane .

t(df)=d /(SDp/ n) SDp= (di-d)2/(n-1) /(ndi=diferentele in cadrul fiecarei perechi d=valoarea medie a diferentelor . In acest caz numarul de perechi trebuie sa fie sub 30.Testul t pentru esantioane perechi Compara valorile medii a 2 esantioane perechi.

Valoarea calculata a testului t este folosita pentru a stabili probabilitatea ca diferenta intre esantioanele perechi.Numitorul testului t pe perechi este eroarea standard a diferentei mediilor. la gradele de libertate respective sa se datoreze sau nu sansei. .

de obs. Este o masura a acuratetei mediei esantionului ca o estimatie a mediei populatiei. SEM=SD/ n unde n=nr. in esantion . Este folosita pentru a construi limitele de incredere in jurul mediei esantionului.Eroarea standard si limitele de incredere Este bazata pe un esantion al populatiei si este o estimatie a deviatiei standard a masuratorilor pentru populatie. Este folosita la testul t. Este raportul dintre deviatia standard si radical de ordinul 2 din volumul esantionului.

Limitele de incredere ale valorii medii Definesc valorile probabile pentru un parametru al populatiei.. pe baza volumului esantionului si a valorii erorii standard. Intervalele de incredere sunt exprimate in termenii probabilitatii bazate pe eroarea . . iar probabilitatea ca parametrul populatiei sa se gaseasca in afara intervalului de incredere este . Un interval de incredere (1. exprima faptul (1 ca probabilitatea ca parametrul populatiei sa se gaseasca in intervalul de incredere este 1.).

Limitele de incredere ale mediei populatiei (µ) definesc intervalul de incredere pentru media populatiei pe baza mediei esantionului. Pentru esantioane mai mari sau egale cu 30 limitele de incredere sunt bazate pe raportul critic corespunzator probabilitatii asociate. corespunzator numarului de grade de libertate si probabilitatii asociate. Pentru esantioane mici sub 30 limitele de incredere sunt bazate pe valorile lui t din tabele. .

care indica faptul ca probabilitatea ca valoarea mediei necunoscuta din populatie sa se afle intre aceste limite este de 95%. . iar in afara lor este de 5%.Utilitate Sunt folosite pentru a estima media populatiei pe baza mediei esantionului extras din populatie. Cel mai des folosite sunt limitele de incredere de 95%.

Calcul Pentru esantioane mari Limitele de incredere (1.)=x± .)=x±tdf. SEM (1.)=x± Pentru esantioane mici Limitele de incredere (1.)=x±z SEM (1.

Distributia chi patrat cu 1 grad de libertate este identica cu distributia patratului raportului critic. Este o distributie continua.Testul chi patrat 2 Compara o distributie de frecvente absolute observate cu o distributie teoretica (asteptata) de frecvente absolute pe baza distributiei de probabilitate chi patrat. . simetrica si se bazeaza pe aproxiamtia normala a distributiei binomiale.

Categoriile de date folosite trebuie sa fie mutual exclusive si discrete. Valorile probabilitatii pentru respingerea ipotezei nule sunt obtinute din tabele speciale pentru distributia chi patrat corespunzator numarului de grade de libertate.Aplicatii si caracteristici Testul chi patrat de tip rxc este folosit pentru a compara o distributie observata cu o distributie teoretica sau compara 2 sau mai multe distributii observate. Trebuie folosite numai valori absolute. . Frecventele teoretice trebuie sa fie mai mari decat 5. cele observate pot fi mai mici decat 5.

aceasta consta intr-o modificare in formula intrde calcul a testului chi patrat Corectia Yates se foloseste pentru esantioane mici si scade valoarea lui chi patrat. se impune o corectie de continuitate numita corectia Yates. deci scade probabilitatea respingerii ipotezei nule. .Corectia Yates Deoarece distributia chi patrat este bazata pe aproximatia normala a distributiei binomiale.

Calcul (df)= (|Oi-Ei|-1/2)2/Ei c 2 (df)=valoarea calculata a testului chi c patrat cu corecta Yates Oi=frecventele absolute observate din fiecare celula a tabelului Ei=frecventele teoretice corespunzatoare frecventelor observate ½=corectia yates 2 .

2 (1)=n(|ad-bc|c )=n(|ad-bc|n/2)2/(a+b)(c+d)(a+c)(b+d) n/2 .Testul chi patrat 2x2 Este un caz particular si se aplica pantru tabelele de contingenta de tip 2x2 si are un grad de libertate.

Testul McNemar Este un test chi patrat 2x2 specific pentru compararea esantioanelor perechi. Testul are un grad de libertae si se poate calcula dupa formula: 2 =(|f-g|-1)2/f+g unde f si g sunt valorile c=(|f-g|perechilor discordante . Ipoteza nula care este de testat este aceea ca frecventele asteptate pentru perechile discordante sunt egale.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->