P. 1
Indicatori si interpretare statistica

Indicatori si interpretare statistica

|Views: 2,506|Likes:
Published by bad_blue_bastard

More info:

Published by: bad_blue_bastard on Feb 14, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

07/29/2013

pdf

text

original

Prelucrarea statistico-matematică Pentru prelucrarea datelor s-au folosit pachetele software EPI2000, distribuit de OMS, SPSS, specializat în calcule

statistice ştiinţifice, produs de firma SPSS şi modulul Data Analysis al programului MICROSOFT EXCEL, impreuna cu suita XLSTAT pentru MS Excel. Înregistrarea cu ajutorul programului EXCEL a datelor despre pacienţi a produs baza de date iniţială din care s-au extras aspectele semnificative ale acestui studiu. Prelucrarea propriu-zisă s-a făcut cu ajutorul: • comenzilor CrossTab, BasicTables, General Tables, Correlate, Regression şi Factor Analisys, ale programului SPSS, • modulului ANALYSIS al programului EPI2000 specializat în executarea de grafice, tabele şi teste statistice, • comenzilor Pivot Tables, Functions-Statistical şi Chart din MS Excel, si comenzile din modulul XLSTAT pentru realizarea de curbe ROC Interpretarea datelor (si cunostintelor) medicale trebuie sa se bazeze pe o întelegere exacta a termenilor folositi. Din acest punct de vedere, notiunea de prevalenta a unei maladii M este clara, fiind legata de frecventa indivizilor bolnavi. Mai precis, prevalenta maladiei M este numarul de indivizi bolnavi dintr-un esantion de 1000 de indivizi ai populatiei, alesi aleator. Sa ne imaginam ca un test biologic S – care ar putea sa dea rezultat pozitiv sau negativ – produce informatii asupra maladiei M. Ne intereseaza felul în care informatia privind rezultatul testului asupra unui individ va modifica probabilitatea ca acel individ sa aiba maladia M; cu alte cuvinte, cum se schimba probabilitatea apriorica P(M) în probabilitatea a posteriori P(M | S). Numar indivizi: care pentru care Testul S da rezultat pozitiv Testul S da rezultat negativ au maladia M TP FN nu au maladia M FP TN

Apar notiunile de senzitivitate si de specificitate a testului. Definirea lor este usoara daca vom considera urmatorul tabel de contingenta: Evident, un individ oarecare ar putea cadea în una dintre cele patru categorii: – TP (true positive), care au maladia M iar testul da rezultat pozitiv, – TN (true negative), care nu au maladia M iar testul da rezultat negativ, – FP (false positive), care nu au maladia M iar testul da rezultat pozitiv, – FN (false negative), care au maladia M iar testul da rezultat negativ. Cunoscând repartizarea indivizilor, putem defini cu usurinta senzitivitatea testului S prin proportia celor cu rezultat pozitiv în cadrul celor ce au maladia M: Sz =TP/(TP+FN) Analog, specificitatea testului S este proportia indivizilor care testeaza negativ în cadrul celor ce nu au maladia M: Sp=TN/(TN+FP) Testului Chi pătrat a fost folosit pentru a interpreta tabelele de incidenţă; datele au fost apreciate din punctul de vedere al dependenţei între cei doi factori de clasificare, reţinând doar rezultatele sub 5%, considerat un prag de semnificaţie suficient. La testul chi patrat de testare a dependentei intre doi factori s-a calculat rezultatul testului pentru datele din tabelele de incidenta, rezultat care a fost comparat cu valoarea prag care indica o dependenta semnificativa (prag de 95% sau 99%) sau o dependenta inalt semnificativa (prag de 99.9%) intre cei doi factori de clasificare.

• p < 0.5 unitati a diferentei dintre frecventa observata si cea probabila in cadrul numaratorului lui Chi patrat (din formula) inainte de ridicarea la patrat. astfel. Ei O . furnizate direct de programul cu care se realizeaza prelucrarea statistica a datelor. Creste insa riscul unei erori de tipul II (acceptarea unei false ipoteze atunci cand ea este in fapt falsa). diferenţa între cele două medii este foarte înalt semnificativă(VHS). valoarea lui Chi patrat scade. o reducere cu 40% a unei erori de 50% inseamna ca eroarea la final va fi 50% x (100%-40%)=50% x 60%=30%. cunoscute dinainte. • p < 0. prin aplicarea testului de mai sus. Am folosit următoarea interpretare a valorilor lui p. Conditia de validitate limiteaza semnificativ utilizarea testului Chi patrat. Pentru tabele de incidenta care inregistreaza distributia unor factori nominali. de randuri si coloane din tabelul de incidenta studiat. c −1) in( unde r si c sunt nr. Unii statisticieni recomanda utilizarea corectiei de continuitate in cazul unui tabel de contingenta 2x2. Testul Cramer verifica puterea de asociere dintre doi factori nominali si se foloseste pentru tabele cu mai multe randuri si coloane ( pt.05. De exemplu. In cazul in care o frecventa probabila este sub valoarea 2. diferenţa între cele două medii este nesemnificativă(NS).05. valoarea coeficientului lambda arata cu cat se reduce erorea facuta la incadrarea unui subiect (pacient) intr-o categorie a unuia dintre factori daca stim din ce categorie a celuilalt factor face parte. E . . ce implica micsorarea cu 0. o valoare a lui p. este vorba de scadere exprimata in procente din valoarea initiala a erorii. se recomanda utilizarea testului exact al lui Fisher.frecventa teoretica Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depasesc 1. si nu 50%-40%=10%. Rezultatul acestui test se noteaza cu V. testul Chi patrat se aplica atat cu. diferenţa între cele două medii este semnificativă (S). • p > 0. astfel ca si riscul de a face o greseala de tipul I (respingerea ipotezei nule atunci cand aceasta este in fapt veridica) scade semnificativ. Pentru esantioane mici se poate folosi testul aplicand corectia Yates. cat si in lipsa corectiei. V = χ2 / m r −1. Altii se impotrivesc corectiei. Testul Chi pătrat arata daca exista vreo legatura (influenta reciproca) intre doi factori.frecventa observata. decat daca il incadram fara sa stim ce rezultat s-a inregistrat la primul factor. Conditia de aplicare a acestui test este ca totalurile pe randuri si pe coloane sa fie fixe. tabele 2x2 este preferat coeficientul phi).χ2 = ∑ i =1 n (| Oi − Ei |) 2 . Testul exact al lui Fisher se regaseste in majoritatea pachetelor statistice existente si returneaza. sau daca mai mult de 20% din frecventele probabile sunt sub valoarea 5. Scazand valoarea lui Chi patrat.01. sansele ca ipoteza nula sa fie respinsa scad. atunci cand frecventele probabile sunt mici. • p < 0. Atentie. mai precis masoara daca fiecare categorie a unuia dintre factori se asociaza in mod preferential cu una dintre categoriile celuilalt factori. Testul lambda al lui Goodman şi Kruskal (λ) este o măsură de reducere proporţională a erorii. ca si alte teste. cunoscuta si sub denumirea de corectie de continuitate. nu frecvente observate) Testul exact al lui Fisher reprezinta deci o alternativa a testului Chi patrat in examinarea asociatiilor in cadrul unui tabel de contingenta 2 x 2. In literatura medicala. diferenţa între cele două medii este înalt semnificativă(HS). (Atentie: frecvente probabile calculate in cadrul testului. care este si ea un procent.001.

valori ale riscului relativ apropiate de 1 arată aproximativ aceeaşi probabilitate de a face boala. Riscul relativ Este o măsură a legăturii între o boală şi prezenţa unui factor de risc. şi riscul la cei neexpuşi. Riscul la cei neexpuşi este probabilitatea ca un individ neexpus. Există cazuri în care riscul relativ are valori subunitare (mai mici ca 1). de obicei este interpretată ca fiind CAUZALĂ. este raportul dintre riscul la cei expuşi. caz în care este asimilat cu un factor PROTECTOR. ca raportul dintre numărul celor care au făcut boala fiind expuşi (a). Deoarece se măsoară în funcţie de riscul la cei expuşi şi riscul la cei neexpuşi. sau mai puţin inspirat. se apropie cu atât mai mult de cel real. valoarea obţinută este numai o aproximare a valorii reale care s-ar obţine dacă ar fi consideraţi toţi indivizii populaţiei de referinţă (atât cei expuşi cât şi cei neexpuşi). corespunzătoare întregii populaţii. trebuie ştiut ce înseamnă aceste două riscuri. sa facă boala (indiferent din ce motiv). Boala "+" prezentă Factor de risc Expuşi"+" Neexpuşi"-" Total a c a+c "-"absentă b d b+d Total a+b c+d N=a+b+c+d Formulele sunt: • Riscul la cei expuşi: Re = a/(a+b) • Riscul la cei neexpuşi: Rn = c/(c+d) • Riscul relativ RR=Re/Rn. cât şi la neexpuşi. sau de precisă este valoarea calculată a riscului relativ. Riscul la cei expuşi este probabilitatea ca un individ expus. şi numărul tuturor celor neexpuşi (c+d). Odds Ratio Nu are traducere consacrată în limba română. cotele se folosesc la casele de pariuri. este mai MIC riscul de a face boala la cei expuşi. atât la expuşi. ca raportul dintre numărul celor care au făcut boala fiind neexpuşi (c). Are avantajul că se exprimă în procente. şi este mai subiectiv decât riscul relativ. Dacă riscul relativ are valori mult mai mari ca 1. “Raportul şanselor”. în aceste cazuri. Ca interpretare. şi se poate explica cum se determină cât de bună. presupus a influenţa apariţia bolii. trebuie întâi înţeles ce înseamnă cotă. pe care nu o cunoaştem. În toate cazurile. Se foloseşte termenul de “Raportul cotelor”. se interpretează de la caz la caz. care are un grad de obiectivitate mai mare. O întrebare pertinentă este dacă valoarea obţinută prin calcule ca cele de mai sus. şi numărul tuturor celor expuşi (a+b). este o indicaţie că între factorul de risc şi boală este o legătură de corelaţie care. O cotă de 3 la 2 pentru un eveniment. Deşi pare la prima vedere destul de util ca informaţie pe care o poartă. sau RR=(a*(c+d))/(c*(a+b)) Interpretare: Riscul relativ ne spune de câte ori este mai mare probabilitatea de a face boala când eşti expus decât atunci când eşti neexpus. Riscul atribuabil este diferenţa dintre riscul la cei expuşi şi riscul la cei neexpuşi. În general. În engleză. Aceasta este o problemă separată. Se calculează pe un lot cum este cel din exemplul din tabel. se apropie suficient de mult de acea valoarea reală. referitoare la un lot anume. Se calculează pe un lot cum este cel din exemplul din tabel. Deoarece este raportul a două “cote”. înseamnă că la acea casă de . deşi nu este chiar obligatoriu ca factorul de risc să fie CAUZĂ pentru apariţia bolii. şi trebuie considerat că factorul de risc respectiv nu are o influenţă reală asupra apariţiei bolii. De obicei riscul calculat ca mai sus. este mai puţin utilizat în practică. decît la cei neexpuşi. cu cât numărul total de pacienţi din tabel este mai mare. Aceasta deoarece.Tot pentru testarea dependentei intre doi factori am mai folosit riscul relatv si odds ratio. sa facă boala (indiferent din ce motiv). Riscul Relativ.

apoi σ . nu indică o corelaţie reală între factorul de risc şi boală Dacă intervalul de încredere nu conţine numărul 1. ca raportul între cota de îmbolnăviri la cei expuşi şi cota de îmbolnăviri la cei neexpuşi. cea ce înseamnă că expunerea nu influenţrază prezenţa bolii. corelaţie care este considerată de obicei ca fiind CAUZALĂ. intervalul de încredere sre următoarea interpretare: • • Dacă intervalul de încredere conţine numărul 1. d sunt cele patru numere înscrise în cele patru celule ale tabelului de incidenţă. c. valoarea indicatorului RR (sau OR). dar în acest caz. arată cote asemănătoare. sau de dispersie.96 ⋅σ OR . nu e corect să se spună “o şansă din 32…. Valori mult sub 1 arată tot o corelaţie. Dispersia coeficientului OR este dată de formula: 1 1 1 1  2 σ OR = OR 2  + + +  a b c d  unde a. arată o tendinţă de corelaţie între prezenţa expunerii şi a bolii la pacienţi. apoi intervalul de încredere. indică o corelaţie reală între factorul de risc şi boală Pentru a calcula un interval de încredere al lui OR. adică o şansă pentru. cota echipei României la CM de fotbal a fost într-un an de 1 la 32. din cele patru numere ale unui tabel de incidenţă (numerele a. expunerea este considerată un factor de PROTECŢIE. Formula de calcul a intervalului de încredere de 95% este: I 95 % = [ OR −1. în studiile de cohortă. mai rar. Corect este 1 pentru şi 32 contra. Calitatea aproximării este dată de intervalul de încredere de 95% (sau de 99%). valoarea indicatorului RR (sau OR). avem nevoie de deviaţia standard a sa. Estimarea indicelui OR Valoarea obţinută pentru OR folosind un lot extras dintr-o populaţie. se foloseşte Odds Ratio. • Cota de îmbolnăviri la cei expuşi este raportul dintre numărul celor expuşi la care boala este prezentă şi numărul celor expuşi la care boala este absentă • Cota de îmbolnăviri la cei neexpuşi este raportul dintre numărul celor neexpuşi la care boala este prezentă şi numărul celor neexpuşi la care boala este absentă Boala "+" prezentă "-"absentă Factor Expuşi"+" a de risc Neexpuşi"-" c Total a+c b d b+d Total a+b c+d N=a+b+c+d Formulele sunt: • Cota de îmbolnăviri la expuşi a/b • Cota de îmbolnăviri la neexpuşi c/d • Odds Ratio (a*d)/(b*c) Ca şi interpretare. şi trei să se întâmple. Atenţie. De exemplu. b.”. c. în special în studiile Caz-Martor sau. . b. valori apropiate de 1. este semnificativă. d) se poate calcula OR aşa cum s-a vazut mai sus.. este doar o aproximare a valorii reale a lui OR. este nesemnificativă. Sau. Valori mult peste 1. OR +1. două şanse să nu se întâmple.pariuri se consideră că sunt 3 şanse pentru şi 2 şanse contra ca evenimentul să se întâmpe. deşi nu totdeauna este cazul. În studiile clinice.96 ⋅σ OR ] Deci. În cazul indicatorilor RR şi OR. şi 32 contra.

prin aplicarea testului de mai sus. Formula este cea cunoscută: x1 + x2 +. ANOVA poate fi folosită în analiza unor situaţii în care asupra variabilei numerice (variabila dependentă) acţionează simultan mai multe variabile independente. numită şi variabila independentă. La testul „t” de comparare a mediilor (testul Student). iar o mai mică parte din ele sunt situate mult în stânga sau în dreapta mediei. diferenţa între cele două medii este foarte înalt semnificativă(VHS).05 respingem ipoteza H0.. furnizate direct de programul cu care se realizeaza prelucrarea statistica a datelor. prin ANOVA se poate prezenta modul în care aceste variabile independente interacţionează una cu alta şi ce efecte au aceste interacţiuni asupra variabilei dependente.001. valorile din serie sunt situate în majoritate în apropierea mediei. raportul dintre estimatorul varianţei intergrupe (between groups) şi estimatorul varianţei intragrupe (within groups). dacă seria de valori este notată cu o majusculă ca X sau Y. În astfel de cazuri. fiind un foarte bun indiciu al valorii în jurul căreia se grupează datele. X = ..05. Este un indicator simplu şi în acelaşi timp foarte sintetic. Rezultatul acestui test poate fi exprimat ca o probabilitate p. si admitem ca este adevarata ipoteza H1. diferenţa între cele două medii este semnificativă (S). S-au folosit în toate calculele. am folosit următoarea interpretare a valorilor lui p. Se notează cu litera m sau. k unde x – parametrul considerat -Ipoteza alternativă H1: cel puţin valorile a doi parametri sunt diferite între ele Pentru verificarea ipotezei H0. Testul ANOVA (Analysis of Variance) este un procedeu de analiză a varianţei unei variabile numerice sub influienţa unei variabile de grupare. la situaţii în care variabila independentă (variabila de grupare) prezintă trei şi mai multe categorii (niveluri) pentru a verifica dacă sunt diferenţe semnificative între populaţiile din care s-au extras eşantionanele observate.. ANOVA unifactorială (One Way ANOVA) este unul din procedeele de analiză a varianţei pentru o variabilă cantitativă dependentă de o singură variabilă factor (de grupare). care se interpreteaza ca si la testul Student. şi de obicei arată unde tind datele să se aglomereze. Prin ANOVA se compară medii pentru trei şi mai multe subpopulaţii definite de variabila de grupare (variabila independentă). De cele mai multe ori. • p > 0.01.. în Anova se foloseşte testul statistic F – raportul Fisher.. de nul. Daca p este mai mic decat 0. diferenţa între cele două medii este înalt semnificativă(HS). Aceasta metodă permite extensia analizei realizate prin testul t. • p < 0. În analiza variaţiei considerând un singur factor cauză se formulează următoarele 2 ipoteze: -Ipoteza nulă H0: 1= 1=. media se notează cu X sau Y ... xn =m n Media este indicatorul care arată tendinţa centrală a seriei de valori. şi anume. • p < 0. De asemenea. Raportul F este calculat ca raport între doi estimatori ai varianţei. aplicabil asupra a două medii. următorii indicatori statistici: Media aritmetică a unei serii de valori. rezultat furnizat ca un număr între 0 şi 1. trebuie să fie calitativă şi trebuie să aibă un număr redus de categorii (modalităţi). Variabila factor.. • p < 0.05.... diferenţa între cele două medii este nesemnificativă(NS)..Testul t al lui Student de comparare a mediilor pentru 2 loturi propune doua ipoteze statistice: -ipoteza H0 (sau ipoteza de nul): diferenta intre medii este intamplatoare -ipoteza H1: diferenta intre medii este semnificativa statistic Rezultatul p al testului reprezinta probabilitate de a face o eroare dacă se respinge ipoteza H0 a testului.

este mai împrăştiată seria cu media mai mică. C. Coeficientul de variaţie este cel mai fidel indicator al împrăştierii unei serii statistice.Împrăştiere.... deoarece. dar are şi el un inconvenient.. Un mod de a ocoli faptul că suma abaterilor absolute este 0.. În realitate. Dispersia se notează cu D şi are formula: D= ( x1 − X ) 2 + ( x2 − X ) 2 + . şi când. masurile statistice de tendinta centrala si variabilitate (media..V . Unele abateri vor fi pozitive. adică unitatea de măsură este aceeaşi cu a valorilor din serie şi are o valoare comparabilă cu abaterile individuale de la medie.V. Abaterea standard nu are dezavantajele dispersiei. este mai împrăştiată seria cu deviaţia standard mai mare. Valoarea care se obţine astfel se numeşte dispersie şi este un indicator al gradului de împrăştiere al seriei. + ( xn − X ) 2 n −1 După cum se observă.. numărătorul fracţiei din definiţia dispersiei este cu atât mai mare cu cât abaterile individuale de la medie sunt mai mari şi deci este natural să considerăm că o valoare mare a dispersiei arată o împrăştiere mare a valorilor din serie. atunci când media este diferită de 0. deviatia standard) pot sa varieze de la un esantion la altul. Un mod de a măsura aceste abateri de la medie este să se facă diferenţa între toate aceste valori şi media lor. Gradul de variatie depinde atat de variatia care exista in populatie. adică la distanţe mari de medie... prin adunare dau suma apropiata de 0. Daca se iau esantioane repetate din aceeasi populatie... Deviatia standard a MEDIILOR esantioanelor este numita eroare standard a mediei si are formula: . Dispersia. din motive teoretice. este ridicarea la pătrat a acestora înainte de a fi adunate.. Ele nu pot fi adunate. cat si de dimensiunea esantionului. = σ X Aprecierea cu ajutorul coeficientului de variaţie se face mai ales atunci când două serii de valori au medii mult diferite şi deviaţiile standard pot să nu ne dea o indicaţie suficient de utilă. Se notează cu σ şi are formula: σ = D sau σ = ( x1 − X ) 2 + ( x2 − X ) 2 + . Valorile dintr-o serie de valori pot fi mai aglomerate în jurul mediei sau mai dispersate. este cu atât mai fidel cu cât mediile sunt mai depărtate de 0. La medii foarte apropiate de 0 îşi pierde din fidelitate şi nu este indicat să fie folosit. Este raportul dintre deviaţia standard şi medie. Abaterea standard. Suma obţinută ar trebui împărţită la numărul de abateri pentru a se obţine o medie. Mediile esantioanelor pot fi distribuie aproximativ normal daca dimensiunea esantionului este suficient de mare. De reţinut : • La medii aproximativ egale. şi are în general valori foarte mari. împărţirea se face la n-1. • La deviaţii standard aproximativ egale. Dispersia are dezavantajul că se exprimă cu unităţile de măsură ale valorilor din serie. ridicate la pătrat. se exprimă în procente: C. din acest motiv. Coeficientul de variaţie. altele negative. + ( xn − X ) 2 n −1 Acest indicator se exprimă cu aceeaşi unitate de măsură ca şi valorile din seria considerată şi este un indicator foarte fidel al împrăştierii seriei. Acest lucru se întâmplă mai ales atunci când valorile din serie sunt şi negative şi pozitive. media poate fi aproape de 0. pentru a face să dispară diferentele.

. Cuartilele 1.. y 2 . Mediana şi Q3) . se poate calcula paametrul t. calculate cu formula dată mai sus. coeficientul de corelaţie folosit este coeficientul lui Pearson. Formula folosită pentru calculul coeficientului de corelaţie Pearson este: r= ∑(x − X ) ⋅( y i =1 i n i −Y ) i ∑(x − X ) i =1 i n 2 ⋅ ∑(y i =1 n −Y ) 2 unde . pentru care trei sferturi din valorile seriei sunt mai mici decât Q3 şi un sfert mai mari... Pătratul coeficientului de corelaţie. Cuartila Q1 este valoarea dintr-o serie de valori. pentru care jumătate din valorile seriei sunt mai mici decât mediana şi jumătate mai mari. Pentru două serii de date. Pentru a vedea daca valoarea lui r este semnificativa sau nu. X ÷x1 .. ea nu arata variabilitatea care apare in cadrul unui esantion (lot). 2 şi 3 (Q1.. xn şi Y ÷y1 . x2 . Y .. Mediana este valoarea dintr-o serie de valori. Deşi distribuţiile datelor nu sunt intotdeauna de aşa natură ca rezultatele obţinute folosind acest coeficient sa fie cele mai bune. y n . totuşi am considerat ca este cel mai sintetic indicator al corelaţiei. t= r (1 − r 2 ) /( N − 2) . care se poate transforma intr-o valoare p la fel ca rezultatul t al testului Student cu N-2 grade de libertate... Coeficientul de corelaţie. Spre deosebire de deviatia standard. pentru care un sfert din valorile seriei sunt mai mici decât Q1 şi trei sferturi mai mari. sunt valorile măsurate pentru cei doi parametri a căror corelaţie o calculăm şi X ....S .. Cuartila Q3 este valoarea dintro serie de valori. mediile de eşantionare respective.E.. notat r2 a fost considerat coeficient de determinare între cei doi parametri. = σ n = D n( n −1) Eroarea standard a mediei este uneori folosita incorect pentru a rezuma datele.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->