Sunteți pe pagina 1din 18

"P" i intervale de ncredere

P i intervalul de ncredere sunt rezultatele invariabile ale testelor statistice, i drept urmare le gsim n toate articolele ce descriu o cercetare original (nc din abstract). Aadar, n finalul unei cercetri, analiza datelor se ncheie prin aplicarea unuia sau mai multor teste statistice (a cror alegere se face n funcie de tipul datelor = variabilelor), iar rezultatele acestor teste sunt p i intervalul de ncredere (CI), care ne arat binecunoscuta "semnificaie statistic". De ce avem nevoie de statistic? Pentru c vrem s tragem concluzii ct mai valide din cantiti limitate de date i diferene importante sunt deseori mascate de variabilitatea biologic i/sau imprecizia experimental. Pe de alt parte, mintea uman exceleaz n gsirea de tipare i relaii i tinde s generalizeze n exces. Se presupune c populaia este infinit, iar noi ne facem ntotdeauna cercetrile pe uneantion finit, fie c este vorba de cteva zeci de subieci, fie c sunt cteva zeci de mii (ca n marile studii cardiologice, de ex. ALLHAT). Statistica (n particular p i CI) ne folosete tocmai pentru a vedea, la sfrit, dac rezultatele obinute pe eantionul nostru sunt valabile n general, pe ntreaga populaie i pot fi extrapolate la aceasta, sau sunt rezultatul ntmplrii. S presupunem c vrem s vedem dac fumatul este factor de risc pentru infarctul de miocard. Pentru aceasta, alegem un eantion de n pacieni (numrul se calculeaz n funcie de 1) semnificaia clinic a fumatului = riscul relativ i/sau riscul atribuibil care consider c merit osteneala a fi evideniate, i de 2) semnificaia statistic pecare vreau s o obin). i urmresc i numr ci fac infarct dintre fumtori i ci dintre nefumtori, i calculez riscul relativ (RR)=2; n urma aplicrii unui test statistic (n acest caz tip X2), obin un p=0,01, iar calculnd intervalul de ncredere al RR, obin CI aparine 1.3 , 4. n privina p-ului, acest lucru nu nseamn altceva dect c, dac n realitate (la nivelul populaiei) riscul de a face infarct al fumtorilor ar fi egal cu riscul de a face infarct al nefumtorilor, probabilitatea ca noi s fi obinut un RR >= 2 pe un eantion de "n subieci" este de 1%. Cu ct p este mai mic, aceast probabilitate (ca rezultatul obinut de noi n eantionul nostru s nu fie cel real) este mai mic. Intervalul de ncredere (de obicei se calculeaz cel 95%) ne d mai multe informaii: n exemplul nostru, ne spune c n realitate (adic la nivelul populaiei), suntem 95% siguri c riscul relativ este ntre 1,3 i 4, adic

n realitate, dac fumezi ai un risc de a face infarct miocardic de la de 1,3 pn la de 4 o ri mai mare dect dac nu ai fuma. A nu se confunda semnificaia statistic cu cea clinic! Nu nseamn c dac p ar fi fost 0,0001 n exemplul de mai sus, fumatul ar fi fost un factode risc mai mare! Ar fi nsemnat doar c sunt mult mai sigur c RR=2 obinut n studiul meu e real, iar intervalul de ncredere corespondent ar fi fost mult mai ngust! Dac, de exemplu, vrem s demonstr m c "medicamentul m" prelunge te viaa n insuficiena cardiac, iar rezultatul este c cei tratai cu placebo au trit n medie 10 ani, iar cei tratai cu m au trit n medie 10 ani i o zi, p=0,000001 arat doar c sunt foarte, foarte sigur c acea zi n plus se datoreaz medicamentului m, i nu este rezultatul ntmplrii. Cu ct p este mai mic, intervalul de ncredere este mai ngust, iar gradul de certitudine mai mare. Un anumit nivel al lui p care indic faptul c o asociere (cum au fost asocierile dintre fumat i infarctul miocardic, sau ntre medicamentul m i supravieuirea mai lung, n exemplele noastre) este semnificativ statistic este determinat arbitrar; n cercetarea medical, acest nivel este stabilit, prin convenie, la 0,05. Aplicnd intervalele de ncredere, asocierea (sau diferena) nu este semnificativ statistic atunci cnd intervalul de ncredere l cup rinde pe 1, n cazul rapoartelor (de ex. risc relativ, odds ratio), sau pe 0, n cazul diferenelor (de ex. risc atribuibil, reducerea riscului relativ, reducerea riscului absolut etc.) (sau n cazul NNT). Drept dovad c p i intervalele de ncredere ne indic acelai lucru (sunt n acelai timp semnificative sau nu statistic), atunci cnd p=0,05, una dintre extremele intervalului de ncredere 95% este 1, n cazul rapoartelor i 0, n cazul diferenelor.

Tipurile de variabile i testele statistice


Alegerea metodei de analiz statistic pentru o anumit problem depinde de comparaia pe care vrem s o facem i de tipurile de variabile utilizate. Aadar, pentru a alege testul potrivit trebuie s ne punem dou ntrebri: Ce fel de date am colectat? Care este scopul nostru? Aceeai analiz o facem i citind un articol, pentru a vedea dac testele utilizate de autorii acestuia sunt cele corecte. Variabilele nominale sunt variabile sub form de nume sau alte simboluri reprezentnd categorii ce nu pot fi ordonate una n raport cu cealalt, de exemplu numele, grupa sanguin, sexul, rasa, culoarea ochilor, diagnosticul etc. Atunci cnd o variabil nominal nu poate lua dect dou valori, ea este o variabil dihotomic (binar, bimodal), cum ar fi sex masculin/feminin, mort/viu, fumtor/nefumtor, prezent/absent, normal/anormal, care a suferit efectul (end-point)/care nu l-a suferit etc. - variabile de tip DA/NU. Variabilele ordinale sunt variabilele ce sunt clasificate n mai mult de dou categorii i la care exist o ordine natural ntre categorii (de la valoarea cea mai mic la cea mai mare) - de exemplu evoluia bolii (agravat, staionar, ameliorat), stadializri (insuficiena cardiac, TNM n cancer), scoruri etc. Chiar dac unele variabile iau valori numerice, ele sunt considerate ordinale pentru c nu ndeplinesc condiiile celor cantitative msurabile (lund exemplul unui scor de calitate a vieii, sau al unei scale

analogice vizuale pentru durere, putem spune c un individ cu scorul 10 are o durere mai mare sau o calitate a vieii mai bun dect un individ cu scorul 8, dar nu nseamn c diferena dintre ei este aceeai cu aceea dintre un individ cu scorul 4 i unul cu scorul 2; la fel, nu putem spune c un individ cu scorul 8 are odurere de dou ori mai puternic sau o calitate a vieii de dou ori mai bun dect un individ cu avnd scorul 4; din acelai motiv, calcularea mediei nu are nici un sens). Variabilele cantitative(msurabile) pot fi continue (variabile cu un numr potenial infinit de valori de-a lungul unui continuum: nlimea, greutatea, TA, vrsta etc.) sau discontinue (discrete) (variabile descrise numai prin uniti ntregi ce nu pot fi msurate n intervale mai mici dect unitatea: frecvena cardiac, numrul de copii etc.). n privina variabilelor cantitative, este important de vzut dac acestea au o distribuie normal (simetric, sub forma clopotului lui Gauss); n cazul acestei distribuii, media este egal cu mediana i cu modul, iar 95% dintre valorile pe care le poate lua variabila se afl n intervalul media dou deviaii standard. Pentru a vedea dac o variabil are distribuie normal, putem folosi orice program statistic i verific m cifric dac media, mediana i modul sunt foarte apropiate (ideal identice, dar n viaa real nu exist ideal), iar media minus dublul deviaiei standard nu trebuie s ia valori negative; sau reprezentm variabila sub forma unei histograme i vizual verificm forma simetric, de clopot. Este important s tim dac distribuia variabilei noastre este normal pentru c numai variabilelor cantitative, cu distribuie normal li se pot aplica testele statistice parametrice! De asemenea, pentru a putea aplica teste statistice parametrice trebuie ca nici dispersia (deviaia standard) celor dou grupuri s nu difere foarte mult. Testele parametrice sunt testele care compar mediile i deviaiile standard ale grupurilor despre care vrem s dovedim c sunt identice sau dimpotriv, diferite, ori media i deviaia standard nu au nici un sens dac nu avem o distribuie normal. S presupunem c vrem s vedem dac TA este diferit la brbaii fa de femeile din Bucureti; pentru aceasta, ideal ar fi s extragem la ntmplare dou eantioane, unul de femei, altul de brbai din Bucureti i s le msurm TA. Cum valorile TA vor avea, probabil, o distribuie normal n cele dou grupuri, atunci pentru a le compara putem folosi un test parametric, care este testul t (Student). Dac vrem s comparm mai multe grupuri deodat (de exemplu vrem s vedem dac TA a moldovenilor, ardelenilor sau regenilor difer ntre ele), folosim analiza varianei n sens unic (one way ANOVA), aplicnd testul F, care ne va arta dac TA este diferit sau nu n cele trei regiuni istorice, fr a ne spune ns care este grupul care difer de celelalte. Testele nonparametrice se aplic pentru variabilele cantitative fr distribu ie normal i pentru variabilele ordinale. S lum un exemplu din revista Medicina Intern 2004, 1:57-59 (Dumitracu DL et. al), n care se compar stresul la pacienii cu dispepsie funcional i la martori, pe baza unui chestionar. Pentru comparaia scorurilor de stres s-a folosit testul t. n primul rnd, n cazul scorurilor nu trebuie folosite teste parametrice, scorurile nefiind variabile cantitative (vezi explicaia de la prezentarea variabilelor ordinale). S ne imaginm, totui, c scorurile de stres sunt variabile cantitative - ca s putem aplica testul t ar trebui ca distribuia lor s fie normal, ori n tabelul 2 putem vedea, de exemplu, scoruri (media i deviaia standard) de genul 0,89 i 0,93; 7,5 i 5,28; 1,25 i 0,93; 0,54 i 0,60; 0,94 i 1,39 (i nc altele), din care se observ clar c distribu ia nu este normal (dac scdem din medie 2 deviaii standard avem scoruri negative, care nu exist n realitate), aadar pentru comparaie ar fi trebuit folosit un test nonparametric (testul MannWhitney U).

Pentru variabilele cantitative care nu au o distribuie normal i pentru cele ordinale se folosesc testele nonparametrice. De exemplu, dac vrem s demonstrm c pacienii cu insuficien cardiac internai n spitalul X sunt mai gravi dect cei internai n spitalul Z, comparnd clasa NYHA de insuficien cardiac ntre cele dou grupuri. Atunci cnd pacienii sunt mperecheai, folosim testel e statistice mperecheate (paired), parametrice sau nonparametrice. Singura mperechere perfect se realizeaz atunci cnd mperechem pacientul cu el nsui, n comparaiile nainte-dup. De exemplu, comparm TA, sau colesterolul unor participani la un studiu nainte de a ncepe tratamentul i dup o lun de tratament. Variabila (TA, colesterolul) fiind continu i cu o distribuie probabil normal, vom folosi un test parametric, i anume testul t mperecheat. Dac variabila de comparat nu are o distribuie normal (de exemplu valoarea creatininei la pacienii cu insuficien renal) sau este o variabil ordinal (stadializarea tumorii, sau clasa NYHA a insuficienei cardiace, sau scorul durerii pe o scal analogic vizual, nainte i dup un tratament), vom folosi un test nonparametric mperecheat, care este testul Wilcoxon. Echivalentul nonparametric al ANOVA (testul F) este testul Kruskal-Wallis. Testele nonparametrice nu in cont de valoarea efectiv a variabilei, ci de ordinea lor (rank tests) care este valoarea cea mai mic, care este urmtoarea i aa mai departe... n cazul variabilelor dihotomice (pentru compararea proporiilor) se folosete testul X2 sau variantele sale Yates i mai ales testul exact al lui Fisher (atunci cnd n tabelul de contingen 2x2 avem ntr-una din csue o valoare ateptat mai mic de 5). De exemplu, atunci cnd vrem s comparm propor ia de pacieni care a fcut infarct n grupul tratat cu statin cu proporia de pacieni care a fcut infarct n grupul tratat cu placebo. De remarcat c n studiile terapeutice, atunci cnd avem de-a face cu efecte surogat studiem variabile cantitative (TA, transaminaze, clasa NYHA, fracia de ejecie, densitatea osoasa etc.), pe cnd n cazul efectelor serioase avem de-a face cu variabile dihotomice (pacientul a suferit sau nu infarctul de miocard, fracura, decesul etc.). Cnd vrem s vedem cum (i dac) variaz o variabil cantitativ n funcie de o alt variabil cantitativ, aadar vrem s vedem n ce msur dou variabile cantitative se coreleaz, calcul m coeficientul de corelaie al lui Pearson ( r). De exemplu, putem vedea dac vrsta se coreleaz cu VSH (adic VSH crete odat cu vrsta). Dac variabilele cantitative nu au o distribu ie normal, sau sunt ordinale (de exemp lu, corelaia dintre fracia de ejecie i clasa NYHA a insuficienei cardiace stngi, sau dintre valoarea transaminazelor i cea a scorului necroinflamator gsit la biopsia hepatic) utilizm echivalentul nonparametric al coeficientului Pearson, care este coeficientul de corelaie Spearman. Dac, n cazul a dou variabile care se coreleaz, putem spune care variabil o determin pe cealalt i/sau vrem s calculm valoarea unei variabile tiindo pe cealalt, utilizm regresia linear (de exemplu, tiind valoarea ALAT, putem prezice scorul necroinflamator de la biopsie, sau tiind nlimea prezicem valoarea VEMS, sau tiind doza de captopril pe care o administrm prezicem cu ct va scdea TA). Variabilele cantitative pot fi transformate oricnd n variabile ordinale sau dihotomice (de exemplu valorile colesterolului n quartile, sau n colesterol normal/crescut). n baza noastr de date este indicat s trecem (i pentru aceasta s culegem) variabilele noastre ca atare, pentru c apoi putem s le transformm oricnd n ordinale sau dihotomice, pe cnd invers nu vom putea niciodat (de exemplu introducem n baza de date anemie DA/NU i apoi descoperim c ar fi fost mai bine s avem chiar valorile hemoglobinei!). Partea cea mai dificil este alegerea ntre test ele parametrice i cele neparametrice. Alegem clar un test nonparametric n trei situaii: 1. efectul este o variabil ordinal i populaia este clar non-gaussian (de exemplu notele studenilor, scorul Apgar, scala vizual analogic pentru durere etc.);

2. efectul este o variabil cantitativ i suntem siguri c nu are o distribuie gaussian n populaie (n acest caz o putem aduce la o distribuie normal prin transformare: logaritmul, reciproca, rdcina ptrat - din punct de vedere matematic este corect, mai puin din punct de vedere biologic); 3. efectul este o variabil cantitativ cu distribuie gaussian, dar dispersia (deviaia standard) este mult diferit ntre grupurile de comparat. Cnd avem cazuri puine, este greu de spus dac distribuia este gaussian, iar testele speciale pentru verificarea normalitii (Komogorov-Smirnov) au putere mic. De fapt, ceea ce conteaz este distribuia la nivelul populaiei, i nu la nivelul eantionului nostru, iar informaii despre distribuia valorilor unei variabile n populaie trebuie cutate n literatur! (este bine de reinut c n natur, distribuiile non-gaussiene sunt frecvente, iar acest fapt este valabil ndeosebi n cazul valorilor biologice). Cnd nu tim dac distribuia este normal, alegerea tipului de test depinde de mrimea eantionului: dac eantionul este mare (cel puin 24/30 de date n fiecare grup), este mai uor de spus dac eantionul provine dintr-o populaie gaussian, dar nu are mare importan, putem folosi orice tip de test, rezultatul va fi acelai. Problema apare dac eantionul este mic, cnd este greu de spus dac populaia este gaussian. n concluzie, putem afirma c testele nonparametrice nu sunt puternice, iar cele parametrice nu sunt robuste .

Introducere n statistic
De ce avemnevoie de analiza statistic? Fiindc vrem s tragem concluzii ct mai valide din cantiti limitate de date (concluzii despre populaie, pornind de la un eantion) i pentru a face acest lucru trebuie s depim dou obstacole: Primul este reprezentat de faptul c diferene importante sunt deseori mascate de variabilitatea biologic i/sau imprecizia experimental. Dac toi indivizii fumtori ar face cancer pulmonar i niciun individ nefumtor nu ar face sau dac toi indivizii cu infarct miocardic acut ar muri dac nu ar fi tratai cu clopidogrel, pe cnd toi cei tratai cu clopidogrel ar tri, atunci nici n-am mai avea nevoie de statistic (de altfel, acest ultim caz, care este din pcate foarte rar ntlnit, nici nu necesit studiu clinic randomizat pentru dovedirea eficienei unui tratament, constituind n sine un nivel superior al dovezii, 1c, din care decurge gradul de recomandare A). n realitate, ns, exist indivizi care fumeaz i nu fac infarct miocardic, dup cum exist indivizi care nu fumeaz i fac infarct - este fumatul un factor de risc pentru accidentul coronarian acut? Dac avem dou loturi de pacieni, unul sub tratament cu captopril i cellalt fr tratament, este posibil s gsim indivizi cu TA de la 110 mmHg la 180 mmHg n ambele loturi i atunci ne ntrebm scade captoprilul TA? Se tie c orice test diagnostic are fals pozitivi i fals negativi - dac testul este negativ, este adevrat c pacientul nu are boala, sau dimpotriv, dac este pozitiv, o are nr adevr? Aceste lucruri trebuie s ne fac s judecm totul n probabilit i (dintre care probabilitatea de a face o complicaie sau de a deceda se numete risc): dac fumeaz, un individ are o probabilitate mai mare s fac infarct miocardic dect dac nu fumeaz (dei este posibil s nu fac nici un infarct i s-i vad vecinul, nefumtor, fcnd unul); dac este tratat cu anticoagulante, individul cu tromboz venoas profund are o probabilitate mai mic s fac trombembolism pulmonar dect dac nu se trateaz - asta nu nseamn c cei tratai cu

anticoagulante nu mor niciodat de trombembolism pulmonar, iar cei netratai nu pot scpa fr s-l fac; n sfrit, un test pozitiv doar crete probabilitatea unui anumit diagnostic, dup cum unul negativ doar o scade, iar n practic nu punem un diagnostic doar atunci cnd suntem 100% siguri de el, pentru c de fapt nu putem fi niciodat 100% siguri. Al doilea obstacol este reprezentat de faptul c mintea uman exceleaz n gsirea de tipare i relaii, i tinde s generalizeze n exces. Un exemplu luat dintr-o carte de statistic - o feti i-a spus colegului ei de joac: "tu nu poi s te faci doctor, numai fetele pot", pentru c singurii trei medici pe care i cunotea ea, erau femei. Aceast tendin de generalizare nu pare s dispar cu vrsta, iar oamenii de tiin au aceeai problem, care poate fi prevenit prin rigoarea statistic. Calculele statistice extrapoleaz de la eantion la populaie. Calculele statistice ne permit s tragem concluzii generale pornind de la o cantitate limitat de date, extrapolnd datele de la eantion la populaie. Distincia dintre eantion i populaie este cheia nelegerii unei bune pri din statistic, iar aceti termeni sunt folosii n diferite contexte, de exemplu: 1. Controlul de calitate:din populaia de cmi sau automobile fabricate lunar sunt extrase cteva (un eantion) care sunt controlate, iar rezultatele sunt generalizate asupra ntregii popula ii de cmi, sau automobile. 2. Sondajele politice: se extrage la ntmplare un eantion de votani care sunt chestionai, iar rezultatele sunt folosite pentru a trage concluzii la nivelul ntregii populaii de votan i, putnd astfel s estimm care va fi rezultatul alegerilor. Este probabil singurul loc n care calculele statistice efectuate pe eantion sunt verificate la nivelul populaiei, n momentul alegerilor. 3. Studiile clinice:eantionul de pacieni studiai este rareori extras la ntmplare din popula ia general (populaia de pacieni cu insuficien cardiac cls. III-IV, de exemplu, dac studiem efectul unui tratament la aceti pacieni). Totui, pacienii inclui n studiu sunt reprezentativi pentru toi pacienii, i astfel se poate face extrapolarea de la eantion la populaie. Care este populaia? Toi pacienii cu insuficien cardiac cls. III-IV care se prezint la internare la Clinica de Cardiologie X? Sau toi pacienii din Bucureti, din Romnia, ori din lume? Este clar c, n timp ce populaia este definit vag, dorim s folosim datele eantionului pe care s-a fcut studiul pentru a trage concluzii asupra unui grup mai mare. n cercetarea biomedical, de obi- cei presupunem c populaia este infinit, sau n orice caz foarte mare comparativ cu eantionul nostru. Toate calculele statistice se bizuie pe aceast presupunere.

Ce face analiza statistic? Raionamentul statistic folosete trei tipuri de abordri generale: 1. Estimarea statistic.

Cel mai simplu este calculul mediei unui eantion. Dei un calcul exact, aceast medie este numai o estimare a mediei populaiei, i se numete estimare punctual. Ct de bun este aceast estimare depinde de mrimea eantionului i de dispersia valorilor, iar calculele statistice combin aceste dou lucruri pentru a genera un interval, cunoscut ca intervalul de ncredere* al mediei populaiei. Presupunnd c eantionul este extras la ntmplare din (sau mcar reprezentativ pentru) ntreaga populaie, atunci putem fi 95% siguri c media populaiei se afl n intervalul de ncredere 95%, sau 99% siguri c media populaiei se afl n intervalul de ncredere 99% (de obicei se utilizez cel 95%). Similar, se pot calcula intervale de ncredere pentru proporii, riscuri, riscuri relative, odds ratio, reduceri de riscuri relative sau absolute, sensibiliti i specificiti etc. Dac lum exemplul studiului EUROPA, efectuat pe 12.218 pacieni, n abstract (Rezultate) vedem c perindoprilul a redus riscul relativ al unui efect compozit cu 20%, intervalul de ncredere 95% fiind 9-29. Asta nseamn c n studiul EUROPA, pe eantionul de 12.218 pacieni, perindoprilul a redus riscul relativ cu 20%, aceasta fiind estimarea punctual. Pe noi, ns, ne intereseaz ct reduce perindoprilul riscul relativ n realitate, la pacienii cu coronaropatie i fr hipertensiune sau insuficien cardiac, aadar care ar fi aceast reducere de risc relativ la nivelul populaiei; intervalul de ncredere 95% ne spune c putem fi 95% siguri c, n realitate (adic la nivelul populaiei de indivizi cu coronaropatie), perindoprilul reduce riscul relativ cu ntre 9% i 29%. 2. Testarea ipotezei statistice ne ajut s vedem dac o diferen observat ntr-un studiu (i deci pe un eantion, pentru c ntotdeauna studiile sunt realizate pe eantioane) este adevrat (adic valabil la nivelul populaiei), sau a fost rezultatul ntmplrii. Dac ntre populaii nu exist n realitate nicio diferen, care este probabilitatea ca extrgnd la ntmplare un eantion s gsesc ntre populaiile din acest eantion o diferen la fel de mare sau mai mare decat cea gsit? Rspunsul este o probabilitate numit p. Folosind acelai exemplu i acelai rezultat din studiul EUROPA, pentru reducerea riscului relativ (care a fost 20%) se d i valoarea p=0,0003. P este rspunsul la intrebarea: dac in realitate perindoprilul nu scade riscul de mortalitate cardiovascular i/sau accident coron arian acut, care este probabilitatea ca, intr-un studiu efectuat pe 12.218 pacieni, n grupul tratat s apar o reducere a riscului relativ cu .20% din pur ntamplare? Sau, altfel spus, dac intre cele dou populaii (populaia tratat cu perindopril i cea tratat cu placebo) nu exist in realitate nicio diferen n privina efectului compozit, care este probabilitatea ca intr-un studiu precum EUROPA s apar o reducere a riscului relativ cu .20% n grupul perindopril, numai din ntamplare? Rspunsul este p=0,0003, adic 0,03%, deci foarte mic. 3. Modelarea statistic, prin care se testeaz cat de bine se potrivete un model experimental (clinic) cu un model matematic construit pe baza unor principii biologice, fiziologice etc. Cea mai uzual form de model statistic este regresia linear.

Analiza univariat
(statistica descriptiv)

Analiza oricrui studiu, fie c este un studiu randomizat multicentric de multe miloane de dolari pe 100.000 de pacieni, fie un studiu descriptiv pe 40 de pacieni, ncepe cu descrierea distribuiei variabilelor1. Aceasta se face utiliznd analiza univariat i diferite tehnici grafice. Uneori se utilizeaz termenul "univariat" cu privire la statisticile care evalueaz relaiile dintre dou variabile (variaia unei variabile n funcie de o alta); alii ns2 prefer termenul pentru analiza descriptiv a unei variabile, preferndu-l pe cel de analiz bivariat n cazul studierii a dou variabile. Variabilele nominale (calitative) Variabilele calitative (nominale) apar atunci cnd indivizii cad n clase separate, care nu au vreo relaie numeric una cu cealalti deci nu pot fi puse ntr-o ordine (de ex. sex, culoarea ochilor, grupa sanguin, rasa, diagnosticul etc. Chiar dac putem pune valorile pe care le ia variabila calitativ ntr-o ordine (cel mai simplu: ordinea alfabetic), aceast ordine nu are nici o semnificaie din punct de vedere biologic. Cel mai simplu mod de descriere a variabilelor calitative

este prin intermediul unui tabel de frecvene, n care apare numrulde cazuri pentru fiecare categorie. n Tabelul 1, n prima coloan avem valorile variabilei calitative "diagnosticul etiologic", n a doua num- rul

de cazuri din fiecare categorie, iar n a treia numrul de cazuri exprimat procentual (frecvena relativ, sau frecvena proporional a fiecrei categorii). Atunci cnd prezent m rezultatele cercetrii noastre unei audiene, avnd la dispoziie un timp limitat, convertim informaia din forma de mai sus ntr-una grafic, cu impact mai mare i din care punctele cheie sunt percepute mai rapid. Pentru variabilele nominale, prezentarea grafic se face sub form de plcint ("pie" n englez) sau bare. Plcinta arat frecvena relativ a fiecrei categorii mprind un cerc n sectoare ale cror unghiuri sunt proporionale cu aceast frecven relativ. Figura seamn cu o plcint rotund (sau tort) tiat n felii gata s fie servite. Reprezentarea grafic sub form de bare, acestea pot fi orizontale sau verticale i au o lungime proporional, din nou, cu frecvena relativ.

Statistica descriptiv a variabilelor calitative

---

nite greeli

Aveam de gnd s trec mai departe, ocupndu-m de analiza descriptiv a celorlalte tipuri de variabile, cnd am dat din ntmplare peste un articol i mi-am amintit c trebuie s vorbesc despre un tip de eroare care este des ntlnit, mai ales la congresele din ar. Articolul era o statistic descrip tiv a unei serii de 37 de cazuri de scleroz sistemic progresiv, iar dintre acetia, 21 (57%) au avut forma difuza, iar 16 (43%) forma limitat. Att n abstract, ct i n textul articolului sunt o mulime de date cu privire la aceti 37 de pacieni, exprimate n valoare absolut i sub form de procente. Prima regul este c, atunci cnd avem de-a face cu eantioane de sub 100, trebuie s furnizm datele numai n valoare absolut, niciodat sub form de procente. De ce? Imaginai-v c cineva ar face un sondaj pe 37 de indivizi (chiar luai la ntmplare, de pe listele cu toi indivizii cu drept de vot din ar), ntrebndu-i cu cine voteaz la alegerile viitoare, iar dintre acetia 21 ar spune c voteaz cu Bsescu. Dac ar publica un articol n RevistaRomn de Politic, ar trebui s spun c a efectuat un studiu pe 37 de indivizi, iar dintre acetia 21 au declarat c voteaz cu Bsescu. Ar putea prezenta datele i altfel, spunnd c 57% dintre indivizi declar c vor vota cu Bsescu la alegerile viitoare, iar cei care citesc articolul i-ar nchipui, vznd datele exprimate n acest fel, c Bsescu are cele mai mari anse de a ctiga alegerile din primul tur. De fapt, exprimarea unei propor ii sub form de procente implic o generalizare a rezultatelor obinute pe eantionul nostru, la ntreaga populaie la care se refer studiul - adic, dac citeti c 21 din 57 de pacieni au avut forma difuz de sclerodermie, nelegi exact ce i se spune, dar dac citeti c 21 de pacieni (57%) au avut forma difuz, ai tendina s nelegi c, n general, circa 57% dintre pacienii cu sclerodermie au forma difuz, iar restul forma limitat, ceea ce nu este adevrat: n realitate, conform studiului sus-citat, ntre 39 i 72% dintre pacienii cu sclerodermie au forma difuz (intervalul reprezint intervalul de ncredere 95% al proporiei 21/57, calculat cu Epi Info 6). Cu acest rezultat (ntre 39 i 72% din voturi), Bsescu nu ar fi fost nicidecum mulumit, dar nacest caz ai destui votani pe list ca s lrgeti eantionul; din pcate (pentru tiin), sclerodermiile sunt mai rare - dar atunci trebuie date valorile ca atare, pentru a nu crea o fals impresie de precizie. Nici pentru eantioane de peste 100 de indivizi lucrurile nu sunt perfecte, dar oricum se mbuntesc vizibil: intervalul de ncredere al proporiei 57/100 este 46, 66%, mult mai ngust (bineneles, nu destul de ngust pentru un sondaj politic, fiindc Bsescu pierde alegerile cu 46%, dar le ctig cu 66%!). A doua regul este aceea c, dac avem eantioane de sub 200 de valori, nu trebuie s dm zecimale la

procente, din acelai motiv ca mai sus, i anume deoarece se creeaz o fals impresie de precizie, care nu exist: nu conteaz c scriem 57%, sau 56,6%, sau 57,4%, cnd n realitate intervalul este ntre 39 i 72%, n cazul eantionului de 37 de pacieni, sau ntre 46 i 66%, n cazul eantionului de 100 de pacieni . (n exemplele de reprezentri grafice din numrul trecut erau procente cu zecimale; figurile au fcut parte din prezentarea doctoratului meu, din 2002, un studiu pe 164 de pacieni, iar pe vremea aceea nu tiam multe dintre lucrurile pe care vi le prezint acum - omul ct triete nva!).

Statistica descriptiv (II).Variabilele ordinale


Variabilele ordinale sunt variabile care sunt clasificate n mai mult de dou categorii i la care exist o ordine natural ntre categorii, cum ar fi evoluia bolii, stadia - lizri, clasificri, scoruri, scale Lickert etc.

Atunci cnd vrem s facem o statistic descriptiv a acestui tip de variabile, putem folosi tabelul de frecvene, modul (valoarea cea mai frecvent a variabilei) i mediana (valoarea care mparte grupul n dou jumti egale). Utilitatea mediei este cel puin discutabil!

Dup cum se vede din tabelul de frecvene, Stadiul II de insuficien cardiac reprezint mediana, deoarece aceast valoare mparte lotul nostru n dou (mediana este reprezentat de valoarea variabilei care conine valoarea de 50% din a patra coloan = frecvena cumulat) (mai multe detalii la variabilele cantitative numerice). Din grafice (ndeosebi din cel tip bare) vedem c modul (valoarea cea mai frecvent) este reprezentat tot de valoarea Stadiul II de insuficien cardiac. Uneori, variabilele sunt exprimate sub form de text (vindecat, ameliorat, staionar, agravat, decedat), ns alteori sunt exprimate sub form numeric i cercettorii sunt ispitii s se poarte cu ele ca i cum ar fi variabile nu-merice, dei nu sunt. Greeala cea mai frecvent este aceea de a calcula i furniza mediile (uneori i cu deviaia standard)! Dac insuficiena cardiac ar fi fost clasificat ca uoar, moderat, semnificativ i sever, cred c nimnui nu i-ar fi dat prin minte s calculeze media (ar fi trebuit s spun, poate, c n medie, pacienii au avut insuficien cardiac semnificativ spre sever!?...). Nici cum este ea n realitate, scris cu cifre romane (care se folosesc tocmai pentru a arta ordinea), nu prea ndeamn la calcularea mediei, ceea ce nu nseamn c imaginaia (sau ignorana) cercettorilor are vreo limit, iar a recenzorilor asemenea, din moment ce vedem aprnd astfel de gafe n reviste mari. Aa un articol mi-a fost semnalat de o persoan care nu avea nici un fel de cunotine de statistic, dar al crei bun sim a fost iritat de o astfel de construcie. Am folosit imediat articolul ca exemplu negativ n cursurile mele, dar cum computerul portabil mi s-a stricat acum 3 luni, neputnd recupera nimic de pe hard, a trebuit s caut din nou articolul despre care nu mai tiam dect c este n revista Heart i se refer, normal, la pacieni cu insuficien cardiac, aa c pe site-ul revistei am cutat "NYHA" i am gsit repede dou articole cu aceast greeal *1,2+; probabil c sunt mult mai multe, i n alte reviste, dar m-am oprit din cutri, mulumindu-m cu cele dou exemple (Tabelele 2 i 3).

Vedem foarte bine c variabila "clasa NYHA a insuficienei cardiace" a fost tratat n ambele articole ca o variabil numeric continu, calculndu-se media i chiar i deviaia ori eroarea standard, ceea ce, vom vedea mai trziu, nu are sens nici mcar n cazul tuturor variabilelor numerice (doar la cele cu distribuie normal), d-apoi la cele ordinale!

De ce nu are sens s calculm, n cazul variabilelor ordinale media? Pentru c, dei sunt exprimate de multe ori numeric, ele nu sunt msurtori pe o scal n care distana dintre valori s fie egal (diferena dintre insuficien cardiac clasa a IV-a i cea de clasa a III-a nu este aceeai cu diferena dintre clasa a III-a i a II-a, sau dintre a II-a i a I-a, iar un pacient cu insuficien cardiac clasa a IV-a nu are o insuficien de dou ori mai mare dect unul cu clasa a II-a i de patru ori mai mare dect unul cu clasa a I-a; pe cnd diferena dintre vrsta de 21 de ani i cea de 22 de ani este aceeai cu diferena dintre 45 i 46 de ani, iar vrsta de 66 de ani este de trei ori mai mare dect cea de 22 de ani, la fel i la creatinin, TA etc.). n cazul insuficienei cardiace (clasificarea NYHA), lucrurile sunt evidente - dei nu chiar att de evidente, dup cum amvzut (apropo, n cazul celui de al doilea articol, al lui Braun, este interesant de tiut ce fel de test statistic s-a folosit pentru comparaia clasei NYHA cu grupul martor, pentru c dup cum vom vedea, anumite teste statistice se folosesc pentru variabilele ordinale i altele pentru cele numerice; vedem c p este la limita semnificaiei statistice, dar nu tim ce test a folosit pentru c nu scrie nicieri n articol, credei-m c am cutat!). Aadar, dac la clasa NYHA unde variabila ia doar 4 valori lucrurile ar trebui s fie evidente, mai puin clare sunt atunci cnd lucrm cu scale/scoruri de zeci sau chiar sute de puncte, cum sunt cele de calitatea vieii n diferite boli (WOMAC, StGeorge Respiratory etc.). Scorurile ob - inute aici sunt compuse din subscoruri care se dau pentru diferite aspecte, aadar nu ndeplinesc criteriul unei variabilenumerice scalare, i anume diferenele dintre valorile scalei s fie aceleai pe toat lungimea ei; acest criteriu putem spune c este ndeplinit ct de ct cnd este vorba despre scale analogice vizuale, unde pacientul sau medicul d o not pe o scal de la 1 la 10, sau de la 1 la 100, dar i aici, ca i n cazul notelor la coal, pentru aceeai prestaie se pot da note diferite, pentru c nu avem un instrument de msur ca pentru variabilele numerice clasice (TA, vrsta, creatinina, colesterolul etc.). Cu toate acestea, de multe ori aceste scale (chiar i cele compuse din subscoruri), sunt tratate ca i variabile numerice, calculndu- se medii i aplicndu-se teste parametrice, i cnd att de mult lume face i public aa, te ntrebi dac mai are vreo importan dac este sau nu corect!

III.Variabilele cantitative
Valoarea acestor variabile este rezultatul unormsurtori i este exprimat sub form de numere.Msurtorile se efectueaz pe scale ale cror categorii sunt egal distribuite (spaiile dintre valori sunt egale). Exemple de astfel de variabile sunt vrsta, greutatea, nlimea, TA, frecvena cardiac, colesterolul, densitatea osoas etc. La aceste variabile, diferenele dintre valorile scalei sunt egale (diferena dintre 0,5 i 1 este aceeai cu diferena dintre 1,5 i 2, i aceeai cu diferena dintre 5 i 5,5 mg creatinin sau acid uric, sau albumin etc., iar valoarea de 16 g hemoglobin este dublul valorii de 8 g hemoglobin, n timp ce creterea transaminazelor de la 40 la 80 u.i. nseamn dublarea lor, iar la 160 nseamn qvadruplarea lor. Descrierea unei populaii de valori ale unei variabile numerice poate fi mai dificil dect a celorlalte tipuri de variabile, deoarece n acest caz putem avea mult mai multe valori. Astfel, dac vrems descriemvrsta, sau valoareaALAT a 100 de pacieni, este posibil s avem 100 de valori diferite, adic fiecare pacient s aib o valoare unic, i asta pentru c pe scalele respective exist un numr potenial infinit de valori, de-a lungul unui continuum. Iat, de exemplu, descrierea valorilor VEMS la 57 de studeni la medicin de sex masculin, prezentat pe larg n Tabelul 1. Un astfel de tabel nu vei gsi niciodat ntr-un articol sau la o prezentare, cu attmaimult atunci cnd este vorba de eantioanemaimari, i atunci trebuie gsit o metod de a rezuma aceste date. Una dintre metode este divizarea scalei VEMS n intervale de clas (oricine a auzit despre mprirea vrstei pe... grupe de vrst!), de exemplu ntre 3 i 3,5, ntre 3,5 i 4 i aa mai departe, i contabilizarea numrului de indivizi din fiecare astfel de interval. De obicei se pune limita inferioar a acelui interval n intervalul respectiv, iar limita superioar n intervalul urmtor, astfel nct, de fapt, limitele intervalelor vor fi 3,5-3,99, 4-4,49, 4,5-4,99 etc., pentru ca nu cumva valorile de grani s fie numrate de dou ori (de exemplu, cei doi studeni cu VEMS de 4,5 l s fie contabilizai i n intervalul 4-4,5, i n cel 4,5-5. Utiliznd intervalele, putem compune un tabel de frecvene care s aib un numr mai mic de valori (8, fa de 43, cte valori diferite ar fi avut dac le-am fi folosit direct) - Tabelul 2. Reprezentarea grafic a datelor de mai sus se poate face sub form de plcint, ns n cazul variabilelor numerice se face aproape ntotdeauna aceasta se face sub form de histogram (Figura 1). Diferena ntre histogram i graficul sub form de bare (figurile din numerele precedente) este aceea c n cazul histogramei, barele graficului sunt lipite una de cealalt, deoarece valorile variabilei de pe abscis se continu dintr-o categorie n alta.

Descrierea variabilelor cantitative (numerice) (II)


n general, cnd subiectul studiului nostru nu este descrierea valorilor variabilei, aceast descriere se face mai sumar i cuprinde msurile tendinei centrale i msurile dispersiei. Msurile tendinei centrale sunt media, mediana i modul. Modul, pe care am vzut c l putem folosi la toate tipurile de variabile, este valoarea care apare cel mai frecvent. S ne nchipuim c avem 10 pacieni, cu urmtoarele durate de spitalizare: 3, 3, 4, 5, 6, 7, 7, 8, 8 i 8 zile. n acest caz, modul este valoarea 8, pentru c apare cel mai des (de 3 ori). Dac ar fi fost numai 2 pacieni spitalizai 8 zile, atunci am fi avut trei moduri, 3, 7 i 8, care apreau de cte dou ori. Mediana este valoarea care mparte eantionul nostru n dou pri egale, astfel nct 50% dintre subieci au valori mai mici, iar 50% dintre subici au valori mai mari dect aceasta. Pentru a o calcula, trebuie s aranjm valorile n ordine cresctoare, iar mediana va fi valoarea din mijloc (atunci cnd este vorba despre un numr impar de observaii), sau media dintre cele dou valori din mijloc (atunci cnd este vorba despre un numr par de observaii). n exemplul nostru, cu 10 subieci, mediana este media dintre valorile numrul 5 i 6, adic dintre 6 i 7 zile de spitalizare, deci 6,5. Media este un lucru cunoscut, pentru c o calculm i folosim nc de cnd eram n clasa a I-a. Este media aritmetic a unui ir de valori i se calculeaz dup formula (x1+x2+ x3+...+xn)/n, adic suma valorilor mprit la numrul lor, n exemplul nostru (3+3+4+ 5+6+7+7+8+8+8)/10 = 5,9. Msura dispersiei ne arat ct de ntins este plaja de valori pe care o poate lua variabila noastr, i este reprezentat de ntindere (range) i deviaia (abaterea) standard. ntinderea este diferena dintre valoarea cea mai mare i cea mai mic (extremele) din eantionul nostru, iar n exemplul de mai sus este de 8-3=5 zile. Dac perioada internrii ar fi variat ntre una i 45 de zile, este evident c dis-persia ar fi fost mai mare, iar ntinderea ar fi fost de 44 de zile. Variana i deviaia standard sunt mai reprezentative dect ntinderea, pentru c n calculul lor se folosesc nu numai dou dintre valori, i anume cele extreme, ci totalitatea valorilor pe care le ia variabila din eantion. Variana msoar distana medie dintre fiecare observaie i medie, deoarece, logic, cu ct dispersia este mai mare, distana dintre medie i observaii este mai mare. Cum ns suma distanelor dintre fiecare observaie i medie este zero (deoarece diferenele pozitive i cele negative se anuleaz reciproc), se folosete suma ptratelor acestor diferene.

n exemplul nostru, variana este 4,1 zile2 (cum variana folosete ptratul deviaiilor de la medie, unitile de msur sunt i ele la ptrat). Pentru a evita acest lucru, se extrage rdcina ptrat din varian i obinem astfel deviaia (abaterea) standard, care este de fapt msura cea mai folosit a dispersiei. n cazul nostru, deviaia standard este de 2,025 zile. Distribuia normal (Gaussian) n Figura 1 este prezentat histograma distribuiei ratei de filtrare glomerular a 14.527 de pacieni (Anavekar et al. Relation between renal dysfunction andcardiovascular outcomes after myocardial infarction. NEJM 2004; 351:1285-95). Se vede cum aceasta are o form de clopot, cu cei mai muli pacieni n jurul mediei, frecvena valorilor sc - znd pe msur ce ne ndepr - tm de aceast medie, iar pe de alt parte dispersia este simetric (egal) de-o parte i de alta (dedesubtul i deasupra) mediei. Variabilele care au o astfel de distribuie n form de clopot se spune c au o distribuie normal (Gaussian). Variabilele cu o distribuie normal au 68% dintre valori cuprinse n intervalul media o deviaie standard (1SD) i 95% dintre valori cuprinse n intervalul media2SD (mai exact, 1,98SD). n exemplul din Figura 1, deviaia standard este 21, iar media este 70 (ml/min/1,73m2). Astfel, ne ateptam ca 68% dintre pacieni s aib rata filtrrii glomerulare n intervalul dintre 49 i 91, iar 98% dintre pacieni s se afle n intervalul dintre 28 i 112 (ml/min/1,73m2). Aadar, se vede c pentru a descrie o variabil continu cu distribuie normal (Gaussian, simetric), este suficient s tim media i deviaia standard i drept urmare aa se i descrie o astfel de variabil: pentru a descrie populaia din Figura 1 n ceea ce privete rata filtrrii glomerulare, este suficient s spunem c aceasta a fost de 70 (21), prima cifr fiind media, iar cea din parantez deviaia standard.

Unii autori descriu valorile sub forma MediaDS, n exemplul nostru 7021, form mai puin recomandat pentru c simbolul este mai ambiguu, putndu- se referi la deviaia stan - dard sau la eroarea standard. Apropo de eroarea standard pe care o vei ntlni n unele articole, aceasta este echivalentul intervalului de ncredere 95% a mediei unei populaii. Aadar, dac deviaia standard ne arat care este dispersia valorilor unei variabile n snul eantionului, i tim c n intervalul media2 deviaii standard sunt cuprinse 95% dintre valorile eantionului, eroarea standard a mediei, ca orice interval de ncredere, ne folosete la extrapolarea datelor noastre de la eantion la populaie (adic, sunt 95% anse ca media adevrat, la nivelul populaiei, s se afle n intervalul mediaESM). Eroarea standard a mediei se calculeaz dup formula . Se vede c ESM este direct proporional cu deviaia standard i invers proporional cu mrimea eantionului (n); normal, ca orice interval de ncredere este cu att mai ngust cu ct eantionul este mai mare. Observm din Tabelul 1 c, n timp ce gradul de dispersie este relativ apropiat (comparnd mrimea DS cu mrimea mediei), eroarea standard (gradul de incertitudine) este mult mai mic acolo unde eantionul este mai mare.

Descrierea variabilelor cantitative (numerice) (III)

Atunci cnd lucrm cu variabile numerice, este foarte important s tim dac distribuia lor este normal (Gaussian) sau nu, pentru c n funcie de aceasta hotrm cum o descriem i, n statistica analitic, cum comparm mai multe populaii (ce teste statistice folosim). Aadar, cum ne dm seama dac o variabil numeric are distribuie normal? 1. Vizual, examinm un grafic histogram al variabilei respective. Dac graficul are un aspect simetric i form de clopot (cum era cel din numrul trecut, cu distribuia ratei estimate a filtrrii glomerulare), atunci distribuia este normal. Dac histograma nu are aceast form, atunci distribuia nu este normal. n Figura 1, este evident c distribuia notelor stu-denilor nu este normal, fiind total diferit de o distribuie normal ideal, reprezentat de curba suprapus peste grafic. 2. Calculm media, mediana i modul. Dac distribuia este normal, atunci acestea trebuie s coincid (ideal; n realitate nu vom

obine niciodat aa ceva, dar trebuie, mcar, s fie apropiate). 3. Calculm media i deviaia standard. Dac media este mai mic dect dou deviaii standard, distribuia probabil nu este normal, iar dac media este mai mic dect deviaia standard, cu siguran nu este normal. S lum numai un exemplu, din multiplele ntlnite n literatur: articolul lui Alric i colab. privind efectul tratamentului cu interferon i ribavirin n crioglobulinemia secundar infeciei cu HCV asupra proteinuriei *1+: la 12 pacieni la care s-a obinut rspuns viral susinut, proteinuriile au sczut semnificativ de la nceput (media 2.85 +/- 2.2 *SD+g/zi), fa de sfritul tratamentului (1 +/- 1.4g/zi) i sfritul perioadei de urmrire (0.4 +/- 0.8 g/zi, p< 0.05). Se vede cum media este mai mic dect dublul deviaiei standard (2SD), ori noi tim (vezi numrul trecut) c 95% dintr-o populaie este cuprins n intervalul media+/-2SD, dar dac am scdea 2SD din medie am obine valori negative, ns nu exist proteinurie negativ! Aadar, proteinuria populaiei din articol nu a avut distribuie normal, deci nu trebuia s fie sumarizat sub forma medie+/- 2SD, iar mai departe avem tot dreptul s ne ntrebm dac nu cumva autorii au folosit teste statistice parametrice, pentru variabile cu distribuie normal, i nu nonparametrice, cum ar fi

trebuit! (rspunsul se gsete, de obicei, n coninutul articolului, la capitolul material i metod, ns nu lam putut accesa gratuit). 4. Exist teste statistice (Kolmogorov-Smirnov), care ne arat dac devierea de la normalitate este semnificativ statistic (aadar, distribuia nu este normal cnd p<0,05). Problema este aceeai cu a oricrui test statistic, dac eantionul este mic, testul nu va iei semnificativ statistic din lipsa puterii statistice, i nu pentru c distribuia nu ar fi diferit de cea Gaussian. n exemplul de mai sus cu proteinuria, este posibil ca testul Kolmogorov-Smirnov s nu dea o valoare semnificativ deoarece eantionul este de doar 12 pacieni, i nu pentru c distribuia nu ar fi diferit de cea normal. 5. n sfrit, unele programe statistice (de exemplu SPSS) ne calculeaz aa-numitelekurtosis (ct este de ieit n afar, protuberant) i skewness (asimetrie). Primul termen ne arat n ce msur dispersia (msurat de deviaia standard) este dat de multe valori uniform distribuite de-o parte i de alta a mediei (cum se ntmpl n distribuia normal), sau de cteva valori extreme. De ce este important s tim dac distribuia este normal (Gaussian) sau nu? Pentru c, n funcie de aceasta utilizm anumite tipuri de statistic descriptiv sau analitic (teste statistice). Astfel, pentru descrierea distribuiei, n cazul variabilelor cu distribuie normal se utilizeaz media i deviaia standard, pentru c avndu-le pe acestea, putem practic s reconstituim populaia (figura 2, graficul din stnga); acestea, ns, nu au nicineGaussian (Figura 2, imaginea din dreapta), pentru c acelorai medie i deviaie standard, dac distribuia nu este normal, le pot corespunde o infinitate de distribuii nonnormale. Pentru descrierea populaiilor cu distribuie nonnormal se utilizeaz mediana (valoarea care mparte populaia n dou jumti, 50% dintre valori sunt mai mici, i 50% dintre valori sunt mai mari dect mediana), iar pentru msura dispersiei se dau fie valorile extreme (cea mai mare i cea mai mic), fie cvartilele 25 i 75% *2+. Pentru a nelege cvartilele, s presupunem c avem un eantion de 20 de

pacieni, cu vrstele de 23, 24, 27, 27, 31, 34, 37, 39, 39, 39, 40, 42, 44, 47, 48, 49, 49, 50, 53 i 55 de ani. Fiind 20, cvartilele sunt reprezentate de cte 5 pacieni (25% din 20), aadar primii 25% au pn n 31 de ani, primii 50% au pn n 39 de ani (care este i mediana), iar 75% au pn n 49 de ani. Aceast populaie o putem sumariza fie mediana i valorile extreme *39 (23, 55)+, fie mediana i cvartilele 25 i 75% *39 (31, 49)+. Pentru reprezentarea sumarizat se pot alege fie bare (a cror nlime s fie dat de median, nu de medie), fie de boxplot sau box-andwhisker (cutie-i-musti), n care avem toate valorile numite pn acum (valoarea minim,

S-ar putea să vă placă și