Lectia #2

2.1. Populatii si esantioane, caracteristici si variabile 2.2. Reprezentari grafice 2.3. Statistici descriptive. Centrarea unei variabile numerice 2.4. Statistici descriptive. Deviatia 2.5. Statistici descriptive pentru variabile calitative 2.6. Covarianta si corelatia

II-1

în care este clar ca acest numar nu este prea mare. aceste atribute poarta numele de caracteristici. Unele caracteristici – cum ar fi greutatea unui pacient diagnosticat cu tuberculoza. anumite atribute „importante” ale indivizilor. Pentru a reprezenta o caracteristica printr -o singura variabila va trebui sa introducem o scara. Cât de mult riscam atunci când alegem un anumit tratament? c.2. sa stabilim legaturi între caracteristicile lor. Atunci când studiem o populatie se iau în considerare doar II-2 . fiind o ramura a statisticii. Biostatistica este acel domeniu particular al stiintelor în care metodele specifice statisticii sunt aplicate problemelor biologice (inclusiv medicale). Atunci când încercam sa comparam sau sa clasificam indivizi. ne permite sa dam raspuns la întrebari cum sunt urmatoarele: a.1. Aceasta variabilite determina un anumit grad de incertitudine. câteodata ele au ca efect chiar distrugerea indivizilor „studiati”. caracteristici si variabile Statistica este o stiinta care se ocupa cu tratamentul datelor obtinute din grupuri „mici” de indivizi si extinderea rezultatelor la populatii „mari”. în limbajul de zi cu zi. Alte caracteristici – cum ar fi sexul sau categoria de vârsta – nu sunt masurate. însa de obicei este identificata prin apartenenta la grupurile „rosu”. Ionescu ce sufera de cardiopatie ischemica”. Care valori sunt normale pentru un anumit proces biologic? b. Totusi. De obicei studiile efectuate asupra indivizilor unei populatii sunt costisitoare si de durata. Principala caracteristica a proceselor biologice este variabilitatea. Populatii si esantioane. Sa definim spatiul observabil. „portocaliu”. Este oare mai bun noul tratament decât cel clasic? Cuvântul populatie are. se presupune ca la un moment particular de timp – sau într-un interval de timp bine definit – populatia este bine definita. în particular diverselor fenomene si procese care afecteaza calitatea fizica si mentala a oamenilor. ci sunt identificate prin apartenenta la un grup. consideram implicit ca numarul indivizilor ei este mare. Este de neconceput sa poata fi studiati chiar toti indivizii unei populatii „mari”. ceea ce înseamna: 1. iar indivizii prezinta o anumita variabilitate. „galben” etc. atunci când ne referim la un esantion potential (esantionul nu a fost precizat) prin litera n. Numarul indivizilor din esantionul ales este numit volumul esantionului si este notat de obicei. atunci când ne referim la o populatie. Biostatistica. aceste caracteristici sunt reprezentate prin variabile. sau inteligenta unui student – sunt masurate si exprimate prin numere. cum este cea din exemplul formal „populatia pacientilor dr. De obicei. Se subîntelege ca o populatie are caracter dinamic (adica numarul indivizilor ei variaza în timp). adica multimea tuturor valorilor posibile. Caracteristica „culoare” a obiectelor ar putea fi masurata (exprimata prin lungimea de unda). Fiecare individ al unei populatii îsi are identitatea sa proprie. Ratiunea esantionarii este limpede: prin efectuarea de studii asupra unei parti relativ „mici” din populatie – parte care este numita esantion – sa strângem suficienta informatie care sa ne permita sa inferam la nivelul întregii populatii asupra caracteristicilor studiate. aceasta nu exclude însa multe situatii. Statistica ne permite sa stabilim „legi” în care sa tinem seama de incertitudine. înaltimea sa. un înteles evident.

2. ordonare totala etc. (Se recomanda reprezentarea grafica a rezultatelor datorita perceptiei mai rapide pe cale vizuala a informatiei. ordinale (care reprezinta aceeasi II-3 caracteristica). frecventa absoluta este numarul indivizilor p entru care datele apartin acelei clase. Pentru a preciza ideile. De exemplu. care poate fi exprimata printr-un ansamblu de variabile. prin mai multe variabile . Nu mai este necesara o masurare precisa a pacientilor. Rezultatele aplicarii acestei functii sunt plasate într -un domeniu ce are o celula în plus fata de domeniul valorilor de separare. Atunci când avem de-a face cu un esantion „mare” (adica are un numar „mare"de indivizi). Sa luam de exemplu clasele de vârsta ale pacientilor. Este clar ca daca ne alegem o unitate de masura (metrul. Aceasta functie are doua argumente: 1. le vom putea „aprecia vizual” înaltimea. C2 = „5-9 ani”. Frecventa relativa se calculeaza prin împartirea frecventei absolute la numarul total al indivizilor din esantion. putem calcula frecvente. Numerele obtinute sunt reale. O asemenea variabila este numita variabila numerica. Domeniul în care au fost plasate valorile variabilelor (data array). se utilizeaza foarte adesea clase de vârsta sau clase de înaltime. Numarul K de clase este ales în strânsa dependenta de problema studiata si nu exista definit vreun „algoritm” de stabilire a sa. scadea. Caracteristica „înaltime” a pacientilor este reprezintata evident printr-o variabila. si 3. fie datele colectate au fost grupate în clase. o caracteristica studiata ar putea fi reprezentata. Câteodata o caracteristica este exprimata printr-o variabila de decizie (sau variabila binara) ce ia doar doua valori „admis”/”respins” (respectiv „da”/”nu” etc. Pentru o clasa de date. Asemenea etichete nu pot fi adunate sau scazute. un numar mare de clase face dificila reprezentarea grafica a rezultatelor. datele numerice sunt grupate într-un numar „mic” de clase. Aceeasi caracteristica „înaltime” ar putea fi reprezentata de o variabila de cu totul alt tip. Un numar prea mic de clase are dezavantajul ca „ascunde” particularitatile claselor. Sa definim o structura pe spatiul observabil. de obicei variabilele numerice sunt înlocuite prin variabile calitative. este definita doar ordonarea între ele. centimetrul. C3 = „10-14 ani” si asa mai departe. „mediu”. Observam ca toate clasele descrise anterior au aceeasi „lungime”.).). . Frecventele variabilelor (nu numai cu valori numerice) se obtin cu usurinta în Excel prin intermediul functiei FREQUENCY().2. considerând ca studiem un esantion de indivizi diagnosticati cu o anumita maladie. …) atunci pentru fiecare pacient vom putea sa obtinem – e drept. Asadar. sa consideram câteva exemple. Spatiul observabil este acum format doar din etichetele „foarte scund”. cu o usoara cheltuiala de timp – o unica valoare a înaltimii sale. Mai precis. de asemenea le putea aduna. din contra. De data aceasta avem un exemplu de variabila ordinala. Aceasta nu este obligatoriu! În cazul în care fie indivizii sunt grupati natural în clase. Pare natural sa grupam vârstele lor în clase – delimitate subiectiv dupa cum urmeaza C1 = „0-4 ani”. anume 5 ani. Uneori se folosesc si asa-numitele frecvente cumulate. „înalt” si „foarte înalt”. prin urmare le putem ordona între ele. În aceasta celula suplimentara va fi afisat numarul valorilor ce depasesc cea mai mare valoare de separare.) Se poate face recomandarea de a se forma între 8 si 20 de clase. direct sau indirect. O alta situatie ce trebuie scoasa în evidenta este cea a caracteristicii „inteligenta” a unui student. Sa admitem ca putem asocia fiecarui individ câte o (singura) valoare din spatiul observabil. deoarece consideram în mod intuitiv ca valorile sunt numere reale (cu alte cuvinte spatiul observabil este R iar acest spatiu are o structura foarte bogata: operatii aritmetice. „scund”. etc. Domeniul – în general pe o coloana – în care se trec valorile de separare. în ordine crescatoare (bins array).

ca prezentarea rezultatelor depinde de softul folosit. interpretata vizual. Probabil ca suntem de acord cu totii ca informatia reprezentata grafic este mai usor de „înteles”. Exista si deosebiri în modul în care trebuie introduse datele. Doar în Excel putem pleca de la tabelul de mai sus. în histograma si în rozete este prezentata aceeasi informatie.2. Iar reprezentarea datelor într-o diagrama cu bare sau de tip rozeta este o operatiune usoara. care însa este inutila în cazul nostru. poate fi extrem de eficienta pentru prezentarea unor date sau Ziua saptamânii Luni Marti Miercuri Joi Frecventa absoluta a cazurilor de infarct 4 4 7 3 rezultate. existând unele diferente (datorate rotunjirilor). grupate dupa zilele saptamânii: Ziua saptamânii Vineri Sâmbata Duminica TOTAL Frecventa absoluta a cazurilor de infarct 6 4 8 36 O inspectare vizuala a numerelor din tabel nu este la fel de eficienta ca examinarea vizuala a unei diagrame cu bare sau a unei rozete. În figurile de mai jos diagrama cu bare a fost obtinua cu Excel. Vom aborda ulterior interpretarea acestei curbe. în cele doua rozete. de exemplu. Sa consideram. în diagrama cu bare.) II-4 Se poate observa. Reprezentari grafice Adeseori o reprezentare grafica. diagrama de tip histograma a fost obtinuta cu Statistica. cazurile de infarct înregistrate într-un oras mare. (O mica corectie: în diagrama de tip histograma este reprezentata o curba suplimentara. În tabel. În general se pleaca de la datele primare „caz dupa caz”.2. . iar diagramele de tip rozeta au fost obtinute cu Excel si EpiInfo 2000 . implementata în orice soft statistic sau de calcul tabelar.

De exemplu. de orice fel ar fi. C16= „116-120 kg” — 1 caz. pe axa orizontala se marcheaza punctele de separare între clase si. . Evident. la falsificarea datelor prezentate. C3 = „51-55 kg” — 20 cazuri. iar abia apoi rezultatele gruparii sunt prezentate în histograme. C4 = „56-60 kg” — 36 cazuri. Asemenea reprezentari – tabelare sau diagramatice – nu sunt deloc potrivite pentru variabilele care au un numar mare de valori numerice (asa cum este cazul greutatii pacientilor exprimata în grame). etichetelor si legendelor de pe diagrama.) Sa încheiem aceasta sectiune subliniind ca reprezentarile grafice sunt folosite pentru accelerarea transferului de informatie de la om la om. la modificarea nejustificata a scarilor de masurare. si nu în ultimul rând la adecvarea textele titlurilor. cât si diagramele sunt adecvate pentru „afisarea” variabilelor care au un numar „mic” de valori. iar într-o diagrama cu bare clasele sunt reprezentate prin etichete (labels).. Atunci când se construieste o diagrama de tip histograma. Aceste valori aberante. C2= „46-50 kg” — 10 cazuri. Într-o histograma veritabila aria tuturor dreptunghiurilor este 1.Atât tabelele de frecvente. Reprezentarea grafica a datelor ar putea fi folositoare si pentru identificarea datelor eronate sau a valorilor aberante (outliers). în asemenea situatii se practica gruparea valorilor în câteva intervale de valori. II-5 . distorsioneaza serios rezultatele analizelor statistice. Dreptunghiurile sunt de „latimi” egale. din aceste date se obtin histogramele urmatoare: Sa remarcam ca într-o histograma clasele sunt intervale de numere reale. Trebuie sa fim atenti la corectitudinea tipului de diagrama. Folosind Excel. Statistica si EpiInfo 2000. Acest transfer bazându-se însa pe perceptia vizuala. clase). toate „iluziile optice” pot fi folosite pentru a induce o perceptie eronata asupra unor date. anume: C1 = „41-45 kg” — 5 cazuri.65 m) si am obtinut rezultate care au fost grupate în 16 intervale (grupuri. se ridica pe verticala un dreptunghi cu înaltimea proportionala cu frecventa (fie absoluta. fie relativa) clasei. C15 = „111-115 kg” — 0 cazuri. pentru fiecare clasa.. sa presupunem ca am cântarit 240 de indivizi (a caror înaltime este de 1.

si anume urmatorul: un numar calcula t folosind datele obtinute dintr-un esantion. Statistici descriptive. De exemplu. ≤ x n poate fi folosita si mediana pentru a indica „centrul”. Mediana (Me) este „punctul” ce divide valorile în doua parti egale. într-un studiu efectuat asupra unei populatii mari. rezultatul este exprimat în aceleasi unitati de masura ca si valorile masurate. modul M o. . modul Mo este o statistica definita ca acea valoare ce are frecventa maxima.. Aceste numere sunt reprezentate prin puncte pe axa reala (a se vedea figura urmatoare) iar intuitia ne spune ca acestea sunt distribuite „echilibrat” în jurul unui „centru”. în orice soft statistic media aritmetica este afisata împreuna cu alte statistici elementare. în Excel aceasta functie este numita AVERAGE() si are un singur argument.. mediana Me coincide cu valoarea xm +1 care este situata exact în „mijloc”. anume domeniul în care au fost plasate datele numerice. mediana Me este media aritmetica a celor doua valori. este dat de formula: Mo = 3 × Me − 2 × m . totusi nu prea mult – a se vedea figura. Formula de mai sus ofera un prin exemplu de statistica. grupate în grupul Statistics . Mai mult. De exemplu. atunci când n = 2m (numarul datelor este par). aici se întâlneste comanda Means . în modulul sau Basic Statistics/Tables contine o comanda Detailed Descriptive Statistics . Pare evident cum putem obtine acest centru m: vom calcula media aritmetica a numerelor (adica însumam numerele.. Functii care calculeaza „instantaneu” media aritmetica sunt implementate în orice soft statistic sau de calcul tabelar. Pentru date categoriale (nenumerice). împreuna cu alte comenzi. xn .. x m si x m+1 . suntem interesati în a studia o anumita caracteristica reprezentata printr-o variabila numerica. ca de exemplu astfel: II-6 x1 ≤ x 2 ≤ .3. pentru a indica „centrul” mediei aritmetice si medianei îi este preferat modul. softul biostatistic EpiInfo 2004 are un modul numit Analysis. ca „centru” al datelor.. În cazul în care datele sunt ordonate. Aparitia – nu neaparat din eroare! – unei valori aberante (outlier) influenteaza pozitia mediei aritmetice... m= În formula de mai sus toate marimile masurate sunt tratate în mod „echitabil” (niciuna nu este tratata altfel decât celelalte). În unele situatii.2. vom dispune de numerele reale x1 . care sunt considerate „strict necesare pentru analiza”.. Statistica. + x n n Sa profitam de ocazie pentru a introduce al doilea înteles al cuvântului „statistica”. În practica media aritmetica nu este singura statistica utilizata pentru a indica „centrul” datelor. iar n = 2m + 1 (adica numarul datelor este impar). situate în mijloc. Însa. Ca un alt exemplu. Dupa ce am ales un esantion – sa zicem de n indivizi – si am facut masuratorile necesare. x2 . Centrarea unei variabile numerice Sa consideram ca. În situatia în care toate valorile xi sunt distincte. Pentru date numerice. apoi împartim suma la numarul total n al indivizilor din esantion): x1 + x2 + .

deviatia medie (abaterea medie) depinde „echitabil” de toate valorile seriei de date. abateri luate în valoare absoluta: pentru varianta. numita varianta seriei de date: V= 2 ∑ ( x k − m) . diferenta între valorile maxima si minima ale seriei de date: A = xmax − xmin . este amplitudinea notata cu A. atunci formula urmatoare satisface toate aceste conditii. Ca rezultat al ei se afiseaza media Mean. Statistica ne ofera. n −1 (la numitor apare numarul valorilor din seria de date. domeniul în care a fost plasata seria de date. valorile minima si maxima (vezi figura urmatoare). s= E= ∑ | xk − m | . evidenta. ele sunt implementate în soft. simultan sa aiba si proprietati matematice bune. Amplitudinea ne informeaza asupra lungimii intervalului de variatie (în cazul unor date numerice).4. comanda Detailed Descriptive Statistics. mediana. deviatia standard Std. ele diferind între ele doar prin întelesul pe care-l acordam acestui termen. eventual o masura a acestei împrastieri. si nu ne informeaza deloc asupra modului în care datele sunt împrastiate între extreme. Aceasta statistica presupune ca a fost calculata anterior media m a seriei. este la fel de importanta ca si aflarea „centrului”. Multe dintre statisticile care exprima împrastierea sunt definite plecând de la notiunea de „deviatie”. Din contra. evident. în modulul Basic Statistics/Tables. ca de exemplu MEDIAN(). grupate în grupul Statistics ) din modulul Analysis al aplicatiei EpiInfo 2000 ofera multe rezultate.Dev.. Comanda Means (împreuna cu altele.2. la fel ca în cazul functiei AVERAGE(). n Deviatia medie este exprimata în aceeasi unitate de masura ca si valorile seriei de date. însa acest lucru nu mai este valabil II-7 . diminuat cu 1). Ambele formule de mai sus pentru s necesita foarte multe calcule. Astfel aplicatia Excel dispune de functia STDEV() al carui unic argument este. Formula ne da asanumita deviatie standard (abatere standard) a seriei de date: 2 ∑ ( x k − m) . În Excel avem la dispozitie multe alte functii statistice. deviatia standard (a se vedea figura de mai jos). Statistici descriptive. Deviatia Adeseori evaluarea împrastierii da telor în jurul centrului. O prima statistica. Acesta este motivul principal pentru înlocuirea sa cu urmatoarea statistica. are dezavantajul ca depinde doar de doua dintre valorile seriei. si care este definita ca . Daca dorim o statistica ale carei valori sa fie expr imate în aceeasi unitate de masura ca si valorile seriei. incluzând media aritmetica. s= n Anumite ratiuni teoretice (care depasesc nivelul acestei prezentari si nu pot fi explicate acum) fac ca formula abaterii standard sa fie usor modificata în urmatoarea: 2 ∑ ( x k − m) . cu folosire evidenta. n Din punct de vedere matematic aceasta formula nu este potrivita (functia modul nefiind derivabila). Definitia precisa este urmatoarea: deviatia medie este media aritmetica a abaterilor valorilor fata de media lor. care sa depinda „echitabil” de toate valorile. varianta.

de 25%) si q 3 (a treia. acest dreptunghi (box) a) fie contine 50% din datele seriei. pentru a le evalua centrul si împrastierea î n jurul centrului putem folosi urmatoarele statistici: — Media aritmetica m. de 75%). în practica sunt des utilizate si alte statistici: — Cuartilele q1 (prima. Ele arata distributii destul de dezechilibrate pentru valorile tuturor celor trei variabile GLIC_08. (Terminologia dubla în limba româna este cauzata de adoptarea recenta a termenilor din engleza. II-8 . Întro astfel de diagrama: — o linie transversala sau un asterisc indica „centrul”. — un d reptunghi indica variabilitatea în jurul centrului. GLIC_20. — Modul Mo . b) fie contine datele seriei aflate între m − 2s si m + 2s . Sa încheiem aceasta trecere în revista prin prezentarea unui tip special de diagrama. — Amplitudinea A. — linii (whiskers) extind dreptunghiul în ambele directii. aceste linii indica domeniul de variatie (excluzându-se eventualele valori aberante. cunoscuta ca box-and-whisker plot. — Varianta V.) Lista anterioara nu este deloc exhaustiva. care exprima evident lipsa de simetrie a seriei de date în jurul „centrului”. Acestea sunt numerele care. împreuna cu mediana Me = q2 (considerata ca a doua cuartila) divid datele seriei în patru parti egale. care sunt marcate special). — Asimetria (skewness). — Mediana Me.Sa rezumam cele de mai sus: daca dispunem de o serie de date numerice. — Abaterea medie (deviatia medie) E. Un exemplu de trei box-and-whisker plots realiza te cu Statistica este prezentat în figura de mai sus. — Abaterea standard (deviatia standard) s. GLIC_14. anume cele aflate între cuartilele q1 si q3 . des folosita în reprezentarea grafica a datelor medicale.

prin asa -numita varianta a valorii alese. în aceasta situatie. Prezenta este notata de obicei prin 1. Data o variabila calitativa. în acest caz. Împrastierea este evaluata. care nu este altceva decât eticheta/etichetele având frecventa maxima. modul. iar operatiile aritmetice nu sunt definite! Am putea înlocui etichetele prin numere – de exemplu am putea recodifica eticheta „admis” prin 1 iar eticheta „respins” prin 0 – si apoi sa facem calculele cu aceste numere. Daca prezenta valorii este constatata la a indivizi ai esantionului. nu avem nicio justificare în a face asa ceva. definita prin: V = f (1 − f ) sau prin deviatia standard a valorii: s= f (1 − f ) . prin urmare putem calcula media lor – prin operatii aritmetice de adunare si împartire – sau abaterea standard (pentru care calculele sunt ceva mai complexe). acest raport joaca acelasi rol pe care-l joaca media aritmetica în cazul variabilelor cantitative. (Este vorba de fapt de formulele obisnuite. este media unor valori ce pot fi doar 1 sau 0. n Pentru valoarea aleasa.) Adevarata statistica „de centrare” pentru întreaga serie de date (asadar pentru ansamblul valorilor etichete) este. am putea fixa o valoare particulara a ei si apoi. adaptate pentru valorile x k = 0 sau 1. valorile sunt etichete. (De fapt. Statistici descriptive pentru variabile calitative În cazul variabilelor cantitative datele sunt numerice.5.2.) Prin urmare este o statistica de „centrare”. dar. iar absenta prin 0. evident. II-9 . prin raportare vom obtine imediat frecventa relativa a acestei valori: a f = . pentru fiecare individ din esantion. am putea nota prezenta respectiv absenta acestei valori. În cazul variabilelor calitative însa. prezentate în paragraful anterior.

. printr-un exemplu. xn yk . (Se observa ca atunci când seria de date Y coincide cu seria de date X.2...Y este apropiat fie de –1. Sa consideram. de exemplu exprimate printr-un numar ce exprima intensitatea legaturii între cele doua variabile (?). În cazurile extreme (adica atunci când numarul rX ..6.) Corelatia (liniara) între cele doua serii de date este definita prin asa-numitul coeficient de corelatie Pearson: rX .. expresia covariantei C devine expresia variantei V. ne exprimam spunând ca exista o corelatie liniara între variabilele X si Y. cazul cel mai simplu..Y = C s X sY xk . datele rezultate sunt prezentate fie într-un tabel: Individul 1 2 . Sa facem observatia ca formula de calcul a coeficientului de corelatie Pearson poate fi rescrisa în felul urmator: rX . II-10 unde s X respectiv sY sunt abaterile standard ale celor doua serii de date. k . Acest numar este între –1 si 1.Y = ∑ ( xi − m X )( yi − mY ) 2 2 ∑ ( xi − m X ) ⋅ ∑ ( yi − mY ) . Valorile variabilei Y y1 y2 . Covarianta între cele doua serii de date se calculeaza cu formula C= 1 n ∑ (x k − m X )( y k − mY ) . pentru fiecare nou nascut. Însa modul binar de a raspunde la întrebari nu este specific statisticii! În cadrul statisticii se dau raspunsuri diversificate. atunci când studiem legatura între doua variabile numerice. oare putem exprima aceasta legatura printr-o formula liniara? La prima vedere se pare ca raspunsurile la aceste întrebari sunt fie „da”. În cazul în care (avem impresia ca) punctele sunt aliniate. dupa cum doreste. începem prin a alege un esantion... n Valorile variabilei X x1 x2 . fie de 1) avem de-a face cu o puternica legatura liniara între seriile de date.. Oare exista vreo legatura între aceste doua variabile? Si daca da. Iar fiecare persoana ar putea sa-l interpreteze.. vârsta mamei (în ani) si greutatea noului nascut (în grame).. fie „nu”. al carui calcul se bazeaza pe calculul covariantei. pe care o putem extrapola (asumându-ne riscuri!) la o legatura liniara: Y = αX + β între variabile. cel în care studiem doua caracteristici: se înregistreaza. Sa notam cu m X respectiv mY mediile celor doua serii de date. Covarianta si corelatia Rare sunt studiile efectuate asupra unei populatii în care suntem interesati în a studia doar o anumita caracteristica (reprezentata printr-o variabila). apoi înregistram datele provenite din masuratorile efectuate asupra indivizilor. În practica.Y este efectuat în Excel prin intermediul .. yn fie ca un „nor” de n puncte în plan (a se vedea figura de mai sus). ca un „da” sau un „nu”! Una dintre posibilitatile de a da asemenea raspunsuri consta în folosirea coeficientului de corelatie (Pearson). Calculul destul de dificil al numarului rX .

5 38. nu ofera o interpretare adecvata a „concordantei” între evaluarile arbitrilor. Coeficientul de corelatie Pearson. evident. cu formula ro = 1 − ∑ dk N ( N 2 − 1) 2 în care d k este diferenta rangurilor obtinute de concurentul k . Sa consideram acum ca valorile variabilelor X si Y nu pot fi obtinute prin masuratori. rangurile acordate concurentilor de catre doi arbitri. obtinându-se rezultatele din tabelul urmator: i 1 2 3 4 5 6 7 8 9 10 Pulsul x k 75 80 70 90 75 85 80 90 100 95 Temperatura axilara y k 38.912 care ne indica o legatura liniara puternica între puls si temperatura axilara. sa pre supunem ca pentru 10 indivizi – alesi în esantion – au fost masurate temperatura axilara (în °C) si pulsul (în numar de oscilatii/minut). de exemplu. chiar daca este calculabil.6 38.2 37. asa-numitul coeficient de corelatie Spearman. II-11 .9 Prin calcul (cu functia CORREL() din Excel) obtinem (vezi figura de mai jos): rX . Aceasta functie are doua argumente care sunt. ele sunt numere de ordine.4 38.1 38. Ca un caz concret.0 37. Coeficientul de corelatie Pearson poate fi calculat doar daca dispunem de date numerice. dimpotriva. domeniile în care am depus cele doua serii de date. asa cum ar fi.5 36.functiei CORREL().5 39.911885 ≈ 0. În situatii de acest fel se va calcula.Y = 0.3 37.

Sign up to vote on this title
UsefulNot useful