Lectia #2

2.1. Populatii si esantioane, caracteristici si variabile 2.2. Reprezentari grafice 2.3. Statistici descriptive. Centrarea unei variabile numerice 2.4. Statistici descriptive. Deviatia 2.5. Statistici descriptive pentru variabile calitative 2.6. Covarianta si corelatia

II-1

în limbajul de zi cu zi. „portocaliu”. Ratiunea esantionarii este limpede: prin efectuarea de studii asupra unei parti relativ „mici” din populatie – parte care este numita esantion – sa strângem suficienta informatie care sa ne permita sa inferam la nivelul întregii populatii asupra caracteristicilor studiate. atunci când ne referim la o populatie. Numarul indivizilor din esantionul ales este numit volumul esantionului si este notat de obicei. în care este clar ca acest numar nu este prea mare. Caracteristica „culoare” a obiectelor ar putea fi masurata (exprimata prin lungimea de unda). se presupune ca la un moment particular de timp – sau într-un interval de timp bine definit – populatia este bine definita. adica multimea tuturor valorilor posibile. un înteles evident. Este oare mai bun noul tratament decât cel clasic? Cuvântul populatie are. aceste caracteristici sunt reprezentate prin variabile. cum este cea din exemplul formal „populatia pacientilor dr. Populatii si esantioane. aceasta nu exclude însa multe situatii. Biostatistica. fiind o ramura a statisticii. Statistica ne permite sa stabilim „legi” în care sa tinem seama de incertitudine. ne permite sa dam raspuns la întrebari cum sunt urmatoarele: a. câteodata ele au ca efect chiar distrugerea indivizilor „studiati”. ci sunt identificate prin apartenenta la un grup. Principala caracteristica a proceselor biologice este variabilitatea. Care valori sunt normale pentru un anumit proces biologic? b. Ionescu ce sufera de cardiopatie ischemica”. Fiecare individ al unei populatii îsi are identitatea sa proprie. Atunci când încercam sa comparam sau sa clasificam indivizi.2. sau inteligenta unui student – sunt masurate si exprimate prin numere. Biostatistica este acel domeniu particular al stiintelor în care metodele specifice statisticii sunt aplicate problemelor biologice (inclusiv medicale). Se subîntelege ca o populatie are caracter dinamic (adica numarul indivizilor ei variaza în timp). anumite atribute „importante” ale indivizilor. Sa definim spatiul observabil. iar indivizii prezinta o anumita variabilitate. De obicei. ceea ce înseamna: 1. caracteristici si variabile Statistica este o stiinta care se ocupa cu tratamentul datelor obtinute din grupuri „mici” de indivizi si extinderea rezultatelor la populatii „mari”. în particular diverselor fenomene si procese care afecteaza calitatea fizica si mentala a oamenilor. înaltimea sa. atunci când ne referim la un esantion potential (esantionul nu a fost precizat) prin litera n. Alte caracteristici – cum ar fi sexul sau categoria de vârsta – nu sunt masurate. însa de obicei este identificata prin apartenenta la grupurile „rosu”. consideram implicit ca numarul indivizilor ei este mare. Unele caracteristici – cum ar fi greutatea unui pacient diagnosticat cu tuberculoza. Aceasta variabilite determina un anumit grad de incertitudine. Pentru a reprezenta o caracteristica printr -o singura variabila va trebui sa introducem o scara. Cât de mult riscam atunci când alegem un anumit tratament? c. De obicei studiile efectuate asupra indivizilor unei populatii sunt costisitoare si de durata. Totusi. aceste atribute poarta numele de caracteristici. Atunci când studiem o populatie se iau în considerare doar II-2 . Este de neconceput sa poata fi studiati chiar toti indivizii unei populatii „mari”.1. sa stabilim legaturi între caracteristicile lor. „galben” etc.

si 3. Observam ca toate clasele descrise anterior au aceeasi „lungime”.). Aceasta nu este obligatoriu! În cazul în care fie indivizii sunt grupati natural în clase. Domeniul în care au fost plasate valorile variabilelor (data array). sa consideram câteva exemple. Mai precis. Domeniul – în general pe o coloana – în care se trec valorile de separare. ordonare totala etc. Sa definim o structura pe spatiul observabil. prin mai multe variabile . Frecventa relativa se calculeaza prin împartirea frecventei absolute la numarul total al indivizilor din esantion. Spatiul observabil este acum format doar din etichetele „foarte scund”. anume 5 ani. Câteodata o caracteristica este exprimata printr-o variabila de decizie (sau variabila binara) ce ia doar doua valori „admis”/”respins” (respectiv „da”/”nu” etc. Aceasta functie are doua argumente: 1.2. O alta situatie ce trebuie scoasa în evidenta este cea a caracteristicii „inteligenta” a unui student. prin urmare le putem ordona între ele. Numerele obtinute sunt reale. o caracteristica studiata ar putea fi reprezentata. „scund”. frecventa absoluta este numarul indivizilor p entru care datele apartin acelei clase. Pare natural sa grupam vârstele lor în clase – delimitate subiectiv dupa cum urmeaza C1 = „0-4 ani”. în ordine crescatoare (bins array). le vom putea „aprecia vizual” înaltimea. În aceasta celula suplimentara va fi afisat numarul valorilor ce depasesc cea mai mare valoare de separare. De exemplu. Pentru o clasa de date. etc. Caracteristica „înaltime” a pacientilor este reprezintata evident printr-o variabila. Sa admitem ca putem asocia fiecarui individ câte o (singura) valoare din spatiul observabil. ordinale (care reprezinta aceeasi II-3 caracteristica). este definita doar ordonarea între ele. Numarul K de clase este ales în strânsa dependenta de problema studiata si nu exista definit vreun „algoritm” de stabilire a sa. datele numerice sunt grupate într-un numar „mic” de clase. Sa luam de exemplu clasele de vârsta ale pacientilor.) Se poate face recomandarea de a se forma între 8 si 20 de clase. cu o usoara cheltuiala de timp – o unica valoare a înaltimii sale. direct sau indirect. se utilizeaza foarte adesea clase de vârsta sau clase de înaltime. Frecventele variabilelor (nu numai cu valori numerice) se obtin cu usurinta în Excel prin intermediul functiei FREQUENCY(). Rezultatele aplicarii acestei functii sunt plasate într -un domeniu ce are o celula în plus fata de domeniul valorilor de separare. Pentru a preciza ideile. Asemenea etichete nu pot fi adunate sau scazute. C2 = „5-9 ani”. scadea. centimetrul. un numar mare de clase face dificila reprezentarea grafica a rezultatelor. din contra. Uneori se folosesc si asa-numitele frecvente cumulate. Este clar ca daca ne alegem o unitate de masura (metrul. C3 = „10-14 ani” si asa mai departe. Asadar. O asemenea variabila este numita variabila numerica. Aceeasi caracteristica „înaltime” ar putea fi reprezentata de o variabila de cu totul alt tip. Nu mai este necesara o masurare precisa a pacientilor. fie datele colectate au fost grupate în clase. de asemenea le putea aduna. care poate fi exprimata printr-un ansamblu de variabile. De data aceasta avem un exemplu de variabila ordinala. Un numar prea mic de clase are dezavantajul ca „ascunde” particularitatile claselor. considerând ca studiem un esantion de indivizi diagnosticati cu o anumita maladie. 2. …) atunci pentru fiecare pacient vom putea sa obtinem – e drept. „înalt” si „foarte înalt”. „mediu”. Atunci când avem de-a face cu un esantion „mare” (adica are un numar „mare"de indivizi).). putem calcula frecvente. . deoarece consideram în mod intuitiv ca valorile sunt numere reale (cu alte cuvinte spatiul observabil este R iar acest spatiu are o structura foarte bogata: operatii aritmetice. de obicei variabilele numerice sunt înlocuite prin variabile calitative. (Se recomanda reprezentarea grafica a rezultatelor datorita perceptiei mai rapide pe cale vizuala a informatiei.

Exista si deosebiri în modul în care trebuie introduse datele.2. iar diagramele de tip rozeta au fost obtinute cu Excel si EpiInfo 2000 . Iar reprezentarea datelor într-o diagrama cu bare sau de tip rozeta este o operatiune usoara. diagrama de tip histograma a fost obtinuta cu Statistica. în cele doua rozete. de exemplu. în diagrama cu bare. Sa consideram. existând unele diferente (datorate rotunjirilor). Probabil ca suntem de acord cu totii ca informatia reprezentata grafic este mai usor de „înteles”. implementata în orice soft statistic sau de calcul tabelar. (O mica corectie: în diagrama de tip histograma este reprezentata o curba suplimentara. În figurile de mai jos diagrama cu bare a fost obtinua cu Excel. poate fi extrem de eficienta pentru prezentarea unor date sau Ziua saptamânii Luni Marti Miercuri Joi Frecventa absoluta a cazurilor de infarct 4 4 7 3 rezultate. În general se pleaca de la datele primare „caz dupa caz”. care însa este inutila în cazul nostru. în histograma si în rozete este prezentata aceeasi informatie. cazurile de infarct înregistrate într-un oras mare. interpretata vizual. Reprezentari grafice Adeseori o reprezentare grafica. grupate dupa zilele saptamânii: Ziua saptamânii Vineri Sâmbata Duminica TOTAL Frecventa absoluta a cazurilor de infarct 6 4 8 36 O inspectare vizuala a numerelor din tabel nu este la fel de eficienta ca examinarea vizuala a unei diagrame cu bare sau a unei rozete. .) II-4 Se poate observa. Doar în Excel putem pleca de la tabelul de mai sus. Vom aborda ulterior interpretarea acestei curbe. În tabel. ca prezentarea rezultatelor depinde de softul folosit.2.

pe axa orizontala se marcheaza punctele de separare între clase si. iar abia apoi rezultatele gruparii sunt prezentate în histograme. Aceste valori aberante.65 m) si am obtinut rezultate care au fost grupate în 16 intervale (grupuri. Atunci când se construieste o diagrama de tip histograma. II-5 . C4 = „56-60 kg” — 36 cazuri. . distorsioneaza serios rezultatele analizelor statistice.Atât tabelele de frecvente. Dreptunghiurile sunt de „latimi” egale. toate „iluziile optice” pot fi folosite pentru a induce o perceptie eronata asupra unor date. C15 = „111-115 kg” — 0 cazuri. Acest transfer bazându-se însa pe perceptia vizuala. anume: C1 = „41-45 kg” — 5 cazuri. de orice fel ar fi. Reprezentarea grafica a datelor ar putea fi folositoare si pentru identificarea datelor eronate sau a valorilor aberante (outliers). la modificarea nejustificata a scarilor de masurare. se ridica pe verticala un dreptunghi cu înaltimea proportionala cu frecventa (fie absoluta. la falsificarea datelor prezentate. cât si diagramele sunt adecvate pentru „afisarea” variabilelor care au un numar „mic” de valori. iar într-o diagrama cu bare clasele sunt reprezentate prin etichete (labels). etichetelor si legendelor de pe diagrama. C3 = „51-55 kg” — 20 cazuri. clase). pentru fiecare clasa. în asemenea situatii se practica gruparea valorilor în câteva intervale de valori. Într-o histograma veritabila aria tuturor dreptunghiurilor este 1. Folosind Excel. C2= „46-50 kg” — 10 cazuri. C16= „116-120 kg” — 1 caz... Statistica si EpiInfo 2000. Trebuie sa fim atenti la corectitudinea tipului de diagrama. din aceste date se obtin histogramele urmatoare: Sa remarcam ca într-o histograma clasele sunt intervale de numere reale. De exemplu. Asemenea reprezentari – tabelare sau diagramatice – nu sunt deloc potrivite pentru variabilele care au un numar mare de valori numerice (asa cum este cazul greutatii pacientilor exprimata în grame). Evident. si nu în ultimul rând la adecvarea textele titlurilor.) Sa încheiem aceasta sectiune subliniind ca reprezentarile grafice sunt folosite pentru accelerarea transferului de informatie de la om la om. fie relativa) clasei. sa presupunem ca am cântarit 240 de indivizi (a caror înaltime este de 1.

≤ x n poate fi folosita si mediana pentru a indica „centrul”. în modulul sau Basic Statistics/Tables contine o comanda Detailed Descriptive Statistics . si anume urmatorul: un numar calcula t folosind datele obtinute dintr-un esantion. aici se întâlneste comanda Means .. atunci când n = 2m (numarul datelor este par). în orice soft statistic media aritmetica este afisata împreuna cu alte statistici elementare. Statistica. Mai mult.. În cazul în care datele sunt ordonate. ca de exemplu astfel: II-6 x1 ≤ x 2 ≤ . Dupa ce am ales un esantion – sa zicem de n indivizi – si am facut masuratorile necesare. Mediana (Me) este „punctul” ce divide valorile în doua parti egale. mediana Me este media aritmetica a celor doua valori.. anume domeniul în care au fost plasate datele numerice. mediana Me coincide cu valoarea xm +1 care este situata exact în „mijloc”. ca „centru” al datelor. Functii care calculeaza „instantaneu” media aritmetica sunt implementate în orice soft statistic sau de calcul tabelar.. Pentru date categoriale (nenumerice). Pare evident cum putem obtine acest centru m: vom calcula media aritmetica a numerelor (adica însumam numerele. iar n = 2m + 1 (adica numarul datelor este impar). De exemplu. pentru a indica „centrul” mediei aritmetice si medianei îi este preferat modul. modul Mo este o statistica definita ca acea valoare ce are frecventa maxima. suntem interesati în a studia o anumita caracteristica reprezentata printr-o variabila numerica. Aceste numere sunt reprezentate prin puncte pe axa reala (a se vedea figura urmatoare) iar intuitia ne spune ca acestea sunt distribuite „echilibrat” în jurul unui „centru”. Pentru date numerice. În practica media aritmetica nu este singura statistica utilizata pentru a indica „centrul” datelor.2. situate în mijloc. În unele situatii. împreuna cu alte comenzi.. xn . apoi împartim suma la numarul total n al indivizilor din esantion): x1 + x2 + . într-un studiu efectuat asupra unei populatii mari. în Excel aceasta functie este numita AVERAGE() si are un singur argument. vom dispune de numerele reale x1 . modul M o.3. softul biostatistic EpiInfo 2004 are un modul numit Analysis. De exemplu. Ca un alt exemplu. m= În formula de mai sus toate marimile masurate sunt tratate în mod „echitabil” (niciuna nu este tratata altfel decât celelalte). + x n n Sa profitam de ocazie pentru a introduce al doilea înteles al cuvântului „statistica”. rezultatul este exprimat în aceleasi unitati de masura ca si valorile masurate. este dat de formula: Mo = 3 × Me − 2 × m . Formula de mai sus ofera un prin exemplu de statistica. Statistici descriptive. grupate în grupul Statistics . totusi nu prea mult – a se vedea figura. ... care sunt considerate „strict necesare pentru analiza”. În situatia în care toate valorile xi sunt distincte. Aparitia – nu neaparat din eroare! – unei valori aberante (outlier) influenteaza pozitia mediei aritmetice. Însa. Centrarea unei variabile numerice Sa consideram ca. x2 .. x m si x m+1 .

grupate în grupul Statistics ) din modulul Analysis al aplicatiei EpiInfo 2000 ofera multe rezultate. n −1 (la numitor apare numarul valorilor din seria de date. În Excel avem la dispozitie multe alte functii statistice. s= E= ∑ | xk − m | . diferenta între valorile maxima si minima ale seriei de date: A = xmax − xmin . deviatia standard Std. însa acest lucru nu mai este valabil II-7 . abateri luate în valoare absoluta: pentru varianta. evidenta. comanda Detailed Descriptive Statistics. Amplitudinea ne informeaza asupra lungimii intervalului de variatie (în cazul unor date numerice). diminuat cu 1). domeniul în care a fost plasata seria de date. Deviatia Adeseori evaluarea împrastierii da telor în jurul centrului. Definitia precisa este urmatoarea: deviatia medie este media aritmetica a abaterilor valorilor fata de media lor. numita varianta seriei de date: V= 2 ∑ ( x k − m) . Statistici descriptive.Dev. Comanda Means (împreuna cu altele. si nu ne informeaza deloc asupra modului în care datele sunt împrastiate între extreme. este la fel de importanta ca si aflarea „centrului”. care sa depinda „echitabil” de toate valorile. incluzând media aritmetica. atunci formula urmatoare satisface toate aceste conditii. n Deviatia medie este exprimata în aceeasi unitate de masura ca si valorile seriei de date. evident.2. deviatia medie (abaterea medie) depinde „echitabil” de toate valorile seriei de date. are dezavantajul ca depinde doar de doua dintre valorile seriei. Formula ne da asanumita deviatie standard (abatere standard) a seriei de date: 2 ∑ ( x k − m) . s= n Anumite ratiuni teoretice (care depasesc nivelul acestei prezentari si nu pot fi explicate acum) fac ca formula abaterii standard sa fie usor modificata în urmatoarea: 2 ∑ ( x k − m) . mediana. Aceasta statistica presupune ca a fost calculata anterior media m a seriei. simultan sa aiba si proprietati matematice bune. si care este definita ca . ele sunt implementate în soft.. Ambele formule de mai sus pentru s necesita foarte multe calcule. n Din punct de vedere matematic aceasta formula nu este potrivita (functia modul nefiind derivabila). deviatia standard (a se vedea figura de mai jos). ele diferind între ele doar prin întelesul pe care-l acordam acestui termen. în modulul Basic Statistics/Tables. Acesta este motivul principal pentru înlocuirea sa cu urmatoarea statistica. eventual o masura a acestei împrastieri. Astfel aplicatia Excel dispune de functia STDEV() al carui unic argument este. Ca rezultat al ei se afiseaza media Mean. este amplitudinea notata cu A. cu folosire evidenta. Multe dintre statisticile care exprima împrastierea sunt definite plecând de la notiunea de „deviatie”. O prima statistica. valorile minima si maxima (vezi figura urmatoare). varianta. Statistica ne ofera.4. la fel ca în cazul functiei AVERAGE(). Din contra. ca de exemplu MEDIAN(). Daca dorim o statistica ale carei valori sa fie expr imate în aceeasi unitate de masura ca si valorile seriei.

— linii (whiskers) extind dreptunghiul în ambele directii. Sa încheiem aceasta trecere în revista prin prezentarea unui tip special de diagrama. aceste linii indica domeniul de variatie (excluzându-se eventualele valori aberante. în practica sunt des utilizate si alte statistici: — Cuartilele q1 (prima.Sa rezumam cele de mai sus: daca dispunem de o serie de date numerice. des folosita în reprezentarea grafica a datelor medicale. de 75%). — un d reptunghi indica variabilitatea în jurul centrului. Acestea sunt numerele care. b) fie contine datele seriei aflate între m − 2s si m + 2s . acest dreptunghi (box) a) fie contine 50% din datele seriei. Un exemplu de trei box-and-whisker plots realiza te cu Statistica este prezentat în figura de mai sus. — Modul Mo . cunoscuta ca box-and-whisker plot. — Abaterea medie (deviatia medie) E. Întro astfel de diagrama: — o linie transversala sau un asterisc indica „centrul”. GLIC_20. împreuna cu mediana Me = q2 (considerata ca a doua cuartila) divid datele seriei în patru parti egale. anume cele aflate între cuartilele q1 si q3 . — Abaterea standard (deviatia standard) s. pentru a le evalua centrul si împrastierea î n jurul centrului putem folosi urmatoarele statistici: — Media aritmetica m. — Mediana Me. care sunt marcate special). II-8 . — Amplitudinea A. GLIC_14.) Lista anterioara nu este deloc exhaustiva. de 25%) si q 3 (a treia. — Asimetria (skewness). Ele arata distributii destul de dezechilibrate pentru valorile tuturor celor trei variabile GLIC_08. care exprima evident lipsa de simetrie a seriei de date în jurul „centrului”. (Terminologia dubla în limba româna este cauzata de adoptarea recenta a termenilor din engleza. — Varianta V.

am putea fixa o valoare particulara a ei si apoi. în acest caz. Statistici descriptive pentru variabile calitative În cazul variabilelor cantitative datele sunt numerice. prin raportare vom obtine imediat frecventa relativa a acestei valori: a f = . prezentate în paragraful anterior. iar absenta prin 0.2. pentru fiecare individ din esantion. iar operatiile aritmetice nu sunt definite! Am putea înlocui etichetele prin numere – de exemplu am putea recodifica eticheta „admis” prin 1 iar eticheta „respins” prin 0 – si apoi sa facem calculele cu aceste numere. în aceasta situatie. (Este vorba de fapt de formulele obisnuite.) Adevarata statistica „de centrare” pentru întreaga serie de date (asadar pentru ansamblul valorilor etichete) este. Prezenta este notata de obicei prin 1. modul.) Prin urmare este o statistica de „centrare”. am putea nota prezenta respectiv absenta acestei valori. adaptate pentru valorile x k = 0 sau 1. dar. II-9 . prin asa -numita varianta a valorii alese. Împrastierea este evaluata. În cazul variabilelor calitative însa. valorile sunt etichete. prin urmare putem calcula media lor – prin operatii aritmetice de adunare si împartire – sau abaterea standard (pentru care calculele sunt ceva mai complexe). definita prin: V = f (1 − f ) sau prin deviatia standard a valorii: s= f (1 − f ) . acest raport joaca acelasi rol pe care-l joaca media aritmetica în cazul variabilelor cantitative. Data o variabila calitativa. este media unor valori ce pot fi doar 1 sau 0. care nu este altceva decât eticheta/etichetele având frecventa maxima. Daca prezenta valorii este constatata la a indivizi ai esantionului.5. n Pentru valoarea aleasa. nu avem nicio justificare în a face asa ceva. evident. (De fapt.

Iar fiecare persoana ar putea sa-l interpreteze.Y = C s X sY xk . cazul cel mai simplu.... cel în care studiem doua caracteristici: se înregistreaza.) Corelatia (liniara) între cele doua serii de date este definita prin asa-numitul coeficient de corelatie Pearson: rX . yn fie ca un „nor” de n puncte în plan (a se vedea figura de mai sus). începem prin a alege un esantion. În practica..Y este efectuat în Excel prin intermediul .. pe care o putem extrapola (asumându-ne riscuri!) la o legatura liniara: Y = αX + β între variabile. atunci când studiem legatura între doua variabile numerice.. Calculul destul de dificil al numarului rX . Valorile variabilei Y y1 y2 . fie „nu”. ca un „da” sau un „nu”! Una dintre posibilitatile de a da asemenea raspunsuri consta în folosirea coeficientului de corelatie (Pearson).. În cazurile extreme (adica atunci când numarul rX . (Se observa ca atunci când seria de date Y coincide cu seria de date X. Covarianta între cele doua serii de date se calculeaza cu formula C= 1 n ∑ (x k − m X )( y k − mY ) . apoi înregistram datele provenite din masuratorile efectuate asupra indivizilor. Oare exista vreo legatura între aceste doua variabile? Si daca da. II-10 unde s X respectiv sY sunt abaterile standard ale celor doua serii de date. oare putem exprima aceasta legatura printr-o formula liniara? La prima vedere se pare ca raspunsurile la aceste întrebari sunt fie „da”.. pentru fiecare nou nascut.6. xn yk . de exemplu exprimate printr-un numar ce exprima intensitatea legaturii între cele doua variabile (?). printr-un exemplu. n Valorile variabilei X x1 x2 . ne exprimam spunând ca exista o corelatie liniara între variabilele X si Y..2.. Sa consideram. Sa notam cu m X respectiv mY mediile celor doua serii de date. Covarianta si corelatia Rare sunt studiile efectuate asupra unei populatii în care suntem interesati în a studia doar o anumita caracteristica (reprezentata printr-o variabila). Însa modul binar de a raspunde la întrebari nu este specific statisticii! În cadrul statisticii se dau raspunsuri diversificate. fie de 1) avem de-a face cu o puternica legatura liniara între seriile de date. Sa facem observatia ca formula de calcul a coeficientului de corelatie Pearson poate fi rescrisa în felul urmator: rX ..Y este apropiat fie de –1. Acest numar este între –1 si 1. expresia covariantei C devine expresia variantei V. datele rezultate sunt prezentate fie într-un tabel: Individul 1 2 .Y = ∑ ( xi − m X )( yi − mY ) 2 2 ∑ ( xi − m X ) ⋅ ∑ ( yi − mY ) . k . În cazul în care (avem impresia ca) punctele sunt aliniate. vârsta mamei (în ani) si greutatea noului nascut (în grame).. dupa cum doreste. al carui calcul se bazeaza pe calculul covariantei.

5 39. asa cum ar fi.912 care ne indica o legatura liniara puternica între puls si temperatura axilara. ele sunt numere de ordine.functiei CORREL().Y = 0.9 Prin calcul (cu functia CORREL() din Excel) obtinem (vezi figura de mai jos): rX . Coeficientul de corelatie Pearson. domeniile în care am depus cele doua serii de date. chiar daca este calculabil.911885 ≈ 0. dimpotriva. rangurile acordate concurentilor de catre doi arbitri. Sa consideram acum ca valorile variabilelor X si Y nu pot fi obtinute prin masuratori. Ca un caz concret. evident. Coeficientul de corelatie Pearson poate fi calculat doar daca dispunem de date numerice.6 38.3 37. nu ofera o interpretare adecvata a „concordantei” între evaluarile arbitrilor. obtinându-se rezultatele din tabelul urmator: i 1 2 3 4 5 6 7 8 9 10 Pulsul x k 75 80 70 90 75 85 80 90 100 95 Temperatura axilara y k 38. asa-numitul coeficient de corelatie Spearman. În situatii de acest fel se va calcula. sa pre supunem ca pentru 10 indivizi – alesi în esantion – au fost masurate temperatura axilara (în °C) si pulsul (în numar de oscilatii/minut). de exemplu.0 37.1 38. cu formula ro = 1 − ∑ dk N ( N 2 − 1) 2 în care d k este diferenta rangurilor obtinute de concurentul k .5 38. II-11 . Aceasta functie are doua argumente care sunt.4 38.5 36.2 37.