Lectia #2

2.1. Populatii si esantioane, caracteristici si variabile 2.2. Reprezentari grafice 2.3. Statistici descriptive. Centrarea unei variabile numerice 2.4. Statistici descriptive. Deviatia 2.5. Statistici descriptive pentru variabile calitative 2.6. Covarianta si corelatia

II-1

atunci când ne referim la un esantion potential (esantionul nu a fost precizat) prin litera n. Principala caracteristica a proceselor biologice este variabilitatea. Se subîntelege ca o populatie are caracter dinamic (adica numarul indivizilor ei variaza în timp). înaltimea sa. Caracteristica „culoare” a obiectelor ar putea fi masurata (exprimata prin lungimea de unda). sau inteligenta unui student – sunt masurate si exprimate prin numere. adica multimea tuturor valorilor posibile. Atunci când încercam sa comparam sau sa clasificam indivizi. ceea ce înseamna: 1. atunci când ne referim la o populatie. cum este cea din exemplul formal „populatia pacientilor dr. iar indivizii prezinta o anumita variabilitate. Aceasta variabilite determina un anumit grad de incertitudine. Alte caracteristici – cum ar fi sexul sau categoria de vârsta – nu sunt masurate. un înteles evident. caracteristici si variabile Statistica este o stiinta care se ocupa cu tratamentul datelor obtinute din grupuri „mici” de indivizi si extinderea rezultatelor la populatii „mari”. Statistica ne permite sa stabilim „legi” în care sa tinem seama de incertitudine. Care valori sunt normale pentru un anumit proces biologic? b.2. Biostatistica. se presupune ca la un moment particular de timp – sau într-un interval de timp bine definit – populatia este bine definita. aceste caracteristici sunt reprezentate prin variabile. în particular diverselor fenomene si procese care afecteaza calitatea fizica si mentala a oamenilor. Unele caracteristici – cum ar fi greutatea unui pacient diagnosticat cu tuberculoza. Populatii si esantioane. Cât de mult riscam atunci când alegem un anumit tratament? c. De obicei. Este de neconceput sa poata fi studiati chiar toti indivizii unei populatii „mari”. însa de obicei este identificata prin apartenenta la grupurile „rosu”. Fiecare individ al unei populatii îsi are identitatea sa proprie. în limbajul de zi cu zi. ci sunt identificate prin apartenenta la un grup. Este oare mai bun noul tratament decât cel clasic? Cuvântul populatie are. anumite atribute „importante” ale indivizilor. „portocaliu”. Ratiunea esantionarii este limpede: prin efectuarea de studii asupra unei parti relativ „mici” din populatie – parte care este numita esantion – sa strângem suficienta informatie care sa ne permita sa inferam la nivelul întregii populatii asupra caracteristicilor studiate. Ionescu ce sufera de cardiopatie ischemica”. Pentru a reprezenta o caracteristica printr -o singura variabila va trebui sa introducem o scara. sa stabilim legaturi între caracteristicile lor. Numarul indivizilor din esantionul ales este numit volumul esantionului si este notat de obicei.1. câteodata ele au ca efect chiar distrugerea indivizilor „studiati”. „galben” etc. Atunci când studiem o populatie se iau în considerare doar II-2 . Biostatistica este acel domeniu particular al stiintelor în care metodele specifice statisticii sunt aplicate problemelor biologice (inclusiv medicale). De obicei studiile efectuate asupra indivizilor unei populatii sunt costisitoare si de durata. aceste atribute poarta numele de caracteristici. Sa definim spatiul observabil. ne permite sa dam raspuns la întrebari cum sunt urmatoarele: a. fiind o ramura a statisticii. Totusi. aceasta nu exclude însa multe situatii. consideram implicit ca numarul indivizilor ei este mare. în care este clar ca acest numar nu este prea mare.

putem calcula frecvente. din contra. centimetrul. Observam ca toate clasele descrise anterior au aceeasi „lungime”. Atunci când avem de-a face cu un esantion „mare” (adica are un numar „mare"de indivizi). 2. un numar mare de clase face dificila reprezentarea grafica a rezultatelor.2. C3 = „10-14 ani” si asa mai departe. se utilizeaza foarte adesea clase de vârsta sau clase de înaltime. Aceasta nu este obligatoriu! În cazul în care fie indivizii sunt grupati natural în clase. . Frecventa relativa se calculeaza prin împartirea frecventei absolute la numarul total al indivizilor din esantion. Asemenea etichete nu pot fi adunate sau scazute. datele numerice sunt grupate într-un numar „mic” de clase. Frecventele variabilelor (nu numai cu valori numerice) se obtin cu usurinta în Excel prin intermediul functiei FREQUENCY(). Domeniul – în general pe o coloana – în care se trec valorile de separare. considerând ca studiem un esantion de indivizi diagnosticati cu o anumita maladie. Aceeasi caracteristica „înaltime” ar putea fi reprezentata de o variabila de cu totul alt tip. care poate fi exprimata printr-un ansamblu de variabile. Rezultatele aplicarii acestei functii sunt plasate într -un domeniu ce are o celula în plus fata de domeniul valorilor de separare. de asemenea le putea aduna. „înalt” si „foarte înalt”. Sa definim o structura pe spatiul observabil. Pare natural sa grupam vârstele lor în clase – delimitate subiectiv dupa cum urmeaza C1 = „0-4 ani”. prin urmare le putem ordona între ele. este definita doar ordonarea între ele. scadea. Numerele obtinute sunt reale. Uneori se folosesc si asa-numitele frecvente cumulate. Pentru a preciza ideile. Câteodata o caracteristica este exprimata printr-o variabila de decizie (sau variabila binara) ce ia doar doua valori „admis”/”respins” (respectiv „da”/”nu” etc. Asadar. Sa luam de exemplu clasele de vârsta ale pacientilor. O alta situatie ce trebuie scoasa în evidenta este cea a caracteristicii „inteligenta” a unui student. În aceasta celula suplimentara va fi afisat numarul valorilor ce depasesc cea mai mare valoare de separare. prin mai multe variabile . direct sau indirect. Spatiul observabil este acum format doar din etichetele „foarte scund”. Mai precis. „mediu”.). „scund”. Aceasta functie are doua argumente: 1. Pentru o clasa de date. fie datele colectate au fost grupate în clase. cu o usoara cheltuiala de timp – o unica valoare a înaltimii sale. C2 = „5-9 ani”. (Se recomanda reprezentarea grafica a rezultatelor datorita perceptiei mai rapide pe cale vizuala a informatiei. o caracteristica studiata ar putea fi reprezentata. …) atunci pentru fiecare pacient vom putea sa obtinem – e drept. în ordine crescatoare (bins array). le vom putea „aprecia vizual” înaltimea. Domeniul în care au fost plasate valorile variabilelor (data array). Sa admitem ca putem asocia fiecarui individ câte o (singura) valoare din spatiul observabil. De exemplu.). Este clar ca daca ne alegem o unitate de masura (metrul. O asemenea variabila este numita variabila numerica. etc. anume 5 ani. Numarul K de clase este ales în strânsa dependenta de problema studiata si nu exista definit vreun „algoritm” de stabilire a sa. si 3. frecventa absoluta este numarul indivizilor p entru care datele apartin acelei clase. deoarece consideram în mod intuitiv ca valorile sunt numere reale (cu alte cuvinte spatiul observabil este R iar acest spatiu are o structura foarte bogata: operatii aritmetice.) Se poate face recomandarea de a se forma între 8 si 20 de clase. ordinale (care reprezinta aceeasi II-3 caracteristica). Un numar prea mic de clase are dezavantajul ca „ascunde” particularitatile claselor. ordonare totala etc. Caracteristica „înaltime” a pacientilor este reprezintata evident printr-o variabila. sa consideram câteva exemple. Nu mai este necesara o masurare precisa a pacientilor. De data aceasta avem un exemplu de variabila ordinala. de obicei variabilele numerice sunt înlocuite prin variabile calitative.

în histograma si în rozete este prezentata aceeasi informatie. în diagrama cu bare. În general se pleaca de la datele primare „caz dupa caz”. Probabil ca suntem de acord cu totii ca informatia reprezentata grafic este mai usor de „înteles”. În figurile de mai jos diagrama cu bare a fost obtinua cu Excel. Sa consideram. Vom aborda ulterior interpretarea acestei curbe.) II-4 Se poate observa. Exista si deosebiri în modul în care trebuie introduse datele. în cele doua rozete. iar diagramele de tip rozeta au fost obtinute cu Excel si EpiInfo 2000 . existând unele diferente (datorate rotunjirilor). Iar reprezentarea datelor într-o diagrama cu bare sau de tip rozeta este o operatiune usoara. (O mica corectie: în diagrama de tip histograma este reprezentata o curba suplimentara. grupate dupa zilele saptamânii: Ziua saptamânii Vineri Sâmbata Duminica TOTAL Frecventa absoluta a cazurilor de infarct 6 4 8 36 O inspectare vizuala a numerelor din tabel nu este la fel de eficienta ca examinarea vizuala a unei diagrame cu bare sau a unei rozete. ca prezentarea rezultatelor depinde de softul folosit. interpretata vizual. implementata în orice soft statistic sau de calcul tabelar.2. . diagrama de tip histograma a fost obtinuta cu Statistica. În tabel. Reprezentari grafice Adeseori o reprezentare grafica. cazurile de infarct înregistrate într-un oras mare. de exemplu. poate fi extrem de eficienta pentru prezentarea unor date sau Ziua saptamânii Luni Marti Miercuri Joi Frecventa absoluta a cazurilor de infarct 4 4 7 3 rezultate.2. care însa este inutila în cazul nostru. Doar în Excel putem pleca de la tabelul de mai sus.

) Sa încheiem aceasta sectiune subliniind ca reprezentarile grafice sunt folosite pentru accelerarea transferului de informatie de la om la om. sa presupunem ca am cântarit 240 de indivizi (a caror înaltime este de 1. distorsioneaza serios rezultatele analizelor statistice. din aceste date se obtin histogramele urmatoare: Sa remarcam ca într-o histograma clasele sunt intervale de numere reale. Asemenea reprezentari – tabelare sau diagramatice – nu sunt deloc potrivite pentru variabilele care au un numar mare de valori numerice (asa cum este cazul greutatii pacientilor exprimata în grame).. de orice fel ar fi. . Evident. cât si diagramele sunt adecvate pentru „afisarea” variabilelor care au un numar „mic” de valori. pentru fiecare clasa. fie relativa) clasei. si nu în ultimul rând la adecvarea textele titlurilor. De exemplu. Aceste valori aberante. Atunci când se construieste o diagrama de tip histograma. în asemenea situatii se practica gruparea valorilor în câteva intervale de valori. C3 = „51-55 kg” — 20 cazuri. Dreptunghiurile sunt de „latimi” egale. se ridica pe verticala un dreptunghi cu înaltimea proportionala cu frecventa (fie absoluta. C2= „46-50 kg” — 10 cazuri. iar într-o diagrama cu bare clasele sunt reprezentate prin etichete (labels). pe axa orizontala se marcheaza punctele de separare între clase si. Reprezentarea grafica a datelor ar putea fi folositoare si pentru identificarea datelor eronate sau a valorilor aberante (outliers). iar abia apoi rezultatele gruparii sunt prezentate în histograme. toate „iluziile optice” pot fi folosite pentru a induce o perceptie eronata asupra unor date. C16= „116-120 kg” — 1 caz. anume: C1 = „41-45 kg” — 5 cazuri. II-5 . Folosind Excel. Statistica si EpiInfo 2000. C15 = „111-115 kg” — 0 cazuri. Trebuie sa fim atenti la corectitudinea tipului de diagrama. Într-o histograma veritabila aria tuturor dreptunghiurilor este 1.65 m) si am obtinut rezultate care au fost grupate în 16 intervale (grupuri. C4 = „56-60 kg” — 36 cazuri. etichetelor si legendelor de pe diagrama. la modificarea nejustificata a scarilor de masurare..Atât tabelele de frecvente. clase). Acest transfer bazându-se însa pe perceptia vizuala. la falsificarea datelor prezentate.

Statistici descriptive. Mediana (Me) este „punctul” ce divide valorile în doua parti egale.. Centrarea unei variabile numerice Sa consideram ca. iar n = 2m + 1 (adica numarul datelor este impar). Statistica.2. modul Mo este o statistica definita ca acea valoare ce are frecventa maxima. situate în mijloc. De exemplu.. suntem interesati în a studia o anumita caracteristica reprezentata printr-o variabila numerica. x2 . În cazul în care datele sunt ordonate. Formula de mai sus ofera un prin exemplu de statistica. modul M o. apoi împartim suma la numarul total n al indivizilor din esantion): x1 + x2 + . grupate în grupul Statistics . ca de exemplu astfel: II-6 x1 ≤ x 2 ≤ . .. rezultatul este exprimat în aceleasi unitati de masura ca si valorile masurate. Pentru date numerice. aici se întâlneste comanda Means . Ca un alt exemplu. în orice soft statistic media aritmetica este afisata împreuna cu alte statistici elementare.3. atunci când n = 2m (numarul datelor este par). pentru a indica „centrul” mediei aritmetice si medianei îi este preferat modul. + x n n Sa profitam de ocazie pentru a introduce al doilea înteles al cuvântului „statistica”. ca „centru” al datelor. anume domeniul în care au fost plasate datele numerice... Mai mult.. În situatia în care toate valorile xi sunt distincte.. Aceste numere sunt reprezentate prin puncte pe axa reala (a se vedea figura urmatoare) iar intuitia ne spune ca acestea sunt distribuite „echilibrat” în jurul unui „centru”. xn . împreuna cu alte comenzi. În unele situatii. este dat de formula: Mo = 3 × Me − 2 × m . în modulul sau Basic Statistics/Tables contine o comanda Detailed Descriptive Statistics . vom dispune de numerele reale x1 . ≤ x n poate fi folosita si mediana pentru a indica „centrul”. softul biostatistic EpiInfo 2004 are un modul numit Analysis. care sunt considerate „strict necesare pentru analiza”. si anume urmatorul: un numar calcula t folosind datele obtinute dintr-un esantion. Pare evident cum putem obtine acest centru m: vom calcula media aritmetica a numerelor (adica însumam numerele. Aparitia – nu neaparat din eroare! – unei valori aberante (outlier) influenteaza pozitia mediei aritmetice. mediana Me este media aritmetica a celor doua valori. totusi nu prea mult – a se vedea figura. De exemplu. x m si x m+1 .. mediana Me coincide cu valoarea xm +1 care este situata exact în „mijloc”. într-un studiu efectuat asupra unei populatii mari. m= În formula de mai sus toate marimile masurate sunt tratate în mod „echitabil” (niciuna nu este tratata altfel decât celelalte). Pentru date categoriale (nenumerice). Însa. în Excel aceasta functie este numita AVERAGE() si are un singur argument. Dupa ce am ales un esantion – sa zicem de n indivizi – si am facut masuratorile necesare. În practica media aritmetica nu este singura statistica utilizata pentru a indica „centrul” datelor. Functii care calculeaza „instantaneu” media aritmetica sunt implementate în orice soft statistic sau de calcul tabelar.

eventual o masura a acestei împrastieri. si care este definita ca . Daca dorim o statistica ale carei valori sa fie expr imate în aceeasi unitate de masura ca si valorile seriei. În Excel avem la dispozitie multe alte functii statistice. Ambele formule de mai sus pentru s necesita foarte multe calcule. O prima statistica. Amplitudinea ne informeaza asupra lungimii intervalului de variatie (în cazul unor date numerice). în modulul Basic Statistics/Tables. domeniul în care a fost plasata seria de date. mediana. grupate în grupul Statistics ) din modulul Analysis al aplicatiei EpiInfo 2000 ofera multe rezultate. Statistica ne ofera. numita varianta seriei de date: V= 2 ∑ ( x k − m) . Aceasta statistica presupune ca a fost calculata anterior media m a seriei. Definitia precisa este urmatoarea: deviatia medie este media aritmetica a abaterilor valorilor fata de media lor. evident. Formula ne da asanumita deviatie standard (abatere standard) a seriei de date: 2 ∑ ( x k − m) . s= n Anumite ratiuni teoretice (care depasesc nivelul acestei prezentari si nu pot fi explicate acum) fac ca formula abaterii standard sa fie usor modificata în urmatoarea: 2 ∑ ( x k − m) . Din contra. evidenta. n Din punct de vedere matematic aceasta formula nu este potrivita (functia modul nefiind derivabila). Statistici descriptive. incluzând media aritmetica. este la fel de importanta ca si aflarea „centrului”. Deviatia Adeseori evaluarea împrastierii da telor în jurul centrului. varianta. ca de exemplu MEDIAN(). s= E= ∑ | xk − m | .Dev. atunci formula urmatoare satisface toate aceste conditii. deviatia standard Std. ele sunt implementate în soft.2. valorile minima si maxima (vezi figura urmatoare). care sa depinda „echitabil” de toate valorile.. diminuat cu 1). Acesta este motivul principal pentru înlocuirea sa cu urmatoarea statistica. Ca rezultat al ei se afiseaza media Mean. are dezavantajul ca depinde doar de doua dintre valorile seriei. cu folosire evidenta. la fel ca în cazul functiei AVERAGE(). comanda Detailed Descriptive Statistics.4. deviatia medie (abaterea medie) depinde „echitabil” de toate valorile seriei de date. Astfel aplicatia Excel dispune de functia STDEV() al carui unic argument este. deviatia standard (a se vedea figura de mai jos). Comanda Means (împreuna cu altele. este amplitudinea notata cu A. însa acest lucru nu mai este valabil II-7 . simultan sa aiba si proprietati matematice bune. ele diferind între ele doar prin întelesul pe care-l acordam acestui termen. n −1 (la numitor apare numarul valorilor din seria de date. diferenta între valorile maxima si minima ale seriei de date: A = xmax − xmin . si nu ne informeaza deloc asupra modului în care datele sunt împrastiate între extreme. Multe dintre statisticile care exprima împrastierea sunt definite plecând de la notiunea de „deviatie”. abateri luate în valoare absoluta: pentru varianta. n Deviatia medie este exprimata în aceeasi unitate de masura ca si valorile seriei de date.

în practica sunt des utilizate si alte statistici: — Cuartilele q1 (prima. care exprima evident lipsa de simetrie a seriei de date în jurul „centrului”. pentru a le evalua centrul si împrastierea î n jurul centrului putem folosi urmatoarele statistici: — Media aritmetica m. Ele arata distributii destul de dezechilibrate pentru valorile tuturor celor trei variabile GLIC_08. Acestea sunt numerele care. Sa încheiem aceasta trecere în revista prin prezentarea unui tip special de diagrama. GLIC_14. GLIC_20. împreuna cu mediana Me = q2 (considerata ca a doua cuartila) divid datele seriei în patru parti egale. II-8 . — Mediana Me. — un d reptunghi indica variabilitatea în jurul centrului.) Lista anterioara nu este deloc exhaustiva. — Varianta V. Un exemplu de trei box-and-whisker plots realiza te cu Statistica este prezentat în figura de mai sus. care sunt marcate special). — Asimetria (skewness). anume cele aflate între cuartilele q1 si q3 . (Terminologia dubla în limba româna este cauzata de adoptarea recenta a termenilor din engleza. cunoscuta ca box-and-whisker plot.Sa rezumam cele de mai sus: daca dispunem de o serie de date numerice. — Modul Mo . des folosita în reprezentarea grafica a datelor medicale. — Abaterea standard (deviatia standard) s. Întro astfel de diagrama: — o linie transversala sau un asterisc indica „centrul”. — linii (whiskers) extind dreptunghiul în ambele directii. acest dreptunghi (box) a) fie contine 50% din datele seriei. b) fie contine datele seriei aflate între m − 2s si m + 2s . — Amplitudinea A. aceste linii indica domeniul de variatie (excluzându-se eventualele valori aberante. de 75%). — Abaterea medie (deviatia medie) E. de 25%) si q 3 (a treia.

) Prin urmare este o statistica de „centrare”. Data o variabila calitativa. este media unor valori ce pot fi doar 1 sau 0. Daca prezenta valorii este constatata la a indivizi ai esantionului. (Este vorba de fapt de formulele obisnuite. n Pentru valoarea aleasa. evident. modul.2. pentru fiecare individ din esantion. dar. am putea fixa o valoare particulara a ei si apoi. acest raport joaca acelasi rol pe care-l joaca media aritmetica în cazul variabilelor cantitative. prin asa -numita varianta a valorii alese. definita prin: V = f (1 − f ) sau prin deviatia standard a valorii: s= f (1 − f ) . valorile sunt etichete. adaptate pentru valorile x k = 0 sau 1. Împrastierea este evaluata. prin raportare vom obtine imediat frecventa relativa a acestei valori: a f = . am putea nota prezenta respectiv absenta acestei valori. care nu este altceva decât eticheta/etichetele având frecventa maxima. în aceasta situatie. În cazul variabilelor calitative însa. iar absenta prin 0. prezentate în paragraful anterior. II-9 .) Adevarata statistica „de centrare” pentru întreaga serie de date (asadar pentru ansamblul valorilor etichete) este. nu avem nicio justificare în a face asa ceva.5. prin urmare putem calcula media lor – prin operatii aritmetice de adunare si împartire – sau abaterea standard (pentru care calculele sunt ceva mai complexe). iar operatiile aritmetice nu sunt definite! Am putea înlocui etichetele prin numere – de exemplu am putea recodifica eticheta „admis” prin 1 iar eticheta „respins” prin 0 – si apoi sa facem calculele cu aceste numere. în acest caz. Prezenta este notata de obicei prin 1. (De fapt. Statistici descriptive pentru variabile calitative În cazul variabilelor cantitative datele sunt numerice.

II-10 unde s X respectiv sY sunt abaterile standard ale celor doua serii de date.Y = C s X sY xk .. dupa cum doreste. În cazul în care (avem impresia ca) punctele sunt aliniate. În practica. xn yk . fie de 1) avem de-a face cu o puternica legatura liniara între seriile de date. apoi înregistram datele provenite din masuratorile efectuate asupra indivizilor. Însa modul binar de a raspunde la întrebari nu este specific statisticii! În cadrul statisticii se dau raspunsuri diversificate. Calculul destul de dificil al numarului rX . Valorile variabilei Y y1 y2 . Covarianta si corelatia Rare sunt studiile efectuate asupra unei populatii în care suntem interesati în a studia doar o anumita caracteristica (reprezentata printr-o variabila).. Oare exista vreo legatura între aceste doua variabile? Si daca da. Acest numar este între –1 si 1. fie „nu”...Y este apropiat fie de –1. Covarianta între cele doua serii de date se calculeaza cu formula C= 1 n ∑ (x k − m X )( y k − mY ) . al carui calcul se bazeaza pe calculul covariantei. k .Y = ∑ ( xi − m X )( yi − mY ) 2 2 ∑ ( xi − m X ) ⋅ ∑ ( yi − mY ) . atunci când studiem legatura între doua variabile numerice. pentru fiecare nou nascut.. cel în care studiem doua caracteristici: se înregistreaza.Y este efectuat în Excel prin intermediul . printr-un exemplu.. ca un „da” sau un „nu”! Una dintre posibilitatile de a da asemenea raspunsuri consta în folosirea coeficientului de corelatie (Pearson). (Se observa ca atunci când seria de date Y coincide cu seria de date X. de exemplu exprimate printr-un numar ce exprima intensitatea legaturii între cele doua variabile (?). Iar fiecare persoana ar putea sa-l interpreteze. În cazurile extreme (adica atunci când numarul rX .6. începem prin a alege un esantion.. yn fie ca un „nor” de n puncte în plan (a se vedea figura de mai sus)... Sa facem observatia ca formula de calcul a coeficientului de corelatie Pearson poate fi rescrisa în felul urmator: rX . vârsta mamei (în ani) si greutatea noului nascut (în grame). ne exprimam spunând ca exista o corelatie liniara între variabilele X si Y. n Valorile variabilei X x1 x2 . oare putem exprima aceasta legatura printr-o formula liniara? La prima vedere se pare ca raspunsurile la aceste întrebari sunt fie „da”. Sa notam cu m X respectiv mY mediile celor doua serii de date. pe care o putem extrapola (asumându-ne riscuri!) la o legatura liniara: Y = αX + β între variabile. Sa consideram.) Corelatia (liniara) între cele doua serii de date este definita prin asa-numitul coeficient de corelatie Pearson: rX .. datele rezultate sunt prezentate fie într-un tabel: Individul 1 2 ..2. expresia covariantei C devine expresia variantei V. cazul cel mai simplu..

Y = 0.3 37. Coeficientul de corelatie Pearson.6 38.2 37. În situatii de acest fel se va calcula. Coeficientul de corelatie Pearson poate fi calculat doar daca dispunem de date numerice.911885 ≈ 0.1 38. dimpotriva.9 Prin calcul (cu functia CORREL() din Excel) obtinem (vezi figura de mai jos): rX . nu ofera o interpretare adecvata a „concordantei” între evaluarile arbitrilor. ele sunt numere de ordine. Ca un caz concret. sa pre supunem ca pentru 10 indivizi – alesi în esantion – au fost masurate temperatura axilara (în °C) si pulsul (în numar de oscilatii/minut).0 37. obtinându-se rezultatele din tabelul urmator: i 1 2 3 4 5 6 7 8 9 10 Pulsul x k 75 80 70 90 75 85 80 90 100 95 Temperatura axilara y k 38. cu formula ro = 1 − ∑ dk N ( N 2 − 1) 2 în care d k este diferenta rangurilor obtinute de concurentul k . domeniile în care am depus cele doua serii de date.functiei CORREL(). evident.5 38.5 39.5 36. rangurile acordate concurentilor de catre doi arbitri. asa cum ar fi. Aceasta functie are doua argumente care sunt. chiar daca este calculabil.4 38. Sa consideram acum ca valorile variabilelor X si Y nu pot fi obtinute prin masuratori. de exemplu.912 care ne indica o legatura liniara puternica între puls si temperatura axilara. II-11 . asa-numitul coeficient de corelatie Spearman.