Lectia #2

2.1. Populatii si esantioane, caracteristici si variabile 2.2. Reprezentari grafice 2.3. Statistici descriptive. Centrarea unei variabile numerice 2.4. Statistici descriptive. Deviatia 2.5. Statistici descriptive pentru variabile calitative 2.6. Covarianta si corelatia

II-1

înaltimea sa. Pentru a reprezenta o caracteristica printr -o singura variabila va trebui sa introducem o scara. Caracteristica „culoare” a obiectelor ar putea fi masurata (exprimata prin lungimea de unda). cum este cea din exemplul formal „populatia pacientilor dr. Sa definim spatiul observabil. aceste atribute poarta numele de caracteristici. Ionescu ce sufera de cardiopatie ischemica”. sa stabilim legaturi între caracteristicile lor. „portocaliu”. Ratiunea esantionarii este limpede: prin efectuarea de studii asupra unei parti relativ „mici” din populatie – parte care este numita esantion – sa strângem suficienta informatie care sa ne permita sa inferam la nivelul întregii populatii asupra caracteristicilor studiate. Este oare mai bun noul tratament decât cel clasic? Cuvântul populatie are. Care valori sunt normale pentru un anumit proces biologic? b. consideram implicit ca numarul indivizilor ei este mare. Biostatistica.2. adica multimea tuturor valorilor posibile. Se subîntelege ca o populatie are caracter dinamic (adica numarul indivizilor ei variaza în timp). Atunci când încercam sa comparam sau sa clasificam indivizi. Numarul indivizilor din esantionul ales este numit volumul esantionului si este notat de obicei. se presupune ca la un moment particular de timp – sau într-un interval de timp bine definit – populatia este bine definita. în limbajul de zi cu zi. în particular diverselor fenomene si procese care afecteaza calitatea fizica si mentala a oamenilor. De obicei. ceea ce înseamna: 1. iar indivizii prezinta o anumita variabilitate. un înteles evident. Biostatistica este acel domeniu particular al stiintelor în care metodele specifice statisticii sunt aplicate problemelor biologice (inclusiv medicale). Fiecare individ al unei populatii îsi are identitatea sa proprie. Unele caracteristici – cum ar fi greutatea unui pacient diagnosticat cu tuberculoza. în care este clar ca acest numar nu este prea mare. Populatii si esantioane. ne permite sa dam raspuns la întrebari cum sunt urmatoarele: a. însa de obicei este identificata prin apartenenta la grupurile „rosu”. Aceasta variabilite determina un anumit grad de incertitudine. Statistica ne permite sa stabilim „legi” în care sa tinem seama de incertitudine. Principala caracteristica a proceselor biologice este variabilitatea. „galben” etc. caracteristici si variabile Statistica este o stiinta care se ocupa cu tratamentul datelor obtinute din grupuri „mici” de indivizi si extinderea rezultatelor la populatii „mari”. Totusi. atunci când ne referim la o populatie. câteodata ele au ca efect chiar distrugerea indivizilor „studiati”. atunci când ne referim la un esantion potential (esantionul nu a fost precizat) prin litera n. sau inteligenta unui student – sunt masurate si exprimate prin numere. Alte caracteristici – cum ar fi sexul sau categoria de vârsta – nu sunt masurate. aceasta nu exclude însa multe situatii. fiind o ramura a statisticii. De obicei studiile efectuate asupra indivizilor unei populatii sunt costisitoare si de durata. anumite atribute „importante” ale indivizilor. aceste caracteristici sunt reprezentate prin variabile. Este de neconceput sa poata fi studiati chiar toti indivizii unei populatii „mari”. ci sunt identificate prin apartenenta la un grup.1. Atunci când studiem o populatie se iau în considerare doar II-2 . Cât de mult riscam atunci când alegem un anumit tratament? c.

Pare natural sa grupam vârstele lor în clase – delimitate subiectiv dupa cum urmeaza C1 = „0-4 ani”. Sa definim o structura pe spatiul observabil. De exemplu. „mediu”. Nu mai este necesara o masurare precisa a pacientilor. Observam ca toate clasele descrise anterior au aceeasi „lungime”. Câteodata o caracteristica este exprimata printr-o variabila de decizie (sau variabila binara) ce ia doar doua valori „admis”/”respins” (respectiv „da”/”nu” etc. Uneori se folosesc si asa-numitele frecvente cumulate. 2. si 3. Aceasta functie are doua argumente: 1. Rezultatele aplicarii acestei functii sunt plasate într -un domeniu ce are o celula în plus fata de domeniul valorilor de separare. Numerele obtinute sunt reale. fie datele colectate au fost grupate în clase. datele numerice sunt grupate într-un numar „mic” de clase. este definita doar ordonarea între ele. …) atunci pentru fiecare pacient vom putea sa obtinem – e drept. putem calcula frecvente.) Se poate face recomandarea de a se forma între 8 si 20 de clase. Aceeasi caracteristica „înaltime” ar putea fi reprezentata de o variabila de cu totul alt tip. Domeniul în care au fost plasate valorile variabilelor (data array). etc. Asemenea etichete nu pot fi adunate sau scazute. Frecventele variabilelor (nu numai cu valori numerice) se obtin cu usurinta în Excel prin intermediul functiei FREQUENCY(). Aceasta nu este obligatoriu! În cazul în care fie indivizii sunt grupati natural în clase. Mai precis. direct sau indirect. deoarece consideram în mod intuitiv ca valorile sunt numere reale (cu alte cuvinte spatiul observabil este R iar acest spatiu are o structura foarte bogata: operatii aritmetice. frecventa absoluta este numarul indivizilor p entru care datele apartin acelei clase. Caracteristica „înaltime” a pacientilor este reprezintata evident printr-o variabila. C3 = „10-14 ani” si asa mai departe.). Numarul K de clase este ales în strânsa dependenta de problema studiata si nu exista definit vreun „algoritm” de stabilire a sa. Sa admitem ca putem asocia fiecarui individ câte o (singura) valoare din spatiul observabil.2. o caracteristica studiata ar putea fi reprezentata. un numar mare de clase face dificila reprezentarea grafica a rezultatelor. Sa luam de exemplu clasele de vârsta ale pacientilor. ordonare totala etc.). Pentru o clasa de date. cu o usoara cheltuiala de timp – o unica valoare a înaltimii sale. prin mai multe variabile . (Se recomanda reprezentarea grafica a rezultatelor datorita perceptiei mai rapide pe cale vizuala a informatiei. Un numar prea mic de clase are dezavantajul ca „ascunde” particularitatile claselor. prin urmare le putem ordona între ele. de obicei variabilele numerice sunt înlocuite prin variabile calitative. de asemenea le putea aduna. Frecventa relativa se calculeaza prin împartirea frecventei absolute la numarul total al indivizilor din esantion. considerând ca studiem un esantion de indivizi diagnosticati cu o anumita maladie. . În aceasta celula suplimentara va fi afisat numarul valorilor ce depasesc cea mai mare valoare de separare. „scund”. „înalt” si „foarte înalt”. Atunci când avem de-a face cu un esantion „mare” (adica are un numar „mare"de indivizi). în ordine crescatoare (bins array). De data aceasta avem un exemplu de variabila ordinala. se utilizeaza foarte adesea clase de vârsta sau clase de înaltime. care poate fi exprimata printr-un ansamblu de variabile. le vom putea „aprecia vizual” înaltimea. Este clar ca daca ne alegem o unitate de masura (metrul. Domeniul – în general pe o coloana – în care se trec valorile de separare. anume 5 ani. O alta situatie ce trebuie scoasa în evidenta este cea a caracteristicii „inteligenta” a unui student. O asemenea variabila este numita variabila numerica. Pentru a preciza ideile. Asadar. din contra. Spatiul observabil este acum format doar din etichetele „foarte scund”. centimetrul. ordinale (care reprezinta aceeasi II-3 caracteristica). sa consideram câteva exemple. C2 = „5-9 ani”. scadea.

2. în cele doua rozete. interpretata vizual. poate fi extrem de eficienta pentru prezentarea unor date sau Ziua saptamânii Luni Marti Miercuri Joi Frecventa absoluta a cazurilor de infarct 4 4 7 3 rezultate. care însa este inutila în cazul nostru. Doar în Excel putem pleca de la tabelul de mai sus. În figurile de mai jos diagrama cu bare a fost obtinua cu Excel. Iar reprezentarea datelor într-o diagrama cu bare sau de tip rozeta este o operatiune usoara. În general se pleaca de la datele primare „caz dupa caz”. implementata în orice soft statistic sau de calcul tabelar. diagrama de tip histograma a fost obtinuta cu Statistica. (O mica corectie: în diagrama de tip histograma este reprezentata o curba suplimentara. Exista si deosebiri în modul în care trebuie introduse datele. ca prezentarea rezultatelor depinde de softul folosit. Sa consideram. În tabel. Probabil ca suntem de acord cu totii ca informatia reprezentata grafic este mai usor de „înteles”. Vom aborda ulterior interpretarea acestei curbe. în histograma si în rozete este prezentata aceeasi informatie. iar diagramele de tip rozeta au fost obtinute cu Excel si EpiInfo 2000 . Reprezentari grafice Adeseori o reprezentare grafica. existând unele diferente (datorate rotunjirilor).2. cazurile de infarct înregistrate într-un oras mare. grupate dupa zilele saptamânii: Ziua saptamânii Vineri Sâmbata Duminica TOTAL Frecventa absoluta a cazurilor de infarct 6 4 8 36 O inspectare vizuala a numerelor din tabel nu este la fel de eficienta ca examinarea vizuala a unei diagrame cu bare sau a unei rozete. . de exemplu. în diagrama cu bare.) II-4 Se poate observa.

la modificarea nejustificata a scarilor de masurare. Atunci când se construieste o diagrama de tip histograma. Reprezentarea grafica a datelor ar putea fi folositoare si pentru identificarea datelor eronate sau a valorilor aberante (outliers). din aceste date se obtin histogramele urmatoare: Sa remarcam ca într-o histograma clasele sunt intervale de numere reale. Acest transfer bazându-se însa pe perceptia vizuala. C15 = „111-115 kg” — 0 cazuri. Statistica si EpiInfo 2000.) Sa încheiem aceasta sectiune subliniind ca reprezentarile grafice sunt folosite pentru accelerarea transferului de informatie de la om la om. de orice fel ar fi. sa presupunem ca am cântarit 240 de indivizi (a caror înaltime este de 1. II-5 . etichetelor si legendelor de pe diagrama. se ridica pe verticala un dreptunghi cu înaltimea proportionala cu frecventa (fie absoluta. fie relativa) clasei. la falsificarea datelor prezentate. C16= „116-120 kg” — 1 caz.. iar abia apoi rezultatele gruparii sunt prezentate în histograme. Folosind Excel. si nu în ultimul rând la adecvarea textele titlurilor. pentru fiecare clasa. Evident. C2= „46-50 kg” — 10 cazuri. De exemplu. pe axa orizontala se marcheaza punctele de separare între clase si. clase).65 m) si am obtinut rezultate care au fost grupate în 16 intervale (grupuri. Într-o histograma veritabila aria tuturor dreptunghiurilor este 1. Trebuie sa fim atenti la corectitudinea tipului de diagrama. C3 = „51-55 kg” — 20 cazuri. . iar într-o diagrama cu bare clasele sunt reprezentate prin etichete (labels).. cât si diagramele sunt adecvate pentru „afisarea” variabilelor care au un numar „mic” de valori. C4 = „56-60 kg” — 36 cazuri. Dreptunghiurile sunt de „latimi” egale. anume: C1 = „41-45 kg” — 5 cazuri. toate „iluziile optice” pot fi folosite pentru a induce o perceptie eronata asupra unor date. în asemenea situatii se practica gruparea valorilor în câteva intervale de valori.Atât tabelele de frecvente. Aceste valori aberante. Asemenea reprezentari – tabelare sau diagramatice – nu sunt deloc potrivite pentru variabilele care au un numar mare de valori numerice (asa cum este cazul greutatii pacientilor exprimata în grame). distorsioneaza serios rezultatele analizelor statistice.

+ x n n Sa profitam de ocazie pentru a introduce al doilea înteles al cuvântului „statistica”. În situatia în care toate valorile xi sunt distincte. mediana Me este media aritmetica a celor doua valori. Dupa ce am ales un esantion – sa zicem de n indivizi – si am facut masuratorile necesare. atunci când n = 2m (numarul datelor este par)..3. modul M o. este dat de formula: Mo = 3 × Me − 2 × m . Pentru date categoriale (nenumerice). si anume urmatorul: un numar calcula t folosind datele obtinute dintr-un esantion. împreuna cu alte comenzi. În practica media aritmetica nu este singura statistica utilizata pentru a indica „centrul” datelor. suntem interesati în a studia o anumita caracteristica reprezentata printr-o variabila numerica. Ca un alt exemplu. ca de exemplu astfel: II-6 x1 ≤ x 2 ≤ . . modul Mo este o statistica definita ca acea valoare ce are frecventa maxima.. Functii care calculeaza „instantaneu” media aritmetica sunt implementate în orice soft statistic sau de calcul tabelar. Însa. Mediana (Me) este „punctul” ce divide valorile în doua parti egale. Pentru date numerice. m= În formula de mai sus toate marimile masurate sunt tratate în mod „echitabil” (niciuna nu este tratata altfel decât celelalte). anume domeniul în care au fost plasate datele numerice. vom dispune de numerele reale x1 .. În cazul în care datele sunt ordonate. apoi împartim suma la numarul total n al indivizilor din esantion): x1 + x2 + .2. într-un studiu efectuat asupra unei populatii mari. Formula de mai sus ofera un prin exemplu de statistica. în orice soft statistic media aritmetica este afisata împreuna cu alte statistici elementare. rezultatul este exprimat în aceleasi unitati de masura ca si valorile masurate. care sunt considerate „strict necesare pentru analiza”. în Excel aceasta functie este numita AVERAGE() si are un singur argument. Aceste numere sunt reprezentate prin puncte pe axa reala (a se vedea figura urmatoare) iar intuitia ne spune ca acestea sunt distribuite „echilibrat” în jurul unui „centru”. pentru a indica „centrul” mediei aritmetice si medianei îi este preferat modul.. Statistici descriptive. ca „centru” al datelor. De exemplu. x m si x m+1 . softul biostatistic EpiInfo 2004 are un modul numit Analysis. Statistica. Centrarea unei variabile numerice Sa consideram ca. Pare evident cum putem obtine acest centru m: vom calcula media aritmetica a numerelor (adica însumam numerele. Mai mult.. în modulul sau Basic Statistics/Tables contine o comanda Detailed Descriptive Statistics . grupate în grupul Statistics . xn . mediana Me coincide cu valoarea xm +1 care este situata exact în „mijloc”. x2 . De exemplu. totusi nu prea mult – a se vedea figura. Aparitia – nu neaparat din eroare! – unei valori aberante (outlier) influenteaza pozitia mediei aritmetice. În unele situatii. aici se întâlneste comanda Means . iar n = 2m + 1 (adica numarul datelor este impar). situate în mijloc.... ≤ x n poate fi folosita si mediana pentru a indica „centrul”.

evidenta. Multe dintre statisticile care exprima împrastierea sunt definite plecând de la notiunea de „deviatie”. incluzând media aritmetica.4. are dezavantajul ca depinde doar de doua dintre valorile seriei. Astfel aplicatia Excel dispune de functia STDEV() al carui unic argument este.2. mediana. este la fel de importanta ca si aflarea „centrului”. Amplitudinea ne informeaza asupra lungimii intervalului de variatie (în cazul unor date numerice). s= E= ∑ | xk − m | . grupate în grupul Statistics ) din modulul Analysis al aplicatiei EpiInfo 2000 ofera multe rezultate. diferenta între valorile maxima si minima ale seriei de date: A = xmax − xmin . ele sunt implementate în soft. însa acest lucru nu mai este valabil II-7 . la fel ca în cazul functiei AVERAGE(). deviatia standard (a se vedea figura de mai jos). O prima statistica. si nu ne informeaza deloc asupra modului în care datele sunt împrastiate între extreme. n −1 (la numitor apare numarul valorilor din seria de date. abateri luate în valoare absoluta: pentru varianta. ca de exemplu MEDIAN(). este amplitudinea notata cu A. care sa depinda „echitabil” de toate valorile. eventual o masura a acestei împrastieri. Definitia precisa este urmatoarea: deviatia medie este media aritmetica a abaterilor valorilor fata de media lor. deviatia medie (abaterea medie) depinde „echitabil” de toate valorile seriei de date. Daca dorim o statistica ale carei valori sa fie expr imate în aceeasi unitate de masura ca si valorile seriei. atunci formula urmatoare satisface toate aceste conditii. ele diferind între ele doar prin întelesul pe care-l acordam acestui termen. comanda Detailed Descriptive Statistics. n Deviatia medie este exprimata în aceeasi unitate de masura ca si valorile seriei de date. Ca rezultat al ei se afiseaza media Mean. Formula ne da asanumita deviatie standard (abatere standard) a seriei de date: 2 ∑ ( x k − m) . Din contra. n Din punct de vedere matematic aceasta formula nu este potrivita (functia modul nefiind derivabila). diminuat cu 1). domeniul în care a fost plasata seria de date. deviatia standard Std. în modulul Basic Statistics/Tables. În Excel avem la dispozitie multe alte functii statistice. evident. Comanda Means (împreuna cu altele. Ambele formule de mai sus pentru s necesita foarte multe calcule.. Acesta este motivul principal pentru înlocuirea sa cu urmatoarea statistica. Aceasta statistica presupune ca a fost calculata anterior media m a seriei. varianta. numita varianta seriei de date: V= 2 ∑ ( x k − m) . cu folosire evidenta. Statistici descriptive. si care este definita ca . s= n Anumite ratiuni teoretice (care depasesc nivelul acestei prezentari si nu pot fi explicate acum) fac ca formula abaterii standard sa fie usor modificata în urmatoarea: 2 ∑ ( x k − m) . Statistica ne ofera. simultan sa aiba si proprietati matematice bune.Dev. valorile minima si maxima (vezi figura urmatoare). Deviatia Adeseori evaluarea împrastierii da telor în jurul centrului.

b) fie contine datele seriei aflate între m − 2s si m + 2s . care sunt marcate special). anume cele aflate între cuartilele q1 si q3 . Acestea sunt numerele care. — Asimetria (skewness). (Terminologia dubla în limba româna este cauzata de adoptarea recenta a termenilor din engleza. acest dreptunghi (box) a) fie contine 50% din datele seriei.) Lista anterioara nu este deloc exhaustiva. Ele arata distributii destul de dezechilibrate pentru valorile tuturor celor trei variabile GLIC_08. GLIC_14. Întro astfel de diagrama: — o linie transversala sau un asterisc indica „centrul”. — Modul Mo .Sa rezumam cele de mai sus: daca dispunem de o serie de date numerice. pentru a le evalua centrul si împrastierea î n jurul centrului putem folosi urmatoarele statistici: — Media aritmetica m. des folosita în reprezentarea grafica a datelor medicale. cunoscuta ca box-and-whisker plot. II-8 . GLIC_20. Sa încheiem aceasta trecere în revista prin prezentarea unui tip special de diagrama. — Abaterea standard (deviatia standard) s. — linii (whiskers) extind dreptunghiul în ambele directii. — Abaterea medie (deviatia medie) E. de 25%) si q 3 (a treia. de 75%). — un d reptunghi indica variabilitatea în jurul centrului. aceste linii indica domeniul de variatie (excluzându-se eventualele valori aberante. — Varianta V. în practica sunt des utilizate si alte statistici: — Cuartilele q1 (prima. Un exemplu de trei box-and-whisker plots realiza te cu Statistica este prezentat în figura de mai sus. împreuna cu mediana Me = q2 (considerata ca a doua cuartila) divid datele seriei în patru parti egale. — Mediana Me. — Amplitudinea A. care exprima evident lipsa de simetrie a seriei de date în jurul „centrului”.

prezentate în paragraful anterior.) Adevarata statistica „de centrare” pentru întreaga serie de date (asadar pentru ansamblul valorilor etichete) este. Împrastierea este evaluata. prin raportare vom obtine imediat frecventa relativa a acestei valori: a f = . Data o variabila calitativa. Prezenta este notata de obicei prin 1. (De fapt. definita prin: V = f (1 − f ) sau prin deviatia standard a valorii: s= f (1 − f ) .5. prin asa -numita varianta a valorii alese. modul. Daca prezenta valorii este constatata la a indivizi ai esantionului. Statistici descriptive pentru variabile calitative În cazul variabilelor cantitative datele sunt numerice. în aceasta situatie.2. pentru fiecare individ din esantion. dar. adaptate pentru valorile x k = 0 sau 1. (Este vorba de fapt de formulele obisnuite. evident. este media unor valori ce pot fi doar 1 sau 0. în acest caz. am putea nota prezenta respectiv absenta acestei valori. II-9 . care nu este altceva decât eticheta/etichetele având frecventa maxima. prin urmare putem calcula media lor – prin operatii aritmetice de adunare si împartire – sau abaterea standard (pentru care calculele sunt ceva mai complexe). valorile sunt etichete. n Pentru valoarea aleasa. În cazul variabilelor calitative însa. acest raport joaca acelasi rol pe care-l joaca media aritmetica în cazul variabilelor cantitative. iar operatiile aritmetice nu sunt definite! Am putea înlocui etichetele prin numere – de exemplu am putea recodifica eticheta „admis” prin 1 iar eticheta „respins” prin 0 – si apoi sa facem calculele cu aceste numere. nu avem nicio justificare în a face asa ceva. iar absenta prin 0.) Prin urmare este o statistica de „centrare”. am putea fixa o valoare particulara a ei si apoi.

al carui calcul se bazeaza pe calculul covariantei.Y = ∑ ( xi − m X )( yi − mY ) 2 2 ∑ ( xi − m X ) ⋅ ∑ ( yi − mY ) . yn fie ca un „nor” de n puncte în plan (a se vedea figura de mai sus). pentru fiecare nou nascut. Covarianta între cele doua serii de date se calculeaza cu formula C= 1 n ∑ (x k − m X )( y k − mY ) . k . fie de 1) avem de-a face cu o puternica legatura liniara între seriile de date. În cazurile extreme (adica atunci când numarul rX ...Y = C s X sY xk .. atunci când studiem legatura între doua variabile numerice. Sa facem observatia ca formula de calcul a coeficientului de corelatie Pearson poate fi rescrisa în felul urmator: rX . oare putem exprima aceasta legatura printr-o formula liniara? La prima vedere se pare ca raspunsurile la aceste întrebari sunt fie „da”. Calculul destul de dificil al numarului rX .. xn yk . Oare exista vreo legatura între aceste doua variabile? Si daca da.6. n Valorile variabilei X x1 x2 . Sa consideram. ca un „da” sau un „nu”! Una dintre posibilitatile de a da asemenea raspunsuri consta în folosirea coeficientului de corelatie (Pearson).2.) Corelatia (liniara) între cele doua serii de date este definita prin asa-numitul coeficient de corelatie Pearson: rX . de exemplu exprimate printr-un numar ce exprima intensitatea legaturii între cele doua variabile (?). Valorile variabilei Y y1 y2 . (Se observa ca atunci când seria de date Y coincide cu seria de date X. În practica. apoi înregistram datele provenite din masuratorile efectuate asupra indivizilor. cel în care studiem doua caracteristici: se înregistreaza. printr-un exemplu. expresia covariantei C devine expresia variantei V. În cazul în care (avem impresia ca) punctele sunt aliniate. fie „nu”. începem prin a alege un esantion.. datele rezultate sunt prezentate fie într-un tabel: Individul 1 2 . II-10 unde s X respectiv sY sunt abaterile standard ale celor doua serii de date... Sa notam cu m X respectiv mY mediile celor doua serii de date. Însa modul binar de a raspunde la întrebari nu este specific statisticii! În cadrul statisticii se dau raspunsuri diversificate. vârsta mamei (în ani) si greutatea noului nascut (în grame). pe care o putem extrapola (asumându-ne riscuri!) la o legatura liniara: Y = αX + β între variabile. dupa cum doreste.. Iar fiecare persoana ar putea sa-l interpreteze.. cazul cel mai simplu..Y este apropiat fie de –1. ne exprimam spunând ca exista o corelatie liniara între variabilele X si Y..Y este efectuat în Excel prin intermediul .. Acest numar este între –1 si 1. Covarianta si corelatia Rare sunt studiile efectuate asupra unei populatii în care suntem interesati în a studia doar o anumita caracteristica (reprezentata printr-o variabila).

5 38. dimpotriva. ele sunt numere de ordine. II-11 . Aceasta functie are doua argumente care sunt. Coeficientul de corelatie Pearson. evident.functiei CORREL().9 Prin calcul (cu functia CORREL() din Excel) obtinem (vezi figura de mai jos): rX .2 37. domeniile în care am depus cele doua serii de date. Sa consideram acum ca valorile variabilelor X si Y nu pot fi obtinute prin masuratori. rangurile acordate concurentilor de catre doi arbitri. cu formula ro = 1 − ∑ dk N ( N 2 − 1) 2 în care d k este diferenta rangurilor obtinute de concurentul k . chiar daca este calculabil.0 37. obtinându-se rezultatele din tabelul urmator: i 1 2 3 4 5 6 7 8 9 10 Pulsul x k 75 80 70 90 75 85 80 90 100 95 Temperatura axilara y k 38.912 care ne indica o legatura liniara puternica între puls si temperatura axilara. asa-numitul coeficient de corelatie Spearman. sa pre supunem ca pentru 10 indivizi – alesi în esantion – au fost masurate temperatura axilara (în °C) si pulsul (în numar de oscilatii/minut).6 38. Ca un caz concret.3 37.Y = 0.1 38. nu ofera o interpretare adecvata a „concordantei” între evaluarile arbitrilor. Coeficientul de corelatie Pearson poate fi calculat doar daca dispunem de date numerice.5 39.5 36. asa cum ar fi. În situatii de acest fel se va calcula.911885 ≈ 0.4 38. de exemplu.

Sign up to vote on this title
UsefulNot useful