Lectia #2

2.1. Populatii si esantioane, caracteristici si variabile 2.2. Reprezentari grafice 2.3. Statistici descriptive. Centrarea unei variabile numerice 2.4. Statistici descriptive. Deviatia 2.5. Statistici descriptive pentru variabile calitative 2.6. Covarianta si corelatia

II-1

Pentru a reprezenta o caracteristica printr -o singura variabila va trebui sa introducem o scara. „galben” etc. anumite atribute „importante” ale indivizilor. în care este clar ca acest numar nu este prea mare. ceea ce înseamna: 1. Este oare mai bun noul tratament decât cel clasic? Cuvântul populatie are.1. „portocaliu”. un înteles evident. ci sunt identificate prin apartenenta la un grup. sau inteligenta unui student – sunt masurate si exprimate prin numere. Statistica ne permite sa stabilim „legi” în care sa tinem seama de incertitudine. Alte caracteristici – cum ar fi sexul sau categoria de vârsta – nu sunt masurate. Ratiunea esantionarii este limpede: prin efectuarea de studii asupra unei parti relativ „mici” din populatie – parte care este numita esantion – sa strângem suficienta informatie care sa ne permita sa inferam la nivelul întregii populatii asupra caracteristicilor studiate. Caracteristica „culoare” a obiectelor ar putea fi masurata (exprimata prin lungimea de unda). Care valori sunt normale pentru un anumit proces biologic? b. Principala caracteristica a proceselor biologice este variabilitatea. Totusi. ne permite sa dam raspuns la întrebari cum sunt urmatoarele: a. fiind o ramura a statisticii. înaltimea sa. iar indivizii prezinta o anumita variabilitate. atunci când ne referim la un esantion potential (esantionul nu a fost precizat) prin litera n. aceasta nu exclude însa multe situatii. Atunci când încercam sa comparam sau sa clasificam indivizi. Unele caracteristici – cum ar fi greutatea unui pacient diagnosticat cu tuberculoza. aceste caracteristici sunt reprezentate prin variabile. De obicei studiile efectuate asupra indivizilor unei populatii sunt costisitoare si de durata. Este de neconceput sa poata fi studiati chiar toti indivizii unei populatii „mari”. Numarul indivizilor din esantionul ales este numit volumul esantionului si este notat de obicei.2. Populatii si esantioane. Cât de mult riscam atunci când alegem un anumit tratament? c. Biostatistica. De obicei. aceste atribute poarta numele de caracteristici. în limbajul de zi cu zi. însa de obicei este identificata prin apartenenta la grupurile „rosu”. adica multimea tuturor valorilor posibile. câteodata ele au ca efect chiar distrugerea indivizilor „studiati”. Aceasta variabilite determina un anumit grad de incertitudine. Se subîntelege ca o populatie are caracter dinamic (adica numarul indivizilor ei variaza în timp). Sa definim spatiul observabil. Biostatistica este acel domeniu particular al stiintelor în care metodele specifice statisticii sunt aplicate problemelor biologice (inclusiv medicale). Ionescu ce sufera de cardiopatie ischemica”. în particular diverselor fenomene si procese care afecteaza calitatea fizica si mentala a oamenilor. Atunci când studiem o populatie se iau în considerare doar II-2 . consideram implicit ca numarul indivizilor ei este mare. atunci când ne referim la o populatie. Fiecare individ al unei populatii îsi are identitatea sa proprie. cum este cea din exemplul formal „populatia pacientilor dr. se presupune ca la un moment particular de timp – sau într-un interval de timp bine definit – populatia este bine definita. caracteristici si variabile Statistica este o stiinta care se ocupa cu tratamentul datelor obtinute din grupuri „mici” de indivizi si extinderea rezultatelor la populatii „mari”. sa stabilim legaturi între caracteristicile lor.

frecventa absoluta este numarul indivizilor p entru care datele apartin acelei clase. O asemenea variabila este numita variabila numerica. (Se recomanda reprezentarea grafica a rezultatelor datorita perceptiei mai rapide pe cale vizuala a informatiei. Mai precis. . …) atunci pentru fiecare pacient vom putea sa obtinem – e drept. de obicei variabilele numerice sunt înlocuite prin variabile calitative. Este clar ca daca ne alegem o unitate de masura (metrul. un numar mare de clase face dificila reprezentarea grafica a rezultatelor. care poate fi exprimata printr-un ansamblu de variabile. Sa definim o structura pe spatiul observabil. etc. De data aceasta avem un exemplu de variabila ordinala. Uneori se folosesc si asa-numitele frecvente cumulate. considerând ca studiem un esantion de indivizi diagnosticati cu o anumita maladie. Atunci când avem de-a face cu un esantion „mare” (adica are un numar „mare"de indivizi). De exemplu. C3 = „10-14 ani” si asa mai departe. Aceasta functie are doua argumente: 1.).2. direct sau indirect.). fie datele colectate au fost grupate în clase. Aceasta nu este obligatoriu! În cazul în care fie indivizii sunt grupati natural în clase. se utilizeaza foarte adesea clase de vârsta sau clase de înaltime. deoarece consideram în mod intuitiv ca valorile sunt numere reale (cu alte cuvinte spatiul observabil este R iar acest spatiu are o structura foarte bogata: operatii aritmetice. Domeniul în care au fost plasate valorile variabilelor (data array). Sa admitem ca putem asocia fiecarui individ câte o (singura) valoare din spatiul observabil. datele numerice sunt grupate într-un numar „mic” de clase. de asemenea le putea aduna. anume 5 ani. Câteodata o caracteristica este exprimata printr-o variabila de decizie (sau variabila binara) ce ia doar doua valori „admis”/”respins” (respectiv „da”/”nu” etc. Observam ca toate clasele descrise anterior au aceeasi „lungime”. Sa luam de exemplu clasele de vârsta ale pacientilor. C2 = „5-9 ani”. ordonare totala etc. Pare natural sa grupam vârstele lor în clase – delimitate subiectiv dupa cum urmeaza C1 = „0-4 ani”. prin mai multe variabile . o caracteristica studiata ar putea fi reprezentata. ordinale (care reprezinta aceeasi II-3 caracteristica). scadea. Pentru a preciza ideile. din contra. „mediu”. centimetrul. Asadar. Domeniul – în general pe o coloana – în care se trec valorile de separare. si 3. Numarul K de clase este ales în strânsa dependenta de problema studiata si nu exista definit vreun „algoritm” de stabilire a sa. 2. le vom putea „aprecia vizual” înaltimea. „înalt” si „foarte înalt”. Numerele obtinute sunt reale. Frecventa relativa se calculeaza prin împartirea frecventei absolute la numarul total al indivizilor din esantion. Un numar prea mic de clase are dezavantajul ca „ascunde” particularitatile claselor. Rezultatele aplicarii acestei functii sunt plasate într -un domeniu ce are o celula în plus fata de domeniul valorilor de separare. în ordine crescatoare (bins array). Asemenea etichete nu pot fi adunate sau scazute. „scund”. Frecventele variabilelor (nu numai cu valori numerice) se obtin cu usurinta în Excel prin intermediul functiei FREQUENCY(). este definita doar ordonarea între ele. O alta situatie ce trebuie scoasa în evidenta este cea a caracteristicii „inteligenta” a unui student. Pentru o clasa de date. prin urmare le putem ordona între ele. Spatiul observabil este acum format doar din etichetele „foarte scund”. cu o usoara cheltuiala de timp – o unica valoare a înaltimii sale. putem calcula frecvente. Nu mai este necesara o masurare precisa a pacientilor. Aceeasi caracteristica „înaltime” ar putea fi reprezentata de o variabila de cu totul alt tip. Caracteristica „înaltime” a pacientilor este reprezintata evident printr-o variabila. În aceasta celula suplimentara va fi afisat numarul valorilor ce depasesc cea mai mare valoare de separare. sa consideram câteva exemple.) Se poate face recomandarea de a se forma între 8 si 20 de clase.

Reprezentari grafice Adeseori o reprezentare grafica. poate fi extrem de eficienta pentru prezentarea unor date sau Ziua saptamânii Luni Marti Miercuri Joi Frecventa absoluta a cazurilor de infarct 4 4 7 3 rezultate. Vom aborda ulterior interpretarea acestei curbe. cazurile de infarct înregistrate într-un oras mare. de exemplu. Doar în Excel putem pleca de la tabelul de mai sus. interpretata vizual.2. care însa este inutila în cazul nostru. Iar reprezentarea datelor într-o diagrama cu bare sau de tip rozeta este o operatiune usoara. Probabil ca suntem de acord cu totii ca informatia reprezentata grafic este mai usor de „înteles”. Sa consideram. ca prezentarea rezultatelor depinde de softul folosit. existând unele diferente (datorate rotunjirilor). în cele doua rozete.) II-4 Se poate observa. în histograma si în rozete este prezentata aceeasi informatie. În figurile de mai jos diagrama cu bare a fost obtinua cu Excel. . grupate dupa zilele saptamânii: Ziua saptamânii Vineri Sâmbata Duminica TOTAL Frecventa absoluta a cazurilor de infarct 6 4 8 36 O inspectare vizuala a numerelor din tabel nu este la fel de eficienta ca examinarea vizuala a unei diagrame cu bare sau a unei rozete. În tabel.2. În general se pleaca de la datele primare „caz dupa caz”. (O mica corectie: în diagrama de tip histograma este reprezentata o curba suplimentara. Exista si deosebiri în modul în care trebuie introduse datele. în diagrama cu bare. diagrama de tip histograma a fost obtinuta cu Statistica. implementata în orice soft statistic sau de calcul tabelar. iar diagramele de tip rozeta au fost obtinute cu Excel si EpiInfo 2000 .

clase). etichetelor si legendelor de pe diagrama. C2= „46-50 kg” — 10 cazuri. C3 = „51-55 kg” — 20 cazuri. C15 = „111-115 kg” — 0 cazuri. sa presupunem ca am cântarit 240 de indivizi (a caror înaltime este de 1. iar într-o diagrama cu bare clasele sunt reprezentate prin etichete (labels). din aceste date se obtin histogramele urmatoare: Sa remarcam ca într-o histograma clasele sunt intervale de numere reale. Într-o histograma veritabila aria tuturor dreptunghiurilor este 1. Folosind Excel. Evident. Acest transfer bazându-se însa pe perceptia vizuala. în asemenea situatii se practica gruparea valorilor în câteva intervale de valori.) Sa încheiem aceasta sectiune subliniind ca reprezentarile grafice sunt folosite pentru accelerarea transferului de informatie de la om la om. De exemplu. la falsificarea datelor prezentate. Reprezentarea grafica a datelor ar putea fi folositoare si pentru identificarea datelor eronate sau a valorilor aberante (outliers). toate „iluziile optice” pot fi folosite pentru a induce o perceptie eronata asupra unor date. pe axa orizontala se marcheaza punctele de separare între clase si. Dreptunghiurile sunt de „latimi” egale. C4 = „56-60 kg” — 36 cazuri. Statistica si EpiInfo 2000. iar abia apoi rezultatele gruparii sunt prezentate în histograme. . anume: C1 = „41-45 kg” — 5 cazuri. pentru fiecare clasa. Aceste valori aberante. cât si diagramele sunt adecvate pentru „afisarea” variabilelor care au un numar „mic” de valori. de orice fel ar fi.. Trebuie sa fim atenti la corectitudinea tipului de diagrama. fie relativa) clasei.Atât tabelele de frecvente. II-5 . si nu în ultimul rând la adecvarea textele titlurilor. Atunci când se construieste o diagrama de tip histograma.. se ridica pe verticala un dreptunghi cu înaltimea proportionala cu frecventa (fie absoluta. la modificarea nejustificata a scarilor de masurare. distorsioneaza serios rezultatele analizelor statistice. C16= „116-120 kg” — 1 caz. Asemenea reprezentari – tabelare sau diagramatice – nu sunt deloc potrivite pentru variabilele care au un numar mare de valori numerice (asa cum este cazul greutatii pacientilor exprimata în grame).65 m) si am obtinut rezultate care au fost grupate în 16 intervale (grupuri.

Statistici descriptive. Aparitia – nu neaparat din eroare! – unei valori aberante (outlier) influenteaza pozitia mediei aritmetice. care sunt considerate „strict necesare pentru analiza”. mediana Me coincide cu valoarea xm +1 care este situata exact în „mijloc”. situate în mijloc. în Excel aceasta functie este numita AVERAGE() si are un singur argument. Centrarea unei variabile numerice Sa consideram ca. este dat de formula: Mo = 3 × Me − 2 × m . Pare evident cum putem obtine acest centru m: vom calcula media aritmetica a numerelor (adica însumam numerele. xn . De exemplu..2. apoi împartim suma la numarul total n al indivizilor din esantion): x1 + x2 + . ca „centru” al datelor. În unele situatii. Pentru date categoriale (nenumerice). împreuna cu alte comenzi. + x n n Sa profitam de ocazie pentru a introduce al doilea înteles al cuvântului „statistica”.. softul biostatistic EpiInfo 2004 are un modul numit Analysis. În situatia în care toate valorile xi sunt distincte. Însa. În cazul în care datele sunt ordonate. anume domeniul în care au fost plasate datele numerice.. Mediana (Me) este „punctul” ce divide valorile în doua parti egale. ca de exemplu astfel: II-6 x1 ≤ x 2 ≤ . Pentru date numerice. iar n = 2m + 1 (adica numarul datelor este impar). x2 .. Functii care calculeaza „instantaneu” media aritmetica sunt implementate în orice soft statistic sau de calcul tabelar. pentru a indica „centrul” mediei aritmetice si medianei îi este preferat modul. în orice soft statistic media aritmetica este afisata împreuna cu alte statistici elementare. si anume urmatorul: un numar calcula t folosind datele obtinute dintr-un esantion. vom dispune de numerele reale x1 . atunci când n = 2m (numarul datelor este par). Ca un alt exemplu. modul M o. Aceste numere sunt reprezentate prin puncte pe axa reala (a se vedea figura urmatoare) iar intuitia ne spune ca acestea sunt distribuite „echilibrat” în jurul unui „centru”. x m si x m+1 . totusi nu prea mult – a se vedea figura.. într-un studiu efectuat asupra unei populatii mari. În practica media aritmetica nu este singura statistica utilizata pentru a indica „centrul” datelor. suntem interesati în a studia o anumita caracteristica reprezentata printr-o variabila numerica. Dupa ce am ales un esantion – sa zicem de n indivizi – si am facut masuratorile necesare. grupate în grupul Statistics . De exemplu. rezultatul este exprimat în aceleasi unitati de masura ca si valorile masurate. modul Mo este o statistica definita ca acea valoare ce are frecventa maxima. .. în modulul sau Basic Statistics/Tables contine o comanda Detailed Descriptive Statistics . Mai mult..3.. m= În formula de mai sus toate marimile masurate sunt tratate în mod „echitabil” (niciuna nu este tratata altfel decât celelalte). ≤ x n poate fi folosita si mediana pentru a indica „centrul”. Statistica. mediana Me este media aritmetica a celor doua valori. aici se întâlneste comanda Means . Formula de mai sus ofera un prin exemplu de statistica.

are dezavantajul ca depinde doar de doua dintre valorile seriei. Astfel aplicatia Excel dispune de functia STDEV() al carui unic argument este. comanda Detailed Descriptive Statistics. grupate în grupul Statistics ) din modulul Analysis al aplicatiei EpiInfo 2000 ofera multe rezultate. O prima statistica. evident. deviatia standard Std. însa acest lucru nu mai este valabil II-7 . n Din punct de vedere matematic aceasta formula nu este potrivita (functia modul nefiind derivabila). ele diferind între ele doar prin întelesul pe care-l acordam acestui termen. Din contra. Daca dorim o statistica ale carei valori sa fie expr imate în aceeasi unitate de masura ca si valorile seriei.. Aceasta statistica presupune ca a fost calculata anterior media m a seriei. în modulul Basic Statistics/Tables. valorile minima si maxima (vezi figura urmatoare). si nu ne informeaza deloc asupra modului în care datele sunt împrastiate între extreme. s= E= ∑ | xk − m | . Statistici descriptive.2. abateri luate în valoare absoluta: pentru varianta. care sa depinda „echitabil” de toate valorile. evidenta. Multe dintre statisticile care exprima împrastierea sunt definite plecând de la notiunea de „deviatie”. n Deviatia medie este exprimata în aceeasi unitate de masura ca si valorile seriei de date. deviatia standard (a se vedea figura de mai jos). ele sunt implementate în soft. Statistica ne ofera. incluzând media aritmetica. este amplitudinea notata cu A. Deviatia Adeseori evaluarea împrastierii da telor în jurul centrului. simultan sa aiba si proprietati matematice bune. Definitia precisa este urmatoarea: deviatia medie este media aritmetica a abaterilor valorilor fata de media lor. diferenta între valorile maxima si minima ale seriei de date: A = xmax − xmin . eventual o masura a acestei împrastieri. atunci formula urmatoare satisface toate aceste conditii.4. la fel ca în cazul functiei AVERAGE(). deviatia medie (abaterea medie) depinde „echitabil” de toate valorile seriei de date. Acesta este motivul principal pentru înlocuirea sa cu urmatoarea statistica. ca de exemplu MEDIAN(). domeniul în care a fost plasata seria de date. si care este definita ca . varianta. Ambele formule de mai sus pentru s necesita foarte multe calcule. cu folosire evidenta. diminuat cu 1). Ca rezultat al ei se afiseaza media Mean. Comanda Means (împreuna cu altele. numita varianta seriei de date: V= 2 ∑ ( x k − m) .Dev. În Excel avem la dispozitie multe alte functii statistice. s= n Anumite ratiuni teoretice (care depasesc nivelul acestei prezentari si nu pot fi explicate acum) fac ca formula abaterii standard sa fie usor modificata în urmatoarea: 2 ∑ ( x k − m) . este la fel de importanta ca si aflarea „centrului”. Amplitudinea ne informeaza asupra lungimii intervalului de variatie (în cazul unor date numerice). Formula ne da asanumita deviatie standard (abatere standard) a seriei de date: 2 ∑ ( x k − m) . mediana. n −1 (la numitor apare numarul valorilor din seria de date.

— Asimetria (skewness). (Terminologia dubla în limba româna este cauzata de adoptarea recenta a termenilor din engleza. — Abaterea standard (deviatia standard) s. GLIC_20. des folosita în reprezentarea grafica a datelor medicale. care sunt marcate special). anume cele aflate între cuartilele q1 si q3 . b) fie contine datele seriei aflate între m − 2s si m + 2s .) Lista anterioara nu este deloc exhaustiva. pentru a le evalua centrul si împrastierea î n jurul centrului putem folosi urmatoarele statistici: — Media aritmetica m. Sa încheiem aceasta trecere în revista prin prezentarea unui tip special de diagrama. — linii (whiskers) extind dreptunghiul în ambele directii. în practica sunt des utilizate si alte statistici: — Cuartilele q1 (prima. — Amplitudinea A. aceste linii indica domeniul de variatie (excluzându-se eventualele valori aberante. — Varianta V. — Modul Mo . cunoscuta ca box-and-whisker plot. Un exemplu de trei box-and-whisker plots realiza te cu Statistica este prezentat în figura de mai sus. II-8 . — Mediana Me. GLIC_14. împreuna cu mediana Me = q2 (considerata ca a doua cuartila) divid datele seriei în patru parti egale. acest dreptunghi (box) a) fie contine 50% din datele seriei. de 75%). — Abaterea medie (deviatia medie) E.Sa rezumam cele de mai sus: daca dispunem de o serie de date numerice. Ele arata distributii destul de dezechilibrate pentru valorile tuturor celor trei variabile GLIC_08. Acestea sunt numerele care. — un d reptunghi indica variabilitatea în jurul centrului. Întro astfel de diagrama: — o linie transversala sau un asterisc indica „centrul”. de 25%) si q 3 (a treia. care exprima evident lipsa de simetrie a seriei de date în jurul „centrului”.

(Este vorba de fapt de formulele obisnuite. pentru fiecare individ din esantion. Împrastierea este evaluata. definita prin: V = f (1 − f ) sau prin deviatia standard a valorii: s= f (1 − f ) . care nu este altceva decât eticheta/etichetele având frecventa maxima. modul. dar. În cazul variabilelor calitative însa. prin urmare putem calcula media lor – prin operatii aritmetice de adunare si împartire – sau abaterea standard (pentru care calculele sunt ceva mai complexe). Statistici descriptive pentru variabile calitative În cazul variabilelor cantitative datele sunt numerice. adaptate pentru valorile x k = 0 sau 1. prin raportare vom obtine imediat frecventa relativa a acestei valori: a f = .5. Daca prezenta valorii este constatata la a indivizi ai esantionului. în acest caz. acest raport joaca acelasi rol pe care-l joaca media aritmetica în cazul variabilelor cantitative. iar operatiile aritmetice nu sunt definite! Am putea înlocui etichetele prin numere – de exemplu am putea recodifica eticheta „admis” prin 1 iar eticheta „respins” prin 0 – si apoi sa facem calculele cu aceste numere. evident. iar absenta prin 0. am putea nota prezenta respectiv absenta acestei valori. valorile sunt etichete.2. prezentate în paragraful anterior.) Adevarata statistica „de centrare” pentru întreaga serie de date (asadar pentru ansamblul valorilor etichete) este. este media unor valori ce pot fi doar 1 sau 0. n Pentru valoarea aleasa. în aceasta situatie. (De fapt.) Prin urmare este o statistica de „centrare”. nu avem nicio justificare în a face asa ceva. am putea fixa o valoare particulara a ei si apoi. Data o variabila calitativa. prin asa -numita varianta a valorii alese. Prezenta este notata de obicei prin 1. II-9 .

al carui calcul se bazeaza pe calculul covariantei. Sa facem observatia ca formula de calcul a coeficientului de corelatie Pearson poate fi rescrisa în felul urmator: rX .. Calculul destul de dificil al numarului rX . Acest numar este între –1 si 1. Însa modul binar de a raspunde la întrebari nu este specific statisticii! În cadrul statisticii se dau raspunsuri diversificate. dupa cum doreste. ca un „da” sau un „nu”! Una dintre posibilitatile de a da asemenea raspunsuri consta în folosirea coeficientului de corelatie (Pearson). Covarianta si corelatia Rare sunt studiile efectuate asupra unei populatii în care suntem interesati în a studia doar o anumita caracteristica (reprezentata printr-o variabila).) Corelatia (liniara) între cele doua serii de date este definita prin asa-numitul coeficient de corelatie Pearson: rX . yn fie ca un „nor” de n puncte în plan (a se vedea figura de mai sus).Y este apropiat fie de –1. datele rezultate sunt prezentate fie într-un tabel: Individul 1 2 .. cel în care studiem doua caracteristici: se înregistreaza.. Sa notam cu m X respectiv mY mediile celor doua serii de date... În cazul în care (avem impresia ca) punctele sunt aliniate. expresia covariantei C devine expresia variantei V.Y = ∑ ( xi − m X )( yi − mY ) 2 2 ∑ ( xi − m X ) ⋅ ∑ ( yi − mY ) ... apoi înregistram datele provenite din masuratorile efectuate asupra indivizilor. Covarianta între cele doua serii de date se calculeaza cu formula C= 1 n ∑ (x k − m X )( y k − mY ) . de exemplu exprimate printr-un numar ce exprima intensitatea legaturii între cele doua variabile (?). pentru fiecare nou nascut. Valorile variabilei Y y1 y2 . Oare exista vreo legatura între aceste doua variabile? Si daca da. cazul cel mai simplu. vârsta mamei (în ani) si greutatea noului nascut (în grame). fie de 1) avem de-a face cu o puternica legatura liniara între seriile de date. k .Y = C s X sY xk . oare putem exprima aceasta legatura printr-o formula liniara? La prima vedere se pare ca raspunsurile la aceste întrebari sunt fie „da”. II-10 unde s X respectiv sY sunt abaterile standard ale celor doua serii de date. În practica.. (Se observa ca atunci când seria de date Y coincide cu seria de date X. xn yk . Iar fiecare persoana ar putea sa-l interpreteze.6. fie „nu”.. n Valorile variabilei X x1 x2 .. ne exprimam spunând ca exista o corelatie liniara între variabilele X si Y. atunci când studiem legatura între doua variabile numerice. pe care o putem extrapola (asumându-ne riscuri!) la o legatura liniara: Y = αX + β între variabile. începem prin a alege un esantion..2..Y este efectuat în Excel prin intermediul . Sa consideram. În cazurile extreme (adica atunci când numarul rX . printr-un exemplu.

Y = 0. Aceasta functie are doua argumente care sunt.911885 ≈ 0.3 37.6 38.912 care ne indica o legatura liniara puternica între puls si temperatura axilara. Coeficientul de corelatie Pearson poate fi calculat doar daca dispunem de date numerice. domeniile în care am depus cele doua serii de date. În situatii de acest fel se va calcula. evident.5 36. Sa consideram acum ca valorile variabilelor X si Y nu pot fi obtinute prin masuratori. de exemplu. sa pre supunem ca pentru 10 indivizi – alesi în esantion – au fost masurate temperatura axilara (în °C) si pulsul (în numar de oscilatii/minut). asa-numitul coeficient de corelatie Spearman. Coeficientul de corelatie Pearson. asa cum ar fi. ele sunt numere de ordine. chiar daca este calculabil. II-11 . obtinându-se rezultatele din tabelul urmator: i 1 2 3 4 5 6 7 8 9 10 Pulsul x k 75 80 70 90 75 85 80 90 100 95 Temperatura axilara y k 38. nu ofera o interpretare adecvata a „concordantei” între evaluarile arbitrilor.functiei CORREL().1 38. cu formula ro = 1 − ∑ dk N ( N 2 − 1) 2 în care d k este diferenta rangurilor obtinute de concurentul k .4 38. dimpotriva.0 37.9 Prin calcul (cu functia CORREL() din Excel) obtinem (vezi figura de mai jos): rX .5 38. Ca un caz concret. rangurile acordate concurentilor de catre doi arbitri.2 37.5 39.

Sign up to vote on this title
UsefulNot useful