Lectia #2

2.1. Populatii si esantioane, caracteristici si variabile 2.2. Reprezentari grafice 2.3. Statistici descriptive. Centrarea unei variabile numerice 2.4. Statistici descriptive. Deviatia 2.5. Statistici descriptive pentru variabile calitative 2.6. Covarianta si corelatia

II-1

1. aceste atribute poarta numele de caracteristici. fiind o ramura a statisticii. Este de neconceput sa poata fi studiati chiar toti indivizii unei populatii „mari”. adica multimea tuturor valorilor posibile. Caracteristica „culoare” a obiectelor ar putea fi masurata (exprimata prin lungimea de unda). „portocaliu”. Alte caracteristici – cum ar fi sexul sau categoria de vârsta – nu sunt masurate. Pentru a reprezenta o caracteristica printr -o singura variabila va trebui sa introducem o scara. Numarul indivizilor din esantionul ales este numit volumul esantionului si este notat de obicei. aceste caracteristici sunt reprezentate prin variabile. Totusi. câteodata ele au ca efect chiar distrugerea indivizilor „studiati”. se presupune ca la un moment particular de timp – sau într-un interval de timp bine definit – populatia este bine definita. Atunci când studiem o populatie se iau în considerare doar II-2 . Ratiunea esantionarii este limpede: prin efectuarea de studii asupra unei parti relativ „mici” din populatie – parte care este numita esantion – sa strângem suficienta informatie care sa ne permita sa inferam la nivelul întregii populatii asupra caracteristicilor studiate. Unele caracteristici – cum ar fi greutatea unui pacient diagnosticat cu tuberculoza. atunci când ne referim la un esantion potential (esantionul nu a fost precizat) prin litera n. Cât de mult riscam atunci când alegem un anumit tratament? c. în limbajul de zi cu zi. Fiecare individ al unei populatii îsi are identitatea sa proprie. anumite atribute „importante” ale indivizilor.2. sau inteligenta unui student – sunt masurate si exprimate prin numere. De obicei. Biostatistica este acel domeniu particular al stiintelor în care metodele specifice statisticii sunt aplicate problemelor biologice (inclusiv medicale). Principala caracteristica a proceselor biologice este variabilitatea. „galben” etc. De obicei studiile efectuate asupra indivizilor unei populatii sunt costisitoare si de durata. iar indivizii prezinta o anumita variabilitate. Sa definim spatiul observabil. consideram implicit ca numarul indivizilor ei este mare. în care este clar ca acest numar nu este prea mare. Biostatistica. aceasta nu exclude însa multe situatii. ne permite sa dam raspuns la întrebari cum sunt urmatoarele: a. însa de obicei este identificata prin apartenenta la grupurile „rosu”. Atunci când încercam sa comparam sau sa clasificam indivizi. înaltimea sa. cum este cea din exemplul formal „populatia pacientilor dr. ci sunt identificate prin apartenenta la un grup. atunci când ne referim la o populatie. ceea ce înseamna: 1. Este oare mai bun noul tratament decât cel clasic? Cuvântul populatie are. Statistica ne permite sa stabilim „legi” în care sa tinem seama de incertitudine. caracteristici si variabile Statistica este o stiinta care se ocupa cu tratamentul datelor obtinute din grupuri „mici” de indivizi si extinderea rezultatelor la populatii „mari”. Care valori sunt normale pentru un anumit proces biologic? b. un înteles evident. în particular diverselor fenomene si procese care afecteaza calitatea fizica si mentala a oamenilor. Aceasta variabilite determina un anumit grad de incertitudine. sa stabilim legaturi între caracteristicile lor. Se subîntelege ca o populatie are caracter dinamic (adica numarul indivizilor ei variaza în timp). Populatii si esantioane. Ionescu ce sufera de cardiopatie ischemica”.

Asadar. De data aceasta avem un exemplu de variabila ordinala. Domeniul – în general pe o coloana – în care se trec valorile de separare. Atunci când avem de-a face cu un esantion „mare” (adica are un numar „mare"de indivizi). Este clar ca daca ne alegem o unitate de masura (metrul. Asemenea etichete nu pot fi adunate sau scazute. Domeniul în care au fost plasate valorile variabilelor (data array). fie datele colectate au fost grupate în clase. Spatiul observabil este acum format doar din etichetele „foarte scund”. Sa admitem ca putem asocia fiecarui individ câte o (singura) valoare din spatiul observabil. deoarece consideram în mod intuitiv ca valorile sunt numere reale (cu alte cuvinte spatiul observabil este R iar acest spatiu are o structura foarte bogata: operatii aritmetice. de asemenea le putea aduna. Aceasta nu este obligatoriu! În cazul în care fie indivizii sunt grupati natural în clase. în ordine crescatoare (bins array). putem calcula frecvente. Frecventele variabilelor (nu numai cu valori numerice) se obtin cu usurinta în Excel prin intermediul functiei FREQUENCY(). de obicei variabilele numerice sunt înlocuite prin variabile calitative. O asemenea variabila este numita variabila numerica. cu o usoara cheltuiala de timp – o unica valoare a înaltimii sale. le vom putea „aprecia vizual” înaltimea. Numarul K de clase este ales în strânsa dependenta de problema studiata si nu exista definit vreun „algoritm” de stabilire a sa. din contra. sa consideram câteva exemple.). Observam ca toate clasele descrise anterior au aceeasi „lungime”. este definita doar ordonarea între ele. anume 5 ani. prin mai multe variabile . „înalt” si „foarte înalt”. (Se recomanda reprezentarea grafica a rezultatelor datorita perceptiei mai rapide pe cale vizuala a informatiei. C3 = „10-14 ani” si asa mai departe. „mediu”. 2. Rezultatele aplicarii acestei functii sunt plasate într -un domeniu ce are o celula în plus fata de domeniul valorilor de separare. Caracteristica „înaltime” a pacientilor este reprezintata evident printr-o variabila.). „scund”. ordonare totala etc. centimetrul. …) atunci pentru fiecare pacient vom putea sa obtinem – e drept. Sa definim o structura pe spatiul observabil. Un numar prea mic de clase are dezavantajul ca „ascunde” particularitatile claselor. care poate fi exprimata printr-un ansamblu de variabile.2. Câteodata o caracteristica este exprimata printr-o variabila de decizie (sau variabila binara) ce ia doar doua valori „admis”/”respins” (respectiv „da”/”nu” etc. considerând ca studiem un esantion de indivizi diagnosticati cu o anumita maladie. Sa luam de exemplu clasele de vârsta ale pacientilor. Pare natural sa grupam vârstele lor în clase – delimitate subiectiv dupa cum urmeaza C1 = „0-4 ani”. o caracteristica studiata ar putea fi reprezentata. Uneori se folosesc si asa-numitele frecvente cumulate. etc. O alta situatie ce trebuie scoasa în evidenta este cea a caracteristicii „inteligenta” a unui student.) Se poate face recomandarea de a se forma între 8 si 20 de clase. prin urmare le putem ordona între ele. Pentru o clasa de date. Aceeasi caracteristica „înaltime” ar putea fi reprezentata de o variabila de cu totul alt tip. . ordinale (care reprezinta aceeasi II-3 caracteristica). Aceasta functie are doua argumente: 1. datele numerice sunt grupate într-un numar „mic” de clase. Mai precis. Pentru a preciza ideile. scadea. frecventa absoluta este numarul indivizilor p entru care datele apartin acelei clase. si 3. direct sau indirect. Numerele obtinute sunt reale. Nu mai este necesara o masurare precisa a pacientilor. În aceasta celula suplimentara va fi afisat numarul valorilor ce depasesc cea mai mare valoare de separare. se utilizeaza foarte adesea clase de vârsta sau clase de înaltime. C2 = „5-9 ani”. un numar mare de clase face dificila reprezentarea grafica a rezultatelor. Frecventa relativa se calculeaza prin împartirea frecventei absolute la numarul total al indivizilor din esantion. De exemplu.

În tabel. în diagrama cu bare. ca prezentarea rezultatelor depinde de softul folosit. existând unele diferente (datorate rotunjirilor). de exemplu. Exista si deosebiri în modul în care trebuie introduse datele. grupate dupa zilele saptamânii: Ziua saptamânii Vineri Sâmbata Duminica TOTAL Frecventa absoluta a cazurilor de infarct 6 4 8 36 O inspectare vizuala a numerelor din tabel nu este la fel de eficienta ca examinarea vizuala a unei diagrame cu bare sau a unei rozete. implementata în orice soft statistic sau de calcul tabelar. cazurile de infarct înregistrate într-un oras mare.2. Reprezentari grafice Adeseori o reprezentare grafica. iar diagramele de tip rozeta au fost obtinute cu Excel si EpiInfo 2000 . În figurile de mai jos diagrama cu bare a fost obtinua cu Excel. În general se pleaca de la datele primare „caz dupa caz”. în cele doua rozete. Iar reprezentarea datelor într-o diagrama cu bare sau de tip rozeta este o operatiune usoara. Doar în Excel putem pleca de la tabelul de mai sus. interpretata vizual.2. Probabil ca suntem de acord cu totii ca informatia reprezentata grafic este mai usor de „înteles”. (O mica corectie: în diagrama de tip histograma este reprezentata o curba suplimentara. Sa consideram. Vom aborda ulterior interpretarea acestei curbe. în histograma si în rozete este prezentata aceeasi informatie. diagrama de tip histograma a fost obtinuta cu Statistica. care însa este inutila în cazul nostru. . poate fi extrem de eficienta pentru prezentarea unor date sau Ziua saptamânii Luni Marti Miercuri Joi Frecventa absoluta a cazurilor de infarct 4 4 7 3 rezultate.) II-4 Se poate observa.

C15 = „111-115 kg” — 0 cazuri. de orice fel ar fi. De exemplu. din aceste date se obtin histogramele urmatoare: Sa remarcam ca într-o histograma clasele sunt intervale de numere reale.. pe axa orizontala se marcheaza punctele de separare între clase si. Într-o histograma veritabila aria tuturor dreptunghiurilor este 1.Atât tabelele de frecvente. C2= „46-50 kg” — 10 cazuri. iar abia apoi rezultatele gruparii sunt prezentate în histograme. toate „iluziile optice” pot fi folosite pentru a induce o perceptie eronata asupra unor date. . fie relativa) clasei. Acest transfer bazându-se însa pe perceptia vizuala. Asemenea reprezentari – tabelare sau diagramatice – nu sunt deloc potrivite pentru variabilele care au un numar mare de valori numerice (asa cum este cazul greutatii pacientilor exprimata în grame). anume: C1 = „41-45 kg” — 5 cazuri. etichetelor si legendelor de pe diagrama. se ridica pe verticala un dreptunghi cu înaltimea proportionala cu frecventa (fie absoluta. clase).65 m) si am obtinut rezultate care au fost grupate în 16 intervale (grupuri. Reprezentarea grafica a datelor ar putea fi folositoare si pentru identificarea datelor eronate sau a valorilor aberante (outliers). C3 = „51-55 kg” — 20 cazuri. C4 = „56-60 kg” — 36 cazuri. sa presupunem ca am cântarit 240 de indivizi (a caror înaltime este de 1. pentru fiecare clasa. II-5 . Atunci când se construieste o diagrama de tip histograma. Folosind Excel.. iar într-o diagrama cu bare clasele sunt reprezentate prin etichete (labels). Evident. Trebuie sa fim atenti la corectitudinea tipului de diagrama. distorsioneaza serios rezultatele analizelor statistice. Dreptunghiurile sunt de „latimi” egale. în asemenea situatii se practica gruparea valorilor în câteva intervale de valori. cât si diagramele sunt adecvate pentru „afisarea” variabilelor care au un numar „mic” de valori. la falsificarea datelor prezentate.) Sa încheiem aceasta sectiune subliniind ca reprezentarile grafice sunt folosite pentru accelerarea transferului de informatie de la om la om. Aceste valori aberante. la modificarea nejustificata a scarilor de masurare. C16= „116-120 kg” — 1 caz. si nu în ultimul rând la adecvarea textele titlurilor. Statistica si EpiInfo 2000.

Formula de mai sus ofera un prin exemplu de statistica. în Excel aceasta functie este numita AVERAGE() si are un singur argument. atunci când n = 2m (numarul datelor este par). Aparitia – nu neaparat din eroare! – unei valori aberante (outlier) influenteaza pozitia mediei aritmetice. În practica media aritmetica nu este singura statistica utilizata pentru a indica „centrul” datelor.. m= În formula de mai sus toate marimile masurate sunt tratate în mod „echitabil” (niciuna nu este tratata altfel decât celelalte).. mediana Me este media aritmetica a celor doua valori. softul biostatistic EpiInfo 2004 are un modul numit Analysis. Functii care calculeaza „instantaneu” media aritmetica sunt implementate în orice soft statistic sau de calcul tabelar. Mediana (Me) este „punctul” ce divide valorile în doua parti egale.. Însa. care sunt considerate „strict necesare pentru analiza”.. este dat de formula: Mo = 3 × Me − 2 × m . Dupa ce am ales un esantion – sa zicem de n indivizi – si am facut masuratorile necesare. aici se întâlneste comanda Means . Ca un alt exemplu. Statistici descriptive. De exemplu. x2 . Pentru date categoriale (nenumerice). Aceste numere sunt reprezentate prin puncte pe axa reala (a se vedea figura urmatoare) iar intuitia ne spune ca acestea sunt distribuite „echilibrat” în jurul unui „centru”. vom dispune de numerele reale x1 . De exemplu. mediana Me coincide cu valoarea xm +1 care este situata exact în „mijloc”. în orice soft statistic media aritmetica este afisata împreuna cu alte statistici elementare. + x n n Sa profitam de ocazie pentru a introduce al doilea înteles al cuvântului „statistica”. În cazul în care datele sunt ordonate. în modulul sau Basic Statistics/Tables contine o comanda Detailed Descriptive Statistics . si anume urmatorul: un numar calcula t folosind datele obtinute dintr-un esantion.2. Mai mult. pentru a indica „centrul” mediei aritmetice si medianei îi este preferat modul. În situatia în care toate valorile xi sunt distincte. modul M o. modul Mo este o statistica definita ca acea valoare ce are frecventa maxima. iar n = 2m + 1 (adica numarul datelor este impar). grupate în grupul Statistics . .. totusi nu prea mult – a se vedea figura. ca „centru” al datelor. Pentru date numerice. anume domeniul în care au fost plasate datele numerice. situate în mijloc. Centrarea unei variabile numerice Sa consideram ca. suntem interesati în a studia o anumita caracteristica reprezentata printr-o variabila numerica. împreuna cu alte comenzi.. xn . apoi împartim suma la numarul total n al indivizilor din esantion): x1 + x2 + . într-un studiu efectuat asupra unei populatii mari. Pare evident cum putem obtine acest centru m: vom calcula media aritmetica a numerelor (adica însumam numerele. x m si x m+1 . ≤ x n poate fi folosita si mediana pentru a indica „centrul”.3.. ca de exemplu astfel: II-6 x1 ≤ x 2 ≤ .. În unele situatii. Statistica. rezultatul este exprimat în aceleasi unitati de masura ca si valorile masurate.

mediana. Astfel aplicatia Excel dispune de functia STDEV() al carui unic argument este. s= E= ∑ | xk − m | . În Excel avem la dispozitie multe alte functii statistice. simultan sa aiba si proprietati matematice bune. n Din punct de vedere matematic aceasta formula nu este potrivita (functia modul nefiind derivabila). deviatia standard Std. însa acest lucru nu mai este valabil II-7 . comanda Detailed Descriptive Statistics. Ambele formule de mai sus pentru s necesita foarte multe calcule. Acesta este motivul principal pentru înlocuirea sa cu urmatoarea statistica. este la fel de importanta ca si aflarea „centrului”. Ca rezultat al ei se afiseaza media Mean. Amplitudinea ne informeaza asupra lungimii intervalului de variatie (în cazul unor date numerice). ele diferind între ele doar prin întelesul pe care-l acordam acestui termen. Formula ne da asanumita deviatie standard (abatere standard) a seriei de date: 2 ∑ ( x k − m) . ca de exemplu MEDIAN(). O prima statistica. s= n Anumite ratiuni teoretice (care depasesc nivelul acestei prezentari si nu pot fi explicate acum) fac ca formula abaterii standard sa fie usor modificata în urmatoarea: 2 ∑ ( x k − m) . Din contra. domeniul în care a fost plasata seria de date. deviatia standard (a se vedea figura de mai jos). Multe dintre statisticile care exprima împrastierea sunt definite plecând de la notiunea de „deviatie”. în modulul Basic Statistics/Tables. Deviatia Adeseori evaluarea împrastierii da telor în jurul centrului. Definitia precisa este urmatoarea: deviatia medie este media aritmetica a abaterilor valorilor fata de media lor. n −1 (la numitor apare numarul valorilor din seria de date. Statistica ne ofera. diferenta între valorile maxima si minima ale seriei de date: A = xmax − xmin .2. evidenta. diminuat cu 1). la fel ca în cazul functiei AVERAGE(). eventual o masura a acestei împrastieri. este amplitudinea notata cu A. care sa depinda „echitabil” de toate valorile. abateri luate în valoare absoluta: pentru varianta. evident. si care este definita ca . si nu ne informeaza deloc asupra modului în care datele sunt împrastiate între extreme. Aceasta statistica presupune ca a fost calculata anterior media m a seriei. Daca dorim o statistica ale carei valori sa fie expr imate în aceeasi unitate de masura ca si valorile seriei.4. n Deviatia medie este exprimata în aceeasi unitate de masura ca si valorile seriei de date. incluzând media aritmetica. valorile minima si maxima (vezi figura urmatoare). are dezavantajul ca depinde doar de doua dintre valorile seriei. varianta. Statistici descriptive. deviatia medie (abaterea medie) depinde „echitabil” de toate valorile seriei de date. numita varianta seriei de date: V= 2 ∑ ( x k − m) .. Comanda Means (împreuna cu altele. ele sunt implementate în soft. cu folosire evidenta. grupate în grupul Statistics ) din modulul Analysis al aplicatiei EpiInfo 2000 ofera multe rezultate.Dev. atunci formula urmatoare satisface toate aceste conditii.

II-8 . (Terminologia dubla în limba româna este cauzata de adoptarea recenta a termenilor din engleza. Ele arata distributii destul de dezechilibrate pentru valorile tuturor celor trei variabile GLIC_08. aceste linii indica domeniul de variatie (excluzându-se eventualele valori aberante. de 25%) si q 3 (a treia. Întro astfel de diagrama: — o linie transversala sau un asterisc indica „centrul”. — un d reptunghi indica variabilitatea în jurul centrului. de 75%). în practica sunt des utilizate si alte statistici: — Cuartilele q1 (prima. — linii (whiskers) extind dreptunghiul în ambele directii. Sa încheiem aceasta trecere în revista prin prezentarea unui tip special de diagrama. b) fie contine datele seriei aflate între m − 2s si m + 2s . — Varianta V. împreuna cu mediana Me = q2 (considerata ca a doua cuartila) divid datele seriei în patru parti egale. anume cele aflate între cuartilele q1 si q3 . Acestea sunt numerele care. GLIC_14. cunoscuta ca box-and-whisker plot. — Modul Mo . GLIC_20. — Asimetria (skewness). Un exemplu de trei box-and-whisker plots realiza te cu Statistica este prezentat în figura de mai sus. pentru a le evalua centrul si împrastierea î n jurul centrului putem folosi urmatoarele statistici: — Media aritmetica m. care sunt marcate special). — Abaterea medie (deviatia medie) E. acest dreptunghi (box) a) fie contine 50% din datele seriei. — Abaterea standard (deviatia standard) s. — Mediana Me.) Lista anterioara nu este deloc exhaustiva. care exprima evident lipsa de simetrie a seriei de date în jurul „centrului”.Sa rezumam cele de mai sus: daca dispunem de o serie de date numerice. des folosita în reprezentarea grafica a datelor medicale. — Amplitudinea A.

II-9 . dar. valorile sunt etichete. Prezenta este notata de obicei prin 1. (De fapt. Daca prezenta valorii este constatata la a indivizi ai esantionului. în aceasta situatie. prezentate în paragraful anterior. pentru fiecare individ din esantion. este media unor valori ce pot fi doar 1 sau 0. prin raportare vom obtine imediat frecventa relativa a acestei valori: a f = . care nu este altceva decât eticheta/etichetele având frecventa maxima. evident. Împrastierea este evaluata. iar operatiile aritmetice nu sunt definite! Am putea înlocui etichetele prin numere – de exemplu am putea recodifica eticheta „admis” prin 1 iar eticheta „respins” prin 0 – si apoi sa facem calculele cu aceste numere. n Pentru valoarea aleasa. în acest caz. prin urmare putem calcula media lor – prin operatii aritmetice de adunare si împartire – sau abaterea standard (pentru care calculele sunt ceva mai complexe). nu avem nicio justificare în a face asa ceva.) Prin urmare este o statistica de „centrare”.5. prin asa -numita varianta a valorii alese. (Este vorba de fapt de formulele obisnuite. În cazul variabilelor calitative însa. adaptate pentru valorile x k = 0 sau 1. am putea fixa o valoare particulara a ei si apoi.) Adevarata statistica „de centrare” pentru întreaga serie de date (asadar pentru ansamblul valorilor etichete) este. modul. iar absenta prin 0. definita prin: V = f (1 − f ) sau prin deviatia standard a valorii: s= f (1 − f ) . Statistici descriptive pentru variabile calitative În cazul variabilelor cantitative datele sunt numerice. am putea nota prezenta respectiv absenta acestei valori. acest raport joaca acelasi rol pe care-l joaca media aritmetica în cazul variabilelor cantitative. Data o variabila calitativa.2.

printr-un exemplu.. Acest numar este între –1 si 1. vârsta mamei (în ani) si greutatea noului nascut (în grame). al carui calcul se bazeaza pe calculul covariantei. datele rezultate sunt prezentate fie într-un tabel: Individul 1 2 . fie de 1) avem de-a face cu o puternica legatura liniara între seriile de date. Sa notam cu m X respectiv mY mediile celor doua serii de date. dupa cum doreste. de exemplu exprimate printr-un numar ce exprima intensitatea legaturii între cele doua variabile (?).. yn fie ca un „nor” de n puncte în plan (a se vedea figura de mai sus). Sa facem observatia ca formula de calcul a coeficientului de corelatie Pearson poate fi rescrisa în felul urmator: rX . În cazurile extreme (adica atunci când numarul rX ..Y este apropiat fie de –1. cel în care studiem doua caracteristici: se înregistreaza. Covarianta între cele doua serii de date se calculeaza cu formula C= 1 n ∑ (x k − m X )( y k − mY ) . începem prin a alege un esantion.Y este efectuat în Excel prin intermediul .6.2. Covarianta si corelatia Rare sunt studiile efectuate asupra unei populatii în care suntem interesati în a studia doar o anumita caracteristica (reprezentata printr-o variabila). Iar fiecare persoana ar putea sa-l interpreteze. xn yk .. ne exprimam spunând ca exista o corelatie liniara între variabilele X si Y. cazul cel mai simplu.. II-10 unde s X respectiv sY sunt abaterile standard ale celor doua serii de date. n Valorile variabilei X x1 x2 . fie „nu”. pe care o putem extrapola (asumându-ne riscuri!) la o legatura liniara: Y = αX + β între variabile.. oare putem exprima aceasta legatura printr-o formula liniara? La prima vedere se pare ca raspunsurile la aceste întrebari sunt fie „da”.. Valorile variabilei Y y1 y2 . Calculul destul de dificil al numarului rX . (Se observa ca atunci când seria de date Y coincide cu seria de date X..Y = C s X sY xk . ca un „da” sau un „nu”! Una dintre posibilitatile de a da asemenea raspunsuri consta în folosirea coeficientului de corelatie (Pearson). pentru fiecare nou nascut.. k . expresia covariantei C devine expresia variantei V. Oare exista vreo legatura între aceste doua variabile? Si daca da. În cazul în care (avem impresia ca) punctele sunt aliniate...Y = ∑ ( xi − m X )( yi − mY ) 2 2 ∑ ( xi − m X ) ⋅ ∑ ( yi − mY ) . Însa modul binar de a raspunde la întrebari nu este specific statisticii! În cadrul statisticii se dau raspunsuri diversificate. apoi înregistram datele provenite din masuratorile efectuate asupra indivizilor. În practica. Sa consideram. atunci când studiem legatura între doua variabile numerice..) Corelatia (liniara) între cele doua serii de date este definita prin asa-numitul coeficient de corelatie Pearson: rX .

de exemplu. dimpotriva. Sa consideram acum ca valorile variabilelor X si Y nu pot fi obtinute prin masuratori.0 37. În situatii de acest fel se va calcula. domeniile în care am depus cele doua serii de date. Coeficientul de corelatie Pearson poate fi calculat doar daca dispunem de date numerice.functiei CORREL(). asa-numitul coeficient de corelatie Spearman.911885 ≈ 0. asa cum ar fi.5 36.1 38. nu ofera o interpretare adecvata a „concordantei” între evaluarile arbitrilor. obtinându-se rezultatele din tabelul urmator: i 1 2 3 4 5 6 7 8 9 10 Pulsul x k 75 80 70 90 75 85 80 90 100 95 Temperatura axilara y k 38.5 38.5 39.6 38.912 care ne indica o legatura liniara puternica între puls si temperatura axilara. sa pre supunem ca pentru 10 indivizi – alesi în esantion – au fost masurate temperatura axilara (în °C) si pulsul (în numar de oscilatii/minut).9 Prin calcul (cu functia CORREL() din Excel) obtinem (vezi figura de mai jos): rX .3 37. chiar daca este calculabil.Y = 0. Ca un caz concret. II-11 . evident. Aceasta functie are doua argumente care sunt. Coeficientul de corelatie Pearson. cu formula ro = 1 − ∑ dk N ( N 2 − 1) 2 în care d k este diferenta rangurilor obtinute de concurentul k . rangurile acordate concurentilor de catre doi arbitri.2 37.4 38. ele sunt numere de ordine.

Sign up to vote on this title
UsefulNot useful