P. 1
Curs Covarianta si corelatie

Curs Covarianta si corelatie

|Views: 1,882|Likes:
Published by Sorin

More info:

Published by: Sorin on Mar 21, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

06/26/2013

pdf

text

original

Lectia #2

2.1. Populatii si esantioane, caracteristici si variabile 2.2. Reprezentari grafice 2.3. Statistici descriptive. Centrarea unei variabile numerice 2.4. Statistici descriptive. Deviatia 2.5. Statistici descriptive pentru variabile calitative 2.6. Covarianta si corelatia

II-1

Aceasta variabilite determina un anumit grad de incertitudine. Se subîntelege ca o populatie are caracter dinamic (adica numarul indivizilor ei variaza în timp). anumite atribute „importante” ale indivizilor. Sa definim spatiul observabil. atunci când ne referim la o populatie. însa de obicei este identificata prin apartenenta la grupurile „rosu”. Atunci când studiem o populatie se iau în considerare doar II-2 . atunci când ne referim la un esantion potential (esantionul nu a fost precizat) prin litera n. „portocaliu”. Este oare mai bun noul tratament decât cel clasic? Cuvântul populatie are. Principala caracteristica a proceselor biologice este variabilitatea. Care valori sunt normale pentru un anumit proces biologic? b. în particular diverselor fenomene si procese care afecteaza calitatea fizica si mentala a oamenilor. Totusi. Pentru a reprezenta o caracteristica printr -o singura variabila va trebui sa introducem o scara. aceasta nu exclude însa multe situatii. Numarul indivizilor din esantionul ales este numit volumul esantionului si este notat de obicei. ci sunt identificate prin apartenenta la un grup. în care este clar ca acest numar nu este prea mare.1. „galben” etc. sau inteligenta unui student – sunt masurate si exprimate prin numere. fiind o ramura a statisticii. Atunci când încercam sa comparam sau sa clasificam indivizi. Ratiunea esantionarii este limpede: prin efectuarea de studii asupra unei parti relativ „mici” din populatie – parte care este numita esantion – sa strângem suficienta informatie care sa ne permita sa inferam la nivelul întregii populatii asupra caracteristicilor studiate. caracteristici si variabile Statistica este o stiinta care se ocupa cu tratamentul datelor obtinute din grupuri „mici” de indivizi si extinderea rezultatelor la populatii „mari”. Este de neconceput sa poata fi studiati chiar toti indivizii unei populatii „mari”. consideram implicit ca numarul indivizilor ei este mare. Statistica ne permite sa stabilim „legi” în care sa tinem seama de incertitudine. De obicei. sa stabilim legaturi între caracteristicile lor. iar indivizii prezinta o anumita variabilitate. Unele caracteristici – cum ar fi greutatea unui pacient diagnosticat cu tuberculoza. Ionescu ce sufera de cardiopatie ischemica”. Biostatistica este acel domeniu particular al stiintelor în care metodele specifice statisticii sunt aplicate problemelor biologice (inclusiv medicale). ne permite sa dam raspuns la întrebari cum sunt urmatoarele: a. în limbajul de zi cu zi. Fiecare individ al unei populatii îsi are identitatea sa proprie. aceste caracteristici sunt reprezentate prin variabile.2. aceste atribute poarta numele de caracteristici. Cât de mult riscam atunci când alegem un anumit tratament? c. De obicei studiile efectuate asupra indivizilor unei populatii sunt costisitoare si de durata. adica multimea tuturor valorilor posibile. înaltimea sa. câteodata ele au ca efect chiar distrugerea indivizilor „studiati”. se presupune ca la un moment particular de timp – sau într-un interval de timp bine definit – populatia este bine definita. ceea ce înseamna: 1. Biostatistica. cum este cea din exemplul formal „populatia pacientilor dr. un înteles evident. Caracteristica „culoare” a obiectelor ar putea fi masurata (exprimata prin lungimea de unda). Alte caracteristici – cum ar fi sexul sau categoria de vârsta – nu sunt masurate. Populatii si esantioane.

Numerele obtinute sunt reale. Un numar prea mic de clase are dezavantajul ca „ascunde” particularitatile claselor. C3 = „10-14 ani” si asa mai departe. un numar mare de clase face dificila reprezentarea grafica a rezultatelor. Nu mai este necesara o masurare precisa a pacientilor. Numarul K de clase este ales în strânsa dependenta de problema studiata si nu exista definit vreun „algoritm” de stabilire a sa. în ordine crescatoare (bins array). si 3. fie datele colectate au fost grupate în clase. direct sau indirect. anume 5 ani. O asemenea variabila este numita variabila numerica. cu o usoara cheltuiala de timp – o unica valoare a înaltimii sale. frecventa absoluta este numarul indivizilor p entru care datele apartin acelei clase.) Se poate face recomandarea de a se forma între 8 si 20 de clase. „scund”. „înalt” si „foarte înalt”. De data aceasta avem un exemplu de variabila ordinala. Este clar ca daca ne alegem o unitate de masura (metrul. Asadar. Spatiul observabil este acum format doar din etichetele „foarte scund”. În aceasta celula suplimentara va fi afisat numarul valorilor ce depasesc cea mai mare valoare de separare. O alta situatie ce trebuie scoasa în evidenta este cea a caracteristicii „inteligenta” a unui student. Atunci când avem de-a face cu un esantion „mare” (adica are un numar „mare"de indivizi). C2 = „5-9 ani”. Frecventa relativa se calculeaza prin împartirea frecventei absolute la numarul total al indivizilor din esantion. Caracteristica „înaltime” a pacientilor este reprezintata evident printr-o variabila. Aceasta functie are doua argumente: 1. Domeniul în care au fost plasate valorile variabilelor (data array). le vom putea „aprecia vizual” înaltimea. Pare natural sa grupam vârstele lor în clase – delimitate subiectiv dupa cum urmeaza C1 = „0-4 ani”. Asemenea etichete nu pot fi adunate sau scazute.2. ordonare totala etc. de obicei variabilele numerice sunt înlocuite prin variabile calitative. Sa luam de exemplu clasele de vârsta ale pacientilor. deoarece consideram în mod intuitiv ca valorile sunt numere reale (cu alte cuvinte spatiul observabil este R iar acest spatiu are o structura foarte bogata: operatii aritmetice. Mai precis. De exemplu. 2. Rezultatele aplicarii acestei functii sunt plasate într -un domeniu ce are o celula în plus fata de domeniul valorilor de separare. prin mai multe variabile . se utilizeaza foarte adesea clase de vârsta sau clase de înaltime. Domeniul – în general pe o coloana – în care se trec valorile de separare. de asemenea le putea aduna. etc. Uneori se folosesc si asa-numitele frecvente cumulate.).). . Câteodata o caracteristica este exprimata printr-o variabila de decizie (sau variabila binara) ce ia doar doua valori „admis”/”respins” (respectiv „da”/”nu” etc. Observam ca toate clasele descrise anterior au aceeasi „lungime”. care poate fi exprimata printr-un ansamblu de variabile. Frecventele variabilelor (nu numai cu valori numerice) se obtin cu usurinta în Excel prin intermediul functiei FREQUENCY(). Pentru o clasa de date. …) atunci pentru fiecare pacient vom putea sa obtinem – e drept. „mediu”. ordinale (care reprezinta aceeasi II-3 caracteristica). prin urmare le putem ordona între ele. Sa definim o structura pe spatiul observabil. Aceasta nu este obligatoriu! În cazul în care fie indivizii sunt grupati natural în clase. Sa admitem ca putem asocia fiecarui individ câte o (singura) valoare din spatiul observabil. datele numerice sunt grupate într-un numar „mic” de clase. o caracteristica studiata ar putea fi reprezentata. scadea. (Se recomanda reprezentarea grafica a rezultatelor datorita perceptiei mai rapide pe cale vizuala a informatiei. centimetrul. Aceeasi caracteristica „înaltime” ar putea fi reprezentata de o variabila de cu totul alt tip. considerând ca studiem un esantion de indivizi diagnosticati cu o anumita maladie. este definita doar ordonarea între ele. din contra. Pentru a preciza ideile. sa consideram câteva exemple. putem calcula frecvente.

grupate dupa zilele saptamânii: Ziua saptamânii Vineri Sâmbata Duminica TOTAL Frecventa absoluta a cazurilor de infarct 6 4 8 36 O inspectare vizuala a numerelor din tabel nu este la fel de eficienta ca examinarea vizuala a unei diagrame cu bare sau a unei rozete. Sa consideram. existând unele diferente (datorate rotunjirilor). . În tabel. Probabil ca suntem de acord cu totii ca informatia reprezentata grafic este mai usor de „înteles”. Iar reprezentarea datelor într-o diagrama cu bare sau de tip rozeta este o operatiune usoara. în histograma si în rozete este prezentata aceeasi informatie. de exemplu. în cele doua rozete. În general se pleaca de la datele primare „caz dupa caz”. implementata în orice soft statistic sau de calcul tabelar. (O mica corectie: în diagrama de tip histograma este reprezentata o curba suplimentara. în diagrama cu bare. ca prezentarea rezultatelor depinde de softul folosit. diagrama de tip histograma a fost obtinuta cu Statistica. Doar în Excel putem pleca de la tabelul de mai sus.2. interpretata vizual. cazurile de infarct înregistrate într-un oras mare. Vom aborda ulterior interpretarea acestei curbe. În figurile de mai jos diagrama cu bare a fost obtinua cu Excel. iar diagramele de tip rozeta au fost obtinute cu Excel si EpiInfo 2000 . care însa este inutila în cazul nostru. poate fi extrem de eficienta pentru prezentarea unor date sau Ziua saptamânii Luni Marti Miercuri Joi Frecventa absoluta a cazurilor de infarct 4 4 7 3 rezultate.2. Exista si deosebiri în modul în care trebuie introduse datele.) II-4 Se poate observa. Reprezentari grafice Adeseori o reprezentare grafica.

si nu în ultimul rând la adecvarea textele titlurilor. din aceste date se obtin histogramele urmatoare: Sa remarcam ca într-o histograma clasele sunt intervale de numere reale. II-5 . Dreptunghiurile sunt de „latimi” egale.. fie relativa) clasei. Folosind Excel. . în asemenea situatii se practica gruparea valorilor în câteva intervale de valori. Trebuie sa fim atenti la corectitudinea tipului de diagrama. Evident. Statistica si EpiInfo 2000. iar abia apoi rezultatele gruparii sunt prezentate în histograme. sa presupunem ca am cântarit 240 de indivizi (a caror înaltime este de 1. toate „iluziile optice” pot fi folosite pentru a induce o perceptie eronata asupra unor date. Atunci când se construieste o diagrama de tip histograma. cât si diagramele sunt adecvate pentru „afisarea” variabilelor care au un numar „mic” de valori. C3 = „51-55 kg” — 20 cazuri. Reprezentarea grafica a datelor ar putea fi folositoare si pentru identificarea datelor eronate sau a valorilor aberante (outliers). Acest transfer bazându-se însa pe perceptia vizuala. pentru fiecare clasa. de orice fel ar fi.65 m) si am obtinut rezultate care au fost grupate în 16 intervale (grupuri. Asemenea reprezentari – tabelare sau diagramatice – nu sunt deloc potrivite pentru variabilele care au un numar mare de valori numerice (asa cum este cazul greutatii pacientilor exprimata în grame).. la falsificarea datelor prezentate. C2= „46-50 kg” — 10 cazuri. De exemplu. pe axa orizontala se marcheaza punctele de separare între clase si. iar într-o diagrama cu bare clasele sunt reprezentate prin etichete (labels). C4 = „56-60 kg” — 36 cazuri.) Sa încheiem aceasta sectiune subliniind ca reprezentarile grafice sunt folosite pentru accelerarea transferului de informatie de la om la om. distorsioneaza serios rezultatele analizelor statistice.Atât tabelele de frecvente. la modificarea nejustificata a scarilor de masurare. se ridica pe verticala un dreptunghi cu înaltimea proportionala cu frecventa (fie absoluta. C16= „116-120 kg” — 1 caz. etichetelor si legendelor de pe diagrama. Aceste valori aberante. Într-o histograma veritabila aria tuturor dreptunghiurilor este 1. clase). C15 = „111-115 kg” — 0 cazuri. anume: C1 = „41-45 kg” — 5 cazuri.

În practica media aritmetica nu este singura statistica utilizata pentru a indica „centrul” datelor. Mediana (Me) este „punctul” ce divide valorile în doua parti egale. softul biostatistic EpiInfo 2004 are un modul numit Analysis. aici se întâlneste comanda Means . În situatia în care toate valorile xi sunt distincte. mediana Me este media aritmetica a celor doua valori. În unele situatii. pentru a indica „centrul” mediei aritmetice si medianei îi este preferat modul. în modulul sau Basic Statistics/Tables contine o comanda Detailed Descriptive Statistics . xn . mediana Me coincide cu valoarea xm +1 care este situata exact în „mijloc”. + x n n Sa profitam de ocazie pentru a introduce al doilea înteles al cuvântului „statistica”. rezultatul este exprimat în aceleasi unitati de masura ca si valorile masurate. este dat de formula: Mo = 3 × Me − 2 × m . Dupa ce am ales un esantion – sa zicem de n indivizi – si am facut masuratorile necesare. Mai mult. Pentru date categoriale (nenumerice). si anume urmatorul: un numar calcula t folosind datele obtinute dintr-un esantion. modul M o. anume domeniul în care au fost plasate datele numerice. situate în mijloc. Statistici descriptive. suntem interesati în a studia o anumita caracteristica reprezentata printr-o variabila numerica. totusi nu prea mult – a se vedea figura. Pentru date numerice. ca de exemplu astfel: II-6 x1 ≤ x 2 ≤ .. x m si x m+1 . împreuna cu alte comenzi.. De exemplu. în Excel aceasta functie este numita AVERAGE() si are un singur argument.2. m= În formula de mai sus toate marimile masurate sunt tratate în mod „echitabil” (niciuna nu este tratata altfel decât celelalte). Aparitia – nu neaparat din eroare! – unei valori aberante (outlier) influenteaza pozitia mediei aritmetice. vom dispune de numerele reale x1 . Însa. Functii care calculeaza „instantaneu” media aritmetica sunt implementate în orice soft statistic sau de calcul tabelar. Ca un alt exemplu. atunci când n = 2m (numarul datelor este par). În cazul în care datele sunt ordonate. într-un studiu efectuat asupra unei populatii mari. x2 .. modul Mo este o statistica definita ca acea valoare ce are frecventa maxima... ≤ x n poate fi folosita si mediana pentru a indica „centrul”. apoi împartim suma la numarul total n al indivizilor din esantion): x1 + x2 + . De exemplu. grupate în grupul Statistics . Centrarea unei variabile numerice Sa consideram ca. Statistica. ca „centru” al datelor. Pare evident cum putem obtine acest centru m: vom calcula media aritmetica a numerelor (adica însumam numerele. în orice soft statistic media aritmetica este afisata împreuna cu alte statistici elementare..3. Aceste numere sunt reprezentate prin puncte pe axa reala (a se vedea figura urmatoare) iar intuitia ne spune ca acestea sunt distribuite „echilibrat” în jurul unui „centru”. care sunt considerate „strict necesare pentru analiza”.. .. Formula de mai sus ofera un prin exemplu de statistica. iar n = 2m + 1 (adica numarul datelor este impar).

Din contra. numita varianta seriei de date: V= 2 ∑ ( x k − m) . Formula ne da asanumita deviatie standard (abatere standard) a seriei de date: 2 ∑ ( x k − m) . s= E= ∑ | xk − m | . mediana. deviatia standard (a se vedea figura de mai jos). n −1 (la numitor apare numarul valorilor din seria de date. Aceasta statistica presupune ca a fost calculata anterior media m a seriei.Dev. Comanda Means (împreuna cu altele. n Deviatia medie este exprimata în aceeasi unitate de masura ca si valorile seriei de date. eventual o masura a acestei împrastieri.4. n Din punct de vedere matematic aceasta formula nu este potrivita (functia modul nefiind derivabila). atunci formula urmatoare satisface toate aceste conditii. Statistica ne ofera. Astfel aplicatia Excel dispune de functia STDEV() al carui unic argument este. are dezavantajul ca depinde doar de doua dintre valorile seriei. diferenta între valorile maxima si minima ale seriei de date: A = xmax − xmin . deviatia medie (abaterea medie) depinde „echitabil” de toate valorile seriei de date. varianta. domeniul în care a fost plasata seria de date. si nu ne informeaza deloc asupra modului în care datele sunt împrastiate între extreme. Acesta este motivul principal pentru înlocuirea sa cu urmatoarea statistica.2. Definitia precisa este urmatoarea: deviatia medie este media aritmetica a abaterilor valorilor fata de media lor. evident. În Excel avem la dispozitie multe alte functii statistice. grupate în grupul Statistics ) din modulul Analysis al aplicatiei EpiInfo 2000 ofera multe rezultate. si care este definita ca . la fel ca în cazul functiei AVERAGE(). diminuat cu 1). cu folosire evidenta. evidenta. care sa depinda „echitabil” de toate valorile. ele diferind între ele doar prin întelesul pe care-l acordam acestui termen. este amplitudinea notata cu A. deviatia standard Std. valorile minima si maxima (vezi figura urmatoare). Ca rezultat al ei se afiseaza media Mean. O prima statistica. abateri luate în valoare absoluta: pentru varianta. Daca dorim o statistica ale carei valori sa fie expr imate în aceeasi unitate de masura ca si valorile seriei. Amplitudinea ne informeaza asupra lungimii intervalului de variatie (în cazul unor date numerice). Statistici descriptive. în modulul Basic Statistics/Tables. Ambele formule de mai sus pentru s necesita foarte multe calcule. Deviatia Adeseori evaluarea împrastierii da telor în jurul centrului. este la fel de importanta ca si aflarea „centrului”. comanda Detailed Descriptive Statistics. incluzând media aritmetica. Multe dintre statisticile care exprima împrastierea sunt definite plecând de la notiunea de „deviatie”. însa acest lucru nu mai este valabil II-7 .. ele sunt implementate în soft. simultan sa aiba si proprietati matematice bune. ca de exemplu MEDIAN(). s= n Anumite ratiuni teoretice (care depasesc nivelul acestei prezentari si nu pot fi explicate acum) fac ca formula abaterii standard sa fie usor modificata în urmatoarea: 2 ∑ ( x k − m) .

GLIC_14. acest dreptunghi (box) a) fie contine 50% din datele seriei. Acestea sunt numerele care. — Modul Mo . — Mediana Me. care exprima evident lipsa de simetrie a seriei de date în jurul „centrului”. — linii (whiskers) extind dreptunghiul în ambele directii. Un exemplu de trei box-and-whisker plots realiza te cu Statistica este prezentat în figura de mai sus. de 75%). — Asimetria (skewness). pentru a le evalua centrul si împrastierea î n jurul centrului putem folosi urmatoarele statistici: — Media aritmetica m. GLIC_20. — Varianta V.) Lista anterioara nu este deloc exhaustiva. Ele arata distributii destul de dezechilibrate pentru valorile tuturor celor trei variabile GLIC_08. des folosita în reprezentarea grafica a datelor medicale. — un d reptunghi indica variabilitatea în jurul centrului. II-8 . — Amplitudinea A. cunoscuta ca box-and-whisker plot. (Terminologia dubla în limba româna este cauzata de adoptarea recenta a termenilor din engleza. anume cele aflate între cuartilele q1 si q3 . în practica sunt des utilizate si alte statistici: — Cuartilele q1 (prima. aceste linii indica domeniul de variatie (excluzându-se eventualele valori aberante. împreuna cu mediana Me = q2 (considerata ca a doua cuartila) divid datele seriei în patru parti egale. Întro astfel de diagrama: — o linie transversala sau un asterisc indica „centrul”. — Abaterea medie (deviatia medie) E. — Abaterea standard (deviatia standard) s. care sunt marcate special). b) fie contine datele seriei aflate între m − 2s si m + 2s . Sa încheiem aceasta trecere în revista prin prezentarea unui tip special de diagrama. de 25%) si q 3 (a treia.Sa rezumam cele de mai sus: daca dispunem de o serie de date numerice.

dar. este media unor valori ce pot fi doar 1 sau 0. Statistici descriptive pentru variabile calitative În cazul variabilelor cantitative datele sunt numerice. prin asa -numita varianta a valorii alese.2. în aceasta situatie. prin urmare putem calcula media lor – prin operatii aritmetice de adunare si împartire – sau abaterea standard (pentru care calculele sunt ceva mai complexe). n Pentru valoarea aleasa. adaptate pentru valorile x k = 0 sau 1. Daca prezenta valorii este constatata la a indivizi ai esantionului. (De fapt. nu avem nicio justificare în a face asa ceva.) Prin urmare este o statistica de „centrare”. care nu este altceva decât eticheta/etichetele având frecventa maxima. valorile sunt etichete. II-9 . prin raportare vom obtine imediat frecventa relativa a acestei valori: a f = . Împrastierea este evaluata. definita prin: V = f (1 − f ) sau prin deviatia standard a valorii: s= f (1 − f ) . modul. iar absenta prin 0. În cazul variabilelor calitative însa. prezentate în paragraful anterior. Data o variabila calitativa. în acest caz. evident. acest raport joaca acelasi rol pe care-l joaca media aritmetica în cazul variabilelor cantitative.) Adevarata statistica „de centrare” pentru întreaga serie de date (asadar pentru ansamblul valorilor etichete) este. pentru fiecare individ din esantion.5. am putea fixa o valoare particulara a ei si apoi. am putea nota prezenta respectiv absenta acestei valori. Prezenta este notata de obicei prin 1. (Este vorba de fapt de formulele obisnuite. iar operatiile aritmetice nu sunt definite! Am putea înlocui etichetele prin numere – de exemplu am putea recodifica eticheta „admis” prin 1 iar eticheta „respins” prin 0 – si apoi sa facem calculele cu aceste numere.

Y este efectuat în Excel prin intermediul . cel în care studiem doua caracteristici: se înregistreaza.. fie de 1) avem de-a face cu o puternica legatura liniara între seriile de date. yn fie ca un „nor” de n puncte în plan (a se vedea figura de mai sus). Valorile variabilei Y y1 y2 .. Covarianta între cele doua serii de date se calculeaza cu formula C= 1 n ∑ (x k − m X )( y k − mY ) . n Valorile variabilei X x1 x2 . II-10 unde s X respectiv sY sunt abaterile standard ale celor doua serii de date..6.. Sa consideram..Y = ∑ ( xi − m X )( yi − mY ) 2 2 ∑ ( xi − m X ) ⋅ ∑ ( yi − mY ) . În cazurile extreme (adica atunci când numarul rX . pe care o putem extrapola (asumându-ne riscuri!) la o legatura liniara: Y = αX + β între variabile. (Se observa ca atunci când seria de date Y coincide cu seria de date X.. Sa facem observatia ca formula de calcul a coeficientului de corelatie Pearson poate fi rescrisa în felul urmator: rX . Iar fiecare persoana ar putea sa-l interpreteze. Covarianta si corelatia Rare sunt studiile efectuate asupra unei populatii în care suntem interesati în a studia doar o anumita caracteristica (reprezentata printr-o variabila). Calculul destul de dificil al numarului rX .) Corelatia (liniara) între cele doua serii de date este definita prin asa-numitul coeficient de corelatie Pearson: rX ..Y este apropiat fie de –1. Oare exista vreo legatura între aceste doua variabile? Si daca da. oare putem exprima aceasta legatura printr-o formula liniara? La prima vedere se pare ca raspunsurile la aceste întrebari sunt fie „da”. Sa notam cu m X respectiv mY mediile celor doua serii de date. k . În cazul în care (avem impresia ca) punctele sunt aliniate. pentru fiecare nou nascut.. dupa cum doreste. începem prin a alege un esantion. atunci când studiem legatura între doua variabile numerice. ca un „da” sau un „nu”! Una dintre posibilitatile de a da asemenea raspunsuri consta în folosirea coeficientului de corelatie (Pearson). vârsta mamei (în ani) si greutatea noului nascut (în grame). xn yk . apoi înregistram datele provenite din masuratorile efectuate asupra indivizilor.. Însa modul binar de a raspunde la întrebari nu este specific statisticii! În cadrul statisticii se dau raspunsuri diversificate. al carui calcul se bazeaza pe calculul covariantei. fie „nu”. expresia covariantei C devine expresia variantei V.. Acest numar este între –1 si 1. de exemplu exprimate printr-un numar ce exprima intensitatea legaturii între cele doua variabile (?).. În practica. ne exprimam spunând ca exista o corelatie liniara între variabilele X si Y. datele rezultate sunt prezentate fie într-un tabel: Individul 1 2 ..2. printr-un exemplu. cazul cel mai simplu.Y = C s X sY xk .

asa cum ar fi. evident.3 37. ele sunt numere de ordine.9 Prin calcul (cu functia CORREL() din Excel) obtinem (vezi figura de mai jos): rX . Ca un caz concret. Coeficientul de corelatie Pearson.0 37.912 care ne indica o legatura liniara puternica între puls si temperatura axilara. obtinându-se rezultatele din tabelul urmator: i 1 2 3 4 5 6 7 8 9 10 Pulsul x k 75 80 70 90 75 85 80 90 100 95 Temperatura axilara y k 38. II-11 .4 38. domeniile în care am depus cele doua serii de date. În situatii de acest fel se va calcula. dimpotriva. sa pre supunem ca pentru 10 indivizi – alesi în esantion – au fost masurate temperatura axilara (în °C) si pulsul (în numar de oscilatii/minut).Y = 0.6 38.functiei CORREL().5 38. Coeficientul de corelatie Pearson poate fi calculat doar daca dispunem de date numerice.1 38. Sa consideram acum ca valorile variabilelor X si Y nu pot fi obtinute prin masuratori. Aceasta functie are doua argumente care sunt.5 36. cu formula ro = 1 − ∑ dk N ( N 2 − 1) 2 în care d k este diferenta rangurilor obtinute de concurentul k . rangurile acordate concurentilor de catre doi arbitri. chiar daca este calculabil.5 39. asa-numitul coeficient de corelatie Spearman. nu ofera o interpretare adecvata a „concordantei” între evaluarile arbitrilor. de exemplu.2 37.911885 ≈ 0.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->