Sunteți pe pagina 1din 45

EXERCIȚII 2.1 – 2.

35

Capitolul 2

METODE DESCRIPTIVE PENTRU


DATE CONTINUE

18.02.2018 1
O clasă de măsurători sau o caracteristică asupra căreia s-au făcut observaţii sau
măsurători este numită variabilă.
Exemple: greutatea, înălţimea şi tensiunea arterială.

Să presupunem că avem un set de valori numerice pentru o variabilă:

1. Dacă fiecare element din acest set se situează doar în nişte puncte izolate,
vom avea un set de date discrete.
De exemplu: rasa, sexul, numărătoarea evenimentelor sau anumite
tipuri de clasificări artificiale.

2. Dacă fiecare element din acest set poate ca teoretic să se situeze oriunde pe
scala numerică, avem un set de date continue.
Exemple pot fi tensiunea arterială, nivelul colesterolului sau timpul
până la un anumit eveniment, cum este decesul.

18.02.2018 2
2.1 METODE TABELARE ŞI GRAFICE

2.1.1 Grafice de distribuţie dispersă pentru o variabilă

În figura următoare este prezentată rata brută a deceselor pentru toate cele 50 de
state şi districtul Columbia (de la o valoare minimă de 393,9 la 100.000 de persoane
la o valoare maximă de 1242,1 la 100.000 de persoane.

Rata la 100.000 de persoane


Figura 2.1 Rata brută a deceselor în Statele Unite în 1988.

Un avantaj al graficului de distribuţie dispersă pentru o variabilă este acela că fiecare


observaţie este reprezentată individual, nefiind pierdută vreo informaţie.
Un dezavantaj este acela că poate fi dificil de analizat (citit) şi de construit, dacă valorile
sunt apropiate unele de altele.
18.02.2018 3
2.1.2 Distribuţia Frecvenţelor
Dacă setul de date este mic lucrurile sunt simple, pentru că putem aranja aceste câteva
numere şi să le scriem, de exemplu, în ordine crescătoare.

Pentru seturi de date mai mari, un instrument util pentru centralizare este formarea unui
tabel de frecvenţe sau de distribuţii de frecvenţe.

Aceasta este un tabel ce prezintă numărul de observaţii, numit frecvenţă, situate în


anumite domenii de valori ale variabilei investigate.

Exemplul 2.1 Tabelul 2.1 oferă numărul de


Vârsta Numărul de decese
decese după vârstă în Minnesota în 1987.
<1 564
1–4 86
5–14 127
TABELUL 2.1 15–24 490
25–34 667
35–44 806
45–54 1.425
55–64 3.511
65–74 6.932
75–84 10.101
85+ 9.825
18.02.2018 Total 34.524 4
Dacă setul de date trebuie grupat pentru a forma o distribuție de frecvențe, lucrurile sunt
mai complicate și trebuie adoptată o strategie adecvată pentru a obține un rezultat bun.

În primul rând, nu există o regulă clară asupra numărul de intervale sau clase.

În general, este acceptabil să folosim între 5 și 15 intervale.

Acest lucru depinde și de numărul observațiilor, putând să alegem mai multe


intervale pentru seturi mari de date.

Lățimile intervalelor trebuie de asemenea să fie stabilite.

În general intervalele ar trebui să aibă aceeași lățime.

Această lățime comună 𝒘 se determină împărțind domeniul de valori (amplitudinea) 𝑹 la


𝒌, numărul intervalelor:
𝑹
𝒘=
𝒌
unde domeniul 𝑹 este diferența dintre cea mai mică și cea mai mare valoare în setul de
date.
18.02.2018 5
Exemplul 2.2 La un centru de îngrijire
pentru copii s-au determinat, pe un
număr de 57 de subiecți, următoarele
greutăți (în livre):

Din setul de date de mai sus avem:


Cel mai mic număr este 12 și cel mai mare este 79, astfel că 𝑅 = 79 − 12 = 67

67
Dacă vom folosi 5 intervale, vom avea 𝑤= = 13,4
5
67
și dacă folosim 15 intervale, vom avea 𝑤 = 15 = 4,5

Considerațiile discutate până acum conduc la următoarele 7 intervale: 10–19


20–29
Determinarea frecvențelor sau a numărului de valori (sau 30–39
măsurători) pentru fiecare interval este mai degrabă o 40–49
problemă de examinare a valorilor una câte una și plasarea 50–59
lor corespunzător intervalului. 60–69
18.02.2018
70–79 6
Un pas opțional, însă recomandabil, în formularea distribuției frecvențelor, este de a
prezenta proporția sau frecvența relativă, suplimentar față de frecvența (absolută) a
fiecărui interval.
Aceste proporții, definite prin
frecvenţa
frecvenţa relativă =
numărul total de observaţii

sunt prezentate în Tabelul 2.2 și vor fi foarte utile dacă vrem să comparăm două seturi de
date de mărimi diferite.

TABELUL 2.2
Intervalul de Pontaj Frecvență Frecvenţă
greutate (lb) (absolută) Relativă (%)
10–19 ⑤ 5 8,8
20–29 ⑤⑤⑤④ 19 33,3
30–39 ⑤⑤ 10 17,5
40–49 ⑤⑤③ 13 22,8
50–59 ④ 4 7,0
60–69 ④ 4 7,0
70–79 ② 2 3,5
Total 57 100,0

18.02.2018 7
2.1.3 Histograma și Poligonul frecvențelor

Un mod convenabil de a prezenta tabelul de frecvențe este acela prin intermediul


histogramelor și/sau poligoanelor de frecvențe.

Figura 2.2 Distribuția greutății celor 57 de copii.

O histogramă ne prezintă grafic distribuția măsurătorilor.

Dacă se folosesc intervale disjuncte, precum cele din Tabelul 2.2, axa orizontală
este marcată cu limitele reale.
O limită reală este media limitei superioare a unui interval și cea inferioară a
intervalului următor mai mare.
18.02.2018 8
Dacă vrem să comparăm formele histogramelor reprezentând seturi diferite de date,
sau dacă intervalele au lățimi diferite, înălțimea fiecărei bare rectangulare ar trebui să
reprezinte densitatea intervalului

Densitatea intervalului este definită ca


frecvenţa relativă (%)
densitatea =
laţimea intervalului
Unitatea pentru densitate este procent pe unitate (de măsurare): de exemplu, procent
pe an.

Dacă prezentăm densitățile pe axa verticală, frecvența relativă este reprezentată de aria
barei rectangulare și aria totală de sub histogramă este 100%.

Pentru a prezenta grafic poligonul


frecvențelor, mai întâi plasăm câte un punct
în mijlocul bazei superioare a fiecărei bare
rectangulare.

Punctele sunt unite prin linii drepte.

Poligonul frecvențelor poate fi prezentat şi


fără histogramă pe același grafic. Figura 2.3 Distribuția greutăților
celor 57 de copii.
18.02.2018 9
Exemplul 2.4 Tabelul 2.4 furnizează date privind vârsta și procentul de saturație a bilei
pentru 31 de pacienți de sex masculin.

TABELUL 2.4

Folosind intervale de câte 10%, setul de date poate fi reprezentat printr-o histogramă
sau un poligon de frecvențe așa cum se vede în Figura 2.4.

Figura 2.4 Poligonul frecvențelor


pentru procentul saturației bilei la
bărbați
18.02.2018 10
2.1.4 Graficul frecvențelor cumulative și Centilele
Frecvența relativă cumulativă, sau procentajul cumulativ, reprezintă procentajul
persoanelor cu o măsurătoare mai mică sau egală cu limita superioară a intervalului de
grupare (clasei).

Datele din Tabelul 2.2 pentru distribuția greutăților celor 57 de copii sunt reproduse și
completate cu o coloană pentru frecvența cumulativă relativă în Tabelul 2.6. Această
ultimă coloană este ușor de construit; veți acumula succesiv frecvențele relative pentru
fiecare interval.

TABELUL 2.6
Intervalul de Frecvenţă Frecvenţă Frecvenţă cumulativă
greutate (lb) Relativă (%) relativă (%)
10–19 5 8,8 8,8
20–29 19 33,3 42,1
30–39 10 17,5 59,6
40–49 13 22,8 82,4
50–59 4 7,0 89,4
60–69 4 7,0 96,4
70–79 2 3,5 99,9≃ 100,0
Total 57 100,0

Figura 2.6 Distribuția cumulativă


a greutăților celor 57 de copii
18.02.2018 11
Graficul frecvenței cumulative furnizează o clasă importantă de informații statistice,
cunoscute drept centile și ranguri de centile.

Centila de 90%, de exemplu, este valoarea numerică ce depășește 90% din valorile din
setul de date și este depășită de doar 10% dintre ele.

Scorul de 50% este denumit mediană.

Pentru a obține mediana, pornim de la


punctul de 50% pe axa verticală și
trasăm o linie orizontală până întâlnim
curba frecvenței cumulative.
Proiecția acestei intersecții
pe axa orizontală este mediana.
Figura 2.7 Distribuția veniturilor familiilor din US în 1983

Figura 2.8 Curbele (a) greutăților și (b) înălțimilor


18.02.2018 12
2.1.5 Diagrame stem-and-leaf
O astfel de diagramă (tulpină și frunze) este o reprezentare grafică în care punctele sunt
grupate astfel încât să putem vedea aspectul distribuției datelor.

Acest lucru este convenabil mai ales când avem un set mic de date.

Diagramele tulpină și frunze sunt similare tabelelor de frecventă și histogramelor, dar


ele prezintă totodată și fiecare valoare observată.

Datele asupra greutății copiilor din Exemplul 2.2 sunt folosite aici pentru a ilustra
construcția unei astfel de diagrame.

Greutățile (în livre) ale celor 57 de copii din grădiniță sunt următoarele:

Figura 2.10 O diagramă tulpină și frunze tipică

18.02.2018 13
2.2 METODE NUMERICE
În primul rând, să presupunem că avem n măsurători într-un set de date.
De exemplu, iată un set de date: 8,2,3,5 cu 𝑛 = 4.

De obicei notăm aceste numere cu 𝑥𝑖 ; adică pentru exemplul de mai sus avem
𝑥1 = 8, 𝑥2 = 2, 𝑥3 = 3 și 𝑥4 = 5.

Dacă adunăm toți 𝑥𝑖 obținem suma 18.


Acest proces de însumare este înregistrat ca σ 𝑥 = 18.
Cu notarea aplicată sumării, suntem capabili să definim un număr de centralizări
numerice importante, începând cu media aritmetică.

2.2.1 Media
Fiind dat un set de date de mărime n, x1 , x2 , … , xn , media aritmetică a acestui set se
notează cu x și se calculează cu:
σ𝑥
𝑥=
𝑛

18.02.2018 14
Ocazional, datele sunt prezentate sub forma unor tabele de frecvențe.

În aceste cazuri, media x poate fi aproximată cu formula:


σ 𝑓𝑚
𝑥≃
𝑛
unde f reprezintă frecvența (adică numărul de observații dintr-un interval),
m este punctul central al intervalului și sumarea se face pe toate intervalele.

Punctul central al unui interval (caracteristica intervalului de grupare) este obținut


prin calcularea mediei limitelor minimă și maximă ale acestuia.
De exemplu, dacă primele trei intervale sunt
10-19
20-29
30-39
punctele centrale vor fi
9,5 + 19,5
= 14,5
2
19,5 + 29,5
= 24,5
2
29,5 + 39,5
= 34,5
2
Acest proces de calcul al mediei 𝑥 folosind datele Tabelului 2.3 este ilustrat în Tabelul 2.7.
18.02.2018 15
TABELUL 2.7 Intervalul de greutate Frecvența, f Punctul central, m fm
10-19 5 14,5 72,5
20-29 19 24,5 465,5
30-39 10 34,5 345,0
40-49 13 44,5 578,0
50-59 4 54,5 218,0
60-69 4 64,5 258,0
70-79 2 74,5 149,0
Total 57 2086,5

2086,5
𝑥≃ = 36,6 𝑙𝑖𝑣𝑟𝑒
57

Dacă folosim toate valorile individuale, vom obține 𝑥 = 36,7 𝑙𝑖𝑣𝑟𝑒.

O caracteristică de interes este simetria sau lipsa de simetrie a distribuției și este


recomandat ca pentru distribuțiile foarte pozitiv asimetrice (pozitiv – înclinat spre
dreapta), analizele să fie făcute la scală logaritmică.

După obținerea valorii medii la scală logaritmică, vom anti-logaritma (cologaritma) și


ne întoarce astfel la scala originală de măsură.

Rezultatul este numit în acest caz medie geometrică cu transformare logaritmică.


18.02.2018 16
De exemplu, considerând setul de date
8, 5, 4, 12, 15, 7, 28
cu o marjă neobișnuit de mare de măsurare, putem remarca efectul utilizării scalei
logaritmice în Tabelul 2.8.
TABELUL 2.8
𝑥 𝑙𝑛 𝑥
Media este 79 8 2,08
𝑥= = 𝟏𝟏, 𝟑 5 1,61
7 4 1,39
12 2,48
15 2,71
în timp ce folosind scala logaritmică obținem 7 1,95
σ ln 𝑥 15,55 28 3,33
= = 2,22 79 15,55
𝑛 7

ceea ce conduce la o medie geometrică de 9,22

mai puțin afectată de măsurătorile cu valori mari.

Media geometrică (cu transformare logaritmică)este utilizată cu precădere în


cercetarea microbiologică și cea serologică, la care distribuțiile sunt de cele mai
multe ori pozitiv asimetrice.
18.02.2018 17
Exemplul 2.7
În unele studii, numărul important este momentul unui eveniment, cum ar fi decesul;
este numit durata de viață.
Termenul durata de viață este convențional utilizat chiar dacă primul eveniment poate
să nu fie fatal, cum ar fi o recidivă sau apariția primului simptom al bolii.
Similar cazurilor privind veniturile sau nivelul anticorpilor, distribuțiile duratei de
viață sunt asimetrice pozitiv; ca urmare, datele sunt deseori centralizate folosind
mediana sau media geometrică.
Următorul exemplu este unul tipic.
Timpii de vindecare (remisiune) ai unui număr de 42 de pacienți cu leucemie acută au
fost preluați din verificările clinice efectuate pentru a stabili capacitatea
medicamentului 6-mercaptopurină (6-MP) de a menține remisiunea.
Pacienții au fost randomizați pentru a primi fie 6-MP, fie placebo.

Studiul s-a încheiat după un an.


Pacienții au durate diferite de supraveghere, deoarece ei au fost încadrați în studiu
secvențial la diferite momente de timp.
18.02.2018 18
Timpul până la recidivă, în săptămâni, pentru 21 de pacienți din grupul placebo a fost

Media este
σ𝑥
𝑥= = 𝟖, 𝟔𝟕 săptămâni
𝑛
și pentru scala logaritmică
σ ln 𝑥
= 1,826
𝑛
ceea ce conduce la o medie geometrică de 6,21, care, în general, este mai puțin
afectată de măsurătorile mari.

18.02.2018 19
2.2.2 Alte măsuri de locație
O altă măsură de locație utilă este mediana.

Dacă observațiile din setul de date sunt aranjate în ordine crescătoare sau
descrescătoare, mediana este observația mijlocie, care împarte setul în două
jumătăți egale.

Dacă numărul observațiilor 𝑛 este impar va exista o singură mediană, cel de-al
𝑛+1 număr de la oricare din capetele secvenței ordonate.
1
2

Dacă 𝑛 este par nu există o observație strict centrală, iar mediana se definește ca
fiind media celor două observații centrale, cea de-a 12𝑛 și cea de-a 12 𝑛+1 , de la
oricare capăt al seriei ordonate.

Cele două seturi de date 8,5,4,12,15,7,28 și 8,5,4,12,15,7,49 , de exemplu, au medii


diferite dar aceeași mediană, 8.

Ca urmare, avantajul medianei ca o măsură a locației este aceea că este mai puțin
afectată de observațiile extreme.

18.02.2018 20
Totuși, mediana are unele dezavantaje în comparație cu media:
1. Ea nu ține cont de magnitudinea exactă a celor mai multe observații și este, ca
urmare, mai puțin eficientă decât media, întrucât pierde informații;
2. Dacă două grupuri de observații sunt cumulate, mediana grupului combinat
nu pot fi exprimată prin intermediul medianelor celor două grupuri
component, în timp ce media poate fi exprimată prin mediile grupurilor.
Dacă grupurile componente sunt de volumele (mărimile) 𝑛1 și 𝑛2 și au
respectiv mediile 𝑥1 și 𝑥2 , media grupului combinat este

𝑛1 𝑥1 + 𝑛2 𝑥2
𝑥=
𝑛1 + 𝑛2

În cazul seturilor mari de date, mediana necesită mai mult timp de calcul decât media
și nu este utilizată frecvent în tehnicile statistice minuțioase (este totuși utilă ca o
măsură descriptivă pentru distribuțiile asimetrice).

O a treia măsură a locației este moda.


Ea este valoarea la care poligonul frecvențelor atinge un vârf (maxim).
18.02.2018 21
2.2.3 Măsuri ale Dispersiei
Când media 𝒙 ഥ a unui set de date a fost determinată, următoarea măsură de interes
deosebit este gradul de variație sau dispersia în jurul acestei medii.

Sunt toate valorile x mai degrabă apropiate de 𝒙


ഥ sau există unele dintre ele care sunt
dispersate mult în fiecare direcție?

Această întrebare este importantă din motive pur descriptive, dar este de asemenea
importantă deoarece măsurarea dispersiei sau variabilității joacă un rol central în
metodele de deducție statistică descrise în capitolele următoare.

Un candidat evident pentru măsurarea dispersiei este amplitudinea (domeniul) R,


definită ca diferență dintre cea mai mare și cea mai mică valoare.

Totuși, sunt câteva dificultăți privind folosirea amplitudinii.


Prima este aceea că amplitudinea este determinată prin intermediul a doar două
valori din setul original de observații.
A două este aceea că interpretarea amplitudinii depinde într-un mod complicat de
numărul observațiilor, ceea ce este o caracteristică nedorită.

18.02.2018 22
O abordare alternativă este aceea de a folosi deviațiile (abaterile) de la medie, x − x;
evident, cu cât este mai mare variația în setul de date, cu atât mai mare tinde să fie
magnitudinea acestor deviații.

Din aceste deviații, varianța (dispersia) s2 se calculează prin însumarea deviațiilor


ridicate la pătrat și împărțirea sumei la 𝑛 − 1:
σ 𝑥−𝑥 2
2
𝑠 =
𝑛−1

Ar trebui reținut că:


• Nu trebuie folosită media deviațiilor pentru că
෍ 𝑥−𝑥 =0

• Considerarea mediei valorilor absolute, de exemplu


σ 𝑥−𝑥
𝑛
poate fi o posibilitate.
Totuși, această măsură are neajunsul de a fi dificil de manipulat matematic.
18.02.2018 23
Dispersia 𝑠 2 (varianța) este măsurată prin pătratul unităților în care 𝑥 este măsurată.
De exemplu, dacă 𝑥 este timpul în secunde, varianța este măsurată în sec 2 .

Este convenabil, ca urmare, să avem la dispoziție o măsură a variației exprimată în


aceleași unități ca 𝑥 și acest lucru poate fi realizat ușor extrăgând rădăcina pătrată din
varianță.

Această cantitate este abaterea medie pătratică σ 𝑥−𝑥 2


(deviația standard), iar formula de calcul este 𝑠=
𝑛−1

TABELUL 2.9
𝑥 𝑥−𝑥 𝑥−𝑥 2
Să considerăm din nou setul de date 8 0 0
8, 5, 4, 12, 15, 5, 7 5 -3 9
4 -4 16
12 4 16
Calculul dispersiei 𝑠 2 și al abaterii medii 15 7 49
pătratice 𝑠 este ilustrat în Tabelul 2.9. 5 -3 9
7 -1 1
σ 𝑥=56 σ 𝑥 − 𝑥 2 =100
𝑛=7 𝑠 2 =100/6=16,67
18.02.2018 𝑥=8 𝑠= 16,67=4,08 24
Dacă media nu este un număr întreg, să spunem 𝑥=10/3,ҧ va trebui să fie rotunjit și
astfel apar erori în extragerea acestei valori din fiecare 𝑥.

Această dificultate poate fi ușor depășită dacă folosim următoarea formulă pentru
calculul dispersiei:
σ 2 σ 2
𝑥 − 𝑥 /𝑛
𝑠2 =
𝑛−1

Exemplul anterior este reluat în Tabelul 2.10, conducând la rezultate identice.

548 − 56 2 Τ7 Tabelul 2.10


𝑠2 = = 16,67
6 𝑥 𝑥2
8 64
5 25
4 16
12 144
15 225
5 25
7 49
56 548

18.02.2018 25
Când datele sunt în forma grupată a unei tabele de frecvențe, dispersia este calculată folosind
următoarea formulă modificată:
2
σ 𝑓𝑚2 − σ 𝑓𝑚 2 /𝑛
𝑠 ≃
𝑛−1
unde f este frecvența intervalului, m este punctul central al intervalului calculat ca în
Secțiunea 2.2.2 și sumarea se face pe toate intervalele.

Această aproximație este prezentată în Tabelul 2.11.

Tabelul 2.11 Interval de f m m2 fm fm2


greutate
10-19 5 14,5 210,25 72,5 1051,25
20-29 19 24,5 600,25 465,5 11404,75
30-39 10 34,5 1190,25 345,0 11902,50
40-49 13 44,5 1980,25 578,0 25743,25
50-59 4 54,5 2970,25 218,0 11881,00
60-69 4 64,5 4160,25 258,0 16641,00
70-79 2 74,5 5550,25 149,0 11100,50
Total 57 2086,5 89724,25

2
89724,25 − 2086,5 2 /57
𝑠 ≃ = 238,35 𝑠 ≃ 15,4 livre
56

Dacă se folosesc toate valorile individuale, vom obține 𝑠 = 15,9 livre.


18.02.2018 26
2
σ 𝑥 2 − σ 𝑥 2 /𝑛
𝑠 =
𝑛−1

𝑛 − 1  grade de libertate = numărul informațiilor primare conținute în eșantion

Explicația reală pentru 𝑛 − 1 poate fi înțeleasă în felul următor.

Abaterea medie pătratică 𝑠 este o măsură a variabilității, o măsură a distanței medii dintre
numerele din eșantion …
… și există 𝑛 − 1 goluri între 𝑛 numere.

Când 𝑛 = 2 avem un singur gol (sau distanță între cele două numere) și deci pentru 𝑛 = 1 nu
există variabilitate de măsurat.

18.02.2018 27
2.3 CAZUL SPECIAL AL DATELOR BINARE

Dacă fiecare element din setul de date se plasează în doar câteva puncte izolate, avem de a
face cu un set de date discrete.

Un caz special al datelor discrete îl reprezintă datele binare, când fiecare observație poate
avea doar două valori posibile; exemple pot fi sexul și o indicație dacă tratamentul a dus la
succes sau eșec.

Putem, în general, să redenumim cele două tipuri de rezultate drept pozitiv (+) și negativ (–).

Un rezultat al observațiilor experimentale este pozitiv dacă se încadrează în categoria primară


și negativ dacă se încadrează în cealaltă categorie.
Proporția se definește ca în Capitolul 1:
𝑥
𝑝=
𝑛
unde 𝑥 este numărul observațiilor pozitive, iar 𝑛 este volumul eșantionului.

Totuși se poate exprima și ca


σ 𝑥𝑖
𝑝=
𝑛
în care 𝑥𝑖 este „1” dacă rezultatul 𝑖 este pozitiv și „0” dacă este negativ.

Cu alte cuvinte, proporția unui eșantion poate fi considerată ca un caz special al mediei
eșantionului când datele sunt codificate ca 0 și 1.
18.02.2018 28
Ce înțelegem în acest caz prin varianță sau dispersie și cum putem să o măsurăm?

Să scriem dispersia 𝑠 2 folosind formula alternativă din Secțiunea 2.2, însă la numitor să folosim 𝑛 în loc de 𝑛 − 1
(acest lucru va conduce la o diferență mică pentru că aproape întotdeauna operăm cu eșantioane
mari de date binare):
σ 𝑥𝑖2 − σ 𝑥𝑖 2 Τ𝑛
𝑠=
𝑛
Întrucât 𝑥𝑖 este binar, cu „1” dacă rezultatul 𝑖 este pozitiv sau „0” dacă este negativ, avem 𝑥𝑖2 = 𝑥𝑖
și
2
σ 𝑥𝑖2 − σ 𝑥𝑖 2 Τ𝑛 σ 𝑥𝑖 σ 𝑥𝑖
𝑠 = = 1− =𝑝 1−𝑝
𝑛 𝑛 𝑛

Cu alte cuvinte, mărimea statistică 𝑝 1 − 𝑝 poate fi folosită în loc de 𝑠 2 ca o măsură a varianței; argumentarea
logică poate fi văzută în modul descris în continuare.

Mai întâi, cantitatea 𝑝 1 − 𝑝 , cu 0 ≤ 𝑝 ≤ 1, atinge valoarea sa maximă pentru 𝑝 = 0,5.

0,1 0,9 = 0,09



0,4 0,6 = 0,24
De exemplu, 0,5 0,5 = 0,25
0,6 0,4 = 0,24

0,9 0,1 = 0,09

Valorile 𝑝 1 − 𝑝 sunt mari în vecinătatea lui 𝑝 = 0,5 și scad către ambele capete ale intervalului de valori 𝑝.
18.02.2018 29
2.4 COEFICIENȚI DE CORELAȚIE
Metodele discutate în acest capitol au fost direcționate către analizele datelor pentru
care s-a făcut o singură măsurătoare continuă pentru fiecare element din eșantion.
Totuși, în multe investigații avem de-a face cu două măsurători, atunci când eșantionul
constă din perechi de valori și obiectivul cercetării este acela de a găsi modul de
asociere între aceste variabile.
De exemplu, care este legătura dintre greutatea mamei și greutatea copilului său?
În Secțiunea 1.3 ne-am concentrat pe asocierea dintre diferite variabile dihotomice.

De exemplu, dacă vrem să investigăm legătura dintre o afecțiune și un anumit factor de


risc, putem calcula rația de șansă/risc (odds ratio) pentru a reprezenta intensitatea
legăturii.
În această secțiune vom opera cu măsurători continue și metoda este denumită
analiză de corelație.
Corelația este un concept care se referă la implicarea comună în asociere, cum ar fi
afirmația „înălțimea și greutatea sunt corelate”.
Procedura statistică va oferi termenului un înțeles tehnic; putem de fapt calcula un
număr care ne descrie tăria asocierii.
18.02.2018 30
Cum operăm cu corelația dintre două variabile continue?
Trebuie să facem mai întâi distincția dintre o relație deterministă (stocastică) și una
statistică.
Pentru o relație deterministă, valorile celor două variabile sunt legate printr-o formulă
matematică exactă.

De exemplu, să considerăm legătura dintre costul spitalizării și numărul de zile de


internare în spital.

Dacă costul este de 100$ la internare și 150$ pe zi, putem calcula ușor costul total având
numărul zilelor de spitalizare, …
… iar dacă setul de date este reprezentat grafic, să spunem costul în funcție de numărul
zilelor, toate punctele se vor situa exact pe o linie dreaptă.

Spre deosebire de o relație deterministă, o relație statistică nu este perfectă.

În general, punctele nu se vor plasa exact pe nicio linie sau curbă.

18.02.2018 31
Tabelul 2.12 oferă valorile pentru greutatea TABELUL 2.12
la naștere (𝑥) și creșterea în greutate între 𝑥 (uncii / g) 𝑦 (%) 𝑥 (uncii / g) 𝑦 (%)
112 / 3175 63 81 / 2296 120
zilele 70 și 100 de viață, exprimată în 111 / 3147 66 84 / 2381 114
procente față de greutatea la naștere (𝑦) 107 / 3033 72 118 / 3345 42
pentru 12 nou-născuți. 119 / 3374 52 106 / 3005 72
92 / 2608 75 103 / 2920 90
80 / 2268 118 94 / 2665 91

Dacă prezentăm grafic fiecare pereche de numere (𝑥, 𝑦) printr-un punct pe o diagramă,
obținem Figura 2.13.

Figura 2.13 Diagrama de


împrăștiere pentru datele
privind evoluția greutății
după naștere.

18.02.2018 32
Punctele nu se situează exact pe o linie dreaptă, ci mai degrabă au o împrăștiere în jurul
unei linii, situație tipică pentru relațiile statistice.

Din cauza acestei împrăștieri a punctelor, diagrama este numită diagramă de împrăștiere
(scatter diagram).

Poziția punctelor oferă o informație asupra direcției ca și asupra intensității legăturii


investigate; dacă punctele tind să se orienteze din colțul stânga-sus către colțul dreapta-
jos, avem o asociere negativă.

Legătura devine din ce în ce mai slabă cu cât distribuția punctelor este mai puțin
apropiată de linie …

… și devine virtual fără corelație când distribuția aproximează un cerc sau oval
(metoda nu este eficientă pentru măsurarea legăturilor care nu sunt liniare).

18.02.2018 33
2.4.1 Coeficientul de corelație al lui Pearson
Să considerăm diagrama de împrăștiere (diagrama primară de distribuție a datelor)
prezentată în Figura 2.14, unde am plasat originea sistemului de axe în punctul (𝑥, 𝑦) și
am obținut astfel patru cadrane 𝐼, 𝐼𝐼, 𝐼𝐼𝐼 și 𝐼𝑉.

Figura 2.14 Diagrama de împrăștiere


reprezentată în cadrane.

Se poate observa că
• În cadranele 𝐼 și 𝐼𝐼𝐼, 𝑥−𝑥 𝑦−𝑦 >0
astfel că pentru asocieri pozitive avem σ 𝑥−𝑥 𝑦−𝑦 >0

Mai mult, această sumă este mare pentru legături puternice deoarece cele mai
multe puncte, fiind grupate în jurul liniei, sunt în aceste cadrane.
18.02.2018 34
• Similar, în cadranele 𝐼𝐼 și 𝐼𝑉, 𝑥−𝑥 𝑦−𝑦 <0
ceea ce conduce la σ 𝑥−𝑥 𝑦−𝑦 <0 pentru asocieri negative.

Cu o standardizare convenabilă a datelor, obținem


σ 𝑥−𝑥 𝑦−𝑦
𝑟=
σ 𝑥−𝑥 2 σ 𝑦−𝑦 2
astfel că −𝟏 ≤ 𝒓 ≤ 𝟏

Această mărime statistică, 𝑟, numită coeficient de corelație, este o măsură obișnuită


pentru intensitatea legăturii statistice; iată o relație mai comodă pentru calcul:
σ 𝑥𝑦 − σ 𝑥 σ 𝑦 Τ𝑛
𝑟=
σ 𝑥 2 − σ 𝑥 2 Τ𝑛 σ 𝑦 2 − σ 𝑦 2 Τ𝑛

În general:

• Valorile apropiate de 1 indică o asociere pozitivă puternică.


• Valorile apropiate de –1 indică o asociere negativă puternică.
• Valorile în jurul lui 0 indică o asociere slabă.

Interpretarea lui 𝑟 trebuie făcută însă cu precauție.


18.02.2018 35
Este adevărat că o diagramă de împrăștiere a datelor care rezultă dintr-un număr de
corelație de +1 sau -1 se plasează exact pe o dreaptă.

Dar o corelație de 0 nu înseamnă că nu există vreo asociere;


înseamnă doar că nu există o asociere liniară.

Putem avea situații de corelație 0 și care prezintă totuși o foarte puternică asociere,
cum este cazul datelor care se ordonează după o curbă cu schimbări bruște de profil.
TABELUL 2.13
𝒙𝟐 𝒚𝟐
Exemplul 2.8 Să considerăm 𝒙
112
𝒚
63 12.544 3.969
𝒙𝒚
7.056
iarăși problema greutății la 111 66 12.321 4.356 7.326
naștere descrisă anterior în 107
119
72
52
11.449
14.161
5.184
2.704
7.704
6.188
această secțiune. 92 75 8.464 5.625 6.900
80 118 6.400 13.924 9.440
81 120 6.561 14.400 9.720
84 114 7.056 12.996 9.576
118 42 13.924 1.764 4.956
106 72 11.236 5.184 7.632
Folosind cele cinci totaluri, 103 90 10.609 8.100 9.270
94 91 8.836 8.281 8.554
obținem 1.207 975 123.561 86.487 94.322
94.322 − 1207 975 Τ12
𝑟= = −0,946
2 2
123.561 − 1207 Τ12 86.487 − 975 Τ12

18.02.2018
ceea ce indică o foarte puternică asociere negativă. 36
Exemplul 2.9 Datele din Tabelul 2.14 reprezintă înregistrările tensiunii arteriale (y) pentru 15
femei cu vârste (x) între 41 și 85 de ani.

Realizăm tabelul de calcul (Tabelul 2.15) ca în Exemplul 2.8.

TABELUL 2.15 𝒙 𝒚 𝒙𝟐 𝒚𝟐 𝒙𝒚
42 130 1.764 16.900 5.460
46 115 2.116 13.225 5.290
42 148 1.764 21.904 6.216
71 100 5.041 10.000 7.100
80 156 6.400 24.336 12.480
74 162 5.476 26.224 11.988
70 151 4.900 22.801 10.570
80 156 6.400 24.336 12.480
85 162 7.225 26.224 13.770
72 158 5.184 24.964 11.376
64 155 4.096 24.025 9.920
81 160 6.561 25.600 12.960
41 125 1.681 15.625 5.125
61 150 3.721 22.500 9.150
75 165 5.625 27.225 12.375
Folosind aceste totaluri, obținem 984 2.193 67.954 325.889 146.260

146.260 − 984 2.193 Τ15


𝑟= = −0,566
67.954 − 984 2 Τ15 325.889 − 2193 2 Τ15
ceea ce indică o asociere negativă moderată.
(Cauza este legată de neluarea în considerație a stării de sănătate a
pacientelor, care este extrem de relevantă.)

18.02.2018 37
2.4.1 Coeficienți de corelație non-parametrici

Să presupunem că setul de date constă în 𝑛 perechi de observații 𝑥𝑖 , 𝑦𝑖 , ce exprimă o


posibilă relație dintre două variabile continue.

Caracterizăm intensitatea unei astfel de legături calculând coeficientul de corelație:

σ 𝑥−𝑥 𝑦−𝑦
𝑟=
σ 𝑥−𝑥 2 σ 𝑦−𝑦 2

numit coeficientul de corelație al lui Pearson.


Ca și alte mărimi statistice obișnuite, precum media 𝑥 și abaterea medie pătratică 𝑠,
coeficientul de corelație 𝑟 este foarte sensibil la valorile extreme.

Uneori putem fi interesați să calculăm o măsură a asocierii care să fie mai puțin
dependentă de valorile extreme.

Pentru acest scop există două proceduri non-parametrice: corelațiile de rang


Ro 𝜌 a lui Spearman și Tau 𝜏 a lui Kendall.

18.02.2018 38
Coeficientul Ro a lui Spearman
Aceasta este o alternativă non-parametrică directă la coeficientul de corelație al lui Pearson.

Pentru a realiza această procedură, mai întâi vom aranja valorile 𝑥 crescător și vom atribui un
rang de la 1 la 𝑛 fiecărei valori; fie 𝑅𝑖 rangul valorii 𝑥𝑖 .

Similar, aranjăm valorile 𝑦 descrescător și le atribuim ranguri de la 1 la 𝑛; fie 𝑆𝑖 rangul valorii 𝑦𝑖 .

Dacă observațiile sunt egale, vom atribui un rang mediu, mediind rangurile valorilor care sunt
egale.

De exemplu, dacă a doua și a treia măsurătoare sunt egale, ambelor li se atribuie 2,5 ca
rang comun.

Următorul pas este acela de a înlocui, în formula coeficientului de corelație 𝑟 a lui Pearson, 𝑥𝑖 prin
rangul său 𝑅𝑖 și 𝑦𝑖 prin rangul său 𝑆𝑖 .

Rezultatul este coeficientul ro al lui Spearman, un rang de corelație obișnuit:


σ 𝑅𝑖 − 𝑅 𝑆𝑖 − 𝑆 2
6 σ 𝑅𝑖 − 𝑆𝑖
𝜌= =1−
2 2 𝑛 𝑛2 − 1
σ 𝑅𝑖 − 𝑅 σ 𝑆𝑖 − 𝑆
18.02.2018 39
Exemplul 2.10 Să considerăm iarăși problema greutății la naștere din Exemplul 2.8.
Datele sunt prezentate în Tabelul 2.16.

TABELUL 2.16 Greutatea la naștere Creșterea în greutate


𝑥 (uncii) Rangul 𝑅 𝑦 (%) Rangul 𝑆 𝑅−𝑆 𝑅−𝑆 2
112 10 63 3 7 49
111 9 66 4 5 25
107 8 72 5,5 2,5 6,25
119 12 52 2 10 100
92 4 75 7 -3 9
80 1 118 11 -10 100
81 2 120 12 -10 100
84 3 114 10 -7 49
118 11 42 1 10 100
106 7 72 5,5 1,5 2,25
103 6 90 8 -2 4
94 5 91 9 -4 16
560,50

Substituind valoarea σ 𝑅𝑖 − 𝑆𝑖 2
în formula pentru ro (𝜌), obținem
6 560,5
𝜌=1− = 0,96
12 143

care este foarte apropiată de valoarea 𝑟 (-0,946) obținută în Exemplul 2.8.

Această apropiere este adevărată atunci când există doar câteva valori extreme (sau niciuna).

18.02.2018 40
Coeficientul Tau al lui Kendall
Spre deosebire de coeficientul 𝜌 al lui Spearman, cealaltă corelație de rang (𝜏 a lui Kendall) este
definită și calculată foarte diferit, chiar dacă cele două corelații oferă de cele mai multe ori
rezultate numerice similare.

Problema greutății la naștere din Exemplul 2.8 este adaptată pentru a ilustra această metodă,
care se rezolvă în următorii pași:

1. Valorile 𝑥 și 𝑦 sunt reprezentate pe două rânduri; valorile 𝑥 de pe primul rând sunt


ordonate crescător.

2. Pentru fiecare valoare 𝑦 din rândul al doilea, calculăm


a) Numărul valorilor 𝑦 mai mari situate la dreapta (rândul al treilea).
Suma acestora este notată cu 𝑪.
b) Numărul valorilor 𝑦 mai mici situate la dreapta (rândul al patrulea).
Suma acestora este notată cu 𝑫.

𝐶 și 𝐷 reprezintă numărul perechilor 𝑥, 𝑦 concordante și respectiv discordante.

𝐶−𝐷
3. Corelația de rang Kendall este definită prin 𝜏=1
𝑛 𝑛−1
2
Total
TABELUL 2.17 𝑥 80 81 84 92 94 103 106 107 111 112 118 119
𝑦 118 120 114 75 91 90 72 72 66 63 42 52
𝐶 1 0 0 2 0 0 0 0 0 0 1 0 4
𝐷 10 10 9 6 7 6 4 4 3 2 0 0 61

18.02.2018 41
Exemplul 2.11 Pentru problema greutății la naștere de mai sus, am introdus datele în Tabelul 2.17.

Total
TABELUL 2.17 𝑥 80 81 84 92 94 103 106 107 111 112 118 119
𝑦 118 120 114 75 91 90 72 72 66 63 42 52
𝐶 1 0 0 2 0 0 0 0 0 0 1 0 4
𝐷 10 10 9 6 7 6 4 4 3 2 0 0 61

Valoarea coeficientului 𝜏 a lui Kendall este


4 − 61
𝜏= = −0,86
1
12 11
2

18.02.2018 42
2.5 NOTE ASUPRA CALCULELOR

Am acoperit deja câteva dintre tehnicile de bază pentru lucrul în Microsoft Excel:
- cum se deschide/organizează o foaie de calcul,
- cum se salvează și
- cum se corectează aceasta.
Subiectele au inclus pași de introducere a datelor precum
- selectarea și tragerea (select and drag),
- folosirea formulelor și
- reprezentările grafice de tip bare și plăcintă.
Acum ne vom axa pe datele continue, acoperind subiecte precum
- construcția histogramelor,
- elementele statistice descriptive de bază și
- analiza de corelație.

18.02.2018 43
Histograme

Având la dispoziție o tabelă de frecvențe, dați clic pe ChartWizard (buton situat pe bara
de instrumente standard).
Va apărea o casetă cu posibilități de alegere; selectați tipul hartă cu coloane.
Apoi dați clic pe next.
• Pentru domeniul de valori (range), selectați coloana frecvențelor.
Acest lucru se poate face dând clic pe prima observație și trăgând cu mouse-ul
către ultima.
Apoi dați clic pe next.
• Pentru a elimina caroiajul (gridlines), dați clic pe tab-ul gridline și debifați opțiunea.
Pentru a elimina legenda, puteți face același lucru folosind tab-ul legend.
Apoi dați clic pe finish.
• Problema este că încă avem pauze în grafic.
Pentru a le elimina, dați dublu-clic pe o bară din grafic și va apărea un nou set de
opțiuni.
Dați clic pe tab-ul opțiuni și schimbați distanța dintre coloane de la valoarea
implicită (150) la 0.
18.02.2018 44
Elementele Statistice Descriptive

Mai întâi, dați clic pe celula în care vreți să primiți informațiile, apoi dați clic pe butonul paste
function, 𝑓 ∗ , care vă va da – într-o casetă – o listă a funcțiilor Excel disponibile.
Ceea ce vă trebuie acum din această listă este Statistical; după selectarea acesteia, va apărea o nouă
listă cu nume de funcții, câte una pentru fiecare procedură statistică.
Următoarele proceduri/nume sunt cele pe care le vom învăța în aceste capitol:
AVERAGE: calculează media eșantionului,
GEOMEAN: calculează media geometrică,
MEDIAN: calculează mediana eșantionului și
VAR: calculează varianța.
În fiecare caz, veți obține câte o caracteristică statistică.
Mai întâi, trebuie să introduceți domeniul ce conține eșantionul: de exemplu, D6:D20 (veți observa
ceea ce ați selectat în bara de formule).
Vi se va returna o valoare numerică pentru caracteristica statistică cerută în celula preselectată inițial.

Coeficientul de corelație a lui Pearson


Selectați celula în care vreți să obțineți caracteristica, dați clic pe 𝑓 ∗ .
Selectați din listă Statistical; din noua listă function names, selectați CORREL, pentru corelație.
În noua casetă, mutați cursorul pentru a completa domeniile X și Y în cele două rânduri marcate cu
Array 1 și Array 2.
Vi se va returna valoarea numerică pentru caracteristica cerută, coeficientul de corelație 𝑟 al lui
Pearson, în celula preselectată.
EXERCIȚII 2.1 – 2.35
18.02.2018 45