Documente Academic
Documente Profesional
Documente Cultură
35
Capitolul 2
18.02.2018 1
O clasă de măsurători sau o caracteristică asupra căreia s-au făcut observaţii sau
măsurători este numită variabilă.
Exemple: greutatea, înălţimea şi tensiunea arterială.
1. Dacă fiecare element din acest set se situează doar în nişte puncte izolate,
vom avea un set de date discrete.
De exemplu: rasa, sexul, numărătoarea evenimentelor sau anumite
tipuri de clasificări artificiale.
2. Dacă fiecare element din acest set poate ca teoretic să se situeze oriunde pe
scala numerică, avem un set de date continue.
Exemple pot fi tensiunea arterială, nivelul colesterolului sau timpul
până la un anumit eveniment, cum este decesul.
18.02.2018 2
2.1 METODE TABELARE ŞI GRAFICE
În figura următoare este prezentată rata brută a deceselor pentru toate cele 50 de
state şi districtul Columbia (de la o valoare minimă de 393,9 la 100.000 de persoane
la o valoare maximă de 1242,1 la 100.000 de persoane.
Pentru seturi de date mai mari, un instrument util pentru centralizare este formarea unui
tabel de frecvenţe sau de distribuţii de frecvenţe.
În primul rând, nu există o regulă clară asupra numărul de intervale sau clase.
67
Dacă vom folosi 5 intervale, vom avea 𝑤= = 13,4
5
67
și dacă folosim 15 intervale, vom avea 𝑤 = 15 = 4,5
sunt prezentate în Tabelul 2.2 și vor fi foarte utile dacă vrem să comparăm două seturi de
date de mărimi diferite.
TABELUL 2.2
Intervalul de Pontaj Frecvență Frecvenţă
greutate (lb) (absolută) Relativă (%)
10–19 ⑤ 5 8,8
20–29 ⑤⑤⑤④ 19 33,3
30–39 ⑤⑤ 10 17,5
40–49 ⑤⑤③ 13 22,8
50–59 ④ 4 7,0
60–69 ④ 4 7,0
70–79 ② 2 3,5
Total 57 100,0
18.02.2018 7
2.1.3 Histograma și Poligonul frecvențelor
Dacă se folosesc intervale disjuncte, precum cele din Tabelul 2.2, axa orizontală
este marcată cu limitele reale.
O limită reală este media limitei superioare a unui interval și cea inferioară a
intervalului următor mai mare.
18.02.2018 8
Dacă vrem să comparăm formele histogramelor reprezentând seturi diferite de date,
sau dacă intervalele au lățimi diferite, înălțimea fiecărei bare rectangulare ar trebui să
reprezinte densitatea intervalului
Dacă prezentăm densitățile pe axa verticală, frecvența relativă este reprezentată de aria
barei rectangulare și aria totală de sub histogramă este 100%.
TABELUL 2.4
Folosind intervale de câte 10%, setul de date poate fi reprezentat printr-o histogramă
sau un poligon de frecvențe așa cum se vede în Figura 2.4.
Datele din Tabelul 2.2 pentru distribuția greutăților celor 57 de copii sunt reproduse și
completate cu o coloană pentru frecvența cumulativă relativă în Tabelul 2.6. Această
ultimă coloană este ușor de construit; veți acumula succesiv frecvențele relative pentru
fiecare interval.
TABELUL 2.6
Intervalul de Frecvenţă Frecvenţă Frecvenţă cumulativă
greutate (lb) Relativă (%) relativă (%)
10–19 5 8,8 8,8
20–29 19 33,3 42,1
30–39 10 17,5 59,6
40–49 13 22,8 82,4
50–59 4 7,0 89,4
60–69 4 7,0 96,4
70–79 2 3,5 99,9≃ 100,0
Total 57 100,0
Centila de 90%, de exemplu, este valoarea numerică ce depășește 90% din valorile din
setul de date și este depășită de doar 10% dintre ele.
Acest lucru este convenabil mai ales când avem un set mic de date.
Datele asupra greutății copiilor din Exemplul 2.2 sunt folosite aici pentru a ilustra
construcția unei astfel de diagrame.
Greutățile (în livre) ale celor 57 de copii din grădiniță sunt următoarele:
18.02.2018 13
2.2 METODE NUMERICE
În primul rând, să presupunem că avem n măsurători într-un set de date.
De exemplu, iată un set de date: 8,2,3,5 cu 𝑛 = 4.
De obicei notăm aceste numere cu 𝑥𝑖 ; adică pentru exemplul de mai sus avem
𝑥1 = 8, 𝑥2 = 2, 𝑥3 = 3 și 𝑥4 = 5.
2.2.1 Media
Fiind dat un set de date de mărime n, x1 , x2 , … , xn , media aritmetică a acestui set se
notează cu x și se calculează cu:
σ𝑥
𝑥=
𝑛
18.02.2018 14
Ocazional, datele sunt prezentate sub forma unor tabele de frecvențe.
2086,5
𝑥≃ = 36,6 𝑙𝑖𝑣𝑟𝑒
57
Media este
σ𝑥
𝑥= = 𝟖, 𝟔𝟕 săptămâni
𝑛
și pentru scala logaritmică
σ ln 𝑥
= 1,826
𝑛
ceea ce conduce la o medie geometrică de 6,21, care, în general, este mai puțin
afectată de măsurătorile mari.
18.02.2018 19
2.2.2 Alte măsuri de locație
O altă măsură de locație utilă este mediana.
Dacă observațiile din setul de date sunt aranjate în ordine crescătoare sau
descrescătoare, mediana este observația mijlocie, care împarte setul în două
jumătăți egale.
Dacă numărul observațiilor 𝑛 este impar va exista o singură mediană, cel de-al
𝑛+1 număr de la oricare din capetele secvenței ordonate.
1
2
Dacă 𝑛 este par nu există o observație strict centrală, iar mediana se definește ca
fiind media celor două observații centrale, cea de-a 12𝑛 și cea de-a 12 𝑛+1 , de la
oricare capăt al seriei ordonate.
Ca urmare, avantajul medianei ca o măsură a locației este aceea că este mai puțin
afectată de observațiile extreme.
18.02.2018 20
Totuși, mediana are unele dezavantaje în comparație cu media:
1. Ea nu ține cont de magnitudinea exactă a celor mai multe observații și este, ca
urmare, mai puțin eficientă decât media, întrucât pierde informații;
2. Dacă două grupuri de observații sunt cumulate, mediana grupului combinat
nu pot fi exprimată prin intermediul medianelor celor două grupuri
component, în timp ce media poate fi exprimată prin mediile grupurilor.
Dacă grupurile componente sunt de volumele (mărimile) 𝑛1 și 𝑛2 și au
respectiv mediile 𝑥1 și 𝑥2 , media grupului combinat este
𝑛1 𝑥1 + 𝑛2 𝑥2
𝑥=
𝑛1 + 𝑛2
În cazul seturilor mari de date, mediana necesită mai mult timp de calcul decât media
și nu este utilizată frecvent în tehnicile statistice minuțioase (este totuși utilă ca o
măsură descriptivă pentru distribuțiile asimetrice).
Această întrebare este importantă din motive pur descriptive, dar este de asemenea
importantă deoarece măsurarea dispersiei sau variabilității joacă un rol central în
metodele de deducție statistică descrise în capitolele următoare.
18.02.2018 22
O abordare alternativă este aceea de a folosi deviațiile (abaterile) de la medie, x − x;
evident, cu cât este mai mare variația în setul de date, cu atât mai mare tinde să fie
magnitudinea acestor deviații.
TABELUL 2.9
𝑥 𝑥−𝑥 𝑥−𝑥 2
Să considerăm din nou setul de date 8 0 0
8, 5, 4, 12, 15, 5, 7 5 -3 9
4 -4 16
12 4 16
Calculul dispersiei 𝑠 2 și al abaterii medii 15 7 49
pătratice 𝑠 este ilustrat în Tabelul 2.9. 5 -3 9
7 -1 1
σ 𝑥=56 σ 𝑥 − 𝑥 2 =100
𝑛=7 𝑠 2 =100/6=16,67
18.02.2018 𝑥=8 𝑠= 16,67=4,08 24
Dacă media nu este un număr întreg, să spunem 𝑥=10/3,ҧ va trebui să fie rotunjit și
astfel apar erori în extragerea acestei valori din fiecare 𝑥.
Această dificultate poate fi ușor depășită dacă folosim următoarea formulă pentru
calculul dispersiei:
σ 2 σ 2
𝑥 − 𝑥 /𝑛
𝑠2 =
𝑛−1
18.02.2018 25
Când datele sunt în forma grupată a unei tabele de frecvențe, dispersia este calculată folosind
următoarea formulă modificată:
2
σ 𝑓𝑚2 − σ 𝑓𝑚 2 /𝑛
𝑠 ≃
𝑛−1
unde f este frecvența intervalului, m este punctul central al intervalului calculat ca în
Secțiunea 2.2.2 și sumarea se face pe toate intervalele.
2
89724,25 − 2086,5 2 /57
𝑠 ≃ = 238,35 𝑠 ≃ 15,4 livre
56
Abaterea medie pătratică 𝑠 este o măsură a variabilității, o măsură a distanței medii dintre
numerele din eșantion …
… și există 𝑛 − 1 goluri între 𝑛 numere.
Când 𝑛 = 2 avem un singur gol (sau distanță între cele două numere) și deci pentru 𝑛 = 1 nu
există variabilitate de măsurat.
18.02.2018 27
2.3 CAZUL SPECIAL AL DATELOR BINARE
Dacă fiecare element din setul de date se plasează în doar câteva puncte izolate, avem de a
face cu un set de date discrete.
Un caz special al datelor discrete îl reprezintă datele binare, când fiecare observație poate
avea doar două valori posibile; exemple pot fi sexul și o indicație dacă tratamentul a dus la
succes sau eșec.
Putem, în general, să redenumim cele două tipuri de rezultate drept pozitiv (+) și negativ (–).
Cu alte cuvinte, proporția unui eșantion poate fi considerată ca un caz special al mediei
eșantionului când datele sunt codificate ca 0 și 1.
18.02.2018 28
Ce înțelegem în acest caz prin varianță sau dispersie și cum putem să o măsurăm?
Să scriem dispersia 𝑠 2 folosind formula alternativă din Secțiunea 2.2, însă la numitor să folosim 𝑛 în loc de 𝑛 − 1
(acest lucru va conduce la o diferență mică pentru că aproape întotdeauna operăm cu eșantioane
mari de date binare):
σ 𝑥𝑖2 − σ 𝑥𝑖 2 Τ𝑛
𝑠=
𝑛
Întrucât 𝑥𝑖 este binar, cu „1” dacă rezultatul 𝑖 este pozitiv sau „0” dacă este negativ, avem 𝑥𝑖2 = 𝑥𝑖
și
2
σ 𝑥𝑖2 − σ 𝑥𝑖 2 Τ𝑛 σ 𝑥𝑖 σ 𝑥𝑖
𝑠 = = 1− =𝑝 1−𝑝
𝑛 𝑛 𝑛
Cu alte cuvinte, mărimea statistică 𝑝 1 − 𝑝 poate fi folosită în loc de 𝑠 2 ca o măsură a varianței; argumentarea
logică poate fi văzută în modul descris în continuare.
Valorile 𝑝 1 − 𝑝 sunt mari în vecinătatea lui 𝑝 = 0,5 și scad către ambele capete ale intervalului de valori 𝑝.
18.02.2018 29
2.4 COEFICIENȚI DE CORELAȚIE
Metodele discutate în acest capitol au fost direcționate către analizele datelor pentru
care s-a făcut o singură măsurătoare continuă pentru fiecare element din eșantion.
Totuși, în multe investigații avem de-a face cu două măsurători, atunci când eșantionul
constă din perechi de valori și obiectivul cercetării este acela de a găsi modul de
asociere între aceste variabile.
De exemplu, care este legătura dintre greutatea mamei și greutatea copilului său?
În Secțiunea 1.3 ne-am concentrat pe asocierea dintre diferite variabile dihotomice.
Dacă costul este de 100$ la internare și 150$ pe zi, putem calcula ușor costul total având
numărul zilelor de spitalizare, …
… iar dacă setul de date este reprezentat grafic, să spunem costul în funcție de numărul
zilelor, toate punctele se vor situa exact pe o linie dreaptă.
18.02.2018 31
Tabelul 2.12 oferă valorile pentru greutatea TABELUL 2.12
la naștere (𝑥) și creșterea în greutate între 𝑥 (uncii / g) 𝑦 (%) 𝑥 (uncii / g) 𝑦 (%)
112 / 3175 63 81 / 2296 120
zilele 70 și 100 de viață, exprimată în 111 / 3147 66 84 / 2381 114
procente față de greutatea la naștere (𝑦) 107 / 3033 72 118 / 3345 42
pentru 12 nou-născuți. 119 / 3374 52 106 / 3005 72
92 / 2608 75 103 / 2920 90
80 / 2268 118 94 / 2665 91
Dacă prezentăm grafic fiecare pereche de numere (𝑥, 𝑦) printr-un punct pe o diagramă,
obținem Figura 2.13.
18.02.2018 32
Punctele nu se situează exact pe o linie dreaptă, ci mai degrabă au o împrăștiere în jurul
unei linii, situație tipică pentru relațiile statistice.
Din cauza acestei împrăștieri a punctelor, diagrama este numită diagramă de împrăștiere
(scatter diagram).
Legătura devine din ce în ce mai slabă cu cât distribuția punctelor este mai puțin
apropiată de linie …
… și devine virtual fără corelație când distribuția aproximează un cerc sau oval
(metoda nu este eficientă pentru măsurarea legăturilor care nu sunt liniare).
18.02.2018 33
2.4.1 Coeficientul de corelație al lui Pearson
Să considerăm diagrama de împrăștiere (diagrama primară de distribuție a datelor)
prezentată în Figura 2.14, unde am plasat originea sistemului de axe în punctul (𝑥, 𝑦) și
am obținut astfel patru cadrane 𝐼, 𝐼𝐼, 𝐼𝐼𝐼 și 𝐼𝑉.
Se poate observa că
• În cadranele 𝐼 și 𝐼𝐼𝐼, 𝑥−𝑥 𝑦−𝑦 >0
astfel că pentru asocieri pozitive avem σ 𝑥−𝑥 𝑦−𝑦 >0
Mai mult, această sumă este mare pentru legături puternice deoarece cele mai
multe puncte, fiind grupate în jurul liniei, sunt în aceste cadrane.
18.02.2018 34
• Similar, în cadranele 𝐼𝐼 și 𝐼𝑉, 𝑥−𝑥 𝑦−𝑦 <0
ceea ce conduce la σ 𝑥−𝑥 𝑦−𝑦 <0 pentru asocieri negative.
În general:
Putem avea situații de corelație 0 și care prezintă totuși o foarte puternică asociere,
cum este cazul datelor care se ordonează după o curbă cu schimbări bruște de profil.
TABELUL 2.13
𝒙𝟐 𝒚𝟐
Exemplul 2.8 Să considerăm 𝒙
112
𝒚
63 12.544 3.969
𝒙𝒚
7.056
iarăși problema greutății la 111 66 12.321 4.356 7.326
naștere descrisă anterior în 107
119
72
52
11.449
14.161
5.184
2.704
7.704
6.188
această secțiune. 92 75 8.464 5.625 6.900
80 118 6.400 13.924 9.440
81 120 6.561 14.400 9.720
84 114 7.056 12.996 9.576
118 42 13.924 1.764 4.956
106 72 11.236 5.184 7.632
Folosind cele cinci totaluri, 103 90 10.609 8.100 9.270
94 91 8.836 8.281 8.554
obținem 1.207 975 123.561 86.487 94.322
94.322 − 1207 975 Τ12
𝑟= = −0,946
2 2
123.561 − 1207 Τ12 86.487 − 975 Τ12
18.02.2018
ceea ce indică o foarte puternică asociere negativă. 36
Exemplul 2.9 Datele din Tabelul 2.14 reprezintă înregistrările tensiunii arteriale (y) pentru 15
femei cu vârste (x) între 41 și 85 de ani.
TABELUL 2.15 𝒙 𝒚 𝒙𝟐 𝒚𝟐 𝒙𝒚
42 130 1.764 16.900 5.460
46 115 2.116 13.225 5.290
42 148 1.764 21.904 6.216
71 100 5.041 10.000 7.100
80 156 6.400 24.336 12.480
74 162 5.476 26.224 11.988
70 151 4.900 22.801 10.570
80 156 6.400 24.336 12.480
85 162 7.225 26.224 13.770
72 158 5.184 24.964 11.376
64 155 4.096 24.025 9.920
81 160 6.561 25.600 12.960
41 125 1.681 15.625 5.125
61 150 3.721 22.500 9.150
75 165 5.625 27.225 12.375
Folosind aceste totaluri, obținem 984 2.193 67.954 325.889 146.260
18.02.2018 37
2.4.1 Coeficienți de corelație non-parametrici
σ 𝑥−𝑥 𝑦−𝑦
𝑟=
σ 𝑥−𝑥 2 σ 𝑦−𝑦 2
Uneori putem fi interesați să calculăm o măsură a asocierii care să fie mai puțin
dependentă de valorile extreme.
18.02.2018 38
Coeficientul Ro a lui Spearman
Aceasta este o alternativă non-parametrică directă la coeficientul de corelație al lui Pearson.
Pentru a realiza această procedură, mai întâi vom aranja valorile 𝑥 crescător și vom atribui un
rang de la 1 la 𝑛 fiecărei valori; fie 𝑅𝑖 rangul valorii 𝑥𝑖 .
Dacă observațiile sunt egale, vom atribui un rang mediu, mediind rangurile valorilor care sunt
egale.
De exemplu, dacă a doua și a treia măsurătoare sunt egale, ambelor li se atribuie 2,5 ca
rang comun.
Următorul pas este acela de a înlocui, în formula coeficientului de corelație 𝑟 a lui Pearson, 𝑥𝑖 prin
rangul său 𝑅𝑖 și 𝑦𝑖 prin rangul său 𝑆𝑖 .
Substituind valoarea σ 𝑅𝑖 − 𝑆𝑖 2
în formula pentru ro (𝜌), obținem
6 560,5
𝜌=1− = 0,96
12 143
Această apropiere este adevărată atunci când există doar câteva valori extreme (sau niciuna).
18.02.2018 40
Coeficientul Tau al lui Kendall
Spre deosebire de coeficientul 𝜌 al lui Spearman, cealaltă corelație de rang (𝜏 a lui Kendall) este
definită și calculată foarte diferit, chiar dacă cele două corelații oferă de cele mai multe ori
rezultate numerice similare.
Problema greutății la naștere din Exemplul 2.8 este adaptată pentru a ilustra această metodă,
care se rezolvă în următorii pași:
𝐶−𝐷
3. Corelația de rang Kendall este definită prin 𝜏=1
𝑛 𝑛−1
2
Total
TABELUL 2.17 𝑥 80 81 84 92 94 103 106 107 111 112 118 119
𝑦 118 120 114 75 91 90 72 72 66 63 42 52
𝐶 1 0 0 2 0 0 0 0 0 0 1 0 4
𝐷 10 10 9 6 7 6 4 4 3 2 0 0 61
18.02.2018 41
Exemplul 2.11 Pentru problema greutății la naștere de mai sus, am introdus datele în Tabelul 2.17.
Total
TABELUL 2.17 𝑥 80 81 84 92 94 103 106 107 111 112 118 119
𝑦 118 120 114 75 91 90 72 72 66 63 42 52
𝐶 1 0 0 2 0 0 0 0 0 0 1 0 4
𝐷 10 10 9 6 7 6 4 4 3 2 0 0 61
18.02.2018 42
2.5 NOTE ASUPRA CALCULELOR
Am acoperit deja câteva dintre tehnicile de bază pentru lucrul în Microsoft Excel:
- cum se deschide/organizează o foaie de calcul,
- cum se salvează și
- cum se corectează aceasta.
Subiectele au inclus pași de introducere a datelor precum
- selectarea și tragerea (select and drag),
- folosirea formulelor și
- reprezentările grafice de tip bare și plăcintă.
Acum ne vom axa pe datele continue, acoperind subiecte precum
- construcția histogramelor,
- elementele statistice descriptive de bază și
- analiza de corelație.
18.02.2018 43
Histograme
Având la dispoziție o tabelă de frecvențe, dați clic pe ChartWizard (buton situat pe bara
de instrumente standard).
Va apărea o casetă cu posibilități de alegere; selectați tipul hartă cu coloane.
Apoi dați clic pe next.
• Pentru domeniul de valori (range), selectați coloana frecvențelor.
Acest lucru se poate face dând clic pe prima observație și trăgând cu mouse-ul
către ultima.
Apoi dați clic pe next.
• Pentru a elimina caroiajul (gridlines), dați clic pe tab-ul gridline și debifați opțiunea.
Pentru a elimina legenda, puteți face același lucru folosind tab-ul legend.
Apoi dați clic pe finish.
• Problema este că încă avem pauze în grafic.
Pentru a le elimina, dați dublu-clic pe o bară din grafic și va apărea un nou set de
opțiuni.
Dați clic pe tab-ul opțiuni și schimbați distanța dintre coloane de la valoarea
implicită (150) la 0.
18.02.2018 44
Elementele Statistice Descriptive
Mai întâi, dați clic pe celula în care vreți să primiți informațiile, apoi dați clic pe butonul paste
function, 𝑓 ∗ , care vă va da – într-o casetă – o listă a funcțiilor Excel disponibile.
Ceea ce vă trebuie acum din această listă este Statistical; după selectarea acesteia, va apărea o nouă
listă cu nume de funcții, câte una pentru fiecare procedură statistică.
Următoarele proceduri/nume sunt cele pe care le vom învăța în aceste capitol:
AVERAGE: calculează media eșantionului,
GEOMEAN: calculează media geometrică,
MEDIAN: calculează mediana eșantionului și
VAR: calculează varianța.
În fiecare caz, veți obține câte o caracteristică statistică.
Mai întâi, trebuie să introduceți domeniul ce conține eșantionul: de exemplu, D6:D20 (veți observa
ceea ce ați selectat în bara de formule).
Vi se va returna o valoare numerică pentru caracteristica statistică cerută în celula preselectată inițial.