Sunteți pe pagina 1din 31

STATISTICA

CUPRINS
1. CONCEPTELE DE BAZ STATISTICE

Unitile statistice
Caracteristica variabil/variabil
ir statistic/serie statistic/distribuie de frecvene
Populaie statistic
Eantioane :
- independent prelevate
- de observaii perechi
a) Clasificarea variabilelor
b) Clasificri ale irurilor statistice
c) Clasificarea mulimilor de uniti statistice (i structura statisticii clasice)
d) Eantioane prelevate independent i eantioane de observaii perechi

2. STATISTICA DESCRIPTIV UNIVARIAT


(sinteza grafic univariat i sinteza numeric univariat)
A. Sinteza grafic univariat
A1. 1iruri univariabile
A11. Tabele statistice simple
A12. Distribuii de frecvene
A13. Reprezentri grafice univariante
A2. Limbajul repartiiilor (gruparea msurtorilor)
A3. Gruparea masuratorilor
B. Sinteza numeric univariat
C. Tratarea unei variabile cantitative (indicatori de tendin central)
C1. Condiiile lui Yule asupra unui indicator de tendin central
C2. Mod (mod, modul, dominant, valoare dominant, valoare modal)
C3. Mediana
C4. Media (aritmetic)
C5. Indicaii de preferin ntre principalii indicatori de tendin central
C6. Ali indicatori de localizare
C6.1. Cuartile
C6.2. Decile, centile
C7. Indicatori de mprtiere
C7.1. Amplitudinea
C7.2. Intercuartila
C7.3. Dispersia
C7.4. Abaterea standard
C7.5. Coeficient de variaie

1. Concepte statistice de baz


Statistica clasic este preponderent uni i bivalent i se bazeaz pe teoria probabilitilor.
Statistica modern este (esenialmente) multivariat i se bazeaz pe geometrie, algebr i logic
formal, dar i pe teoria probabilitilor i se dezvolt puternic datorit informaticii (aplicate).
n preocuprile noastre se va aborda numai statistica clasic.
Statistica clasic se bazeaz pe clasificarea prezentat n continuare.
Unitile statistice pot fi considerate fie populaie statistic, fie eantion.
Populaia statistic este alctuit din obiecte, indivizi umani ori dintr-o alt specie, fenomene
evenimente, idei, opinii, numere.
Populaia statistic poate fi finit sau infinit, real sau ipotetic.
Cuvinte cheie :
unitate statistic
caracteristic variabil(variabil
ir statistic/serie statistic, respectiv distribuie de frecvene
populaie statistic
eantioane (independent prelevate, de observaii perechi)

Concepte de baz statistice )


Statistica studiaz mulimi de observaii efectuate asupra unor obiecte de aceeai natur, denumite
uniti statistice care prezint (se ncadreaz n) anumite caracteristici (variabile).
Unitile statistice pot fi clasate, ordonate sau msurate n raport cu caracteristicile respective.
Mulimile de observaii se numesc iruri sau serii (statistice)
Exemplul 1
ntr-o cresctorie de psri (unitile statistice), acestea prezint urmtoarele caracteristici:
specia de psri (poate fi constant, dac avem o singur specie, sau variabil, n caz
contrar), aceste date se claseaz
not de frumusee a exemplarelor, aceste date se ordoneaz
lungimea / greutatea a pasarilor, se msoar

Clasificarea variabilelor
Grosier
1. Variabile calitative = variabile ale cror variante pot fi doar clasate, nu ordonate sau msurate.
Exemplu: variabila sex cu variantele masculin i feminin,variabila culoarea ochilor cu variantele
negri, albatri, verzi, .
2. Variabile cantitative = variabile ale cror valori pot fi ordonate sau chiar msurate.
Exemple: greutatea, nlimea, tensiunea arterial
Cele care pot fi ordonate se mai numesc i semicantitative (ordinale), iar valorile respective ranguri.

Clasificarea dual a mulimilor ( Anderberg)


Aceast metod realizeaz clasificarea dup mulimile de reprezentare i dup scalele de reprezentare.

a). Mulimile de reprezentare pot fi:


Discrete / discontinue
finite {a1,a2, ..., an}
infinite {a1, a2, an, ..)
continue [numai finite]
b). Scalele de reprezentare sunt: nominal, ordinal, interval i raport.
Scalele se difereniaz prin proprietile matematice pe care le exprim.
Fie A i B dou uniti statistice, xa i xb fiind variantele, rangurile sau valorile unei variabile x pentru
cele dou obiecte.
b1). Scala nominal, realizeaz numai o distincie ntre A i B i anume fie xA = xB, fie xA xB (n acest
caz xA i xB sunt denumite variante)
Exemplu: rasa, specia, tratamentul
b2). Scala ordinal este o scar nominal cu relaie de ordine. n cazul xA xB, fie xA > xB,
fie xA < xB.
(n acest caz xA i xB sunt denumite ranguri).
Exemple: scala duritii mineralelor (Mohs), ierarhia militar.
b3). Scala interval sau scala de intervale egale, este o scal ordinal cu o msur semnificativ a
diferenei, a intervalului ntre dou valori.
n cazul xA > xB spunem n plus c A este mai mare cu xA xB uniti fa de B.
Scara interval are originea (o) arbitrar i permite valori negative (n acest caz x A i xB sunt denumite
valori).
Exemple: temperaturi i grade Celcius sau Fahrenheit, axa timpului (i.n.Christos, d.n. Christos)
b4) Scara raport / scala de proporii egale este o scal interval n care originea (o) este un zero absolut,
altfel spus nu permite valori negative. n cazul xA > xB putem spune i c A este mai mare de xA/xB ori
fa de B.
Exemple: temperaturi n grade Kelvin, greutatea, nlimea.
Corespondena cu clasificarea grosier este urmtoarea:
variabilele calitative se pot reprezenta pe scala nominal
variabilele semicantitative se pot reprezenta pe scalele nominal i ordinal
variabilele cantitative se pot reprezenta pe scalele nominal, ordinal, interval,
raport, dup caz.
c). Transformri permise n cadrul fiecrei scale:
c1). Permutare i redenumirea
Exemplu: Sex M, F, sau F, M (permutare) sau 1, 2 (redenumire).
c2). Orice funcie f(x) strict cresctoare
Exemplu: Liga x, cu a > 1; reinerea rangurilor n locul valorilor.

Variabile tip rang , pot proveni:


din variante dispunnd de relaia de ordine
din valori, ignornd proprietile scalei interval

Variabile tip msurtoare, pot proveni:

msurtoare propriu-zis
numrtoare.

Clasificri ale irurilor statistice


A. Funcie de ordinea elementelor n ir
A1 ordinea elementelor nu conteaz
A2 iruri, serii cu ordinea conform unei succesiuni
temporale :
- serii temporale
- serii cronologice
spaiale
Ne vom ocupa numai de prima categorie de iruri
B. Funcie de numrul de variabile luate simultan n consideraie
B1. iruri statistice univariate
B2. iruri statistice bivariate
B3. iruri statistice multivariate
B1. {crap, caras, somn, nisetru}; {7, 9, 6, 8}; {1,5 kg, 0,5 kg, 2 kg, 5 kg}
B2. {crap,
7

caras,
9

somn, nisetru}
6
8

B3. (crap, caras, somn, nisetru}


7
9
6
8
1,5 kg 0,5 kg
2 kg
5 kg
Statistica clasic este preponderent uni i bivalent i se bazeaz pe teoria probabilitilor.
Statistica modern este esenialmente multivariat i se bazeaz pe geometrie, algebr i logic formal.
Clasificarea multimilor de unitati statistice si o structura a statisticii clasice
Funcie de orizontul analizat (studiat), mulimea de uniti statistice poate fi considerat fie:
populaie statistic
eantion
dintr-o populaie statistic

5
Populaie statistic, alctuit din obiective, indivizi (umani sau dintr-o alt specie), idei, evenimente,
opinii, numere.
Poate fi: finit sau infinit
Poate fi: real sau ipotetic
Populaiile statistice reale sunt n majoritatea cazurilor foarte mari.
Deoarece este practic imposibil (total neeconomic) s fie studiate exhuastiv toate unitile statistice ale
unei populaii statistice foarte mari se recurge la eantioane.
Eanation, mostr, prob, colectivitate de selecie, lot
O submulime dintr-o populaie statistic considerat cu scopul de a obine informaii cu privire la
populaia respectiv
Populaia statistic, din care s-a extras eantionul se numete populaia mam, populaia int.
Rezultatele obinute din analizele (studiile) bazate pe eantioane cu gradul de certitudine strict
subunitar.
Extrapolarea rezultatelor obinute pe baza eantioanelor la populaia int se poate face:
empiric (fr a putea marca gradul de certitudine)
tiinific (exprimnd exact gradul de certitudine).
Studiul incomplet al populaiilor statistice prin intermediul eantioanelor probabilistice este scopul
statisticii inductive.
Statistica clasic, se bazeaz pe trei componente:
statistica descriptiv
teoria probabilitilor (parial)
statistica inductiv
Esantioanele prelevate independent si esantioane de observatii perechi.
n marea majoritate a situaiilor reale se studiaz populaiile statistice prin eantioane provenite din
acestea.
Eantioanele pot fi produse de diverse fenomene naturale, ori pot fi selectate/generate de cel care
cerceteaz.
Astfel, apar studiile de observaie, respectiv studiile experimentale.
n toate aceste cazuri dou sau mai multe eantioane se pot produce, sau pot fi prelevate n dou
moduri: dependent / independent.
Situaia n care 2 eantioane pot fi prelevate dependent este cea a observaiilor perechi.
Dou eantioane sunt eantioane de observaii perechi, dac selectarea unei uniti ntr-un eantion
impune selectarea unei anumite uniti, perechi n cellalt eantion.
Cele dou eantioane de observaii perechi au acelai volum.
n eantioanele independent prelevate volumul eantioanelor poate fi egal sau diferit ca mrime.
Ex. 2). Cuplul de eantioane utilizate n experimentele clasice de studiu al eficacitii unei substane
medicamentoase. Se ia un lot de subieci crora li se msoar o caracteristic (tensiune arterial) nainte
i dup tratarea respectivei substane medicamentoase.
O greeal metodologic grav este amestecarea eantioanelor de observaii perechi, cu cele prelevate
independent
Consideraii asupra eantioanelor de observaie perechi:
Unitile statistice dintr-un eantion sunt observate sau msurate:
de dou ori
de doi operatori
de dou aparate
de dou momente de timp diferite
dup aplicarea unui tratament

6
Ex. 1)Studii longitudinale antropologice care urmresc probleme de cretere-dezvoltare prin 2
eantioane (un eantion cu copii la o anumit vrst v, al doilea eantion cu aceiai n copii la vrste v +
t.

2. Statistica Descriptiva Univariata


Introducere n statistica descriptiv
Statistica descriptiv:
Ce face?
- sintetizeaz grafic i numeric informaia culeas [exhuastiv] dintr-o populaie statistic
- descrie, dar NU explic esenialul ce rezult din datele culese.
Cum face?
- prezint grupat materialul n dou maniere:
tabele statistice
reprezentri grafice
Paradigma central a statisticii (descriptive) este:
renunarea la o parte din informaie pentru ctig n relevan
A. Sinteza grafic univariant,
se face prin evidenierea intuit i aproximativ a aspectelor eseniale de variabilitate dintr-o serie
statistic.
Se execut n doi pai:
- tabele statistice, simple sau cu simpl intrare
- reprezentri grafice adecvate timpului de variabile, astfel:
pentru variabile calitative i ranguri:
diagrame circulare;
diagrame prin coloane i prin benzi.
pentru ranguri i msurtori:
poligoane de frecvene;
interograme.

Recomandri pentru variabile


calitative diagrame circulare
tip rang diagrame de frecven
tip msurtoare diagramele prin coloane sau prin benzi, poligoane de frecven sau (mai
ales) histogramele.
Sinteza grafic n tabele statistice se poate face prin:
grupare, fr pierdere de informaie
- n tabele statistice simple cu frecvenele variabilelor ori valorilor, construind distribuiile
frecvenelor variabilelor/valorilor denumite distribuii de frecven negrupate.
gruparea, cu pierdere de informaie
- n tabele statistice simple cu frecvenele claselor sau intervalelor de grupare, construind
distribuiile frecvenelor claselor sau intervalelor de grupare denumite distribuii de frecvene
grupate.

7
Pierderea de informaie provine din comasarea unor variante n clase ori gruparea unor valori
consecutive n clase, care n acest caz, se numesc i intervale de grupare.

A1. ir invariant, tabel statistic simplu distribuii de frecvene i reprezentri grafice:


A1.1.)

Distribuii negrupate

a) Culoarea ochilor studenilor = variabil calitativ


S1 = {a, v, a, a, n, n, n, c, c, n, a, c}
albatri

verzi

negri cprui

b) notele obinute la biostatistic, de 12 studeni = Var. tip rang


S2 = {6, 7, 8, 8, 7, 6, 9, 10, 7, 7, 8, 7}
c) 36 de studeni au msurat cu precizie 0,5 mm lungimea unei cri var. tip msurtoare obinnd
urmtoarele valori, ordonate ascendent.
S3 = {188, 189 (8 ori), 190 (18), 191 (8), 192}
msurtori repetate ale aceleiai mrimi = msurtori replicate

Distribuiile de frecven
Pentru S1
Variabile
distincte
xj
a
v
n
c
Totaluri

Frecvene
absolute
Nj
4
1
4
3
N = 12

Frecvene
relative
Fj = Nj/N
4/12
1/12
4/12
3/12

Frecvene (relative)
procentuale
Pj = 100 Fj %
100 4/12 33%
100 1/12 9%
100 4/12 33%
100 3/12 25%

Frecvene
procentuale
cumulate
PCj = P1+P2++Pj
34%
42%
75%
100%

Pentru S2
Valori
distincte
xj
6
7
8
9
10
Totaluri
Pentru S3

Frecvene
absolute
Nj
2
5
3
1
1
N = 12

Perechile;
(xj Nj)j = 1 p = distribuii/repartiii de frecvene absolute
(xj Fj)j = 1 p = distribuii/repartiii de frecvene relative
(xj Pj)j = 1p = distribuii/repartiii de frecvene procentuale
(xj PCj)j = 1p = distribuii/reparaii de frecvene absolute

8
Valori distincte
xj
188
189
190
191
192
Totaluri

Frecvene absolute
Nj
1
8
18
8
1
N = 36

A1.2.) Reprezentri grafice univariante

Definiiile care urmeaz sunt formulate pentru distribuiile negrupate. n cazul distribuiilor grupate
termenii variante sau valoare trebuie nlocuite cu termenul clas.

Diagrama circular
Cerc format din sectoare pentru fiecare variant/valoare, xj astfel nct unghiul, respectiv aria fiecrui
sector s fie proporional() cu frecvena respectiv.
Ex. seria S1

Diagrama prin benzi sau bare


reprezentare caracteristic plan n care pe axa vertical avem marcate variantele/valorile, n fiecare
fiind construit o band orizontal de lungime proporional cu frecvena corespunztoare.
Benzile sunt dreptunghiuri nelipite i de aceeai lungime, de regul mult mai mic dect lumgimile lor.

Ex. seria S2

Diagrama prin coloane sau batoane


reprezentare cartezian plan, n care pe axa orizontal avem marcate variantele / variabile n fiecare
fiind construit pe vertical o coloan de nlime proporional cu frecvene corespunztoare.
Coloanele sunt dreptunghiuri nealipite i de aceeai lime, de regul mult mai mic dect nlimea lor.

Ex. seria 3

Poligon de frecvene
linia frnt format din segmentele care unesc mijloacele laturilor din vrfurile coloanelor consecutive
figurate n diagram prin coloane, fr a mai reprezenta i coloanele.
Ex. seria 3.

Valori aberante

10
36 de studeni au msurat lungimea palmei unuia dintre ei cu o precizie de 0,5mm, obinnd Ex. seria
S4

valori aberante = valori care contrasteaz puternic cu marea majoritate a celorlalte valori ale irului
Valorile aberante se elimin
S4 = S4, fr valorile aberante si ramane diagrama din dreapta coform desenului de mai jos.

A1.3.)Distribuii grupate pentru msurtori = histograma

Msurndu-se lungimea palmei drepte la 36 de studeni s-a obinut irul S5, grupat fr pierdere de
informaie, ca distribuie de frecvene este figurat n tabelul statistic urmtor, reprezentat apoi ca
diagram de batoane
Datorit distribuiei rare de-a lungul intervalului 160 190 se recomand o distribuie grupat, care se
poate tabela i reprezenta dup cum urmeaz:
irul 5
xj
Nj

160
3

165
1

166
2

167
7

168
3

169
1

170
3

173
3

174
2

175
1

178
3

179
1

184
3

190
3

11

Datorita distributiei rare dealungul intervalului 160 190 se recomanda o ditributie grupata care se
poate tabela si reprezenta dupa cum urmeaza.
irul 5
Interval de
clasa
Nj

[160,164]
mm
3

[165, 170]
mm
14

[171, 175]
mm
8

[176, 180]
mm
5

[181, 185]
mm
3

[186, 190]
mm
3

irul 5

O astfel de reprezentare se numeste histograma, ea contine dreptunghiuri alipite, deoarece intervalele de


grupare sunt intotdeauna alipite.
Histograma = reprezentare carteziana plana a unei distributii grupate, formata din dreptunghiuri alipite,
cu bazele plasate pe intervalele de grupare si cu ariile proportionale cu frecventa claselor.

A1.4.) Distribuii grupate pe variante [variabile] calitative i ranguri


Cazul variantelor
n cazul irului S1 (culoarea ochilor), putem comasa verde i albastru n clasa culorilor deschise (cd) i
culorile cprui i negru n clasa culorilor nchise (ci).
irul S1 (S1 comasat)
Variante
distincte
xj
(cd)

Variante
absolute
Nj
5

Frecvene relative
Fj = Nj/N
5/12

Frecvene (rel.) procentuale


Pj = 100 Fj %
100 5/12 42%

12
(ci)

100 7/12 58%

7
7/12

Diagrama circular (pie)

Cazul rangurilor
Gruparea notelor, n cazul S2 (notele studenilor)
notele 5 i 6 formeaz clasa Suficient, 7 i 8 clasa Bine, 9 i 10 clasa Foarte Bine.
Clasa
xj
Suficient [5, 7]
Bine [7, 9]
Foarte bine [9, 10]

Frecvene absolute
Nj
2
8
2

Frecvene relative
Fj = Nj/N
2/12
8/12
2/12

Frecvene (relativ)
procentuale
Fj = 100 2/12 17%
100 2/12 17%
100 8/12 66%
100 2/12 17%

In continuare prezentam diagrama circulara, diagrama prin coloane si histograma (clasele au fost
considerate intervale de grupare)

13

A.2. LIMBAJUL REPARTIIILOR (modul de grupare a msurtorilor)


O distribuie se numete unimodal, cnd are o singur mod, respectiv bimodal atunci cnd are dou
mode.
Rata fecunditii specific vrstei ( Microtus agrestis)

14

O mod este un punct de maxim local.


O distribuie bimodal, respectiv o distribuie multimodal pot fi considerate suma a dou, respectiv mai
multor distribuii unimodale.
O distribuie unimodal i simetric se consider a fi o distribuie cvasinormal, deoarece seamn cu
repartiia normal (Clopotul lui Gauss, curba erorilor).

Distribuia de frecvene a nlimii a 8500 de brbai din Anglia (Distribuia unimodal i simetric)
S-a lsat intenionat la sfrit forma de distribuie normal sau cvasinormal, pentru a atrage atenia c
este o greeal rspndit de a presupune aceast form de distribuie n spatele oricrui fenomen de
mas.
Pornind de la studiul formelor acestor distribuii eempirice sau teoretice se poate construi tabelul
prezentat n continuare.
Concluzii generale
1. De ce grupm?
Grupm (fr sau cu pierdere de informaie) pentru a obine un ctig de relevan.
2. Pentru ce grupm?
Grupm ca s sesizm (s ne ncadrm) n una din formele tip din tabelul prezentat.
Concluzii tehnice
Modul de tratare a fiecrei forme depinde de:
- eterogenitile vor fi tratate ca un amestec de dou sau mai multe omogeniti (adic distribuiile
bi sau multimodale, vor fi descompuse eventual prin decupare n dou respectiv n distribuii
unimodale.
- tendina central este cel mai bine exprimat de distribuiile unimodale simetrice; vom ncerca
s sintetizm prin transformri (de simetrie adecvate orice distribuie asimetric.
Forme tip de distribuii

15
concentrat ntr-un punct (1)

Exprima omogenitate absoluta

Unimodal simetric (1 moda )


neconcentrat ntr-un punct (2)
Exprima cel mai bine o tendinta
centrala
de stanga (3)
slab asimetrica
de dreapta (4)

de stanga (5)
Unimodal asimetric (1 moda )

puternic asimetrica
de dreapta (6)

de stanga (7) in forma de i


extrem asimetrica
de dreapta (8) in forma de j

Forme tip de distributie (continuare)


simetrica (9 ) - de exemplu in forma de u
Bimodala ( 2 mode )

asimetrica (10)

multimodala propriu-zisa (11)


( n > 2, mode )
Multimodala
(plurimodala)

Exprima eterogenitate, ca
amestec de 2 omogenitati
diferite

Exprima eterogenitate cu
amestec de n omogenitati
diferite (n > 2)

uniforma (12), numai mode - omnimodala


Exprima eterogenitate
absoluta

16

OBSERVAII
1. descompunerea, n particular decuparea n distribuii unimodale este obligatorie n cadrul statisticii
descriptive (atunci cnd o serie este tratat drept populaie statistic).
2. transformarea pentru simetrizare nu este obligatorie n statistica descriptiv, fiind productiva n
statistica inductiv.
A3. Gruparea msurtorilor
Nu poate exista o teorie matematic care s precizeze concret modul de grupare.
Modalitile de grupare pot fi alese de ctre fiecare specialist (medic, biolog, ecolog, biochimist) care
cunoate specificul material i obiectivele specifice.
Din experienele anterioare, statistica pune la dispoziie doar reguli empirice de grupare, dup cum
urmeaz:
grupm doar serii cu volume 50
Intervalele de grupare (intervalele de clas/clasele de grupare) sunt: 20-40; 10-15; 8-20; 15-25; 815,
se pot utiliza intervale de grupare egale sau inegale, dup particularitile datelor i interesul
urmrit.
A3.1.) Gruparea cu intervale de clas egale
n cazul intervalelor de grupare egale, exist unele formule empirice de calcul al
numrului de clase (nc).
nc 1+10/3 lgN ,
unde N = volumul seriei (formula lui Sturges)
Valoarea nc se rotunjete la un numr ntreg convenabil.
lungimea intervalului de clas (ic) se poate calcula cu relaia:
ic = (xmax xmin)/nc , unde xmax, xmin sunt cea mai mare, respectiv cea mai mic valoare din serie.
Valoarea ic se rotunjete convenabil.
Exemplu
Se con sider urmtoarea distribuie negrupat de frecvene, reprezentnd adncimi ale staiilor pentru
prelevare de probe din Delta Dunrii, perioada (1978 1993)
Se cere, gruparea cu intervale de clas egale
Adncimea
Adancimea
(cm) xj
95
Frecvena
1
Nj

100 105 110 120 125 130 134 135 140 147 148 150 153 155
4
1
3
4
4
4
1
2
4
1
1
7
1
3

xj
Nj

157 160 163 167 170 175 180 185 188 190 198 200 208 210 211 220
1
7
1
1
2
2
3
1
1
4
1
3
1
4
1
2

xj
Nj

240
3

257
1

290
1

17
Rezolvare:
Volumul N = 81 este mai mare ca 50, deci se poate grupa
Calculm numrul de clase nc
nc = 1+ 10/3 lgN = 1+ 10/3 lg 81 1+ 10/3 1, 91 7,36
Rotunjim convenabil valoarea 7,36 i obinem 8, deci nc = 8
Lungimea intervalului de clas:
ic = (xmax xmin) / nc = (290 95)/8 = 24,375
Rotunjim convenabil 24,375 i obinem ic = 25, deci ic = 25
Prima clas ncepe cu valoarea minim xmin = 95
Se obin astfel clasele distribuiei de frecvene propuse, cu intervale de grupare egale, conform tabelului
de mai jos (coloana 1)
Intervalele de clasa (xj, xj4)
[ 95,120)
[120,145)
[145,170)
[170,195)
[195,220)
[220,245)
[245,270)
[270,295)

Centrele intervalelor cj
107,5
132,5
157,5
182,5
207,5
232,5
257,5
282,5

Frecvenele absolute Nj
9
19
23
13
10
5
1
1

Pentru construirea histogramei se vor utiliza coloana 1 i coloana 3 din tabelul de mai sus.
Pentru constituirea poligonului frecvenelor pentru aceast distribuie grupat se calculeaz col. 2 din
tabelul de mai sus (centrele intervalelor) i se utilizeaz coloanele 2 i 3.

18

Se observ c aceast distribuie empiric este o distribuie unimodal, asimetric de stnga.


Concluzii:
n zona din Delta Dunrii analizat, predomin adncimi de cca 160 cm, urmeaz adncimile mai mici
lng maluri, dar exist i gropi de cca 2-3 m.
B. SINTEZA NUMERIC UNIVARIAT,
se refer la aspecte de variabilitate i reprezint un instrument complementar sintezei grafice, care ofer
msuri obiective i exacte (conform tabel din pag. 2/3)
Cantitativ variabilitatea este conceput ca o mprtiere, iar calitativ variabilitatea se poate denumi
diversitate.
Modul de gndire cantitativ se aplic variabilelor cantitative, calitative binare sau binarizate i se
realizeaz n indicatori (valori tipice) de:
- localizare, poziionare a tendinei centrale, poziionare a tendinelor extreme, de poziionare a
tendinelor intermediare.
- mprtiere (variabilitate, dispersie) de regul n jurul tendinei centrale.
Pentru variabile cantitative continue sau compatibile cu variabilele continue se calculeaz i indicatori
de:
- form (pentru compararea cu o distribuie normal).
C. TRATAREA UNEI VARIABILE CANTITATIVE (indicatori de tendin central)
C1. Condiiile lui Yule asupra indicatorilor de tendin central:
a. s fie definit n mod obiectiv, independent de aprecierea subiectiv a cercettorului;
b. s fie expresia tuturor termenilor repartiiei (seriei)
c. s posede proprieti simple, evidente, fcnd posibile nelegerea sensului su general;
d. s poate fi calculat cu uurin i rapiditate;
e. s se preteze uor la calcule algebrice ulterioare;
f. n cazul eantioanelor, s nu fie afectat de fluctuaiile de selecie (n particular de valorile
aberante)
Vom analiza urmtorii indicatori de tendin central: moda, mediana i media aritmetic.
C2. Moda (modul, dominant, valoare modal, valoare dominant)

19

Definiii: n cazul unei curbe de frecven (distribuia continu a unei variabile continue)
mod = punct de maxim local.
Valorile 2 i 4 sunt mode pentru distribuia continu, deoarece sunt puncte de maxim local.
n cazul seriilor statistice pentru sesizarea modelor, datele trebuie s fie prezentate n distribuii de
frecvene (negrupate). n cazul utilizrii intervalelor de grupare obinndu-se distribuii de frecvene
grupate, n loc de mode se vorbete despre intervale modale.
n continuare, se vor analiza numai distribuiile negrupate.
Mod = valoarea cu frecvena maxim local n distribuie de frecvene.
Pentru observarea modelor, n acest caz, este necesar gruparea datelor seriilor statistice n distribuii de
frecvene grupate sau nu.
Exemplu:
xj
Nj

2
1

4
3

6
2

8
7

10
5

unde 4 i 8 sunt mode deoarece 3 i 7 sunt frecvene maxime locale.


Proprieti:
a) Modele induc clasificarea n distribuii unimodale, respectiv multimodale, clasificare esenial n
gndirea statisticii clasice.
b) Nu se preteaz la calcule algebrice.
C3. Mediana
Notaie: Me (pentru populaia statistic)
x pentru eantioane
Definiie:
n cazul unei curbe de frecvene (distribuia continu a unei variabile continue), mediana este valoarea
care mparte aria de sub curba de frecvene n dou arii egale A1 = A2 (fiecare arie reprezentnd 50%
din ntreaga arie de sub curb).

20
4,5
4
3,5
3
2,5

A1

2
1,5

A2

1
0,5
0
0

Me

n cazul seriilor statistice:


mediana = Valoarea care mparte seria statistic ordonat n dou subserii de volume egale, volumele
fiind msurate n uniti statistice i eventual jumti ale acestora.
a) Dac seria are numr impar de valori, 2k+1, mediana este unic determinat de definiie i este
valoarea xk+1, din seria ordonat.
b) Dac seria are un numr par de valori, 2k, definiia este satisfcut de orice numr cuprins ntre
xk i xkM, din seria ordonat.
Pentru unicitatea soluiei, se ia prin convenie, drept median, semi-suma valorilor xkM, din seria
ordonat.
Exemple:
a) Fie seria ordonat 1, 3, 7, 8, 12 ( 5 termeni nr. impar)
Me = 7
Considerm c valoarea 7 se afl n mijlocul seriei ordonate de volum impar.
Practic rg (5/2) = 2,5 (nr. fracionar care se rotunjete prin adaos la 3, de Me = termenul de rang 3, deci
7.
b) Fie seria ordonat cu 4 termeni, 1, 3, 6, 18
Conform definiiei, orice rang ntre 3 i 6 (3, 7; 4, 5; 5, 2), Me este semisuma termenilor din mijlocul
seriei ordonate = (3+6) / 2 = 4,5
Practic rg (4/2) = 2 (nr. ntreg), deci Me = semisuma termenilor de rang 2 i 3 = 4,5
Proprieti
a. mediana este relativ uor de observat i de calculat
b. exprim cel mai bine tendina central (n special distribuiile asimetrice)
c. mediana trateaz valorile ca pe ranguri
d. nu este sensibil la valori extreme (n particular la valori aberante)
e. se poate calcula i pentru serii pentru care nu se poate calcula exact media (valorile extreme nu
sunt cunoscute)
f. mediana este un element al irului, cnd irul are un numr impar de termeni.
Alte denumiri :
Toxicologie: LD50 = Lethal Dose 50 = Doza letala 50 = Doza care omoara 50% din indivizii care au
fost intocsicati cu doza respectiva.
Farmacologie : ED 50 = Effect Dose 50 = Doza care are efect asupra 50% din indivizii tratati cu doza
Respectiva.
Biologia populatiilor : Media de viata
Mortalitatea populatiei in functie de varsta pe o curba de frecvente, are o mediana care
Reprezinta varsta pana la care au murit 50% din indivizii populatiei respective.

21
C.4. Media (aritmetic)
Termenul medie este folosit, n sens general de indicator de tendina central i n sens restrns de
medie aritmetic.
Notaii: M pentru populaii statistice n general
pentru populaii statistice teoretice
x, m pentru eantioane.
Definiii:
a) In cazul unei serii statistice formate din N valori distincte (sau nu) x1, x2 xk, . xN, media M
este suma valorilor seriei mprit la volumul seriei.
Nj=1 xj

( formula mediei simple )

M=
N
b) n cazul unei serii statistice grupat n distribuia de frecvene absolute (xj, Nj), ale celor p (N))
valori distincte xj, media M va fi dat de formula:
pj=1 Nj . xj

( formula mediei ponderate )

M=
pj=1 Nj
Frecvena Nj se va numi pondere absolut a valorii xj, iar pj=1 Nj = N, volumul seriei.
Exemple
Fie seria de 6 valori:
1, 4, 2, 2, 1, 2
M = (1+4+2+2+2+1+2) / 6 = 12/6 = 2
M = 2 este media simpl
xj
Nj

1
2

2
3

4
1

N=6
M = 2 1 = 3 2 + 1 4) / (2 + 3 + 1) = 12/6 = 2
M = 2 este media ponderat a seriei de valori distincte
1, 2, 4 cu ponderile 2, 3, 1
Media simpl a seriei (1, 2, 4) M = (1+2+4)/3 = 2,33
Proprieti:
a. se preteaz la calcule algebrice ulterioare
b. media aritmetic ia n considerare toate valorile seriei cu ntreaga lor informaie
c. oarecum dificil de calculat manual
d. este sensibil la valorile extreme (n particular la cele aberante).
C.5. Indicatorii de localizare a tendinelor extreme sau intermediare, valabili pentru orice distribuii
Ex. val. min i val.max dintr-un ir (localizarea extremelor).
Generaliznd modelul geometric al medianei vom introduce o gam frecvent utilizat de indicatori de
localizare (cuartilele, decilele, centilele)

22

C.5.1. Cuartile
Notaie: Q1, Q2, Q3
Definiii
n cazul unei curbe de frecvene (distribuia continu a unei variabile continue), cuartilele sunt cele 3
puncte care mpart aria de sub curba de frecvene n 4 arii egale A1 = A2 = A3 = A4 (fiecare arie
reprezentnd 25% din ntreaga arie de sub curb).
4,5
4
3,5
3
2,5
2
1,5

A1

A2

A3

A4

0,5
0
0

Q1

Q2

Q3

Q2 = mediana
n cazul seriilor statistice cuartilele sunt 3 valori care mpart seria statistic, ordonat cresctor, n 4
subserii de volume egale (volumele fiind msurate n numr de uniti statistice).
Q1 = cuartila inferioar, las la stnga sa, n seria statistic ordonat cresctor, 25% din termeni i
eventual ptrimi ale acestora.
Q2 = mediana
Q3 = cuarial superioar, i las la stnga sa, n seria statistic ordonat cresctor, 75% din i eventual
ptrimi ale acestora.
Exemplu:
Fie seria de 6 concentraii de oxigen msurate n mg/l, n ap din Delta Dunrii i ordonate cresctor.
3,2

Ranguri

5,9

6,6

7,35

8,1

9,3

9,8

Considerm numerele ordonate ca nite mrgele nirate pe o a, la diverse distane.


Strngem mrgelele unele lng altele, definind distanele. n acest fel, numerele devin ranguri:
Tiem acest nou irag n 4 pri egale de cte o mrgea i jumtate.
Quartila inferioar Q1 va tia mijlocul, mrgelei a 2-a, adic va fi 5,9
Mediana = Q2, va cdea ntre cea de-a 3-a i a 4-a mrgea (va fi semisuma acestora
Me = (6,6 + 8,1)/2 = 7,35
Quartila superioar Q3 va tia mijlocul mrgelei a 5-a, adic va fi 9,3
Practic cuartilele Q1, Q2, Q3 se vor face astfel, conform conveniilor introduse, mai sus:
- ordonm ascendent seria de volum N

23
-

calculm rangul cuartilei respective rg (Ql) = N (l/4)


dac rg (Ql) este numr fracionar, l restrngem prin adaos i Ql este semisuma dintre termenul
cu rangul rg i urmtorul termen
3,1
x1

5,9
x2

(rang)

6,6
x3

8,1
x4

9,3
x5

9,8
x6

rg(Q1) = 6 (1/4) = 1 1/2

, rotunjit prin adaos = 2 Q1 = x2 (5,9)

rg(Q2) = 6 (2/4) = 3, Q2 = Me = (x3+x4) / 2, (x3, x4 din serie ordonate cresctor)


(6,6+8,1) / 2= 7,35
rg(Q3) = 6 (3/4) = 4 1/2

, rotunjit prin adaos = 5 Q3 = x5 (9,3)

Ex. : Seria este de volum 4 ordonat ascendent


1,

2,

8, 8

1,5 5 8
Q1 Q2 Q3
Ex. : Seria de volum 5
1

2
2
Q1

3
3
Q2

8,

7
7
Q3

7,

3,

1,

; ordonm ascendent:

C.5.2. Decile i centile


Analog, se ntrunesc noiunile de decile (D1, D2, D9) i de (per)centile (C1, C2, C99), respectiv de
decil inferioar (D1), decila superioar (D9), centila inferioar (C1) i centila superioar (C99).
Algoritmul de calcul al acestora se obine nlocuind n algoritmul de calcul al cuartilelor, expresia N
(l/4) cu N (l/10), respectiv au N (l/100).
Metod de calcul rapid al centilelor
Etapa 1
Se pornete de la distribuia de frecvene relative procentuale (conform primele 2 coloane din tabelul
urmtor). n col. 1 sunt trecute distinct i ordonat ascendent valorile seriei, n coloana 2 sunt nscrise
frecvenele relative procentuale ale valorilor din prima coloan (n procente).
Etapa 2
Se calculeaz coloana 3, care cuprinde frecvenele relative procentuale cumulate (procentele cumulate)
prin cumularea frecvenelor relative procentuale.
Exemplu: S-a msurat greutatea (kg) pt . 103 biei de cca 17 ani calculndu-se procentele valorilor
distincte i procentele cumulate. S-a obinut tabelul urmtor:
Etapa 3
Determinarea centilei dorit
Kg.
Greut.
%
distinct
%

col.
1
col.
2
col.

44

46

47

49

51

52

53

54

55

56

57

58

59

60

61

62

1,0

1,9

1,9

2,9

1,0

1,9

1,0

6,8

3,9

7,8

2,9

1,0

4,9

6,8

7,8

5,8

1,0

2,9

4,8

7,7

8,7

10,6

11,6

18,4

22,3

3,01

33,0

34,0

38,9

45,7

53,5

59,3

24
cumul

Kg.
Greut.
%
distinct
%
cumul

col.
1
col.
2
col.
3

63

63,5

64

65

66

67

68

69

70

71

72

75

77

80

1,0

1,0

7,8

6,8

2,9

1,9

1,0

6,8

2,9

3,9

1,0

1,9

1,0

1,8

60,3

61,3

39,1

75,9

78,8

80,7

81,7

88,5

91,4

95,3

93,3

98,2

99,2

100

Se caut n coloana 3, cel mai apropiat procent mai mare sau egal cu indicele centilei respective.
Dac procentul cumulat, astfel determinat, este mai mare strict dect indicele centilei, valoarea din
coloana 1 de pe aceeai linie va fi centila cutat.
n caz de egalitate, centila va fi semisuma dintre valoarea din coloana 1 de pe aceeai linie i valoarea
de pe linia urmtoare.
Pentru centila C3, gsim procentul cumulat 4,8 care este pe linia valorii 47. Deoarece 4,8 > 3, rezult c
C3 = 47
n mod analog, pentru centila C33, gsim procentul cumulat 33, care este pe linia valorii 57.
Procentul cumulat este egal cu indicele centilei C33 = (57+58)/2 = 57,5
C.6. Indicatori de mprtiere
Indicatorii de mprtiere se raporteaz la indicatorii de localizare, existnd asemenea indicatori, bazai
pe :
- indicatori de tendin extrem (amplitudine)
- indicatori de tendin intermediar (intercuartila)
- indicatori de tentin central (dispersia, abaterea standard, coeficientul de variaie)
C.6.1. Amplitudinea
Notaii:
A,
Definiie:
Amplitudinea este diferena dintre valoarea maxim i valoarea minim din serie: A =
xmax xmin
Exemplu: s se calculeze amplitudinea seriei: 30. 30, 26, 32, 30
A = 32 26 = 6
Proprieti:
a) ofer o imagine general asupra mprtierii
b) consider doar valorile extreme
c) sensibil la valorile extreme (n particular la valorile aberante)
d) nu se preteaz la calcule algebrice
C.6.2. Intercuartil
Notaie: IQ
Definiie: Intercuartila reprezint intervalul intercuartil (abaterea cuartil este diferena ntre cuartila
superioar i cuartila inferioar (Q3 Q1)
Curba de frecven
4,5
4
3,5
3
2,5
2
1,5

A1

A2

A3

A4

0,5
0
0

xmin

Q1

Q2

Q3

xmax

25
Q3 Q1 = Intercuartila
xmax xmin = Amplitudinea (A)
Proprieti
a. Intercuartila exprim abaterea fa de median a aproximativ 40% dintre valori.
b. Nu consider valorile extreme (n particular valorile aberante)
c. Ofer o indicaie despre mprtierea celor 50% din valorile grupate n centrul repartiiei, astfel:
dac IQ <= A/2, distribuia este intens concentrat
dac IQ > A/2, distribuia este intens dispersat.
d. Nu se preteaz la calcule algebrice.
C.6.3. Dispersia (Variaia/fluctuaia/sigma ptrat 2)
Notaie: S2 (pentru populaii n general) 2 pentru populaii teoretice) s2 (pentru eantioane).
Definiii:
a) n cazul unei serii statistice formate din N valori distincte sau nu x1, x2, x3 xj, xN dispersia
este media ptratelor abaterilor (valorilor seriei) fa de media seriei :
Nj=1 (xj - M)2
(1) S2 =
N
b) n cazul unei serii statistice grupate n distribuia de frecvene absolute (xj, Nj) ale celor p (< =N)
valori distincte xj dispersia va fi dat de formula:
pj=1 Nj . (xj - M)2
(2) M=
pj=1 Nj
,unde pj=1 Nj = N (volumul seriei)
Numaratorul din expresiile (1) si (2)
numeste variatia seriei.

Nj=1 (xj - M)2 ;

pj=1 Nj . (xj - M)2

se noteaza cu V si se

Proprietile dispersiei:
a) Este o valoare pozitiv sau nul, fiind o sum de ptrate (este nul dac irul este constant);
b) Se utilizeaz pentru:
b1. Compararea variabilitii unui caracter n dou sau mai multe populaii pentru care datele au
acelai ordin de mrime
b2. compararea a dou sau mai multe caractere ale aceleiai populaii, dac acestea sunt
exprimate n aceeai unitate de msur i valorile au acelai ordin de mrime (medii apropiate),
c) ine cont de toate valorile din cadrul seriei;
d) Numrtorul expresiei sale, variaia, ndeplinete o proprietate de aditivitate.
e) Este sensibil la valorile extreme (n particular, la cele aberante)
f) Are alt ordin de mrime fa de datele iniiale i medie (se exprim n unitatea de msur a datelor
ridicat la ptrat).
C 7.4. Abaterea standard (abaterea medie ptratic / derivaia standard / -ul seriei / abaterea tip

26
SD serie - Standard Derivation).
Notaii:

S pentru populaii statistice n general,


pentru populaii statistice teoretice
s pentru eantioane

Definiie: Rdcina ptrat din dispersie,


Nj=1 (xj - M)2
S =

N = volumul seriei

N
Serii statistice grupate n distribuia de frecvene absolute (xj, Nj), a celor p N valori distincte, xj

pj=1 Nj . (xj - M)2


S=
pj=1 Nj
Proprieti
a) Variante abatere standard :
este un numr pozitiv sau nul, fiind rezultatul extragerii unui radical de ordin par;
este nul dac i numai dac irul este constant
b) Se utilizeaz pentru:
Compararea variabilitii unui caracter n dou sau mai multe populaii pentru care datele au acelai
ordin de mrime (medii apropiate);
Compararea a dou sau mai multe caractere ale aceleiai populaii, dac acestea sunt exprimate n
aceeai unitate de mrime (medii apropiate)
c) ine cont de toate valorile din cadrul seriei
d) Au alt ordin de mrime fa de datele iniiale i medie
C.7.5. Coeficientul de variaie
Notaii: CV%, CV, Cv, V
Definiie: Fie o serie de valori pe o scal raport. Coeficient de variaie = proporia reprezentat de
abaterea standard (S) din medie (M):
CV = S / M = S*100 / M % = CV%
Se utilizeaz des, n exprimarea procentuala notat CV% (coeficient procentual de variaie) =
procentul reprezentat de abaterea standard (S) din medie (M).
Proprieti:
a) CV% > = 0, deoarece S > = 0 i M > 0, fiindc orice ir pe o scal raport nu are valori negative i
nici medie negativ.
b) CN% = 0, daca S = 0, adic dac irul de date este constant.

27
c) Se utilizeaz n special atunci cnd nu pot fi utilizate dispersia sau abaterea standard, n scopul
comparrii variabilitii:
unui caracter n doua sau mai multe populaii dac valorile msurate au ordine de mrime
diferite;

doua sau mai multe caractere n aceeai populaie, dac acestea sunt exprimate, fie n uniti de
msur diferite, fie n aceeai uniti de msura, dar diferite.

d) Se poate utiliza i n cazurile recomandate pentru folosirea dispersiei sau abaterii standard;
coeficientul de variaie este indicatorul universal de comparare a variabilitii, pe scala raport.
e) ine cont de toate valorile din cadrul seriei
f) CV% este independent de unitatea de msur folosit pentru valorile seriei, este adimensional i se
exprim procentual.
g) Este sensibil la valorile extreme (inclusiv la valori aberante).
h) Valabil numai pentru msurtorile pe scale raport.
C.8. Distribuia normal

( curb a erorilor - de msurare ntmpltoare / clopot a lui Gauss /


distribuie Laplace )

Descriere:
Distribuie continu n form de clopot (unimodal i simetric)
Este caracterizat de doi parametri specifici pentru i
media aritmetic
abatere standard
4,5
4
3,5

punct de inflecsiune

2,5
2
1,5
1
0,5
0
0

Are doua puncte de inflexiune situate simetric fa de vertical x = , la distana

Distribuie normal i consultarea tabelei corespunztoare


Dintre distribuiile normale se distinge distribuia cu = 0 i = 1, care se numete distribuia normal
standard i se noteaz N (0,1).
C.8.1. Determinarea ariilor la dreapta punctelor i a cuartilelor superioare
Se poate realiza direct prin consultarea tabelei de cuartile superioare din anexa 1 la acest material.
Utilizarea tabelei:

28
a) pentru determinarea proporiei de ani (aria relativ ) aflat sub distribuia normal standard
la dreapta unui punct dat, z.
b) pentru determinarea punctului z care las la dreapta sa, sub distribuia normal standard, aria
relativ

Exemplu
a) Aria relativ se afl la dreapta punctului z = 1,64 se obine citind n tabela a doua din anexa 1,
valoarea nscris la intersecia liniei 1,6 cu coloana 0,4 (care nsumate dau valoarea 1,64). Se
obine = 0,0505 = 0,05 = 5%.

0
z = 1,6 + 0,04 = 1,64
b) Valoarea z care las la dreapta sa aria relativ = 0,05 se afl cutnd n aceeai tabel o
valoare ct mai apropiat de valoarea cutat. n acest caz, aceasta poate fi 0,050 sau 0,495
(ambele la aceeai distan de = 0,05). Alegem una dintre acestea de exemplu 0,0505 i citim
pe linie valoarea 1,6, iar pe coloana corespunztoare, 0,04. Valoarea z va fi suma dintre ultimele
dou numere: z = 1,6 + 0,64 = 1,64.
Reinem c aria relativ aflat la dreapta unui punct sub distribuia normal standard este tabelat
(anexa 1) iar aria din stnga este complementul fa de 1 al ariei tabelate.
C.9. Tratarea unei variabile calitative
Tratarea calitativ a unei variabile calitative
O variabil calitativ se manifest printr-o serie statistic univariat, calitativ (xi) i = 1, 2, N unde
xi sunt variante distincte ale variabilei.
Exemplu:
Se d seria de culori ale unor flori:
( alb, rou, galben, alb, verde, alb, rou, galben, alb, alb )
Seria prezentat grupat ca o distribuie de frecvene absolute ale variantelor distincte xj, arat astfel:
xj
Nj
unde

(xj, Nj)j = 1, p
j = 1, p

pj=1 Nj = N
alb

rou

galben

verde

29
Seria din exemplu devine:
5

Distribuia de frecvene relative al variabilelor distincte xj, notat


xj

(xj, Fj)j = 1, p

Fj

j = 1, p

unde

pj=1 Fj = 1
alb

rou

galben

verde

5/10

2/10

2/10

1/10

n cazul nostru:
Binarizarea unei variabile calitative
Tratarea cantitativ a unei variabile calitative presupune studierea unei singure variante n opoziie
cu ceea ce rmne n afara ei = binarizarea variabilei calitative.
n exemplul de mai sus, dac ne intereseaz doar culoarea alb, n opoziie cu celelalte culori,
sintetizm distribuia binar
alb

non-alb

5/10

5/10

n general , pentru o distribuie de frecvene relative a unei variabile calitative:


x1, x2. xp
F1, F2..Fp
dac ne intereseaz variaia xj n opoziie cu restul, sintetizm distribuia binar
x

non x

1- F

30

Statistica descriptiva univarianta (tabel sintetic)


Variabila
cantitativa
tip masuratoare

S
i
n
t
e
z
a

g
r
a
f
i
c
a

Grupare in
Reprezentari histograma
grafice tip

tip rang
tabel statistic simplu
diagrama cu batoane

calitativa
diagrama circulara

poligon de frecvente

d
a
t
e
l
o
r
n
u
m
e
r
i
c
a

In valori tipice de :
Tendinta
M (media)
centrala
Variabilitate
ca
imprastiere
Variabilitate
ca
diversitate

Me (mediana)

Mo (moda)

S (abaterea standard)
IQ (intercartila)
2
S (dispersia )
A (amplitudinea)
CV% (coeficientul de variatie)

Pentru variabile
binarizate :
proportiile p, q (= 1-p)
Pentru variabile
binarizate :
S2 si S specifice
S2 = p*q ; S = p*q
p (numar de variante),
impreuna cu Hrel
(entropia relativa)

31