Sunteți pe pagina 1din 32

1

STATISTICA MATEMATICA
Constructii an II
- Note de curs -

Statistica nu are ca obiect studiul fiecrui element al mulimii, ci descrierea global a
fenomenului.
Statistica matematica se ocupa de gruparea, analiza si interpretarea datelor referitoare la
un anumit fenomen precum si cu unele previziuni privind producerea lui viitoare.
Statistica este descriptiv sau formal, cnd se ocup cu culegerea i nregistrarea datelor i
matematic, cnd analizeaz, interpreteaz sau efectueaz previziuni.

Etapele analizei statistice


Observarea statistic. Elemente de teoria eantionrii
Statistica lucreaz cu dou noiuni fundamentale:
populaie = mulimea entitilor (persoane, obiecte, fapte, fenomene, etc.) supuse studiului
statistic (Entitile se numesc indivizi, membri, elemente sau uniti statistice)
i
2

eantion (eantion statistic) = o submulime finit de elemente din populaie asupra creia
se fac msurtorile.
Exist diferene ntre caracteristicile (proprietile) unui eantion i cele ale ntregii
populaii. Fiecare caracteristic se consider, matematic, o variabil, prin urmare, o entitate,
desemnat printr-un nume simbolic, care primete valori.

Metodele statistice pot fi mprite n 2 categorii: statistica descriptiv i statistica
inferenial.
Statistic descriptiv const n ceea ce spune numele: metode de descriere.
- Necesitatea descrierii unei variabile este impus de variaia valorilor variabilei
- Descrierea este, de regul, sub form numeric
- Pentru a constritui informaie utilizabil, descrierea trebuie s fie succint. De aici apariia
rezumatelor statistice cum ar fi: media, dispersia etc.
- Orice descriere necesit cheltuieli i din acest motiv, ca i din altele, datele prelucrate sunt
valoroase i trebuie tratate ca atare
- Orice descriere este afectat de erori
Statistica inferenial const n tehnicile prin care se pot deduce (infera) caracteristicile unei
populaii din observaiile efectuate asupra unui eantion din acea populaie.
- Tehnicile statisticii infereniale sunt impuse de faptul c n marea majoritate a cazurilor, este
de interes descrierea populaiei i nu a eantionului observat.
- Generalizarea la nivelul populaiei a unui rezultat propriu unui eantion este, de multe ori,
implicit.

Distribuia unei variabile este determinat de mulimea valorilor nregistrate. Se urmresc
un set de parametri, ca: median i medie aritmetic sau dispersie, abaterea medie ptratic,
quantil, momente centrate i coeficient de variaie.
Variabilele statistice pot fi mprite n trei categorii:
- dup natura valorii atribuite:
1. Cantitative - val. msurate de tip numeric: naturale, ntregi, reale, etc.
2. Calitative val. obinute snt calificative: mic/mare, bun/ru, succes/insucces, etc.;
- dup tipul scalei de msur utilizat:
1. Discrete. val. snt msurate pe scale nominale sau ordinale,
2. Continue. val. snt msurate pe scale de interval sau de reper;
- dup scopul folosirii lor:
3

1. Independente. Ele snt manipulate de ctre cercettor n procesul studiat,
2. Dependente. Ele snt supuse observaiei, urmrindu-se gradul lor de corelare cu una sau
mai multe variabile

Rezultatul msurtorilor pe un eantion se numete estimaie (sau statistic, rezumat
statistic), iar prin metode statistice din eantion se obin, pentru ntreaga populaie, valori fixe ale
parametrilor urmrii.


Exist posibilitatea ca dou eantioane bine alese cu estimaii diferite, dar apropiate, s
furnizeze aceleai valori pentru parametrii populaiei.

Strategie inferenial (A)


Strategia inferenial se desfoar conform cu etapele urmtoare:
- se fixeaz populaia ai crei parametri se doresc a fi aflai, pe baza unui anumit criteriu;
- se selecteaz aleator (la ntmplare) un eantion din populaia respectiv;
- se strng informaii despre eantionul respectiv;
- se calculeaz valoarea unei statistici, cel mai adesea o medie aritmetic sau o proporie (adic, se
calculeaz statisticile care reflect parametrii corespunztori);
- se infer pe baza distribuiei de eantionare a acelor statistici i pe baza legilor de probabilitate
asupra parametrilor populaiei.

Populaia statistic este orice mulime care formeaz obiectul unei analize statistice.
Elementele unei populaii statistice se numesc uniti statistice sau indivizi. Numarul de elemente
care constituie populatia se numeste volumul populatiei (efectivul total).

4

Trstura (proprietatea) comun a tuturor unitilor unei populaii statistice se numete
caracteristic sau (variabil).
Caracteristicile cantitative pot fi discrete (sau discontinue) daca variabila statistica ia valor finite
sau continue daca variabila poate lua orice valoare dintr-un interval finit sau infinit.


Serie statistic
Fie o populaie statistic X care ia valori x
1
, x
2
, ..., x
p
i n
i
, 1 s i s p, numrul de indivizi pentru
caracteristica X ia valoarea x
i
. Mulimea perechilor (x
i
, n
i
), 1 s i s n, este o serie statistic.
Numerele n
i
le vom numi efective, frecvenele absolute sau frecvene.
O serie statistic este, de obicei, prezentat sub forma unui tabel de tipul urmtor:

Valoarea
caracteristicii
x
1
x
2
... x
i
... x
p
Frecvene n
1
n
2
... n
i
... n
p
|
|
.
|

\
|
n
n
i
i
p
x
n
x
p p
x x
...
...
...
...
2 1
2 1


Intervale (clase) x
o
- x
1
x
1
x
2
... x
p-1
- x
p
Frecvene n
i
n
2
... n
p
*
un interval (clas) (x
i
, x
i+1
) se citete de la x
i
la x
i+1
sau ntre x
i
i x
i+1
.

Se numete frecven absolut a unei valori x a caracteristicii, numrul de uniti ale populaiei
corespunzatoare acestei valori.
Se numete frecvena relativ a unei valori x
i
a caracteristicii raportul dintre frecventa absoluta n
i
a
valorii x
i
si efectivul total al populatiei.
N
n
i f
i
= ) (

Notaii standard:
X - caracteristica studiat, eventual cu indici, dac este cazul;
x
i

- elementele eantionului studiat;
n
i
- valori brute obinute din msurtori pe eantionul dat;
n - volumul eantionului;
N - volumul populaiei din care s-a extras eantionul.
f(x) frecvena relativ a valorii x
5


Fie (x
i
, n
i
) o serie statistic.

=
=
i
k
k i
n N
1
se numete frecvena absolut cumulat cresctoare a
valorii x
i
.
Fie (x
i
, n
i
) o serie statistic.

=
= '
p
i k
k i
n N se numete frecvena absolut cumulat descresctoare a
valorii x
i

Fie (x
i
, n
i
) o serie statistic cu efectivul total N. Numrul
N
n
f
i
i
= se numete frecvena relativ a
valorii x
i
.
Frecvena absolut cumulat cresctoare a unei clase este suma frecvenelor absolute ale tuturor
claselor care apar pn la clasa considerat inclusiv.
Frecvena absolut cumulat descresctoare a unei clase este suma frecvenelor absolute ale
tuturor claselor care apar de la clasa considerat inclusiv.

O serie (x
i
, n
i
) unde x
i
reprezint un timp sau un interval de timp, iar n
i
valoarea corespunztoare
unei mrimi (care evolueaz n timp) se numete serie cronologic.

Reprezentarea grafic a seriilor statistice
Reprezentarea grafic a unei serii statistice este uneori foarte sugestiv, contribuind la prima
interpretare intuitiv, pe cale vizual a datelor (faciliteaz nelegerea semnificaiei datelor
numerice). Reprezentrile grafice sunt forme intuitive de prezentare a distribuiilor de frecvene (o
imagine face mai mult dect o mie de cuvinte).

Un grafic eficient este o combinaie reuit ntre form i coninutul statistic pe care l
reflect. Realizarea acestei combinaii depinde de respectarea ctorva principii eseniale:
- Focalizarea pe coninutul i nu pe forma graficului
- Este recomandabil s fie utilizate grafice care favorizeaz comparaii ntre variabile i nu doar
reprezentri individuale, statice, ale acestora
- Fiecare grafic trebuie s serveasc un singur scop, exprimat clar i evident
- Orice grafic va fi nsoit de informaii statistice i descrierile necesare pentru a fi uor i corect
neles
- Un grafic trebuie s scoat n eviden datele i nu abilitile tehnice de editare ale celui care
l-a creat.

6

Formele de expresie grafic a datelor statistice sunt foarte numeroase. Cele mai utilizate
metode n grafic: diagrama, histograma, poligonul frecvenelor, curba frecvenelor cumulate,
graficul circular i graficul de tip stem and leaf (tulpin i frunze).

Graficul unei serii statistice se numete diagram. Reprezint cel mai simplu mod de
reprezentare grafic a datelor. Se utilizez atunci cnd dorim s reprezentm o variabil discret
(care prezint valori ntregi, de exemplu, numrul de rspunsuri corecte la un test n funcie de
nivelul de instruire al subiecilor).
n mod obinuit, un grafic se prezint ca o imagine inclus ntr-un sistem de axe perpendiculare:
- Axa orizontal (Ox) pe care sunt valorile distribuiei
- Axa vertical (Oy) pe care sunt reprezentate frecvenele fiecrei valori, sub forma unei bare
rectangulare


A. Reprezentarea seriilor cu caracteristic cantitativ
1. Diagrame n batoane pe axa absciselor unui sistem de axe ortogonal xOy se consider
valorile caracteristicii x
i
; pe axa ordonatelor se consider efectivele (frecvenele absolute) n
i
.
2. Diagrama prin coloane - coloanele sunt dreptunghiuri cu bazele egale i nlimile
proporionale cu efectivele(frecvenele absolute) ale unei serii statistice.
Diagrama prin coloane poate fi graficul unei serii cu valori mari ale efectivelor, spre
deosebire de diagrama prin batoane, ceea ce face ca acest tip de diagram s fie cel mai
utilizat n statistic. Dreptunghiurile din diagrama prin coloane pot fi aezate orizontal i
atunci reprezentarea grafic se numete diagram prin benzi.
3. Histograme - pe axa Ox a unui sistem de axe ortogonale xOy se construiete o succesiune
de segmente proporionale cu clasele caracteristicii; fiecare segment de pe axa Ox este baza
unui dreptunghi cu nlimea proporional cu frecvenele absolute (efectivele) claselor. La
prima vedere, histograma este asemntoare cu graficul de tip bar. Ea este adecvat pentru
situaiile cnd variabila de care dorim s o reprezentm este de tip continuu (adic poate
lua orice valoare pe o scal numeric).
7

Iat, de exemplu, histograma distribuiei de frecvene. Se observ o grupare de frecvene,
afind pe axa Ox limita minim a intervalului ca etichet a acestuia.


4. Poligonul frecvenelor: pe axa Ox se reprezint intervalele de timp (x
i
, x
i+1
) 1 s i s p; pe
axa Oy se reprezint frecvenele absolute n
i
, 1 s i s q; se unesc succesiv punctele de
coordonate (m
i
, n
i
) unde m
i
sunt coordonatele mijloacelor segmentelor (x
i
, x
i+1
). Este o
reprezentare alternativ la histogram. Punctele centrale ale suprafeelor rectangulare care
reprezint frecvena sunt unite cu o linie care delimiteaz suprafaa poligonului.

Poligonul frecvenelor cumulate (cresctoare) se obine unind succesiv, printr-o linie
poligonal, punctele de coordonate (x
i+1
, n
j+1
) unde x
i+1
este extremitatea dreapt a
intervalului (x
i
, x
i+1
), iar n
i+1
frecvena cumulat a clasei (x
i
, x
i+1
) sa corespunztoare valorii
x
i+1.
Pe acest grafic se vede cu uurin cte valori se afl pn la o anumit valoare din
distribuie.


8


B. Reprezentarea seriilor cronologice
5. Cronograme: se reprezint grafic, de regul, prin poligoane de frecven sau cronograme;
pe axa Ox se reprezint momentele x
i
sau intervalele de timp (x
i
, x
i+1
); pe axa Oy se
reprezint efectivele n
i
; unind succesiv punctele de coordonate (x
i
, x
i
), 1 s i s p sau (m
i
, n
i
),
1 s i s p unde m
i
sunt mijloacele segmentelor (x
i
, x
i+1
) se obine cronograma sau histograma
respectiv.

C. Alte modaliti de reprezentare a seriilor statistice
6. Diagrame circulare cercul reprezint suma total, N, a valorilor n
i
, 1 s i s p, iar fiecare n
i

este reprezentat printr-un sector de cerc cu aria proporional cu valoarea n
i
. Acest tip de
diagrame se utilizeaz n cazurile n care datele se preteaz la prezentare n indici
procentuali.



7. Diagrame prin ptrate. Diagrame prin cercuri laturile sau razele figurilor reprezint
proporional, valorile n
i
ale caracteristicii (unidimensionale).


Elemente Caracteristice ale unei Serii Statistice
1. Modul
Se numete modul sau dominanta unei serii statistice (x
i
, n
i
) 1 s i s p, valoarea x
k
a caracteristicii
pentru care n
k
= max n
i
, 1 s i s p.
n cazul caracteristicii date prin clase (intervale) (x
k
, x
k+1
), modulul este valoarea central a clasei,
adic ( ) 1
2
1
+ + =
i i k
x x x pentru care n
k
= max n
i
, 1 s i s p.
Observaii: modulul este valoarea caracteristicii cu frecven maxim
Evident, pot fi mai multe dominante ntr-o serie.

9

2. Mediana
Mediana seriei (x
i
, n
i
) 1 s i s p este valoarea n
i
care mparte populaia statistic studiat, ordonat
cresctor sau descresctor dup valorile caracteristicii, n dou pri cu acelai efectiv.
n cazul unei serii pe intervale (clase) mediana este dat de media aritmetic a frecvenelor de la
mijloc.

Valori medii ale unei serii statistice
Dup nregistrate datele statistice ne intereseaz ceea ce au ele comun i general, pentru a afla
trsturile eseniale ale acestora. Vom prezenta n continuare principalele valori medii utilizate n
practica statistic (media aritmetic, media geometric, media armonic i media ptratic) i modul
cum se aplic i interpreteaz ele.

1. Media aritmetic
Fiind date numerele reale x
1
, x
2
, ...., x
n
, numrul:
n
nn
a
n n n
x n x n x
m
n
+ + +
+ + +
=
...
.....
2 1
2 2 1 1

este media aritmetic a numerelor x
1
, x
2
, ...., x
n
.

Observaie: Dac x
1
= x
2
= .... = x
n
= x, atunci se deduce imediat c m
a
= x.
Media aritmetic a numerelor x
1
, x
2
, ...., x
n
are urmtoarele proprieti:
a)
i
n i
a i
n i
x m x
s s s s
s s
1 1
max min
b)
a
ori n de
a a a n
m n m m m x x x = + + + = + + ... ...
2 1

c) ( ) 0
1
=

=
n
i
a i
m x
d) ( ) ( ) v m n v x
a
n
i
i
=

=1
, oricare ar fi numrul v
e) ( ) ( )

= =
>
n
i
a i
n
i
i
m x v x
1
2
1
2
, oricare ar fi numrul v
Observaii:
1. proprietatea c) arat c suma algebric a abaterilor valorilor x
i
fa de media aritmetic
este egal cu zero.
2. Proprietatea d) arat c suma algebric a abaterilor valorilor x
i
de la o valoare oarecare v
este de n ori mai mare dect diferena dintre valoarea v i media aritmetic.
10

3. Proprietatea e) arat c suma ptratelor abaterilor fa de m
a
este mai mic dect suma
ptratelor abaterilor fa de oricare alt valoare v.

Propoziie: Fiind date valorile x
1
, x
2, ....
x
n
i v o valoare oarecare ( )

=
+ =
n
i
i a
v x
n
v m
1
1

Propoziie: Dac valorile x
1
, x
2, ....
x
n
apar de p
1
, p
2, ....,
respectiv p
n
ori atunci:

=
=

=
n
i
i
n
i
i i
a
p
x p
m
1
1
.

Fiind date valorile x
1
, x
2, ....
x
n
care apar de p
1
, p
2, ....
p
n
ori
n
n n
a
p p p
x p x p x p
m
+ + +
+ + +
=
...
...
2 1
2 2 1 1
i se numete
media aritmetic ponderat a valorilor x
1
, x
2, ....
x
n
de ponderi p
1
, p
2
,
....
, respectiv,

p
n.


Observaie: Dac p
1
= p
2
= ... = p
n
atunci media aritmetic ponderat coincide cu media aritmetic a
valorilor x
1
, x
2, ....
x
n
.
Fiind dat seria statistic (x
i
, n
i
), 1 s i s p, numrul

=
=
=
=

=
n
i
i i
n
i
i
p
i
i i
n x
N
n
n x
x
1
1
1
1
,

=
=
n
i
i
n N
1
, se numete
valoarea medie a variabilei x.
Dac seria este dat cu intervalele (x
i
, x
i+1
) se consider valoarea central a intervalului pentru
calculul lui x .

Observaii:
a) x reprezint, deci, media ponderat a valorilor x
1
, x
2, ....
x
n
de ponderi n
1
, n
2, ....
n
p
.
b)

= = =
= = =
n
i
i i
n
i
i
i
n
i
i i
f x
N
n
x n x
N
x
1 1 1
1
, unde f este frecvena relativ a valorii x
i
.

Teorem:
Dac x este valoarea medie a seriei (x
i
, n
i
), 1 s i s p, atunci oricare ar fi perechea de numere reale
nenule (a, b), valoarea medie a seriei (ax
i
+ b, n
i
) este b x a + .

Observaie: Aceast teorem permite calculul mai rapid al valorii medii a unei serii statistice.


11

2. Media geometric
Fiind date numerele reale pozitive nenule x
1
, x
2, ....
x
n
, numrul
n
n g
x x x m ...
2 1
= este media
geometric a numerelor x
1
, x
2, ....
x
n
.
Observaie: Dac x
1
= x
2
= .... = x
n
= n, atunci se deduce imediat c m
g
= x.

Dac x
1
, x
2, ....
x
n
, apar de p
1
, p
2
, ...., respectiv, p
n
ori atunci
p p
n
p p
g
n
x x x m ....
2 1
2 1
= , unde

=
=
n
i
i
p p
1
i
se numete media geometric ponderat.

Observaie: Dac p
1
= p
2
= .... = p
n
, atunci
n
n g
x x x m = ....
2 1
.

Propoziie: Media geometric, m
g
, a numerelor strict pozitive x
1
, x
2, ....
x
n
are

urmtoarele proprieti:
a)
i
n i
a i
n i
x m x
s s s s
s s
1 1
max min
b)
ori n de
g g g n
m m m x x x = ... ...
2 1

c)
n
g
k
g
k
g
g
k
g g
x
m
x
m
x
m
m
x
m
x
m
x
=
+ +
... ....
2 1
2 1
unde x
i
< m
g
, pentru k i , 1 = i m
g
< x
k+j
, k n j = , 1

Observaie: Utilitatea mediei geometrice n interpretarea unei serii statistice: media geometric se
utilizez n determinarea indicelui mediu (descretere), adic a mediei geometrice a indicatorilor
relativi cu baz mobil.

Exemplu: n cazul seriei (x
i
, n
i
), un indicator relativ cu baz mobil este
1 k
k
n
n
, iar indicele mediu
este
1
1 2
3
1
2
...

=

p
p
p
n
n
n
n
n
n
. Indicele mediu, deci media geometric, msoar sugestiv, de exemplu,
evoluia volumului valoric al unor produse ntr-o perioad de timp sau raportul mediu al preurilor.


3. Media armonic
Fiid date numerele x
1
, x
2
, ...., x
n
reale, nenule, numrul
n
h
x x x
n
m
1
....
1 1
2 1
+ + +
= este media
armonic a numerelor x
1
, x
2
, ...., x
n.

12


Observaie: Dac x
1
= x
2
= .... = x
n
= x, atunci se deduce c m
h
= x.

Dac numerele x
1
, x
2
, ...., x
n
apar de p
1
, p
2
, ...., respectiv, p
n
ori, atunci:
n
n
n
h
x
p
x
p
x
p
p p p
m
+ + +
+ + +
=
...
....
2
2
1
1
2 1
i se numete media armonic ponderat a numerelor x
1
, x
2
, ...., x
n
cu
ponderile

p
1
, p
2
, ...., p
n
.

n cazul seriei statistice (x
i
, n
i
), 1 s i s p, este media armonic ponderat a valorilor x
1
, x
2
, ...., x
n
ale
caracteristicii de ponderi, frecvenele n
1
, n
2
, ...., respectiv, n
n
.

=
=
p
i i
i
h
x
n
N
m
1
, unde

=
=
p
i
i
n N
1


Observaie: n cazul n care ponderile n
i
sunt n
i
x
i
(cum se ntmpla adesea n practic), atunci:
( )

=
=
=
= =

=
n
i
a i i
p
i
i i
i
p
i
i i
h
m x n
N
x n
x
x n
m
1
1
1
1
1

Observaie: Utilizarea mediei armonice n interpretarea datelor unei serii statistice
Media armonic se folosete pentru calculul valorii medii a unei serii statistice a cror valori ale
caracteristicii sunt, la rndul lor, medii.


4. Media ptratic
Fiind date numerele reale x
1
, x
2
, ...., x
n
, numrul
n
x x x
m
n
p
2 2
2
2
1
... + + +
= este media ptratic a
numerelor x
1
, x
2
, ...., x
n
.

Observaie: Dac x
1
= x
2
= .... = x
n
= x, atunci m
p
= x.

Dac numerele x
1
, x
2
, ...., x
n
apar de p
1
, p
2
, ...., respectiv, p
n
ori, atunci:
n
n n
p
p p p
x p x p x p
m
+ + +
+ + +
=
...
....
2 1
2 2
2 2
2
1 1

se numete media ptratic ponderat a numerelor x
1
, x
2
, ...., x
n
de ponderi p
1
, p
2
, ...., p
n
.
13


Observaie: Dac p
1
= p
2
= ... = p
n
, atunci
n
x x x
m
n
p
2 2
2
2
1
... + + +
=

n cazul unei serii statistice (x
i
, n
i
), 1 s i s p
p
p p
p
n n n
x n x n x n
m
+ + +
+ + +
=
...
...
2 1
2 2
2 2
2
1 1
.
Observaie: utilizarea mediei ponderat n interpretarea datelor unei serii statistice.
Media ponderat se aplic la calculul abaterii medii ptratice, adic a abaterii valorilor
caracteristicii fa de media lor aritmetic, sup formula:
( )
n
x x
m
p
i
i
p

=

=
1
2
sau
( )

=
=

=
p
i
i
p
i
i i
p
n
x x n
m
1
1
n cazul seriei (x
i
, n
i
), 1 s i s p.

Teorem: Fiind date numerele reale, pozitive, nenule x
1
, x
2
, ...., x
n
, ntre numerele: m
h
, m
g
, m
a
i m
p

exist relaia:
n i
i p a g h
n i
i
x m m m m x
, 1 , 1
max min
= =
s s s s s


Indicatori ai variaiei
Valorile medii nu sunt suficiente pentru caracterizarea valorilor unei serii statistice.
n continuare, vom introduce civa indicatori cu ajutorul crora vom stabili n ce msur o medie
caracterizez valorile unei serii statistice, dac acestea sunt mai apropiate sau mai ndeprtate de
medie.
1. Amplitudinea
Diferena dintre cea mai mare i cea mai mic valoare a caracteristicii se nhumete amplitudine.

Observaie:
a) Amplitudinea se poate schimba foarte repede, odat cu o abatere brusc a unei valori a
caracteristicii.
b) Amplitudinea se folosete frecvent la alegerea numrului grupelor unei serii statistice i a
mrimii intervalelor acestora.
14


2. Abaterea absolut
Diferena dintre fiecare valoare i valoarea medie a unei serii statistice se numete abatere absolut.

Observaie: Abaterile absolute nu pot oferi o imagine de ansamblu, sintetic asupra variaiei unei
caracteristici, de aceea folosesc i ali indicatori.

x x
i


3. Abaterea medie liniar
Media aritmetic a abaterilor tuturor valorilor caracteristicii de la valoarea medie, luate n valoare
absolut,se numete abaterea medie liniar.
Formal, n cazul seriei (x
i
, n
i
), 1 s i s p,

=
=

=
p
i
i
p
i
i
n
x x
d
1
1
, unde d este abaterea medie liniar.
Observaie: Abaterea medie ptratic are i limitri, acordnd aceeai importan tuturor abaterilor.
Abaterile mai mari influeneaz n mai mare msur variaia medie.


4. Dispersia
Fiind dat seria statistic (x
i
, n
i
), 1 s i s p, numrul
( )

=
=

=
p
i
i
p
i
i i
n
n x x
1
1
2
2
o se numete dispersia
valorilor x
1
, x
2
, ...., x
n
.
Dispersia este media aritmetic (ponderat) a ptratelor abaterilor absolute.

Propoziie: Fiind dat seria (x
i
, n
i
), 1 s i s p,
2 2 2
) (x x = o .


5. Abaterea medie ptratic
Fiind dat seria (x
i
, n
i
), 1 s i s p, numrul
2
o o = se numete abaterea medie ptratic a valorilor
x
1
, x
2
, ...., x
n.

Observaii:
15

a) Formula de calcul pentru abaterea medie a valoriloe seriei (x
i
, n
i
), ] s i s p, este

=
=

=
p
i
p
i
i i
n
n x x
1
1
1
2
o
b) Se observ c o reprezint media ptratic (ponderat) a abaterilor absolute x x
i
.
c) Abaterea medie ptratic, fiind media ptratic, este mai mare dect abaterea medie
liniar care este o medie aritmetic.


6. Coeficientul de variaie
Pentru compararea variaiei valorilor unor caracteristici, exprimate n uniti de msur diferite,
se introduc ali indicatori care se exprim procentual (i fac abstracie de unitile de msur).

Raportul dintre abaterea medie liniar sau abaterea medie ptratic i media seriei se numete
coeficient de variaie.
Aadar dac se noteaz cu V coeficientul de variaie, atunci
x
d
V = sau
x
V
o
= .
Observaie: evident, dac coeficientul de variaie este mai mic, atunci valorile caracteristicii
formeaz un ansamblu omogen, iar media lor este mai reprezentativ.


Coeficieni de corelaie
n practic, de multe ori, se studiaz o populaie statistic n funcie de dou sau mai multe
caracteristici.
Notm cu n
ij
numrul de uniti din populaie care au valoarea i a unei caracteristici i
valoarea j a altei caracteristici.
Numrul
( ) ( )
n
y y x x n
p
i
q
j
m
i
l
i ij
m l

= =

=
1 1
,
se numete moment centrat de ordinul lm.


Se numete covarian numrul:
( ) ( )
l l
p
i
q
j
i i ij
ij
n
y y x x n
C
,
1 1
=

=

= =
.
16


Coeficientul de corelaie al caracteristicilor de variabile X i Y este numrul:
( ) ( )
( ) ( )

= = = =
= =


=

=
q
j
p
i
j ij
q
j
p
i
i ij
q
j
p
i
i i ij
ij
y y n x x n
x x x x n
C
Y X
1 1
2
1 1
2
1 1
2 , 0 0 , 2
) , (



Coeficientul de corelaie liniar (Pearson)
n practica cercetrii pot exista situaii n care avem dou msurri efectuate cu instrumente
diferite. n aceste cazuri avem 2 variabile dependente cu valori perechi i nici o variabil
independent. Pentru astfel de situaii problema care se pune este existena unei relaii de variaie
reciproc a acelor dou variabile. Procedeul statistic utilizat este coeficientul de corelaie.
Corelaia exprim o legtur cantitativ sistematic ntre valorile ntre valorile a dou
variabile perechi, msurate pe subieci aparinnd aceluiai eantion de cercetare.
Intensitatea legturii dintre cele dou variabile se exprim prin coeficientul de corelaie
liniar, notat cu simbolul r. Introduc de K. Pearson, sau al moment-produsului, dup expresia
uneia din formulele de calcul.
Reprezentarea grafic a corelaiei
Plasarea valorilor celor dou variabile pe un grafic produce o imagine intuitiv a relaiei
dintre valori.
n cazul unei corelaii pozitive, reprezentrile pot arta astfel:

Tendina este aceea ca valorilor mari de pe axa orizontal s le corespund valori mari pe
axa vertical. n cazul unei corelaii pozitive perfecte (r=+1), punctele de intersecie ale perechilor
de valori se plaseaz pe o linie. Cu ct corelaia este mai mic, cu ct norul de puncte este mai larg
dar forma elipsei indic relaia pozitiv dintre cele dou variabile.

17


Tendina corelaiei indirecte este aceea c valorilor mari de pe axa orizontal s le
corespund valori mici pe axa vertical. Ca urmare, att linia corelaiei negative perfecte (r=-1) ct
i diagonala mare a elipsei norului de puncte al corelaiei imperfecte se orienteaz din stnga sus
spre dreapta jos a sistemului de coordonate.

Atunci cnd corelaia dintre cele dou variabile este inexistent, norul punctelor de
intersecie are o form circular, care nu contureaz nici o tendin (r=0).


Interpretarea coeficientului de corelaie
De-a lungul timpului au fost propuse diverse astfel de scale de valorizare, prin atrobuirea
unor calificative coeficienilor de corelaie, n funcie de mrimea lor.
Hopkins sugereaz interpretarea valorilor coeficienilor de corelaie dup cum urmeaz:
0.0 0.1 Foarte mic, neglijabil
0.1 0.3 Mic, minor
0.3 0.5 Moderat, mediu
0.5 0.7 Mare, ridicar, major
0.7 0.9 Foarte mare, foarte ridicat
0.9 - Aproape perfect



18

Indicatori ai formei distributiei
Expresia grafic a distribuiilor poate fi descris de simetrie i boltire.

1. Indicatorii de simetrie (skewness) indica in ce masura valorile centrale se abate spre
dreapta/stanga fata de curba normala (teoretica, in cazul careia Media = Me = Mo).
Oblicitatea = (Media - Mo) /
sau
Oblicitatea = 3(Media - Me) /
O distribuie este simetric atunci cnd valorile acesteia se mpart n mod egal de o parte i
de alta a valoriloe tendinei centrale. Se numesc asimetrice (skewed) distribuiile ale cror valori se
concentreaz fie n zona valorilor mici (spre stnga) fie n zona valorilor mari (spre stnga).

n cazul distibuiilor (perfect) simetrice, Mo, Me i Media se plaseaz pe aceai valoare.
n cazul distribuiilor asimetrice cei trei indicatori au poziii diferite. Mediana se plaseaz
ntotdeauna ntre mod i medie. Din acest motiv, mediana este cea mai reprezentativ valoare
pentru distribuii aasimetrice. Media este afectat de valorile extreme, cu att mai mult cu acestea
sunt mai puternic deviate. Ca urmare, n cazul distribuiilor puternic asimetrice, media nu este un
indicator adecvat al tendinei centrale.
Pentru o curb absolut simetric, indicele de oblicitate (skewness) are valoarea 0. Curbele
asimetric pozitive au indicele de oblicitate cu valori pozitive iar cele asimetrci negative sunt
semnalate de indici cu valori negative. Ca reper general de apreciere, recomandat de cei mai muli
autori, un indice de oblicitate a crui valoare depete +1/-1 semnaleaz o asimetrie pronunat a
distribuiei.

19


Comparaie ntre medie, median i modul a 2 distribuii normale log cu skewness diferit

2. Indicatorii de Boltire (kurtosis) indica gradul de extindere pe vertical a curbelor de
distribuiei. n termeni generali, sub aspectul boltirii, curbele pot fi de 3 categorii:
1. leptokurtice (valori pozitive), cu majoritatea valorilor distribuite n zona mediei (au o form
nalt i subire)
2. mezokurtice, cu o prezen moderat a valorilor n zona mediei
3. platikurtice (valori negative), cu valori medii relativ puine i o form aplatizat

Indicatorul numeric al boltirii (kurtosis) are o plaj de variaie n jurul valorii 0 (care
nseamn boltire medie, normal, mezocurtuc). Indicele de boltire pozitiv indic o curb
nalt (leptocurtic), iar indicele de boltire negativ, o curb aplatizat (platicurtic).
La fel ca i n cazul indicelui de oblicitate (skewness), cu ct acesta este mai ndeprtat de
valorile +1/-1, avem de a face cu distribuii cu abatere accentuat de la boltirea normal.

O distribuie cu kurtosis mare are un vrf ascuit i mai lung, cozi mai lungi, n timp ce o
distribuie cu kurtosis sczut are mai un vrf mai rotunjit i mai scurt, cozi mai scurte.
20



Curba (clopotul) lui Gauss. 34,1% dintre cazuri sunt cuprinse intre medie si deviatia
standard. Distributia normala modeleaza variabilele continue aleatoare (acestea iau valori cuprinse
intre )

Probability mass function funcie de mas a
probabilitii (pmf) este o funcie care ne d
probabilitatea dac o variabil aleatoare discret
este egal cu o anumit valoare.
Funcia de distribuie cumulat




Repartiii statistice

Seriile statistice se clasifica:
1. In raport cu numarul variabilelor
Serii statistice unidimensionale, au la baza o singura variabila;
Serii statistice multidimensionale, care au la baza doua sau mai multe variabile.
2. Dupa natura variabilelor deosebim:
Serii atributive, care au la baza variabile atributive;
Serii cronologice (de timp sau istorice), care au la baza variabile de timp;
Serii de spatiu sau teritoriale, care au la baza o variabila de spatiu.
3. Dupa modul de exprimare a starilor variabilei deosebim:
21

Serii calitative, care au la baza variabile calitative;
Serii cantitative, care au la baza variabile cantitative si care dupa modul de variatie a
variabilei pot fi: discrete (cand variabila este discrete) si continue (cand variabila este continua).
4. In raport cu natura indicatomlui din care este alcatuita seria, avem:
Serii de frecventa sau serii de distributie (repartitie);
Serii de variatie.


Forme ale distribuiilor de frecvene

Repartiii statistice
Seria frecvenelor relative, puse fa n fa cu valorile corespunztoare ale caracteristicii studiate
formeaz aa-numita repartiie statistic a caracteristicii considerate, n cadrul colectivitii date.
Noi nu cercetm dect pri din colectivitatea general. Pentru fiecare din aceste pri obinem
diverse repartiii statistice.
Rezultatele unei nregistrri statistice se prezint ntotdeauna sub forma unei repartiii statistice.

Funcii de repartiie
repartiia binomial,
repartiia hipergeometric,
22

repartiia Poisson,
repartiia normal,
repartiia 2,
repartiia Student,
repartiia Fischer

Repartiii discrete
Repartiia binomial
Repartiia hipergeometric.
Repartiia Poisson

Repartiii continue
Repartiia uniform
Repartiia exponenial
Repartiia normal
Repartiia 2
Repartiia Student
Repartiia Fischer

Notaii: pmf = funcia de mas a probabilitii
pdf = funcia de distribuie a probabilitii
cdf = funcie a distribuiilor cumulate

Repartiii discrete

Repartiia Bernoulli - Jacob Bernoulli, care ia valoarea 1 cu o probabilitate p de succes i
valoarea 0 cu o probabilitate de eec q = 1 p. Dac avem X variabil aleatoare cu aceast
distribuie avem: p q X X = = = = = 1 ) 0 Pr( 1 ) 1 Pr(

funcia de mas a probabilitii f a acestei distribuii este:

=
=
=
cazuri alte
k daca p
k daca p
p k f
, 0
0 , 1
1 ,
) ; (
parametri 0< p < 1, pe9 valori k = {0, 1}
pmf

=
= =
1 .
0 . ), 1 (
k pt p
k pt p q

variaia
) 1 ( q p
23

cdf

>
< s
<
1 . , 1
1 0 . ,
0 . , 0
k pt
k pt q
k pt


skewness
pq
p q

media P kurtosis
pq
pq 6 1

mediana nedef. entropia
) ln( ) ln( p p q q
mod

<
=
>
p q daca
p q daca
p q daca
1
1 , 0
, 0



Repartiia binomial distribuie de valori discrete a numrului de succese ntr-o secven de n
experimente independente yes/no, fiecare avnd un randamen cu probabilitatea p.
Ca i un experiment succes/eec este denumit i experiment / ncercarea Bernoulli; cnd n = 1,
distribuia binomial devine o distribuie Bernoulli. Distribuia binomial este baza pentru testul
binomial sau semnificaie statistic.

Binomial PDF and normal approximation for n = 6 and p = 0.5

Repartiia hipergeometric este o distribuie probabilistic discret care descrie probabilitatea ca
k succese n n trageri (ncercri) dintr-o populaie finit fr nlocuiri. (cf. distribuia binomial, care
descrie probabilitatea a k succese n n trageri cu nlocuitor)

La o variabil aleatoare X cu o distribuie hipergeometric funcia de mas probabilistic este dat
de :
|
|
.
|

\
|
|
|
.
|

\
|

|
|
.
|

\
|
= =
n
N
k n
m N
k
m
k X P ) (
24

unde,
N dimensiunea populaiei

N
m
- probabilitatea de succes iniial
n numrul de trageri
k numrul de succese
|
|
.
|

\
|
b
a
sunt coeficeni binomiali
Este pozitiv cnd ) , min( ) , 0 max( n m k N m n s s +
parametri Ne{1, 2, ...}
m e {0, 1, 2, ...., N}
n e {1, 2, ...., N}
valori k = {max(0, n+m-M}, , min(m,n)}
pmf
|
|
.
|

\
|
|
|
.
|

\
|

|
|
.
|

\
|
n
N
k n
m N
k
m

variaia
1
) (


N
n N
N
m N
N
m
n
cdf

=
|
|
.
|

\
|
|
|
.
|

\
|

|
|
.
|

\
|
k
i
n
N
i n
m N
i
m
0

skewness
| | ) 2 ( ) )( (
) 2 ( ) 1 )( 2 (
2
1
2
1


N n N m N nm
n N N m N

media
N
m
n
kurtosis
)] 6 5 )( )( ( 6 )) ( 6
) ( 6 ) 1 ( ( ) 1 [(
) 3 )( 2 |)( )( (
1
2
+
+


N n N n N nm n N n
n N m N N N N
N N n N m N nm

mod
(

+
+ +
2
) 1 )( 1 (
N
m n




Repartiia Poisson
Este o distribuie discret care exprim probabilitatea unui numr dat de evenimente privind un
interval fix de timp i/spaiu dac aceste evenimente se ntmpl cu o medie cunoscut i
independent de timp de la ultimul eveniment. (Distribuia Poisson poate fi de asemenea utilizat
pentru numrul de evenimente n alte intervale specificate cum ar fi: distana, aria sau volumul.)



25

Probability mass function Cumulative distribution function

The horizontal axis is the index k, the number
of occurrences. The function is only defined at
integer values of k. The connecting lines are
only guides for the eye.
The horizontal axis is the index k, the number of
occurrences. The CDF is discontinuous at the
integers of k and flat everywhere else because a
variable that is Poisson distributed only takes on
integer values.

notatie Pois()
parametri
) ( 0 real >
valori k e{0, 1, 2, 3, }
pmf


e
k
k
!

variaia
skewness
-1/2
cdf

=
=
>
+ I
k
i
i
i
e
sau k pt
k
k
0
!
0 ,
]! [
) ], 1 ([


Unde I(x,y) este functia
gamma incompleta si
[k] este functia floor
kurtosis
-1
entropia

+
0
!
) ! log(
)] log( 1 [
k
k
k
k
e




(pt. mari)
|
.
|

\
|
+

4 3
2
1
360
19
24
1
12
1
) 2 log(
2
1


t
O
e

media
mediana ~ [ + 1/3 0.02/]
mod [] - 1






26

Repartiii continue

Repartiia uniform continu sau distribuie rectangular este o familie de distribuii obinut
pentru fiecare membru al familiei, toate intervalele de aceleai lungime a distribuiei suport sunt
egal probabile. Suportul este definit de 2 parametri, a i b, care sunt valorile minime i maxime.
Notat de obicei, U(a,b). Este distribuia cu maxim entropie pentru o variaie aleatoare X fr
constrngeri altele dect cele coninute n distribuia suport.

Repartiia uniform
Probability density function Cumulative distribution function


Using maximum convention

notatie
) , ( b a U

parametri - < a < b < valori x e [a, b]
pmf

cazuri alte
b a x pt
a b
, 0
] , [ ,
1

variaia
2
) (
12
1
a b
skewness 0
cdf

>
e

s
b x pt
b a x pt
a b
a x
a x pt
. , 1
] , [ . ,
. , 0

kurtosis
5
6

entropia ln(b-a)
media
) (
2
1
b a +

mediana
) (
2
1
b a +

mod orice valoare in [a,b]



27


Repartiia exponenial (distribuia exponenial negativ) descrie timpul ntre evenimente n
procesul Poisson, un proces n care evenimentele se petrec continuu i independent la o rat medie
constant
Probability density function Cumulative distribution function


parametri > 0 rate sau scala inversa valori x e [0,)
pdf e
-x
variaia
-2
skewness 2
cdf 1-e
-x
kurtosis 6
entropia 1 ln()
media
-1

mediana
-1
ln2
mod 0


Repartiia normal (sau Gaussian) este o distribuie continu utilizat deseori ca prim
aproximare de descriere a unor valori reale alese aleator care tind s se concentreze n jurul unei
singure valori medii. Graficul asociat este sub form de clopot, cunoscut ca i funcie Gaussian
sau curba clopot:
2
2
2
) (
2
2
1
) (
o

to

=
x
e x f
unde parametrul este media (localiia
vrfului) i
2
estevariania (msura
limii distribuiei). Distribuia cu = 0 i

2
= 1 este denumit normal standard.

28


Repartiia normal
Probability density function Cumulative distribution function

The red line is the standard normal distribution

notaie N(, o
2
)
parametri e9 - media (locaia)
o
2
> 0 variaia
valori xe9
pmf
2
2
2
) (
2
2
1
o

to

x
e
variaia o
2
skewness 0
cdf
(
(

|
|
.
|

\
|

+
2
2
1
2
1
o
x
erf
kurtosis 0
entropia
) 2 ln(
2
1
2
o te
media
mediana
mod



Repartiia 2 (sau chi-square sau -distribution) distribuia chi-ptrat cu k grade de libertate
este distribuia sumei ptratelor a k variabile aleatorii normale standard independente. Este unul din
cele mai des ntlnite distribuii n statistica inferenial, n verificarea ipotezelor sau n definirea
intervalelor de ncredere.




29

Probability density function Cumulative distribution function


notatie
) (
2
k sau
2
k


parametri k e N
1
grade de
libertate
valori x e [0, +)
pdf
2 / 1 2 /
2 /
) 2 / ( 2
1
x k
k
e x
k

I

variaia 2k
cdf
) 2 / , 2 / (
) 2 / (
1
x k
k

I

skewness
k / 8
media k kurtosis 12/k
mediana
3
9
2
1 |
.
|

\
|
~
k
k
entropia
) 2 / ( ) 2 / 1 ( )) 2 / ( 2 ln(
2
k k k
k
+ I +
mod max(k-2,0)



Repartiia Student (distribuia t) este o distribuie continu care estimeaz media populaiei
normal diostribuit n situaii n care eantionul este mic i deviaia standard a populaiei este
necunoscut.
Utilizat pentru evaluarea semnificaiei statistice ntre mediile a 2 eantioane diferite, aflarea
intervalele de ncredere pentru diferena ntre mediile a 2 populaii i analiza regresiei
liniare.
Face analiz Bayesian a datelor pentru o familie normal de date.
Distributia t este simetric i sub form de clopot, ca i distribuia normal, dar are cozi mai
lungi, nsemnnd c este mai abrupt la apflarea valorilor deprtate de medie. Este util
pentru nelegerea comportamentului statistic a tipurilor sigure de pri ale cantitilor
30

aleatorii, n care variaia de la numrtor este amplificat i poate produce valori periferice
cnd numrtorul fraciei tinde spre 0..
Este un caz special al distribuiei generalizate hiperbolice
Probability density function Cumulative distribution function


parametri v > 0 grade de libertate valori x e(-, +)
pdf
2
1
2
1
2
2
1
+
=
|
|
.
|

\
|
+
|
.
|

\
|
I
|
.
|

\
| +
I
v
v v
vt
v
x

variaia
2 v
v
pt.v>2, pt. 1 <
v s 2, n alte cazuri
nedefinit
cdf
|
.
|

\
|
I
|
|
.
|

\
|

+
|
.
|

\
| +
I +
2
;
2
1
,
2
1
2
1
2
1
2
1 2
v
tv
v
v
v
x
F
x

unde
2
F
1
este funcia
hipergeometric
skewness 0 pt. v > 3
media 0 pt v > 1, alte cazuri
nedefinit
kurtosis
4
6
v

mediana 0
mod 0


31


1 degree of freedom 2 degrees of freedom 3 degrees of freedom



5 degrees of freedom 10 degrees of freedom 30 degrees of freedom


Repartiia Fischer
Cunoscut sub denumirea de distribuia F sau Fisher-Snedecor.
Funcia de repartiie F (FisherSnedecor) are ca densitate de probabilitate curba F. Funciile acestei
clase de repartiii teoretice sunt difereniate de doi parametri, d
1
i d
2
, numii grade de libertate. Din
aceast cauz se utilizeaz notaia F(d
1
,d
2
).
Repartiia F este utilizat pentru testarea ipotezelor n care se compar dou dispersii.
Ca rezultat important menionm:
Dac X
1
i X
2
sunt dou v.a. repartizate _
2
cu d
1
i, respectiv, d
2
grade de libertate, atunci v.a. X
definit prin
2 1
1 2
2 2
1 1
/
/
Y d
Y d
d Y
d Y
X = = este repartizat F(d
1
,d
2
).
Teorema arat c raportul a dou dispersii de sondaj dintr-o populaie normal are o repartiie F i
de aici provine denumirile uzuale: d
1
gradele de libertate ale numrtorului i, respectiv, d
2

gradele de libertate ale numitorului.
Alt rezultat important este:
32

Dac v.a. T este repartizat Student cu d grade de libertate, atunci X = T
2
este repartizat F(1;d).

Probability density function Cumulative distribution function


parametri d
1
> 0, d
2
> 0 grade de
libertate
valori x e[0, +)
pdf
|
.
|

\
|
+
+
2
,
2
) (
) (
2 1
2 1
2 1
2 1
2 1
d d
xB
d x d
d x d
d d
d d

variaia
) 4 ( ) 2 (
) 2 ( 2
2
2
2 1
2 1
3
2

+
d d d
d d d

pentru d
2
>4
cdf ) 2 / , 2 / (
2 1
2 1
1
d d I
d x d
x d
+
skewness
) 2 ( ) 6 (
) 4 ( 8 ) 2 2 (
2 1 1 2
2 2 1
+
+
d d d d
d d d

pentru d
2
> 6
media
2
2
2
d
d
, pentru d
2
> 2
kurtosis
mod
2
2
2
2
1
1
+

d
d
d
d

pentru d
1
> 2

S-ar putea să vă placă și