Sunteți pe pagina 1din 67

Elemente de statistica matematica

Elemente de statistica matematica


Statistica este o ramura a matematicii aplicate care este utilizata
in studierea experimentala a proceselor
Statistica matematica utilizeaz doua noiuni de baz
colectivitatea statistica (populaia) reprezinta totalitatea probelor;
proba (eantionul) reprezinta o parte de probe extrase din colectivitatea
statistica
Populatia reprezinta totalitatea probelor
Esantionul reprezinta probele care se extrag din populatie si
asupra carora se efectueaza experimentarile (de exemplu
masurarea grosimii, determinare greutatii, a rezistentelor etc).
Proprietile colectivitii statistice se apreciaz pe baza
proprietatilor probelor eantioanului.
Parametrii statistici ai eantionului
Parametrii statistici care caracterizeaz eantionul (proba) sunt
urmtoarele:
Media aritmetica ( )
Dispersia (s
2
)
Abaterea medie ptratica (s)
Coeficientul de boltire
Asimetria

x
Prelucrarea statistica a datelor
experimentale
Prelucrarea statistica a datelor experimentale cuprinde
urmtoarele etape:
stabilirea planului de experimentare
realizarea experimentului si obtinerea datelor experimentale (masurarea
datelor experimentale)
prezentarea datelor experimentale obtinute
eliminarea datelor afectate de erori;
verificarea caracterului aleator al datelor experimentale
gruparea datelor
determinarea frecvenelor de grupare (absolute si relative)
calculul principalilor parametrii statistici
verificarea caracterului repartiiei experimentale
reprezentarea grafica
interpretarea rezultatelor
Erori de masurare
In timpul procesului de culegere (masurare) a datelor apar urmatoarele
tipuri de erori:
erori sistematice datorate echilibrrii (punerea la zero) incorecte a unor componente ale
sistemului de msurare, a citirii incorecte a indicaiilor instrumentului, a preciziei
instrumentului i a metodei de msurare.
erori de observator.
erori de instrument
erori de metod.
erori ntmpltoare (aleatoare) - apar aleator datorit naturii stochastice (probabilistice)
a fenomenelor studiate
erori grosolane - sunt cauzate de greeli ale operatorului sau de defeciuni accidentale
ale sistemului de msurare i trebuie eliminate din calcule
Eroarea absolut reprezint modulul diferenei maxime posibile ntre
valoarea msurat i cea adevrat


Eroarea relativ este raportul dintre eroarea absolut i modulul valorii
adevrate, fiind dat de raportul dintre eroarea absolut i modulul valorii
msurate (cu condiia, evident, ca numitorul s fie nenul).


Prelucrarea datelor conform STAS
Prelucrarea datelor conform normelor STAS prevede:
calculul principalilor parametri statistici
verificarea normalitii repartiiei;
estimarea parametrilor populaiei;
determinarea erorilor de msurare i stabilirea preciziei metodei de
msurare folosite.

Gruparea datelor si determinarea
frecventelor
Pentru gruparea datelor experimentale si determinarea
frecventelor acestora se fac n msurtori pentru un parametru
oarecare a procesului
Se obine eantionul x
1
, x
2
, x
3
,, x
n
. Valorile obinute se
inregistreaz ntr-un tabel => numit tabelul datelor primare
Stabilirea numrului de grupe
Prin gruparea valorilor numerice i determinarea frecvenelor se
obine repartiia statistic sau repartiia experimental.
Numrul de grupe se alege ntre 8 i 20, pentru a avea o precizie
suficient n interpretarea datelor.
Numrul de grupe (n
g
) se poate stabili cu relaia lui H.A.
Sturgers:

n
g
= 1 + 3.222*lg n (unde n numrul datelor eantionului)

Fiecrei grupe i corespunde un anumit interval de grupare (h)
care se calculeaz cu relaia

n
x x
h
lg 222 . 3 1
min max
+

=
unde: xmax - este valoarea maxim a parametrului, xmin - minim a
parametrului.
Stabilirea frecventelor
Pentru fiecare interval se determina urmtoarele frecvente:
n
n
f r
i
i
=
Frecvena absolut (fa
i
):
unde: ni - este numrul de valori x din intervalul I; n numrul total
de valori a eantionului.
Suma tuturor frecvenelor absolute este egal cu numrul total al
determinrilor n.

Frecvena relativ (fr
i
):
i i
n fa =
unde: ni - este numrul de valori x din intervalul I; n numrul total
de valori a eantionului.
Suma frecvenelor relative este egal cu 1.

Frecvena cumulat absolut (fca
i
):
unde: n
i,
n
i-1
, , n
1
sunt frecvenele relative ale intervalelor de
grupare respective.
1 1
... n n n fca
i i i
+ + + =

Frecvena cumulat relativ (fcr
i
):
unde: fr
i
, fr
i-1
, , fr
1
sunt frecvenele relative ale intervalelor de
grupare respective.
1 1
... fr fr fr fcr
i i i
+ + + =

Valorile care coincid cu limitele intervalului de grupare se ncadreaz
fie jumtate n grupa inferioar i cealalt jumtate n grupa superioar, fie
toate n grupa inferioar sau toate n cea superioar.

Modul de prezentare a rezultatelor
obinute
Rezultatele obinute se centralizeaz intr-un tabel care
cuprinde limitele grupelor, caracteristica grupei i frecvenele.
n scopul evidenierii procesului analizat statistica utilizeaz
reprezentrile grafice de tipul:
Histograme
Poligonul frecventelor

Poligon de frecvente
absolute
Histograma de frecvente
relative cumulate
Histograma de
frecvente relative
Rezultatele cercetrilor experimentale pot fi reprezentate sub
form de
serii (siruri de valori cu valori masurate din proces)
tabele
grafice
ecuaii.

Prezentarea datelor experimentale sub
forma de tabele
Prezint avantajul unei scrieri mai compacte i accesibile pentru
citire i pentru prelucrarea statistic a datelor experimentale
Un tabel statistic trebuie s contina urmtoarele elemente:
titlul general al tabelului
indic obiectul tabelului i
trebuie sa precizeze variabila de distribuie i colectivitatea observat
titlurile interioare,
unitatea de msur,
rubricile tabelului,
sursa datelor i
note la subsolul tabelului (daca este cazul)
Tabelele trebuie s permit o interpretare uoar, fr alte
informatii suplimentare.
Tipuri de tabele
Tipurile de tabele cele mai utilizate n practic, sunt:
tabele statistice - n care unele variabile sunt exprimate cantitativ, iar
altele valoric. Principalele tipuri de tabele statistice sunt:
tabel statistic cu simpl intrare - prezint repartiia de frecven a unei
populaii dup o singur caracteristic i are dou coloane: prima este
dedicat caracteristicii, iar cea de-a doua, nscrierii frecvenei
caracteristicii;
tabel statistic pe grupe: prezint populaia analizat pe grupe sau clase,
dup o singur caracteristic;
tabel statistic cu dubl intrare: prezint repartiii de frecven combinate
dup dou caracteristici. n cazul n care exist o dependen ntre cele
dou caracteristici, tabelul se numete tabel de corelaie.
tabele de tip funcional - n care sunt reprezentate una sau mai multe
funcii de forma: y = f(x).

Tabele cu date primare
Tabelul cu datele primare conine valori ale caracteristicilor
cercetate x
1
, x
2
, x
3
, ..., x
n
care pot fi aranjate:
ntr-o ordine ntmpltoare.
n ordine cresctoare,
n ordine descresctoare
Tabele statistice pe grupe
Tabele cu dubla intrare
Valorile variabilei independente x sunt scrise in prima coloana a tabelului
iar valorile variabilei dependente y pe primul rand.
Tabele functionale
Prezentarea datelor experimentale sub
forma de grafice
Prezinta sugestiv i accesibil informaiile statistice,
Sunt mai puin precise dect tabelele i seriile statistice
Graficele permit evidenierea:
variaiei valorilor observate;
densitii de repartiie a frecvenelor;
raporturilor de mrime;
interdependenelor dintre indicatorii statistici.
Graficele reprezint un mijloc de prezentare a rezultatelor
sistematizrii datelor n etapa prelucrrii primare.
n faza de prelucrare a datelor, graficul orienteaz alegerea
modelelor de calcul statistic (de exemplu, alegerea metodei de
ajustare a seriilor cronologice, alegerea funciei matematice
dup care se realizeaz corelaia etc)
Elementele unui grafic
Elementele care definesc un grafic sunt:
titlul
reeaua graficului (grila) - sub forma de linii orizontale si verticale
pentru coordonate rectangulare si cercuri concentrice pentru coordonate
polare.
axele de coordonate (sistem rectangular sau polar)
scara de reprezentare (aritmetice, logaritmice, semilogaritmice)
legenda graficului pentru explicarea diverselor simboluri, hauri,
culori
note explicative (sursa datelor, numerotarea)
Tipuri de grafice
n practica statistic se folosesc diferite tipuri de grafice pentru
a evidenia raporturile de mrime dintre indicatori:
graficele prin coloane
graficele prin benzi
diagramele de distribuie,
poligonul frecvenelor
corelograma
cronograma
Grafice prin coloane
permit o vizualizare rapid a diferenelor de mrime dintre indicatori sau a
evoluiei lor n timp.
Mrimile indicatorilor prezentai sunt reflectate prin coloane cu baze egale
i nlimea proporional cu nivelul indicatorilor.
Coloanele pot fi simple (cu distane egale ntre ele sau lipite), cu
subdiviziuni i cu orientare n dublu sens (pozitiv, negativ)
Deasupra fiecrei coloane se poate trece mrimea reprezentat.
Se folosete pentru un numr redus de valori de
Grafice prin benzi
Nivelul indicatorilor este reprezentat prin benzi orizontale de lime egal
i de lungime proporional cu mrimea acestora.
Benzile sunt egal distanate.
Aceste grafice sunt folosite n cazul indicatorilor care pot fi structurai pe
componente atunci cnd termenii seriei exprim lungimi i pentru
indicatorii eterogeni cu variaii foarte mari.
Diagrame de structura
Diagrame de distribuie
Sunt specifice seriilor de repartiie de frecvene:
histograma,
poligonul frecvenelor,
poligonul frecvenelor cumulate
curba de concentrare
Histograma i poligonul frecvenelor ofer o prim imagine
asupra normalitii
asupra tendinei de normalitate,
asupra asimetriei profunde a unei serii de distribuie de
frecvene.
Histograme
Histogramele se utilizeaza pentru afisarea frecventelor
absolute si relative ale datelor experimentale grupate pe in mai
multe clase (grupe).
In cazul intervalelor de grupare egale, inlimea coloanelor
este proporional cu frecvena grupelor
n cazul intervalelor de grupare neegale, suprafaa coloanelor
este proporional cu frecvena grupelor. In acest caz se
calculeaz un coeficient de reducere a frecvenelor n funcie
de mrimea fiecrui interval, comparativ cu intervalul minim.
Exemple de histograme
Poligonul frecvenelor
Poligonul frecventelor este similar cu histograma si se
utilizeaza pentru prezentarea frecventelor absolute si relative
ale datelor experimentale
Exemple de poligoane de frecvente
Exemple de poligoane de frecvente
Poligonul frecventelor absolute Histograma si poligonul
frecventelor absolute
Exemple de poligoane de frecvente
Putine date
Multe date
Corelograma (diagrame de imprastiere)
Corelograma se mai numeste graficul norului de puncte
Este folosit pentru evidenierea legturilor dintre caracteristici, n cazul
repartiiilor bidimensionale.
Cronograma (historiograma)
Cronograma trasate prin linii
Cronograma trasate prin coloane
Diagrama polara
Calculul parametrilor statistici
Cei mai importani parametri statistici, care caracterizeaz o
colectivitatea statistic sau eantionul, sunt:
media aritmetic,
dispersia
abaterea medie ptratic.
Media aritmetica a esantionului
Media arimetic se calculeaz cu:
unde: x
i
irul de valori a eantionului; n numrul de valori ai
esantionului; n
g
numarul de grupe; xc
i
valorile centrale din
mijlocul fiecarei grupe; fa
i
- frecvente absolute.
N > 50
Dispersia esantionului
Dispersia (s
2
) este media aritmetic a ptratelor abaterilor de la
media aritmetic i se calculeaz cu relaia:
unde: n numarul de valori ai esantionului; media aritmetica a
esantionului; x
i
sirul de valori ai esantionului.
x
Abaterea medie ptratic a esantionului
Abaterea medie ptratic (s) este rdcina ptrat a dispersiei:
unde: s
2
dispersia; n numarul de valori ai esantionului; media
aritmetica a esantionului; x
i
sirul de valori ai esantionului.
x
Coeficientul de boltire |
curba mezocurtic (normal), este cea care coincide cu modelul;
curba platicurtic, se datoreaz unei variaii puternice a variabilei x nsoit
de o variaie slab a frecvenei f
i
;
curba leptocurtic, se datoreaz unei variaii slabe a variabilei x nsoit de
o variaie puternic a frecvenei f
i
;
3 3
2
2
4
2 2
= =

|
( )


=
i
i i
n
n x x
2
2

( )


=
i
i i
n
n x x
4
4

2
3
1

=
( )


=
i
i i
n
n x x
3
3

Asimetria repartitiei
|
1
= 0 distribuia este simetric
|
1
> 0 distribuia este asimetric la dreapta
|
1
< 0 distribuia este asimetric la stnga
2
3
1

=
( )


=
i
i i
n
n x x
2
2

( )


=
i
i i
n
n x x
3
3

Repartitia frecventelor
Parametrii unui proces sunt variabile aleatoare ce urmeaz o
anumit lege de repartiie.
Att histograma ct i poligonul frecvenelor se pot nlocui
printr-o curb continu numit funcie de repartiie a
frecvenelor (se mai numete i densitatea probabilitilor).
Principalele repartitii teoretice sunt:
repartiia normal,
repartiia binomial,
repartiia Poisson,
repartiia (hi-ptrat),
repartiia t (Student),
repartiia F (Fischer-Snedecor).
Repartiia normal N (, 2)
Este una dintre cele mai importante repartiii i este cunoscut
sub numele de repartitia Gauss-Laplace.
Aceast lege se bazeaz pe observaia c rezultatele obinute
prin msurtori repetate n aceleai condiii, nu sunt identice ci
variaz n jurul unei valori.
Pentru =0 i =1
Particularitati ai repartitiei normale
Are un maxim pentru x = (media aritmetica a colectivitatii)
Scade la dreapta i la stnga mediei aritmetice.


Este simetrica n raport cu dreapta x = .
Are form de clopot (clopotul lui Gauss) cu convexitatea n sus.
n punctele x + i x - curba i modific convexitatea.
Curba densitii de probabilitate este cu att mai ascuit cu ct
este mai mic.
La repartitia normala
circa 68,3% din valorile variabilei aleatoare se ncadreaz n domeniul
;
circa 95,5%, n domeniul 2;
peste 99,70%, n domeniul 3 i
numai o proporie de sub 0,3% n afara acestui interval.
Exemple de repartitii normale
Curba de repartitie pentru diferite
abateri medii patratice
Repartiia binominal
Se aplic n studiul probelor repetabile.
Fiecare prob ofer o alternativ a crei probabilitate este
constant. Dac p este probabilitatea unuia dintre termenii
alternativei, probabilitatea celuilalt este complementar, adic
este q = 1 p.
Intr-o serie de n probe repetate, probabilitatea ca termenul de
probabilitate p s se produc de k ori este dat de expresia:
Parametrii pentru repartiia binomial sunt :
media = n*p
dispersia 2 = n*p*q
( )! !
!
k n k
n
C
k
n

=
unde: - este numrul de combinri a n obiecte luate cate k adic
k
n
C
Repartiia Poisson
n cazul cnd probabilitatea p de apariie a caracteristicii
observate este mic, iar numrul de observaii este mare, se
poate deduce din forma funciei de frecven pentru repartiia
binomial legea de repartiie a lui Poisson :
Repartiia Poisson este, ca i repartiia binomial, o lege
discontinu.
Caracteristicile repartiiei snt :
media = n*p
dispersia
2
= n*p*q
u
k
k
e
k
P
!

=
Repartiia
2
(hi-ptrat).
Dac se consider n variabile aleatoare independente x
1
, x
2
, ...,
x
n
cu repartiii normale N(0,1), suma ptratelor variabilelor x
i
,
constituie o variabil aleatoare notata cu
2

Densitatea de probabilitate a repartiiei este:
unde = n 1 reprezint numrul de grade de
libertate
v = v o 2 =
Repartiia t (Student)
Dou variabile u cu repartiie normal N (0, 1) si
2
cu -
grade de libertate - pot defini o alt variabil aleatoare:
v
_
2
u
t =
Densitatea de probabilitate a variabilei t
este:
cu o repartiie denumit repartiia t sau
Student (pseudonimul matematicianului
englez Gosset).
Repartiia F (Fisher-Snedecor).
Considernd dou variabile aleatoare Y1 i Y2 independente
n probabilitate, cu repartiia avnd respectiv numrul gradelor
de libertate v1 (v - niu) i v2 se definete o alt variabil
aleatoare:
Teste statistice
Clasificarea testelor statistice dup scopul lor:
teste de comparare a unor parametri ai unor populaii (compararea
mediilor a doua populaii, compararea mediilor mai multor populaii,
compararea dispersiilor, etc. Se impart in:
teste neparametrice - nu se face nici o presupunere despre distribuiile
populaiilor din care provin eantioanele.
teste parametrice pentru compararea parametrilor se presupune ca
populaiile din care provin eantioanele au anumite distribuii cunoscute,
de exemplu sunt distribuite normal. Testele parametrice sunt preferate
celor neparametrice deoarece, dei sunt mai restrictive, sunt superioare
celor neparametrice din cauza c iau in considerare n plus informaia
despre distribuii.
teste de omogenitate sau de independen - sunt teste care verifica
ipoteze de tipul dependentei sau independentei unor factori de
clasificare;
teste de concordanta - sunt teste care verifica daca distribuia
valorilor unei serii de date este conforma cu o anumita distribuie
teoretic aa cum ar fi distribuia normal.
Principalele teste statistice
Eliminarea datelor aberante
Analiznd un ir de date experimentale se poate ntmpla ca
unele valori s fie afectate de erori.
Punerea n eviden i eliminarea rezultatelor anormale,
respectiv a rezultatelor cu probabilitate foarte mic de a se
produce se face cu ajutorul:
testului Romanovski
testului Testul Grubbs-Smirnov
testului Chauvenet
Verificarea caracterului aleator al
datelor experimentale
Se face cu scopul de a se stabili dac variaia variabilei
aleatoare are loc numai sub influena cauzelor ntmpltoare,
tiind c asupra acesteia pot aciona i cauze sistematice.
n practic se utilizeaz dou teste:
testul iteraiilor (Runtest).
testul Young
Verificarea normalitatii repartitiei
Testele utilizate pentru verificarea normalitatii repartitiei pot fi
impartite in:
teste analitice
bazate pe functia de repartitie
testul Kolmogorov-Smirnov/Lilliefors
testul Cramer-von-Mises
testul Kuiper-Test
testul Watson
testul Anderson-Darling.
bazate pe coeficientul de corelatie si regresie
testul Shapiro-Wilk-Test
testul DAgostino-Test
testul coeficientului de corelatie
teste grafice. Testele grafice se realizeaza ca o completare a testelor
analitice
retea de probabilitate
Quantil-Quantil-Plot
Probability-Probability-Plot.
teste care se bazeaza pe asimetria si boltirea curbei de repartitie (testul
Jarque
testul universal Chi-patrat
Care este cel mai bun test de
verificare a normalitatii ?
Testele care se bazeaza pe functia de repartitie sunt mai slabe
testul cel mai cunoscut Kolmogorov-Smirnov/Lilliefors este destul de
criticat
testele Cramer von Mises si Anderson-Darling sunt considerate mai
bune
Testele care se bazeaza pe coeficientul de corelatie si regresie
sunt mai bune
testul Shapiro-Wilk este considerat unul din cele mai bune teste
Testul Hi-patrat este o alegere proasta deoarece prin gruparea
valorilor in clase se pierd o serie de date necesare testului de
verificare a normalitatii
Quantil-Quantil Plot
Datele experimentale x
i
se ordoneaza crescator
Se calculeaza cuantilele repartitiei normale:
Se reprezinta grafic perechile de puncte P
i
(x
i
, z
i
)
Se verifica imprastierea cuantilelor in jurul liniei de referinta
Probability-Probability Plot
Se calculeaza valorile functiei de repartitie
pentru fiecare valoare experimentale:
Se calculeaza valorile functiei G(x)
Se reprezinta grafic
perechile de valori
P
i
(F(X
i
),G
n
(x))
Se verifica pozitia punctelor
fata de linia de referinta. Cu
cat sunt mai aproape de
linia de referinta cu atat
datele experimentale sunt
repartizate mai normal
Datele experimentale x
i
se ordoneaza crescator
Testul
2
(hi-ptrat)
poate fi aplicat la orice distribuie (repartiie) teoretic.

Abaterile dintre frecvenele absolute experimentale i
frecvenele repartiiei teoretice normale sunt: fa
i
np
i


Suprafeele haurate din figura alaturata
reprezint diferena ntre frecvenele
absolute (fa
i
) i frecvenele repartiiei
normale (np
i
) unde p
i
este probabilitatea
de apariie a intervalului i.
TESTUL
2
(hi-patrat)
cu = n
0
2 - 1 grade de libertate
(n
0
= numrul de grupe).
Numrul de grade de libertate () se calculeaz astfel: din
numrul de grupe se scade numrul parametrilor estimai pe
baza seleciei (egal cu doi), adic media () i abaterea medie
ptratic (s), i o unitate.
Daca
Se respinge ipoteza c repartiia
de selecie este o repartiie
normal;
Nu se respinge ipoteza c
repartiia de selecie este o
repartiie
Daca
unde: - este nivelul (pragul de semnificaie) i de obicei are valoarea 0.05
sau 0.01.
Testul Kolmogorov
are la baz aceleai consideraii ca testul
2
aplicate ns la
funcia de repartiie;

- In figura alaturata este reprezentat
o funcie de repartiie de selecie
(frecvena absolut cumulat) i
funcia de repartiie teoretica normal
- Suprafetele haurate reprezint,
diferena absolut cumulat (fca) i
valoarea funciei de repartiie
teoretic nmulit cu volumul de
selecie, adic:
( )
i i n
u nF fca d =
Suprafee haurate sunt valori ale unei variabile aleatoare (dn),
a crei repartiie a fost studiat de Kolmogorov i reprezint
probabilitatea ca dn s nu depeasc o valoare dat.

Valorile testului Kolmogorov
Funcia de repartiie a lui Kolmogorov se noteaz cu K(), iar
valorile ei sunt date n anexa V pentru valori ale lui X cuprinse
ntre 0,34 i 1,81.
Testul iteraiilor
Se definete o iteraie ca o succesiune de valori dintr-o prob
(eantion) cu o mprtiere aleatoare, mai mare sau mai mic
dect media.
n statistic se demonstreaz c repartiia numrului total de
iteraii tinde ctre repartiia normal.
Numrul critic de iteraii (I) la un nivel de semnificaie :
( ) 1 1
2
1
+ = n u n I
o o
n care : n - este volumul probei
(eantionului); u

variabila normal
normat corespunztoare unui nivel de
semnificaie
Dac Ic > I

rezult c influena factorilor sistematici asupra


rezultatelor obinute din msurri este nesemnificativ
Dac Ic < I

rezult c influena factorilor sistematici asupra


rezultatelor obinute din msurri este semnificativ (ipoteza c
selecia este aleatoare se respinge)
Criteriul Q
Se aplic pentru o selecie de volum mic i const n calcularea
valorii lui Q cu relaia
Dac Q
calc
> Q
tabel
atunci x
*
este valoare anormala
Dac Q
calc
< Q
tabel
atunci x
*
este o valoare normala
min max
2 1
x x
x x
Q

=
unde: x
*
- este valoarea aberanta; x2 - valoarea cea mai apropiat de x1; x
min

valoarea minima; x
max
valiarea maxima.
Criteriul rmin - rmax
Dac r
max
> r
,
valoarea x
max
se consider greit i va fi
eliminat
Dac r
min
> r
,
valoarea x
min
se consider greit i va fi
eliminat
Valoarea lui r
,
se citete din anexa VII la nivelul de
semnificaie i = n - 2 grade de libertate.
Dup eliminarea valorilor anormale se alctuieste o nou
repartiie statistic i se calculeaza parametrii necesari analizei.
n
n
s
x x
r
1
min
min

=
n
n
s
x x
r
1
max
max

=
unde: n numarul de valori; x
min
- valoarea minim din irul de date; x
max

- valoarea maxim din irul de date; s - abaterea medie ptratic.