Documente Academic
Documente Profesional
Documente Cultură
Capitolul III
STATISTICA TEHNIC
[3] [4] [5] [8] [9] [10] [12] [13] [17] [24] [25] [28] [47] [58] [74] [87] [88] [89] [90] [91] [93] [99] [100] [107] [109] [113] [121] [126] [127] [129]
[130] [131]
3.1.
NOIUNI GENERALE
Statistica reprezint un ansamblu de procedee, tehnici i principii metodologice care au drept scop
producerea informaiei statistice avnd la baz observarea, culegerea, prelucrarea i analiza datelor
statistice, aciuni care vor conduce la fundamentarea deciziilor referitoare la starea i variabilitatea
colectivitii statistice n timp, n spaiu i din punct de vedere calitativ.
Statistica matematic, n general, i statistica tehnic, n particular, are ca obiectiv cercetarea
metodelor de culegere, nregistrare, prelucrare i analiz a datelor statistice experimentale referitoare
la o colectivitate statistic n scopul obinerii unor previziuni privind desfurarea ulterioar a
fenomenelor de mas, respectiv pentru fundamentarea deciziilor.
Principalul rol al statisticii tehnice este de a descoperii legile de variabilitate a fenomenelor de
mas, fenomene ce se produc n condiii de incertitudine. Practic, se poate determina probabilitatea de
reapariie a unor fenomene n viitor n funcie de frecvena de apariie n trecut a evenimentelor.
Statistica tehnic studiaz fenomene de mas cum ar fi mulimea de piese finite, mulimea de
repere, de subansambluri care se produc n aceleai condiii, sunt de aceiai natur, au aceleai legi de
dezvoltare, practic sunt fenomene statistice omogene.
Procesul de cunoatere statistic este complex utiliznd dou tipuri de raionamente recunoscute
n cadrul metodelor tiinifice: raionamentul deductiv i raionamentul inductiv. Raionamentul
deductiv parcurge etapele de la general la particular i utilizeaz raionamentul matematic: se stabilesc
ipotezele generale asupra unor fenomene i se deduc prin raionament logic, proprietile particulare.
Raionamentul inductiv parcurge procesul plecnd de la observaiile particulare asupra fenomenelor
ajungndu-se la reguli generale. n procesul de cunoatere statistic se emit ipoteze, se culeg date, se
prelucreaz i se verific datele observate, astfel se genereaz un ciclu deductiv inductiv. n
concluzie, procesul de cunoatere statistic este iterativ.
Ca disciplin tiinific, funcie de scopul cunoaterii, statistica se subdivide n:
Statistic descriptiv
Statistic inferenial
Analiz statistic
Statistica Descriptiv
Cu ajutorul statisticii descriptive se pot descrie starea i variabilitatea unei colectiviti statistice
dup una sau mai multe caracteristici. Obiectivul principal const n culegerea datelor statistice,
prelucrarea i prezentarea lor sintetic, fie sub form numeric prin indicatori statistici, fie sub form
grafic prin diagrame i tabele statistice.
n raport cu numrul caracteristicilor considerate n planul cunoaterii avem:
Statistic descriptiv unidimensional cu o singur variabil;
Statistic descriptiv bidimensional cu dou variabile;
Statistic descriptiv multidimensional mai multe variabile;
Statistic Inferenial s-a dezvoltat dup descoperirea legilor probabilistice i construirea teoriei
probabilitilor. Statistica inferenial este utilizat pentru estimarea caracteristicilor unei colectiviti
pornind de la cunoaterea unei colectiviti pariale i testarea ipotezelor statistice care const n
msurarea incertitudinii rezultatelor i calcularea riscurilor pe care le implic luarea unor decizii
fundamentate pe baza unor informaii ce nu pot fi exhaustive. Statistica inferenial se utilizeaz
pentru studierea, cunoaterea unei colectiviti i se bazeaz pe inducia matematic fiind
fundamentat pe legea numerelor mari, pe principiile teoriei probabilitilor i pe statistica
matematic.
53
Analiz Statistic urmrete descoperirea a ceea ce este permanent, esenial, logic n variaia
proceselor i fenomenelor de mas i msurarea influenei factorilor care le determin variaia n timp,
n spaiu i din punct de vedere calitativ. n acest scop se folosesc urmtoarele metode: analiza de
regresie, analiza de corelaie, analiza seriilor de timp.
3.1.1. ETAPELE I PROCEDEELE SPECIFICE METODEI STATISTICE
a) Definirea problemei presupune precizarea clar a scopului i a ariei de investigaie (fenomen
sau proces observat) a variabilelor care sunt observate. n aceast etap se efectueaz documentarea
teoretic i faptic asupra fenomenului ce trebuie observat, se emit ipotezele de lucru, se aleg metodele
de investigare, se elaboreaz planul de cercetare.
b) Observarea statistic este o etap important, un proces complex de identificare, msurare i
nregistrare a fenomenelor de mas reprezentnd caracteristicile indivizilor unei colectiviti care se
manifest ntr-un mod real, practic se obin probele pentru procesul de cunoatere statistic. Calitatea
probelor obinute va determina n mod esenial autenticitatea informaiei statistice.
Culegerea datelor statistice se poate face prin:
nregistrare total (exhaustiv) a populaiei;
nregistrarea parial (anchete prin sondaj) adic nregistrarea la nivelul
unui eantion.
c) Prelucrarea statistic a datelor este un proces complex prin care datele nregistrate sunt
sistematizate i tratate statistic n vederea obinerii sistemului de indicatori. Prelucrarea statistic
cuprinde efectuarea unui numr de opt operaii pentru obinerea indicatorilor utiliznd procedee i
tehnici de lucru specifice statisticii:
1. Sistematizarea probelor obinute n etapa observrii statistice. Operaia se poate realiza
prin procedee clasice de centralizare i grupare statistic n urma creia se obin indicatorii
primari i serii de date statistice.
2. Prezentarea datelor statistice utilizeaz metodele tabelare i/sau graficele.
3. Calcularea indicatorilor derivai cum ar fi:
indicatori ai valorii centrale;
indicatori ai dispersiei;
indicatori ai formei de repartiie.
4. Msurarea gradului de intensitate a legturilor statistice (procedeele covariaiei i
corelaiei);
5.
Msurarea influenei factorilor asupra variaiei fenomenelor;
6. Aproximarea modelelor de regresie i de trend (procedeul ajustrii statistice);
7. Prognoza fenomenelor (extrapolarea statistic);
8. Estimarea parametrilor i verificarea ipotezelor statistice (procedeul inferenial).
Rezultatul prelucrrii statistice se regsete n valoarea indicatorilor primari i derivai.
d) Analiza statistic. Procesul cunoaterii statistice fiind un proces iterativ, etapele prelucrrii
datelor statistice se combin cu procedeele de analiz a rezultatelor, practic trecerea la urmtoarea faz
de prelucrare statistic se face numai dup analiza rezultatelor obinute n cadrul prelucrrilor
statistice.
3.1.2. NOIUNI FUNDAMENTALE
Statistica opereaz cu o terminologie unitar utiliznd urmtoarele concepte de baz:
colectivitile statistice;
unitile statistice;
variabilele statistice;
indicatorii statistici.
A)
Colectivitile statistice mai sunt denumite populaii, mulimi sau universuri statistice. O
colectivitate statistic reprezint totalitatea elementelor relative identice care au aceiai natur i au o
trstur esenial comun numit omogenitatea. n cadrul statisticii tehnice, colectivitile statistice
definesc populaii reale care sunt, n fapt, mulimi finite. Colectivitile statistice trebuie s fie
54
delimitate de frontiere care sunt necesare pentru a se putea realiza observarea n condiii normale i
pentru a se interpreta rezultatele fr apariia unor confuzii.
Colectivitile statistice pot fi grupate dup urmtoarele criterii:
a) gradul de cuprindere:
1. colectiviti totale care pot fi:
- statice;
- dinamice.
2. colectiviti pariale care pot fi:
- statice;
- dinamice.
b) natura elementelor:
1. colectiviti cu coninut msurabil;
2. colectiviti cu coninut atributiv.
B) Unitile statistice reprezint elementele constitutive ale unei colectiviti statistice. Esenial
pentru unitile statistice este definirea clar i precis a acestora pentru a putea fi identificate corect
ceea ce presupune obinerea datelor autentice. Unitile statistice sunt elemente de observare, msurare
i nregistrare. Anumite uniti au o existen proprie, practic sunt concrete, altele pot fi abstracte fiind
utilizate pentru individualizarea observaiilor.
Clasificarea unitilor statistice se face dup:
a) gradul de complexitate:
1. uniti statistice simple sunt formate dintr-un singur element, depind de starea lor
natural de existen;
2. uniti statistice complexe sunt formate din dou sau mai multe uniti simple i
depind de modul de organizare
b) rolul n procesul nregistrrii statistice:
1.
uniti statistice active;
2. uniti statistice pasive.
C) Variabile statistice (sau caracteristici statistice) reprezint nsuiri, trsturi eseniale purtate
de unitile statistice ale unei colectiviti, adic dimensiunile prin care se observ, msoar, cuantific
i nregistreaz fiecare unitate din colectivitate. n cadrul studiilor statistice, funcie de nivelul
cercetrii se pot regsi trei tipuri de variabile: empirice, teoretice i de selecie.
Variabilele empirice sau statistice sunt variabile ce exprim valori reale nregistrate la nivelul
unitilor statistice i le corespund distribuiile statistice (empirice). Acestea sunt tratate de statistica
descriptiv prin distribuii statistice unidimensionale sau bidimensionale. Variabilele aleatoare sunt
acele variabile ale cror variane depind de un sistem complet de evenimente.
Variabilele teoretice. Funcia de probabilitate reprezint frecvena relativ a unei variabile
aleatoare i au valori cu att mai mari cu ct influena factorilor ce le determin sunt mai mari.
Variabilele teoretice au valori abstracte ce sunt corespunztoare distribuiilor teoretice (distribuiilor
probabilistice).
Variabilele de selecie se regsesc n cadrul cercetrilor prin sondaj. Distribuiile de selecie fac
obiectul statistici infereniale.
Clasificarea variabilelor statistice:
a) dup importana lor, pot fi:
1. variabile eseniale, exprim natura intern a fenomenului. Variabilele se regsesc la toate
unitile colectivitii;
2. variabile neeseniale, au caracter ntmpltor.
b) dup natura lor, pot fi:
1. variabile calitative, exprim esena, natura unitilor;
2. variabile de timp const n apartenena unitilor la un moment sau interval de timp;
3. variabile de spaiu, exprim zona (teritoriul) n care exist i se manifest unitile
colectivitii.
c) dup modul de exprimare, pot fi:
55
1. variabile numerice sau variabile cantitative acestea sunt fie numrabile fie msurabile,
putnd fi reprezentate pe o scal interval sau pe o scal raport. Domeniul lor de variaie
se numete amplitudine de variaie. Aceste variabile cantitative pot fi:
variabile continue ceea ce presupune c variabila numeric msurabil
poate fi divizat pn la infinit i se poate grupa n k intervale;
variabile discrete, iau valori msurabile.
2. variabile nenumerice sunt variabile calitative (sunt exprimate atributiv). Acestea pot fi
reprezentate pe o scal nominal sau pe o scal ordinal.
d) dup modul de manifestare se disting:
1. variabile alternative, au caracter dichotomic adic pot lua dect dou valori, mai sunt
numite caracteristici binomiale sau binare;
2. variabile nealternative, pot lua valori diferite reprezentate de uniti sau grupe de uniti.
D) Indicatori statistici. Un indicator statistic poate fi definit ca rezultatul numeric al unei
numrri, al unei msurri statistice a fenomenelor i proceselor de mas sau al unui calcul asupra
datelor obinute dintr-o nregistrare statistic. Indicatori statistici au un coninut real, adic exprim
fenomene i procese care se deruleaz n mod natural.
n cadrul unei cercetri statistice, indicatorul statistic apare n dubl ipostaz
purttor de informaie, reprezentnd expresia numeric a unui fenomen real;
mijloc de calcul, fiind un instrument pentru obinerea informaiei statistice.
Valabilitatea tiinific a indicatorilor statistici este condiionat de dou condiii importante:
coninutul tiinific trebuie s fie bine determinat putnd fi reprezentat de o definiie, o
formul de calcul, etc.;
condiia de comparabilitate n timp, spaiu i calitativ trebuie s fie ndeplinit.
Clasificarea indicatorilor statistici se face dup urmtoarele criterii:
a) modul de determinare:
1. indicatori primari reprezint rezultatul unor msurtori statistice i exprim n mrime
absolut o dimensiune a unei colectiviti sau a unui element al acesteia;
2. indicatori derivai, se obin prin prelucrarea indicatorilor elementari.
b) gradul de cuprindere:
1. indicatori statistici sintetici sunt expresii numerice ale diferitelor categorii de sintez;
2. indicatori statistici analitici exprim structura unei colectiviti i influena factorilor care
acioneaz asupra acesteia.
c) forma de exprimare:
1. indicatori exprimai sub form de mrimi absolute;
2. indicatori exprimai sub form de mrimi relative;
3. indicatori exprimai sub form de mrimi medii.
3.2. STATISTICA DESCRIPTIV
Colectarea datelor referitoare la unitile statistice ce formeaz o colectivitate statistic urmrete
stabilirea valorii care este caracteristic indivizilor sau are ca scop formarea unei concluzii reale ce
rezult din datele observate, pentru a se formula decizii. Statistica descriptiv reprezint o form
simpl de analiz a caracteristicilor unei colectiviti statistice avnd incluse urmtoarele activiti:
colectarea datelor, prezentarea lor sub form de tabele, ntocmirea unei reprezentri grafice i stabilirea
indicatorilor statistici. Rezultatele acestor activiti permit obinerea unor informaii reale referitoare la
colectivitatea statistic.
3.2.1. REPARTIII STATISTICE EMPIRICE
Sistematizarea datelor este o faz primar a prelucrrii statistice i are ca scop obinerea
distribuiilor statistice empirice. Sistematizarea datelor statistice nregistrate are ca scop ordonarea lor
funcie de omogenitate. Diferenierea pe grupe a populaiei statistice, n funcie de variabilitatea
caracteristicii examinate i a frecvenelor corespunztoare se face n raport cu diveri factori:
- n raport cu locul n care s-a produs fenomenul;
- n raport cu timpul n care s-au fcut observaiile;
56
CENTRUL
INTERVALUL
UI DE
GRUPARE
x1 inf x1 sup
x1med
n1
...
...
...
xi inf xi sup
ximed
ni
...
...
...
x m med
nm
n ni
i1
x m inf x m sup
TOTAL
FRECVENE
RELATIVE N
%
n
f % i 100
i
n
FRECVENE
FRECVENE RELATIVE
n
ABSOLUTE
f i
NI
i
n
f1
FRECVENA
ABSOLUT
CUMULAT FCUM
k
N m ni
Fm f i %
N1
F1
i 1
f1%
FRECVENA
RELATIV
CUMULAT F%CUM
i 1
...
fi
...
fi%
Ni
Fi
...
...
fm
fm%
Nm
Fm
f 1
i1 i
f i % 100
i1
Intervalul general se poate mpri n k intervale de grupare care pot fi egale sau neegale (se
prefer intervalele de grupare egale). Atunci cnd unitile statistice au o valoare egal cu valoarea
superioar a intervalului de grupare acestea trec n intervalul urmtor. Numrul unitilor statistice care
au valori aparinnd aceluiai interval de grupare reprezint frecvene absolute: n1, n2, ..., nk, respectiv
frecvenele relative: f1, f2, ..., fk. Suma total a frecvenelor absolute este egal cu numrul total al
unitilor cercetate, n: ni n
Tabel 3.2. Tabel cu dubl intrare
Valorile Y
Valorile X
x1
x2
...
xi
...
xm
n.j
y1
y2
n11
n21
...
ni1
...
nm1
n.1
n12
n22
...
ni2
...
nm2
n..2
yj
...
...
...
...
...
...
57
n1j
n2j
...
nij
...
nmj
n..j
...
...
...
...
...
yp
ni.
n1p
n2p
...
nip
...
nmp
n..p
n1.
n2.
...
ni.
...
nm.
n..
Raportul dintre frecvena absolut i numrul total de uniti statistice se numete frecven
n
n
f i i , f i % i 100
relativ:
n
n
Sunt situaii n care este necesar s se cunoasc numrul de uniti statistice pn la o anumit
valoare a caracteristicii sau numrul de la o anumit valoare n sus. Aceast modalitate de prezentare
se realizeaz utiliznd frecvena cumulat care se noteaz cu fcum. Relaiile de calcul pentru: frecvena
m
f cum ni
f cum % f i %
i 1
i 1
absolut cumulat
respectiv pentru frecvena relativ cumulat
.
Dac gruparea se realizeaz dup dou caracteristici, rezult o serie de repartiie bidimensional
care se reprezint printr-un tabel de corelaie sau tabel cu dubl intrare.
O distribuie bidimensional prezint variaia unitilor unei colectiviti simultan dup dou
caracteristici de grupare.
O distribuie bidimensional este definit de ansamblul de triplete (xi, yj, nij), i 1,m , j 1, p
Distribuiile marginale n X, respectiv n Y, sunt definite de ansamblul de cupluri (xi,ni.), i 1,m ,
respectiv (yj, n.j), j 1, p , unde:
ni. reprezint efectivele marginale corespunztoare valorii xi
n.j reprezint efectivele marginale corespunztoare valorii yj
p
m
ni. nij n n
.j
ij
j 1
i 1
p
m
Relaii ntre efectivele marginale i pariale: ni. n. j nij
i 1
j 1
i j
n. j
n
Frecvene relative marginale: f i. respectiv f . j
i. n..
n..
nij
Frecvene relativ pariale: f ij
n..
nij
fi / j
n. j
nij
ni.
1
f
n
.j
.j
n
..
n
..
n..
j 1
j 1
j 1
n. j
m
m nij
p
p nij
n
1 m
1 p
1 f
fi / j
nij
nij i. 1
j
/
i
n
n
n
n
i 1
i 1 . j
. j i 1
.j
j 1
j 1 ni. ni. j 1
i.
1
f ij
ni.
n
..
n
..
n..
i 1 j 1
i 1 j 1
i 1
f
i.
j /i
ij
n.. n
n..
i.
- Produsul sumelor frecvenelor condiionate este egal cu suma frecvenelor pariale care este
egal cu unitatea:
58
ij
fi / j f j / i
i n. j
i
j
n
ij
n
j
i.
1
1
nij
n i
ni.
.j
n n
n . j i. 1
ij
n n
. j i.
j
y1
y2
yj
ym
a
j 1
Valorile X
x1
x2
...
xi
...
xn
a11
a21
...
ai1
...
an1
a12
a22
...
ai2
...
an2
a.1
a.2
...
...
...
...
...
...
a1j
a2j
...
aij
...
anj
...
...
...
...
...
a1m
a2m
...
aim
...
anm
a1.
a2.
a.m
a..
ij
ai.
...
an.
a
i 1
ij
a.j
f
i 1
1 sau
f % 100
i
i 1
N m nm n1 n2 .... ni ... nm
i 1
1
n 1
k 4
4
1
5
iinf
xi xisup .
44
Reprezentarea grafic a datelor statistice se poate face prin figuri
42
geometrice i figuri naturale simbolice numite i diagrame sau
38
grafice. Reprezentarea grafic evideniaz aspectele caracteristice ale
Ni
32
fenomenelor i proceselor fiind folosit ca mijloc de comparare sau de
24
studiere a legturilor. Reprezentarea grafic este o metod de
prezentare prin imagini a datelor unei repartiii. Un rol important al
14
graficului const n interpretarea datelor, analiza lor i comunicarea
7
rezultatelor. Cu ajutorul graficului sunt puse n eviden caracteristici
x
2
eseniale ale distribuiilor cum ar fi tendinele, ordinea de mrime,
legile de variaie n timp, n spaiu sau din punct de vedere calitativ.
i
Figura 3.1. Histograma
Graficele frecvent folosite sunt: histogramele de repartiie a
frecvenelor cumulate
frecvenelor (simple sau cumulate), diagramele cu bare (coloane),
diagrama prin benzi, diagrama de structur, cronograme, diagrama polar, diagrama Radar,
corelograma i poligonul frecvenelor.
Histograma este o diagram format din dreptunghiuri avnd pe axa absciselor segmente de
dreapt egale cu intervalul de grupare iar pe axa ordonatelor nlimea dreptunghiurilor este
proporional cu frecvena corespunztoare intervalului de grupare.
10
Datele necesare pentru construirea unei histograme pot fi constituite din
ni
8
orice set de msurtori ale unei variabile continue sau discrete. Datele
7
pentru construirea unei histograme trebuie s fie precise, complete i
6
5
reprezentative.
4
Dac intervalele sunt inegale efectivele nu sunt comparabile de la o
2
2
clas la alta, ca urmare n construcia histogramei este necesar s se
xi
recurg la frecvene corectate, denumite i frecvene reduse.
Figura 3.2. Histograma
frecvenelor simple
60
ni
ki
n care
ki
li
lmin .
unde:
ni
4
2
1
ni
6
5
3
2
xi
xi
5 15 20 25 30 35 40 45 50
Diagrama de structur este un grafic n care este reprezentat structura unei colectiviti, scoate
n eviden raportul existent dintre prile componente ale colectivitii i colectivitatea luat ca ntreg.
Graficul utilizeaz figuri geometrice cum ar fi: cercul, ptratul, dreptunghiul. Suprafeele acestora sunt
direct proporionale cu volumul colectivitii, iar pari ale acestora sunt reprezentate prin poriuni de
suprafa.
Poligonul frecvenelor acestui grafic poate fi extras dintr-o histogram unind prin linii frnte
valorile centrale ale intervalelor de grupare. n cazul frecvenelor cumulate cresctor, unind n acelai
mod mijloacele se obine poligonul repartiiei numit i ogiva lui Galton.
3.2.3. INDICATORI STATISTICI
Alctuirea seriei statistice, gruparea datelor i reprezentarea grafic nu sunt suficiente pentru
analiza statistic, respectiv pentru determinarea legilor cruia i se supune fenomenul de mas observat.
Seria statistic format scoate n eviden trsturile comune ale tuturor caracteristicilor ce se supun
unor legi generale. Datele existente n cadrul seriei trebuie s fie sintetizate ntr-un indicator care s le
reprezinte. Rezultatul msurtorilor obinute n condiiile variabilitii mrimilor ne conduce la faptul
c exist o tendin a datelor de a se grupa n jurul frecvenei maxime, frecven care corespunde unei
valori centrale a variabilelor statistice numit tendina central.
n cazul repartiiilor statistice empirice a frecvenelor, tendina de variaie pentru orice
caracteristic a populaiei statistice prezint dou aspecte:
de variaie (mprtiere).
61
Din experien, se constat c repartiia frecvenelor poate fi simetric sau asimetric n raport cu
poziia de localizare, de asemenea, localizarea se poate face n jurul unei valori medii dar mprtierea
poate fi diferit. Graficele de frecven rezultate n urma prelucrrii datelor au numai valoare de
utilizare calitativ.
O analiz cantitativ care s permit o comparaie a tendinelor de localizare i de variaie
(mprtiere) se poate realiza numai prin determinarea indicatorilor statistici care se calculeaz pe baza
datelor statistice ale valorilor caracteristice respective.
3.2.3.1. Indicatori de localizare (de poziie)
Orice mrime care d informaii asupra poziiei valorilor principale ale repartiiei pe axa
absciselor se numete indicator de localizare (poziie). Indicatorul de localizare este o valoare
teoretic, care n anumite cazuri poate s nu existe practic printre valorile populaiei. Indicatorul de
localizare precizeaz valoarea n jurul creia tind s se grupeze datele reale. Indicatorul de baz al
tendinei de localizare este format din mrimile medii.
Media.
n cadrul procesului de prelucrare a datelor, pentru a caracteriza n mod sintetic ceea ce este tipic
sau esenial n variaia caracteristicii dintr-o colectivitate statistic este necesar s se calculeze media.
Media este un indicator derivat. Media este sintetizat numeric sub form abstract pentru toate
nivelurile individuale ale unei caracteristici.
Pentru ca media s aib un coninut real, practic s nu denatureze rezultatul cercetrii este necesar
ca la calculul acesteia s se in cont de urmtoarele aspecte:
deoarece se pot calcula mai multe tipuri de medii se va utiliza acel tip care se coreleaz cel
mai bine cu natura i forma de variaie a caracteristicii.
Media reprezint expresia care sintetizeaz ntr-un singur nivel (reprezentativ) tot ceea ce este
esenial, tipic i obiectiv n modul de apariie, manifestare i dezvoltare pentru caracteristica statistic.
Anumite concepte consider media ca fiind sperana matematic spre care tind toate valorile
caracteristicilor statistice. Fiecare dintre medii se pot calcula sub dou forme:
ca medie simpl;
ca medie ponderat;
Media aritmetic x - se calculeaz atunci cnd fenomenul cercetat nregistreaz modificri
constante care se afl n progresie aritmetic. Considernd valorile caracteristicii: x1, x2, ..., xn
x x ... x n 1 n
x 1 2
xi
n
n i 1
Media ponderat. Cnd exist intervale de grupare cu frecvene de apariie specifice fiecrui
interval, media aritmetic se calculeaz cu relaia:
n
x n x 2 n2 ... x n nn
x 1 1
n1 n2 ... nn
x n
i i
x1 f1 x 2 f 2 ... x n f 2
sau x
f 1 f 2 ... f n
i 1
n
x f
i
i 1
n
i 1
i 1
i 1
f i % 100 , atunci
x
i 1
fi
sau
i 1
100
62
f i % 1 atunci x xi f i
i 1
xi
, i 1,2,..., n valoarea medie se noteaz cu M X i
Pentru variabilele aleatoare discrete X :
pi
n
x1 p1 x 2 p 2 ... x n p n
i 1n
se calculeaz cu relaia: x M X
p1 p 2 ... p n
xi pi
p
i 1
xi pi unde:
i 1
p
i 1
xdF x xf x dx
variabilei x.
xi a
fi
k
i 1
n
xi a
f
i 1
k a
xmin x xmax
b) Suma abaterilor nivelurilor individuale fa de nivelul mediei este zero.
n
x 0
i 1
i 1
i 1
i 1
i 1
i 1
x xi x xi nx xi n
i 1
x x n
i
x x n x n x n x n
i 1
i 1
i 1
i 1
i 1
x n
i
i 1
n
i 1
i 1
xi
i 1
x
/
xi a
i 1
x
/
xi a ni
i 1
n
i 1
i 1
a
i 1
xi
x i ni a
i 1
i 1
n
i 1
n x na
xa
n
ni
x n
i
i 1
n
a x a
i 1
i 1
i
k i 1
/
/
i 1 k
i 1
i 1
x
x
x
kx
n
n
k
n
n
Pentru cazul n care se calculeaz pentru serii de frecvene atunci relaia se poate scrie:
63
n
k a
i 1
fi
i 1
e) Dac ntr-o serie se reduc frecvenele cu o mrime constant precum i valorile
caracteristicilor cu aceeai constant, media calculat rmne neschimbat.
x
xi a
1 n
f i
xi
f i xi
k
k i 1
i 1
x n
1 n
f i
f i
k i 1
i 1 k
n
fi
i 1
f
i 1
f) Media aritmetic a unei sume este format din dou sau mai multe variabile independente
egal cu suma mediilor. M x y z M x M y M z
g) Media aritmetic a produsului dintre dou variabile independente este egal cu produsul
mediilor. M x y M x M y
h) Media general calculat pentru o populaie eterogen este egal cu media mediilor
pariale.
Media armonic x h - se calculeaz din suma valorilor inverse ale termenilor seriei.
Considerm valorile caracteristicii x1, x2, ..., xn, media armonic este dat de relaia:
xh
1
1
1
1
...
x1 x2
xn
n
n
n
i 1 xi
sau xh
fi
fi
xi
i 1
n
i 1
, xh
n
i 1
n
ni
x
i 1
Observaie important: x h x .
Media armonic este influenat de valorile mici, reducnd din influena valorilor mari.
Media armonic se utilizeaz n practic pentru calculul preului mediu i al indicelui mediu al
preurilor.
Media ptratic x p - se calculeaz din suma valorilor ridicate la ptrat al termenilor seriei.
x12 x22 ... x n2 1 n 2
1 n 2
x
xi x p
xi
n
n i 1
n i 1
Atunci cnd colectivitatea este divizat pe grupe i fiecrei grupe i se asociaz o frecven, media
2
p
xp
xi2 f i
i 1
f
i 1
sau x p
x n
i 1
n
2
i i
n
i 1
Observaie important: xh x x p .
Media ptratic este influenat de valorile mari ale seriei.
Media ptratic se folosete n situaii speciale:
cnd se dorete s se acorde o importan mai mare termenilor xi cu nivele mari n cadrul
seriei;
xg n x1 x2
... xn
64
xi
i 1
lg x1 lg x2 ... lg xn 1 n
lg xi
n
n i 1
Atunci cnd exist serii de frecvene pentru valorile xi, media geometric se calculeaz astfel:
xg
ni
i 1
ni
i
sau x g
i 1
fi
i 1
fi
i 1
n lg x1 n2 lg x2 ... nm lg xm
lg x g 1
n1 n2 ... nm
n lg x
i
i 1
n
i 1
mrr
1
1
xir sau mr r xir respectiv mr r
n i 1
n i 1
n
x n
i 1
n
r
i i
n
i 1
- dac r = 1 , mr x
x n
i i
i 1
n
n
i 1
mr x p
- dac r = 2
, media aritmetic
x n
2
i i
i 1
n
n
i 1
, media ptratic
- dac r = -1 m r x h
n
i 1
n
ni
i 1 xi
, media armonic
Observaie important: xh xg x x p .
Mediana Me - reprezint valoarea caracteristicii care ocup locul central n irul ordonat de
valori, mparte seria n dou grupe egale ca numr. Pentru a determina mediana este necesar s se
ordoneze termenii seriei cresctor sau descresctor iar locul medianei va fi stabilit pe baza relaiilor:
M e x
n 1
rangul;
x
Me
n
1
2
n 1
reprezint
2
2
Dac valorile sunt grupate pe clase, intervalul care conine elementul median se numete interval
median sau clas median.
65
ntr-o serie de frecvene nti trebuie s se gseasc intervalul median dup care se calculeze
n
valoarea medianei.
Intervalul median
1 fi
i 1
2
Dac seria frecvenelor este foarte mare (>500) atunci se renun la adunarea cu cifra 1.
Pentru variabile continue, mediana reprezint valoarea tipic cu care variabila x are aceiai
probabilitatea de a fi inferioar sau superioar: P X M e P X M e sau
Me
f x dx
f x dx
Me
f
i 1
M e xinf M e h
f cum Me
unde:
f Me
f
i 1
ni
,
i
c
b
c
a
x
rezult din cele dou relaii c:
L1 M 0 L2
66
b 1 h a 1 h 1 a;
2
2
2
2
2
1
a 1
h; a
h;
2 1 2
1 2
1b 2 a sau a
2
h;
1 2
1
h sau
Rezult: M 0 L1 a L1
1 2
2
M 0 L2 b L2
h
1 2
n cazul curbei frecvenelor se determin punctul de inflexiune corespunztor unei parabole
punnd condiia s treac prin trei puncte. Se obine aceiai relaie ca mai sus.
Avantajul utilizrii modului. Modul poate fi determinat foarte rapid. Se utilizeaz pentru a
obine o prim estimare a valorii centrale ale unei distribuii. Cu ct valoarea modul se afl la distan
fa de valoarea mediei aritmetice cu att distribuia are o asimetrie mai pronunat. n concluzie
modul poate fi utilizat pentru aprecierea gradului de asimetrie.
similar se calculeaz b
Valoarea central reprezint media extremelor valorilor caracteristice ale unei serii.
x xmin
xc max
2
Valoarea central se calculeaz i pentru un interval de grupare de ordin i i reprezint media
xinf i xsup i
valorilor limit (inferior i superior) ale intervalului. xc i
2
Quantile sunt mrimi de poziie. Quantilele sunt valori ale caracteristicii statistice care mpart
seria n n grupe care au efective egale. Numrul n definete ordinul quantilelor. Modul de determinare
a quantilelor este analog cu cel utilizat de median. Pentru variabile continue se utilizeaz relaia:
x1
x2
x3
1
f x dx x f x dx x f x dx ..... x f x dx n
1
2
n 1
Q1
Q3
Q2
M
Quartile - notate Q1, Q2, Q3 sunt acele valori ale caracteristicii care mpart seria n patru pri
egale. Ele se calculeaz prin analogie cu modul de calcul al medianei dar innd seam de locul pe care
l ocup quartila inferioar Q1 sau quartila superioar Q3 n cadrul seriei, quartila Q2 este egal cu
mediana.
Locul fiecrei quartile se determin utiliznd relaiile:
n 1
2 n 1
3 n 1
LQ
; LQ
; LQ
4
4
4
Valoarea quartilelor se calculeaz cu relaiile:
1
i 1
Q1
x infQ
3 1
i
f
h
fQ
1
cum Q
1
; Q2 M e ;
Q1
x infQ
i 1
fi
4
3
h
fQ
cum Q
3
Decile notate D1, D2, ..., D9 sunt acele valori ale caracteristicii care mpart seria n zece pri
(decia), a cincea decil fiind egal cu mediana.
67
LD
1
n 1
LD
10
2 n 1
10
, ... , L D
9 n 1
10
D2 xinfD h
2
f i
i 1
D1
x infD
i
f
10
h
cum D
1
fD
1
2 1
i 1
10
cum D
f D2
9 1
D9 xinfD9
i 1
fi
f
10
fD
cum D
9
Centile sau procentile notate C1, . . ., C99 sunt valorile caracteristicii care mpart seria n 100
de pri.
Locul procentilelor se calculeaz utiliznd formule:
LC
1
n 1
;
100
LC
2 n 1
100
; ...; L C
99
99 n 1
100
C1 xinfC
n
99 1 fi
i 1
100
fC
1
cum C
1
C50
Me
C 99 xinfC 99 h
100
fC
cum C
99
99
Explicaia termenilor din formulele de mai sus este similar cu cea de la decile.
3.2.3.2. Indicatori simplii ai variaiei sunt utilizai pentru a msura cmpul de mprtiere al
caracteristicilor nregistrate, precum i pentru a determina mprtierea fiecrui nivel individual al
caracteristici fa de nivelul mediu. Indicatorii sunt: amplitudinea variaiei i abaterea individual.
Acetia se pot exprima att n mrimi absolute ct i n mrimi relative.
Amplitudinea variaiei
a) Amplitudinea variaiei n mrimi absolute: Ax = Xmax - Xmin
A
x x min
100
b) Amplitudinea variaiei n mrimi relative: Arel% = x 100 max
x
x
Amplitudinea variaiei nu este un indicator suficient de semnificativ, principalul dezavantaj const
n faptul c nu ine seam de toate valorile observate ci numai de valorile extreme ale caracteristicilor,
ori asupra variaiei unui fenomen este normal s aib influen toate valorile individuale i frecvenele
lor de apariie. Uneori sunt cazuri cnd valorile extreme sunt foarte deprtate de celelalte valori
intermediare i in acest caz, a msura variaia numai n funcie de amplitudinea ei poate fi o greeal.
Amplitudinea variaiei este un indicator care n domeniul tehnic se interpreteaz n raport cu limitele
de toleran admise.
Abaterea individual
a) Abaterea individual n mrimi absolute notate di - se calculeaz cu relaia d i xi x
b) Abaterea individual n mrimi relative notate di% - se calculeaz cu relaia
x x
d
d rel % i
100 i 100
x
x
n concluzie, amplitudinea variaiei ofer informaii referitoare la mrimea(ntinderea) domeniului
de variaie fr s ofere posibilitatea cunoaterii structurii interne de variaie, iar abaterea individual
ofer informaii doar la nivelul fiecrei variante xi, neglijnd imaginea dispersiei pe ansamblul
distribuiei.
68
xi x f
i
n
n
i 1
fi
fi
i 1
i 1
Abaterea medie liniar calculat n valori relative pentru o serie cu intervale de grupare.
n
xi x f %
1 n
i
i 1
d
xi x f %
i
100
100 i 1
Dac xi este o variabil aleatoare a crei funcie de repartiie este F(x) i exist media M[x],
expresia abaterii medii liniare este dat de relaia:
M X dF x
f x dx
Calculul abaterilor individuale d se face fr a ine seam de semnul lor deoarece dac s-ar folosi
valorile algebrice, nivelul abaterii medii liniare ar fi egal cu zero. Abaterea medie liniar indic
variaia medie de la valoarea medie de distribuie. Valoarea este cu att mai mic cu ct valorile sunt
grupate n jurul mediei. Pentru calculul abaterii medii liniare se poate utiliza orice alt mrime medie
cum ar fi mediana, dezavantajul const n aproximarea introdus de median.
Abaterea medie ptratic notat se mai numete deviaia standard, este un indicator al
mprtierii valorilor unei variabile aleatoare x, este definit ca rdcina ptrat a momentului centrat
de ordin doi sau este rdcina ptrat a dispersiei.
2
n
2
x x
i 1 i
1 n
2
x x
ni 1 i
1 n 2
x x2
ni 1 i
Abaterea medie ptratic calculat n valori absolute pentru o serie cu intervale de grupare este
dat de expresia:
n
2
x x n
i
i
i 1
n
ni
i 1
Abaterea medie ptratic calculat n valori relative pentru o serie cu intervale de grupare este
dat de expresia:
n
2
x x f
i
i
i 1
n
fi
i 1
sau
1 n
2
x x f %
i
100 i 1 i
Pentru serii cu variabile aleatoare discrete, expresia abaterii medii ptratice este:
x
i 1
pi
2
x
i 1
2
i
pi 2
Pentru serii cu variabile continue, unde F(x) este funcia de repartiie a variabilei aleatoare x i
este media acestor variabile, abaterea medie ptratic este dat de relaia:
dF x
2
f x dx
2
i
f x dx 2
Abaterea medie ptratic este calculat ca o medie ptratic, iar prin ridicarea la ptrat se d o mai
mare importan abaterilor mai mari n valoare absolut. Abaterea medie ptratic este un indicator de
69
baz care se folosete n analiza variaiei, pentru estimarea erorilor de selecie, n calculele de
corelaie.
Observaie: > d, rezult din faptul c abaterea medie ptratic este calculat ca o medie
ptratic n care se reflect n mod pregnant influena factorilor ntmpltori, adic abaterile mari fa
de medie. Abaterea medie ptratic caracterizeaz mai bine variaia fenomenelor.
Relaia ntre i Q. Dou mrimi diferite devin comparabile dac facem raportarea la un
referenial comun. n cazul de fa considerm distribuia normal perfect simetric, tim c n
intervalul mediu interquartilic (Me Q) i (Me + Q) se afl 50% din unitile unei colectiviti, n
schimb n intervalul x i x se afl 68,27 % din unitile colectivitii. Fcnd convertirea
utiliznd variabila standard Z
xx
i consultnd tabelele Gauss, rezult Q = 0,675
n
2
x x
i
i 1
n 1
n
1
2
x x
n 1i 1 i
d
aritmetic a seriei.
CV = 100 sau CV = 100
x
Coeficientul de variaie are valori cuprinse n intervalul 0 < CV < 100%, cu ct nivelul
coeficientului de variaie tinde spre zero, cu att seria statistic este mai omogen i media este mai
reprezentativ respectiv cu ct valoarea tinde ctre 100% cu att variaia este mai intens iar media
are un nivel de reprezentare redus.
Pentru a caracteriza variaia seriei, respectiv testul de semnificaie al reprezentativitii mediei
funcie de coeficientul de variaie se consider urmtoarele praguri:
0 < CV 17% media este strict reprezentativ iar colectivitatea este omogen
17% < CV 35% media este moderat reprezentativ
35% < CV 50% media este reprezentativ n sens larg
CV > 50% media este nereprezentativ iar colectivitatea este eterogen
Interval interquartilic notat IQ - exprim abaterea interquartilic i se calculeaz ca diferena
I Q Q Q M
Q
3
1
3
e
e
1
ntre quartila Q3 i quartila Q1.
Intervalul interquartilic fa de amplitudinea de variaie elimin influena valorilor extreme ale
seriei, care n anumite situaii sunt exagerate.
Q Q1
Semiinterquartila notat AQ reprezint abaterea medie interquartilic. AQ 3
2
D9 D1
Semiinterdecila notat AD reprezint abaterea medie interdecilic AD
2
AQ
Q3 Q1
100
Me
Q3 Q1
D D1
AD
100 9
100
Coeficientul de variaie interdecilic notat cu CVD CV D
Me
2M e
100
70
x
i 1
Relaia de calcul a dispersiei cu frecvene absolute pentru o serie analizat prin intervale de
n
x
i 1
x ni
2
i
n
n
i 1
Relaia de calcul a dispersiei cu frecvene relative pentru o serie analizat prin intervale de grupare
1 n
2
n xi x 2 f i
1 n
2
xi x 2 f i %
este urmtoarea:
;
i 1
100 i 1
fi
i 1
D X
dx
Dispersia unei caracteristici poate fi calculat cu ajutorul formulei momentului centrat de ordinul
doi. Astfel, se poate stabili dac este necesar calculul abaterilor individuale ale variantelor de la media
lor.
n
x
i 1
i 1
2
i
x
i 1
n
i 1
n
fi
i 1
xi a
k
2 i 1
n
n
xi a
k
i 1
2
i i
k 2 x a
fi
k 2 x a2
sau
fi
i 1
2 i 1
ni
`
xi ni
i 1
xi ni
i 1
n
ni
i 1
k 2 x a 2
x a
unde x`i i
k
n jurul mediei. Practic, asimetria constituie o deviaie a curbei de la forma simetric a distribuiei. n
cazul unei distribuii unimodale perfect simetric mrimile medii cele mai importante se suprapun,
x M e M o , iar perechile de quartile Q1, Q3 respectiv perechile de decile D1, D9 sunt echidistante
fa de valoarea central. ntr-o distribuie statistic coeficienii de asimetrie se determin ca o relaie
ntre medie i mod, respectiv ntre medie i median. Coeficieni de asimetrie se pot calcula att n
valori absolute ct i n valori relative, reprezentnd un numr abstract utilizat pentru comparabilitate.
Indicatori de asimetrie
Asimetria n mrime absolut notat As este cu att mai mare cu ct diferena dintre x i
M o este mai mare, aceast diferen este nul n cazul repartiiei unimodale. Expresia asimetriei este:
As x M o sau pe baza relaiei dintre valorile centrale As x M o 3 x M e
Atunci cnd As < 0 media aritmetic se afl la stnga deci exist o extindere a frecvenelor ctre
stnga iar asimetria este negativ, dac As > 0 media aritmetic se afl la dreapta, asimetria este
pozitiv, exist o extindere a frecvenelor spre dreapta.
P
Coeficientul empiric de asimetrie Pearson notat C as - este raportul dintre valoarea asimetriei
i abaterea standard.
x M o As
C asP
Acest coeficient poate lua valori ntre 1 i + 1. Cu ct coeficientul este mai mic n valoare
p
absolut, cu att asimetria este mai mic. ntr-o serie perfect simetric C as = 0, ceea ce presupune c
valoarea medie coincide cu mediana i cu valoarea modal a seriei. Acest coeficient este utilizat pentru
distribuii uor asimetrice.
Dac: C asp 0
distribuia este simetric
p
C as ( 0;1 )
distribuia are asimetrie pozitiv (asimetrie la dreapta);
p
Cas (1;0)
distribuia are asimetrie negativ (asimetrie la stnga)
Coeficientul de asimetrie Pearson notat 1 se calculeaz pe baza momentelor centrate de
3
ordin trei respectiv de ordin doi. 1
2
unde 2
x x
n
i
ni
iar 3
x x
n
i
ni
Distribuiile simetrice au momentele centrate de ordin impar nule iar cele de ordin par sunt
pozitive 1 0; 3 0; 2 0; 4 0 .
Distribuiile asimetrice au momentele centrate de ordin impar diferite de zero iar cele de ordin par
sunt pozitive, sensul asimetriei este dat de semnul lui 3 .
Dac: 1 0 distribuia este simetric
1 0 distribuia este asimetric la dreapta
1 0 distribuia este asimetric la stnga
3 x Me
F
Coeficientul empiric de asimetrie Fischer notat C as
- are formula C asF
Aceasta formul se folosete pentru seriile uor asimetrice i ia valori ntre 3 i + 3. Se mai
utilizeaz i formula:
Mod = Media 3(Media Mediana)
3
, unde: 3 23 ,
3
valoare care este ntotdeauna pozitiv, semnul asimetriei va fi dat de 3 . Interpretarea este aceiai ca
i la coeficientul de asimetrie Pearson
72
B
B
Coeficientul lui Bowley notat C as
- C as
q 2 q1
q 2 q1
unde: q1 M e Q1 iar q 2 Q3 M e ;
f(x)
asimetrie de dreapta
1 > 0
f(x)
f(x)
x
asimetrie de stnga
1 < 0
x
simetrie
1 = 0
Indicatori de aplatizare.
Analizat din punct de vedere grafic, aplatizarea (boltirea) se apreciaz comparnd curba
frecvenelor unei distribuii empirice cu modelul corespunztor distribuiei normale avnd aceiai
medie i aceiai dispersie. Aplatizarea se poate gsi n una dintre cele trei situaii:
73
4 4
2 0
2 0
2 0
4
3
22
f(x)
f(x)
x
aplatisare medie
(mezocurtic)
1 3;
aplatisat
(platicurtic)
1 <3;
x
ascuit
(leptocurtic)
1 >3;
3.2.4. MOMENTE
n statistica matematic i teoria probabilitii, se utilizeaz noiunea de moment, noiune extrem
de important, deoarece pe baza acestei noiuni se pot stabili indicatori de baz: media, dispersia
precum i indicatorii referitori la forma repartiiei, simetrie i aplatizare. De asemenea, particulariti
legate de forma repartiiei nu pot fi redate de indicatori statistici de localizare sau variaie de aceea se
calculeaz momentele de ordin k.
Momentele se mpart n dou mari categorii:
- momente absolute, la care valorile sunt considerate n raport cu originea (notate mak );
- momente centrate de ordin k, la care valorile sunt exprimate n raport cu o valoare arbitrar
k
(notat. mc )
Moment absolut de ordin k (k > 1) sau moment iniial de ordin k se determin utiliznd relaia:
x1k x 2k ... x nk 1 n k
k
ma
xi unde: x1, x2, , xn sunt valori observate ale caracteristicii X.
n
n i 1
Momentul absolut de ordin k poate fi exprimat i cu ajutorul frecvenelor absolute sau relative:
1 n
mak n f i xik
1 n
k
m
f i % xik
sau
a
i 1
f
100
i 1
i
i 1
1
Momentul absolut de ordin I reprezint media aritmetic. ma
74
x1 x 2 ... x n 1 n
xi x a
n
n i 1
2
Momentul absolut de ordin II reprezint media ptratic. ma
xi A f i
1
1 n
k
k
k
c
n
x i A k f i %
mc xi A sau
m
c
i 1
f
n i 1
100
i 1
i
i 1
relaiile:
;
c
i 1
n i 1
100 i 1
fi
i 1
k M X M X xi p i
relaia:
i 1
f x dx
1 n
xi x 2 2
n i 1
2 2m1 m1 m1 2 m 2 m1 2
mc2 ma
a a
a
c
c
3 m3 3m1 m 2 2 m 1
mc
a
a a
a
m1c m1a x 0
ma2 x 2 2
6 m
1 2
a
ma3 3ma2 x 2 x 3
ma2 3 m1a
m a4 4m a3 x 6ma2 x 2 3x 4
Corecia momentelor
Pentru calculul indicatorilor statistici n cazul seriilor cu foarte multe uniti statistice se utilizeaz
gruparea pe intervale, frecvena fiecrui interval este considerat ca fiind corespunztoare valorii
centrale a intervalului de grupare. Calculul indicatorilor statistici utiliznd metoda gruprii unitilor
statistice conduce, n general, la apariia anumitor erori. Numai o repartiie uniform a unitilor
statistice n interiorul fiecrei clase conduce la inexistena erorilor, lucru care este, n general, foarte
rar ntlnit. Corectarea indicatorilor statistici calculai utiliznd metoda gruprii este cunoscut sub
denumirea de corecie Sheppard.
Media nu necesit nici o corecie, deoarece formula:
1 n
1 n
x xi este identic cu x A xi A
n i 1
n i 1
75
mak
c
1
m1
a ma
mck
c
1
m1
c mc 0
c
1
mc2 mc2 h 2
ma2 ma2 1 h2
12
12
c
c
ma3 ma3 1 h2m1a
mc3 mc3
4
c
c
1
7 4
ma4 ma4 1 h2ma2 1 h4
m 4 mc4 mc2 h
h
c
2
80
2
240
unde: h este amplitudinea intervalului de grupare.
3.3. REPARTIII STATISTICE
Repartiiile teoretice reprezint un model ideal al unei repartiii statistice, practic exprim un mod
teoretic de comportare a fenomenelor studiate de statistic. Repartiiile teoretice sau legile de
probabilitate ale unei variabile aleatoare X arat modul n care este distribuit volumul total al
probabilitilor pe ansamblul valorilor posibile ale variabilei X.
Descrierea unei legi de probabilitate a unei variabile aleatoare X se face prin:
- funcia de repartiie F(x), n cazul unei variabile aleatoare discrete;
- funcia densitii de probabilitate f(x) sau prin funcia de repartiie F(x), n cazul unei
variabile aleatoare continue.
Funcia de repartiie a unei variabile aleatoare X este definit prin intermediul probabilitilor
F x P X x , x R
F x
f x dx
i ; xi x
xi
ndeplinete condiiile 0 p xi P X xi 1;
P X x 1
i
Orice lege de probabilitate este caracterizat de anumii parametrii care se determin n acelai
mod cu parametrii distribuiilor statistice prezentai n capitolele precedente: media, dispersia, abaterea
standard, coeficientul de asimetrie, coeficientul de aplatizare. Parametrii repartiiilor teoretice discrete
se obin pe baza relaiilor cunoscute pentru distribuiile statistice n care frecvenele sunt nlocuite cu
probabilitile asociate valorilor variabilei aleatoare X.
3.3.1. REPARTIII DISCRETE
Repartiia binomial (sau repartiia Bernoulli) se obine n cazul variabilelor aleatoare discrete
cnd experimentrile au urmtorul model probabilistic:
a) fiecare ncercare are numai dou rezultate posibile care formeaz un sistem complet de
evenimente incompatibile. Exemplu: A cnd se produce evenimentul favorabil; A cnd nu se produce evenimentul favorabil.
b) probabilitatea de apariie a unui eveniment, P(A) s fie constant la fiecare ncercare i
egal cu p iar probabilitatea celuilalt eveniment va fi egal cu P( A ) = 1- p = q.
Dac repetm experimentului de n ori, numrul de apariie al evenimentului A este o variabil
aleatoare discret avnd valorile posibile 0, 1, 2, ... n.
Considerm un lot de piese avnd un procent de q defecte. Efectum extrageri repetate, iar piesele
extrase se introduc din nou n lot, spre a nu se modifica compoziia, pentru a avea aceiai probabilitate
de succes, se obine o repartiie binomial a numrului de piese defecte. Extragerea se numete cu
ntoarcere. Presupunem c am efectuat n acest mod dou extrageri: notm evenimentul ca piesa s
fie bun cu A, iar celalalt eveniment ca piesa s fie defect cu A . n acest caz se pot lua n
consideraie urmtoarele situaii:
76
P(i km) =
f k
k i
Cnk p k q n- k
k i
Se observ c expresia P(n,k) este termenul general al dezvoltrii binomului lui Newton p q m ,
de unde i denumirea de repartiie binomial. Pentru aplicaiile unde n ia valori mari se poate folosi,
pentru simplificarea calculului, formula lui Stirling: n! n n e n 2n
Funcia de probabilitate a repartiiei binomiale are expresia: P(x = k) = P(k) = Cnk p k q n - k
Legea binomiale se poate aproxima printr-o lege normal.
Repartiia binomial tinde ctre repartiia normal cnd n . S-a constatat, din reprezentarea
grafic a legii binomiale B(n,p) c atunci cnd probabilitatea p este aproape de 0,5, repartiia
binomial are o form simetric. Dac p rmne constatat i n este destul de mare (n > 30), legea lui
Gauss devine o bun aproximare a legii binomiale i admite ca parametrii sperana matematic x np
respectiv abaterea standard npq a legii binomiale adic: X ~ B n, p N np , npq . n practic
acest rezultat se traduce prin faptul c dac n are o valoare mare (n > 30) i p nu este zero sau unu, se
poate calcula probabilitatea pentru care variabila binomial X s se afle n intervalul (a,b) ca i n cazul
unei variabile normate cu media x np i abaterea standard npq .
Indicatorii teoretici sunt:
Media: = M X = np;
Momente
1 np, 2 2 npq, 3 npq q p , 4 npq1 6 pq 3npq ;
q p
Asimetria 1
Aplatizarea 2
npq
1 6 pq
npq
Valoarea modal a variabilei aleatoare discrete X este un numr ntreg cuprins ntre np-q i
np+q i permite aprecierea asimetriei distribuiei de probabilitate. Repartiia binomial este n cele mai
multe cazuri asimetric: p > 0,5 asimetrie pozitiv, p < 0,5 asimetrie negativ, p = 0,5 simetric.
Repartiia hipergeometric
77
Modelul probabilistic al repartiiei hipergeometrice este similar celui binomial, singura diferen
const n faptul c elementul extras nu mai revine i astfel la fiecare extragere se modific compoziia
(condiiile). Extragerea se numete fr ntoarcere.
Fiind dat o populaie compus din n piese din care: a sunt bune i b = n - a sunt defecte (condiia
a + b = n). Probabilitatea ca dup ce efectum m extrageri succesive fr ntoarcere s se obin un
numr de x piese bune respectiv un numr de m x piese defecte, este calculat cu formula
m
m
combinrilor a n piese luate cte m: C n C a b . Numrul cazurilor favorabile extragerii de piese bune
este C ak , respectiv numrul cazurilor favorabil extragerii de piese defecte este Cbm k .
Cak Cbmk
Camb
Dac n este foarte mare, repartiia hipergeometric se aproprie de repartiia binomial cu
Funcia de probabilitate are expresia:Pn,m(k) =
parametrii:
p=
a
a
b
, q=
= 1
n
n
n
1 k x m x
C a Cb
C nm x 0
Forma general a repartiiei hipergeometrice poate fi definit astfel: se consider un numr de n
produse industriale cu a1, a2, ak clase avnd caliti diferite unde a1+ a2+ +ak = n, extragem (fr
ntoarcere) m exemplare, posibilitatea ca n eantionul extras, s existe x1, x2, ... xk exemplare din
Cax11 C ax22 ...Caxkk
fiecare calitate (x1 + x2 + ...+ x k = m) este: Pn,m(x1,x2,...,xk) =
Cnm
Repartiia hipergeometric se utilizeaz la controlul statistic de recepie a loturilor mici de
produse. Repartiia binomial poate fi considerat ca un caz limit al repartiiei hipergeometrice n
situaia n care n , iar volumul eantionului este constant.
Indicatorii teoretici sunt:
Dispersia: 2 mpq
m
nm
2
, dac n >> m, atunci mpq 1
n
n 1
e
k!
Distribuia Poisson este determinat de un singur parametru X
~ P(k)
k 0
k 0
( np ) k np
e
k!
.
Condiia necesar pentru a avea o lege Poisson este urmtoarea:
P X k 1 k
Suma a dou variabile aleatoare independente X1 i X2, urmnd fiecare o lege Poisson de parametri
m1 i m2, urmeaz ea nsi o lege Poisson
X1 ~ P(m1); X2 ~ P(m2) rezult (X1 + X2) = P(m1+m2)
Indicatorii teoretici sunt:
Dispersia: 2 D X
1
, pentru x a, b
f x b a
0, pentru x a, b
Variabila aleatoare X are funcia de repartiie uniform pe [a, b].
Funcia de repartiie uniform pe [a, b] este :
0, pentru x a
xa
F x , pentru a x b
ba
1, pentru x b
unde F x
f t dt .
1
xa
f t dt 0 .rezult: F x b a dt b a .
1
dt 1 , deoarece,
ba
a
f t dt f t dt f t dt f t dt
79
f(x)
F(x)
1
a b
a
a
b
b) funcia de repartiie
b
x
a) funcia densitii de probabilitate
ab
,
2
D 2
b a 2
12
xf x dx
xf x dx
xf x dx
M 2
f x dx
xf x dx
x 2 f x dx
ba
a 2 ab b 2 a b 2 b a 2
3
4
12
x 2 dx
1
ba
ab
2
xf x dx
1
ba
x dx
a
a 2 ab b 2
3
2 3
Repartiia normal este cea mai important lege de repartiie, fiind cunoscut sub denumirea de
legea Gauss Laplace. Legea normal are un rol important n teoria probabilitii, fiind utilizat
pentru aproximarea unor legii de probabilitate. Repartiia normal este utilizat foarte des n analiza
variabilelor aleatoare, avnd un rol fundamental n teoria seleciei, n analiza de regresie, n analiza
varianei i covarianei, etc. O distribuie normal este rezultatul unui numr foarte mare de cauze
independente, cu efect aditiv, fiecare dintre ele avnd o influen neglijabil n modificarea celorlalte.
a) LEGEA GAUSS LAPLACE este caracterizat de parametrii i 2.
O variabil aleatoare X este distribuit dup o lege normal dac funcia densitate de probabilitate
are urmtoarea expresie: f(x) =
1
2
1 x
, xR
f(x)
f(x)
= 0,5
= ct.
= 1
0,2
= 2
Suma (sau diferena) a dou variabile aleatoare independente X1 i X2 care sunt guvernate de legea
normal N(1, 1 2) i N(2, 2 2) urmeaz de asemenea, legea normal, i anume:
80
X 1 ~ N(1 , 12 )
X X1 X 2 ~
X 2 ~ N(2 , 22 )
N 1 2 ,12 22
n punctele x = - i x = + i
F(x)
modific convexitatea (puncte de inflexiune);
ntr-o
distribuie
normal,
xi
amplitudinea variabilei este infinit - < X < + .
F(x)
Cnd x funcia f(x) tinde spre zero.
n
i i
i1
i 1
n
2 i2
i1
F(xi)
xi
x
Figura 3.13. Funcia de repartiie
normal
Curba funciei densitatea de probabilitate este cu att mai ascuit cu ct valoarea lui este mai
mic.
Modificarea parametrului translateaz curba de-a lungul axei Ox fr s o modifice ca form.
Funcia de repartiie normal este dat de expresia:
x
F(x) = P(X x) = f x dx =
1
2
1 x
f(x)
dx .
F(x) 0;
F(+ )
=
P(X
+)
1 x 2
1
e 2 dx = 1
2
2 2 3
f x dx
f x dx =
x
1
2
M x
D x
x f x dx
x 2 f x dx
1
xe
2
1
x 2
2
2
x e
81
dx
x 2
2
dx
e h
( x2 )
, unde h =
0.707
f(z) =
1 2
1 e 2 z , z R
2
lim f z 0 ;
Expresia funciei densitate de probabilitate s-a obinut prin efectuarea schimbrii de variabil n
x
dx
cadrul repartiiei normale i anume: zi = i
; dz i i . Prin schimbarea de variabil s-a realizat
1
f z
n consecin, dispersia este egal cu abaterea medie ptratic, iar momentele centrate sunt egale
cu cele iniiale. Repartiia normal normat se noteaz Z ~ N(0,1).
Funcia de repartiie normal normat (sau funcia de repartiie Laplace) are expresia:
z2
z
1 z 2
F z f ( z )dz
e dz .
2
1 z
- media
M Z z f z dz
z e 2 dz 0 ;
2
D Z z f z dz
- dispersia
0,4
z2
1 z 2 2
z e dz 1
2
F(z)
f(z)
0,9987
0,9772
0,8413
0,3
0,5
0,2
0,1587
0,0028
0,0013
0,1
z
1 2
0
-3 -2 -1
3
Figura 3.15. Funcia densitatea de probabilitate
pentru o repartiie normal normat
-3 -2 -1
0
1
2
3
Figura 3.16. Funcia de repartiie pentru o
repartiie normal normat
Valorile funciilor f(z) i F(z) se determin mai simplu utiliznd tabelele de valori.
Din figura 3.15 se poate constata c funcia de repartiie F(z) este simetric n raport cu originea,
z
0
z
1
astfel se poate scrie: F ( z ) f ( z )dz f ( z )dz f ( z )dz ( z ) .
2
82
0,5 (z)
F(z)
f(x)
(z)
F(z)
(z)
0,5
F(z)
z
0,5 Laplace
b) Funcia integral
a) Funcia de repartiie Laplace
Figura 3.17. Interpretarea geometric a funciei Laplace
0 z
c) Funcia densitatea de
probabilitate
1
) se constat c putem determina valoarea funciei de repartiie F(z) prin intermediul
2
Integrala ( z ) f ( z )dz
z2
2
(0) = 0;
(-z) = - (z);
0
lim z
F z
1
;
2
1
z .
2
Valorile funciei integral Laplace (z) ca i ale funciei de repartiie Laplace F(z) precum i
relaiile de legtur ntre F(z) i (z) sunt prezentate n tabelul de mai jos.
n practic, este suficient s se cunoasc valorile funciei (z), pentru z > 0 i se poate calcula
probabilitatea P z1 Z z 2 z 2 z1 z 2 z 2 z 2 z 2 2 z 2 .
Tabelul 3.4. Relaii ntre funciile (z) i F(z)
(z)
F(z)
-z
12
0
z
+
- (z) =
0
- F(z)
F(z) =
2 - (z)
0
(z) = F(z) -
F(z) =
2 + (z)
Probabilitatea ca o variabil aleatoare normal X ~ N(, 2) s aparin unui interval (x1, x2) se
x2
x1
x
i z 2 2
, rezult
83
x2
z2
x1
z1
x2
x
F 1 F ( z 2 ) F ( z1 )
f x dx f z dz F
P(z >a) =
1-
=68,27%
2 = 95,445 %
3 = 99,73 %
4 = 99,996 %
Apartenena unei variabile aleatoare la un interval oarecare are numeroase aplicaii practice n
tehnic cum ar fi: ncadrarea consumului de material, de energie, etc. n anumite limite impuse de
procesul tehnologic; ncadrarea cotelor pieselor, reperelor prelucrate n anumite limite de toleran, .a.
Putem calcula probabilitatea ca o variabil aleatoare s urmeze o lege normal normat i s
aparin diferitelor intervale , 2 , 3 , 4 , etc. Grafic aceast probabilitate este
redat n figura 3.18. De asemenea, exist numeroase aplicaii unde este necesar ca variabila aleatoare
z, avnd probabilitatea , s nu depeasc anumite limite impuse.
Importana repartiiei normale. Repartiiei normale se explic cu ajutorul unei teoreme
importante din teoria probabilitilor, cunoscut sub denumirea de teorema limit central.
Conform acestei teoreme, fiind dat o serie de variabile aleatoare independente: X1, X2, ... Xn, cu
dispersiile 12, 22, ..., n2, variabila aleatoare Y = a1X1 + a2X2 +...+ anXn urmeaz o lege normal dac
12
rapoartele:
i
1
n2
22
;
i2
; ...
n
i
Iniial aceast teorem a fost considerat fr importan practic, deoarece era greu de bnuit c
se va ntlni n realitate o variabil aleatoare care s fie suma unui numr infinit de alte variabile
aleatoare. Ulterior n industrie s-au gsit foarte multe modele care s ndeplineasc aceste condiii. De
exemplu, n domeniul msurtorilor tehnice se pot identifica numeroase cauze perturbatoare sau surse
de erori cu efect aditiv. n tehnic, o anumit caracteristic a unui produs, cum ar fi curentul
determinat pe un lot de electromagnei prezint variaii care depind de numeroi factori ca: abaterile
tehnologice (ntrefier, rezistena nfurrii, spira ecran), variaii ale parametrilor fizici de material etc.
determinnd n final o lege de repartiie normal. Aceasta poate fi luat ca model teoretic general
pentru cercetarea probabilistic aproape a tuturor fenomenelor naturii.
Repartiia exponenial
Variabila aleatoare continu X, cu repartiia exponenial negativ, are densitatea de probabilitate:
f(x) = e-x; > 0, 0 x <
F(x) = 1- e-x, pentru x > 0
F(x) = 0,
pentru x < 0
Indicatori teoretici. Se observ n acest caz egalitatea dintre media teoretic i abaterea standard:
Funcia de repartiie este:
==
84
f(x)
F(x)
1
1
0,63
0,368
Repartiia 2 (hi-ptrat.)
Fie X1, X2, , X variabile independente, distribuite dup o lege normal, variabila obinut prin
2
1
2
2
libertate.
O variabil continu urmeaz repartiia 2 dac funcia densitatea de probabilitate are urmtoarea
expresie:
f ( x ) 2 ( )
2
0,
1
2
x
2
e , pentru x 0
, unde:
pentru x 0
pi 1
i 1
poate fi determinat cnd se cunosc celelalte 1 probabiliti. n aceast situaie repartiia 2 are
1 grade de libertate ( 1 din cele variabile sunt independente, iar una este dependent i se
obine din celelalte 1 variabile independente).
Dac se consider n variabile aleatoare de tip continuu, independente z1, z2, ..., zn care au fiecare o
repartiie normal normat - N(0,1), atunci suma ptratelor variabilelor z i constituie o variabil
n
2
2
aleatoare continu, care urmeaz repartiia cu grade de libertate: z i
2
media M[x] = ;
dispersia D[x] = 2 ;
Funcia de repartiie F(x) a unei variabile aleatoare continue care urmeaz repartiia 2 are
x p 1 x
2
e
2 dx
x
expresia: F x P X x p
0
2 2 ( )
2
n activitatea practic este necesar s se determine probabilitatea astfel ca valorile variabilei 2 s
2
2
2
fie mai mici dect o valoare p1 , s fie cuprins n intervalul p1 , p 2 sau s fie mari dect o
2
valoare dat p2 . n aceast situaie se utilizeaz urmtoarea relaie:
2 1 2
1
2
2
2
2 d 0
e
F P X p
2 2 ( ) 2p
2
2
f(2)
0,2
f(2)
= 2
= 5
= P (>)
= 10
0,1
= 20
10
15
25
30
2
1
z p 2 1 , unde zp este valoarea normal normat corespunztoare.
2
2 cu o repartiie
2 2
1
t
2
1
f (t )
; t
2
Variabilele Z care urmeaz repartiia normal normat N(0, 1) i variabila X care urmeaz
repartiia 2 cu grade de libertate sunt centrate i independente.
Se pot defini i repartiii t necentrate dar n acest caz se utilizeaz repartiia normal normat
necentrat - N(m, 1) i repartiia 2, necentrat.
Funcia de repartiie este simetric satisfcnd urmtoarele relaii: f(-t) = - f(t); F(-t) = 1-F(t).
normal normat - N(0, 1), pot defini o alt variabil aleatoare continu
86
1
1
2 2
1
t
2
1
F (t )
dt ; t
2
Legea student este utilizat pentru analiza distribuiilor de selecie n cazul eantioanelor de volum
mic (n < 30), n special, pentru verificarea ipotezelor statistice care se refer la media unei populaii
normale cnd parametrul este necunoscut.
Simbolizarea X ~ t().
Repartiia t este definit ca i repartiia normal prin indicatorii teoretici i , care au valorile
= 0 i
libertate, unde = n -1 iar n reprezint numrul observaiilor. Pentru mare (practic > 30) legea
Student se poate aproxima prin legea normal N(,) centrat sau prin legea normal normat. n
aplicaiile cele mai frecvente, repartiia Student este folosit pentru a determina limitele care sunt
depite cu o probabilitate (fig. 3.25).
Distribuia Student este folosit n locul distribuiei normale cnd nu cunoatem variana
distribuiei i o nlocuim cu o estimaie a sa.
f(t)
f(z)
f(t)
1-
N(0,1)
Repartiia
Student
-3
-2
-1 0 1
t 0 t 2
Figura 3.25. Poziia
2 limitelor depite
cu probabilitatea /2 definit
de repartiia Student
Cmp de evenimente: rezultatele unor experimente pot reprezenta evenimente diferite, iar
totalitatea acestor evenimente formeaz ceea ce se numete cmp de evenimente.
Cmp de probabilitate este mulimea valorilor numerice reprezentnd probabilitatea fiecrui
eveniment aparinnd unui cmp de evenimente. Evenimentele aleatoare pot fi la rndul lor :
compatibile, dac se pot produce simultan, sau incompatibile dac nu se produc simultan (se exclud
mutual). Astfel, realizarea unui eveniment exclude realizarea celuilalt. O categorie aparte de
evenimente incompatibile o formeaz evenimentele contrarii (complementare) care la nerealizarea
unui eveniment A se produce sigur cellalt eveniment .
Observaie : evenimentele contrarii sunt incompatibile n timp ce evenimentele incompatibile nu
sunt n mod obligatoriu contrarii.
Evenimente independente: dou evenimente se numesc independente n probabilitate dac
probabilitatea de realizare a unuia nu este influenat de realizarea sau nerealizarea celuilalt.
Evenimente dependente: dou evenimente se numesc dependente dac probabilitatea unui
eveniment este influenat de realizarea celuilalt eveniment.
3.4.1. ALGEBRA EVENIMENTELOR
Dou sau mai multe evenimente (compatibile sau incompatibile) pot defini printr-o operaie de
reuniune sau de intersecie un alt eveniment.
Reuniunea evenimentelor (suma evenimentelor)
Considernd evenimentele A, B, reuniunea S nseamn realizarea cel puin a unuia din
evenimentele A sau B. Se noteaz astfel : S = A B (se citete A sau B). Reuniunea a dou mulimi A
i B este mulimea elementelor care aparin sau lui A sau lui B. n cazul unui sistem de n evenimente
n
complet de evenimente dac cel puin unul din evenimentele A se produce ntr-un experiment, adic
n
E.
i 1
n tabelul 3.5. sunt prezentate proprietile mai importante ale operaiilor cu evenimente i relaiile
corespunztoare.
Intersecia evenimentelor (produsul evenimentelor)
Considernd evenimentele A, B, intersecia acestora, nsemnnd realizarea i a evenimentului A i
a evenimentului B, este I = A B (se citete A i B). Intersecia unui sistem de evenimente {Ai ; i=1, 2,
n
RELAII
E
=E
A A A
A A A
A B B A
A B B A
A ( B C ) ( A B) C
A ( B C ) ( A B) C
A ( B C ) ( A B) ( A C )
A ( B C ) ( A B) ( A C )
A A E
A A =
A E E; A = ;
E E; E .
A ( A B) A
A ( A B) A
( A B) A B
( A B) A B
n
numarul cazurilor posibile
Aceast formul denumit formul clasic de calcul a servit mult timp ca baz a definiiei
probabilitilor.
Formula de mai sus este formula direct de calcul a probabilitii cnd experimentul se reduce la
un sistem n care fiecare caz posibil are aceeai probabilitate de realizare i compoziia este cunoscut.
n multe cazuri, calculul direct al probabilitilor nu este posibil (exemplu, durata de via a unei
bobine, a unui bec etc.). Pentru aceste cazuri este necesar s se fac ncercri n condiii identice,
determinndu-se frecvena evenimentului cercetat. Se ajunge astfel la interpretarea n frecven a
probabilitii unui eveniment: P( A)
n
nr. total de incercari
Cnd numrul ncercrilor este redus, frecvena evenimentului are un caracter aleatoriu. Dac
numrul ncercrilor crete, se ajunge la o stabilitate a frecvenelor.
innd seama de caracterul particular al variaiei acestei mrimi se spune c frecvena unui
eveniment converge n probabilitate ctre probabilitatea adevrat a evenimentului.
Proprieti ale probabilitilor:
1. P(B A) = P(B) P(A B)
2. Dac A B, atunci P(B A) = P(B) P(A)
3. Dac A B, atunci P(A) P(B)
4. P( A ) = 1 P(A)
5. P() = 0
6. 0 P(A) 1
7. P(A B) = P(A) + P(B) P(A B)
8. P(A B) + P(B A) = P(A) + P(B) 2P(A B)
9.
i 1
89
n multe cazuri se ntlnesc evenimente a cror probabilitate se situeaz la limitele extreme : fie
foarte apropiate de zero, fie foarte apropiate de unitate, fr ns a se confunda cu evenimentele
imposibile sau evenimentele sigure. Aceste evenimente poart denumirea de evenimente aproape
imposibile i evenimente aproape sigure. Evenimentele aproape imposibile i aproape sigure
joac un rol foarte important n teoria probabilitilor i n multe domenii. Majoritatea aplicaiilor
practice sunt bazate pe aceste noiuni (tehnica msurtorilor, control de calitate, reglaj automat etc).
Dac probabilitatea unui eveniment ntr-o experien este foarte mic sau foarte apropiat de unitate,
atunci se poate prevedea rezultatul experienei pe baza principiului imposibilitii practice a
evenimentelor cu probabilitate mic sau a principiului certitudinii practice . Acest principiu poate fi
formulat astfel: dac probabilitatea unui eveniment oarecare A ntr-o experien este foarte mic,
putem fi aproape siguri c dac experiena se efectueaz o singur dat, evenimentul A nu va avea loc.
Pornind de la definiia clasic a probabilitii se observ c un eveniment cu probabilitate zero nu este
un eveniment imposibil, dar realitatea cea care confirm principiul imposibilitii practice.
3.4.3. TEOREME FUNDAMENTALE N TEORIA PROBABILITILOR
Rolul teoremelor fundamentale
Metoda direct de calcul a probabilitilor are un rol minor n teoria probabilitilor, fiind de cele
mai multe ori inutilizabil. Foarte mult se folosesc metodele indirecte de calcul permind aflarea
probabilitilor unui eveniment pe baza probabilitilor deja cunoscute altor evenimente legate de
primele. Astfel, teoria probabilitilor se reduce n mare, la un sistem de metode indirecte pe baza
crora necesitatea experimentrii este minim.
Tabelul 3.6. Relaii de calcul pentru probabilitatea interseciei i reuniunii
DEFINIIA
EVENIMENTULUI
FELUL
EVENIMENTULUI
RELAII DE CALCUL
Dependente
P( Ai ) P ( Ai / A j )
n
1
A Ai
1
(intersecia)
P( Ai ) P( Ai ) (n 1)
Dependente sau
independente
i 1
i 1
P( Ai ) P( Ai )
Independente
i j
P ( Ai ) P ( Ai ) ( Ai A j )
1
(A
i j k
A j Ak )
Compatibile
... ( 1) n 1 P ( Ai )
1
A Ai
1
P ( Ai ) 1 [1 P ( Ai )]
(reuniune)
P( Ai ) P ( Ai )
Incompatibile
unde P(B/A) este probabilitatea evenimentului B condiionat de A. n mod similar pentru n evenimente
n
n 1
dependente : P ( Ai ) P ( A1 ) P ( A2 / A1 ) P ( A3 / A1 A2 )...P ( An / Ai )
Reuniunea a dou evenimente A i B compatibile i dependente este :
90
P ( A B ) P( A) P ( B ) P ( A B )
n tabelul 3.8., sunt prezentate relaiile referitoare la calculul probabilitii interseciei i reuniunii.
Cnd nu este cunoscut faptul dac evenimentele sunt dependente sau independente se utilizeaz pentru
intersecie inegalitatea Boole.
Formula probabilitilor totale
Pornind de la un exemplu practic considernd c tolele necesare statorului unei maini electrice
sunt tanate la trei prese diferite. Se cunosc urmtoarele evenimente : X1 (presa 1) produce 30% din
totalul tolelor cu un rebut de 2% pe pres; X2 (presa 2) produce 20% din totalul tolelor cu un rebut 3%
pe pres; X3 (presa 3) produce 50% din totalul tolelor cu un rebut de 1% pe pres. Tolele ajung la
secia de montaj i se amestec. Aici se pune problema probabilitii extragerii unei tole
necorespunztoare. Generaliznd, considerm un sistem complet de evenimente X1, X2,, Xn, adic
n
X i E . Fie un alt eveniment A, defectul, care nu se poate realiza ci numai mpreun cu unul din
i 1
A ( X i A) . Deoarece evenimentele (Xi A), (Xj A) sunt incompatibile, adic (Xi A) (Xj
i 1
P ( A) P ( X 1 A) P( X 2 A) ... P( X n A) P ( X i A).
i 1
P ( A) P ( X i A) P( X i ) P ( A / X i ).
i 1
1
Aceast relaie de mai sus este cunoscut sub denumirea formula probabilitilor totale.
Revenind la exemplul iniial unde P(X1) = 0,3; P(X2) = 0,2; P(X3) = 0,5 i de asemenea P(A/X1) = 0,02;
P(A/X2) = 0,03; P(A/X3) = 0,01, rezult cu (2.11) probabilitatea extragerii unei tole defecte P(A) =
P(X1) P(A/X1) + P(X2) P(A/X2) + P(X3) P(A/X3) = 0,017.
Teorema ipotezelor (formula lui Bayes)
n
). Aceste ipoteze (evenimente) reprezint cauzele unui alt eveniment A, condiionat de evenimentele
H1, H2,,Hn. nainte de a efectua vreo experien sunt date probabilitile ipotezelor P(H1), P(H2),
., P(Hn) i P(A/H1), P(A/H2),, P(A/Hn). Realizndu-se evenimentul A, se pune ntrebarea ce
valoare capt probabilitile acestor ipoteze, condiionate de evenimentul A care s-a produs. Se tie c
: P(A/Hi) = P(A) P(Hi/A).
Intersecia evenimentelor fiind comutativ, P(A Hi) = P(Hi A). Se poate scrie egalitatea : P(A)
P( H i ) P( A / H i )
.
P(Hi/A) = P(Hi) P(A/Hi), de unde : P ( H i / A)
P ( A)
Conform formulei probabilitilor totale, probabilitatea evenimentului A este
n
P ( H i / A)
P ( H i ) P( A / H i )
n
P( H ) P ( A / H )
i 1
ipotezelor.
3.5. ESTIMAII STATISTICE
91
Pentru a efectua estimarea se utilizeaz o formula, o regula definit sau o statistica predefinit
care se numete estimator (de exemplu x este estimatorul parametrului ). Estimaia este la rndul
su o variabil aleatoare dependent de eantion. Estimaia poate fi punctual dac parametrul a al
populaiei se estimeaz printr-o valoare izolat determinat cu un estimator E x1 , x 2 , , x n pe baza
datelor eantionare sau poate fi o estimaie cu interval de ncredere dac se stabilete un interval (E
1, E + 2) care s includ valoarea adevrat a a parametrului estimat, cu o probabilitate dat P.
Estimaia punctual nu coincide n general cu valoare adevrata a parametrului dar este foarte
apropiat de aceasta.
Parametrii populaiei pot fi estimai cu ajutorul mai multor estimatori diferii, consecina fiind o
precizie diferit. Estimaia i estimatorii pot fi apreciai prin prisma unor criterii denumite: consisten,
nedeplasare, eficien i suficien. Fie a valoarea unui parametru al populaiei i E x1 , x 2 , , x n
valoarea estimatorului punctual determinat pe baza valorilor x1, x2, , xn ale eantionului.
Dac estimatorul tinde ctre valoarea a cnd numrul msurtorilor n crete necontenit:
lim E X 1 , X 2 , , X n a estimaia este consistent.
n
Estimaia este deplasat i se numete corect sau consistent deplasat dac estimatorul
ndeplinete condiiile:
M E x1 , x2 , , x n a A n
lim A n 0
n
D E x1 , x 2 , , xn 0
lim
n
Se numete estimaie nedeplasat (absolut corect sau consistent nedeplasat) dac:
M E x1 , x2 , , xn a
lim D E x , x , , x 0
1 2
n
Estimaia se numete eficient dac estimatorul este nedeplasat i are dispersie minim. De
asemenea, estimaia este suficient sau exhaustiv dac se utilizeaz complet ntreaga informaie a
eantionului. Se subliniaz faptul ca estimatorul eficient al unui parametru pentru o anumit lege de
repartiie nu este identic cu estimatorul eficient al aceluiai parametru pentru alt lege de repartiie.
n general un bun estimator trebuie s ndeplineasc urmtoarele condiii (condiiile Yule):
s fie obiectiv;
94
1
Media de selecie. Media eantionului se calculeaz cu relaia x n xi . Vom considera
i1
populaia finit avnd N elemente cu M X din care se extrag k eantioane cu volume egale.
Considerm populaia format din totalitatea eantioanelor, media teoretic este:
1 N
x
N i 1 i
Estimatorul
al mediei este variabila aleatoare media de selecie care urmeaz lege de
probabilitate normal abaterile ntr-un sens sau altul fa de media lor se compenseaz reciproc.
Distribuia mediei de selecie se fundamenteaz pe teorema limit central.
Rezult c media mediilor este egal cu media teoretic adevrat a populaiei
1 n
1 n
1 n
1
M M x M
X i M xi n
n i 1
n i 1
n
n i 1
Media aritmetic de selecie este un estimator nedeplasat. Dac estimarea este punctual prin mai
multe eantioane cu volume diferite, n1, n2,, nm la care s-au obinut mediile de selecie x1 , x 2 , , x m
m
1m
media mediilor va fi: x n ni xi , n ni .
i 1
i1
Dispersia mediei de selecie. Variabilele aleatoare de selecie x sunt independente:
1n
n
1 n
1
D x 2 2 D x
D x
D x
i
i
i
x
n 2 i 1
n2 1
n1
0
2
1
2
2 D x
n 2
0
2
n
n
;
pentru o populaie finit (cazul sondajului aleatoriu nerepetat):
f x
2 N n
D x
2
0 .
n
N
f x
f x N ( ,2 )
2
f x N ( ,
)
n
2
n
N ,
Se consider c momentul teoretic iniial de ordin k este estimat cu ajutorul unui eantion prin
estimatorul:
mck
1n k
x
n1 i
M xk
1 n
1 n
M mck M xik M xik
n i
n i
M Xk
k
c
se obine
1 n
2k
2 k
D mck
M xi M xi
n 2 i 1
1
M mck n ck ck
2k n k
n c
c
n2
Estimatorul dispersiei
95
2k k
c
1n
2 xi x
n 1
1 n
M 2 M
xi x
n 1
nlocuim pe
2 .
n
1
M
xi x
n
1
M
n
1
xi
n
n
n
2 xi x 2 x xi 2 x nx n 2n x 2
1
i
i
2
n
2
x n x
1
2 xi x x 2
2
2
1
1 n
M 2 M xi n x 2 M xi nM x 2
n 1
n
se obine:
n
n
2
2
Conform formulei dispersiei teoretice: M x 2 n
i 1
i
n
2
M x
2
n
nlocuim cele dou formule ale dispersiei teoretice i a dispersiei mediei de selecie n formula
mediei estimatorului
se obine:
M 2 M m
D 2 D m M
2
Rezult c
1
1
n 1 2
M x x n 2 2
n i
n
n
Practic:
M m
2
1n
2 xi x m2
n1
n 13
n 1n 3 4
sau D 2 2 2 4 M X 4
n
n3
n
n 2
n 1 n
1
xi x 2
xi x 2
n 1
n 1 n i 1
n 1i 1
M s2
2
1
M xi x
n 1
2 n 1 2
i a mediei dispersiei de selecie corectat avem:
Conform relaiei M
xi x
n 12
rezult:
M s 2 2 .
lim D s 2 0
Estimaia este nedeplasat i consistent ns nu este eficient (dispersia sa tinznd ctre valoarea
minim cnd numrul msurtorilor crete la infinit, adic este asimptotic eficient).
Dac exist m selecii de volum diferit, estimaia dispersiei este media ponderat a dispersiilor de
selecie:
n 1 s 2
i i
2
i
1
s
m
n 1
i
i 1
1 m 2
s
m i 1 i
Dac dispersia de selecie, sc2 , este calculat cu valori grupate pe intervale cu amplitudinea
intervalului se poate face o corecie (corecia Sheppard) unde:
96
2
2 s2 c 12
2
1 n
xi x
n i 1
sau cu
2
1 n
xi x
n 1 i 1
i 1
Concluzie: Dac x1, x2,, xn sunt variabile aleatoare independente cu repartiie normal, cu aceiai
medie i dispersie, variabilele aleatoare x i s2 sunt independente. Repartiia probabilitii variabilei
aleatoare s2 nu depinde de valorile pe care le capt variabila aleatoare x chiar dac sunt calculate pe
acelai eantion. n cadrul cercetrilor statistice din industrie se ntlnesc procese nereglate sau
nestabilizate (produs nou intrat n fabricaie, o nou tehnologie, materiale noi, etc.). Calculul abaterii
standard n aceste situaii coroborat i cu variaia mediei populaiei conduce la erori foarte mari.
3.5.3. INTERVALE DE NCREDERE
Un alt procedeu de estimare al unui parametru este acela al estimrii cu un interval de ncredere.
Msurarea unei anumite caracteristici (rezisten, putere, curent, etc.) poate fi considerat ca o selecie
dintr-o populaie de valori care reprezint caracteristica respectiv. Indicarea unei valori estimate,
izolat (punctual) nu poate fi considerat de cele mai multe ori satisfctoare fr a face referiri la
domeniul de variaie i la probabilitatea corespunztoare. n industrie, lum cazul unui produs fabricat,
domeniul de variaie al unei caracteristici reflect nivelul de calitate al fabricaiei. Deoarece estimatorii
de selecie sunt variabile aleatoare, una din problemele importante care se pun const n exprimarea
gradului de precizie a estimrii sau a probabilitii estimaiei. Valoarea probabilitii P implic ns un
anumit interval (x1, x2) conform relaiei: P = Prob x1 X x 2
x2
x1
respectiv. S-a stabilit astfel un interval numit interval de ncredere care are proprietatea ca naintea
oricror experiene aceasta s conin adevrata valoare a parametrului cu probabilitatea P. Fie a0
valoarea adevrat a parametrului pentru care se obine o estimaie punctual . Considerm c
abaterea a a 0 este mai mic dect o valoare cu o probabilitate foarte mare (0,90, 0,95 sau
P a a 0
0,99):
sau P a a0 a
a1
a2
f(x)
1-
1-
2
a0
a2
a0
a2
definite de relaiile P a 0 a 2 s i
x
P a0 a1 i ,
cu
nivelul
de
as
a0
ai
a0
semnificaie i s .
b) risc dreapta
a) risc stnga
Intervalul de ncredere unilateral,
Figura 3.31. Interval unilateral
are riscul plasat la stnga sau la dreapta
intervalului i n consecin intervalul este cu o singur limit inferioar (fig 3.31 a) sau superioar (fig
3.31 b), definit corespunztor de una din relaiile: P a 0 a 2 sau P a 0 a1 .
Intervalele de ncredere unilaterale au numeroase aplicaii, de exemplu n tehnologia montajului
unde anumite cote nu pot fi admise dac depesc o valoare impus, sau din contr dac sunt
inferioare unei valori limit prescrise. De asemenea, acestea se mai ntlnesc la elaborarea planurilor
de control statistic unde numrul defectelor nu trebuie s depeasc o anumit limit superioar (orice
valoare inferioar fiind acceptat). Dac repartiiile sunt necunoscute, intervalele de ncredere pot fi
construite cu ajutorul inegalitii Cebev.
Intervalul de ncredere pentru media unei repartiii normale la care se cunoate dispersia.
Se consider o populaie a crei caracteristic X are o repartiie normal N(, 2) cu media
necunoscut. Se extrage din aceast populaie un eantion de volum n. S estimm media cu un
interval de ncredere de 95% cu risc bilateral simetric.
Nivelul de semnificaie este = 0,05. Se tie c media de
f(z)
0,4
2
selecie x are o repartiie normal N(, /n).
1 - = 0,95
0,3
Parametrul fiind necunoscut se scrie abaterea
0,025
2
x
z
0,2
0,1
0,025
2
0
98
care are o repartiie normal normat N(0, 1). Conform tabelului repartiiei probabilitatea de 95% este
cuprins n intervalul (-1,96; +1,96). n figura 3.32 este reprezentat intervalul de ncredere cu
probabilitatea P(-1,96 < z < 1,96). Din aceast relaie se poate scrie dubla egalitate:
1,96 z
x
1,96
de unde rezult:
n
x 1,96
x 1,96
n
n
S-a construit astfel pentru intervalul de ncredere de 95%. Rezultatul mai poate fi pus sub
forma: x 1,96
bilateral simetric
1 unde:
P
z
(- z/2, z/2) dat de relaia:
/2
/2
P z z / 2 F z / 2 1 2
P z z F z 1 F z
/2
/2
/2
2
Prin determinarea valorii z/2 intervalul cu risc bilateral simetric se poate scrie sub forma:
x z / 2
P x z / 2
x z / 2
1 de unde
F z s 1 s ,
unde
sau P x z
F zi i
F z s 1 s
n
z / 2
2
/
n
x z s
1
n
n
i i s
P x z i
F z i i
n
f(z)
0,4
f(z)
0,4
0,3
0,3
0,2
0,1
zP
x
z1
P
2/n
/
- zi
0,2
P z zs s
0,1
zs
n figura 3.34 este reprezentat intervalul de ncredere bilateral asimetric. Intervalul de ncredere
x
unilateral cu risc la stnga egal cu , definit de probabilitatea P z 1 , este dat de
inegalitatea: x z
. Limita superioar a acestui interval (fig 3.35, a) se extinde pn la .
n
Intervalul de ncredere unilateral, cu risc la dreapta egal cu (fig 3.35, b) definit n mod similar
P
z 1
de probabilitatea
s2
n
normal.
f(z)
f(z)
0,4
0,4
1-
zP
0,2
0,2
1-
-z
a) risc
stnga
b) risc dreapta
Figura 3.35. Interval de ncredere cu risc unilateral
Se tie c -
s2
n
urmeaz o lege
t , / 2 1
bilateral pentru media este definit de relaia: P t , / 2
s n
unde x t , / 2
s
n
x t , / 2
s
n
sau x t , / 2
1-
s
n
f(t)
s
. Quantilele t , / 2 sau t , se determin
n
100
t , / 2
i 1
2
xi x
2
2
x x
i
are
2 1
,
2
.
Expresia sumei de mai sus devine:
n
i 1
xi x
1
2
x
n
i 1
n 1 s
f(2)
n 1 s 2
2
2
2
2
2
sau
n 1 s
, 1
,
2
2
, 1
, 1
/,
1
2
1-
, / 2
n figura 3.37. este reprezentat intervalul de ncredere al dispersiei cu risc bilateral simetric.
Pentru abaterea standard un mod mai simplu de a calcula intervalul de ncredere este dat de relaia:
s1 q s 1 q unde q are valorile calculate (date n tabele) pentru nivelele de semnificaie
0,05 i 0,01.
Pentru q > 1 intervalul este 0 s1 q deoarece ntotdeauna 0 .
2
n acelai mod se poate determina intervalul la stnga:
2
sau cu risc la dreapta:
n 1 s 2
n 1 s 2
2
corelai. Astfel precizia estimaiei respectiv volumul eantionului este dependent n multe cazuri de
aspecte economice ale ncercrilor. Creterea volumului eantionului trebuie analizat prin sporul de
precizie care se obine n raport cu creterea cheltuielilor suplimentare necesare (eficiena economic).
Elemente de statistica ordinii
Valorile (x1, x2, ,xn) se obin n general ntr-o ordine valoric oarecare. Ordonarea valorilor de
eantionare ale caracteristicii X, x (1) , x 2 , , x n formeaz irul statisticii de ordine. Primul element
x (1) se numete element minimal sau prima statistic de ordine, iar ultimul element x ( n ) se numete
element maximal sau ultima statistic de ordine. n practic se ntlnesc multe cazuri n care valorile
msurate se obin n mod natural n ordine, de exemplu, uzura la o pies, durata de via la ncercrile
de fiabilitate, etc. Pentru astfel de variabile exist un tip special de analiz statistic. Metodele
respective sunt utilizate la rezolvarea unor probleme din domeniul tehnologiei i a fiabilitii. Cu
ajutorul statisticilor de ordine, amplitudinea este definit de relaia W 1 x n x 1 . n mod similar se
definete statistica wi x n i 1 x i denumit pseudoamplitudine. Statistica de ordine poate s
conduc n unele cazuri la o estimare punctual a parametrilor mai simpl. Astfel foarte frecvent n
aplicaiile industriale se utilizeaz amplitudinea ca estimator al abaterii standard i n special acolo
unde estimarea se poate face cu mai multe eantioane dar de volum foarte redus (n 20). Vom numi
aceste eantioane probe. Dac se determin pentru fiecare prob amplitudinea wi se obine pentru cele
1 k
k probe amplitudinea medie: w wi
k i 1
Statistica
w
w
reprezint o estimaie punctual nedeplasat a abaterii standard
dn
dn
n relaie de mai sus, dn reprezint factorul de conversie a amplitudinii medii n abatere standard a
crui valoare este dependent de n.
102
n consecin, orice decizie comport un anumit risc din cauza eantionului pe baza cruia s-a
obinut variabila aleatoare. Dac ipoteza este adevrat, dar pe baza eantionului se respinge ca fals,
se comite o eroare de genul 1. Probabilitatea acestei erori se noteaz cu . Se poate ntmpla i invers;
s se accepte ca ipotez adevrat o ipotez fals. n acest caz se face o eroare de genul 2.
Probabilitatea acestei erori se noteaz cu . De exemplu, pe baza eantioanelor acceptm loturile care
au valoarea adevrat = 0 (fig 3.38) adoptnd
Regiune
critic
f(x)
un nivel de semnificaie . Unele eantioane,
Legea 2
Legea 1
dei extrase din populaia cu media 0, pot s
1-
1-
indice o alt valoare diferit de 0 pe baza creia
se ia decizia de respingere a lotului. Se produce
o eroare de genul 1.
w
P u
H
0
Probabilitatea de
acceptare a ipotezei
0
1
care le antreneaz decizia (respingerea unui lot
Figura 3.39. Perechile de valori care
definesc curba de eficacitate
corespunztor).
n acelai timp trebuie s se precizeze pragul (limita)
valorii medii creia i se asociaz riscul erorii i care const din faptul c atunci cnd se
concluzioneaz c valoarea este 32 ea poate fi n realitate 34. Acest risc pe care n tolerm poate fi:
0,1; 0,15; 0,20; 0,50 (funcie de importana consecinelor fabricaiei de aparate de proast calitate,
erorii, etc.) Perechile de valori (0, 1 ) i (1, ) reprezint dou puncte ale curbei de eficacitate
(figura 3.39.). Exist curbe de eficacitate calculate pentru a stabili pe cale grafic volumul eantionului
funcie de i de abaterea normat ( - 0)/. Considernd deci o populaie avnd o caracteristic
reprezentat normal, cu media necunoscut i dispersia 2 cunoscut, urmeaz s se verifice ipoteza
nul H0: = 0 cu alternativa H1: 0 la un nivel de semnificaie bilateral. Extrgnd un eantion
de volum n se obine media de selecie x . Se alege ca instrument al deciziei, funcia discriminant
x 0
(statistic)
care are o repartiie N(0, 1). Pentru cu specificaie bilateral se construiete un
n
interval de acceptare z / 2 , z / 2 cu valorile z / 2 extrase din tabelele de repartiie. Intervalul este
definit cu relaia:
P z / 2
x 0
x 0
z / 2 1
n se ndeplinete z / 2 z c z / 2 (sau z c z / 2 )
0
P
z 1
De asemenea, n cazul unui test unilateral H0: 0 cu alternativa H1: 1 < 0. Intervalul de
x 0
P
z 1
i tiind c statistica
tc
x 0
n
s
are o repartiie
t0 x 0
n
aparine intervalului de acceptare.
s
Accept H0
f(2)
1-
Respinge H0
Respinge H0
2,1 / 2
2
, / 2
Pe baza datelor de eantion x1, x2, ,xn se determin dispersia s2 i statistica calculat
n 1 s 2
2
c
are o repartiie 2 cu = n 1 grade de libertate.
02
Pentru nivelul de semnificaie se extrag din tabelul repartiiei 2 valorile corespunztoare
2, / 2 i 2,1 / 2 putndu-se scrie relaia: P 2,1 / 2 c2 2, / 2 1 care conduce la
2
2
intervalul de acceptare ,1 / 2 ; , / 2 , reprezentat n figura 3.40.
105
f(2)
f(2)
1-
1-
Accept H0 Respinge H0
Respinge H0 Accept H0
2,1
2
,
a) ;
b) ;
n 1 s 2
02
02
se accept H0.
n 1
n1
106
n2
zc
x y
1 2 1 2 avnd o repartiie
x y
n1
n2
N(0, 1). Pentru un nivel de semnificaie , ipoteza H0 se poate testa n urmtoarele cazuri:
2
2
a) Dispersiile x , y cunoscute. Pentru specificaia bilateral din tabelul repartiiei normale se
extrage valoarea quantilei z/2 i regiunea de acceptare va fi definit de relaia:
P z / 2 z c z / 2 1
Se calculeaz zc cu relaia
zc
x y
1 2 1 2
x y
n1
n2
z / 2 z c z / 2 , se accept H0 i n consecin x = y.
Pentru aceleai condiii considerate dar cu specificaie unilateral cnd ipoteza alternativ este
x > y ( H 1 : x y ) intervalul de acceptare a ipotezei testate ( H 0 : x y ) este , z .
n concluzie, dac z c z , se accept ipoteza x = y (sau x < y). Cnd ipoteza alternativ este
x < y ( H 1 : x y ), atunci intervalul de acceptare pentru H 0 : x y este z , . n acest caz
dac z c z , se respinge ipoteza alternativ i se accept ipoteza iniial x = y (sau x > y).
2
b) Dispersiile de valori egale dar necunoscute ( x2 = y ). Pe baza datelor de selecie se
2
2
calculeaz dispersiile s x , s y . Facem precizarea c este necesar s se testeze n prealabil dac ipoteza
2
egalitii x2 = y poate fi acceptat. n acest caz, statistica zc nu mai urmeaz o repartiie normal ci
x y
2
2
1
1 , unde s n1 1 s x n2 1 s y .
s
n1 n2
n1 n2 2
1 1
n1 n 2
1 2 , / 2
t c t1 2 , / 2
107
2
2
Considerm dou populaii cu caracteristicile X : N x , x i Y : N x , y cu mediile i
dispersiile necunoscute. Presupunem ca X i Y sunt independente n probabilitatea i eantioanele din
populaiile respective x1, x2, ,xn1 i y1, y2, ,yn2 sunt cu volume diferite.
Conform cu relaia
i 1
xi x
1
2
2
variabile aleatoare cu repartiie 2: x
x
n
i 1
n1 1 s x2
n 1 s 2
2
2
i y
x2
n2 1 s 2y
y2
2
x2 x s x2 y
nlocuind n expresia de definiie variabilei aleatoare F, se obine: F 2 2 2
y y sy x
s x2
2
2
urmeaz o lege F cu n1 1 i n 2 1 grade de libertate cnd x y .
s y2
2
2
Este evident c pentru x y la un nivel de semnificaie exist relaia:
s x2
P 2 F 1 , 2 , 1
s
valoarea F
1 , 2
s x2
s x2
Conform relaiei 2
se accept ipoteza H0 dac 2 F 1 , 2 ,
1 , 2 ,
sy
s
y
i 1
ai npi
npi
108
unde:
n i 1
n 1 i 1
Restul operaiilor se pot prezenta n tabelul urmtor.
Intervale
F zi -
(
xi 1 xi
)
x x
Frecvena x x
zi i
i
ai
s
P F z F z
i
i
i 1 npi
xi x
s
ai npi 2
npi
1 i k .
xi x
x x
F i 1
.
s
s
x1 x
xk x
Pk F F z k 1 F
ai npi 2
i 1
npi
2, 1 sau P c2 2, , se accept H0
npi
1 K
semnificativ adoptat relaia: P d n
n
Valoarea lui se obine din tabelele funciei calculate K. De exemplu pentru nivelul de
semnificaie: 0,05 K 0,95 1,36 i pentru 0,10 K 0,90 1,23
109
Date iniiale
xi variabila
ni frecv. absolut
n volumul
Tabelele k()
1 = k()
Funcia empiric
Funcia teoretic
Fn xi F xi
d n max Fn xi F xi
n concluzie, dac d n
Testul Massey
Metoda utilizat de Kolmogorov i Smirnov a fost ncercat de F. J. Massey jr. (n anul 1951) care
a elaborat un test de verificare a unei populaii pe baza unei selecii de volum ( 8 n 32 ). Acest test
se prezint ca o modificare a testului KS i este adaptat deci pentru selecii de volum redus n scopul
verificrii normalitii.
2
Considerm o selecie de volum n cu valorile: x1, x2, ,xn. Verificm ipoteza H 0 : X N , cu
xi x
i se
s
tipice. Cauzele sunt multiple iar un specialist cu experien n domeniul respectiv poate identifica
muli factori care au condus la apariia acestora. Un cercettor repet msurtorile (fapt ce nu este
posibil totdeauna), dar statistica matematic poate s justifice cu ajutorul unor teste (Grubbs), pentru
un anumit nivel de semnificaie, ndeprtarea valorilor aberante.
Testul Grubbs const n ordonarea datelor observaiilor x1, x2,..., xn obinndu-se irul statisticilor
de ordine x(1) x(2) x(3) x(n). Se calculeaz x i s i se determin cu valoarea aberant x(n)
x x
raportul v n
. Decizia de eliminare se ia dac
n ,1
v n,1
v n ,1
unde
este statistic a cror valori sunt prezentate tabelar. Pentru erorile grosiere spre limita inferioar
x x
se calculeaz raportul v` n
i decizia se adopt ca n cazul anterior.
s
Un test de ipotez ofer un rspuns probabilistic asupra unei probleme care este condiionat de
nivelul de semnificaie adoptat. Testele de ipotez conduc la interpretri statistice i nu la interpretri
ale cauzelor.
3.7. METODA DE ANALIZ STATISTIC A LEGTURILOR DINTRE
FENOMENE I PROCES
Statistica studiaz fenomenele de mas n cadrul crora acioneaz legile statistice a cror
particularitate principal o constituie faptul c ele se manifest sub form de tendin cunoscut i sunt
verificate numai la nivelul ntregului ansamblu. n foarte multe situaii este necesar interpretarea lor
sub form de tendin a relaiilor de cauzalitate. n acelai timp, practica statistic dovedete c n
procesul de producere a fenomenelor de mas, nu toate relaiile de cauzalitate se manifest cu aceeai
intensitate i n acelai sens. Cu ct fenomenele pe care la studiem sunt mai complexe, cu att numrul
factorilor este mai mare i relaiile de cauzalitate mai dificil de identificat i de msurat.
Legea de repartiie a unui sistem de variabile poate fi diferit de cea a componentelor sale ntre care
pot exista legturi strnse de genul cauz efect sau legturi mai puin evidente. n cazul legturilor
cauz efect este suficient s se cunoasc valoarea uneia dintre ele pentru a se determina cu exactitate
valoarea celeilalte (legturi deterministe). n al doilea caz, legtura dintre caracteristici poate avea un
caracter aleatoriu fiind dependente statistic sau independente cnd legtura este slab (legtur
probabilistic). Variabila aleatoare Y este independent de variabila aleatoare X dac evenimentele
(X<x) i (Y<y) sunt independente pentru orice valori x i y, n acest caz se poate scrie relaia:
P(X<x,Y<y)=P(X<x)P( Y<y)
Dar conform definiiei generale P(X<x, Y<y)=F(x,y); P(X<x)=F(x); P(Y<y)=F(y).
Rezult n mod analog f(x,y)= f(x)f(y), aceasta fiind condiia necesar i suficient de independen
a dou variabile aleatoare dar care presupune cunoaterea legilor de repartiie.
Noiunea de dependen referitoare la variabilele aleatoare are un sens mai larg dect cel utilizat n
tehnic. n mod obinuit, n tehnic, se ia n calcul o singur zon a dependenei aceia de dependen
total sau determinist. n realitate dou variabile aleatoare X i Y pot fi legate i printr-o relaie
probabilistic. Dou variabile X i Y pot fi legate i printr-o relaie probabilistic, exemplu cnd se
cunoate valoarea lui X, valoarea lui Y nu poate fi determinat cu exactitate, dar se poate determina
legea sa de repartiie dependent de X. n practic se pune probleme stabilirii legturii dintre variabilele
sistemului. n funcie de tipul de dependen dintre variabile legtura fie prin regresie fie prin corelaie.
Conceptul de legtur statistic
Legturile statistice pot fi interpretate printr-o funcie matematic, astfel:
unei singure variabile din irul de caracteristici i corespunde o singur valoare din
irul
caracteristicilor efect: y i f ( xi )
unei singure valori din irul de caracteristici efect i corespund mai multe valori din
irul de caracteristici cauz: y i f ( x1 , x 2 ,...x n ) unde: x1 , x 2 ,...x n reprezint
caracteristica factorial (independent, exogen sau cauz) iar y i reprezint caracteristica
rezultativ
111
numai pe domeniul n care s-a realizat aplicaia, nu reprezint un model matematic generalizat, n
schimb funcia poate fi utilizat, cu succes n diverse aplicaii similare cu fenomenul studiat, n cadrul
programelor software de simulare. Metoda regresiei este eficient pentru aplicaiile particulare, fiindc
suplinete cu succes lipsa modelelor matematice. De asemenea, pe domenii restrnse, interpretrile
utiliznd funcia determinat prin metoda regresie sunt mult mai aproape de adevr fa de cazul n care
s-ar utiliza modele matematice clasice. Aceast metod a devenit des utilizat datorit uurinei lucrului
cu calculatoarele electronice.
Metoda regresiei constituie o metod statistic de corectare a legturii dintre variabile cu ajutorul
unei funcii denumite funcii de regresie: y i f ( x1 , x 2 ,...x n ) unde:
Y variabila dependent;
x1 , x 2 ,...x n variabile independente
Datorit caracterului aleator al fenomenelor i proceselor, modelul teoretic se nlocuiete cu un
model de dependen statistic : Y f ( x1 , x 2 ,...x n ) unde: reprezint o eroare aleatoare cu
dispersia constant i media nul.
Modele de regresie unifactorial
Regresia unifactorial descrie legtura dintre variabilele y i x considernd c ceilali factori au o
aciune constant i neglijabil asupra caracteristicii dependente. n continuare vom prezenta cele mai
des ntlnite modele de regresie n tehnicile statistice.
y
x1
x2
x3
y1
y2
y3
...
xn
yn
x
a) Modelul liniar. Se consider dou variabile X i Y ntre care se presupune c exist o legtur
pentru care experimental au fost determinate perechile de valori xi i yi:
Se traseaz un grafic printre puncte care reprezint dreapta de regresie yx a b xi care se
apropie cel mai mult de punctele experimentale. Valorii experimentale yx i corespunde pe dreapta de
regresie valoarea care are urmtorul model teoretic: yi xi .
Abaterile valorilor reale fa de valorile estimate (de pe dreapta de regresie) sunt:
yi y x yi a b xi yi a b xi
n aceast situaie, modelul teoretic se poate estima printr-o ecuaie similar cu modelul
determinist, la care se ia n considerare i eroarea: y x a b xi
Parametrii a i b, au n acest caz coninut de medii i se estimeaz cu ajutorul unor metode
specifice oferite de matematica statistic : metoda verosimilitii maxime respectiv metoda celor mai
mici ptrate.
n practic se folosete frecvent metoda celor mai mici ptrate care presupune c suma ptratelor
abaterilor dintre valorile teoretice (ajustate) yi i valorile empirice (reale) yx s fie minim, se obine
formula: ( yi y x ) 2 min nlocuim pe y x i obinem ( yi a bxi ) 2 min
Derivm n raport cu a i b i egalm cu zero derivatele pariale de ordinul nti, se obine un
( y a bxi )2
R i
1( y a bx ) 0
sistem de ecuaii: a
2
R ( yi a bxi )
b
b
xi ( yi a bxi ) 0
113
yi xi
xi yi xi2
na b xi yi
2
i
2
i
yi
xi xi y i
n
xi
xi xi2
n
, b
sau
x
yi y x yi ab i
yi ab xi
n aceast situaie, modelul teoretic se poate estima printr-o ecuaie similar cu modelul
determinist, la care se ia n considerare i eroarea: y x ab xi
Logaritmm expresa modelului determinist, pentru a transform ecuaia ntr-un model liniar similar
a ' lg a
b' lg b
cu cel studiat mai sus: lg y x lg a xi lg b , facem substituia y x lg y x
rezult ecuaia de forma: y' x a' b' x unde suma dispersiilor trebuie s fie minim.
Suma dispersiilor, dintre modelul teoretic i modelul determinist, trebuie s fie minim, se ajunge la
2
formula: ( yi y x ) min nlocuim pe y x , se obine formula:
( yi
a 'b' xi )
min
Derivm n raport cu a' i b' i egalm cu zero derivatele pariale de ordinul nti, se obine un
R ( y a bx ) 2
i
i 1 y a' x b' 0
i
i
a
a
sistem de ecuaii:
2
R ( yi a bxi )
xi yi a' xi b' 0
b
b
Forma final a
na 'b' xi y 'i
sistemului
de
dou
2
a ' x i b' xi xi y ' i
114
ecuaii
cu
dou
necunoscute
este:
yi xi
xi yi xi2
n
xi
xi xi2
b'
xi
n
xi
yi
xi yi
xi
xi2
y ab x
c) Modelul logaritmic
Se pornete de la forma canonic a ecuaiei logaritmice, exprimat prin cele dou modele statistice
y i lg xi - modelul teoretic.
y x a b lg xi - modelul determinist (practic, real) unde a > 0, b > 0
Abaterile valorilor reale fa de valorile estimate (de pe curba de regresie) sunt:
yi y x yi a b lg xi yi a b lg xi
n aceast situaie, modelul teoretic se poate estima printr-o ecuaie similar cu modelul
determinist, la care se ia n considerare i eroarea: y x a b lg xi
Suma modelul dispersiilor, dintre modelul teoretic i modelul determinist, trebuie s fie minim,
rezulta formula: y i y x 2 min nlocuim pe y x , rezult formula:
yi a b lg xi 2 min
Derivam n raport cu a i b i egalm cu zero derivatele pariale de ordinul nti, se obine sistemul
de ecuaii:
2
R ( yi a blg xi ) 1 y a b lg x 0
i
i
a
a
2
R ( yi a blg xi ) lg x y a b lg x 0
i
i i
b
b
na b lg xi y i
rezolvm sistemul i obinem
2
a lg xi b (lg xi ) y i lg xi
n
yi
lg xi
yi
2
yi lg xi (lg xi ) b lg xi yi lg xi
a
n
n
lg xi
lg xi
2
lg xi (lg xi ) 2
lg xi (lg xi )
Prin nlocuirea coeficienilor a i b n ecuaia logaritmic, rezult ecuaia teoretic
y a b lg x
d) Modelul parabolei
Se pleac de la forma canonic a ecuaiei de gradul al doilea, utiliznd modelele statistice
y i xi xi2 - modelul teoretic .
y x a b xi c xi2 - modelul determinist (practic, real)
Abaterile valorilor reale fa de valorile estimate (de pe curba de regresie) sunt:
yi y x yi a b xi cxi2 yi a b xi c xi2
n acest situaie, modelul teoretic se poate estima printr-o ecuaie similar cu modelul
determinist, la care se ia n considerare i eroarea: y x a b xi c xi2
Suma modelul dispersiilor, dintre modelul teoretic i modelul determinist, trebuie s fie minim,
rezulta formula: yi y x 2 min im nlocuim pe y x , rezult formula:
yi a bxi cxi2
115
min
2 2
R ( yi a bxi cxi ) 1 y a bx cx2 0
i
i
i
a
a
2 2
R ( yi a bxi cxi ) x y a bx cx2 0
i i
i
i
b
b
2 2
R ( yi a bxi cxi ) x 2 y a bx cx2 0
i i
i
i
c
c
na b xi c xi2 yi
2
3
a xi b xi c xi xi y i
a x2 b x3 c x4 x2 y
i i i i
i
yi xi xi2
xi yi xi2 xi3
xi2 yi xi3 xi4
a
n
xi xi2
xi xi2 xi3
xi2 xi3 xi4
yi xi2
xi xi yi xi3
xi2 xi2 yi xi4
b
n
xi xi2
xi xi2 xi3
xi2 xi3 xi4
n
xi yi
xi xi2 xi yi
x2
x3
x2 y
c i i i 2 i
n
xi xi
xi xi2 xi3
xi2 xi3 xi4
n
e) Modelul hyperbolic
Se pleac de la forma canonic a ecuaiei hiperbolei, utilizm modelele matematicii statistice, se
obine :
yi
xi
- modelul teoretic
yx a
b
xi
b
b
yi y x yi a
yi a
xi
xi
n aceast situaie, modelul teoretic se poate estima printr-o ecuaie similar cu modelul
determinist, la care se ia n considerare i eroarea:
yx a
xi
Suma modelul dispersiilor, dintre modelul teoretic i modelul determinist, trebuie s fie minim,
rezulta formula: y i y x 2 min nlocuim pe y x , rezult formula
b
yi a x
i
116
min
( yi a )2
2
xi
R
b 0
1
y
xi
a
a
( yi a )2
xi
R
1
b
yi a 0
xi
b
b
xi
yi
x
i
2
Sistemul de dou ecuaii cu dou necunoscute este de forma:
1
1
a b y 1
i
x
xi
xi
i
1
n
y i xi
1
1
1
y
i
xi xi2 b x i
Soluiile sunt: a
,
1
n
n
xi
1
1
1
x
xi x 2
i
i
yi
1
y i xi
1
xi
1
xi2
1
x
Modelul multifactorial
ntre fenomene, procese de orice fel exist legturi complexe care se caracterizeaz prin influena
unui numr mare de factori (variabile independente) asupra caracteristicii rezultative (variabile
dependente). Aceste legturi se pot exprima cu ajutorul funciei de regresie multipl:
y x f ( x1 , x 2 ,...x n ) unde x1 , x 2 ,...x n sunt caracteristici independente sau factoriale.
Cel mai utilizat model teoretic de regresie multifactorial, este modelul liniar dat de expresia :
yi a0 a1 x1 a2 x2 ... a n xn , unde
a 0 - reprezint coeficientul care exprim influenta factorilor neinclui n model, fiind considerai cu
aciune constant;
ai 1,2 ,...n - sunt coeficieni de regresie multipli i arat ponderea cu care caracteristica factorial x
influeneaz fiecare caracteristica rezultativ y.
Modelul determinist este dat de relaia: y x a0 a1 x1 a2 x2 ... an xn
Modelul teoretic se poate estima printr-o ecuaie similar cu modelul determinist, la care se
ia n considerare i eroarea: y x a0 a1 x1 a 2 x2 ... a n xn
Suma dispersiilor dintre modelul teoretic i modelul real trebuie s fie minim, rezult formula :
yi y x 2 min nlocuim pe yx , rezult formula
( yi a0 a1 x1 a2 x2 ... an xn ) 2 min
a 0 n a1 x1 a 2 x 2 ... a n x n y
2
a 0 x1 a1 x1 a 2 x1 x 2 ... a n x1 x n x1 y
....................................................................................................
a 0 x n a1 x1 x n a 2 x1 x n ... a n x n2 x n y
117
f(x)
f(x)
y
x
a)
b)
Figura 3.44 Graficul corelaiei a dou variabile
aleatoare
i variabila Y cu
1
1
exp
2 x y
2
x x
x
x x
2
x
y y
y y
a crui reprezentare grafic este prezentat n figura 3.45 i are funcia de repartiie
1
F x , y P X x ,Y y
2 x y
x x
x
1
exp
2
x x
2
x
y y
y y
f x, y
x 2
exp
x x 2
2 2x
y 2
exp
x y 2
2 2y
f x f y
de independen.
Dac > 0, variabilele x, y sunt dependente aleatoriu (stochastic). Coeficientul teoretic de
corelaie este dat de media produselor abaterilor normate.
n
x
x
M
x
y y
xi x y i y
sau
i 1
i 1
i 1
xi x 2 y i y 2
Covariana
Covariana se obine ca o medie aritmetic a produselor abaterilor variabilelor, fa de media lor:
1
xi x y i y
n
cov( x, y )
y y
xi x
zy i
y
x
x yi y
n x y
x x y y
x x y y
i
x y
n x y
n xi yi xi yi
n x
2
i
0 ryx 1
xi n yi2 yi
2
Coeficientul de corelaie este aplicabil numai n cazul a dou variabile cu repartiii normale; pentru
alte cazuri nu este fundamentat i poate eventual caracteriza
Semnul su semnific tipul de legtura. n practic se utilizeaz urmtoarea interpretare :
0 ry / x 0,2
- nu exist legtur semnificativ
0,2 ry / x 0,5
- exist o legtur slab
0,5 ry / x 0,75 - exist o legtur de intensitate medie
0,75 ry / x 0,95 - exist o legtur puternic
0 ,95 ry / x 1
- legtur determinist
Raportul de corelaie
Este denumit i coeficientul de corelaie al lui Pearson, acesta msoar intensitatea legturilor att
liniare ct i curbilinii. Poate lua valori n intervalul 0 1. Cu ct valoarea raportului este mai aproape
de valoarea unu, cu att legtura de corelaie este mai puternic i invers.
y Y
y y
2
Ry / x 1
med
xi
xi
i a lui Y. Deci, cnd x descrie un anumit domeniu, punctele y / xi descriu o dreapt a crei ecuaie
este: y / x y x x .
x
x / y x x x y
corespunztoare:
cu dispersia
y
Ecuaiile
y / x
x / y
y y yx x x
2
2
2
x / y x 1
x x xy y y
120
y
unde yx
x
xy