Sunteți pe pagina 1din 39

Capitolul V Elemente de statistică

matematică

5.1. Organizarea şi descrierea datelor


5.2. Reprezentarea grafică a datelor statistice
5.3. Caracteristici numerice ale seriilor statistice
5.4. Frecvenţa absolută, frecvenţa relativă şi frecvenţe cumulate
5.5. Metoda regresiei
5.6. Metoda corelaţiei
5.7. Estimarea parametrilor
5.8. Testarea ipotezelor statistice
-----------------------------------------------------------------------------------

5.1. Organizarea şi descrierea datelor


Statistica matematică este acea ramură a matematicii care işi propune să
răspundă la întrebările următoare:
- proprietăţile unei părţi a unei mulţimi de indivizi sunt sau nu sunt şi proprietăţi
ale populaţiei?
- se poate prevedea desfăşurarea viitoare a unui fenomen pe baza unor
observaţii făcute în trecut şi prezent?
Statistica este o metodă de observare sintetică şi integrală a fenomenelor din
toate domeniile.
În România instituţia care se ocupă de organizarea şi coordonarea serviciilor de
statistică oficială este Institutul Naţional de Statistică (www.insse.ro). Activitatea
Institutului Naţional de Statistică se orientează către urmatoarele obiective principale:
 producerea informaţiilor statistice operative necesare factorilor de decizie ai
strategiei economico-sociale;
 asimilarea indicatorilor statistici specifici economiei de piaţă şi implementarea
metodologiilor de cercetare şi calcul în concordanţă cu standardele şi practica
internaţională;
 dezvoltarea statisticii calitative, în completarea celei tradiţionale;
 extinderea şi diversificarea mijloacelor de diseminare a datelor.

138
Elemente de matematică

Noţiunea fundamentală în statistică este cea de grup sau mulţime de obiecte


echivalente care se numeşte populaţie sau colectivitate.
Elementele unei populaţii statistice se vor numi indivizi sau unităţi statistice.
Statistica studiază proprietăţile populaţiilor, nu pe cele ale indivizilor particulari.
Analiza statistică poate avea în vedere una sau mai multe caracteristici.
Exemple: a). o populaţie de brazi dintr-o plantaţie se poate cerceta după înălţimea
brazilor şi vârsta lor;
b). la o populaţie de 10000 de pui nou născuţi se pot cerceta sexul şi greutatea
lor.
Caracteristicile care se pot măsura se numesc cantitative.
Exemplu: înălţimea, talia, vârsta.
Spre deosebire de caracteristicile cantitative există caracteristici care nu se pot
măsura: starea civilă, culoarea feţei, care se numesc calitative.
Caracteristicile cantitative pot fi împărţite în variabile discrete (numărul de elevi
ce se înscriu la facultate) sau continue (timpul de aşteptare a unui student la înscriere să
depună dosarul).
O caracteristică a unei colectivităţi este, din spunct de vedere probabilistic, o
variabilă aleatoare. Unul din scopurile cercetării statistice este stabilirea legii
probabilistice căreia îi aparţine acea caracteristică.
Din punct de vedere etimologic Statistica este o "ştiinţă care culege, sintetizează,
descrie şi interpretează date referitoare la fenomene generale".
Pentru a ne familiariza cu conceptele statisticii să presupunem analiza
probabilităţii de apariţie a două evenimente:
- participarea profesorului la examenul programat de a doua zi;
- utilizarea la un examen de către profesor a unor subiecte mai dificile decât la
alt examen ce a avut loc.
Aceste evenimente sunt în strânsă legătură cu gradul de constanţă sau de
inconstanţă cu care s-au manifestat în trecut.
Primul caz: participarea profesorului la examenul programat are o permamenţă,
dacă profesorul este bine, sănătos va participa cu siguranţă la eveniment.
Al doilea caz utilizarea unor subiecte mai dificile faţă de alt examen de acest
eveniment nu suntem siguri că se va produce.
Producerea evenimentului în viitor este incertă. Statistica măsoară gradul de
incertitudine în producerea unui evenimnet în funcţie de frecvenţa de apariţie în trecut
a evenimentului şi calculează limitele acesteia pentru un anumit risc de a nu se pătra în
viitor aceleaşi condiţii.

139
Elemente de statistică matematică

În procesul de cunoaştere prin intermediul statisticii se utilizează cele două tipuri


de rationament ale metodei ştiinţifice: deductiv şi inductiv (Jaba 2004):
Metoda deductivă analizează caracteristicile generale şi se extrag concluzii
asupra proprietăţilor particulare ale unei populaţii folosind raţionamente matematice.
Metoda inductivă în care se pleacă de la observaţii particulare asupra unor
fenomene şi se ajunge la formularea unor reguli generale.
Pentru a realiza o analiză statistică completă şi corectă asupra unui fenomen
trebuie urmate o serie de etape şi procedee specifice metodei statistice.
Punerea problemei presupune definirea problemei în termeni precişi, indicându-
se scopul, aria de investigare şi variabilele ce se cer observate. În această etapă se emit
ipotezele de lucru, se aleg metodele de investigare, se elaborează planul de cercetare.
Observarea statistică este etapa în care se înregistrează caracteristiciele
elementelor unei colectivităţi.
Culegerea datelor statistice se poate realiza prin procedee de înregistrare totală
(recensământul) sau prin procedee de înregistrare parţială (anchete şi sondaj):
- înregistrări curente;
-înregistrări periodice;
- înregistrari ocazionale;
Studiul caracteristicilor întregii populaţii este complet atunci când este realizat
în cadrul unui recensământ dar din cauza costurilor mari nu se poate realiza foarte des.
În aceste condiţii trebuie să se găsească o modalitate de a aduna informaţii
despre volumul şi structura unei populaţii printr-o observare parţială (prin sondaj).
Dacă comparăm precizia celor două mijloace de observare a populaţiei putem
afirma că observaţia totală (recensământul) are o valoare exactă dar poate fi afectată de
erori ce pot apărea datorită volumului mare de date adunate iar observaţia parţială
(sondajul) are o valoare "inexactă" dar dependentă de tehnica de sondaj şi de tehnica
estimaţiilor.

Observaţia parţială (sondajul)


Dacă nu putem organiza o observaţie totală asupra unei populaţii extragem un
eşantion reprezentativ şi analizăm datele pe care le obţinem.
Am determinat un eşantion reprezentativ în cazul în care caracteristicile
eşantionului sunt aproximativ egale cu cele ale populaţiei din care a fost extras.
Deci pornind de la un eşantion reprezentativ putem generaliza caracteristicile
obţinute pentru întreaga populaţie.

140
Elemente de matematică

Putem utiliza sondajul în agricultură la verificarea exactităţii datelor oferite de


către diferite firme de vânzare de seminţe la producţie sau pierderi pe timp de secetă.
De asemenea, în economie se poate utiliza sondajul în controlul calităţii
echipamentelor furnizate sau a produsului finit pe parcursul utilizării unei linii de
producţie.
În comerţ sondajul este de mare ajutor când se doreşte cunoaşterea opiniei
cumpărătorilor despre anumite produse.
În domeniul administraţiei publice locale un sondaj poate conduce la hotărâri
importante luate de legiutorul local legate de tipul de utilizare a unui teren public sau
modul de cheltuire a unor fonduri publice.
În sănătate un sondaj poate conduce la stabilirea unor programe de asistenţă
pentru anumite persoane cuprinse într-o grupă de risc.
În comparaţie cu un recensământ sondajul are următoarele avantaje:
- costul este mult redus deoarece numărul persoanelor utilizat în organizare este
redus, numărul materialelor caracteristice este mult mai mic şi mult mai ieftin;
- rezultatele apar într-un timp mult mai scurt deoarece volumul de muncă este
redus;
- se pot cunoaşte caracteristici ale unei populaţii greu accesibile (în controlul
alimentelor închise, perisabile sau scumpe).
Pentru a construi un sondaj cu succes trebuie avut grijă la alegerea corectă a
eşantionului iar pentru a minimiza erorile personalul trebuie prelucrat pentru
înlăturarea erorilor de înregistrare.
Există în analiza statistică pericolul producerii a diferite tipuri de erori de care
trebuie să se ţină seama de la început:
- erori de înregistrare - definirea vagă a caracteristicilor de observat,
imperfecţiuni ale metodelor şi mijloacelor de observare;
- erori sistematice - pot apărea din cauza înţelegerii greşite a colaboratorilor,
imprecizia formularelor folosite sau a instrumentelor folosite la înregistrarea datelor; un
exemplu de eroare sistematică este rotunjirea valorilor numerice.
- erori de neglijenţă (greşeli) - graba sau superficialitatea colaboratorilor;

- erori de selecţie (de reprezentativitate) - acestea trebuie înlăturate de către


cercetător prin alegerea unui eşantion reprezentativ pentru populaţia analizată.

Realizarea sondajului presupune parcurgerea următoarelor etape (Jaba, 2004):


1. enunţarea obiectivelor,
2. eşantionarea,
141
Elemente de statistică matematică

3. observarea statistică,
4. prelucrarea datelor,
5. analiza datelor,
6. inferenţa statistică,
7. decizia statististică.
Enunţarea obiectivelor trebuie sa fie clară să ţină seama de condiţiile de
desfăşurare a sondajului.
Obiectivele unui sondaj pot fi estimarea unor caracteristici ale unei distribuţii
statistice sau verificarea unor ipoteze privind legătura dintre fenomene, evoluţia
fenomenelor analizate.
Problema fundamentală a cercetărilor prin sondaj este plecând de la datele
înregistrate asupra unei părţi reprezentative dintr-o colectivitate şi calculând anumite
valori caracteristice ale eşantionului să se afle parametrii populaţiei globale.
Eşantionarea - această etapă presupune alegerea din populaţia generală a unui
număr exact de indivizi ce va fi reprezentativ pentru colectivitate.
Selecţia unui eşantion se poate face prin diferite metode (Stoleriu, 2010):
- selecţie simplă de un volum dat prin care toţi indivizii ce compun populaţia au
aceeaşi şansă; (toţi studenţii ce participă la un seminar au aceeaşi şansă să fie scoşi la
tablă).
- selecţie sistematică - presupune aranjarea populaţiei studiate după o anumită
schemă (aleg primul student aleator apoi pe ceilalţi dupa schema din 5 în 5 candidaţi
înscrişi);
- selecţie stratificată - în care populaţia este separată pe categorii şi alegerea se
face la întâmplare din fiecare categorie (aleg un număr de studenţi din fiecare judeţ în
funcţie de cât de mare este populaţia judeţului);
- selecţie ciorchine - populaţia este împărţită pe categorii şi selectăm indivizi din
fiecare categorie (alegem studenţii dupa anumite categorii – alegem studenţii din
anumite judeţe);
- selecţia de tip experienţă - care ţine cont de elementul temporar în selecţie
(encefalogramă);
- selecţie de convenienţă - pentru un studiu în care dorim să analiză cât de
cunoscută este o facultate alegem respondenţii dintre studenţii care se înscriu la acea
facultate;
- selecţie de judecată - profesorul decide ce student intră în selecţie şi cine nu;
- selecţie de cotă - alegerea în urma unui vot, se vor primi un număr de locuri
proporţional cu numărul de voturi primite.

142
Elemente de matematică

Observarea statistică este etapa culegerii de date ce presupune observarea


indivizilor din eşantion şi înregistrarea caracteristicilor analizate.
Prelucrarea şi analiza datelor - rezultatul prelucrării datelor este dat de
obţinerea valorilor pentru indicatorii statistici stabiliţi în etapa organizatorică (media,
varianţa, coeficient de corelaţie).
Inferenţa şi decizia statistică - această etapă presupune estimarea parametrilor
colectivităţii totale pornind de la parametrii eşantionului şi verificarea ipotezelor
statistice.
Problema distribuţiei de selecţie: presupune raportul invers între cele două
colectivităţi (globală şi eşantion) şi anume plecând de la valorile cunoscute ale unor
parametrii ai populaţiei (medie, varianţă) se cere să se afle ce valori pot lua aceşti
parametrii într-o distribuţie a estimatorilor ce s-ar obţine prin observarea celor k
eşantioane posibil de extras print-un procedeu de eşantionare aleator.
Prelucrarea statistică presupune un set de operaţii specifice:
1. sistematizarea datelor culese (centralizarea şi gruparea datelor);
2. prezentarea datelor (prin tabele şi grafice);
3. identificarea legăturilor între caracteristici (realizarea corelaţiilor);
4. aproximarea modelelor de regresie (liniare, parabolice);
5. prognoza fenomenelor;
6. estimarea parametrilor şi verifcarea ipotezelor statisitce.

Sistematizarea datelor şi prezentarea datelor statistice

Definţie 1: Seriile statistice sunt şiruri de date, care pot fi grupate după unul din
criteriile generale cunoscute în statistică: gruparea în timp; gruparea în spaţiu şi
gruparea calitativă.

Gruparea statistică are ca scop sistematizarea datelor obţinute din colectivitate


în vederea prelucrării.
Grupare a datelor după o caracteristică
Să presupunem că am măsurat înălţimea studenţilor din anul I de la cursul de
matematică. Rezultatele obţinute le vom colecta într-un şir în ordinea în care au apărut:
176, 178, 179, 180, 150, 155, 159, 165, 168, 170, 176, 178, 165, 168, 176, 180, 150, 155,
165, 168, 170, 176, 178, 179, 180, 150, 155, 159, 165, 176, 178, 179, 180, 150, 165, 168.

143
Elemente de statistică matematică

Se observă uşor că în acest mod de prezentare nu putem obţine informaţii utile


pentru analiza statistică. Vom face o nouă grupare a acestor date într-un tabel statistic
după numărul de studenţi ce au o anumită înălţime.
Tabelul statistic este forma de prezentare a rezultatelor prelucrării statistice a
datelor pentru caracterizarea colectivităţii sub diferite aspecte.
Tabel 1
xi = înălţine ni =
studenţi (cm) Nr. de studenţi
150 4
155 3
159 2
165 4
168 4
170 2
176 5
178 4
179 3
180 4
Tabelul 1. cuprinde întreaga colectivitate şi părţile ei componente precum şi
caracteristicile urmărite în cadrul analizei statistice.
În prima coloană am trecut înălţimea studenţilor în centimetri şi în a doua
coloană numărul de studenţi ce au înălţimea corespunzătoare. Observăm că înălţimea
de 176 cm este cea mai des întâlnită, iar înălţimile de 159 şi 170 sunt cele ce apar de
cele mai puţine ori.
În tabelul 2 sunt prezentate rezultatele obţinute de studenţi la disciplina
Matematică şi Statistică. Observăm că analiza unui fenomen în raport cu o singură
caracteristică ne conduce la o serie de perechi de valori pe care o vom numi serie
statistică.
Tabel 2
Nota Nr. de studenţi
2 1
3 1
4 5
5 12
6 16
7 12
8 21
9 15
10 10
Putem nota datele din seria statistică prin perechi de puncte  xi , yi  unde 1 < i

<n.

144
Elemente de matematică

Gruparea datelor pe intervale


Gruparea datelor pe intervale apare atunci când necesităţile de analiză
economică o impun. De exemplu: caracteristica "vârsta" se prezintă grupată pe intervale
de timp: pâna la 10 ani, intre 10 şi 20 ani, între 20 şi 30 ani, între 30 şi 40 ani ş.a.m.d. De
asemenea, populaţia poate fi împărţită şi populaţie tânără (0-19 ani), populaţie adultă
(20-59 ani), populaţie vârstnică peste 60 ani.
Un alt exemplu: la un strung se fac piese rotunde cu diametrele cuprinse în
diferite intervale de măsură în cm. Vom face gruparea acestor date într-un tabel.

Tabel 3
Diametrul piesei xi (cm) ni = Nr. de piese
[2, 5) 5
[5, 10) 4
[10, 15) 3
[15, 20) 4
[20, 25) 4
[25, ) 3
În continuare vom prezenta tot o serie cu caracteristici cantitative, dar cu două
caracteristici ale studenţilor: culoarea ochilor şi culoarea părului. În acest caz citirea
tabelelor devine greoaie şi este necesară o nouă grupare a datelor.

Tabel 4
Culoarea ochilor
Culoarea părului negri căprui verzi albaştri Total
Negru 145 285 30 11 471
Castaniu 62 431 87 67 647
Blond 33 36 185 128 382
Total 240 752 302 206 1500

5.2. Reprezentarea grafică a datelor statistice

Reprezentarea grafică a unei serii statistice este importantă deoarece aceasta


contribuie la o interpretare intuitivă a datelor precum şi sugerează însăşi legea de
ditribuţie pe care o urmează fenomenul studiat.
Reprezentarea grafică oferă o imagine mai sugestivă şi rapidă a fenomenelor
cercetate completând tabelele statistice.
În cazul reprezentărilor grafice principiul de care se ţine cont îl constituie
proporţionalitatea.
Reprezentarea grafică prin puncte

145
Elemente de statistică matematică

Diferitele reprezentări grafice ce apar aici sunt ale datelor din paragraful
anterior. De exemplu la reprezentarea grafică prin puncte am ales să reprezentăm
numărul de studenţi în funcţie de notele pe care le-au obţinut.
Fiecare punct ce apare în grafic are două valori ataşate: abscisa şi ordonata. La
valoarea 6 de pe axa orizontală (nota 6) îi corespunde valoarea 16 pe axa verticală
(numărul de studenţi ce au luat nota 6) (fig. 9).

25

20 21
Numar studenti

15 16 15
12 12
10 10

5 5

0 1 1
0 1 2 3 4 5 6 7 8 9 10 11
Nota examen

Figura 9 - Reprezentare grafică prin puncte

25
21
20
Numar studenti

16 15
15 12 12
10
10
5
5
1 1
0
2 3 4 5 6 7 8 9 10
Nota examen

Figura 10 - Reprezentare grafică prin coloane

Reprezentarea grafică cu coloane


Acestă reprezentare se utilizează pentru serii de date sau repartiţii simple şi se face prin
dreptunghiuri care au baze egale şi înălţimile proporţionale cu frecvenţa absolută a
seriei (fig. 10).
Reprezentarea grafică cu histograme
Pentru reprezentarea grafică a repartiţiilor de frecvenţă se folosesc diagrame
numite histograme (fig.11.).
Reprezentarea grafică cu ajutorul histogramelor se face luând pe axa orizontală
o succesiune de segmente egale, reprezentând amplitudinea claselor şi ridicând, pe

146
Elemente de matematică

fiecare segment, dreptunghiuri de înălţimi proporţionale cu frecvenţele claselor


respective.
Poligonul frecvenţelor se determină prin unirea extremităţilor superioare de la
perpendicularele ce se ridică în mijlocul intervalului de pe axa Ox şi intersecteză baza
superioară a unui dreptunghi.

Figura 11 - Histograma

Reprezentarea grafică cu diagrame de tip sectoare de disc

La reprezentarea notelor luate de studenţi cu ajutorul unui structuri radiale,


discul se împarte în 9 sectoare cu arii proporţionale cu 1%, 1%, 5%, 13%, 17%, 13%, 23%,
16%, 11% din aria cercului (fig. 12). Aceste procente reprezintă proporţia numărului de
studenţi ce au luat o anumită notă din numărul total de studenţi participanţi la examen.

1, 1% 1, 1%
5, 5% 2
10, 11% 3
12, 13%
15, 16% 4
16, 17% 5
21, 23% 6
12, 13%
7
8
9

Figura 12 - Grafic de tip sector de disc

Reprezentarea grafică a două caracteristici


Reprezentarea grafică a datelor dintr-un tabel statisistic în care sunt prezente două
caracteristici se face proporţional din numărul total de masuratori pe una dintre
caracterisitici (fig. 13).

147
Elemente de statistică matematică

Negru Castaniu Blond

100%
80%
60%
40%
20%
0%
negri căprui verzi albaştri

Figura 13 - Grafic pentru două caracteristici: culoarea ochilor şi culoarea părului

Exemplu:

La o bancă s-au înregistrat depunerile efectuate într-o lună şi s-a obţinut tabelul:
Sume depuse
[1, 7) [7, 11) [11, 21) [21, 27) [27,31)
(mil. Lei)
Număr
34 19 18 28 12
deponenţi

Să se reprezinte grafic datele numerice folosind diferite modele grafice.

R: Pentru o bună reprezentare a datelor vom calcula valoarea medie a intervalului apoi
vom reprezenta grafic.

Sume depuse
[1, 7) [7, 11) [11, 21) [21, 27) [27,31)
(mil. Lei)
Media
4 9 16 24 29
intervalului
Număr
34 19 18 28 12
deponenţi

40
Numar depunatori

30 34
28
20 19 18
10 12
0
3 8 13 18 23 28
Sume depuse (in medie) (mil lei)

148
Elemente de matematică

40 34

Numar depunatori
28
30
19 18
20 12
10
0
4 9 16 24 29
Sume depuse (in medie) (mil lei)

Număr Număr Număr


deponenţi, deponenţi, deponenţi,
28, 25% 12, 11% 34, 31%

Număr
Număr deponenţi,
deponenţi, 19, 17%
18, 16%

4 9 16 24 29

Figura 14 - Reprezentarea grafică a numărului de clienţi prin puncte, coloane şi sector de disc.

 Exerciţii

1. Să se reprezinte grafic următorele date numerice ce reprezintă viteza maximă


a masinilor de serie:
Nr. de maşini Viteze maxime
24 180
36 190
30 200
23 210
10 250
2 300

2. La o agenţie de turism s-a înregistrat numărul turiştilor pe grupuri organizate


în anul 2016 şi s-a obţinut tabelul:
Nr. de turişti în
[1, 11) [11, 21) [21, 31) [31, 41) [41,51)
grup
Numărul
34 15 32 18 30
grupurilor

Să se reprezinte grafic datele numerice folosind diferite modele.

149
Elemente de statistică matematică

5.3. Caracteristici numerice ale seriilor statistice

Dacă în statistica descriptivă reprezentăm datele adunate prin tabele, grafice şi


diagrame, urmează sa utilizăm metode statistico-matematice pentru a le analiza.
Într-un sondaj analizăm caracteristicile eşantionului şi dorim să obţinem
informaţii generale despre întreaga colectivitate analizată.
Eşantionul reprezintă indivizii extraşi din populaţia generală în scopul observării
caracteristicilor.
Populaţia analizată are un volum N iar volumul eşantionului se notează cu n ,
unde n  N (egalitatea este în cazul recensământului).
Un parametru reprezintă o valoare reală fixă dar necunoscută a unei populaţii.
Într-un sondaj parametrul trebuie să fie estimat.
Se construieşte o variabilă X cu valorile xi pentru o caracteristică observată la

nivelul unei populaţii, unde valorile xi reprezintă valori posibile ale caracteristicii.

În cele de urmează considerăm o serie statistică formată din valorile măsurate în


urma unui experiment, x1 , x2 , x3 , , xn . Vom învăţa să determinăm cei mai cunoscuţi

şi utilizaţi parametrii în analiza statistică: media, abaterile individuale, abaterea medie


liniară, dispersia, abaterea medie pătratică (deviaţia standard) şi coeficientul de variaţie.

Definiţie 2. Se numeşte statistică sau funcţie de selecţie orice funcţie


f  X1 , X 2 , X 3 , , X n  unde X1 , X 2 , X 3 , , X n sunt variabile de selecţie de volum n ale

caracteristicii X determinate anterior şi funcţia f este continuă mai puţin într-un număr
finit de valori.

Definiţie 3. Numim media valorilor unei serii statistice valoarea notată x calculată
după una din formulele:
Media simplă
n

x  x  ...  xn
x
i 1
i
x 1 2  .
n n

Media ponderată (unde kn – reprezintă frecvenţa absolută a fiecărui element xn)

x1k1  x2 k2  ...  xn kn n
  xi  pi , unde ponderea este pi  n i
k
x
k1  k2  ...  kn i 1
 ki i 1

Media pătratică

150
Elemente de matematică

x12  x 22  ...  x 2n x
i 1
2
i

xp   .
n n
Observaţie: 1. Media aritmetică reprezintă valoarea pe care ar purta-o fiecare element
din eşantion dacă distribuţia ar fi omogenă.
2. Media armonică este utilizată de multe ori în calculul indicelui mediu armonic al
preţurilor (Jaba 2000).

Definiţie 4. Abaterea individuală se poate calcula după următoarele formule:

xi x
di  xi  x respectiv d i %  100 , i=1, ... n.
x

Definiţie 5. Abaterea medie liniară reprezintă variaţia abaterilor individuale faţă de


valoarea medie pe ansamblul datelor

 x x
i 1
i
d ,
n

respectiv abaterea medie liniară ponderată:

n
d k   x i  x  pi .
i 1

Definţie 6. Dispersia este media aritmetică a pătratelor abaterilor faţă de medie ale
valorilor seriei statistice. Pentru date negrupate avem:

x  x 2  x2  x 2  ...  xn  x 2  x  x  i


2

2 1  i 1
,
n n

Respectiv pentru date grupate:

 x  x   ki
2

 x1  x  k1   x2  x  k2  ...   xn  x  kn
2 2 2
i
 k2   i 1
.
k1  k2  ...  kn n

 ki
i 1

Definiţie 7. Abaterea medie pătratică (deviaţia standard) a valorilor este numărul  ce


se calculează:
n

 x i  x
2

2 i 1
,
n
Respectiv pentru date grupate:
151
Elemente de statistică matematică

 x  x   ki
2

k  i 1
n
.
k
i 1
i

Pe baza abaterii medii liniare şi pătratice se pot determina intervalele medii de


variaţie:
 
I d  x  d , x  d , respectiv I   x   , x    .

Definiţie 8. Raportul dintre abaterea medie pătratică şi valoarea medie a unei serii
statistice se numeşte coeficient de variabilitate (variaţie) notat C.V.


C.V .( X )%  100.
x

Acest indicator dă posibilitatea aprecierii gradului de omogenitate a unei serii


statistice. Un coeficient sub 15% (Burtea, 2005) indică o omogenitate semnificativă a
datelor analizate.
Exemplu:
Un sac de porumb hibrid se vinde în 5 magazine. Preţul de vânzare (lei/sac) diferă
în funcţie de zona de vânzare astfel: 350, 360, 370, 380, 390. Să se determine toţi
parametrii statistici definiţi.
Rezolvare: Pentru acest exemplu vom construi un tabel ajutator:
xi xi  x xi  x
 100 xi  x xi  x 2
x
350 -20 -5.405 20 400
360 -10 -2.702 10 100
370 0 0 0 0
380 10 2.702 10 100
390 20 5.405 20 400
1850 0 - 60 1000
x  370 d  ...  2  ...
n

x
i 1
i
1850
Media x    370 lei /sac.
n 5
Abaterile individuale sunt calculate în tabel în coloanele a doua şi a treia.
n

 x x i
60
Abaterea medie liniară d  i 1
  12 lei /sac.
n 5
Folosind această valoare determinăm primul interval mediu de variaţie:

 
I d  x  d , x  d  370  12, 370  12  358, 382 lei /sac.

152
Elemente de matematică

 x i  x
2

1000
Varianţa:  2  i 1
  200 lei/sac.
n 5
n

 x i  x
2

Deviaţia standard:  2  i 1
 200  14,142 lei/sac.
n
Folosind această valoare determinăm al doilea interval mediu de variaţie:
I  x   , x     370  14.142, 370  14.142  355.855, 384.142 lei /sac.

Coeficientul de variaţie:
 14.142
C.V .( X )%   100   100  0.0382 100  3.82% .
x 370
Interpretare:
Preţul mediu de vânzare a unui sac de porumb în cele 5 magazine este de 370
lei/sac şi se abate în medie de la preţul mediu cu 12 lei /sac. Din al doilea interval mediu
de variaţie constatăm că 68% din vânzători au un preţ cuprins între 355.855 lei/sac şi
384.142lei/sac. Coeficientul de variaţie arată o dispersie mică (<17%) ceea ce reprezintă
un set de date cu distribuţie omogenă şi media este reprezentativă pentru datele
analizate.
Observaţie: În cazul în care datele adunate în urma experimentului sunt grupate
în intervale atunci se va folosi pentru calculele anterioare valoarea din mijlocul fiecarui
interval ( xi* ). În continuare prezentăm un asemenea exemplu.

Exemplu:

Se efectuează un sondaj asupra unui eşantion de 60 de unităţi de cazare din


zona oraşului Iaşi, obţinându-se următoarele date:
Capacitate de cazare [20,40) [40,60) [60,80) [80,100) [100,120)
(locuri de cazare)
Număr de unităţi 8 10 32 7 3
turistice
Să se caracterizeze datele din tabel folosind dispersia, abateria medie pătratică
şi coeficientul de variabilitate.
R: Construim tabelul următor pornind de la datele din ipoteză:
n

x
*
n i ki
N   ki  60 , media: x 
3940
i 1
  65.66 locuri de cazare.
i 1 N 60

 x  x   ki
n
2

23273.33
Varianţa:  2  i 1
  387.89 .
N 60

153
Elemente de statistică matematică

xi ki xi

xi ki
 
xi  x x
i

x 
2
x
i

2
 x  ki
[20,40) 8 30 240 -35.67 1272.11 10176.89
[40,60) 10 50 500 -15.67 245.44 2454.44
[60,80) 32 70 2240 4.33 18.78 600.89
[80,100) 7 90 630 24.33 592.11 4144.78
[100,120) 3 110 330 44.33 1965.44 5896.33
suma 60 3940 23273.33
n

 x  x   ki
2

23273.33
Deviaţia standard:   i 1
  19.69 locuri de
N 60
cazare.
Coeficientul de variaţie
 19.69
C.V .%   100   100  0.2998 100  29.98  30% .
x 65.66
Interpretare:
În cazul acestui sondaj numărul de locuri de cazare mediu la unităţile verificate
este de 65,66 locuri. Abaterea media pătratică este de 19,69 locuri de cazare faţă de
media de 65,66 locuri de cazare. Coeficientul de variaţie este de aprovimativ 30% ceea
ce înseamnă că fenomenul are o repartiţie slab omogenă şi că valoarea medie este slab
reprezentativă.

 Exerciţiu

1. Se efectuează un sondaj aspra unui eşantion de 60 de şcoli din zona oraşului


Vaslui, obţinându-se următoarele date:
Nr. de elevei în clasă [15, 18) [18, 20) [20, 23) [23, 25) [25, 30)
Nr. de şcoli 3 9 29 11 8
Să se caracterizeze datele din tabel folosind dispersia, abateria medie pătratică
şi coeficientul de variaţie.

5.4. Frecvenţa absolută. Frecvenţa relativă. Frecvenţe cumulate

Numărul total de indivizi al unei populaţii se numeşte efectivul total al acelei


populaţii (volumul populaţiei).

Definiţie 9. Se numeşte frecvenţa absolută a unei valori x numărul de apariţii ale acelei
valori în efectivul total.

Exemplu: În tabelul 5 valoarea pentru "nota 6" a caracteristicii nr de studenţi are


frecvenţa absolută egală cu 16 - adică nota 6 a apărut la examen de 16 ori. Suma
frecvenţelor absolute ale tuturor valorilor caracteristice este egală cu efectivul total al
populaţiei (100).
154
Elemente de matematică

Tabel 5
Nr. de studenţi= Frecvenţa
Nota
Frecvenţa absolută relativă
1
2 1   0,01
100
3 1 0,01
4 5 0,05
5 14 0,14
6 16 0,16
7 17 0,17
8 21 0,21
9 15 0,15
10 10 0,10
Total 100

Definiţie 10. Se numeşte frecvenţă relativă a unei valori x raportul dintre frecvenţa
absolută a valorii x şi volumul selecţiei.
Notăm:

f x  
nx
,
n
unde f(x) este frecvenţa relativă a valorii x, nx este frecvenţa absolută a acestei valori, iar
n este efectivul total al selecţiei.

În cazul caracteristicilor cantitative aceste tabele scot în evidenţă o


corespondenţă între două mulţimi de numere: mulţimea valorilor caracteristice şi
mulţimea frecvenţelor corespunzătoare, asemănător cu corespondenţa de la variabilele
aleatoare:

x x2  xn 
X :  1 ,
 p1 p2  pn 

unde pe prima linie sunt trecute valorile variabilei, iar în cea de-a doua linie
probabilităţile corespunzătoare acelei valori.

Tabel 6
Valori Frecvenţa
x1 p1
x2 p2
x3 p3
... ...
xn pn

Observaţie:
Suma frecvenţelor relative ale tuturor valorilor variabilei este 1.

155
Elemente de statistică matematică

Definiţie 11. Se numeşte frecvenţa absolută cumulată crescătoare a unei valori x suma
frecvenţelor absolute ale tuturor valorilor variabilei care sunt mai mici sau egale cu x.

Definiţie 12. Se numeşte frecvenţa absolută cumulată descrescătoare a unei valori x


suma frecvenţelor absolute ale tuturor valorilor variabilei care sunt mai mari sau egale
cu x.

Definiţie 13. Se numeşte frecvenţă relativă cumulată crescătoare a unei valori x suma
tuturor frecvenţelor relative ale valorilor care sunt mai mici sau egale cu x.

Tabel 7
1 2 3 4 5 6 7
Nota Frecvenţa Frecvenţa Frecvenţa Frecvenţa Frecvenţa Frecvenţa
absolută relativă absolută absolută relativă relativă
cumulată cumulată cumulată cumulată
crescătoare descrescătoare crescătoare descrescătoare
2 1 0,01 1 100 0,01 1
3 1 0,01 2 99 0,02 0,99
4 5 0,05 7 98 0,07 0,98
5 14 0,14 21 93 0,21 0,93
6 16 0,16 37 79 0,37 0,79
7 17 0,17 54 63 0,54 0,63
8 21 0,21 75 46 0,75 0,46
9 15 0,15 90 25 0,90 0,25
10 10 0,10 100 10 1 0,10

Definiţie 14. Se numeşte frecvenţă relativă cumulată descrescătoare a unei valori x


suma tuturor frecvenţelor relative ale valorilor care sunt mai mari sau egale cu x.
Putem interpreta acest tabel în felul următor: pe linia 5 şi coloana 4 ne spune că
există 21 de studenţi au note mai mici sau egale cu 5. Putem interpreta, de asemenea,
datele din coloana 7 că există 0,10 = 10% studenţi cu note de 10, ai pe linia 7 coloana 7
valoarea 0,63 reprezintă 63% din note sunt mai mari sau egale cu 7.

Exemplu:
Într-un cartier al unui oraş distribuţia familiilor după numărul de copii este dată
de tabelul:
xi 0 1 2 3 4 5 6 7
ni 18 30 32 28 22 10 12 11

Pentru analiza datelor utilizăm informaţiile din tabelul următor:


Tabel 8
1 2 3 4 5 6 7 8

156
Elemente de matematică

frecvenţa frecvenţa frecvenţa frecvenţa


frecvenţa
xi ki absolută absolută relativă relativă xi . ki
relativă
crescător descrescător crescător descrescător
0 18 0.110 18.000 163.000 0.110 1.000 0
1 30 0.184 48.000 145.000 0.294 0.890 30
2 32 0.196 80.000 115.000 0.491 0.706 64
3 28 0.172 108.000 83.000 0.663 0.509 84
4 22 0.135 130.000 55.000 0.798 0.337 88
5 10 0.061 140.000 33.000 0.859 0.202 50
6 12 0.074 152.000 23.000 0.933 0.141 72
7 11 0.067 163.000 11.000 1.000 0.067 77
total 163 Total 465

a). Să se calculeze numărul de familii care au cel puţin 4 copii şi cel mult 3 copii.
b). Să se calculeze ponderea familiilor cu 5 copii, ponderea familiilor cu cel mult 4
copii şi ponderea familiilor cu cel puţin 3 copii.
c). Să se calculeze numărul mediu de copii pe familie în acest cartier.
Soluţie:
a). numărul de familii care au cel puţin 4 copii = 55 familii (coloana 5);
numărul de familii care au cel mult 3 copii = 108 familii (coloana 4);
b). ponderea familiilor cu 5 copii = 0.061 * 100 = 6,1% (coloana 3);
ponderea familiilor cu cel mult 4 copii = 0.798 * 100 = 79.8 % (coloana 6);
ponderea familiilor cu cel puţin 3 copii = 0.509 * 100 = 50.9 % (coloana 7);
7

x k i i
465
c. numărul mediu de copii pe familie = i 1
7
  2.852 copii pe familie.
k
163
i
i 1

 Exerciţiu

Repartiţia frecvenţelor absolute ale elevilor olimpici dintr-un total de 100 de şcoli
este dată de tabelul:
x (nr. de olimpici) 2 3 4 5 6 7 8
y (frecvenţa absolută) 5 6 7 10 23 24 25
Se cere să se determine frecvenţele absolute şi relative simple şi cumulate. Să se
determine ponderea şcolilor ce au cel puţin 7 elevi olimpici şi numărul şcolilor cu cel
mult 4 elevi olimpici.

157
Elemente de statistică matematică

5.5. Metoda regresiei

Pentru a evidenţia o relaţie între două sau mai multe seturi de date (două sau
mai multe variabile) este necesar să le studiem cu ajutorul unei analize de corelaţie sau a
unei analize de regresie.
Analiza de regresie este o metodă statistică care permite studierea şi măsurarea
relaţiei care există între două sau mai multe variabile, iar analiza de corelaţie este o
metodă statistică în care se măsoară intensitatea legăturii dintre variabile (Jaba 2000).
În urma unei cercetări ştiinţifice se măsoară pentru diferite caracteristici valori
diferite grupate în seturi de date. Un cercetător doreşte să folosească rezultatele
obţinute pentru a stabili dacă un set de date determină valorile celorlate seturi de date.
Acest lucru este necesar pentru a se constata dacă există legături între valorile măsurate
ale caracteristicilor analizate.
Metoda care se foloseşte pentru a descrie relaţia între valorile a două sau mai
multe seturi de date se numeşte metoda regresiei.
Observaţie: Pearson în anul 1908 a introdus noţiunea de regresie.
Regresiile pot fi liniare dacă legătura între date este de tip liniar sau regresii
neliniare dacă legăturile sunt de tip polinomial, exponenţial, logaritmic.
Vom considera doar două seturi de date obţinute în urma a n măsurători pentru
două caracteristici pe acelaşi eşantion ales  xi  şi  yi  , unde i  1, ..., n .

Putem să scriem matematic că am obţinut puncte de coordonate  xi , yi  şi să le

reprezentăm grafic obţinând o diagramă de împrăştiere.


Această diagramă este intuitivă şi ajută cercetătorul să stabilească după natura
"norului de puncte" dacă există sau nu legături între cele două serii de date. Dacă
graficul are o formă geometrică de cerc sau pătrat legătura între valorile seturilor de
date este minimă (valori independete) (fig. 15b). Dacă are o formă grupată, alungită sau
simetrică faţă de o dreaptă imaginară atunci avem legături între valorile seturilor de
date (fig. 15 a).
Astfel se poate observa dacă creşterea valorilor unei caracteristici se produce în
acelaşi timp cu creşterea sau descreşterea valorilor pentru cealaltă caracterisitică
analizată. Dacă se obţine o legătură între cele două caracteristici cercetătorul va putea
prognoza valorile uneia în raport cu valorile celeilalte pe baza unei ecuaţii de regresie.

158
Elemente de matematică

9 10
7 8
5 6

3 4
2
1
0
-1 0 5 10 0 5 10
Figura 15 - Nor de puncte cu valori dependente (a) şi cu valori independente (b)

În acest scop se consideră una dintre caracteristici ca variabilă independentă


(variabliă predictor) iar cealaltă ca variabilă dependentă (variabilă răspuns).
Regresie liniară
Datele obţinute din măsurători le grupăm într-un tabel astfel încât la fiecare
valoare xi îi corespunde o valoare yi i  1, ..., n (valori măsurate).

x1 x2 x3 xn

y1 y2 y3 yn

Dreapta de regresie are în acest caz forma unei funcţii liniare


f:  , f  x   a x  b  y (valori calculate),

Diferenţa dintre valorile yi (măsurate) şi valorile yi (calculate) cu ajutorul

dreptei de regresie se numeşte eroare.

h  a, b     yi  yi 
n
2
Considerăm funcţia h: 2
 definită
i 1

   yi  axi  b  . Se pune problema determinării valorilor a şi b astfel încât funcţia h


n
2

i 1

să aibă valoare minimă (suma pătratelor diferenţelor dintre yi şi yi să fie cea mai

mică). Acest procedeu de determinare a dreptei de regresie a fost introdus de C. F.


Gauss sub numele de "metoda celor mai mici pătrate".
Punctul de extrem al unei funcţii de două variabile se determină din sistemul cu
ajutorul derivatelor parţiale:
 n 
  y  a  x  b 2   0,
 h
  a, b   0, 
 i 1 i i
a
 a 
 echivalent cu 
 h  a, b   0.  n 2

 b
 
  yi  a  xi  b    0.
 i 1 b
După calcule obţinem:
 n
 
 i 1

2axi2  2 xi yi  2bxi  0,
 n După efectuarea calculelor obţinem sistemul:


  2b  2 yi  2axi   0.
 i 1
159
Elemente de statistică matematică

 n 2 n n

 a 
 i 1
xi  b 
i 1
xi 
i 1

xi yi ,
 n n
a x  n  b 
 
 i 1
i
i 1

yi .

Acest sistem este întotdeauna compatibil determinat pentru valori diferite ale
lui xi . În concluzie punctul  a, b  este un punct de extrem pentru funcţia

h  a, b     yi  yi  .
n
2

i 1

Determinarea coeficienţilor a şi b conduce la determinarea dreptei a x  b  y

ce liniarizează optim datele măsurate şi reprezintă ecuaţia dreptei de regresie a lui y în


raport cu x.
Coeficientul a se numeşte coeficientul de regresie (panta dreptei de regresie) iar
coeficientul b se numeşte interceptor.
Interpretare: Valoarea pozitivă a coeficientului a arată că legătura dintre cele
două seturi de date este directă (o valoare negativă implică o legătură indirectă) şi scoate
în evidenţă gradul de dependenţă între valorile seturilor de date şi anume: o creştere a
lui xi cu o unitate implică o creştere a lui yi cu a unităţi.

Regresie neliniară
Al doilea procedeu este să căutăm o funcţie polinomială de forma (Burdujan,
2006):

f : R  R, f x   an x n  an1 x n1  an2 x n2  ...  a1 x1  a0 x 0 ,

ai cărei coeficienţi minimizează expresia:

 y  a x 
n
h a0 , a1 ,...,an  
2
i n
n
 an1 x n1  an2 x n2  ...  a1 x1  a0 x 0 .
i 0

În loc de a găsi o dreaptă de regresie se va găsi o curbă de regresie


corespunzătoare ecuaţiei polinomiale.
În caz particular alegem puterea a doua pentru polinom şi obţinem o curbă de
regresie parabolică: f : R  R, f x   a2 x 2  a1 x  a0 cu graficul o parabolă.

Coeficienţii se vor determina după rezolvarea următorului sistem de ecuaţii:


 n n n


na0  a1 xi  a2 xi   2
 yi ,
 i 1 i 1 i 1
 n n n n
 0
a xi  a1  xi
2
 a2  x 3
i   xi yi ,
 i 1 i 1 i 1 i 1
 n n n n

 i 1
 
a0 xi2  a1 xi3  a2 xi4 
i 1

i 1
i 1
xi2 yi ,

 n  a x 
m
şi vor minimizează valoarea expresiei: h a0 , a1 , a2  
2
i 2
2
 a1 x1  a0 .
i 0

160
Elemente de matematică

Exemplu:

Într-o cercetare s-au numărat păstăile de pe o plantă şi s-a măsurat înălţimea


plantei respective. S-au obţinut următoarele rezultate:
Înălţimea plantei
(cm)
25 30 40 50 55
Număr de păstăi pe
plantă (buc.)
5 9 8 10 11

Să se determine ecuaţia dreptei de regresie a înălţimii plantei în raport cu


numărul de păstăi pe plantă.
Soluţie:
Se construieşte tabelul următor:

xi yi xi yi xi2 yi  0.15  xi  2.6 yi  ~


yi  yi  ~yi 2
1 25 5 125 625 6.35 -1.35 1.82
2 30 9 270 900 7.10 1.90 3.61
3 40 8 320 1600 8.60 -0.60 0.36
4 50 10 500 2500 10.10 -0.10 0.01
5 55 11 605 3025 10.85 0.15 0.02
suma 200 43 1820 8650 5.83
media 40 8.6 364 1730

8650  a  200  b  1820,


Obţinem sistemul  , aplicăm metoda reducerii de unde
200  a  5  b  43.
obţinem sistemul echivalent:

8650  a  200  b  1820,



8000  a  200  b  1720.

100 10 43  30 13
şi găsim valoarile lui a    0.1538 şi b    2.6
650 65 5 5

Dreapta de regresie are ecuatia y  0.15  x  2.6 , iar h  a, b   5.83 .

Interpretare:

Valoarea pozitivă pentru coeficientul a indică o legătură directă între înălţimea


plantei şi numărul de păstăi pe plantă. De asemenea, scoate în evidenţă gradul de
dependenţă între variabile şi anume la o creştere cu o unitate a înălţimii plantei, numărul
de păstăi pe plantă creşte cu 0.15 unităţi.

161
Elemente de statistică matematică

 Exerciţii

1.Să se determine ecuaţia de regresie liniară pentru următoarele seturi de date şi să


se arate legătura între variabilele X şi Y :

x 0.25 0.35 0.46 0.54 0.57


y 5 9 8 10 11

2.Să se determine ecuaţia de regresie liniară pentru următoarele seturi de date şi să


se arate legătura între variabilele X şi Y :

x 33 29 22 12 9
y 144 81 49 36 9

5.6. Metoda corelaţiei


Intensitatea legăturii ce apare între două variabile X şi Y cu valori
corespunzătoare xi şi yi ( i  1, , n ) se poate măsura cu ajutorul coeficientului de
corelaţie şi a raportului de corelaţie. Metoda prin care analizăm intensitatea legăturii
este cunoscută ca metoda corelaţiei.

Definiţie 32. Fie X şi Y două variabile ce admit medie. Se numeşte corelaţie a celor două
variabile:

cov  X , Y   M  X  M  X    Y  M Y   .

Coeficientul de corelaţie poate fi calculat dacă sunt îndeplinite două condiţii


importante: variabilele să fie definite de acelaşi eşantion iar cel puţin una dintre ele să
aibă repartiţie normală. Dacă datele nu au o repartiţie normală se procedeaza fie la
normalizarea lor sau utilizarea unor coeficienţi de corelaţie neparametrici (M.
Gorunescu, 2002).
Observaţii:
1. Covarianţa este o măsură a variaţiei simultane a celor două variabile.
2. Dacă variabilele X, Y sunt independente atunci cov X , Y   0 . Reciproca nu este

adevărată adică dacă două variabile au corelaţia 0 nu rezultă că sunt


independente.
3. Daca covarianţa este pozitivă variabilele X şi Y cresc sau descresc împreună
(datele sunt corelate).

Coeficientul de corelaţie a două variabile (numit coeficientul lui Pearson) este


calculat astfel:
162
Elemente de matematică

 x  x    yi  y 
n

i
r i 1
.
 x  x     yi  y 
n n
2 2
i
i 1 i 1

Coeficientul lui Pearson este adimensional şi se încadrează în intervalul 1  r  1 .


În practică se poate folosi formula scrisă sub forma:

   . 1
n n n

x  y i i

n
x i
 y i

r i 1 i 1 i 1

  x  n  x      y  n  y  
 n
1
2   1 n
 2 n
2
n 2

i i i i
i 1   i 1  i 1 i 1

Interpretare:
1. dacă coeficientul de corelaţie r ia o valore apropiată de -1 indică o corelaţie
negativă puternică, adică valorile unei variabile vor scade puternic când valorile ceilalte
variabile vor creşte;
2. dacă coeficientul de corelaţie r ia o valore apropiată de +1 indică o corelaţie
pozitivă puternică, adică valorile unei variabile vor creşte puternic când valorile ceilalte
variabile cresc.
Exemplu:
Se consideră datele obţinute de un fermier la un soi de porumb de pe 10 parcele
agricole privind două variabile suprafaţa (hectare) şi producţia la porumb (tone).

xi
5.5 6.7 8.1 9.5 7.2 5.3 9.3 4.1 7.1 3.2
(ha)
yi
1.56 1.64 1.77 1.87 1.61 1.49 1.98 1.32 1.71 0.99
(tone)

Să se calculeze coeficientul de corelaţie r.


Elementele din formula pentru r sunt calculate cu ajutorul tabelului

x (ha) y (tone) x*y x2 y2


1 5.50 1.56 8.58 30.25 2.43
2 6.70 1.64 10.99 44.89 2.69
3 8.10 1.77 14.34 65.61 3.13
4 9.50 1.87 17.77 90.25 3.50
5 7.20 1.61 11.59 51.84 2.59
6 5.30 1.49 7.90 28.09 2.22
7 9.30 1.98 18.41 86.49 3.92
8 4.10 1.32 5.41 16.81 1.74
9 7.10 1.71 12.14 50.41 2.92
10 3.20 0.99 3.17 10.24 0.98

163
Elemente de statistică matematică

suma 66.00 15.94 110.29 474.88 26.13


1
110  66 15.94
r 10  0.9545
 1 2   1 2 
 474.88  10  66     26.13  10 15.94  
   
Interpretare:
Valoarea obţinută pentru coeficientul r este 0.9545 apropiată de valoarea 1 de unde
tragem următoarea concluzie: variabilele suprafaţa cultivată şi producţia obţinută sunt
puternic (pozitiv) corelate.

5.7. Estimarea parametrilor

Legea de repartiţie a unei variabile X exprimată printr-o funcţie este cunoscută


dacă sunt cunoscuţi anumiţi parametrii (parametrul p în cazul distribuţiei binomiale,

medie  şi dispersia  în cazul distribuţiei normale).


2

Estimaţia reprezintă operaţia de determinare a parametrilor statistici în scopul


cunoaşterii unor parametrii necunoscuţi sau pentru determinarea legii de repartiţiei care
caracterizează varibaila.
Statisticile sunt funcţii de variabile folosite pentru estimarea parametrilor unei
populaţii. În acest caz se numesc estimatori. O valoare calculată a estimatorului la
nivelul eşantionului observat se numeşte estimaţie a parametrului.
Definiţie 15. Se numeşte inferenţă statistică procedeul care permite trecerea de la o
valoare statistică calculată pe baza datelor obţinute dintr-un eşantion la valoarea
adevărată necunoscută.
Parametrii cei mai importanţi folosiţi pentru a caracteriza eşantioane de date
extrase din anumite populaţii sunt media şi dispersia. Valorile acestor parametrii nu
coincid, în general, cu cei ai întregii populaţii şi din această cauză vom considera nişte
estimări ale parametrilor respectivi pentru întreaga populaţie pe baza datelor cunoscute
din eşantion.
Fie o variabilă aleatoare X care reprezintă o proprietate analizată în cadrul unui
*
experiment pentru o populaţie oarecare şi x1 , x2 , , xn valorile pentru X variabila de

selecţie. Presupunem că pentru variabila teoretică se cere să se determine media  sau

dispersia  2 .

Definiţie 16. Se numeşte estimator al parametrului medie  , o funcţie ̂ , care depinde

de rezultatul selecţiei şi care aproximează bine parametrul căutat.

164
Elemente de matematică

Se numeşte estimator al parametrului dispersie  2 , o funcţie s 2 , care depinde de

rezultatul selecţiei şi care aproximează bine parametrul căutat.


Metodele de estimare sunt variate dintre care amintim metoda verosimilităţii
maxime (Bejan, 1976) (Iancu, 1996), metoda minimului lui  2 , metoda momentelor şi

metoda celor mai mici pătrate (Stoleriu, 2010).

Estimarea poate fi efectuată :


- punctual - dacă parametrul "  " se estimează printr-o valoare determinată de
un estimator cu precizii diferite;
-cu interval de încredere - dacă pentru parametrul estimat "  " se construieşte
un interval 1 ,  2  care cu o probabilitate dată P include valoarea lui reală.

5.7.1. Estimarea punctuală a mediei şi dispersiei


În continuare vom prezenta doar estimările punctuale ale mediei  şi ale

dispersiei  2 precum şi estimările prin metoda intervalelor de încredere.

O aproximare a mediei  a unei populaţii poate fi media de selecţie x ceea ce

conduce la estimatorul ˆ  x al lui  adică:

x1  x2   xn
ˆ  x 
n

unde valorile x1 , x2 , , xn sunt valorile observate ale selecţiei iar n este volumul acesteia.

Similar, un estimator ˆ al dispersiei  al unei populaţii este dispersia de


2 2

2
selecţie s :

1
ˆ 2  s 2     xi  x  pentru n  30,
n
2

n i 1

1
   xi  x  pentru n  30.
n
ˆ 2  s 2 
2

n  1 i1

5.7.2. Estimarea prin intervale de încredere


Precizia necorespunzatoare a estimarii punctuale datoarată necunoaşterii
domeniului de variaţie a parametrului estimat constituie un dezavantaj al metodei
anterioare.
Estimarea prin interval de încredere constă în determinarea unui interval în care,
cu o probabilitate dată, acoperă valoarea reală a parametrului.

165
Elemente de statistică matematică

Deoarece estimarea parametrului  se face pe baza unui estimator notat ˆ care


reprezintă o variabilă aleatoare, este necesar să cunoaştem legea de distribuţie a
estimatorului şi definirea limitelor intervalului.

Definiţie 17. Fie o selecţie x1 , x2 , , xn dintr-o populaţie a cărei funcţie de repartiţie

depinde de un parametru  . Se numeşte interval de încredere pentru parametrul  , cu


coeficient de încredere 1   , orice interval  t1 , t2  , în care t1 , t2 sunt determinaţi astfel

încât P  t1    t2   1   şi se numesc limitele de încredere a intervalului, respectiv,

limita inferioară t1 şi limita superioară t2 .

Intervalul de încredere va acoperi valorile parametrului cu o probabilitate dată


(cu un coeficient de risc  având cel mai des valorile 0.05 , 0.01 , 0.001 ).
Acest nivel de semnificaţie, arată care este şansa ( 1     100% ) ca intervalul de

încredere să acopere parametrul  . Cu cât valoarea lui  este mai mică cu atât şansa
este mai mare.
Modul de lucru pentru determinarea intervalului de încredere este următorul: se
pleacă de la o estimaţie a valorii parametrului pentru un eşantion al populaţiei şi se
determină extremităţile intervalului de încredere.

Procedeu de determinare a intervalului de încredere pentru media variabilei aleatoare


cu repartiţie normală, cu dispersia cunoscută (  2 ), având nivelul de semnificaţie :
În acest caz construirea intervalului de încredere se bazează pe variabila normală
x 
standard z  şi considerăm x media de selecţie şi  media populaţiei.

n
Pas. 1. Se calculează valoarea x ;
Pas.2 Se calculează valoarea z ce îndeplineşte condiţia (folosind anexa 2):
2   z 1 .

Pas. 3. Se determină intervalul de încredere:

   
I  x  z ,xz .
 n n
Interpretare:
Cu o probabilitate de 1   100% se poate considera că valorile parametrului

 sunt acoperite de intervalul de încredere determinat. Există un risc de   100 % ca


valorile parametrului  să nu aparţină acestui interval.

166
Elemente de matematică

Exemplu:

1. Producţia de trifoi de pe 10 loturi (în tone) a fost: 0.8; 1.3; 1.5; 1.7; 1.7; 1.8;
2.0; 2.0; 2.0 şi 2.2. Să se determine un interval de încredere pentru media de selecţie cu
nivel de încredere   0.05 ştiind că   0.46 .

Soluţie:

Pas. 1. Calculăm media estimată a eşantionului ales:


1
x  0.8  1.3  1.5  1.7  1.7  1.8  2.0  2.0  2.0  2.2   1.7 .
10
Pas. 2. Calculăm 2    z   1    1  0.05  0.95 rezultă că   z   0.475 .

Analizăm tabelul din anexa 1 şi căutăm valoarea funcţiei 0.475. O găsim pe linia 1.9 şi
coloana 6, deci z  1.96 .

 0.46 0.46
Din ipoteză cunoaştem valoarea   0.46 şi    0.145 .
n 10 3.162

Pas. 3. Intervalul de încredere este calculat în modul următor:

   
x  z , xz   1.7  1.96  0.145, 1.7  1.96  0.145 
 n n
 1.7  0,2842, 1.7  0.2842  1.4158,1.9842 .

Deci I  1.4158, 1.9842 tone.

Interpretare:
Cu o probabilitate de 95% se poate considera că producţia de trifoi de pe 10
loturi (în tone) este acoperită de intervalul I  1.4158, 1.9842 . Există un risc de 5%

ca media producţiei de trifoi să nu aparţină acestui interval.


2. Să se estimeze printr-un interval de încredere, cu nivel de încredere   0.05 ,
producţia medie a unui soi de plante medicinale, ştiind că variabila aleatoare X
(producţie medie pe parcele de 10 m2) are repartiţie normală cu abaterea standard de
  1.84 . Se mai ştie că producţiile medii de pe 8 parcele (de 10 m2) sunt: 8 kg, 10 kg,
12 kg, 8 kg, 11 kg, 14 kg, 10 kg, 12 kg.
Soluţie:
Pas. 1. Calculăm media estimată a eşantionului ales:

x
1
8  10  12  8  11  14  10  12  10.625 .
8
Pas. 2. Analog ca în exemplul anterior se calculează valorea z  1.96 .
Pas. 3. Intervalul de încredere este:

167
Elemente de statistică matematică

     1.84 1.84 
x  z , xz   10.625  1.96  8 , 10.625  1.96  8  
 n n  

 10.625  1.96  0.65, 10.625  1.96  0.65 =


 10.625 1.274, 10.625  1.274  9.351, 11.899.
Deci I  9.351, 11.899 kg.

Interpretare:
Cu o probabilitate de 95% se poate considera că media producţiei de plante
medicinale pe parcele de 10 m2 este acoperită de intervalul I  9.351, 11.899 .

Există un risc de 5% ca media producţiei să nu aparţină acestui interval.

Procedeu de determinare a intervalului de încredere pentru medie când dispersia  2


este necunoscută, având nivelul de semnificaţie :
În acest caz construirea intervalului de încredere se bazează pe distribuţia
x 
student t  cu n  1 grade de libertate şi considerăm x media de selecţie şi 
ˆ
n
media populaţiei.
În acest caz dispersia  2 este necunoscută şi din această cauză ea trebuie
estimată.
1 
ˆ 2        xn  x   .
2 2
x x
n 1 
1

Intervalul de încredere se determină în mod asemănător cu problema


anterioară:

 ˆ ˆ 
I   x  t , x  t .
 2
;n1
n 2
;n1
n
Exemplu:
Fie un eşantion de volum n  5 firme dintr-un oras T cu cheltuieli în luna
august X : 10, 8, 12, 6, 4. (mii lei). Să se estimeze prin interval de încredere cheltuielile
firmelor din oraşul T , considerând un nivel de risc   0,05 .

Trebuie să observăm că volumul este mai mic decât 30 şi că varianţa este


necunoscută.

 ˆ ˆ 
I   x  t , x  t .
 2
;n1
n 2
;n1
n
n

x
i 1
i
10  8  12  6  4 40
x    8.
n 5 5
168
Elemente de matematică

 x  x
n

10  8  8  8   12  8    6  8    4  8 
2
2 2 2 2 2
i
ˆ  i 1
 de unde
n 1 4

ˆ  8  2.83 .
Pentru a calcula valoarea t   t 0.025;4 se utilizeaza tabelul din Anexa 2. t0.025;4  2.776 ,
;n1
2

de unde obţinem pentru intervalul de încredere următoarele valori:

 2.83 2.83 
I  8  2.776  , 8  2.776  .
 2.23 2.23 
Adică
I  8  2.776 1.26, 8  2.776 1.26 .

I  8  3.497, 8  3.497 .

I   4.503,11.497 .

Interpretare:
Cu o probabilitate de 95% se poate considera că firmele din oraşul T vor
cheltui în luna august o sumă ce se va situa în intervalul I   4.503,11.497 mii lei. Există

un risc de 5% ca media cheltuielilor să nu aparţină intervalului determinat.

5.8. Testarea ipotezelor statistice

Scopul testării ipotezelor statistice este acela de a verifica dacă valoarea unui
parametru (medie, dispersie etc.) este egală cu valoarea estimată a acestuia calculată
utilizând datele de la un eşantion reprezentativ.
Înainte de a continua considerăm următorul exemplu.
Un fermier doreste să cumpere o tonă de seminţe de porumb de un anumit tip
cu condiţia ca producţia obţinută în medie la hectar să fie de 500kg
(   0  500 ). Vom considera ipoteză nulă 0  500 . Fermierul nu va cumpăra
cantitatea propusă dacă testul statistic arată că valoarea reală   1  500 pentru că

acest lucru indică o producţia medie la hectar mai mică decât valoarea stabilită.
Valoarea   1  500 se numeşte ipoteză alternativă a testului.
Dacă testul statistic indică ipoteză nulă adevărată atunci această ipoteză este
acceptată, în caz contrar ipoteza va fi respinsă.
Totuşi există un risc ca decizia luată să fie greşită. Vom nota prin 
probabilitatea de a respinge ipoteza nulă când de fapt aceasta este adevărată. Această
valoare  se numeşte nivelul de semnificaţie al testului.

169
Elemente de statistică matematică

Dacă alegem aleator datele obţinute de pe 25 hectare cultivate cu porumbul


dorit obţinem un eşantion de volum n  25 . Producţia medie obţinută la hectar este
x  495 kg şi abaterea pătratică medie este   10 kg.
Se pune problema dacă diferenţa 500  495  5kg este datorată anumitor

factori aleatori (erori de măsurare etc.) sau dacă este semnificativă pentru populaţia
studiată.
Presupunem că producţia medie obţinută la hectar are o variabilă X cu

distribuţie normală X N   ,  2  . În cazul nostru dacă   0  500 atunci variabila

aleatoare
X  0
Z are o distribuţie N  0,1 .

n
Trebuie să alegem nivelul de semnificaţie   0.05 . Dacă ipoteza nulă este
adevărată probabilitatea ca o valoare calculată z a variabilei Z să fie mai mică decât
valoarea critică LI este   0.05 . Deci dacă pentru selecţia pe care am făcut-o

observăm că valoarea z calculată este mai mare decât valoarea critică atunci acceptăm
ipoteză nulă.
O ipoteză statistică este întotdeauna o presupunere asupra populaţiei şi nu
asupra selecţiei. Presupunerea făcută poate fi adevărată sau falsă şi de aceea se
numeşte ipoteză.
Considerăm o variabilă X a cărei funcţie de repartiţie depinde de un parametru
 şi vom verifica ipoteza conform căreia parametrul  este egal cu  0 . Putem
presupune că în afară de valoarea  0 putem alege şi alte valori 1 ,  2 ,  3 pentru

parametrul analizat care pot fi adevărate.

Definiţie 18. Ipotezele H 0 :   0 , H1 :   1 , H 2 :   2 , ... se numesc admisibile.

Numim ipoteza H 0 :   0 ipoteza nulă. Orice altă ipoteză care se opune lui H 0 se va

numi ipoteză alternativă H1 :   0 , H1 :   0 , H1 :   0 .

Prin ipoteză nulă se admite că nu există diferenţe semnificative între valorile


comparate.
Metodele de verificare a ipotezelor statistice se numesc teste statistice.
Testele care se referă la ipoteze ce privesc parametrii cu o lege de distribuţie
cunoscută se numesc teste parametrice.
Exemple: testul Student ce vizează compararea mediilor a două populaţii care
urmează o distribuţie normală, testul Fisher sau testul  pătrat.

170
Elemente de matematică

Testele care se efectuează fără să se presupună cunoscută forma distribuţiei se


numesc teste neparametrice.
Exemple: testul Wilcoxon folosit pentru a verifica dacă există diferenţe
semnificative între două populaţii, testul Mann-Whitney folosit pentru a verifica
existenţa egalităţii între două populaţii.
Vom considera cazul a două ipoteze admisibile:
ipoteza nulă H 0 :   0 şi

ipoteza alternativă H1 :   0 .

Definiţie 19. Intervalul dintr-o distribuţie de selecţie a unei variabile considerate în care
este respinsă ipoteza nulă se numesţe interval de respingere.

Intervalul în care este acceptată, printr-un test, ipoteza nulă se numeşte interval de
acceptare (interval de încredere) cuprins între , limita inferioară t1 şi limita superioară

t2 .

Figure 16 - Funcţia de densitate a distribuţiei Student

Într-un test (test bilateral) în care ipotezele sunt ipoteza nulă H 0 :   0 şi

ipoteza alternativă H1 :   0 intervalul de respingere a ipotezei nule corespunde la

două subintervale delimitate la un capăt de o valoare critică iar la celălalt de infinit


 , t  t ,  
1 2
(fig. 16).

Algoritm de lucru pentru testarea unei ipoteze (Jaba, 2000):


Pas. 1 - se formulează ipotezele;
Pas. 2. - se alege şi se calculează un test statistic în funcţie de distribuţia de
selecţie a variabilei considerate;
Pas. 3. - se alege un prag de semnificaţie  pentru test;
Pas. 4. - se compară valoarea calculată a testului cu valoarea teoretică;
171
Elemente de statistică matematică

Pas. 5 - se ia decizia de acceptare sau de respingere a ipotezei admise pe baza


eşantionului observat.

5.8.1. Testul F aplicaţie în EXCEL


Dorim să analizăm cu ajutorul testului Fisher dacă varianţa a două populaţii este
egală.

An de studiu Studenti Studente


2005 - 2006 22 26
2006 - 2007 28 29
2007 - 2008 31 30
2008 - 2009 33 40
2009 - 2010 48 49
2010 - 2011 52 50
2011 - 2012 55 51

Am ales două selecţii de studenţi de la o facultate, din diferiţi ani de studiu, care
au luat examenul la matematică (studenţi şi studente). Aleg un nivel de risc   0.05 şi
facem 7 observaţii. Vom utiliza testul Fisher pentru examinarea varianţelor a două
populaţii (dacă sunt egale sau nu).

Am grupat datele în studenţi cu varianţa  12 şi studente cu varianţa  22 .

Ipoteza nulă: H 0 : 12   22

Ipoteza alternativă: H1 : 12   22

Etapele testării:
1. Alegem un nivel de risc  echivalent cu un nivel de semnificaţie 1   .
2. Alegem câte o selecţie din fiecare populaţie  x1 , x2 , , xn  şi  y1 , y2 , , yn  .

 12
3. Construim un interval de încredere pentru la nivelul de semnificaţie
 22
1 .
Dacă valoarea 1 se găseşte în intervalul de încredere atunci acceptăm ipoteza
H 0 (varianţele sunt egale) dacă nu respingem ipoteza H 0 (varianţele sunt diferite).

Aplicaţia folosită este MS EXCEL foarte utilă în activităţi de analiză statistică a


datelor. Pentru aceasta avem nevoie să fie instalat pachetul suplimentar numit Data
Analysis.
Executam comanda pentru testul F din Data Analysis.

172
Elemente de matematică

Selectăm opţiunea F-Test Two-Sample for Variances.

Introducem domeniul de unde aplicaţia să obţină informaţiile de analizat


precum şi celule în care să apară rezultatul testului. Astfel la Variable 1 Range domeniul
ce conţine primul set de date, la Variable 2 Range domeniul ce conţine al doilea set de
date, la Alpha introducem nivelul de semnificaţie dorit, la Output Range introducem
celula unde aplicaţia să introducă rezultatele.

În acest exemplu am ales pragul de risc de 0.05, dar el poate fi modificat.


Obţinem rezultatul: pe linia Mean valorile mediilor celor două seturi de date, pe
linia Variance valorile dispersiilor celor două seturi de date, la linia Obsevations numărul
măsurătorilor făcute, linia df conţine gradele de libertate.

Observaţie:
Este bine ca valoarea obţinută la varianţa variabilei 1 să fie mai mare decât
varianţa de la variabila 2. În exemplul utilizat 168.95 > 119.23.
Programul MS. Excel calculează valoarea F ca fiind raportul celor două varianţe

 12
. Dacă valoarea F este mai mare decât valoarea critică (F critical) respingem
 22
ipoteza nulă.

173
Elemente de statistică matematică

În exemplul ales valoarea F =1.41 < F critical = 4.28, deci acceptăm ipoteza nulă
precum că varianţele celor două populaţii sunt egale.

5.8.2. Testul t - aplicaţie în EXCEL


Dorim să analizăm cu ajutorul testului Student dacă mediile a două populaţii
sunt egale. Alegem
ipoteza nulă H 0 : 1  2 şi

ipoteza alternativă H1 : 1  2 .

Etapele testării:
1. Alegem un nivel de risc  echivalent cu un nivel de semnificaţie 1   .
2. Alegem câte o selecţie din fiecare populaţie  x1 , x2 , , xn  şi  y1 , y2 , , yn  .

Testăm dacă cele două selecţii provin din populaţii de varianţe egale folosind
testul Fisher:
ipoteza nulă H '0 : 12   22 şi

ipoteza alternativă H '1 : 12   22 .

3. Dacă este admisă ipoteza H '0 atunci construim un interval de încredere

pentru 1  2 în cazul în care 12   22 .

Dacă este admisă ipoteza H '1 atunci construim un interval de încredere pentru

1  2 în cazul în care 12   22 .

an de studiu studenti studente


2005 - 2006 22 26
2006 - 2007 28 29
2007 - 2008 31 30
2008 - 2009 33 40
2009 - 2010 48 49
2010 - 2011 52 50
2011 - 2012 55 51
Dacă valoarea 0 se găseşte în intervalul de încredere atunci acceptăm ipoteza
H 0 (mediile sunt egale) dacă nu respingem ipoteza H 0 (mediile sunt diferite).

Am ales două selecţii de studenţi de la o facultate, din diferiţi ani de studiu, care
au luat examenul la matematică (studenţi şi studente). Aleg un nivel de risc   0.05 şi
facem 7 observaţii.
Din exemplul anterior ştim că cele două seturi de date au varianţe egale:
Executam comanda pentru testul t din Data Analysis pentru varianţe egale.

174
Elemente de matematică

Selectăm opţiunea t-Test: Two-Sample Equal Variances.

Introducem domeniul de unde aplicaţia să obţină informaţiile de analizat precum


şi celule unde să apară rezultatul testului.

În acest exemplu am ales pragul de risc de 0.05, dar el poate fi modificat.


Şi obţinem rezultatul:

Programul Excel calculează valoarea t Stat. Dacă valoarea t Stat se găseşte în


intervalul definit  t critical two  tail , + t critical two  tail  atunci acceptăm ipoteza

nulă.
În exemplul ales valoarea t Stat =-0.1336 > t critical = - 2.1788, deci acceptăm
ipoteza nulă precum că mediile celor două populaţii sunt egale.
175
Elemente de statistică matematică

Observaţie:
În alte aplicaţii informatice concluzia se poate trage utilizând doar valoarea
critică probabilă pv afişată în linia P T  t  two tail  0.8959 astfel: dacă   pv atunci

acceptăm ipoteza nulă H 0 iar dacă   pv atunci acceptăm ipoteza alternativă H1 .

Pentru alte soluţii software în care se pot realiza aplicaţii practice ale testelor
statistice sau problemelor matematice vă recomand programele GNUPLOT (Aldea,
2006), WxMaxima (Bunu, 2012), MATLAB (Stoleriu, 2010), şi binenţeles: SPSS, R sau
Statistica.

 Exerciţii
1. În scopul estimării producţie unei cereale se cultivă 8 parcele a 10 m2 şi se
obţine media aritmetică a producţiei de x  10 kg şi o abatere standard de   500 g .

Să se determine intervalul de încredere pentru producţia medie cu nivel de încredere de


  0.05 .
2. Să se determine greutatea medie a unei pâini cu nivel de încredere de
  0.02 , ştiind că pe un eşantion de 500 de pâini s-a obţinut x  500 g şi
  15.25g .
3. Studiind proporţia de bărbaţi si de femei ce devin absolvenţi la o universitate
s-au cercetat 150 de absolvenţi şi am găsit că 69 dintre aceştia sunt femei. Se cere să se
determine intervalul de încredere al proporţiei de bărbaţi cu un nivel de semnificaţie de
  0.05 .

176

S-ar putea să vă placă și