Documente Academic
Documente Profesional
Documente Cultură
STATISTICA MATEMATICA
It is a capital mistake
to theorize
before one has data.
Sir Arthur Ignatius Conan Doyle
(1859 – 1930, Scottish physician and writer,
2
Rolul statisticii in cunoasterea umana
Statistica a fost folosita pentru rezolvarea unor nevoi practice ale vietii sociale din cele mai vechi timpuri
si pana astazi, o regasim atat in primele forme de evidenta a populatiei si bunurilor materiale, cat si in
rezolvarea celor mai variate si complexe probleme de conducere.
In tara noastra statistica oficiala reprezentata de Institutul National de Statistica este una dintre cele
mai vechi institutii publice. Se poate spune chiar ca ea s-a creat odata cu statutul roman unitar la nici o
jumatate de an de la actul istoric din 24 ianuarie 1859.
Statistica este stiința colectării și înțelegerii datelor ce caracterizează fenomenele de masa, un
instrument de cunoaştere a particularităților de volum, structură și dinamică a fenomenelor și proceselor
economico-sociale. Ea se ocupa cu aplicarea metodelor matematice pentru prelucrarea si extragearea
informatiilor statistice.
În ce privește metodele statistice, B. N. Gupta arăta faptul că acestea „sunt inductive prin natura lor,
deoarece generalizările rezultă din observații individuale. [...] Ele pun în evidență numai comportamentul
tipic al tuturor obiectelor luate în studiu, dar nu descriu comportamentul elementelor luate separat,
deoarece există o stabilitate mai mare în colectivitate decât în individ” 1 .
Pentru ca investigația statistică să-și dovedească într-adevăr aplicabilitatea, se impune existenţa
următoarelor două condiţii în legătură cu fenoemenele studiate:
Cea mai importantă lege statistică este legea numerelor mari, formulată pentru prima dată de către
Jacob Bernoulli (1654-1705) în celebra sa lucrare Ars Conjectandi. Legea numerelor mari a dobândit în
timp rolul unui principiu fundamental al cercetării statistice, care afirmă că într-un număr suficient de mare
de cazuri individuale, influenţele diverşilor factori se pot compensa, astfel încât să se ajungă la o anumită
valoare tipică, reprezentativă pentru întreg ansamblul studiat.
Un loc important în cercetarea statistică trebuie acordat etapei de planificare a acesteia.
Cei care investighează trebuie să fie conştienţi de limitele caracteristice cercetărilor statistice. Astfel de
limite pot fi, de exemplu, cele determinate de indisponibilitatea tuturor datelor statistice necesare.
3
Concepte de bază folosite în statistică
Colectivitatea si unitatea statistică (Populatia)
Populatia statistică reprezintă o mulţime de elemente a căror observare este necesară pentru
obţinerea informaţiilor statistice dorite.Prin observarea statistică a acestor elemente, se obțin date
statistice a căror prelucrare poate genera informaţii statistice de interes.
Elementele unei colectivităţi statistice sunt denumite unităţi statistice și ele pot fi simple, adică
indivizibile (de exemplu, studenții din cadrul unei universități, angajații din cadrul unei firme, cetățenii cu
drept de vot dintr-o anumită localitate, produsele obținute pe o linie de fabricație etc.) sau complexe,
adică ansambluri organizate de unități simple (de exemplu, grupele sau semigrupele de studenți dintr-o
facultate, colectivele de muncă dintr-o întreprindere, familiile sau gospodăriile dintr-o localitate, loturile
de produse fabricate într-o unitate industrială etc.).
Media aritmetica
Media aritmetică este valoarea reprezentativă statistic din punctul de vedere al sumei valorilor
înregistrate. Concret, aceasta înseamnă că prin înlocuirea tuturor valorilor înregistrate cu media lor
aritmetică, suma lor nu se modifică. Media aritmetică simplă exprimă un nivel mediu, anihilând abaterile
individuale, netipice. Ea este cuprinsă între valoraea cea mai mare şi cea mai mică.
Dacă în urma unei selecţii apar valorile distincte atunci media aritmetică este
dată de formula:
care se mai numeşte medie aritmetică ponderată. Numărul care arată de câte ori se repetă fiecare valoare
(nj) este "ponderea" valorii respective.
Observaţia 1. Media aritmetică are dezavantajul că este sensibilă la valori extreme, iar dacă termenii sunt
prea "împrăştiaţi", tinde să devină o valoare nereprezentativă. Media aritmetică este o valoare lipsită de
conţinut dacă elementele sunt deosebite din punct de vedere calitativ, caz în care este mai util să se facă
medii parţiale pentru fiecare tip de colectivitate.
Observaţia 2. Dacă avem mai multe medii, fiecare referindu-se la o anumită categorie, fiecare medie va
fi ponderată în funcţie de importanţa categoriei sale.
Aplicatie :
1. Numarul angajatilor in regim part-time, pentru 9 firme, selectate aleator, se prezinta astfel:
4 10 12 9 16 18 18 22 8
STATISTICA DESCRIPTIVA
În urma centralizării datelor statistice se obţin statisticile primare, iar prin prelucrarea, cu ajutorul
tehnicilor de calcul statistice, a statisticilor primare, se obţin statisticile derivate.
Statisticile primare se exprimă în unităţile de măsură specifice variabilelor studiate (bucăţi,
kilograme, metri etc.). Cu ajutorul lor se pot face doar aprecieri globale privind fenomenele studiate.
Statisticile derivate sunt necesare pentru evidenţierea tendinţelor specifice
5
(care interesează în cercetările întreprinse) manifestate la nivelul colectivităţilor statistice studiate.
Statistica inferenţială
Statistica modernă s-a dezvoltat mai ales prin apariţia şi dezvoltarea metodelor de investigare
parţială. Metodele de investigare statistică parţială sunt metode ale aşa-numitei statistici inferenţiale.
Statistica inferenţială îşi propune să caracterizeze colectivitatea statistică studiată prin observarea
doar a uneia sau mai multor părţi ale acesteia, denumite eşantioane. Bineînţeles, o astfel de caracterizare
nu poate fi decât una estimativă, valorile statistice obţinute la nivel de eşantion statistic fiind denumite
estimatori statistici.
Datele statistice şi scalele de identificare și/sau măsurare a acestora
Pentru a fi complete, datele statistice trebuie să conţină următoarele elemente:
noţiunea, care precizează fenomenul sau procesul la care se referă data statistică;
identificatorii – de spaţiu, de timp etc.;
valoarea numerică însoţită, dacă este cazul, de unitatea de măsură.
Datele statistice sunt purtătoare de informaţii statistice, acestea din urmă constând în mesajele
semnificative oferite de datele statistice.
Observarea statistică
Cercetarea statistică se desfăşoară în următoarele trei etape:
observarea statistică, adică culegerea datelor statistice;
prelucrarea datelor obţinute în faza precedentă;
analiza şi interpretarea rezultatelor obţinute în urma prelucrării.
Aceste etape trebuie abordate împreună, ca un tot unitar, asigurându-se astfel premisa reducerii
riscului unor erori de culegere, prelucrare sau analiză statistică.
Pentru a putea satisface corespunzător necesităţile de cercetare statistică, observarea statistică trebuie
să îndeplinească două condiţii:
6
condiţia de volum, care presupune culegerea datelor de la toate unităţile care compun
colectivitatea sau eşantionul statistic, aşa cum au fost definite acestea în etapa de planificare
statistică;
condiţia de calitate, care presupune înregistrarea de date autentice, reale.
După modul de organizare a lor în timp, observările statistice se pot clasifica în:
observări permanente (cum sunt, de exemplu, cele realizate prin raportările statistice din cadrul
Sistemelor Informaţionale Statistice, SIS, Naţionale);
observări fără caracter permanent, cum sunt recensămintele, anchetele, monografiile statistice etc.
După numărul unităţilor supuse observării, observările statistice se pot împărţi în:
observări totale – în urma cărora se obţin date de la toate unităţile care compun colectivitatea
statistică ţintă (recensăminte, rapoarte statistice, etc.);
observări parţiale (observări prin sondaj sau prin selecţie) – prin care se culeg date doar de la o
parte (eşantion) din unităţile care compun colectivitatea statistică ţintă.
Principalele metode de observare statistică sunt:
recensământul;
raportarea statistică;
sondajul sau selecţia statistică;
ancheta statistică;
observarea părţii principale (panelul);
monografia statistică.
Recensământul
Recensământul este cea mai veche metodă de observare statistică, constând în culegerea periodică de
date statistice de la toate unităţile care compun colectivitatea statistică ţintă.
Primul recensământ demografic autentic din România a fost organizat în anul 1838 şi a vizat
totalitatea locuitorilor Ţării Româneşti, indiferent de vârstă, sex, stare socială etc.
Raportarea statistică
Prin intermediul unui sistem de raportare statistică se doreşte o observare
permanentă a tuturor unităţilor statistice componente ale colectivității statistice ţintă.
În cadrul unui sistem de raportare statistică, unităţile statistice trebuie să furnizeze permanent datele
statistice solicitate, astfel încât să poată fi surprinsă evoluţia în timp a fenomenelor cercetate.
7
grupări spaţiale sau teritoriale, realizate după un criteriu de spaţiu (ţara, judeţul, zona
geografică etc.).
grupări după variabile atributive (de exemplu, grupări pe tipuri, pe feluri etc.);
grupări după variabile cantitative, care la rândul lor pot fi cu variaţie discretă (grupări pe
variante, pe valori discrete) sau cu variaţie continua(grupări pe intervale).
Tabelele statistice
Tabelele statistice sunt folosite pentru prezentarea seriilor statistice şi se construiesc în aşa fel încât să
conţină următoarele elemente:
Elementele unui tabel:
titlul general si titlurile interioare;
unitatea de măsură generală;
notele explicative;
sursa datelor;
rubricile tabelului.
Tipuri de tabele :
simplu (distribuție univariate)
cu dublă intrare (tabel de corelație)
Diagramele statistice
Metodă de prezentare sub forma unei imagini a datelor unei distribuții într-un sistem de coordonate
dat. Principiul de bază : proporționalitatea.
Elementele reprezentării: Axele de coordinate; Scara; Rețeaua graficului; Legenda; Sursa Datelor; Note
explicative
8
Diagrama polară- Se mai numeşte şi diagramă radială şi se foloseşte pentru ilustrarea
sezonalităţii caracteristice anumitor fenomene statistice studiate.
Diagrama polară se construieşte folosind o reţea radială.
Poligonul de frecvenţe- este linia poligonală care uneşte, în cadrul unui sistem rectangular
de axe, punctele care corespund frecvenţelor absolute ale căror valori sunt reprezentate pe
ordonata graficului
Ogiva- este linia poligonală care uneşte, în cadrul unui
sistem rectangular de axe, punctele care corespund
frecvenţelor absolute sau relative cumulate ale căror valori
sunt reprezentate pe ordonata graficului.
u¸sor de observat ca˘ valorile posibile ale lui X sunt 0, 1,2, 3,…….,n (de ce?), ¸si deci variabila aleatoare
binomiala˘ cu parametrii n si p este de forma:
−
Pentru a determina probabilita˘¸tile sa˘ observa˘m ca˘ X=x înseamna˘ ca˘ evenimentul
A a apa˘rut de x ori ¸si evenimentul A a apa˘rut de n-x ori în cele n încerca˘ri.
c
Cum cele n încerca˘ri sunt independente, putem calcula probabilitatea de apari¸tie de x ori a evenimentului
A urmata˘ de apari¸tia de n-x ori a evenimentului Ac astfel:
Aceasta este însa˘ numai una din posibilele moduri de apari¸tie x ori a evenimentui A ¸si de n-z ori a evenimentului
Ac. Cum numa˘rul total de aranja˘ri distincte a x de A ¸si n-z de A C este conform Propozi¸tiei ?? (cu k = 2,
n1=x si n 2 =n-x) egal cu
Aplicatie:
S˘a se determine probabilitatea obt¸inerii a cel put¸in doi de s¸ase la aruncarea de patru ori a unui zar.
S˘a not˘am cu A evenimentul constând în aparit¸ia lui s¸ase la aruncarea zarului (evenimentul
“succes”). Num˘arul de succese la aruncarea de patru ori a zarului este o variabil˘a aleatoare
binomial˘a cu parametrii n = 4 (num˘arul de încerc
6 ˘ari) s¸i probabilitatea succesului
10
Distrubutii probabilistice continue
Distribuţiile gamma
O v.a. X spunem ca urmeaza distributia Gamma de parametri unde p > 0 si λ > 0 si scriem X ∼ Gamma(p,
λ) , daca are densitatea de repartitie data de
Folosim un criteriu de convergenta si deducem ca aceasta integrala improprie este convergenta pentru
orice p > 0, deoarece, pentru orice α > 1, avem
(iii)
Proprietatea (i) se demonstreaza utilizand procedeul de integrare prin parti iar (ii) este o consecinta
imediata a lui (i) .
Deci
Se verifica si proprietatile unei densitat,i de repartitie: f (x) ≥ 0 pentru orice
11
x ∈ R si
Proprietati:
Suma a doua v.a. independente care urmeaza o distribuit,ie de tip Gamma este o v.a care urmeaza o
distribuitie tot de tip Gamma:
Suma a doua v.a. independente care urmeaza o distribuitie de tip exponential este o v.a care urmeaza o
distribuit,ie de tip Gamma:
Aplicatie:
Vom arata ca, in cazul particular al unei v.a. Sn ∼ Gamma(n, λ), cu n ∈ N∗, avem
sau, echivalent,
12
Aplicatie solicitata
pagina 51, din Statistica matematica, Butanescu Remus, aplicand indicele alocat : 1,4
Pentru a exemplifica proprietatea de liniaritate în cazul a două variabile aleatoare discrete, să considerăm
datele din tabelul 2.2, privitoare la greutatea măsurată la nivelul unui lot de 50 de pachete de pufuleți cu
surprize, obținută prin însumarea greutății pufuleților din pachete (variabila X) și a greutății jucăriilor-
surpriză introduse în aceste pachete (variabila Y).
Pe baza acestor date putem determina valoarea așteptată a greutății la extragerea aleatoare a unui pachet
de pufuleți cu surprize, valoare utilă companiei în efortul de îmbunătățire a managementului costurilor cu
transportul acestor produse.
Pentru aceasta trebuie construită mai întâi distribuția probabilistică bivariată corespunzătoare acestor date.
Aceasta este prezentată în tabelul 2.3. Probabilitățile din acest tabel au fost calculate prin împărțirea
frecvențelor absolute înregistrate pentru fiecare combinație posibilă a greutăților într-un pachet la
numărul total de pachete (50).
Tabelul 2.2
Greutatea
pufuleților (grame)
18 1 3 6 10
19 4 9 8 21
20 7 5 1 13
13
21 4 1 1 6
Total 16 18 16 50
Tabelul 2.3
Greutatea
pufuleților
(grame)
99 100 101 Total
Greutatea
jucăriilor-
surpriză(grame)
Aceste distribuții univariate (denumite și distribuții marginale, întrucât sunt descrise de probabilitățile
marginale dintr-o distribuție bivariată) sunt prezentate în tabelele 2.4 și 2.5.
y P(Y = y) y·P(Y = y)
25,2 0,20 5,04
26,6 0,42 11,172
28 0,26 7,28
29,4 0,12 3,528
Total 1,00 27,02
In ambele cazuri x si y, am aplicat indicele alocat de 1,4
14
Tabelul 2.6
P(x, y) =
x y x+y = P(X = x,Y = y) =
= P(X = x)·P(Y = y)
25,2 163,8 0,32x0,20 = 0,0640
138,6 26,6 165,2 0,32x0,42=0,1344
28 166,6 0.32x0,26=0,0832
29,4 168 0,32x0,12=0,0384
25,2 165,2 0,36x0,2=0,0720
140 26,6 166,6 0,36x0,42=0,1512
28 168 0,36x0,26=0,0936
29,4 169,4 0,36x0,12=0,0432
25,2 166,6 0.32x0,2=0,0640
141,4 26,6 168 0,32x0,42=0,1344
28 169,4 0,32x0,26=0,0832
29,4 170,8 0,32x0,12=0,0384
Total 1,0000
Tabelul 2.7
15
Bibliografie :
16