Sunteți pe pagina 1din 7

1

L1. PRELUCRAREA STATISTICĂ A DATELOR


OBSERVATE
1. Scopul lucrării
Datele observate sunt prelucrate pentru a oferi informaţii suplimentare, atât sub forma
unor indicatori sintetici, cât şi sub formă grafică.

2. Aspecte teoretice
2.1. Prelucrarea datelor observate

Întreaga activitate de prelucrare presupune parcurgerea mai multor etape.


 Din populaţia studiată se prelevează un eşantion de volum n = 100 ... 300
exemplare. Valoarea caracteristicii urmărite x se determină pentru fiecare exemplar din
eşantion, toate valorile fiind înregistrate în fişa de observaţii, în ordinea obţinerii lor.
 Valorile observate pot fi ordonate în şir statistic, adică în şir crescător sau
descrescător (nu este obligatoriu). Dacă valorile obţinute succesiv formează şirul

x1 , x2 , x3 ,..., x n , (1.1)

atunci şirul ordonat crescător are forma

x(1) ≤ x (2) ≤ x (3) ≤ ... ≤ x (n), (1.2)

în care indicele (n) arată rangul valorilor în acest şir ordonat.


Cu sau fără ordonarea valorilor, se poate stabili amplitudinea şirului R (sau w), în funcţie de
valorile extreme, minimă (xmin) şi maximă (xmax),

Rx x  x  x  w. (1.3)
max min (n) (1)

 Pentru calculul mărimilor statistice este utilă, de multe ori, gruparea datelor pe clase
(intervale). Numărul claselor k se recomandă să fie între 13 şi 20. În cazul în care numărul
datelor este inferior lui 250, este suficientă împărţirea în 10 clase. STAS 7122-86 propune
pentru stabilirea numărului de clase formula lui H.A. Sturges,

k  1  3,322  log n (1.4)

în care n este numărul datelor.


Pentru numărul de clase au fost propuse şi alte relaţii de calcul, de exemplu:

k  n. (1.5)
 Se stabilesc amplitudinea, limitele şi valoarea centrală ale claselor. Cele n valori
observate se grupează în k clase de lungime aj, centrate în punctele xj ( j  1, 2,..., k ).
2

În majoritatea cazurilor se preferă clasele de lungime (amplitudine) egală, aj = a (j = 1, 2,..., k).


În acest caz, amplitudinea clasei se determină cu relaţia:
R xmax  xmin
a  (1.6)
k k

Valorile centrale ale intervalelor respectă relaţia


x  xj a, (1.7)
j 1
iar o valoare observată xi face parte din clasa (intervalul) j dacă:

a a
x  x x  ; (1.8)
j i j
2 2

i = l , 2 , ..., n; j = 1, 2, ..., k < n.


 Pentru fiecare clasă (interval) se stabilesc valorile frecvenţ elor:
- frecvenţele absolute ale claselor, n j , reprezentând numărul de valori observate care

aparţin fiecărei clase j;


nj
- frecvenţele relative ale claselor, f j  , calculate ca raport între frecvenţele
n
k k
absolute n j şi numărul total al observaţiilor;  n j  n ;  f j  1
j 1 j 1
- frecvenţele cumulate absolute, F j ,a , adică numărul total al observaţiilor, având valori mai

a
mici sau egale cu limita superioară a intervalului, x  , determinate cu relaţiile de
j
2
recurenţă:
F0, a  0;
; (1.9)
F j ,a  F j 1,a  n j

- frecvenţele cumulate relative, F j , determinate cu relaţiile de recurenţă:

F0  0;
; j = 1, 2, …,k. (1.10)
F j  F j 1  f j
Aceste mărimi sunt prezentate sub forma tabelului frecvenţelor.
 Reprezentarea mărimilor tabelate se poate face intuitiv sub mai multe forme grafice.
Poligonul frecvenţelor este o linie poligonală care uneşte puncte având în abscisă
valoarea centrală a clasei, iar în ordonată frecvenţa clasei, absolută sau relativă. Punctele de la
extreme se află pe axa absciselor, deoarece ele reprezintă frecvenţele claselor zero şi k+1, care
au valoarea zero, pentru că în aceste clase nu apar date observate (fig. 1.1).
Histograma frecvenţelor este o reprezentare echivalentă poligonului frecvenţelor, cu
deosebirea că sunt reprezentate dreptunghiuri, cu baza egală cu amplitudinea claselor (a) şi
înălţimea proporţională cu frecvenţa claselor, absolută sau relativă (fig. 1.2).
3

Deoarece caracteristica X a populaţiei este o variabilă aleatorie, definită pe un anumit


câmp de probabilitate, ea are o funcţie de repartiţie F(x), de obicei necunoscută, care se
numeşte repartiţie teoretică.
Efectuarea unei selecţii permite caracterizarea repartiţiei teoretice, în vederea

identificării ei. Pentru aceasta se defineşte funcţia de repartiţie empirică F ( x) , x  R .
Dacă F j , j = 1, 2, ..., k, reprezintă frecvenţa cumulată relativă corespunzătoare

intervalului, j, atunci
0,x  x1
 
F ( x)   F j ,x j  x  x j 1, j  1,2,...,k  1 . (1.11)

1,x  xk
Graficul funcţiei de repartiţie empirică este prezentat în figura 1.3.

2.2. Calculul parametrilor statistici ai repartiţiei empirice

Repartiţia empirică este caracterizată de mai mulţi parametri. Determinarea valorilor


acestor parametri este necesară, în special, atunci când se urmăreşte identificarea unei
repartiţii teoretice pentru repartiţia empirică. Principalii parametri statistici calculaţi pot fi
grupaţi în două categorii:
- parametrii de tendinţă (care exprimă tendinţa de grupare a datelor): media şirului de date x
(media de sondaj), mediana Me, modul Mo, valoarea centrală a şirului de
date xc;
- parametrii de împrăştiere: dispersia de sondaj s2, abaterea medie pătratică de sondaj s,
amplitudinea şirului de date R, coeficientul de variaţie Cv.
Considerăm că s-a efectuat o selecţie de volum n şi s-au obţinut pentru caracteristica X
valorile x1 , x2 , x3 ,..., x n . În cele ce urmează se vor considera: x j , j  1,2,...,k , - valorile
centrale ale claselor, pentru cazul grupării datelor în clase; n j - frecvenţele absolute ale
k
claselor (  n j  n ).
j 1
Media de sondaj x se poate calcula:
- ca medie aritmetică a tuturor valorilor din şir,
1 n
x   xi ; (1.12)
n
i 1
- pe baza grupării datelor în clase,

1 k
x   x j n j . (1.13)
n
j 1
4

Mediana Me este valoarea observată pentru care frecvenţele valorilor mai mari şi mai
mici decât aceasta sunt egale. Determinarea ei presupune ordonarea valorilor, în şir crescător
(sau descrescător), x(1) ≤ x(2) ≤ x(3) ≤ ... ≤ x (n), indicele (n) arătând rangul. În acest caz,
mediana are valoarea
 x n 1  ,nimpar
  
  2 

Me     . (1.14)
  x
1  
 2   n   x n 1  ,n par
   2   2  

Modul (moda) Mo este valoarea observată cu frecvenţa cea mai mare. Pentru
repartiţii de frecvenţă aproape normale, modul se calculează cu relaţia aproximativă
Mo  x  3  ( x  Me) . (1.15)

Valoarea centrală xc este semisuma dintre valorile maximă şi minimă observate,


x  xmin
xc  max . (1.16)
2
Dispersia de sondaj s 2 este momentul centrat de ordinul doi, calculată în variantele:
- cu toate valorile din şir,
1 n
s    xi  x  ;
2 2
(1.17)
n
i 1
- cu valorile grupate pe clase,
1 k
 
2
s2 
n
 x j  x n j . (1.18)
j 1

Această dispersie poate fi folosită ca estimaţie a dispersiei populaţiei originare  2 (din


care s-a extras eşantionul), considerându-se formula corectată
1 k
 
2
2  sc2 
n 1
 x j  x n j . (1.19)
j 1
Abaterea medie pătratică s se calculează cu relaţia:

s  s2 . (1.20)

Amplitudinea R (sau w) a şirului de date este dată de diferenţa dintre valorile maximă
şi minimă observate,
R  w  xmax  xmin . (1.21)
Coeficientul de variaţie Cv se calculează cu relaţia:
s
Cν  . (1.22)
x
5

Evaluarea valorilor tipice necunoscute ale unei populaţii reprezintă o estimare. Dacă
pentru fiecare valoare tipică (parametru) se calculează o singură valoare, estimarea se numeşte
punctuală. Dacă pentru fiecare valoare tipică se calculează un interval, estimarea se numeşte prin
intervale.
Intervalul de încredere este un interval care acoperă cu o probabilitate dată, numită nivel
de încredere, valoarea unui parametru oarecare ce trebuie estimat.

Aplicație: Se dau valorile timpilor de defectare pentru un utilaj, în tabelul 1.1. Să se


calculeze valorile parametrilor statistici și să se realizeze graficele, conform noțiunilor teoretice
prezentate anterior.

Tabelul 1.1 Valorile timpilor de defectare


1051 1354 1472 1574 1642 1706 1801 1926
1057 1364 1474 1577 1643 1710 1802 1937
1100 1369 1481 1580 1644 1730 1810 1948
1156 1371 1482 1586 1645 1731 1814 1959
1160 1376 1486 1590 1647 1732 1825 1960
1186 1389 1490 1590 1650 1735 1826 1961
1197 1390 1491 1595 1657 1740 1837 1972
1199 1391 1494 1598 1658 1741 1838 1983
1200 1394 1495 1600 1659 1742 1840 1984
1204 1396 1500 1601 1660 1745 1842 1995
1237 1400 1502 1604 1664 1746 1851 2000
1240 1400 1503 1610 1668 1757 1852 2007
1250 1402 1510 1616 1670 1758 1854 2008
1260 1404 1512 1620 1674 1759 1864 2009
1271 1410 1516 1621 1675 1760 1865 2010
1280 1420 1520 1624 1680 1762 1868 2021
1282 1425 1532 1632 1682 1772 1872 2032
1286 1435 1536 1633 1683 1773 1874 2033
1293 1436 1538 1634 1689 1774 1880 2034
1300 1440 1540 1635 1690 1780 1890 2055
1302 1452 1546 1636 1691 1785 1900 2078
1304 1455 1551 1637 1694 1786 1902 2088
1314 1459 1553 1638 1698 1790 1903 2100
1326 1460 1559 1639 1700 1799 1904 2178
1349 1470 1570 1640 1705 1800 1915 2200

Rezolvare:
Suma = 326817.00 ore
Media = 1634.09 ore
Mediana = 1641.00 ore
Dispersia = 56987.09 ore2
Abaterea medie pătratică = 238.72 ore
Amplitudinea = 1149.00 ore
Modul = 1654.83 ore
Coeficientul de variaţie = 0.15
Pentru metoda de calcul „pe clase (intervale)”, se va realiza tabelul 1.2.
6

Tabelul 1.2 Tabelul frecvenţelor

Valoarea Limitele Frecvenţa clasei Frecvenţa cumulată


Nr. clasei
centrală clasei Absolută Relativă Absolută Relativă
xj - a/2,
j xj, ore nj, buc. fj Fj,a, buc. Fj
xj + a/2
1 1100 1050 - 1150 3 0.015 3 0.015
2 1200 1150 - 1250 10 0.05 13 0.065
3 1300 1250 - 1350 12 0.06 25 0.125
4 1400 1350 - 1450 20 0.1 45 0.225
5 1500 1450 - 1550 26 0.13 71 0.355
6 1600 1550 - 1650 35 0.175 106 0.53
7 1700 1650 - 1750 30 0.15 136 0.68
8 1800 1750 - 1850 24 0.12 160 0.8
9 1900 1850 - 1950 18 0.09 178 0.89
10 2000 1950 - 2050 16 0.08 194 0.97
11 2100 2050 - 2150 4 0.02 198 0.99
12 2200 2150 - 2250 2 0.01 200 1
∑ - - 200 1 - -

Suma = 327100.00 ore


Media = 1635.50 ore
Dispersia = 56989.75 ore2
Abaterea medie pătratică = 238.73 ore
Dispersia populaţiei originare = 57276.13 ore2
Abaterea medie pătratică a populaţiei originare = 239.32 ore
5

Figura 1.1 Poligonul frecvenţelor

Figura 1.2 Histograma frecvenţelor

Figura 1.3 Graficul funcţiei de repartiţie empirică

S-ar putea să vă placă și