Sunteți pe pagina 1din 10

Lucrarea de laborator 8

CALCULUL STATISTIC CU APLICAIA EXCEL


Scop: - Cunoaterea unor mrimi utilizate n calculul statistic i utilizarea
funciilor statistice oferite de aplicaia Excel.
Obiective: - cunoaterea unor noiuni de calcul statistic utilizate n inginerie;
- dobndirea deprinderilor de lucru cu funciile aplicaiei MS
Excel;
- cunoaterea modului de creare a graficelor n MS Excel.
8.1. Noiuni teoretice
n utilizarea calculului statistic al mai multor procese care au loc n
inginerie o importan deosebit o are noiunea de repartiie empiric.
Repartiia empiric sau funcia de distribuie se caracterizeaz prin
urmtorii parametrii statistici principali:
- parametrii de tendin:
- media aritmetic a irului de date, X;
- media irului de date, M;
- modulul irului de date, Mo;
- valoarea central a irului de date;
- indicii de mprtiere:
- amplitudinea irului de date, W;
- abaterea medie ptratic a irului de date, s;
- dispersia irului de date, s2;
- coeficientul de variaie a irului de date, Cv;
- coeficientul de asimetrie, .
a. Media aritmetic a irului de date se poate calcula:
- pe baza valorilor individuale cu relaia:
n

X=

X
i +1

(8.1)

n care: Xi reprezint valorile observate, iar n numrul total al valorilor.


- pe baza valorilor grupate pe clase cu relaia:
67

n X
i

X=

ci

i =1

(8.2)

i =1

n care Xci este valoarea central a clasei; ni numrul de date


corespunztoare aceleiai clase (frecvent absolut); k numrul de clase,
b. Mediana irului de date M este valoarea observat fa de care
frecvena valorilor mai mici dect ea este egal cu frecvena valorilor mai
mari dect ea. Dac X1,, Xn sunt valorile observate ale irului, aranjate
cresctor sau descresctor, mediana se determin astfel:
- pentru unnumr impar de observaii n ir:
M=

X n +1
,
2

(8.3)

- numr impar de observaii n ir:


X n + X n 1
M=

(8.4)

c. Modulul M0 este valoarea observat care are frecvena absolut


(relativ) cea mai mare din irul statistic controlat i se determin
aproximativ cu relaia:
M 0 = X 3( X M ) ,

(8.5)

n care X este media aritmetic a irului; M mediana irului.


d. Valoarea central Xc a irului, se determin ca semisum a
valorilor limit ale irului, cu relaia:
Xc =

X max + X min
2

(8.6)

e. Amplitudinea irului de date se determin cu relaia:


W = X max X min

(8.7)

f. Abaterea medie ptratic se poate calcula:


- pe baza valorilor individuale ale irului de date:
n

s=

( X

X )2

i =1

n 1

- pe baza amplitudinii medii a irului de date:


68

(8.8)

s=

W
dn

(8.9)

n care: W este amplitudinea media a mai multor iruri de date; dn factor


care depinde de numrul datelor din ir.
f. Dispersia reprezint ptratul abaterii medii ptratice, s2.
h. Coeficientul de variaie a irului de date se calculeaz ca raport
ntre abaterea medie ptratic i media aritmetic a irului de date:
Cv =

s
X

(8.10)

i. Coeficientul de asimetrie se calculeaz cu relaia:


n

s=

( X

X )2

i =1

n s2

(7.11)

Repartiia normal se utilizeaz pentru testarea stabilitii unor


procese pe baza msurrii unor parametrii (de exemplu dimensiuni, abateri .a.).
Repartiii de frecvene. Exist diferene ntre analiza seriilor
dinamice i problemele legate de gruparea i analizarea materialelor pentru
care factorul timp nu are importan. La cercetarea seriilor dinamice
problema de baz o reprezint analiza variabilei timp.
Metodele de analiz folosite n aceste dou cazuri se deosebesc
sensibil. n cele ce urmeaz ne vom ocupa de problemele gruprii i analizei
prealabile a datelor numerice pentru care ordinea de aezare n timp nu
conteaz.
Datele statistice n stare brut reprezint o mas dezordonat de
materiale. Prima problem este aceea de a face o asemenea grupare a datelor
cu ajutorul creia s se poat aprecia valoarea lor n legtur cu problema
propus, s se poat nlesni comparaia cu alte date de acelai gen i s se
poat obine posibilitatea unei analize ulterioare. nainte ca materialul
statistic s fie supus analizei ulterioare i generalizrilor care vor permite s
se fac anumite deducii, el trebuie s capete o anumit form i o structur
clar. Cu alte cuvinte n cadrul analizei datelor statistice trebuie s se ia n
considerare att valorile individuale ct i frecvenele de apariie ale
acestora.
n urma observrii caracteristicii cantitative X n n probe se obin
urmtoarele date primare:
x1, x2,..., xn

(8.12)
69

n cazul n care volumul seleciei este mic aceste date sunt uor de
manipulat i nu este nevoie de o grupare a lor. Dac ns avem o selecie de
volum mare este greu de lucrat cu aceste date. n plus tabelele de date
primare nu sugereaz nimic referitor la referitor la repartiia variabilei X. De
aceea este nevoie de o grupare (centralizare) a datelor.
Gruparea datelor se face n funcie de tipul caracteristicii X. Astfel,
dac X este o variabil discret ce poate lua valorile distincte v1, v2 ,..., vn ,
atunci n locul datelor iniiale se va reine repartiia empiric:
v1.v2 ...vm

n1.n2 ...nm

(8.13)

Unde ni, (i=1, m) reprezint frecvena apariiei (numrul de apariii) valorii


vi, iar n reprezint numrul valorilor din irul iniial (8.12) i se numete
frecven absolut a valorii v. Valoare m reprezint numrul de clase.
Raportul fj =nj/n dintre frecvena absolut i numrul total de probe
se numete frecven relativ. Se observ c
f1 + f2 ++ fm =1 ntruct n1 +n2 + ... +nm = n.
Frecvenele relative, numite impropriu i probabiliti de apariie,
stau la baza calculrii densitii de repartiie a fercvenelor i a indicatorilor
care exprim gradul de concentrare. De asemenea permit compararea a dou
repartiii construite pe aceeai variabil, care difer numai prin numrul
unitilor pe grupe.
Dac X este o variabil continu care poate lua valori ntr-un
interval [a,b] atunci acest interval este mprit n m subintervale [aj, aj+1],
j=1, m , cu a1 = a i am+1 = b. Pentru fiecare din aceste subintervale se
determin numrul n al valorilor din irul (8.12) care se afl n acest interval
numit frecven absolut a subintervalului.
Subintervalele [aj, aj+1] se pot lua arbitrar. De cele mai multe ori
extremitile se iau echidistante, deci subintervalele au lungimi egale. ns
numrul m al subintervalelor nu se alege la ntmplare. Este important ca
prin gruparea datelor s nu se piard caracterul global al repartiiei (dac m
este prea mic se poate denatura repartiia real a variabilei X). Astfel, dup
unii autori numrul subintervalelor, m, trebuie alese n conformitate cu
formula lui Sturges :
m=[1 + 3,322logn]
70

Mrimea intervalului va fi dat de formula: i = xmax xmin


m

Reprezentarea grafic a repartiiilor statistice. Exist mai multe


tipuri de reprezentri grafice a datelor statistice. Dintre acestea prezentm
histograma, poligonul frecvenelor i graficul frecvenelor cumulate.
Histograma este o figur ntr-un sistem de coordonate rectangualre
care reprezint distribuia empiric prin dreptunghiuri. Bazele acestor
dreptunghiuri, construite pe axa absciselor, reprezint subintervalele folosite
n centralizarea datelor. nlimea hj a dreptunghiului cu baza (aj, aj+1) este
proporional cu raportul dintre frecvena relativ a intervalului i lungimea
sa:
hj = C

fj

a j +1 a j
constanta C fiind un factor de
scar. n cazul cnd subintervalele
gruprii
au
lungimi
egale,
nlimea hj va fi proporional cu
frecvena relativ, deci hj =C*fj .
Histograma
Poligonul frecvenelor este
o diagram n care pe axa
absciselor se iau mijloacele vj ale intervalelor (aj, aj+1) folosite n grupare,
iar pe axa ordonatelor valorile hj definite n construirea histogramei. Linia
frnt care unete punctele de coordonate (vj, hj) se numete poligonul
frecvenelor. El se poate obine din histogram unind mijloacele laturilor
superioare ale drptunghiurilor. n fig 1 poligonul frecvenelor este trasat
printr-o linie punctat.
Mrimile c1, c2, ..., cm definite prin:
j

c j = fi
i =1

se numesc frecvene cumulate.


Linia frnt obinut prin unirea punctelor de coordonate (aj+1, cj ] se
numete graficul frecvenelor cumulate.
Corelaia statistic. n procesul de cercetare a legturilor cauzale
existente ntre fenomenele naturale avem de-a face cu contopirea aciunilor
unei multitudini de factori (cauze), dintre care unii eseniali, alii neeseniali,
71

unii pot fi determinai, alii nu. Tocmai de aceea, n cercetarea legturii


reciproce dintre dou fenomene apar dificulti mari deoarece pot s existe
cauze necunoscute. n astfel de situaii este util s determinm gradul de
corelare i apoi s analizm separat unele din aceste cauze.
O problem important pentru cercetarea corelaiilor este problema
determinrii funciei de regresie, care s exprime relaia cantitativ dintre
fenomenul efect i fenomenul cauz. Forma legturii dintre fenomene i
descrierea printr-o ecuaie analitic, pe baza crora se definesc valorile
fenomenului efect, n funcie numai de factorul sau factorii luai n
considerare (cauze).
Dreapta de regresie. n cazul cel mai simplu se studiaz numai dou
variabile X, Y i se dorete girea dependenei:
Y = aX + b
n ipoteza c X este cauza i Y este efectul.
n urma celor n probe se cunosc datele (xi ,yi), i=1,..., n i trebuie s
determinm coeficienii a i b astfel nct suma
n

S (a, b) = (axi + b yi ) 2
i =1

s fie minim. Se obine

y c xy
y

=
rxy
b = y ax
x x y x

unde x2 este dispersia variabilei x, iar y2 este dispersia variabilei y.


a=

c xy

2
x

Mrimea

cxy = x y x y
se mumete corelaia variabilelor X i Y. Raportul rxy = c xy / x y se
numete coeficient de corelaie a variabilelor X, Y i msoar intensitatea
dependenei liniare dintre variabilele X i Y.
n n final se va obine ecuaia de regresie:

Yy=

y
r ( X x)
x xy

Aceast dependen reprezint o dreapt numit dreapt de regresie a


variabilei Y n raport cu variabila X.

72

8.2. Funcii statistice n Excel

Aplicaia Excel ofer o serie de funcii statistice dintre care sunt


prezentate cele utilizate n lucrare:
Funcia AVERAGE (numr1, numr2)
Calculeaz media argumentelor. Acestea pot fi valori singulare sau
domenii. Domeniile pot conine numere, referine de celule sau matrice de
valori. Sunt ignorate valorile de tip text, logic, erorile i blancurile.
Funcia COUNT (valoare1, valoare 2)
Efectueaz numrarea elementelor numere din argumente.
Argumentul valoare poate fi numr, referin de celul sau o matrice de
numere. Valorile de tip text, logic, erori i celule goale sunt ignorate.
Funcia GROWTH (date_z, date_x, const)
Calculeaz curba de cretere exponenial care se potrivete cel mai
bine datelor coninute n domeniul date_y i date_x. Apoi funcia
GROUTH() utilizeaz valorile noi_x pentru a calcula noile valori y pe curba
determinat. n cazul n care argumentul const este TRUE (sau se omite
introducerea lui), va fi determinat i termenul liber. Dac argumentul const
este FALSE, pentru termenul liber se va folosi valoarea 1.
Funcia LINE ST (date_y, date_x, const, stat)
Determin funcia liniar care trece prin punctele date i produce o
matrice de rezultate care conine valorile ce definesc ecuaia liniei. Dac se
omit argumentele date_x se va utiliza o matrice de aceeai dimensiune cu
date_y i cu valorile {1,2,3,}.
Lisata are urmtoarea ecuaie:
y b + m1* x1 + m2* x2 + `e

Programul Excel utilizeaz metoda celor mai mici ptrate pentru a


determina ecuaia liniei. Matricea de rezultate va avea forma [m1, m2, , b]
Constantele din aceast matrice pot fi utilizate pentru determinarea valorilor
y corespunztoare unui nou set de date x1, x2 etc.
Dac argumentul const este TRUE (sau este omis), va fi calculat i
termenul liber, dac este FALSE, termenul liber va fi considerat zero. Dac
parametrul stat este FALSE sau omis, se va returna panta i valoare y. Dac
argumentul stat este TRUE, se vor afia urmtoarele date statistice: eroarea
standard pentru fiecare coeficient; eroarea standard pentru constanta b;
73

coeficientul de determinare; eroarea standard de estimare a valorilor y;


gradul de libertate i
Regresia sumelor ptratelor
y = b* ( m11x1 )* ( M 2 _ 1x2 )*

care trece prin punctele date. Atunci cnd sunt introduse argumentele date_y
i data_x. Valorile pentru b i n sunt returnate ntr-o matrice orizontal de
forma (n1,m1,,b).
Dac argumentul const este TRUE (sau omis), se va calcula termenul
liber; dac este FALSE, se va presupune c acesta are valoarea 1. Dac
argumentul stat este FALSE (sau omis),. se va afia doar panta i valorile y
calculate; dac este TRUE, funcia va afia urmtoarele date statistice:
eroarea standard pentru fiecare coeficient; eroarea standard pentru constanta
b; coeficientul de determinare; eroarea standard pentru valorile y
determinate; gradul de libertate; Regresia sumelor ptratelor; suma rezidual
a ptratelor.
Funcia MAX (numr1, numr2) determin cea mai mare valoare dintre
argumente.
Funcia MEDIAN (numr1, numr2,) determin cea mai mic valoare
din argumente.
Funcia MIN (numr1, numr2,) determin cea mai mic valoare din
argumente.
Funcia STDEV (numr1, numr2,) determin o estimare a abaterii
standard a unei populaii n raport cu un eantion din aceasta.
Funcia TREND (data_y, data_x, nou_x, const) calculeaz valorile
corespunztoare unei linii drepte care se potrivete cel mai bine datelor din
matricea data_y. Dac se omite introducerea matricei data_x, se va utiliza o
matrice de aceeai dimensiune care conine valorile {1,2,3}. Pentru
fiecare valoare din matrice nou_x, funcia TREND() va furniza o matrice cu
valori pentru y. Dac argumentul const este TRUE (sau este omis), va fi
calculat i termenul liber; dac este FALSE, termenul liber se consider zero.
Funcia CORREL (array1, array2) permite calculul coeficientului de
corelaie dintre dou seturi de date array1 i array2.
Observaie: Numrul de date din cele dou seturi trebuie s fie
egale, astfel apare mesajul de eroare #N/A.
74

Funcia COUNTIF (range, criteria) numr celulele dintr-o zon care


ndeplinesc condiia dat:
- range reprezint o zon cu date (pot fi i text) n care se vor
numra celulele;
- criteria criteriul de selectare sub form de numr, expresie sau
text.
Funcia FREQUENCY (data_array, bins_array) calculeaz frecvena
(numrul de apariii) valorilor ntr-o zon de date numerice (data_array),
apoi ntoarce o matrice vertical de numere avnd un element mai mult
dect bins_array;
- bins array este o zon cu valori de referin pentru care se dorete
calculul frecvenelor.
Funcia LINEST (known_ys, known_xs, const, stats) permite
determinarea coeficienilor i a statisticii de estimare a unei linii drepte (y =
mx + b) prin metoda celor mai mici ptrate:
known_ys i
known_xs
reprezint zona de valori pentru
parametrul y, respectiv x (trebuie s aib aceeai dimensiune);
const valoare logic care specific dac constanta va fi forat la
valoare 0 (FALSE) sau nu (TRUE).
8.3. Materiale i mod de desfurare
a. Materiale i echipament
Pentru desfurarea lucrrii de laborator sunt necesare:
- calculatoare cu aplicaia Excel (din MS Office 2003) instalat;
- seturi de valori numerice furnizate de ndrumtorul lucrrii.
a1. un ir de valori di, cu 2 zecimale reprezentnd, de exemplu,
diametrele di ale unui lot de piese; de asemenea, sunt necesare precizarea
limitelor unor intervale pentru determinarea intervalelor;
a2. dou iruri de valori, pi i rai, reprezentnd, de exemplu, valorile
unui parametru de lucru (viteza de lucru sau avansul, pentru pi) i, respectiv,
valorile obinute n urma desfurrii procesului cu parametrul pi (de
exemplu, valorile rugozitii).
a3. un set de valori cu trei zecimale, reprezentnd de exemplu,
variaia uzurii.
b. Desfurarea lucrrii
b1. Seturile de valori primite de la conductor vor fi inserate de
studeni n trei foi de calcul ale aceluiai registru, setul de date de la punctul
75

a1 n foaia de calcul 1, seturile de date de la punctul a2 n foaia de calcul 2


.a.m.d.
b2. Pentru valorile din foaia de calcul 1 se vor folosi funciile
statistice Excel, media, modulul, deviaia standard i coeficientul de
asimetrie, prezentate n referat.
Se va estima dac repartiia corespunde unei distribuii normale.
B3. Utiliznd funcia FEQUENCY i limitele intervalelor indicate la
punctul a1 se vor calcula frecvenele de apariie a valorilor n fiecare
interval. Utiliznd comanda Chart din meniul Insert se vor reprezenta grafic
frecvenele calculate.
b4. Se va calcula coeficientul de corelaie (funcia CORREL) dintre
cele dou seturi de valori de la punctul a2 i se va comenta rezultatul
obinut.
b5. Se va determina dreapta de regresie pentru setul de valori de la
punctul a3 i se vor comenta valorile parametrilor statistici.
4. Evaluarea
ndrumtorul va aprecia corectitudinea completrii foilor de calcul
(0-1), a calculelor parametrilor statistici de la punctul b2 (0-3), a calculului
i reprezentrii frecvenelor de apariie, punctul b3, (0-2), a modului de
calcul i interpretarea coeficientului de corelaie (0-2) i a determinrii
dreptei de regresie (0-2).

76