Sunteți pe pagina 1din 26

Cursul nr.

2
Elemente de statistică și probabilități utilizate în controlul calității

1. Prelucrarea statistică a datelor

Societatea informațională, bazată pe cunoaştere și inovare, are la bază informaţia, care circulă între
diverse persoane, instituţii ale statului, agenţi economici, media şi public, etc., fiind adesea cuantificată în
cifre, sau transformată în imagini. Chiar în interiorul unei intreprinderi informația circulă între diverse
departamente, ateliere, angajati, etc. De aceea este important ca, atunci când primim informaţia, să o
înţelegem corect și să o transmitem într-un mod cât mai relevant și cât mai concis.

Satistica este disciplina care se ocupa cu culegerea, inregistrarea, gruparea, analiza si


interpretarea datelor referitoare la un anumit fenomen precum si cu formularea unor previziuni
privind comportarea viitoare a acestuia.

• Statistica - știință care, folosind calculul probabilităților, studiază fenomenele și procesele


de tip colectiv din punct de vedere cantitativ în scopul descrierii acestora și a descoperirii legilor
care guvernează manifestarea lor.

• Statistica se ocupă de obținerea de informații relevante din datele disponibile într-un volum
suficient de mare. Informațiile pot fi folosite pentru a înțelege datele disponibile (statistica
descriptivă) sau pentru a descoperi noi informații despre evenimente și relațiile dintre ele .

Statistica descriptivă este ramura statisticii care se ocupa cu prezentarea (descrierea) unui set de
date (se descrie ce a fost observat în probă), cu înțelegrea acestora (se încearcă găsirea unor modele, se
dă un sens datelor culese).

Statistica inferențială este partea care presupune efectuarea unor calcule matematice complexe
care să permită deducerea unor tendințe în cadrul unei populații mai mari, pe baza unui studiu al unui
eșantion prelevat din aceasta. Examinându-se relațiile dintre variabilele dintr-un eșantion se pot face
generalizări, sau predicții cu privire la modul în care aceste variabile se vor raporta la o populație mai
mare.
În controlul calității sunt analizate în general foarte multe date legate de caracteristicile de calitate
ale produselor/serviciilor, date ce prezintă o mare diverisitate și modalități diferite de exprimare.
Caracteristicile de calitate ale produselor sau serviciilor pot fi cuantificabile (cantitative) sau atributive.
Ne vom referi in principal la cele cuantificabile, caracteristici ce pot fi la randul lor de doua tipuri:
– discrete - (numãrul de piese defecte dintr-un lot)
– continue – dacã, într-un interval, se poate obţine orice valoare realã pentru caracteristică
Pentru a putea fi interpretate și utilizate datele trebuie prelucrate, pentru a putea deci deveni
informații, si prezentate într-o formă accesibilă celor ce le necesită. Prelucrarea datelor cuprinde operaţii
cu ajutorul cărora se realizează trecerea de la datele individuale la indicatori derivaţi, sintetici, care
reflectă esenţa din manifestarea fenomenelor. Ea aduce un plus de informaţie, descoperind anumite
trăsături ale fenomenului sau populaţiei studiate (spre exemplu, media), care nu erau disponibile direct
din şirul de date.
Prezentarea datelor se poate face prin intermediul:
• tabelelor
• graficelor (de structura, diagrame prin benzi, cronograme-diagrame de tip lini,
norul de puncte-diagrama X,Y prin puncte, poligonul de frecvență, etc.)
• seriilor statistice
• indicatorilor statistici
Obiectul de studiu al statisticii, îl constituie populaţiile statistice de orice natură.
Populaţia statistică reprezintă ansamblul de elemente de aceeaşi natură având însuşiri esenţiale
comune.
Un element component al unei populaţii statistice se numeşte unitate statistică. Numărul de unităţi
ce compun o populaţie statistică constituie volumul populaţiei şi se notează cu N.
O populaţie statistică se poate observa, în funcţie de obiectivele cercetării, fie static, în raport cu una
sau mai multe variabile statistice, fie în evoluţie, spre exemplu, pe o perioadă de timp, urmărind unul sau
mai mulţi indicatori.
Variabila statistică reprezintă o trăsătură comună tuturor unităţilor unei populaţii.
Indicatorul statistic este o variabilă cantitativă, ale cărei valori numerice rezultă dintr-un algoritm
pentru fiecare unitate, sau clasă de unităţi a populaţiei statistice.
Exemple:
-populaţii statistice: mulţimea localităților dintr-un județ, mulțimea gospodăriilor dintr-o localitate,
mulţimea societăţilor comerciale dintr-un judeţ, mulţimea produselor de acelaşi tip dintr-o fabrică,
mulţimea angajaţilor unei întreprinderi, mulțimea pieselor realizate pe o anumită mașină, mulțimea
elevilor dintr-o școală, mulțimea apartamentelor dintr-un bloc, etc.;
-variabile statistice: numărul locuitorilor dintr-o localitate, numărul membrilor dintr-o gospodărie,
suprafaţa locativă pentru o gospodărie; profitul, rentabilitatea, cifra de afaceri, numărul de angajaţi pentru
o societate comercială; vârsta angajaților, salariul angajaților, calitatea pentru un produs; vechimea,
specializarea pentru angajaţii unei întreprinderi, notele elevilor dintr-o clasă, etc.

Etape importante în prelucrarea datelor


– Achizita datelor (tabelul datelor primare)
– Gruparea datelor
– Sortare (crescatoare/descrescatoare)
– Determinarea frecvențelor
• Frecvența absolută - numărul de apariții
• Frecvența relativă - frecvența absolută raportată la numărul total de date
• Frecvența cumulată (crescător sau descrescător)
– Tabelul frecvențelor
– Trasarea histogramei (repartiția în frecvență)
– Calcularea indicatorilor statistici

Gruparea datelor
– Grupare pe variante –identificarea prin numărare a frecvențelor cu care ele apar
– Grupare pe intervale de variație egale sau neegale
– Stabilirea numărului de grupe (clase) şi a mărimii intervalelor. Determinarea numarului
de clase se poate face, de exemplu, cu relaţia lui H.A.Sturges, m = 1+ 3,322 *lgn
– Determinarea mărimii intervalelor, a amplitudinii A, a marimii intervalului (pt. date
uniform distribuite: h=A/m)
– Determinarea limitelor (inferioară şi superioară) intervalelor de grupare.
În Excel, funcţiile care se pot utiliza pentru a stabili numărul de apariții ale unor date într-un tabel
sunt: COUNTIF si FREQUENCY.
• Funcția COUNTIF, se folosește în general pentru a număra celulele dintr-o anumită zonă ce
satisface anumite criterii, de exemplu de câte ori apare o dată (valoare, text) într-un tabel. Ea insa se
poate folosi și ca o formulă matrice. Reamintim sintaxa acestei funcţii:
– COUNTIF (range, criteria)=(f1, f2, …, fR) –formulă matrice
Parametrii de intrare sunt:
• range-un vector care cuprinde valorile pe care dorim să le grupăm ;
• criteria-un vector care cuprinde valorile unice după care dorim să facem
gruparea; pot fi folosite caractere sau expresii dar ele trebuie incadrate intre ghilimele;
Parametrii de ieşire sunt:
• fi-frecvenţa de apariţie a valorii xi din criteria, în şirul range.

– FREQUENCY (data array, bins array)=(f1, f2, …, fR)-formulă matrice


Parametrii de intrare sunt:
• data array- un vector care cuprinde valorile pe care dorim să le grupăm pe
intervale ;
• bins arrray- un vector care cuprinde capetele intervalelor de grupare;
Parametrii de ieşire sunt:
• fi- numărul de valori din data array care sunt cuprinse în intervalul, acestea fiind
elemente din bins array.

Observație. O formulă matrice poate returna mai multe valori. După returnarea unei singure
valori, se selectează celelalte căsuțe de care avem nevoie (ori selecția se face initial), se tastează F2, apoi
CTRL+SHIFT+ENTER.

Serii statistice
Datele pot fi reprezentate sub forma seriilor statistice. O serie statistică este un şir de date
(observaţii) ale uneia sau mai multor variabile, corespunzătoare entităţilor unui eşantion, obţinute într-un
studiu statistic. În funcţie de numărul de variabile studiate o serie poate fi:
- univariată, când se observă o singură variabilă;
- bivariată, când se observă două variabile;
- multivariată, când se observă mai multe variabile.
Seria statistică univariată, luată ca rezultat al sistematizării şi/sau grupării, defineşte corespondenţa
dintre două şiruri de date: primul reprezintă variaţia caracteristicii urmărite, iar al doilea şir cuprinde
frecvenţele de apariţie a variantelor caracteristicii.
În forma cea mai generală o serie statistică se reprezintă astfel:

 x x2 ... x r 
X =  1 
 n1 n2 ... nr 
De exemplu, o serie statistică univariată este cea pe care o utilizăm pentru a analiza activitatea unui
atelier. Caracteristica urmărită este dată de numărul de piese defecte realizate. Ea stabilește o
corespondență între numărul pieselor defecte și numărul de zile în care s-a realizat acel număr de piese
defecte. Astfel de exemplu ea poate varia de la 0, dacă există zile în care nu s-au realizat decât piese fără
defecte, până la numărul maxim de piese defecte realizate într-o zi de lucru.
De exemplu dacă la atelier au existat 3 zile în care au fost realizate numai piese bune, 4 zile în care
s-a realizat, de fiecare dată, doar un singur rebut, 5 zile două rebuturi, 6 zile 3 rebuturi, 3 zile 4 rebuturi și
numărul maxim de piese defecte, 5, într-o singură zi, avem seria statistică următoare:

0 1 2 3 4 5
=
2 4 5 6 3 1

O mărime variabilă poate fi reprezentată și altfel, prin intermediul unor noțiuni ce țin de teoria
probabilităților. Astfel, deseori întâlnim noţiunea de variabilă aleatoare, care e un tip de variabilă
caracterizată nu numai de un ansamblu de valori posibile, ci şi de o funcţie bine definită, care redă
probabilitatea de apariţie a fiecărei valori posibile. O variabilă aleatoare poate fi continuă sau discretă.
O variabilă aleatoare discretă poate fi reprezentată analog, printr-un tablou în care, pe prima linie sunt
trecute valorile posibile, iar pe cea de-a doua probabilitățile cu care sunt luate acele valori, astfel:

…  
 …  , ∑  = 1
2. Indicatori statistici

Indicatorii statistici sunt grupați în două mari categorii:


A. Indicatori ai tendinței centrale: indicatori medii, indicatori de poziţie;
B. Indicatori ai variabilităţii faţă de tendinţa centrală.

A. Indicatori ai tendinței centrale

Indicatori medii
Indicatorii medii sunt un criteriu important de apreciere a tendinţei centrale. Valorile medii redau
ceea ce este tipic, comun şi general, în evoluţia fenomenelor.
Aflarea corectă a acestor indicatori trebuie să se bazeze pe următaorele reguli
- folosirea unui număr mare de date aleatoare;
- valorile utilizate să fie omogene;
- alegerea tipului corect de medie (cea care corespunde cel mai bine formei de variaţie a mărimii
analizate)
Cele mai importante tipuri de medii sunt: media armonică, media geometrică, media aritmetică
(simplă sau ponderată), media pătratică.
În sens statistic media aritmetică a valorilor individuale x1, x2, … xn ale caracteristicii X , notata X
n k

∑x i ∑x n j j k
este: X = i =1
n
; X = j =1
k
cu ∑n j = N, efectivul total al colectivităţii, şi n j numărul de apariţii
∑n j =1
j
j =1

k
nj
a valorii individuale x j ; X = ∑ x j f j , f j = k sunt frecvențele relative de apariţie a valorilor
j =1
∑n
j =1
j

individuale. Media se mai notează cu  sau m.


Dacă seria statistică prezintă date grupate în clase de valori, în formula valorii medii,  se
înlocuiește cu valoarea centrală a clasei respective (a clasei i), adică cu media aritmetică a capetelor
intervalului corespunzător.
Media aritmetică a unei variabile aleatoare discrete x, cu funcţia de probabilitate P(X=x) este definită
de relaţia X = m = ∑ x ⋅ P ( X = x ) , iar în cadrul unei variabile continue X cu funcţia de densitate f(x) este

definită de relaţia m = ∫ x ⋅ f ( x )dx

Indicatori de poziție

1. Valoarea modală se mai numeşte modulul, valoarea dominantă, sau cea mai probabilă şi
reprezintă acea valoare a caracteristicii care corespunde celui mai mare număr de unităţi (are frecvenţa
cea mai mare).
Exemplu: în seria {5,6,8,8,10} valoarea 8 este valoarea dominantă.
Din această definiţie rezultă că valoarea modală este un indicator specific seriilor de distribuţie.
Există serii de mai multe tipuri:
• cu o singură valoare modală – cazul în care există o singură valoare care are frecvenţa cea mai
mare, iar seria se va numi unimodală;
• cu mai multe valori modale – există două sau maimulte valori dominante, adică frecvenţa cea mai
mare corespunde la două sau mai multe variante din cadrul seriei; seria se va numi multimodală;
• nu conţine valori modale, toate valorile având aceeași frcvență de apariție.
Pentru o serie discretă de distribuţie de frecvenţe este foarte uşor să se calculeze modulul-se ia
valoarea cu frecvenţa cea mai mare.
Pentru serii de repartiţie cu intervale egale, valoarea dominantă se calculează pe etape:
• se identifică intervalul modal, adică cel cu frecvenţa cea mai mare;
• din intervalul modal se alege valoarea care ar reprezenta modulul
- dacă valorile sunt distribuite simetric atunci modulul corespunde cu centrul intervalului
- altfel, se aplică formula:

∆1
Mo = xinf
Mo
+k⋅
∆1 + ∆ 2

, unde:

-  este valoarea inferioară a intervalului modal;
- k este mărimea intervalului modal;
- ∆ 1 este diferența dintre frecvenţa intervalului modal si a celui precedent;

- ∆ 2 este diferenţa dintre frecvenţa intervalului modal si a celui următor.

2. Cuantilele sunt indicatori de poziție care împart seria statistică de distribuție într-un
număr de părți cu efective egale.
Cea mia importantă cuantilă este MEDIANA. Ea este cunatila care împarte seria de variație în două
părți de efective egale. Altfel spus, mediana este acea valoare a variabilei care împarte şirul datelor
ordonate crescător, în două părţi egale. Se notează, Me, și putem spune că reprezintă valoarea centrală a
unei serii de date aranjate crescător sau descrescător.
Observăm din definiție că apare noțiunea ”ordonată”, deci se poate aplica doar datelor cantitative,
sau ordinale.
Mediana are proprietatea:
1
P ( xi ≤ M e ) = P ( xi ≥ M e ) =
2
Pentru determinarea ei procedăm astfel (pentru o serie simplă):
1) se ordonează crescător sau descrescător elementele
2) se calculează valoarea mediană (dacă seria are un număr impar de termeni, atunci valoarea situată
pe poziția (n+1)/2 este valoarea medianei; dacă seria este formată dintr-un număr par de termeni, atunci
mediana este semisuma termenilor de rang n/2, n/2+1).
Pentru datele care sunt grupate în intervale de valori, pentru calculul medianei unei distribuţii de
frecvenţe se parcurg următoarele etape:
 se cumulează crescător frecvenţele de apariţie
– se determină locul medianei loc Me = (Σni)/2 , dacă numărul de date este par,
respectiv (Σni+1)/2, dacă acesta este impar).
 se stabileşte intervalul median ca fiind primul interval cu frecvenţa cumulată mai mare
decât locul medianei
 se determină mediana pe baza formulei:
locMe − Σn PMe
Me = xinf
Me
+k
n Me
Me
unde: xinf = limita inferioară a intervalului median, k = mărimea intervalului median, ∑n pMe =

suma frecvenţelor până la intervalul median, nMe = frecvenţa intervalului median.


B. Indicatorii variabilităţii faţă de tendinţa centrală

Indicatorii simpli ai împrăştierii sunt:


1. Amplitudinea variaţiei, calculată absolut prin: A=xmax - xmin, sau relativ prin:
xmax − xmin
A% =
x

xi − x
2. Abaterile individuale, date de: d i = x i − x , sau d i % = ⋅ 100 .
x
Indicatorii sintetici ai împrăştierii sunt:
n k

∑ x −x i ∑x
j =1
j − xnj
1. Abaterea medie absolută, dată de: d x = i =1
, sau ponderat d x = k
n
∑n
j =1
j

2. Dispersia, denumită și varianță, care reprezintă media aritmetică a pătratelor abaterilor


valorilor individuale de la tendinţa lor centrală (se mai notează V ( x ) = σ x2 , sau (), sau  ()).

∑ (x − x ) ∑ (x )
n k
2 2
i j − x nj
j =1
Expresia ei este dată de: σ 2 x = i =1
, sau ponderat de: σ 2 x = k
n
∑n
j =1
j

Rămâne valabilă observația făcută în cazul calculului valorii medii, și anume că, pentru o serie
statistică ce prezintă date grupate în clase de valori,  se înlocuiește în formulele de mai sus cu valoarea
centrală a clasei respective.
Observații și proprietăți ale dispersiei:
• Cu cât valorile sunt mai omogene cu atât dispersia este mai mică
• Pentru un numar mic de măsurători (în cazul în care se lucrează cu un eșantion mic), pentru

∑ (x )
n
2
i −x
calculul dispersiei se folosește formula: σ x2 = i =1
.
n −1
3. Abaterea medie pătratică, denumită și abaterea standard, care reprezintă media
pătratică a abaterilor valorilor individuale de la tendinţa lor centrală sau radical din dispersie:
∑ (x )
k 2
− x nj
∑ (x )
n 2
−x j=1
j

sau ponderat σ x =
i
σx = σ 2
= i =1 k

∑n
x
n j
j=1

Abaterea medie pătratică are aceiaşi unitate de măsură ca şi caracteristica urmărită și e cu atât mai
mare cu cât variaţia caracteristicii este mai mare. Abaterea medie pătratică ne oferă informații în
legătură cu modul de împrăștiere a termenilor unei serii față de valoarea medie
Pentru o serie ce prezintă tendință de normalitate, abaterea medie pătratică ne oferă informații
legate de procentele cu care sunt situați termenii în anumite vecinătăți ale valorii medii: aproxmativ
68.37% din termeni se află în intervalul (µ − σ , µ + σ ) ; 98.45% în (µ − 2σ , µ + 2σ ) ; 99.73% în
(µ − 3σ , µ + 3σ ) ; 99.94% în (µ − 4σ , µ + 4σ ) .

4. Coeficientul de omogenitate (de variaţie) este o măsură a dispersiei relative, care arată
abaterea medie pătratică ca procent din media aritmetică. El poate să ajute la compararea împrăştierii
σx
valorilor individuale a mai multor caracteristici. El se evaluează cu formula: CVx = ⋅ 100
X
Observaţie: Coeficientul de variaţie este cel mai sintetic indicator al împrăştierii.
Dacă Cv=0 seria este perfect omogenă, toți termenii sunt egali între ei și evident egali cu media; în
acest caz nu există variație.
Dacă Cv ≤ 5% seria este foarte omogenă, iar variația este foarte mică; media este foarte
reprezentativă, iar gruparea (în cazul seriilor de dstribuție de frecvențe grupate în clase) a fost bine
realizată.
Dacă Cv ≤ 35% seria este omogenă, iar media este reprezentativă.
Dacă Cv ≥ 70-75% seria este eterogenă, iar variația este foarte mare; media nu este reprezentativă,
iar gruparea nu a fost bine realizată, deci trebuie refăcută.
Exemplu: Pentru a vedea cum putem interpreta datele prelucrate astfel, să considerăm că un grup
de muncitori produce piese bune și cu defecte. Calculând elementele prezentate mai sus găsim valoarea
medie=3,4; valoarea modală=3; mediana=3; abaterea medie pătratică este 1,1; varianța=1,21.
Astfel obţinem următoarele informaţii:
- un angajat face în medie aproximativ 3 piese cu defecte (media);
- cei mai mulţi angajaţi fac câte 3 piese cu defecte (modala);
- jumătate din angajaţi fac până la 3 piese cu defecte, cealaltă jumătate, peste 3 piese cu defecte
(mediana);
- numărul de piese cu defecte făcute de angajaţi se abate cu plus-minus aproximativ 1 piesă de la
numărul mediu de piese, egal cu 3 (abaterea medie pătratică);
- dispersia este de 1 piesă ( varianţa).
În Excel, funcţiile corespunzătoare acestor parametri sunt, în această ordine, AVERAGE, MODE,
MEDIAN, STDEVP, VARP.

Calculul valorii modale și al medianei ( pentru serii grupate în clase)

Exemplu: Considerăm distribuţia din tabelul următor. Să se calculeze valoarea modală și mediana.
Intervale Frecvente
30 – 34 4
34 – 38 14
38 – 42 20
42 – 46 10
46 – 50 7
50 – 54 4
Peste 54 2
Total 61
Rezolvare:
∆1
Mo = xinf
Mo
+k⋅
∆1 + ∆ 2

Stabilim elementele necesare în formulă:


- Mo
xinf = 38

- k = 42 − 38 = 4
- ∆1 = 20 − 14 = 6

- ∆ 2 = 20 − 10 = 10
6
Apoi se aplică formula precedenta: M 0 = 38 + 4 = 38 + 1.5 = 39.5
6 + 10
• Mediana (Me) reprezintă valoarea centrală a unei serii de date aranjate crescător sau
descrescător. Pentru a o determina parcurgem pașii:
– se cumulează crescător frecvenţele de apariţie
– se determină locul medianei loc Me = (Σni+1)/2 , 61 fiind număr impar
– se stabileşte intervalul median ca fiind primul interval cu frecvenţa
cumulată mai mare decât locul medianei
– se determină mediana pe baza formulei:

locMe − Σn PMe
Me = xinf
Me
+k
n Me

Mo
x inf = limita inferioară a intervalului median
k = mărimea intervalului median
ΣnpMe = suma frecvenţelor până la intervalul median
nMe = frecvenţa intervalului median

Intervale Frecvente Frecvența cum. crescător


30 – 34 4 4
34 – 38 14 18
38 – 42 20 38
42 – 46 10 48
46 – 50 7 55
50 – 54 4 59
Peste 54 2 61
Total 61 61

Astfel loc Me loc Me=62/2=31


Deci elementele din formulă sunt următoarele:
- x Me
inf
= 38

- k = 42 − 38 = 4
- n M e = 20

- ∑n PMe = 18
31 − 18 13
 = 38 + 4 = 38 + = 38 + 2.6 = 40.6
20 5

II. Elemente de teoria probabilităților folosite în studiul calității.

A. Variabile aleatoare
Variabila aleatoare este una din noţiunile fundamentale ale teoriei probabilitãţilor şi a statisticii
matematice. In urma unui proces tehnologic de prelucrare se constatã cã, deşi condiţiile de uzinare sunt
identice, între reperele prelucrate la anumite perioade de timp existã diferenţe în cea ce priveşte
dimensiunile prescrise.
Dacã ne referim la o singurã mãsurãtoare, variabila aleatoare este acea mãrime care în cadrul unui
experiment poate lua o valoare necunoscutã aprioric.
Pentru un şir de mãsurãtori, variabila aleatoare este o noţiune care-l caracterizeazã din douã puncte
de vedere:
- caracterizare din punct de vedere cantitativ - variabila aleatoare ne dã informaţii privind valoarea
numericã a mãrimii mãsurate
- caracterizare din punt de vedere calitativ - variabila aleatoare ne dã informaţii privind frecvenţa de
apariţie a unei valori numerice într-un şir.
Dacã valorile numerice ale unui şir de date aparţin mulţimii numerelor întregi sau raţionale atunci
se defineşte o variabilã aleatoare discretã. In cazul apartenenţei valorilor la mulţimea numerelor reale se
defineşte o variabila aleatoare continuã.
Primul caz se întâlneşte în cazul numãrului de piese defecte extras dintr-un lot de fabricaţie care
aparţine totdeauna mulţimii numerelor întregi. Al doilea caz se întâlneşte în cercetarea experimentalã, de
exemplu la mãsurarea forţei de aşchiere, sau a momentului, când valorile obţinute aparţin mulţimii
numerelor reale
O variabilã aleatoare se noteazã cu litere mari A,B,X, cu litere mici notându-se valorile posibile:
(x1 , x 2 ,... xn ) .

1. Variabile aleatoare discrete

Considerãm un experiment în urma cãruia pentru variabila X rezultã valorile x1 , x2 ,..., x n .

Probabilitatea ca o valoare oarecare “i” sã aibã valoarea xi este pi . Pentru toate valorile mãsurate se poate
construi un tablou de forma:

 x1 x2 ... x n 
X =  
 p1 p2 ... pn 
care poartã denumirea de tabloul repartiţiei. In prima linie sunt trecute toate valorile posibile ale
caracteristicii şi în a doua sunt trecute probabilităţile de apariţie a acelor valori.
Aplicaţie Considerãm un lot de 100 bucãţi pentru care coeficientul de rebut este 6%. Se efectueazã
o singurã extragere. Sã se construiascã variabila aleatoare a numãrului de piese defecte. Deoarece
coeficientul de rebut este 6% numãrul pieselor defecte este de 6. Efectuând o singurã extragere se poate
întâmpla sã nu fie extrasã nici o piesã defectă, deci în acest caz numãrul pieselor defecte este zero, sau o
piesã defectã. Notând cu p probabilitatea de-a extrage o piesã defectã şi cu q probabilitatea de a extrage o
piesã bunã, valorile probabilitãţilor sunt: p=0,06; q=0,94. In consecinţã valorile probabilitãţii de-a extrage
0 piese defecte şi a probabilitãţii de-a extrage o piesã defectã sunt:
0 1 
X =   .
 0.94 0.06 
Legãtura care existã între valorile variabilei aleatoare şi probabilitățile de apariţie a acestor valori
poartã denumirea de lege de repartiţie. Legea de repartiţie se poate reprezenta grafic sub forma diagramei
cu bare, histograme, poligonul repartiţiei.
In cazul în care se poate determina o expresie analiticã care sã stabileascã o legãturã între variabila
aleatoare şi probabilitate, aceasta poartã denumirea de funcţie de probabilitate: Expresia ei analiticã este:
P ( X = x i ) = P ( x i ) = pi .
n
Are loc relația: ∑p
i =1
i =1.
In multe aplicaţii ne intereseazã probabilitatea evenimentului X ≤ xi . Si în acest caz se poate construi
un tablou al repartiţiei. Dacã este posibilã determinarea unei expresii analitice care sã stabileascã o legãturã
între valorile aleatoare şi probabilitãţile respective aceastã funcţie va purta numele de funcţie de repartiţie.
Expresia ei este:
F( xk ) = P( X ≤ xk )

Cunoscând funcţia de probabilitate a unei variabile aleatoare discrete funcţia de repartiţie va fi :

F (x k ) = ∑ P (x j ) = ∑ p j .
k k

j =1 j =1

Intre noțiunea de probabilitate și noțiunea de frecvență relativă, pentru variabile aleatoare discrete,
poate fi pus semnul de egalitate, cea ce face ca teoria probabilitatilor să poată fi aplicată în statistică.

2. Variabile aleatoare continue


In cazul variabilelor aleatoare continue, construirea unui tablou al repartiţiei nu este realizabilã
deoarece existã o infinitate de valori posibile. In aceste cazuri pentru a putea analiza şirurile de valori se
utilizeazã funcţia de repartiţie. Construcţia ei implicã determinarea probabilitãţii evenimentului X<x.
Expresia ei va fi definitã de integrala:
x
F ( x ) = P( X < x ) = ∫ f (x )dx
−∞

unde f(x) reprezintã densitatea de probabilitate, care poate fi definitã ca primã derivatã (dacã existã)
a funcţiei de repartiţie F(x).
Geometric, funcţia de repartiţie pentru variabile aleatoare continue este reprezentatã de aria haşuratã
cuprinsã între curba densitãţii de probabilitate şi axa absciselor, iar aria totalã este egalã cu unitatea. Deci
graficul oricãrei funcţii la care aria mãrginitã de aceasta şi axa absciselor este egalã cu unitatea poate fi
curba unei densitãţi de probabilitate.

3. Apartenenţa unei variabile aleatoare la un interval dat


Se considerã o variabilã aleatoare la care i s-a determinat funcţia densitãţii de probabilitate respectiv
funcţia de repartiţie. Considerând un interval [a, b ) ne intereseazã sã determinãm care este probabilitatea
ca ea sã aparţinã acestui interval, respectiv P(a≤X<b).
Pe baza definiţiei funcţiei de repartiţie avem relația: P (a ≤ x < b ) = F (b ) − F (a )
b
P (a ≤ x < b ) = ∫ f ( x )dx
a

In concluzie probabilitatea ca o variabilã sã aparţinã intervalului este egalã cu aria trapezului


curbiliniu mărginit de axa x, curba densitãţii de probabilitate f(x) şi dreptele x=a şi x=b.

4. Caracteristici numerice IMPORTANTE ale variabilelor aleatoare

1. Media
a) Cazul variabilelor aleatoare discrete

 x1 x2 ... x n  n
Fie X =   o variabilă aleatoare simplă cu pi ≥ 0, ∑ pi = 1 .
 p1 p2 ... pn  i =1

Media variabilei X este numărul


Pentru n → ∞ seria trebuie să fie convergentă.
b) Cazul variabilelor continue
 x 
Fie X =   , x ∈ R o variabilă aleatoare continuă.
 f ( x) 
Media variabilei X este

Această integrală improprie trebuie să fie convergentă.


Dacă x ∈ [a, b] , atunci
Valoarea medie se mai notează uneori cu µ .
2. Dispersia (momentul centrat de ordinul doi)
a) Cazul variabilelor aleatoare discrete
n
D ( x ) = ∑ ( x i − m ) pi
2

i =1

b) Cazul variabilelor aleatoare continue


∞ b
D( X ) = ∫ (x − m ) f ( x )dx sau D ( X ) = ∫ (x − m ) f ( x )dx
2 2

−∞ a

3. Abaterea medie pătratică sau abaterea standard


σ ( X ) = D( X ) .

Ea măsoară gradul de împrăștiere a valorilor variablei aleatoare în jurul mediei.

Inegalitatea lui Cebîșev: Fie X o variabilă aleatoare ce are media și dispersia finite.

Atunci are loc relația: P ( X − µ ≥ ε ) ≤


D
.
ε2

Echivalent avem: P ( X − µ < ε ) ≥ 1 −


D
.
ε2

B. Scheme clasice de probabilitate folosite în controlul calității. Repartiţii discrete

1. Repartiţia binomialã (schema urnei cu bila revenită)


Aceastã repartiţie corespunde urmãtorului tip de experiment: Fie A un eveniment care se produce
cu probabilitatea p. Evenimentul contrar este A care se produce cu probabilitatea q. Cele douã formeazã
un sistem de evenimente, producerea unuia excluzând producerea celuilalt. Se repetã experimentul de n
ori. In cele n ocazii evenimentul A s-ar putea sã nu se producã nici o datã, s-ar putea sã se producã o datã,
s-ar putea produce de n ori. Ne intereseazã sã determinãm de fiecare datã probabilitatea de realizare a
evenimentului A. In acest caz am putea scrie un tablou de repartiţie de urmãtoarea formã:

 0 1 ... n 
X =  
 p0 p1 ... pn 
unde în prima linie sunt trecute numãrul de realizãri ale evenimentului A şi-n linia a doua sunt trecute
probabilitãţile de realizare. Pentru a determina relaţia cu ajutorul cãreia vom determina aceste probabilitãţi
plecãm de la observaţia cã acest tip de experiment corespunde controlului de fabricaţie a unui lot la care
se fac n extrageri punând de fiecare datã piesa extrasã la loc. Lotul trebuie verificat dacã are un coeficient
de rebut p. Fie A evenimentul se extrage o piesã şi aceasta piesã este defectã. Probabilitatea unui astfel de
eveniment este egalã cu coeficientul de rebut. Evenimentul contrar îl reprezintã cazul în care piesa extrasã
este bunã, probabilitatea unui astfel de eveniment fiind q. Prin punerea la loc a piesei dupã constatarea
calitãţii acesteia nu se modificã coeficientul de rebut şi nici probabilitatea extragerii unei piese defecte în
cazul repetãrii experimentului.
Funcţia de probabilitate a repartiţiei binomiale este datã de expresia:
p k = P ( X = k ) = C nk p k q n − k

Funcţia de repartiţie a repartiţiei binomiale este datã de expresia:


k
F (k ) = P ( X ≤ k ) = ∑ C nj p j q n − j
j =0

Formulele pentru principalele valori tipice ale variabilelor aleatoare sunt:


n
Media M ( X ) = µ = ∑ j ⋅ Cnj p j q n − j = np
j =0

Dispersia D ( X ) = npq . Abaterea medie pătratică σ ( X ) = npq

În mediul EXCEL funcția crespunzătoare este BINOMDIST. Functia BINOMDIST are nevoie de
4 argumente:
numarul defectelor ce pot fi găsite, numărul de extrageri; valoarea lui p și o valoare logică (FALSE
sau TRUE) ce conduce:
• la obținerea probabilităților (deci a funcției de probabilitate), caz în care introducem FALSE în cel
de-al patrulea argument;
• la obținerea fncției de repartiție (pt. cea cumulativă), caz în care introducem TRUE în cel de-al
patrulea argument;
Aplicatii (seminar 2)
Problema 1: Dintr-un lot având coeficientul de rebut p=10% se extrag consecutiv, punând de
fiecare datǎ piesa extrasǎ la loc, 4 unitǎţi.
1. Sǎ se construiascǎ variabila aleatoare a numǎrului de piese defecte;
2. Sǎ se stabileascǎ decizia de acceptare/respingere a lotului:
Soluție:
 0 1 ... m 
Variabila aleatoare se reprezintă astfel : X =  
 p0 p1 ... pm 
Funcţia de probabilitate are expresia: P ( X = k ) = P (k ) = C nk p k q n −k
k
Funcţia de repartiţie este: P ( X ≤ k ) = F (k ) = ∑ Cnj p j q n − j
j =0

Recunoaștem repartiția bnomială. Folosim funția BINOMDIST. Identificăm elementele necesare


pentru problema de față: k =0,1,2,3,4; n=4; p=0,1; FALSE (pentru variabila aleatoare a numărului de
piese defecte, sau TRUE pentru cea cumulativă)

Variabila aleatoare a numǎrului de piese defecte obținută este:


0 1 2 3 4 
X =  
 0.6561 0.2916 0.0486 0.0036 0.0001
Variabila aleatoare a cel mult “k” piese defecte este:
0 1 2 3 4
#=
0,6561 0,9477 0,9963 0,9999 1

Decizia de acceptare (se caută în general o probabilitate cuprinsă între 0.91 și 0.95): lotul este
acceptat dacǎ în 4 verificǎri consecutive se gǎseşte cel mult o piesǎ defectǎ.

Problema 2: Dintr-un lot de piese, cu un coeficient de rebut de 5% , se extrag consecutiv punând


de fiecare data piesa extrasa la loc 4 piese. Să se construiasca variabila aleatoare a numarului de piese
defecte și să se calculeze funcția ei de repartiție.
Soluție:
 0 1 ... m 
Variabila aleatoare se reprezintă astfel : X =  
 p0 p1 ... pm 
Funcţia de probabilitate are expresia:
P ( X = k ) = P (k ) = C nk p k q n −k

Funcţia de repartiţie este:


k
P ( X ≤ k ) = F (k ) = ∑ Cnj p j q n − j
j =0
Recunoaștem repartiția bnomială. Funcția EXCEL crespunzătoare este BINOMDIST . Identificăm
elementele necesare pentru problema de față: k =0,1,2,3,4; n=4; p=0.05; FALSE (pentru variabila
aleatoare a numărului de piese defecte, sau TRUE pentru cea cumulativă)

 0 1 2 3 4 
Obținem: X =  
 0.814506 0.171475 0.013538 0.000475 6.25E − 06 
Pentru funcția de repartiție avem valorile de pe rândul doi din tabelul următor:
 0 1 2 3 4
Y =  
 0.814506 0.985981 0.999519 0.999994 1 
Ea reprezintă variabila aleatoare a cel mult k piese defecte între cele extrase.

2. Repartiţia hipergeometricã (schema urnei cu bila nerevenită)


Modelul matematic al acestei repartiţii este similar celui binomial, diferenţa constând în faptul cã
elementul extras pentru control nu se mai întoarce în lot, şi în consecinţã, la fiecare nouã extragere, se
modificã condiţiile şi deci şi probabilitatea de extragere a unei piese defecte. Din acest motiv extragerea
se mai numeşte fãrã întoarcere.
Se considerã un lot la care trebuie verificat coeficientul de rebut p. Cunoscând mãrimea lotului n se
pot determina numãrul de piese defecte a, respectiv numãrul de piese bune b.
Se efectueazã m extrageri consecutive, fãrã a pune piesa extrasã la loc; în cele m extrageri
consecutive pot sã rezulte 0 piese defecte, 1 piesã defectã,...., sau m piese defecte. In consecinţã putem
construi un tablou de repartiţie în care pe prima linie sã trecem numãrul pieselor defecte şi-n linia a douã
probabilitatea fiecãrui eveniment posibil.

 0 1 ... m 
X =  
 p0 p1 ... pm 
Probabilitatea, sau formula care determinã funcţia de probabilitate, are, în acest caz, expresia:
Cak Cbm − k
P( X = k ) = P(k ) =
Cnm
Funcţia de repartiţie este:
k
Caj Cbm − j
P( X ≤ k ) = F (k ) = ∑
j =0 Cnm
n
Caj Cbm − j a
Media M ( X ) = µ = ∑ j ⋅ m
= mp , unde p =
j =0 Cn n

n−m  m
Dispersia D ( X ) = mpq . Dacă n >> m , atunci D ( X ) = mpq 1 −  . Abaterea medie pătratică
n −1  n

σ (X ) = D(X ) .
Funcția EXCEL corespunzătoare este HYPGEOMDIST și are nevoie de 4 argumente:
Numărul defectelor ce pot fi găsite, pentru care avem pe rând valorile 0, 1,2,...etc., marimea probei
extrase, numărul de defecte din populație, adică a, efectivul populației statistice, adică n

Aplicații (seminar 2)
Problema 1: Dintr-un lot de 500 de piese, cu un coeficient de rebut de 6% , se extrag consecutiv,
fară a pune piesa extrasă la loc, 4 piese. Să se construiască variabila aleatoare a numărului de piese
defecte și să se calculeze funția ei de repartiție.
Soluție: Recunoaștem repartiția hipergeometrică prin prezența exprimării ” se extrag consecutiv
fără a pune piesa extrasa la loc”.
– n numărul total de piese;
– m numărul de piese extrase;
– k numărul de piese defecte obținut;
– a numarul de piese defecte;
– b numarul de piese bune.

 0 1 ... m 
Variabila aleatoare se reprezintă astfel : X =  
 p0 p1 ... pm 
Funcţia de probabilitate are expresia:
Cak Cbm −k
P( X = k ) = P(k ) = pk = (probabilitatea ca din cele m piese extrase, k să fie defecte)
Cnm
k
Caj Cbm − j
Funcţia de repartiţie este: P ( X ≤ k ) = F (k ) = ∑
j =0 Cnm
Funcția EXCEL crespunzătoare este HYPGEOMDIST. Identificăm elementele necesare pentru
problema de față:
• numărul defectelor acceptate, argument pentru care avem pe rând valorile 0, 1, 2, 3, 4.
• mărimea probei alese, aici argumentul este 4
• numărul de piese defecte din populație a=6%*500=30
• numărul populației statistice 500
 0 1 2 3 4 
Obținem X =  
 0.780148 0.200466 0.018633 0.000742 1.07 E − 05
Pentru funcția de repartiție se construiește un tablou asemănător, dar pe rândul doi se cumulează
valorile precedente fiecărui element corespunzător
 0 1 2 3 4
Y =  
 0.780148 0.780148 + 0.200466 0.780148 + 0.200466 + 0.018633 la fel 1 
Ea poate fi considerată variabila aleatoare a cel mult k piese defecte între cele extrase.

Problema 2: Dintr-un lot de 100 de bucǎţi având coeficientul de rebut p=8% se extrag consecutiv
fǎrǎ a pune piesa extrasǎ la loc 3 unitǎţi.
1. Sǎ se construiascǎ variabila aleatoare a numǎrului de piese defecte;
2. Sǎ se stabileascǎ decizia de acceptare/respingere a lotului în cazul în care între piesele extrase
există cel mult una defectă.
Soluție: Recunoaștem repartiția hipergeometrică.

 0 1 ... m 
Variabila aleatoare se reprezintă astfel : X =  
 p0 p1 ... pm 
Funcţia de probabilitate are expresia:
Cak Cbm −k
P( X = k ) = P(k ) = pk = (probabilitatea ca din cele m piese extrase, k să fie defecte)
Cnm
Funcţia de repartiţie este:
k
Caj Cbm − j
P( X ≤ k ) = F (k ) = ∑
j =0 Cnm
Funcția EXCEL crespunzătoare este HYPGEOMDIST. Identificăm elementele necesare pentru
problema de față:
• numărul defectelor acceptate, argument care are pe rând valorile 0, 1,2,3.
• mărimea probei alese, aici argumentul este 3
• numărul de defecte din populație a=8
• numarul populatiei statistice 100
Variabila aleatoare a numǎrului de piese defecte este:
0 1 2 3 
X =  
 0.7767 0.2070 0.0159 0.0004 
Variabila aleatoare a cel mult “k” piese defecte este:
0 1 2 3
X =  
 0.7767 0 .9837 0.9996 1 
Decizia de acceptare: Deoarece probabilitatea de-a accepta/respinge lotul nu este cuprinsǎ între 95%
(riscul furnizorului), şi 90% (riscul beneficiarului), este necesarǎ recalcularea parametrilor pentru alte
mǎrimi ale eşantionului (m=4, 5,…unitǎţi).

Observație: Funcţia EXCEL : = HYPGEOM.DIST funcționează la fel cu HYPGEOMDIST doar


că mai necesită un argument logic, cel de-al 5-lea. Cele două variante de alegere sunt asemănătoare cu
cele din cazul lui BINOMDIST: FALSE este necesar în cazul în care se dorește variabila aleatoare a
numărului de piese defecte, iar TRUE pentru funcția ei de repartiție.

Distribuții continue. Distribuția normală (GAUSS)

Distribuția normală, sau distribuția Gauss (distribuția gaussiană), sau legea normală, este cea mai
importantă distribuție continuă, deoarece în practică multe mărimi variabile sunt de fapt variabile aleatoare
normale, sau aproximativ variabile aleatoare normale, sau pot fi transformate în astfel de variabile. Ea
depinde de doi parametri: valoarea medie, , și deviația standard, ' (care este strâns legată de dispersia
'  , ' = √' ). Este o lege care descrie mărimile variabile care iau valorile apropiate de medie mult mai
frecvent decât alte valori și care iau valori simetric distribuite față de valoarea medie.
De obicei notația folosită implică prezența, specificarea, valorii medii și a abaterii standard, și
este )(, '), dar uneori se folosește și notația )(, '  ). Prima reprezentare este mult mai apropiată de
sintaxa funcțiilor din Excel, dar în practică trebuie să fim atenți care dintre cele două mărimi se precizează
în notația folosită: '  , sau ' .
Definiție. Distribuția normală, (sau distribuția Gauss) de parametri valoare medie , și deviație
standard ', este distribuția unei variabile aleatoare continue, a cărei densitate de probabilitate este:
1 (879):
7
5( ) =  ;: , ∈=
'√26
În cazul particular în care  = 0 și '  = 1, deci ' = 1, spunem că X este o varaibilă aleatoare
normală standard,  ∈ )(0,1).
Reprezentarea geometrică a graficului repartiției normale se mai numește și clopotul lui Gauss, datorită
asemănării cu un clopot.
În figura următaore sunt prezentate diferite reprezentări grafice pentru  ∈ )(, ')
µ = 0, σ = 1
µ = 0, σ = 2
µ = 0, σ = 4

Graficul distribuției normale pentru diverse valori ale lui µ , σ

Observații:
1. Graficul este simetric față de dreapta x = µ .
2. Are un punct de maxim x = µ
3. Are două puncte de inflexiune x = µ ± σ
4. Pentru valori mari ale lui σ graficul tinde mai repede catre 0 pe masură ce x → ±∞
µ = 0, σ = 1
µ = 0, σ = 2
µ = 0, σ = 4
µ = 2, σ = 3

Pentru realizarea graficului sau pentru calculul unor valori numerice ale diverselor probabilități
legate de variabila aleatoare normală se pot folosi tabelele consacrate sau facilitățile aplicației Excel.
Funcția de repartiție pentru variabila aleatoare ce respectă o lege normală cu meida µ și abaterea
standard σ este:
x (t − µ )2
1 −
F (x ) = ∫σ e 2σ 2
dt = N ( x; µ , σ ) .
−∞ 2π
Proprietăți:
x −
(t − µ )2
1
F (x ) = ∫ e 2σ 2
dt = N (x; µ , σ ) ≥ 0
−∞ σ 2π
∞ −
(t − µ )2
1
F (∞ ) = ∫ e 2σ 2
dt = N (∞; µ , σ ) = 1 .
−∞σ 2π
Valaorea medie este chair µ , dispersia este σ 2 iar abaterea medie pătratică este σ .
x −m
(t − µ )2 2
σ
1 − y2 x−µ 
x −
1
F (x ) = ∫ e 2σ 2
dt = N (x; µ , σ ) = ∫ e dy = N  ; 0,1
−∞σ 2π −∞ 2π  σ 
2
z
1 − y2
Φ (z ) = ∫ e dy se numește funcția lui Laplace.
−∞ 2π
Φ (− z ) = 1 − Φ (z )

Φ (∞ ) = 1

x−µ
F ( x ) = N ( x; µ , σ ) = Φ  
 σ 

b−µ a−µ
P ( X < a ) = F (a ); P (a ≤ X < b) = F (b) − F (a ) = Φ   − Φ .
 σ   σ 

Funcțiile de repartiție corespunzătoare în Excel sunt:

° funcția NORMDIST-Întoarce repartiția normală pentru valorile specificate ale mediei și abaterii
standard.

NORMDIST are nevoie de următoarele 4 argumente:

• x - valoarea pentru care doriți să calculați repartiția.


• medie - media aritmetică a repartiției.
• dev_standard - abaterea standard a repartiției.
• cumulativ - o valoare logică: pentru TRUE, NORMDIST întoarce funcția de repartiție
cumulativă; în cazul FALSE, ea întoarce funcția densitate de probabilitate.

NORMDIST(x, medie, dev_standard, cumulativ)

° funcția NORMSDIST- Întoarce funcția de repartiție normală cumulativă standard. Repartiția


are media și abaterea standard 1. Ea are nevoie doar de argumentul pentru care doriți funcția de
repartiție, și anume, de valoarea lui x: NORMSDIST(x).

S-ar putea să vă placă și