Sunteți pe pagina 1din 26

Statistica

Notiuni Generale

De ce studiem statistica?

− Pentru a putea efectua în mod eficient un experiment științific.


− Deoarece ajută inginerii să știe ce date să colecteze înainte de a realiza operația de achiziție a
acestora.
− Permite să analizăm rezultatele obținute de alți ingineri/cercetători.
− Ne ajută să analizăm corect un set de date utilizând metode adecvate.
Care este utilitatea?
− Ne oferă numeroase metode și tehnici care ne permit să rezolvăm probleme practice în
diferite domenii de activitate.
− Ne ajută să raționăm corect pe o bază fundamentată matematic.
− Contribuie la dezvoltarea unor abilități de gândire analitice și critice.
− Ne permite obținerea unor informații utile despre un set de date.
Ce este Statistica?
Conform DEX (https://dexonline.ro/definitie/statistica):
1. Evidență numerică, situație cifrică referitoare la diverse fenomene.
2. Știință care culege, sintetizează, descrie și interpretează date referitoare la fenomene
generale.
3. Știință care, folosind calculul probabilităților, studiază fenomenele de masă din punct de
vedere cantitativ.
Unde se foloseste?

Care este obiectivul?


Familiarizarea cu anumite noțiuni de bază în statistică şi utilizarea corectă în diverse aplicaţii practice.

Statistica – poate fi definită în sens general ca o disciplină științifică ce se referă la colectarea,


interpretarea / explicarea și prezentarea datelor.

Statistica – reprezintă știința care se ocupă cu colectare, clasificarea, prezentarea, interpretarea


datelor numerice și folosirea acestora pentru a formula concluzii și a lua decizii.
Date – o colecție de numere asociate ca valori numerice unor variabile cantitative și/sau
cuvinte /simboluri asociate ca valori nenumerice unor variabile calitative.
Set de date – o colecție de date numerice / nenumerice asociate unei variabile.
Surse de date
– Surse externe
• rapoarte existente
• înregistrări (fișe).
– Experimente controlate
• Se aplica un impuls (stimul) și se încearcă măsurarea răspunsului.
– Sondaje statistice
Statistica descriptivă - se ocupă cu colectarea, clasificarea și prezentarea datelor numerice.
1. Sub forma tabelara:

2. Sub forma grafica:

Statistica inferențială - se ocupă cu interpretarea datelor oferite de statistica descriptivă și cu


folosirea acestora pentru a formula concluzii și a lua decizii.
Populația – mulțime de obiecte sau fenomene, calitativ omogene ce poate fi reprezentată de
mulțimea indivizilor supuși unui studiu, mulțimea produselor ce rezultă dintr-un proces tehnologic
sau mulțimea valorilor pe care le poate lua o caracteristică de calitate a unui produs.
Eșantionul – reprezintă acea parte a populației asupra căreia experimentatorul aplică metode
statistice propriu-zise, pentru a obține concluzii pe care le extrapolează asupra întregii populații.

Extrapolare = inferenţă statistică – ramură a metodelor științifice de investigare a unei populații,


care cu margini specificate de incertitudine exprimată în termeni probabiliști, face trecerea de la
observații la concluzii privind populația.
Unitatea statistică - este elementul, individul, entitatea de sine stătătoare a unei populații
statistice, care posedă o serie de trăsături caracteristice ce-i conferă apartenența la populația studiată.
Variabila statistică - reprezintă o însușire, o proprietate măsurabilă a unei unități statistice,
întâlnită la toate unitățile care aparțin aceleiași colectivități și care prezintă variabilitate (variază ca
nivel) de la o unitate statistică la alta.

Variabile statistice
– După relația de cauzalitate:
• Independente = variabile ce pot fi utilizate pentru a descrie sau a explica variațiile
survenite în alte variabile;
• Dependente = un rezultat observat/măsurat pentru a evalua efectele unei
variabile independente.
– După dimensiunea în care sunt definite:
• De timp = se referă la dimensiunea temporală;
• De spațiu = se referă la locul (unui element/individ) ;
• Atributive = se referă la un atribut asociat (profesia unei persoane).
– După modul de obținere:
• Primare = se obţin, de obicei, direct din procesul de culegere a datelor;
• Derivate = sunt rezultate în urma aplicării unui model de calcul asupra
caracteristicilor primare.
– După natura variabilelor:
• Calitative = exprimate prin cuvinte (facultatea absolvită);
• Cantitative = exprimate prin numere (vârsta unor persoane).
– După tipul variației:
• Continuă = pot lua practic orice valoare într-un interval dintr-un domeniu;
• Discontinuă (discretă) = pot lua doar anumite valori într-un interval dintr-un
domeniu.
– După numărul de variante:
• Alternative = de tipul variabilelor logice („adevărat/fals”), care pot avea doar
două variante de răspuns (căsătorit/necăsătorit);
• Nealternative = cele care pot avea cel puţin trei variante (salariul – 1500 lei, 1700
lei, 2000 lei).
Parametru - este o caracteristică numerică a unei populații.
O statistică - este o caracteristică numerică a unui eșantion.
Metode pentru evaluarea caracteristicilor populației
a) Recensământ = metodă de observare totală, cu localizare în timp și spațiu, ce presupune
înregistrarea valorilor caracteristicilor vizate de la toate unitățile populației statistice.
b) Screening = metodă asemănătoare recensământului utilizată pentru depistarea unor indivizi
din populație ce prezintă un parametru cu o abatere deosebită.
c) Selecție (eșantionare) = metodă de observare parțială ( cel mai des utilizată), pentru care se
alege o submulțime a populației (eșantion, lot, grup) pe care se efectuează măsurătorile
urmărite.
Cadrul de eșantionare = este o listă de elemente care aparțin populației, din care va fi extras
eșantionul.
Proiectarea eșantionului = înseamnă stabilirea procedurii de alegere a elementelor eșantionului.
Procedee de alegere a elementelor eșantionului:
− procedee bazate pe reprezentativitate;
− procedee probabiliste.
Eșantion reprezentativ = conține proporțional elemente ce dețin toate caracteristicile populației.
Eșantion probabilist = conține elemente ce au aceeași șansă nenulă de a fi selectate din populație.
Teoria probabilităților operează cu o serie de noţiuni specifice
Experimentul reprezintă procesul prin care se efectuează o observație sau o măsurătoare.
Realizarea reprezintă rezultatul unui experiment
Evenimentul reprezintă colecția tuturor realizărilor.
Datele cu care operează teoria probabilităților și statistica sunt obținute în urma observațiilor
evenimentelor necontrolabile din natură/societate sau sunt obținute ca rezultat a unui experiment
controlat.
• Exemple de experimente
– Înregistrarea consumului de apa, al studenților, în intervalul 17-20 la cursul de CSP;
– Inspectarea unei linii de asamblare pentru a determina dacă se produc produse
defecte.
• Exemple de evenimente
– Obținerea numărului de 8 sticle de apa;
– Extragerea unui produs defect de pe linia de asamblare.
Evenimentul imposibil Ø - este evenimentul care nu se realizează niciodată în cadrul unui
experiment.
Evenimentul aleator A - este evenimentul care se poate produce în cadrul unui experiment.
Evenimentul sigur Ω -este evenimentul care se produce în mod obligatoriu într-un experiment.
Câmp de evenimente - reprezintă totalitatea evenimentelor care pot avea loc în cadrul unui
experiment ( include evenimentul sigur, evenimentul imposibil și toate evenimentele aleatoare care
pot avea loc).
Experimentul clasic = aruncarea zarului
– realizări posibile = apariția feței cu numărul 1,2,3,4,5,6.
– evenimentul imposibil = apariția cifrei 7.
– evenimentul aleator = apariția cifrei 5.
– evenimentul sigur = apariția unui număr par sau impar.
Clasificarea evenimentelor
Evenimente dependente sunt două sau mai multe evenimente a căror realizare depind de
realizarea unui alt eveniment.
Evenimente independente sunt evenimentele a căror realizare nu depind de realizarea unui alt
eveniment.
– aruncarea zarului de două ori
𝐴 = {1} 𝐵 = {5}
Apariția cifrei 5 la ce-a de-a 2 aruncare nu depinde de apariția cifrei 1 de la prima aruncare.
Operații cu evenimente
Reuniunea evenimentelor = realizarea a cel puțin a unuia din evenimente A sau B
𝐴∪𝐵
Intersecția evenimentelor = realizarea evenimentului A și a evenimentului B
𝐴∩𝐵
Evenimente compatibile (𝑨 ∩ 𝑩 ≠ ∅ ) sunt două sau mai multe evenimente care se pot realiza
“simultan” în cadrul unui experiment.
Evenimente incompatibile (𝑨 ∩ 𝑩 = ∅ ) sunt evenimentele care nu se pot realiza simultan în
cadrul unui experiment.
Evenimente contrare (𝑨 ∪ 𝑩 = Ω A ∩ 𝑩 = ∅) sunt evenimente la care realizarea unuia constă
din nerealizarea celuilalt.
Evenimentul sigur și evenimentul imposibil sunt contrare unul altuia.
Probabilitatea este o măsură numerică ce cuantifică șansa unui eveniment de a se produce într-
un experiment.
− Se măsoară pe o scală de la 0 la 1, 0 corespunzând evenimentului imposibil Ø, iar 1
evenimentului sigur Ω.
− Suma probabilităților tuturor evenimentelor posibile trebuie să fie egală cu 1.
𝑛

∑ 𝑃𝑖 = 1
𝑖=1
Atribuirea probabilităților unui eveniment:
• Metoda frecvențelor relative
𝑛𝑖 𝑛𝑢𝑚ă𝑟𝑢𝑙 𝑒𝑣𝑒𝑛𝑖𝑚𝑒𝑛𝑡𝑒𝑙𝑜𝑟 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑖𝑙𝑒
𝑃(𝐴) = =
𝑁 𝑛𝑢𝑚ă𝑟𝑢𝑙 𝑒𝑣𝑒𝑛𝑖𝑚𝑒𝑛𝑡𝑒𝑙𝑜𝑟 𝑝𝑜𝑠𝑖𝑏𝑖𝑙𝑒
Aruncarea zarului
1
− apariția unei fețe 𝑃(𝐴) =
6
3 1
− apariția unei fețe cu număr impar 𝑃(𝐴) = =
6 2
Exemplu:
Într-un lot format din 100 de piese există 4 piese defecte. Care este probabilitatea extragerii
unei piese defecte?

A = evenimentul extragerii unei piese defecte


𝑛𝑖 4
𝑃(𝐴) = = = 0.04 = 4%
𝑁 100
Coeficientul de rebut “p”
4
𝑝= 0.04 = 4%
100

• Metoda subiectivă
– regula de adunare a probabilităților;
• Cu evenimente ce se exclud reciproc:
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) ∪ 𝑃(𝐵)
• Cu evenimente ce nu se exclud reciproc:
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) ∪ 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
– regula de înmulțire a probabilităților.
• Pentru evenimente dependente:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵|𝐴)
• Pentru evenimente independente:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵)

Expresia 𝑃(𝐵|𝐴) reprezintă o probabilitate condiționată, adică probabilitatea ca B să fie afectat de


apariția lui A
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵|𝐴) =
𝑃(𝐴)
Expresia 𝑃(𝐵|𝐴) reprezintă o probabilitate condiționată, adică probabilitatea ca B să fie afectat de
apariția lui A
Formula lui Bayes
• Pentru două evenimente A și B, cu𝑃(𝐵) ≠ 0, probabilitatea condiționată 𝑃(𝐵|𝐴) este
probabilitatea ca evenimentul B să se producă știind că evenimentul A s-a produs într-un
moment anterior.
• Evenimentul B reprezintă efectul pentru care A este o cauză posibilă.
P (Bi )P ( A Bi )
P (Bi A) =
P (B1 )P ( A B1 ) + P (B2 )P ( A B2 ) + ... + P (Bn )P ( A Bn )
Exemplu:
Din populaţia unui oras 75% folosesc apa din sistemul centralizat.
− 10% din populaţie prezintă probleme ale tractului intestinal
− 60% din cei cu probleme folosesc apa din sistemul centralizat.
Care este probabilitatea ca alegând la întâmplare un locuitor ce folosește apa din sistemul
centralizat să prezinte probleme ale tractului intestinal?
Evenimentele care pot avea loc sunt:
• A este evenimentul ca o persoană să prezinte probleme;
• B este evenimentul ca o persoana să folosească apa din sistemul centralizat;
𝑃(𝐵|𝐴) × 𝑃(𝐴) 0.6 × 0.1
𝑃(𝐴|𝐵) = = = 0.08
𝑃(𝐵) 0.75
Exemplu:
Un magazin de bricolaje primește un lot de 100 de cutii corespunzător unui anumit tip de vopsea
lavabila. Dintre acestea 10 au termenul de valabilitate depășit.
Înainte de a fi puse în vânzare, două cutii sunt verificate. Care este probabilitatea ca ambele cutii să
fie expirate?
Evenimentele care pot avea loc sunt:
• A prima cutie este expirata;
• B a doua cutie este expirata;
• 𝐴 ∩ 𝐵 ambele cutii sunt expirate.
Algebra evenimentelor
𝑃(𝐴∩𝐵)=𝑃(𝐴)×𝑃(𝐵|𝐴)
Evenimentul B este dependent de evenimentul A deoarece probabilitatea lui B se modifică
dacă prima cutie este expirata.
Efectuarea operațiilor
10
𝑃(𝐴) = = 0.1
100
9
𝑃(𝐵|𝐴) = =0.09
99
𝑃(𝐴∩𝐵)=𝑃(𝐴)×𝑃(𝐵|𝐴)
10 9 1
P(A∩B)= × = = 0.009
100 99 110

Statistica matematică și metodele acesteia au fost integrate tot mai mult, în ultima perioadă, în
domeniul ingineriei.
• În inginerie observațiile sau măsurătorile se realizează preponderent prin intermediul
experimentelor.
• Rezultatul unui experiment se numește eveniment.
• Șansa unui eveniment de a se produce într-un experiment este o dată cuantificată numeric
prin probabilitate.
În cazul experimentelor inginerești, populația (de cele mai multe ori) nu poate fi studiată integral,
ceea ce implică apariția unor riscuri în luarea deciziilor finale asupra procesului investigat.
Conceptul ce permite prelucrarea și modelarea procesului investigat îl reprezintă variabila aleatoare.
Variabila aleatoare este o măsură (o cantitate măsurată) în cadrul unui experiment a cărei valoare
(necunoscută aprioric) poate fi în funcție de caz:
– o cotă de gabarit;
– numărul de piese defecte extrase dintr-un lot;
– rezistența la rupere a unor epruvete;
– timpul de bună funcționare a unui produs.
Variabilă aleatoare:
• Discretă (aparține mulțimii numerelor întregi);
• Continuă (aparține mulțimii numerelor reale).
Comportarea variabilei aleatoare este descrisă, din punct de vedere matematic, de legea de
repartiție asociată.
Repartiția de probabilitate a unei variabile aleatoare discrete se exprimă, de regulă, sub forma
unui tablou de repartiție:
𝑥 𝑥2 ⋯ 𝑥𝑛
𝑋=[ 1 ] unde 𝑝𝑖 ∈ [0,1] 𝑝𝑖 = 𝑃(𝑋 = 𝑥𝑖 )
𝑝1 𝑝2 ⋯ 𝑝𝑛
pi fiind probabilitatea ca X să ia valoarea xi .
Exemplu:
Se aruncă o monedă de 10 ori și se obține
– 6 apariții pajură (evenimentul A)
– 4 apariții cap (evenimentul B)
6 4
𝑃(𝐴) = = 0,6 𝑃(𝐵) = = 0,4
10 10
Tabloul de repartiție:
𝐴 𝐵
𝑋=[ ]
0,6 0,4

Exemplu:
Pentru un lot de 200 de bucăți cu un coeficient de rebut de 2% să se construiască variabila
aleatoare a numărului de piese defecte.
• Din lot pot fi extrase maxim 4 piese defecte (0,1,2,3).
– A0 evenimentul extragerii unei piese bune;
– A1 evenimentul extragerii unei piese defecte;
– A2 evenimentul extragerii a 2 piese defecte;
– A3 evenimentul extragerii a 4 piese defecte.
196
P (X = 0) = P(A 0 ) = = 0.98
200
4
P (X = 1) = P(A1 ) = = 2 *10 −2
200
4 3
P (X = 2) = P(A1  A 2) = P(A1 ) * P(A 2 / A1 ) = * = 3.016 *10 −4
200 199
P(A1  A 2  A3) = P(A1 ) * P(A 2 / A1 ) * P(A 3 / A1  A 2) =
P (X = 3) = 4 3 2
* * = 3.046 *10 −6
200 199 198
P(A1  A 2  A3  A4) = P(A1 ) * P(A 2 / A1 ) * P(A 3 / A1  A 2) *
P (X = 4) = 4 3 2 1
*P(A 4 / A1  A 2  A3 ) = * * * = 1.546 *10 −8
200 199 198 197
Tabloul repartiției are forma:
 0 1 2 3 4 
X =
 0.98 2*10
−2
3.015*10 −4
3.046*10 −6
1.546*10 
−8
Repartiția de probabilitate a unei variabile continue este o funcţie pozitivă, f(x), numită densitate
de probabilitate, astfel încât aria domeniului cuprins între graficul ei şi axa 0x este egală cu 1
Repartiția de probabilitate a unei variabile aleatoare continue:
+∞ +∞

∫ 𝑓(𝑥)𝑑𝑥 = ∫ 𝐹 ′ (𝑥)𝑑𝑥
−∞ −∞
k k k
F( xk ) = P(X  xk ) = 
i =1
P(X = x i ) = 
i =1
P(x k ) = p
i =1
k

Unde ni este numărul de rezultate aflat în clasa i


f - funcţie densitate de repartiţie sau densitate de probabilitate
F – funcţie de repartiţie sau funcția de probabilitate
F (a ) = P ( x  a )
F '(x) = f(x)
Statistica descriptivă
Statistica descriptivă se ocupă, cu două probleme
– prezentarea datelor sub formă tabelară și vizualizarea lor sau a unor caracteristici prin
tehnici grafice;
– utilizarea unor indicatori numerici pentru caracterizarea datelor.
Proveniența datelor
– Sondaje
– Observații
– Experimente
– Rapoarte științifice.

Organizarea datelor
A. Reprezentare sub forma de diagrama
În cazul unor serii mici de date se utilizează ca metodă de analiză primară a datelor diagrama
tulpină – frunze (stem and leaf).
− Este o metodă de afişare a datelor într-o listă structurată.
− Se separă fiecare valoare a șirului de date în două părți:
Tulpina – reprezintă prima cifră a datelor;
Frunza – reprezintă cea de-a doua cifră a datelor.
− Se ordonează crescător seria.
− Se reprezintă diagrama.
Exemplu:
Serie date: 54, 25, 43, 3, 28, 39, 78, 32, 54, 93, 27, 33, 22, 78, 75, 83, 62, 76, 77, 67, 77, 80, 4, 26,
18, 10, 34, 30, 36, 43, 78, 41, 24, 91, 90, 63, 87, 55, 60, 49, 37, 39, 51, 66, 10, 76, 34, 47, 51, 34.

B. Reprezentare tabelara:
Exemplu:
În județul Timiș se efectuează un studiu privind valoarea colesterolului în sânge (mg/100 ml) pe
un eșantion de 2300 de persoane de gen masculin ce au vârsta cuprinsă între 35 și 65 de ani.
Date colectate: 97 91 87 140 120 153 128 137 189 181 170
190 198 164 160 216 202 205 203 209 208 224 215
229 238 270 243 274 254 271 271 253 277 273 305
291 304 319 293 289 280 316 345 351 349 344 327
393 388 386
C. Reprezentare grafica:
Graficul de tip bară este utilizat pentru a afișa o distribuție de frecvență pentru date nominale sau
ordinale.

• Într-un grafic de bare diferitele categorii în care se încadrează observațiile sunt prezentate de-
a lungul axei orizontale, iar de-a lungul axei verticale înălțimea barei reprezintă frecvența
absolută sau relativă a observațiilor din fiecare categorie.
• Barele trebuie să fie de aceeași lățime și separate unele de altele, astfel încât să nu implice
continuitate.
• Funcţiile din Matlab:
– bar(Y) – trasează o bară pentru fiecare element din Y
– bar(X,Y)- trasează o bară pentru fiecare element din Y la locația specificată în X
Histograma este o formă de reprezentare grafică, utilă în cazul unui număr mare de observații ce
descrie o distribuție de frecvență pentru date discrete sau continue.
• Histogramele presupun împărțirea șirului de date în clase echidistante.
• Într-o histogramă pe axa X (axa orizontală) sunt reprezentate intervalele de valori, iar pe axa
Y (axa verticală) sunt reprezentate valorile frecvențelor corespunzătoare intervalelor de valori.
Poligonul de frecvență este o e reprezentare grafică similară histogramelor, ce descrie o
distribuție de frecvență pentru date discrete sau continue.

• Poligoanele de frecvenţă se utilizează mai ales în cazul când se doreşte compararea a două
distribuţii în aceeaşi reprezentare grafică.
– Se împarte șirul de date în clase echidistante și se numără unitățile statistice din
fiecare clasă.
– Se obține prin reprezentarea frecvențelor în dreptul mijlocului fiecărei clase (media
clasei) și unirea acestor puncte prin linii drepte.
Curba frecvențelor însumate (cumulate) este o e reprezentare grafică similară poligonului
frecvențelor care presupune adăugarea frecvenței unei clase la suma celor anterioare.

• Curba frecvențelor cumulate se obținea prin reprezentarea frecvențelor cumulate ale claselor.
− Cumularea se poate face de la valoarea minimă spre maximă sau invers.
− Ultimul punct al graficului are ordonata egală cu numărul total de observații.
• Curba frecvenţelor cumulate, ce permite aflarea răspunsului la întrebări de tipul: câte
observaţii sunt egale sau mai mici decât limita superioară a fiecărei clase, respectiv câte sunt
mai mari sau egale cu limita inferioară a fiecărei clase.
Pie-chart este o e reprezentare grafică sub forma unui cerc, unde frecvenţele relative sunt utilizate
pentru divizarea cercului în sectoare de cerc corespunzătoare fiecărei categorii de variabile.

Box-Plot este o e reprezentare grafică ce se construiește pe baza a cinci valori asociate seriei
de date

• Minimul;
• Cvantila inferioară q(0.25);
• Mediana;
• Cvantila superioară q(0.75);
• Maximul.
În vederea studierii funcțiilor de repartiție ce descriu diverse categorii de procese și fenomene,
este necesară descrierea unor parametri sau indicatori statistici
Există două caracteristici esențiale ce se investighează în cazul seturilor de date:
– centrarea sau localizarea;
– concentrarea sau împrăștierea.
Indicatori de localizare (centrare)
Media - reprezintă centrul de greutate al seriei de date:
n
x=
1
(x1 + x2 +  + xn ) = 1  xi
n n i=1
• Media unei serii de date este media aritmetică a valorilor sale.
Mediana - este valoarea centrală a unui set de date ordonate crescător.
xme = x n+1 , n = 2k + 1
2

1 
xme =  x n + x n , n = 2k
2  2 2 +1 
• Mediana caracterizează mai bine valoarea centrală unui serii de date în situația în care setul
de date este asimetric, respectiv apare o concentrare de date la una din extremitățile seriei.
Moda (modulul) - este observația cu cea mai mare frecvență de apariție.
xmo = x + 3(xme − x )
• Există seturi de date cu un singur modul (unimodale) sau cu mai multe (multimodale).

Valoarea centrală a șirului de date reprezintă media valorilor limită (media extremelor) ale
intervalului de date.

Media geometrică 𝑀𝑔 = 𝑛√∏𝑛𝑖=1 𝑥𝑖


𝑛
Media armonică 𝑀𝑎 = 𝑛 1
∑𝑖=1
𝑥𝑖

∑𝑛
𝑖=1 𝑥𝑖
Media pătratică 𝑀𝑝 = √
𝑛
Exemplu:
Masa a 5 șuruburi (în grame) : 12, 14, 12, 16, 16
• Se rescriu valorile în ordine crescătoare:
12, 12, 14, 16, 16
• Se calculează cei trei indicatori:
Media
12 + 12 + 14 + 16 + 16 70
x= = = 14
5 5
Mediana
12, 12, 14, 16, 16
Modulul
12, 12, 14, 16, 16 → 12 și 16
16+12
Valoarea centrală 𝑥𝑐 = = 14
2

Indicatori de concentrare (variabilitatea)


Gradul de variabilitate al valorilor individuale într-o populație, ce este vizibil într-un eșantion se
exprimă printr-un set de parametri statistici numiți indicatori de variabilitate.
Intervalul de variație (amplitudinea): reprezintă diferența dintre valoarea maximă și minimă a
seriei de date.
𝐼𝑉 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
Deoarece se bazează doar pe două valori aparținătoare seriei de date, în multe situații se apelează
la cuantile.
Cvantilele sunt indicatori de poziție care împart seria de date într-un număr de părți cu efective
egale.
𝑘
Pentru un set de date de volum 𝑛 avem un număr rațional 𝑧 = unde 𝑧 ∈ (0,1) iar 𝑘 < 𝑛.
𝑛
1
– Dacă 𝑧 = cvantila se numește mediană.
2
1 2 3
– Dacă 𝑧 ∈ { , , } cvantilele se numesc quartile (q(0.25), q(0.5), q(0.75)).
4 4 4
1 2 99
– Dacă 𝑧 ∈ { , , … } cvantilele se numesc percentile (procentile).
100 100 100
Pentru seturi mari de date se utilizează percentilele.
Percentilele reprezintă acele valori care împart repartiția în o sută de părți egale (𝑝1 , 𝑝2 , … 𝑝99 )
Procentila 100p, p  (0,1), este valoarea reală x, cu proprietatea că cel mult 100p% din valoriile
seriei de date sunt mai mici decât x şi cel mult 100(1 – p)% sunt mai mari.
• Sunt utilizate des pentru a interpreta rezultatele testelor standardizate
Exemplu:
Să se determine procentila de 65 pentru setul de date corespunzător valorilor solicitării la rupere,
a unei lot format din 24 de piese.
30 75 79 80 80 105 126 138 149 179 179 191
223 232 232 236 240 242 245 247 254 274 384 470
• Se ordonează setul de date crescător
• (𝑝⁄100)(𝑛 + 1) =(0.65)(25)=16.25
• Se calculează media valorilor de-o parte și de cealaltă (236 și 240).
236+240
• = 238.
2
Abaterea individuală absolută (𝒅) se calculează ca diferența între valoarea înregistrată și media
aritmetică. 𝑑𝑖 = 𝑥𝑖 − 𝑥̅
̅ ) se calculează ca media aritmetică a abaterilor individuale absolute,
Abaterea medie liniară (𝒅
𝑛
∑ (𝑥 −𝑥̅ )
luate în modul. 𝑑̅ = 𝑖=1 𝑖
𝑛

Se numește moment centrat de ordin k raportat la constanta 𝑥̅ a variabilei aleatoare 𝑥𝑖 , media


variabilei (𝑥𝑖 − 𝑥̅ )𝑘 .
Dispersia (varianța): se calculează ca o medie aritmetică a pătratelor abaterilor de la valoarea
centrală
Dispersia reprezintă momentul centrat de ordinul doi.

• Cu cât este mai mare cu atât setul de date are o variabilitate mai mare.
• Valorile dintr-o serie pot fi mai aglomerate în jurul mediei sau mai dispersate, adică la distanțe
mari de medie.
• Un mod de a măsura aceste abateri de la medie îl reprezintă diferența dintre toate aceste
valori și media lor.
• Unele abateri vor fi pozitive, altele negative.
• Abaterile nu pot fi adunate, deoarece, prin adunare dau suma 0.
• O modalitate de a evita ca suma abaterilor absolute să fie 0, este ridicarea la pătrat a acestora
înainte de a fi adunate, pentru a face să dispară semnele negative la unele valori.
Abaterea standard (deviația standard): reprezintă abaterea medie pătratică a seriei x.
S = S 2( x )
• Abaterea standard este rădăcina pătrată din dispersie.
• Este indicatorul cel mai frecvent folosit pentru analiza variației unei serii statistice.
• Cu cât valoarea lui S este mai mică, cu atât setul de date are o împrăștiere mai mică.
Coeficientul de variație: reprezintă valoarea abaterii standard raportată la media aritmetică.
S
CV ( x ) = 100
x
• Acest coeficient se exprimă în procente și urmărește verificarea reprezentativității mediei și
omogenității seriei.
• Dacă valoarea coeficientului tinde spre 0 (<35%), seria este mai omogenă (variația este mică)
și media mai reprezentativă.
• Dacă valoarea coeficientului tinde spre 100 (>75%), seria este mai împrăștiată și media este
mai puțin reprezentativă.
Coeficientul de asimetrie (γ1): caracterizează simetria repartiției.
n
m3 =  ( xi − x )
m 1
 1 = 33
3

S unde n i =1

• Pentru 𝛾1 = 0 repartiția est simetrică;


• În cazul 𝛾1 > 0, repartiţia este pozitiv asimetrică;
• În cazul 𝛾1 < 0, repartiţia este negativ asimetrică;

În cazul unor seturi de date simetrice, media, mediana și modulul coincid. La repartițiile
asimetrice se poate întâlni.

Coeficientul de exces (γ2): apare atunci când distribuția prezintă o variație slabă a variabilei X și o
variație puternică a frecvenței absolute (și invers), în comparație cu o distribuție normală, de aceeași
medie și dispersie.
• Este o măsură a abaterii de la forma normală a distribuției.
n


m4 1
2 = ( xi − x )
4
m4 =
4 n
S unde i =1

• Excesul mai poartă denumirea de “kurtosis”.


• În funcție de valoarea coeficientului de exces (pozitiv, negativ sau nul) se pot trage concluzii
asupra alurii curbei.
Tipuri de repartiții

Studiind diverse fenomene, se constată că deși acestea aparțin unor științe diferite repartiția în
frecvență a acestora este asemănătoare (histogramele au aceeași formă).
Determinarea probabilităților asociate unor evenimente aleatoare poate fi mult simplificată dacă
se construiește un model matematic ce descrie cu acuratețe situațiile asociate cu anumite evenimente
de interes.
Un astfel de model utilizat la determinarea probabilităților de producere a unor evenimente este
o distribuție de probabilitate.

Repartiția Binomială
Repartiția binomială caracterizează variabile discrete, ce se asociază unui proces Bernoulli.
Procesul Bernoulli constă din n încercări ale unui experiment, ce are rezultate ce se exclud reciproc
(mutual exclusive): succes sau eșec.
Încercările sunt independente, adică rezultatul uneia nu influențează rezultatul celeilalte, iar
pentru fiecare încercare probabilitatea succesului este aceeași, p.
• Distribuția Binomială – experiment Bernoulli
– un proces ce constă din n încercări
– un proces ce are doar 2 rezultate scontate ( ce se exclud reciproc)
– probabilitatea de succes la o încercare p şi de eșec este 1 – p
– încercările (testele) sunt independente
! Succesul nu înseamnă bine (reprezintă doar o variantă din cele 2 rezultate posibile – reprezintă
caracteristica pe care o urmărim).
• Probabilitatea de a înregistra k succese din n încercări, cu probabilitatea de succes la o
încercare p şi de eşec 1 – p este:
P ( X = k ) = Cnk p k (1 − p )
n−k

unde
n!
Cnk =
k ! ( n − k )!
În cazul distribuției binomiale media și varianța sunt:

Repartitia binomială se folosește pentru valori mici ale lui n și k.


Pentrui valori mari ea este anevoioasă și în funcție de problemă se folosește repartiția Poisson sau
normală.
Exemplu:
O linie de fabricație realizează un produs cu o rată de defect de 20%. Dacă se aleg aleatoriu, de pe
linie 5 produse, care este probabilitatea de a avea 1 produs defect.

În acest caz succesul reprezintă un produs defect, iar eșec un produs bun.
P ( X = k ) = Cnk p k (1 − p )
n−k

P ( X = 1) = C51 0.21 (1 − 0.2 )


5 −1

P ( X = 1) = 5  0.0819 = 0.4096 = 40.96%


Conform unui studiu statistic făcut de un producător de automotive, probabilitatea de a functiona
încă un an a unui autovehicul vechi de 10 ani ce nu a suferit interventii de reparatii majore, aleasă
aleator, este de 0.82.
Dacă sunt alese la întâmplare douăzeci de autovehicule mai vechi de 10 ani, care este
probabilitatea ca exact 18 masini să functioneze încă un an?
n = 20 k = 18 p = 0.82
P ( X = k ) = Cnk p k (1 − p )
n−k

P ( X = 18 ) = C20 0.8218 (1 − 0.82 )


18 20 −18

P ( X = 1) = 190  0.0281 0.0324 = 0.173 = 17.3%


Care este probabilitatea ca cel puțin 18 autovehicule mai vechi de 10 ani să functioneze încă un
an?

P ( X  18 ) = P(X = 18 ) + P(X = 19 ) + P(X = 20 )


P ( X  18 ) = C20 0.8218 (1 − 0.82 )
20 −18
18
+
0.8219 (1 − 0.82 )
20 −19
+C20
19
+
0.8220 (1 − 0.82 )
20 − 20
+C20
20

P ( X  18 ) = 0.1730 + 0.0829 + 0.0189 = 0.2748


= 27.48%
Repartiția Poisson
• Este o distribuție ce caracterizează variabile discrete.
• Tratează problema evenimentelor aleatoare rare ce au loc într-un interval de timp specificat
sau într-o regiune din spațiu;
• Înlocuiește distribuția binomială în cazul când numărul de evenimente total este foarte mare,
iar șansa de realizare favorabilă foarte mică.
Exemplu: numărul de clienți dintr-o farmacie/oră, numărul de acidente aviatice/zi, numărul de mașini
ce intră într-o benzinărie/zi.
• Distribuţia Poisson este aplicabilă în anumite condiţii:
– evenimentele aleatoare au loc în unitatea de timp sau spaţiu;
– numărul de evenimente favorabile trebuie să fie teoretic infinit;
– producerea unui eveniment este independentă de producerea evenimentelor
anterioare sau posterioare.
• În cazul când evenimentele se produc astfel încât în medie apar  evenimente într-o perioadă
de timp sau spațiu, atunci probabilitatea ca evenimentul să se producă de k ori este:
e−  k
P(X = k) =
k!
• Valoarea mediei și dispersia repartiției Poisson se calculează din valorile corespunzătoare
repartiției binomiale înlocuind np=λ și făcând ca p să tindă către 0.
• μ=np=λ și σ2=np=λ (valoarea medie și dispersia sunt egale).
M (X ) = 
 2 (X ) = 
Exemplu:
• Dacă se examinează situația prezenței la cursul de CSP de joi între ora 18 și 19, se constată că
în sală se găsesc în medie 15 studenți.
a) Care este probabilitatea ca într-o anumită săptămână, joi să se găsească în sală exact
15 studenți.
b) Dar care este probabilitatea să vină mai puțin de 10 studenți la curs.
a) λ=nr. studenți / oră = 15, k=15
e−  k
P(X = k) =
k!
e −15 1515
P ( X = 15 ) = = 0.1024 = 10.24%
15 !
b) λ=nr. studenți / oră = 15, k=10
P ( X  10 ) = P(X = 0 ) + P(X = 1 ) + ... + P(X = 9 )
e −15 150 e −15 151 e −15 159
P ( X  3) = + + ... + =
0! 1! 9!
= 3.05 10−7 + 4.5885 10 −6 + ... + 0.0324
= 0.0699 = 6.99%

Repartiția Uniformă
Variabilele aleatoare discrete se asociază unor experimente ce constau în contorizarea anumitor
rezultate (n). Exemple:
– aruncarea unui zar n=6
– jocul la ruletă n=37
Dacă un experiment are n rezultate egal posibile, atunci experimentul poate fi modelat printr-o
variabilă aleatoare uniformă pe mulțimea {1, … , 𝑛}
Distribuția uniformă la aruncarea unui zar:

Funcţia densitate de probabilitate are forma:


1
f(x; a, b) = ; a<x<b
b-a
Funcţia de probabilitate
 0 xa
x -a
F(x) =  a xb
 b - a
 1 xb
Parametrii pentru repartiția uniformă sunt capetele intervalului: a și b.
Media și varianța unei variabile repartizată uniform sunt:
M ( X ) = ( a + b) / 2
 2 ( X ) = (b − a )^ 2 / 12
Exemplu:
Pe o rută, la metrou sosește într-o stație la fiecare zece minute câte un metro. Care este
probabilitatea ca un pasager să aștepte între trei și șase minute pentru un metrou.
(x= timpul de așteptare, b=10 minute (a= 0 minute))
1 1
f(x)= =
10 − 0 10
6−3 3
P ( x) = = = 0.3 = 30%
10 − 0 10
O emisiune de televiziune, ce este considerată de 30 de minute, are în medie 22 de minute de
program. Intervalul de minute este între 18 și 26. Care este probabilitatea ca emisiunea să dureze
a) între 21 și 25 de minute?
b) cel puțin 25 de minute?
1 1
f(x)= =
26 − 18 8
25 − 21 4
P ( x) = = = 0.5 = 50%
26 − 18 8
26 − 25 1
P ( x) = = = 0.125 = 12.5%
26 − 18 8
Repartiția Normală
- Este o repartiție continuă (caracterizează variabile continue);
- Este distribuția fundamentală în statistică;
- Este adecvată pentru a modela numeroase fenomene din natură;
- Stă la baza inferenței statistice.
- Funcţia de densitate de repartiţie:
1  1  x −  2 
f ( x) =  exp  −  
 2  2    
 
• Densitatea de probabilitate este continuă, are formă de clopot și tinde asimptotic spre 0
pentru x → 
• Localizarea şi forma repartiţiei depind de  şi .

• Media  determină localizarea repartiţiei;


• Deviația standard  determină forma curbei.
– Cu cât  este mai mic, cu atât repartiția este mai concentrată (clopotul este mai
ascuțit)
• Localizarea şi forma repartiţiei depind de parametrii  şi 
• Caracteristicile curbei repartiției normale
– are formă de clopot cu convexitatea orientată în sus
– graficul funcției admite un singur maxim 𝜇
– este o curbă unimodală
– este simetrică față de medie
– prezintă două puncte de inflexiune
– nu intersectează abscisa
Pentru orice distribuţie normală, proporţia de observaţii ce aparţin unui interval centrat în  este
aceeaşi :
• 68.26% din valorile lui x  [ - ;  + ];
• 95.44% din valorile lui x  [ - 2;  + 2];
• 99.73% din valorile lui x  [ - 3;  + 3].

• Repartiția normală reprezintă un model matematic bun pentru un număr mare de variabile
(naturale sau generate de om), la care parametri 𝜇 și 𝜎 pot avea o infinitate de valori posibile
ceea ce conduce la imposibilitatea determinării tabelare a ariei.
• Metoda care permite un calcul mai simplu constă în schimbarea de variabilă, dintr-o variabilă
aleatoare normală într-o variabilă aleatoare standard.
Scorul z stabilește numărul de deviații standard prin care scorul original se plasează față de medie.

Exemplu:
Rezistenta mecanică a unui aliaj de aluminiu are o distribuție normală cu media  = 10 GPa și o
abatere standard  = 1.4 GPa.
Care este probabilitatea ca o piesă din acest aliaj să aibă o rezistență mai mare de 12 GPa?
(x −  ) 12 − 10
P( X  1.4 ) = P(  )
 1 .4
12 − 10
P( z  )  P( z  1.428 )
1 .4
= 1 − 0.9234 = 0.0766 = 7.66%

Se presupune că înălțimea unei adult de gen feminin din România are o distribuție normală, cu
media de 162.2 cm și deviația standard de 6.8 cm.
a) Care este probabilitatea ca o femeie selectată aleatoriu, este mai înaltă de 170.5 cm.
(x −  ) 170.5 − 
P( X  170.5 ) = P(  )
 
170.5 − 162.2
P( z  )  P( z  1.22 )
6 .8
P( z  1.22 ) = 1 − 0.8888 = 0.1112
b) Care este probabilitatea ca persoana selectată aleatoriu, să aibă între 158 și 162 cm.
150 − 162.2 160 − 162.2
P( 150  X  160 ) = P( X  )
6 .8 6 .8
P( −1.7941  z  −0.3235 )
P( −1.7941  z  −0.3235 ) = 0.3745 − 0.0367 = 0.3378 = 33.78%

Repartiția T
Populaţia distribuită normal, dacă se extrag eşantioane şi se calculează media acestora, variabila
t calculată cu relaţia:

x−
t=
S/ n
Distribuţia t
• este simetrică;
• aria totală de sub curbă este 1;
• are media 0 şi o varianţă mai mare decât 1;
• Varianţa distribuţiei creşte pe măsură ce n, volumul eşantionului scade;
• Distribuţia admite ca parametru numărul gradelor de libertate,  = n – 1.

Distribuția T se utilizează în următoarele condiții:


• dacă nu se cunoaște deviația standard ;
• abaterea standard a eșantionului, S, este utilizată pentru estimarea lui ;
• volumul eșantionului este mic, n < 30;
• populația este distribuită aproximativ normal.
Exemplu:

Un producător farmaceutic susține că un anumit medicament are o perioadă de valabilitate de


300 de zile. Un angajat de la serviciul pentru protecția consumatorului selectează aleatoriu 15
bucăți din acel tip de medicament pentru a le testa. Produsele testate au în medie 290 de zile și o
deviație standard de 50 de zile.
În cazul în care afirmația producătorului este adevărată, care este probabilitatea ca 15 produse
selectate aleatoriu să aibă o durată medie de cel mult 290 de zile?
x = media esantionului = 290 zile
 = media populatiei = 300 zile
S = deviatia s tan dard a esantionului
(x −  ) 290 − 300
P( X  290 ) = P(  )
S n 50 15
P(t  −0.7746 )  P( t  0.7746 ) = 0.2257 = 22.57%
P( t  0.7746 ) = 1 − tcdf( 0.7746 ,14 )

Repartiția Exponențială
• Distribuţia se utilizează la reprezentarea intervalelor de timp între evenimente,  este
numărul de evenimente produs în unitatea de timp, adică frecvnţa acestora.

• Pentru un dispozitiv medical timpul de bună funcționare este de 17520 de ore.


– Care este probabilitatea ca dispozitivul să se defecteze mai repede de un an.
17520 ore
T= = 2ani
365 zile
1
 = = 0.5
2
P ( X  1) = 1 − e −  x = 1 − e −0.5 = 0.3935 = 39.35%
Exemplu:
O masă radioactivă emite particule conform unui proces de tip Poisson la o rată medie de 15
particule pe minut. La un moment dat, un cronometru este pornit.
– Care este probabilitatea de a se scurge mai mult de 5 secunde înaintea următoarei
emisii?
– Care este media timpului de aşteptare până când următoarea particulă este emisă?
o Vom măsura timpul în secunde (T = timpul [s] care s-a scurs înainte ca următoarea particulă
să fie emisă).
o Rata emisiilor este 0.25/s astfel parametrul ratei este λ = 0.25.
o Probabilitatea ca mai mult de 5 secunde se vor scurge înaintea unei noi emisii este egală cu:
P (T  5) = 1 − P (T  5) = 1 − (1 − e −0.25(5) ) = e −1.25 = 0.2865
o Media timpului de aşteptare este:
1
= = 4[s]
0.25
Repartiția Gamma

Funcţia densitate de probabilitate a repartiţiei gamma are expresia:


 e −  x (  x)t −1
f ( x,  ,t ) = ; x0
( t )
unde t este parametru de formă, iar  este parametru de localizare.
• Funcţia gamma este definită de:


( t ) = e − x y t −1dy
0

relaţie care în cazul valorilor întregi ale parametrului t devine:


( t ) = ( t − 1 )!
• Funcţia de repartiţie a acestei distribuţii are expresia

 0 x0
 x
F( x,  ,t ) =  1

t −1 − y
 ( t ) y e dy x0
 0

S-ar putea să vă placă și