Documente Academic
Documente Profesional
Documente Cultură
Notiuni Generale
De ce studiem statistica?
Variabile statistice
– După relația de cauzalitate:
• Independente = variabile ce pot fi utilizate pentru a descrie sau a explica variațiile
survenite în alte variabile;
• Dependente = un rezultat observat/măsurat pentru a evalua efectele unei
variabile independente.
– După dimensiunea în care sunt definite:
• De timp = se referă la dimensiunea temporală;
• De spațiu = se referă la locul (unui element/individ) ;
• Atributive = se referă la un atribut asociat (profesia unei persoane).
– După modul de obținere:
• Primare = se obţin, de obicei, direct din procesul de culegere a datelor;
• Derivate = sunt rezultate în urma aplicării unui model de calcul asupra
caracteristicilor primare.
– După natura variabilelor:
• Calitative = exprimate prin cuvinte (facultatea absolvită);
• Cantitative = exprimate prin numere (vârsta unor persoane).
– După tipul variației:
• Continuă = pot lua practic orice valoare într-un interval dintr-un domeniu;
• Discontinuă (discretă) = pot lua doar anumite valori într-un interval dintr-un
domeniu.
– După numărul de variante:
• Alternative = de tipul variabilelor logice („adevărat/fals”), care pot avea doar
două variante de răspuns (căsătorit/necăsătorit);
• Nealternative = cele care pot avea cel puţin trei variante (salariul – 1500 lei, 1700
lei, 2000 lei).
Parametru - este o caracteristică numerică a unei populații.
O statistică - este o caracteristică numerică a unui eșantion.
Metode pentru evaluarea caracteristicilor populației
a) Recensământ = metodă de observare totală, cu localizare în timp și spațiu, ce presupune
înregistrarea valorilor caracteristicilor vizate de la toate unitățile populației statistice.
b) Screening = metodă asemănătoare recensământului utilizată pentru depistarea unor indivizi
din populație ce prezintă un parametru cu o abatere deosebită.
c) Selecție (eșantionare) = metodă de observare parțială ( cel mai des utilizată), pentru care se
alege o submulțime a populației (eșantion, lot, grup) pe care se efectuează măsurătorile
urmărite.
Cadrul de eșantionare = este o listă de elemente care aparțin populației, din care va fi extras
eșantionul.
Proiectarea eșantionului = înseamnă stabilirea procedurii de alegere a elementelor eșantionului.
Procedee de alegere a elementelor eșantionului:
− procedee bazate pe reprezentativitate;
− procedee probabiliste.
Eșantion reprezentativ = conține proporțional elemente ce dețin toate caracteristicile populației.
Eșantion probabilist = conține elemente ce au aceeași șansă nenulă de a fi selectate din populație.
Teoria probabilităților operează cu o serie de noţiuni specifice
Experimentul reprezintă procesul prin care se efectuează o observație sau o măsurătoare.
Realizarea reprezintă rezultatul unui experiment
Evenimentul reprezintă colecția tuturor realizărilor.
Datele cu care operează teoria probabilităților și statistica sunt obținute în urma observațiilor
evenimentelor necontrolabile din natură/societate sau sunt obținute ca rezultat a unui experiment
controlat.
• Exemple de experimente
– Înregistrarea consumului de apa, al studenților, în intervalul 17-20 la cursul de CSP;
– Inspectarea unei linii de asamblare pentru a determina dacă se produc produse
defecte.
• Exemple de evenimente
– Obținerea numărului de 8 sticle de apa;
– Extragerea unui produs defect de pe linia de asamblare.
Evenimentul imposibil Ø - este evenimentul care nu se realizează niciodată în cadrul unui
experiment.
Evenimentul aleator A - este evenimentul care se poate produce în cadrul unui experiment.
Evenimentul sigur Ω -este evenimentul care se produce în mod obligatoriu într-un experiment.
Câmp de evenimente - reprezintă totalitatea evenimentelor care pot avea loc în cadrul unui
experiment ( include evenimentul sigur, evenimentul imposibil și toate evenimentele aleatoare care
pot avea loc).
Experimentul clasic = aruncarea zarului
– realizări posibile = apariția feței cu numărul 1,2,3,4,5,6.
– evenimentul imposibil = apariția cifrei 7.
– evenimentul aleator = apariția cifrei 5.
– evenimentul sigur = apariția unui număr par sau impar.
Clasificarea evenimentelor
Evenimente dependente sunt două sau mai multe evenimente a căror realizare depind de
realizarea unui alt eveniment.
Evenimente independente sunt evenimentele a căror realizare nu depind de realizarea unui alt
eveniment.
– aruncarea zarului de două ori
𝐴 = {1} 𝐵 = {5}
Apariția cifrei 5 la ce-a de-a 2 aruncare nu depinde de apariția cifrei 1 de la prima aruncare.
Operații cu evenimente
Reuniunea evenimentelor = realizarea a cel puțin a unuia din evenimente A sau B
𝐴∪𝐵
Intersecția evenimentelor = realizarea evenimentului A și a evenimentului B
𝐴∩𝐵
Evenimente compatibile (𝑨 ∩ 𝑩 ≠ ∅ ) sunt două sau mai multe evenimente care se pot realiza
“simultan” în cadrul unui experiment.
Evenimente incompatibile (𝑨 ∩ 𝑩 = ∅ ) sunt evenimentele care nu se pot realiza simultan în
cadrul unui experiment.
Evenimente contrare (𝑨 ∪ 𝑩 = Ω A ∩ 𝑩 = ∅) sunt evenimente la care realizarea unuia constă
din nerealizarea celuilalt.
Evenimentul sigur și evenimentul imposibil sunt contrare unul altuia.
Probabilitatea este o măsură numerică ce cuantifică șansa unui eveniment de a se produce într-
un experiment.
− Se măsoară pe o scală de la 0 la 1, 0 corespunzând evenimentului imposibil Ø, iar 1
evenimentului sigur Ω.
− Suma probabilităților tuturor evenimentelor posibile trebuie să fie egală cu 1.
𝑛
∑ 𝑃𝑖 = 1
𝑖=1
Atribuirea probabilităților unui eveniment:
• Metoda frecvențelor relative
𝑛𝑖 𝑛𝑢𝑚ă𝑟𝑢𝑙 𝑒𝑣𝑒𝑛𝑖𝑚𝑒𝑛𝑡𝑒𝑙𝑜𝑟 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑖𝑙𝑒
𝑃(𝐴) = =
𝑁 𝑛𝑢𝑚ă𝑟𝑢𝑙 𝑒𝑣𝑒𝑛𝑖𝑚𝑒𝑛𝑡𝑒𝑙𝑜𝑟 𝑝𝑜𝑠𝑖𝑏𝑖𝑙𝑒
Aruncarea zarului
1
− apariția unei fețe 𝑃(𝐴) =
6
3 1
− apariția unei fețe cu număr impar 𝑃(𝐴) = =
6 2
Exemplu:
Într-un lot format din 100 de piese există 4 piese defecte. Care este probabilitatea extragerii
unei piese defecte?
• Metoda subiectivă
– regula de adunare a probabilităților;
• Cu evenimente ce se exclud reciproc:
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) ∪ 𝑃(𝐵)
• Cu evenimente ce nu se exclud reciproc:
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) ∪ 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
– regula de înmulțire a probabilităților.
• Pentru evenimente dependente:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵|𝐴)
• Pentru evenimente independente:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵)
Statistica matematică și metodele acesteia au fost integrate tot mai mult, în ultima perioadă, în
domeniul ingineriei.
• În inginerie observațiile sau măsurătorile se realizează preponderent prin intermediul
experimentelor.
• Rezultatul unui experiment se numește eveniment.
• Șansa unui eveniment de a se produce într-un experiment este o dată cuantificată numeric
prin probabilitate.
În cazul experimentelor inginerești, populația (de cele mai multe ori) nu poate fi studiată integral,
ceea ce implică apariția unor riscuri în luarea deciziilor finale asupra procesului investigat.
Conceptul ce permite prelucrarea și modelarea procesului investigat îl reprezintă variabila aleatoare.
Variabila aleatoare este o măsură (o cantitate măsurată) în cadrul unui experiment a cărei valoare
(necunoscută aprioric) poate fi în funcție de caz:
– o cotă de gabarit;
– numărul de piese defecte extrase dintr-un lot;
– rezistența la rupere a unor epruvete;
– timpul de bună funcționare a unui produs.
Variabilă aleatoare:
• Discretă (aparține mulțimii numerelor întregi);
• Continuă (aparține mulțimii numerelor reale).
Comportarea variabilei aleatoare este descrisă, din punct de vedere matematic, de legea de
repartiție asociată.
Repartiția de probabilitate a unei variabile aleatoare discrete se exprimă, de regulă, sub forma
unui tablou de repartiție:
𝑥 𝑥2 ⋯ 𝑥𝑛
𝑋=[ 1 ] unde 𝑝𝑖 ∈ [0,1] 𝑝𝑖 = 𝑃(𝑋 = 𝑥𝑖 )
𝑝1 𝑝2 ⋯ 𝑝𝑛
pi fiind probabilitatea ca X să ia valoarea xi .
Exemplu:
Se aruncă o monedă de 10 ori și se obține
– 6 apariții pajură (evenimentul A)
– 4 apariții cap (evenimentul B)
6 4
𝑃(𝐴) = = 0,6 𝑃(𝐵) = = 0,4
10 10
Tabloul de repartiție:
𝐴 𝐵
𝑋=[ ]
0,6 0,4
Exemplu:
Pentru un lot de 200 de bucăți cu un coeficient de rebut de 2% să se construiască variabila
aleatoare a numărului de piese defecte.
• Din lot pot fi extrase maxim 4 piese defecte (0,1,2,3).
– A0 evenimentul extragerii unei piese bune;
– A1 evenimentul extragerii unei piese defecte;
– A2 evenimentul extragerii a 2 piese defecte;
– A3 evenimentul extragerii a 4 piese defecte.
196
P (X = 0) = P(A 0 ) = = 0.98
200
4
P (X = 1) = P(A1 ) = = 2 *10 −2
200
4 3
P (X = 2) = P(A1 A 2) = P(A1 ) * P(A 2 / A1 ) = * = 3.016 *10 −4
200 199
P(A1 A 2 A3) = P(A1 ) * P(A 2 / A1 ) * P(A 3 / A1 A 2) =
P (X = 3) = 4 3 2
* * = 3.046 *10 −6
200 199 198
P(A1 A 2 A3 A4) = P(A1 ) * P(A 2 / A1 ) * P(A 3 / A1 A 2) *
P (X = 4) = 4 3 2 1
*P(A 4 / A1 A 2 A3 ) = * * * = 1.546 *10 −8
200 199 198 197
Tabloul repartiției are forma:
0 1 2 3 4
X =
0.98 2*10
−2
3.015*10 −4
3.046*10 −6
1.546*10
−8
Repartiția de probabilitate a unei variabile continue este o funcţie pozitivă, f(x), numită densitate
de probabilitate, astfel încât aria domeniului cuprins între graficul ei şi axa 0x este egală cu 1
Repartiția de probabilitate a unei variabile aleatoare continue:
+∞ +∞
∫ 𝑓(𝑥)𝑑𝑥 = ∫ 𝐹 ′ (𝑥)𝑑𝑥
−∞ −∞
k k k
F( xk ) = P(X xk ) =
i =1
P(X = x i ) =
i =1
P(x k ) = p
i =1
k
Organizarea datelor
A. Reprezentare sub forma de diagrama
În cazul unor serii mici de date se utilizează ca metodă de analiză primară a datelor diagrama
tulpină – frunze (stem and leaf).
− Este o metodă de afişare a datelor într-o listă structurată.
− Se separă fiecare valoare a șirului de date în două părți:
Tulpina – reprezintă prima cifră a datelor;
Frunza – reprezintă cea de-a doua cifră a datelor.
− Se ordonează crescător seria.
− Se reprezintă diagrama.
Exemplu:
Serie date: 54, 25, 43, 3, 28, 39, 78, 32, 54, 93, 27, 33, 22, 78, 75, 83, 62, 76, 77, 67, 77, 80, 4, 26,
18, 10, 34, 30, 36, 43, 78, 41, 24, 91, 90, 63, 87, 55, 60, 49, 37, 39, 51, 66, 10, 76, 34, 47, 51, 34.
B. Reprezentare tabelara:
Exemplu:
În județul Timiș se efectuează un studiu privind valoarea colesterolului în sânge (mg/100 ml) pe
un eșantion de 2300 de persoane de gen masculin ce au vârsta cuprinsă între 35 și 65 de ani.
Date colectate: 97 91 87 140 120 153 128 137 189 181 170
190 198 164 160 216 202 205 203 209 208 224 215
229 238 270 243 274 254 271 271 253 277 273 305
291 304 319 293 289 280 316 345 351 349 344 327
393 388 386
C. Reprezentare grafica:
Graficul de tip bară este utilizat pentru a afișa o distribuție de frecvență pentru date nominale sau
ordinale.
• Într-un grafic de bare diferitele categorii în care se încadrează observațiile sunt prezentate de-
a lungul axei orizontale, iar de-a lungul axei verticale înălțimea barei reprezintă frecvența
absolută sau relativă a observațiilor din fiecare categorie.
• Barele trebuie să fie de aceeași lățime și separate unele de altele, astfel încât să nu implice
continuitate.
• Funcţiile din Matlab:
– bar(Y) – trasează o bară pentru fiecare element din Y
– bar(X,Y)- trasează o bară pentru fiecare element din Y la locația specificată în X
Histograma este o formă de reprezentare grafică, utilă în cazul unui număr mare de observații ce
descrie o distribuție de frecvență pentru date discrete sau continue.
• Histogramele presupun împărțirea șirului de date în clase echidistante.
• Într-o histogramă pe axa X (axa orizontală) sunt reprezentate intervalele de valori, iar pe axa
Y (axa verticală) sunt reprezentate valorile frecvențelor corespunzătoare intervalelor de valori.
Poligonul de frecvență este o e reprezentare grafică similară histogramelor, ce descrie o
distribuție de frecvență pentru date discrete sau continue.
• Poligoanele de frecvenţă se utilizează mai ales în cazul când se doreşte compararea a două
distribuţii în aceeaşi reprezentare grafică.
– Se împarte șirul de date în clase echidistante și se numără unitățile statistice din
fiecare clasă.
– Se obține prin reprezentarea frecvențelor în dreptul mijlocului fiecărei clase (media
clasei) și unirea acestor puncte prin linii drepte.
Curba frecvențelor însumate (cumulate) este o e reprezentare grafică similară poligonului
frecvențelor care presupune adăugarea frecvenței unei clase la suma celor anterioare.
• Curba frecvențelor cumulate se obținea prin reprezentarea frecvențelor cumulate ale claselor.
− Cumularea se poate face de la valoarea minimă spre maximă sau invers.
− Ultimul punct al graficului are ordonata egală cu numărul total de observații.
• Curba frecvenţelor cumulate, ce permite aflarea răspunsului la întrebări de tipul: câte
observaţii sunt egale sau mai mici decât limita superioară a fiecărei clase, respectiv câte sunt
mai mari sau egale cu limita inferioară a fiecărei clase.
Pie-chart este o e reprezentare grafică sub forma unui cerc, unde frecvenţele relative sunt utilizate
pentru divizarea cercului în sectoare de cerc corespunzătoare fiecărei categorii de variabile.
Box-Plot este o e reprezentare grafică ce se construiește pe baza a cinci valori asociate seriei
de date
• Minimul;
• Cvantila inferioară q(0.25);
• Mediana;
• Cvantila superioară q(0.75);
• Maximul.
În vederea studierii funcțiilor de repartiție ce descriu diverse categorii de procese și fenomene,
este necesară descrierea unor parametri sau indicatori statistici
Există două caracteristici esențiale ce se investighează în cazul seturilor de date:
– centrarea sau localizarea;
– concentrarea sau împrăștierea.
Indicatori de localizare (centrare)
Media - reprezintă centrul de greutate al seriei de date:
n
x=
1
(x1 + x2 + + xn ) = 1 xi
n n i=1
• Media unei serii de date este media aritmetică a valorilor sale.
Mediana - este valoarea centrală a unui set de date ordonate crescător.
xme = x n+1 , n = 2k + 1
2
1
xme = x n + x n , n = 2k
2 2 2 +1
• Mediana caracterizează mai bine valoarea centrală unui serii de date în situația în care setul
de date este asimetric, respectiv apare o concentrare de date la una din extremitățile seriei.
Moda (modulul) - este observația cu cea mai mare frecvență de apariție.
xmo = x + 3(xme − x )
• Există seturi de date cu un singur modul (unimodale) sau cu mai multe (multimodale).
Valoarea centrală a șirului de date reprezintă media valorilor limită (media extremelor) ale
intervalului de date.
∑𝑛
𝑖=1 𝑥𝑖
Media pătratică 𝑀𝑝 = √
𝑛
Exemplu:
Masa a 5 șuruburi (în grame) : 12, 14, 12, 16, 16
• Se rescriu valorile în ordine crescătoare:
12, 12, 14, 16, 16
• Se calculează cei trei indicatori:
Media
12 + 12 + 14 + 16 + 16 70
x= = = 14
5 5
Mediana
12, 12, 14, 16, 16
Modulul
12, 12, 14, 16, 16 → 12 și 16
16+12
Valoarea centrală 𝑥𝑐 = = 14
2
• Cu cât este mai mare cu atât setul de date are o variabilitate mai mare.
• Valorile dintr-o serie pot fi mai aglomerate în jurul mediei sau mai dispersate, adică la distanțe
mari de medie.
• Un mod de a măsura aceste abateri de la medie îl reprezintă diferența dintre toate aceste
valori și media lor.
• Unele abateri vor fi pozitive, altele negative.
• Abaterile nu pot fi adunate, deoarece, prin adunare dau suma 0.
• O modalitate de a evita ca suma abaterilor absolute să fie 0, este ridicarea la pătrat a acestora
înainte de a fi adunate, pentru a face să dispară semnele negative la unele valori.
Abaterea standard (deviația standard): reprezintă abaterea medie pătratică a seriei x.
S = S 2( x )
• Abaterea standard este rădăcina pătrată din dispersie.
• Este indicatorul cel mai frecvent folosit pentru analiza variației unei serii statistice.
• Cu cât valoarea lui S este mai mică, cu atât setul de date are o împrăștiere mai mică.
Coeficientul de variație: reprezintă valoarea abaterii standard raportată la media aritmetică.
S
CV ( x ) = 100
x
• Acest coeficient se exprimă în procente și urmărește verificarea reprezentativității mediei și
omogenității seriei.
• Dacă valoarea coeficientului tinde spre 0 (<35%), seria este mai omogenă (variația este mică)
și media mai reprezentativă.
• Dacă valoarea coeficientului tinde spre 100 (>75%), seria este mai împrăștiată și media este
mai puțin reprezentativă.
Coeficientul de asimetrie (γ1): caracterizează simetria repartiției.
n
m3 = ( xi − x )
m 1
1 = 33
3
S unde n i =1
În cazul unor seturi de date simetrice, media, mediana și modulul coincid. La repartițiile
asimetrice se poate întâlni.
Coeficientul de exces (γ2): apare atunci când distribuția prezintă o variație slabă a variabilei X și o
variație puternică a frecvenței absolute (și invers), în comparație cu o distribuție normală, de aceeași
medie și dispersie.
• Este o măsură a abaterii de la forma normală a distribuției.
n
m4 1
2 = ( xi − x )
4
m4 =
4 n
S unde i =1
Studiind diverse fenomene, se constată că deși acestea aparțin unor științe diferite repartiția în
frecvență a acestora este asemănătoare (histogramele au aceeași formă).
Determinarea probabilităților asociate unor evenimente aleatoare poate fi mult simplificată dacă
se construiește un model matematic ce descrie cu acuratețe situațiile asociate cu anumite evenimente
de interes.
Un astfel de model utilizat la determinarea probabilităților de producere a unor evenimente este
o distribuție de probabilitate.
Repartiția Binomială
Repartiția binomială caracterizează variabile discrete, ce se asociază unui proces Bernoulli.
Procesul Bernoulli constă din n încercări ale unui experiment, ce are rezultate ce se exclud reciproc
(mutual exclusive): succes sau eșec.
Încercările sunt independente, adică rezultatul uneia nu influențează rezultatul celeilalte, iar
pentru fiecare încercare probabilitatea succesului este aceeași, p.
• Distribuția Binomială – experiment Bernoulli
– un proces ce constă din n încercări
– un proces ce are doar 2 rezultate scontate ( ce se exclud reciproc)
– probabilitatea de succes la o încercare p şi de eșec este 1 – p
– încercările (testele) sunt independente
! Succesul nu înseamnă bine (reprezintă doar o variantă din cele 2 rezultate posibile – reprezintă
caracteristica pe care o urmărim).
• Probabilitatea de a înregistra k succese din n încercări, cu probabilitatea de succes la o
încercare p şi de eşec 1 – p este:
P ( X = k ) = Cnk p k (1 − p )
n−k
unde
n!
Cnk =
k ! ( n − k )!
În cazul distribuției binomiale media și varianța sunt:
În acest caz succesul reprezintă un produs defect, iar eșec un produs bun.
P ( X = k ) = Cnk p k (1 − p )
n−k
Repartiția Uniformă
Variabilele aleatoare discrete se asociază unor experimente ce constau în contorizarea anumitor
rezultate (n). Exemple:
– aruncarea unui zar n=6
– jocul la ruletă n=37
Dacă un experiment are n rezultate egal posibile, atunci experimentul poate fi modelat printr-o
variabilă aleatoare uniformă pe mulțimea {1, … , 𝑛}
Distribuția uniformă la aruncarea unui zar:
• Repartiția normală reprezintă un model matematic bun pentru un număr mare de variabile
(naturale sau generate de om), la care parametri 𝜇 și 𝜎 pot avea o infinitate de valori posibile
ceea ce conduce la imposibilitatea determinării tabelare a ariei.
• Metoda care permite un calcul mai simplu constă în schimbarea de variabilă, dintr-o variabilă
aleatoare normală într-o variabilă aleatoare standard.
Scorul z stabilește numărul de deviații standard prin care scorul original se plasează față de medie.
Exemplu:
Rezistenta mecanică a unui aliaj de aluminiu are o distribuție normală cu media = 10 GPa și o
abatere standard = 1.4 GPa.
Care este probabilitatea ca o piesă din acest aliaj să aibă o rezistență mai mare de 12 GPa?
(x − ) 12 − 10
P( X 1.4 ) = P( )
1 .4
12 − 10
P( z ) P( z 1.428 )
1 .4
= 1 − 0.9234 = 0.0766 = 7.66%
Se presupune că înălțimea unei adult de gen feminin din România are o distribuție normală, cu
media de 162.2 cm și deviația standard de 6.8 cm.
a) Care este probabilitatea ca o femeie selectată aleatoriu, este mai înaltă de 170.5 cm.
(x − ) 170.5 −
P( X 170.5 ) = P( )
170.5 − 162.2
P( z ) P( z 1.22 )
6 .8
P( z 1.22 ) = 1 − 0.8888 = 0.1112
b) Care este probabilitatea ca persoana selectată aleatoriu, să aibă între 158 și 162 cm.
150 − 162.2 160 − 162.2
P( 150 X 160 ) = P( X )
6 .8 6 .8
P( −1.7941 z −0.3235 )
P( −1.7941 z −0.3235 ) = 0.3745 − 0.0367 = 0.3378 = 33.78%
Repartiția T
Populaţia distribuită normal, dacă se extrag eşantioane şi se calculează media acestora, variabila
t calculată cu relaţia:
x−
t=
S/ n
Distribuţia t
• este simetrică;
• aria totală de sub curbă este 1;
• are media 0 şi o varianţă mai mare decât 1;
• Varianţa distribuţiei creşte pe măsură ce n, volumul eşantionului scade;
• Distribuţia admite ca parametru numărul gradelor de libertate, = n – 1.
Repartiția Exponențială
• Distribuţia se utilizează la reprezentarea intervalelor de timp între evenimente, este
numărul de evenimente produs în unitatea de timp, adică frecvnţa acestora.
( t ) = e − x y t −1dy
0
0 x0
x
F( x, ,t ) = 1
t −1 − y
( t ) y e dy x0
0