Sunteți pe pagina 1din 41

Indicatori ai dispersiei

VARIANȚA, DEVIAȚIA STANDARD ȘI COEFICIENTUL DE VARIAȚIE:


DATE NEGRUPATE

Varianța (𝑠𝑠 2 ) pentru un eșantion de 𝑛𝑛 observații este egală cu suma


abaterilor pătrate de la medie. Varianța măsoară cu cât în medie
fiecare observație diferă față de medie.
𝑛𝑛 2
2
∑ (𝑥𝑥
𝑖𝑖=1 𝑖𝑖 − 𝑥𝑥)
̅
𝑠𝑠 =
𝑛𝑛 − 1

Deviația standard ( 𝒔𝒔 ) a eșantionului, este definită ca rădăcina


pătrată pozitivă a varianței eșantionului
𝑠𝑠 = 𝑠𝑠 2

Indicatori ai dispersiei 2
Spre deosebire de varianță, deviația standard este exprimată în
unitățile de măsură inițiale.
Spre exemplu, dacă observațiile inițiale sunt în dolari, varianța este
exprimată în unitățile specifice „dolari pătrați”, dar deviația standard
este exprimată în dolari. În consecință, ne putem gândi la 𝑠𝑠 ca la o
distanță „tipică” a unei observații 𝑥𝑥𝑖𝑖 față de media sa, 𝑥𝑥.̅
Coeficientul de variație ( 𝐶𝐶𝑉𝑉 ) cunoscut și ca deviație standard
relativă, este o măsură standardizată a dispersiei unei distribuții de
probabilitate sau a unei distribuții pe frecvențe. Când valoarea
coeficientului de variație este mai mică, înseamnă că datele au o
variabilitate mai mică și o stabilitate ridicată.
𝑠𝑠
𝐶𝐶𝐶𝐶 = × 100
𝑥𝑥̅
Indicatori ai dispersiei 3
Aplicație:
Calculați varianța, deviația standard și coeficientul de variație luând
în considerare veniturile (în mil. $) ale 25 de companii din industria
de Semiconductori, de mai jos:
0,26 0,30 0,36 0,52 1,12 1,14 2,71 3,14 3,35 4,24 6,06 8,99 9,49 9,53
10,84 12,24 13,78 13,89 15,12 15,23 21,93 28,53 31,90 35,45 42,04
∑𝑛𝑛 ̅ 2
𝑖𝑖=1(𝑥𝑥𝑖𝑖 −𝑥𝑥)
Varianța (𝑠𝑠 2 ) =
𝑛𝑛−1
∑ 𝑥𝑥𝑖𝑖 0,26+0,30+⋯+42,04
𝑥𝑥̅ = = = 11,69 mil. $ (Media veniturilor)
𝑛𝑛 25
2 (0,26−11,69)2 +(0,30−11,69)2 + ⋯(42,04−11,69)2
𝑠𝑠 = = 140,88
25−1
Această valoare indică o răspândire mare a datelor față de medie
Indicatori ai dispersiei 4
Deviația standard (𝒔𝒔) = 𝑠𝑠 2 = 140,88 = 11,87 mil. $
Veniturile companiilor se abat (+/-) cu 11,87 mil $. față de medie.

𝑠𝑠 11,87
Coeficientul de variație ( 𝐶𝐶𝑉𝑉 ) = × 100 = × 100 = 101,15%
𝑥𝑥̅ 11,69
(1,015)
Dacă valoarea este egală cu 1 sau 100%, deviația standard este egală
cu media. Valorile mai mici de 1 indică faptul că deviația standard
este mai mică decât media (tipic), în timp ce valori mai mari decât 1
apar atunci când 𝒔𝒔 este mai mare decât media. În general, valorile
mai mari reprezintă un grad mai mare de variabilitate relativă, cum
este și în acest caz.

Indicatori ai dispersiei 5
VARIANȚA, DEVIAȚIA STANDARD ȘI COEFICIENTUL DE VARIAȚIE:
DATE GRUPATE

∑𝑛𝑛
𝑖𝑖=1 𝑓𝑓𝑖𝑖 (𝑥𝑥�𝑖𝑖 −𝑥𝑥̅ 𝑖𝑖 )
2
Varianța (𝑠𝑠 2 ) =
𝑛𝑛−1

Deviația standard ( 𝒔𝒔 ) a eșantionului, este definită ca rădăcina


pătrată pozitivă a varianței eșantionului
𝑠𝑠 = 𝑠𝑠 2

𝑠𝑠
Coeficientul de variație (𝐶𝐶𝑉𝑉) = × 100
𝑥𝑥̅

Indicatori ai dispersiei 6
Aplicație:
Tabelul de mai jos prezintă profitul net (mil. EUR) înregistrat de 20 de
companii din sectorul Farmaceutic la sfârșitul anului 2022. Determinați
varianța, deviația standard, coeficientul de variație și interpretați
rezultatele.

Profitul net (mil. EUR) Numărul de companii


𝒙𝒙𝒊𝒊 𝒇𝒇𝒊𝒊
2 – 10 3
10 – 18 8
18 – 26 5
26 – 34 4
TOTAL 20

Indicatori ai dispersiei 7
2+10 Profitul net (mil. EUR) Numărul de companii
𝑥𝑥�1 = =6 𝒙𝒙𝒊𝒊 𝒇𝒇𝒊𝒊
�𝒊𝒊
𝒙𝒙 �𝒊𝒊
𝒇𝒇𝒊𝒊 × 𝒙𝒙
2
2 – 10 3 6 18
...
10 – 18 8 14 112
26+34
𝑥𝑥�4 = = 30 18 – 26 5 22 110
2
26 – 34 4 30 120
TOTAL 20 360

∑ 𝒇𝒇𝒊𝒊 ×�
𝒙𝒙𝒊𝒊 360
𝑥𝑥̅ = ∑ 𝒇𝒇𝒊𝒊
= = 18 mil. EUR (media profitului net)
20

2 ∑𝑛𝑛
𝑖𝑖=1 𝑓𝑓𝑖𝑖 (𝑥𝑥�𝑖𝑖 −𝑥𝑥̅ 𝑖𝑖 )
2 3× 6−18 2 +8× 14−18 2 +⋯4× 22−18 2
Varianța (𝑠𝑠 ) = = = 64
𝑛𝑛−1 20−1

Această valoare indică o răspândire mare a datelor față de medie

Indicatori ai dispersiei 8
Deviația standard (𝒔𝒔) = 𝑠𝑠 2 = 64 = 8 mil. EUR
Profitul net al companiilor se abate (+/-) cu 8 mil EUR față de medie.

𝑠𝑠 8
Coeficientul de variație (𝐶𝐶𝐶𝐶) = × 100 = × 100 = 0,4444 sau
𝑥𝑥̅ 18
44,44%
Coeficientul de variație este < 100% sau 1, iar în acest caz deviația
standard este 44,44% (aprox. jumătate) din medie (𝑥𝑥̅ = 18 mil. EUR).

Indicatori ai dispersiei 9
RESURSE BIBLIOGRAFICE

McClave, J. T., Benson, P. G., & Sincich, T. (2022).


Statistics for business and economics, 14th
Edition. Pearson Education.

Indicatori ai dispersiei 10
Distribuția normală I
O variabilă aleatoare este o variabilă care presupune valori numerice
asociate cu rezultatele aleatorii ale unui experiment, unde o (și doar
una) valoare numerică este atribuită fiecărui punct din eșantion.

Termenul de variabilă aleatoare este mai semnificativ decât termenul


de variabilă, deoarece adjectivul aleatoriu indică faptul că
experimentul de aruncare a monedelor poate avea ca rezultat una
din mai multe valori posibile ale variabilei în funcție de rezultatul
aleatoriu al experimentului, CC, CP, PC și PP.

Distribuția normal I 2
În mod similar, dacă experimentul este de a “număra” clienți care
folosesc aplicația de internet banking a unei bănci în fiecare zi,
variabila aleatoare (numărul de clienți) va varia de la o zi la alta,
parțial din cauza fenomenelor aleatorii care influențează, dacă
clienții utilizează aplicația. Astfel, valorile posibile ale acestei
variabile aleatoare variază de la 0 la numărul maxim de clienți pe
care aplicația l-ar putea deservi într-o zi.

Definim două tipuri diferite de variabile aleatoare, discrete și


continue

Distribuția normal I 3
Variabilele aleatoare care pot presupune un număr de valori
specifice (finite sau infinite) se numesc discrete.

Exemple de variabile aleatoare discrete:


1. Numărul vânzărilor realizate de un agent de vânzări într-o
săptămână dată: x = 0, 1, 2 …
2. Numărul de consumatori dintr-un eșantion de 500 care
favorizează un anumit produs față de toți concurenții: x = 0, 1, 2
… 500
3. Numărul de oferte primite într-o emisiune de obligațiuni: x = 0, 1,
2…

Distribuția normal I 4
Variabilele aleatoare care pot lua valori corespunzătoare oricăruia
dintre punctele conținute în unul sau mai multe intervale (adică,
valori care sunt infinite și nenumărabile) sunt numite continue.

Exemple de variabile aleatoare continue:


1. Pentru un complex de apartamente nou, perioada de timp de la
finalizare până la închirierea unui anumit număr de apartamente:
0 ≤ 𝑥𝑥 < ∞
2. Greutatea unui produs alimentar cumpărat într-un supermarket:
0 ≤ 𝑥𝑥 ≤ 500

Distribuția normal I 5
Una dintre cele mai frecvent observate variabile aleatoare continue
are o distribuție de probabilitate în formă de clopot (sau curbă
clopot). Este cunoscută ca o variabilă aleatoare normală, iar
distribuția sa de probabilitate se numește distribuție normală.
Distribuția normală, cunoscută și sub numele de distribuție
Gaussiană, este o distribuție de probabilitate care este simetrică
față de medie, arătând că datele din apropierea mediei apar mai
frecvent decât datele aflate la distanță de medie.

Distribuția normal I 6
• Distribuția normală joacă un rol foarte important în știința inferenței
statistice.
• Multe fenomene de afaceri generează variabile aleatoare cu
distribuții de probabilitate care sunt foarte bine aproximate printr-o
distribuție normală.
• Spre exemplu, rentabilitate lunară a unei acțiuni este aproximativ o
variabilă aleatoare normală, iar distribuția probabilității pentru
vânzările săptămânale ale unei corporații poate fi aproximată
printr-o distribuție normală de probabilitate.
• Distribuția normală ar putea oferi, de asemenea, un model precis
pentru distribuirea scorurilor la un test de aptitudini pentru
angajare. Puteți determina caracterul adecvat al aproximării
normale față de o populație existentă comparând distribuția
relativă a frecvenței unui eșantion mare de date cu distribuția
normală de probabilitate.
Distribuția normal I 7
Distribuția normală este perfect simetrică față de media sa (𝜇𝜇), iar
răspândirea datelor este determinată de valoarea deviației standard
(𝜎𝜎). Atunci, variabila aleatoare 𝑥𝑥 urmează o distribuție normală de
medie (𝜇𝜇) și deviație standard (𝜎𝜎), notate formal: 𝒙𝒙~𝑵𝑵(𝝁𝝁, 𝝈𝝈).

Distribuția normală standard este o distribuție normală cu 𝜇𝜇 = 0 și 𝜎𝜎 =


1. O variabilă aleatoare cu o distribuție normală standard, notată cu
simbolul (𝑍𝑍), se numește variabilă aleatoare normală standard.

Distribuția normal I 8
Distribuția normală standard, 𝑿𝑿~𝑵𝑵(𝟎𝟎, 𝟏𝟏)
Medie
Mediană
Modul
Densitate de probabilitate

𝜇𝜇 𝜎𝜎 𝜇𝜇 𝜎𝜎 𝜇𝜇 𝜎𝜎 𝜇𝜇 = 𝜇𝜇+ 𝜎𝜎 𝜇𝜇+ 𝜎𝜎 𝜇𝜇+ 𝜎𝜎


Z=-3 Z=-2 Z=-1 0 Z=+1 Z=+2 Z=+3
Distribuția normal I 9
Mai multe distribuții normale cu diferite medii (𝜇𝜇) și deviații standard
(𝜎𝜎)

𝒙𝒙~𝑵𝑵 −𝟒𝟒; 𝟎𝟎, 𝟓𝟓

𝒙𝒙~𝑵𝑵 𝟎𝟎; 𝟏𝟏, 𝟓𝟓

𝒙𝒙~𝑵𝑵(𝟑𝟑; 𝟏𝟏)

Distribuția normal I 10
Distribuția probabilității pentru o variabilă aleatoare normală 𝒙𝒙:

−(𝑥𝑥−𝜇𝜇)2
1
Funcția densității de probabilitate: 𝑓𝑓 𝑥𝑥 = 𝑒𝑒 2𝜎𝜎2
𝜎𝜎 2𝜋𝜋
unde:
𝜇𝜇 = Media variabilei aleatoare normale 𝑥𝑥
𝜎𝜎 = Deviația standard
𝜋𝜋 = 3,1415…
𝑒𝑒 = 2,71828…

𝑃𝑃(𝑥𝑥 < 𝑎𝑎) se obține dintr-un tabel de probabilități normale sau


folosind un software statistic
Distribuția normal I 11
Probabilitatea ca 𝑥𝑥 să preia o valoare în intervalul a < 𝑥𝑥 < b este
𝑏𝑏
𝑃𝑃 𝑎𝑎 < 𝑥𝑥 < 𝑏𝑏 = ∫𝑎𝑎 𝑓𝑓 𝑥𝑥 𝑑𝑑𝑑𝑑, presupunând că integrala există. Similar cu
cerința pentru o distribuție de probabilitate discretă, avem nevoie ca

𝑓𝑓(𝑥𝑥) ≥ 0 si ∫−∞ 𝑓𝑓 𝑥𝑥 𝑑𝑑𝑑𝑑 = 1.
Valoarea acestei integrale definite poate fi obținută la orice grad de
precizie dorit prin proceduri de aproximare numerică.
Calcularea ariei pe intervale sub distribuția normală de probabilitate
este o sarcină dificilă. În consecință, vom folosi suprafețele (ariile)
calculate enumerate în table.

Distribuția normal I 12
Un tabel normal standard (numit și tabelul normal al unității sau
tabelul z-scor) este un tabel matematic, indicând valorile funcției de
distribuție cumulativă a distribuției normale. Scorul Z, cunoscut și sub
denumirea de scor standard, indică câte abateri standard are o
observatie față de medie.

Deoarece tabelele de probabilitate nu pot fi calculate pentru fiecare


distribuție normală, deoarece există o varietate infinită de distribuții
normale, este o practică obișnuită să convertim o distributie normală
într-una standard și apoi să utilizam tabelul cu scoruri z pentru a găsi
probabilitățile.

Distribuția normal I 13
Z-scor: Dacă 𝑥𝑥 este o variabilă aleatoare dintr-o distribuție normală cu
medie (𝜇𝜇) și deviație standard (𝜎𝜎), scorul său Z poate fi calculat astfel:

(𝑥𝑥 − 𝜇𝜇)
𝑍𝑍 =
𝜎𝜎

Obs! Pentru observatțiile (𝑥𝑥) a căror probabilitate dorim să o calculăm,


care se află la ±1, ±2 sau ±3 deviații standard față de medie, putem
să utilizăm regula empirică (3 sigma sau 68-95-99) pentru a determina
aria de sub curbă. În afara acestor situații se utilizează tabelul z-scor.

Distribuția normal I 14
Regula empirica (3 sigma sau 68-95-99) este o regula statistica, care
presupune ca pentru datele distribuite normal, aproape toate
observatiile se afla intre 3 deviatii standard ale mediei datelor.
In cazul distributiei normale regula empirica estimeaza ca:
• 68% din observatii se afla in prima deviatie standard (𝜇𝜇 ± 𝜎𝜎);
• 95% din observatii se afla in a doua deviatie standard (𝜇𝜇 ± 2𝜎𝜎);
• 99,7% din observatii se afla in a treia deviatie standard (𝜇𝜇 ± 3𝜎𝜎)

𝜇𝜇 − 𝜎𝜎 ≤ 𝑥𝑥 ≤ 𝜇𝜇 + 𝜎𝜎 ≈ 68%
𝜇𝜇 − 2𝜎𝜎 ≤ 𝑥𝑥 ≤ 𝜇𝜇 + 2𝜎𝜎 ≈ 95%
𝜇𝜇 − 3𝜎𝜎 ≤ 𝑥𝑥 ≤ 𝜇𝜇 + 3𝜎𝜎 ≈ 99,7%

Distribuția normal I 15
Distribuția normal I 16
Distribuția normal I 17
RESURSE BIBLIOGRAFICE

McClave, J. T., Benson, P. G., & Sincich, T. (2022).


Statistics for business and economics, 14th
Edition. Pearson Education.

Distribuția normal I 18
Distribuția normală II
Forma grafică a distribuției de probabilitate pentru o variabilă
aleatoare continuă 𝑥𝑥 este o curbă. Această curbă, o funcție a lui 𝑥𝑥,
este notă cu simbolul 𝑓𝑓 𝑥𝑥 și este denumită funcția densității de
probabilitate (FDP), funcția de frecvență sau o distribuție de
probabilitate.
−(𝑥𝑥−𝜇𝜇)2
1
Funcția densității de probabilitate: 𝑓𝑓 𝑥𝑥 = 𝑒𝑒 2𝜎𝜎2
𝜎𝜎 2𝜋𝜋

O distribuție de probabilitate
𝑓𝑓 𝑥𝑥 pentru o variabilă aleatoare
continuă 𝑥𝑥.

Distribuția normală II 2
Zonele aflate sub o distribuție de probabilitate corespund
probabilităților lui 𝑥𝑥.
De exemplu, aria A de sub curba dintre cele două puncte a și b. este
probabilitatea ca 𝑥𝑥 să ia o valoare între a și b (𝑎𝑎 < 𝑥𝑥 < 𝑏𝑏).
Deoarece nu există o zonă peste un punct, să spunem 𝑥𝑥 = a, rezultă că
probabilitatea asociată cu o anumită valoare a lui x este egală cu 0,
atunci P x = a = 0 și, prin urmare P a < 𝑥𝑥 < 𝑏𝑏 = 𝑃𝑃(𝑎𝑎 ≤ 𝑥𝑥 ≤ 𝑏𝑏).
Cu alte cuvinte, probabilitatea este aceeași indiferent dacă includeți
sau nu punctele finale ale intervalului. De asemenea, deoarece ariile
peste intervale reprezintă probabilități, rezultă că aria totală sub o
distribuție de probabilitate, probabilitatea atribuită tuturor valorilor
lui x, ar trebui să fie egală cu 1.

Distribuția normală II 3
Rețineți că distribuțiile de probabilitate pentru variabile aleatoare
continue au forme diferite în funcție de distribuțiile de frecvență
relativă a datelor reale pe care se presupune că distribuțiile de
probabilitate le modelează.

Atunci, funcția densitate cumulativă a probabilității (FDC), reprezintă


probabilitatea ca o a treia valoare 𝑥𝑥 să se afle între primele două
valori inițiale, astfel:
−(𝑥𝑥−𝜇𝜇)2
𝑏𝑏 1
𝑃𝑃 𝑎𝑎 < 𝑥𝑥 < 𝑏𝑏 = ∫𝑎𝑎 𝜎𝜎 2𝜋𝜋 𝑒𝑒 2𝜎𝜎2

Pentru calculul integralei utilizăm: https://www.integral-calculator.com/


Distribuția normală II 4
Exemplu: În tabelul de mai jos se află prețurile de
tranzacționare lunare ale acțiunilor Apple, din perioada
Octombrie 2021- Octombrie 2023.
Date Close
01.10.2021 $ 149,80
01.11.2021 $ 165,30
01.12.2021 $ 177,57
01.01.2022 $ 174,78
01.02.2022 $ 165,12
01.03.2022
01.04.2022
$
$
174,61
157,65 Reprezentati grafic funcția
01.05.2022
01.06.2022
$
$
148,84
136,72 densității de probabilitate și
01.07.2022
01.08.2022
$
$
162,51
157,22 probabilitatea ca prețul acțiunilor
01.09.2022
01.10.2022
$
$
138,20
153,34 Apple să fie între 150$ și 175$.
01.11.2022 $ 148,03
01.12.2022 $ 129,93
01.01.2023 $ 144,29
01.02.2023 $ 147,41
01.03.2023 $ 164,90
01.04.2023 $ 169,68
01.05.2023 $ 177,25
01.06.2023 $ 193,97
01.07.2023 $ 196,45
01.08.2023 $ 187,87
01.09.2023 $ 171,21
01.10.2023 $ 170,77 Distribuția normală II 5
−(𝑥𝑥−𝜇𝜇)2
175 1
𝑃𝑃 150 < 𝑥𝑥 < 175 = ∫150 𝜎𝜎 2𝜋𝜋 𝑒𝑒 2𝜎𝜎2 = 0,5259 (52,59%)

Distribuția normală II 6
Indicatori ai formei distribuției

Indicatorul Skewness este o măsură a distorsiunii distribuției simetrice


sau a asimetriei într-un set de date. Deformarea este demonstrată pe
o curbă de tip clopot atunci când punctele de date nu sunt distribuite
simetric pe laturile stânga și dreapta ale medianei pe acea curba.
Skewness este gradul de asimetrie observat într-o distribuție de
probabilitate.
Distribuțiile pot prezenta asimetrie la dreapta (pozitivă) sau la stânga
(negativă) în grade diferite. O distribuție normală (curba clopot)
prezintă asimetrie zero.

Distribuția normală II 7
Distribuția normală II 8
Măsurarea indicatorului Skewness (asimetriei):

𝒙𝒙𝒊𝒊 − 𝝁𝝁 𝟑𝟑 𝟏𝟏
𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑ț𝒊𝒊𝒊𝒊 = � ×
𝝈𝝈 𝑵𝑵

𝒙𝒙)𝟑𝟑
𝑵𝑵 × ∑(𝒙𝒙𝒊𝒊 −�
𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 𝒆𝒆ș𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂𝒂 = 𝟑𝟑
𝒔𝒔 × (𝑵𝑵 − 𝟏𝟏) × (𝑵𝑵 − 𝟐𝟐)

Distribuția normală II 9
Indicatorul Kurtosis este o măsură statistică folosită pentru a descrie o
caracteristică a unui set de date. Când datele distribuite în mod
normal sunt reprezentate pe un grafic, acestea iau, în general, forma
unui clopot. Datele reprezentate care sunt cel mai îndepărtate de
media datelor formează de obicei cozile de fiecare parte a curbei.
Kurtosis indică câte date se află în cozi.
O distribuție cu o valoarea pozitivă pentru Kurtosis (leptocurtică) are
prea multe valori în cozi și este ascuțită, în timp ce distribuții cu valori
negative ale indicatorului Kurtosis dețin prea puține valori în cozi și
sunt plate (platicurtice).

Distribuția normală II 10
Distribuția normală II 11
Măsurarea indicatorului Kurtosis (asimetriei):

𝑴𝑴𝟒𝟒
𝑲𝑲𝑲𝑲𝑲𝑲𝑲𝑲𝑲𝑲𝑲𝑲𝑲𝑲𝑲𝑲 = 𝟐𝟐 − 𝟑𝟑
𝑴𝑴𝟐𝟐

𝒙𝒙)𝟐𝟐
∑(𝒙𝒙𝒊𝒊 −�
𝑴𝑴𝟐𝟐 = ;
𝑵𝑵

𝒙𝒙)𝟒𝟒
∑(𝒙𝒙𝒊𝒊 −�
𝑴𝑴𝟒𝟒 =
𝑵𝑵

Distribuția normală II 12
RESURSE BIBLIOGRAFICE

McClave, J. T., Benson, P. G., & Sincich, T. (2022).


Statistics for business and economics, 14th
Edition. Pearson Education.

Distribuția normală II 13

S-ar putea să vă placă și