Documente Academic
Documente Profesional
Documente Cultură
Variabile Aleatoare
Variabile Aleatoare
INDICATORI STATISTICI
2-1 Notiuni de teoria probabilitatilor
n teoria probabilitatilor, orice rezultat al unui experiment se numeste eveniment, sigur fiind evenimentul care se
realizeaza cu certitudine la orice efectuare a experimentului. Evenimentul imposibil este cel care nu se realizeaza
niciodata n cadrul unui experiment dat.
Evenimentele ce apar ca rezultat al unor experimente le vom nota , , etc. Evenimentul complementar unui
eveniment
este acel eveniment care se realizeaza atunci si numai atunci cnd nu se realizeaza
. Evenimentul care
consta n realizarea simultana a evenimentelor
se noteaza cu
si
).
Probabilitatea unui eveniment este o masura a sanselor de realizare a acelui eveniment. Daca un eveniment se
desfasoara astfel nct producerea oricarui eveniment legat de acesta are un numar finit de sanse egal-posibile,
probabilitatea evenimentului este raportul dintre numarul rezultatelor favorabile producerii evenimentului si numarul
tuturor rezultatelor posibile.
Se considera exemplul cunoscut al urnei care contine
negre. Probabilitatea de a extrage o bila alba sau neagra va fi
(2.1)
(2.2)
sunt albe si
sunt
respectiv
Din relatia (2.1) se vede imediat ca probabilitatea unui eveniment este cu 535h79f prinsa ntre zero si unitate, adica
.
Evident,
2-1.1
din
.
De asemenea, pentru producerea evenimentului
(2.3)
, pentru care avem
(2.4)
Se mai considera ca cele doua evenimente se exclud reciproc, adica cnd se produce
Probabilitatea ca n cele
sunt cazuri
sau
, nu se produce
, va fi
(2.5)
Se considera cazul unui eveniment mai complex care rezulta din realizarea succesiva a doua evenimente dependente
si . Pentru examinarea acestei situatii mai presupunem:
- n
- n
dar nu se produce
- n
dar nu se produce
- n
Fie
ct si
nici
si
si
Pentru a se produce
probabilitatea este
(2.6)
, probabilitatea este
,
deoarece
are
, cazuri favorabile,
(2.7)
fiind acelasi.
va fi
. Prin urmare,
.
Pentru probabilitatea
produca dupa ce s-a produs
(2.8)
sa se
Din compararea relatiilor (2.6), (2.7) si (2.8) rezulta principiul probabilitatii compuse
si
(2.9)
care arata ca: Daca producerea unui eveniment presupune realizarea altor evenimente
si
, atunci probabilitatea
producerii lui este egala cu produsul dintre probabilitatea producerii lui
si probabilitatea lui , dupa ce s-a produs .
n conditiile de mai sus, numarul cazurilor posibile este limitat. De aceea, definitiile si probabilitatile de mai sus se
refera la asa numita teorie a probabilitatilor discontinue, care se apropie de teoria probabilitatilor continue daca numarul
cazurilor favorabile este destul de mare.
, obtinndu-se siruri de
, probabilitatea
(2.10)
este o caracteristica a intervalului
n intervalul considerat.
Functia de repartitie
se noteaza cu
(2.11)
Din punct de vedere probabilistic, functia de repartitie caracterizeaza complet o variabila aleatoare, indiferent daca
este vorba de o variabila aleatoare discreta sau continua.
Functia de repartitie (sau functia cumulativa a probabilitatilor) a unei variabile aleatoare discrete este suma
probabilitatilor de la stnga punctului de abscisa (Fig. 2.1)
(2.12)
Se numeste repartitie a unei variabile aleatoare legea de probabilitate dupa care ea se produce. Repartitia unei
variabile aleatoare discrete se scrie sub forma
sau
(2.13)
este o variabila aleatoare continua, functia de repartitie se defineste astfel (Fig. 2.2):
(2.14)
(2.15)
, functia de repartitie este egala cu zero
(2.16)
(2.18)
(2.19)
Functia de repartitie a unei variabile discrete este o functie discontinua, n scara, admite salturi, salturile de la o
treapta la treapta curenta sunt egale cu
a)
b)
si
).
Densitatea de repartitie
Se numeste densitate de repartitie (sau densitate de probabilitate) prima derivata - daca exista - a functiei de repartitie
.(2.20)
Densitatea de repartitie exista numai pentru variabile de tip continuu.
Probabilitatea ca variabila aleatoare continua
sa ia valoare n intervalul
de repartitie pe intervalul
,
adica evenimentul
2-2.3
(2.21)
este sigur.
Fie
si
,
Daca
si
(2.22)
(2.23)
si
,
n care
(2.24)
si
si
adica
si
(2.25)
n care
si
(2.26)
2. Integrala densitatii de repartitie, n cadrul limitelor de variatie infinite, a variabilei aleatoare continue, este egala cu
unitatea,
(2.27)
.
Fie
continue
.
Daca variabila aleatoare este definita pe intervalul
(2.28)
(2.29)
, atunci valoarea medie este
(2.30)
Mediana
Se numeste mediana a variabilei aleatoare
(2.31)
sau
.
(2.32)
(2.33)
(2.34)
Dispersia
Dispersia unei variabile aleatoare discrete
(2.35)
sau
(2.36)
adica, diferenta dintre media patratului variabilei aleatoare si patratul mediei variabilei aleatoare.
Dispersia unei variabile aleatoare continue
(2.37)
Dispersia si abaterea medie patratica sunt indicatorii cei mai utilizati pentru a caracteriza mprastierea valorilor unei
variabile aleatoare.
Momente
(2.39)
(2.40)
,
n care
(2.41)
(2.42)
Momentul centrat de ordinul 1 este zero, datorita proprietatii mediei aritmetice conform careia
(2.43)
(2.44)
.
Momentul initial de ordinul
(2.45)
al unei variabile aleatoare continue
este
.
n particular, pentru
(2.46)
.
Momentul centrat de ordinul
(2.47)
este
(2.48)
n particular, pentru
.
Momentul ordinar (conventional) de ordinul
(2.49)
este
(2.50)
(2.51)
,
(2.52)
.
(2.53)
Coeficientul de covarianta
Covarianta a doua variabile aleatoare
si
(2.54)
(2.55)
,
n care
corelatii.
(2.56)
Daca variabilele
si
Proprietatile mediei
Media unei variabile aleatoare are proprietatile:
1. Daca
este o constanta
, atunci
;
(2.57)
sunt numite
exista, atunci
2. Daca
este o variabila aleatoare si
este egala cu
si
(2.58)
3. Daca
si
sunt doua variabile aleatoare independente avnd valorile medii
valoarea medie a variabilei aleatoare
exista si este egala cu
;
4. Daca
si
si respectiv,
(2.59)
sunt doua variabile aleatoare independente pentru care exista valorile medii
, atunci
si respectiv
(2.60)
5. Daca
este o variabila aleatoare a carei valoare medie
numeste abatere de la valoarea medie.
se
Proprietatile dispersiei
Dispersia unei variabile aleatoare are proprietatile:
1. Fie o variabila aleatoare
aleatoare
cu dispersia
si
(2.61)
, dispersia variabilei
, atunci
(2.62)
si
,
egalitatea avnd loc doar pentru
, respectiv
este
;
3. Daca
, dispersia variabilei
este
;
2. Daca
si
(2.63)
arbitrar.
(2.64)
prin
, unde
- un parametru real.
,
Daca variabila
(2.65)
.
Daca repartitia variabilei
(2.66)
(2.67)
sa ia o valoare mai
(2.68)
este definita ca raportul dintre densitatea de repartitie si functia de
(2.69)
(2.70)
sau
.
Functia generatoare a unei variabile aleatoare
(2.71)
care ia numai valori ntregi pozitive este definita de relatia
(2.72)
(2.73)
Functia caracteristica se utilizeaza pentru calculul mometelor factoriale, obisnuite si centrate de diferite ordine.
Indicatorii absoluti sunt rezultatul observarii si sistematizarii datelor; n consecinta acestia reflecta dimensiunea,
marimea, amplitudinea fenomenului n unitati concrete, specifice, de masura.
Indicatorii derivati se obtin n procesul de calcul statistic si reflecta ntr-o maniera abstracta, aspecte calitative,
evolutive ale colectivitatii cercetate. Dintre indicatorii derivati amintim: marimile relative si marimile medii, indicatorii
variatiei si ai asimetriei, indicii statistici, parametrii functiilor de regresie si ajustare analitica etc.
Functiile indicatorilor statistici sunt: de masurare, de comparare, de sinteza, de estimare, de verificare a ipotezelor
statistice, de testare a semnificatiilor parametrilor statistici utilizati.
Orice indicator statistic trebuie sa ndeplineasca doua conditii: (a) sa aiba un continut stiintific bine determinat, o
definitie sau o formula a sa; (b) sa indeplineasca conditia de compatibilitate.
2-5.1
Principali indicatori ai tendintei centrale sunt: (a) indicatorii medii de control: media aritmetica, media geometrica,
media armonica etc; (b) indicatorii medii de pozitie: modul, mediana, cuartilele si decilele.
Media aritmetica
Media este expresia sintetizarii ntr-un singur nivel reprezentativ a tot ce este esential, tipic si obiectiv n aparitia,
manifestarea si dezvoltarea unei variabile (caracteristici) [1].
Functie de natura datelor nregistrate si de natura variatiei, media poate fi: media aritmetica (simpla), media
armonica, media geometrica, media patratica, media cubica, media parabolica, media cronologica etc.
Media aritmetica simpla de sondaj (sau de selectie) a unui sir de valori
,.
se calculeaza cu relatia
(2.74)
,.
se calculeaza cu relatia
(2.75)
n care
reprezinta frecventa sau numarul de aparitii al variabilei .
Media aritmetica ponderata este influentata att de nivelul caracteristicii ct si de nivelul frecventei.
Media aritmetica este o valoare interna a seriei din care a fost calculata (trebuie sa fie mai mare dect valoarea
minima si mai mica dect valoarea maxima),
Principiul pe care se bazeaza media este cel al compensatiei abaterilor (+ sau -); suma abaterilor nivelurilor
individuale ale variabilei aleatoare fata de media lor diind egala cu zero.
Media armonica
Media armonica reprezinta acea valoare care nlocuid termenii reali din colectivitate nu modifica suma inverselor.
Media armonica este o valoare interna seriei din care a fost calculata. Se disting doua cazuri:
- Media armonica simpla
(2.76)
.
Cnd nu se cunosc frecventele
(2.78)
ci cu
. n acest caz, media armonica este un artificiu de calcul pentru a determina media aritmetica cnd datele nu permit
aflarea directa a acesteia
(2.79)
Media geometrica
Media geometrica este acea valoare care nlocuid termenii reali din colectivitate nu modifica produsul acestora. n
cazul mediei geometrice functia determinanta este de tip multiplicativ si se disting doua cazuri:
- Media geometrica simpla (neponderata)
sau
(2.80)
(2.81)
Media geometrica nu este influentata nici de valorile cele mai mici, nici de valorile cele mai mari, dar nu poate fi
determinata daca unele valori sunt nule sau negative. Media geometrica se utilizeaza pentru calculul indicelui mediu de
crestere sau descrestere.
Media patratica
Se foloseste cnd nivelul variabilei prezinta cresteri din ce n ce mai mari, modificndu-se aproximativ dupa o functie
exponentiala. Se disting doua cazuri:
- Media patratica simpla
(2.82)
(2.83)
Media patratica se poate calcula si pentru variabile nule sau negative. Media geometrica este sensibila la variatii mari
care prin ridicare la patrat devin foarte mari.
ntr-o serie statistica n care se pot calcula toate mediile exista relatia
.
(2.84)
Media cronologica
Media cronologica este utilizata pentru determinarea nivelului mediu al seriilor cronologice de momente. Media
cronologica este o medie care are la baza principiul de calcul al mediei aritmetice.
Daca intervalele de timp care separa termenii seriei cronologice sunt egale, se calculeaza media cronologica simpla
(2.85)
Daca intervalele de timp dintre termenii seriei cronologice de momente sunt neegale atunci se calculeaza media
cronologica ponderata. n acest caz, mediile partiale din care se calculeaza media ntregii perioade sunt ponderate cu
durata perioadelor partiale cuprinse ntre termenii seriei dupa formula
(2.86)
Media progresiva
Media progresiva reprezinta o medie a timpilor de nivel calitativ superiori n cadrul colectivitati date. Media
progresiva se calculeaza cu relatia
.
n care
(2.87)
- media termenilor calitativ superiori mediei generale.
Mediana
Mediana este acea valoarea a caracteristicii fata de care frecventa valorilor mai mica dect ea este egala cu frecvent a
valorilor mai mari dect ea, deci mediana mparte sirul de date n doua parti egale. Din punct de vedere analitic, mediana
corespunde valorii abscisei pentru care ordonata mparte suprafata delimitata de curba de repartitie n doua parti egale.
Daca sirul de date este constituit dintr-un numar impar de valori
, mediana este reprezentata de valoarea de
rang
. n cazul n care sirul de date este constituit dintr-un numar par de valori
, mediana se situeaza ntre doua
valori mediane
si
. n general, s-a convenit sa se considere ca mediana media aritmetica a celor doua valori
mediane:
(2.88)
Mediana unei functii de repartitie
probabilitati egale
este valoarea
(2.89)
au
, unde
, unde
n care:
- frecventele caracteristicii
(2.90)
(2.91)
;
- marimea intervalului;
- marimea intervalului.
Modul
Modul este, prin definitie, valoarea caracteristicii cu frecventa cea mai mare de aparitie n colectivitate. Modul mai
poate fi definit ca valoarea caracteristicii careia i corespunde densitatea maxima de repartitie. Minimul densitatii de
repartitie este antimod. Daca sirul de masuratori are doua valori maxime, repartitia se numeste bimodala, iar daca sunt
mai multe, plurimodala.
Modul unei functii de repartitie
intervalul cu frecventa cea mai mare.
,
unde:
(2.92)
(2.93)
Media, mediana si modulul caracterizeaza tendinta centrala si forma de variatie a caracteristicii. n cazul unei
distributii simetrice ele coincid.
Valoarea centrala a sirului
Valoarea centrala a sirului de date este
,
n care
Cuantilele
(2.94)
, iar
,
unde
;
(2.95)
- frecventa intervalului
.
, ea reprezentnd valoarea unitatii mediane. Ordonata corespunzatoare
acestei unitati mparte aria delimitata de curba distributiei n doua parti egale. Cuartila inferioara
mediana a valorilor situate n partea inferioara a medianei
partea superioara a medianei propriu-zise.
Locul unei cuartile oarecare
este unitatea
(2.96)
Decilele
Decilele, n numar de noua, mpart seria n zece intervale de frecvente egale cu 1/10
,
unde
- frecventa intervalului
(2.96)
(2.96)
Centilele
Centilele, n numar de 99, mpart seria n 100 de intervale egale
(2.97)
unde
- frecventa intervalului
Dispersia
Dispersia (sau varianta) sirului de date, denumita si dispersie de sondaj (esantion) este indicatorul de baza al
mprastierii.
Pentru o serie simpla, dispersia se calculeaza cu formula
(2.98)
(2.99)
Dispersia de sondaj se poate folosi ca estimatie a dispersiei din populatia originara (dispersie de selectie),
considerndu-se relatia
(2.100)
(2.101)
(2.102)
(2.103)
(2.104)
(2.105)
(2.106)
.
Intercuartila
(2.107)
este o masura a dispersiei exprimata prin diferenta dintre cuartila superioara si cea inferioara.
Abaterea medie intercuartilica este folosita n analiza dispersionala si are avantajul ca poate fi usor calculata.
Abaterea medie intercuartilica reprezinta aproximativ
din abaterea standard si este mai putin exacta dect abaterea
medie liniara. Avnd n vedere ca se exprima n aceeasi unitate de masura ca si variabila analizata, abaterea medie
intercuartilica nu se poate utilize pentru comparatii ntre serii statistice diferite din punct de vedere al unitatilor de masura.
Coeficientul de variatie intercuartilica
Coeficientul de variatie intercuartilica este rapotrul dintre semiintercuartila si mediana
(2.108)
(2.109)
Amplitudinea se poate calcula si ca marime relativa. Amplitudinea relativa este raportul dintre amplitudinea absoluta
si media aritmetica a sirului de date
(2.110)
are expresia
(2.111)
.
Momentul centrat de ordinul
(2.112)
(2.113)
.
Pentru serii simple, momentul ordinar de ordinul
(2.114)
, calculat n raport cu o valoare arbitrara
(2.115)
(2.116)
, are expresia
2-5.3
Indicatorii asimetriei
Coeficientul de asimetrie
Pentru caracterizarea seriilor de distributie unidimensionale si unimodale este necesara cunoasterea gradului de
oblicitate, de ndepartare a acestor distributii de la simetrie, aspect denumit asimetrie.
Pentru cuantificarea gradului de asimetrie se foloseste coeficientul de asimetrie definit de relatia
(2.117)
,
n care
(2.118)
(2.119)
Daca:
atunci exista simetrie perfecta;
asimetrie negativa sau de dreapta.
a)
exista
b)
(2.120)
n care
Daca
este modulul;
- media aritmetica.
repartitia
,
n care
(2.121)
reprezinta mediana.
Coeficientul de asimetrie
are valori ntre -3 si +3; cu ct se apropie de zero cu att sirul este mai simetric.
(2.122)
(2.123)
Coeficientul de boltire
Coeficientul de boltire se calculeaza ca raport ntre momentul centrat de ordinul patru si patratul momentului centrat
de ordinul doi
(2.124)
n care:
(2.125)
(2.126)
Coeficientul de boltire este un indicator al pantei curbei densitatii de repartitie, n vecinatatea modului de sondaj.
Curtozisul
Curtozisul arata gradul de concentrare al frecventelor n zona centrala a distributiilor unimodale. Pentru determinarea
curtozisului se foloseste coeficientul de boltire.
stiind ca pentru repartitia normala
si considernd aceasta valoare ca nivel standard n masurarea gradului de
boltire al distributiei unimodale, curtozisul este dat de relatia
.
(2.127)
Daca
, curba densitatii de repartitie se numeste leptocurtica si este mai ascutita la vrf dect curba normala.
Daca
repartitia se numeste platicurtica si are vrful mai plat dect o curba normala. Daca
numeste normala sau mezocurtica.
repartitia se
(2.128)
Interpretarea rezultatelor
Median - Mediana este o valoare a seriei astfel incat jumatate dintre observatii au valori mai mici
(sau egale) si cealalta jumatate au valori mai mari (sau egale). Se poate calcula si cu functia
MEDIAN.
Mode - Modulul este valoarea care are cea mai mare frecventa din serie. In cazul modulului o
situatie care apare este cea in care seria nu are modul, adica toate valorile apar o singura data. Atunci
va fi afisata valoarea #N/A. O alta situatie posibila este ca seria sa fie bimodala sau trimodala.
Atunci va fi afisata numai prima valoare in ordinea aparitiei lor in cadrul seriei. In acest caz pentru
determinarea tuturor valorilor modulului se poate face un tabel de frecventa. Se poate calcula si cu
functia MODE.
Standard Deviation - Deviatia standard sau Abaterea standard se poate calcula si cu STDEV sau
pentru deviatia standard populationala STDEVP.
Sample Variance - Variatia se poate calcula si cu VAR sau pentru variatia populationala VARP
Kurtosis - Excesul sau Boltirea masoara inaltimea aplatizarii sau boltirii unei distributii in
comparatie cu o distributie normala.
Excesul 4 este zero pentru o serie de date avand o distributie normala, este pozitiv pentru o serie de
date avand trena mai inalta decat cea a unei distributii normale (cu media
si variatia S2) si este
negativ pentru o serie de date a carei trena este mai coborata decat cea a unei distributii normale. In
cazul nostru valoarea -0,99 a boltirii indica o curba putin mai aplatizata decat curba normala. Se
poate calcula si cu functia KURT.
Skewness - Asimetria masoara abaterea de la aspectul simetric si directia asimetriei (pozitiva sau
negativa) fata de curba normala.
Asimetria este 0 pentru o serie de date avand o distributie normala, este negativa pentru o serie de
date asimetrica spre stanga (seria are mai multe valori mai mici), este pozitiva pentru o serie de date
asimetrica spre dreapta (seria are mai multe valori mai mari). In cazul nostru asimetria este 0,02,
deci este putin deplasata la dreapta fata de curba normala. Se poate calcula si cu functia SKEW.
Range - Intervalul este diferenta Maximul-Minimul seriei de date.
Minimum - Minimul valoarea cea mai mica din serie. Se poate calcula si cu functia MIN.
Maximum - Maximul valoarea cea mai mare din serie. Se poate calcula si cu functia MAX
Sum - Suma sau Totalul valorilor seriei. Se poate calcula si cu functia SUM.
Quartilele si percentilele sunt asemanatoare medianei. Astfel, prima cvartila sau este o valoare
avand proprietatea ca 25% dintre datele seriei sunt mai mici sau egale cu ea, iar 75% mai mari sau
egale cu prima cvartila. A doua cvartila este reprezentata de mediana. A treia cvartila este o valoare
avand proprietatea ca 75% dintre datele seriei sunt mai mici sau egale cu ea iar 25% mai mari sau
egale cu a treia cvartila.
Percentila de ordinul a este o valoar cu proprietatea ca o proportie egala cu a din date sunt mai mici
sau egale, iar celelalte sunt mai mari.
CV=STDEVP/AVERAGE - Coeficientul de variatie : se pot utiliza urmatoarele reguli empirice
pentru interpretare: