Documente Academic
Documente Profesional
Documente Cultură
FUNCTII DE
REPARTITIE. INDICATORI STATISTICI
În teoria probabilitatilor, orice rezultat al unui experiment se numeste eveniment, sigur fiind
evenimentul care se realizeaza cu certitudine la orice efectuare a experimentului. Evenimentul
imposibil este cel care nu se realizeaza niciodata în cadrul unui experiment dat.
Probabilitatea unui eveniment este o masura a sanselor de realizare a acelui eveniment. Daca un
eveniment se desfasoara astfel încât producerea oricarui eveniment legat de acesta are un numar finit
de sanse egal-posibile, probabilitatea evenimentului este raportul dintre numarul rezultatelor
favorabile producerii evenimentului si numarul tuturor rezultatelor posibile.
Se considera exemplul cunoscut al urnei care contine bile de aceeasi marime, dintre care
sunt albe si sunt negre. Probabilitatea de a extrage o bila alba sau neagra va fi
, (2.1)
respectiv
. (2.2)
Din relatia (2.1) se vede imediat ca probabilitatea unui eveniment este cu 535h79f prinsa între
zero si unitate, adica .
Evident, când în urna sunt numai bile negre, iar când în urna sunt numai bile
albe etc.
Sa presupunem ca pentru producerea unui eveniment din cazuri posibile, egal probabile,
sunt cazuri favorabile, adica
. (2.3)
. (2.4)
Se mai considera ca cele doua evenimente se exclud reciproc, adica când se produce , nu se
produce .
, (2.5)
Când un eveniment se poate realiza în mai multe moduri posibile care se exclud reciproc,
probabilitatea producerii lui este egala cu suma probabilitatilor care corespund diferitelor moduri de
producere.
Se considera cazul unui eveniment mai complex care rezulta din realizarea succesiva a doua
evenimente dependente si . Pentru examinarea acestei situatii mai presupunem:
si . (2.6)
, (2.7)
Dupa ce s-a produs evenimentul , ramâne sa examinam probabilitatea lui . Evident, acesta
are numai cazuri favorabile. Deoarece producerea lui este conditionata de aceea a lui
(numai acele cazuri vor fi favorabile când are loc ), numarul cazurilor posibile pentru va fi
. Prin urmare,
. (2.8)
Din compararea relatiilor (2.6), (2.7) si (2.8) rezulta principiul probabilitatii compuse
si , (2.9)
care arata ca: Daca producerea unui eveniment presupune realizarea altor evenimente si ,
atunci probabilitatea producerii lui este egala cu produsul dintre probabilitatea producerii lui si
probabilitatea lui , dupa ce s-a produs .
În conditiile de mai sus, numarul cazurilor posibile este limitat. De aceea, definitiile si
probabilitatile de mai sus se refera la asa numita teorie a probabilitatilor discontinue, care se apropie
de teoria probabilitatilor continue daca numarul cazurilor favorabile este destul de mare.
Daca masurarea unei marimi se efectueaza, în conditii identice, de un numar mare de ori ,
obtinându-se siruri de valori aleatorii , iar din acestea, valori se afla în intervalul ,
probabilitatea
(2.10)
Se numeste variabila aleatoare o marime reala care, în raport cu rezultatul unui experiment,
poate lua orice valoare dintr-o multime bine definita de valori reale (domeniul de definitie al
variabilei).
Variabilele aleatoare se clasifica dupa multimea pe care sunt definite. Astfel, se deosebesc
variabile aleatoare de tip discret si de tip continuu.
Variabilele aleatoare discrete sunt definite pe o multime cel mult numarabila de evenimente.
Numarul valorilor posibile ale unei variabile aleatoare discrete poate fi finit sau infinit.
Variabila aleatoare continua este definita pe o multime continua. Variabila aleatoare continua
poate lua orice valoare între doua numere. Numarul valorilor posibile ale unei variabile aleatoare
continua este infinit.
. (2.11)
. (2.12)
Se numeste repartitie a unei variabile aleatoare legea de probabilitate dupa care ea se produce.
Repartitia unei variabile aleatoare discrete se scrie sub forma
sau , . (2.13)
Daca este o variabila aleatoare continua, functia de repartitie se defineste astfel (Fig. 2.2):
. (2.14)
, daca ; (2.15)
2. Pentru cea mai mica valoare posibila a variabilei aleatoare , functia de repartitie este
egala cu zero
; (2.16)
3. Pentru cea mai mare valoare posibila a variabiei aleatoare , functia de repartitie este
egala cu 1
; (2.17)
; (2.18)
. (2.19)
Functia de repartitie a unei variabile discrete este o functie discontinua, în scara, admite salturi,
salturile de la o treapta la treapta curenta sunt egale cu , suma tuturor salturilor fiind egala cu 1
(Fig. 2.3.a).
a) b)
Functia de repartitie a unei variabile aleatoare continue este, de asemenea o functie continua
(Fig. 2.3.b, în care functia are drept asimptote dreptele si ).
Se numeste densitate de repartitie (sau densitate de probabilitate) prima derivata – daca exista –
a functiei de repartitie
.(2.20)
, (2.21)
, si , . (2.22)
Daca este o constanta reala, atunci este o variabila aleatoare având repartitia
, . (2.23)
, , , (2.24)
în care
si . (2.26)
1. Densitatea de repartitie este nenegativa si aceasta rezulta din proprietatea functiei de repartitie
de a fi nedescrescatoare, ;
. (2.27)
O variabila aleatoare este caracterizata prin repartitia sa. Daca repartitia unei variabile nu este
cunoscuta, pentru caracterizarea variabilei aleatoare se pot folosi anumite marimi numite valori
tipice, asociate variabilei aleatoare.
Media
Prin definitie, valoarea medie (speranta matematica) a unei variabile aleatoare discrete cu
repartitia (2.13) este egala cu suma produselor dintre valorile pe care le poate lua si probabilitatile
corespunzatoare
. (2.28)
. (2.29)
Daca variabila aleatoare este definita pe intervalul , atunci valoarea medie este
. (2.30)
Mediana
, (2.31)
sau
. (2.32)
. (2.33)
. (2.34)
Dispersia
Dispersia unei variabile aleatoare discrete reprezinta valoarea medie a patratului abaterii
, (2.35)
sau
, (2.36)
adica, diferenta dintre media patratului variabilei aleatoare si patratul mediei variabilei aleatoare.
Dispersia unei variabile aleatoare continue este media patratului abaterii lui
. (2.37)
Abaterea medie patratica a unei variabile aleatoare este radacina patrata a dispersiei acestei
variabile aleatoare
. (2.38)
Dispersia si abaterea medie patratica sunt indicatorii cei mai utilizati pentru a caracteriza
împrastierea valorilor unei variabile aleatoare.
Momente
Momentul simplu (initial) de ordinul k al unei variabile aleatoare discrete , calculat în raport
cu originea abaterilor, care este zero, are expresia
. (2.39)
. (2.40)
, (2.41)
Momentul centrat de ordinul k al unei variabile aleatoare discrete , calculat în raport cu media
aritmetica a variabilei aleatoare, este
. (2.42)
Momentul centrat de ordinul 1 este zero, datorita proprietatii mediei aritmetice conform careia
. (2.43)
Momentul centrat de ordinul 2 în raport cu media aritmetica este dispersia
. (2.44)
Momentul ordinar de ordinul k, calculat în raport cu o valoare arbitrara , este media variabilei
aleatoare
. (2.45)
. (2.46)
. (2.47)
. (2.48)
. (2.49)
. (2.50)
, (2.51)
, (2.52)
. (2.53)
Coeficientul de covarianta
Covarianta a doua variabile aleatoare si reprezinta momentul centrat mixt al celor doua
variabile
. (2.54)
. (2.55)
, (2.56)
Proprietatile mediei
; (2.57)
2. Daca este o variabila aleatoare si si doua constante, atunci valoarea medie a variabilei
aleatoare este egala cu
; (2.58)
; (2.59)
4. Daca si sunt doua variabile aleatoare independente pentru care exista valorile medii
si respectiv , atunci valoarea medie a variabilei aleatoare exista si este egala cu
; (2.60)
5. Daca este o variabila aleatoare a carei valoare medie exista, atunci variabila
aleatoare se numeste abatere de la valoarea medie.
Proprietatile dispersiei
; (2.61)
; (2.62)
, (2.63)
Se numeste functie caracteristica a variabilei aleatoare , valoarea medie a unei noi variabile
aleatoare, obtinute din , înlocuind argumentul prin , unde este unitatea imaginara, iar -
un parametru real.
Daca variabila este distribuita discret atunci functia caracteristica este data de relatia
, . (2.65)
Daca variabila are distributie continua cu desinatea atunci functia caracteristica este
. (2.66)
Daca repartitia variabilei este de tip continuu, densitatea sa de repartitie este data de
relatia
. (2.67)
. (2.68)
Functia hazard sau rata cedarii a unei variabile este definita ca raportul dintre densitatea de
repartitie si functia de supravietuire:
; (2.69)
, (2.70)
sau
. (2.71)
Functia generatoare a unei variabile aleatoare care ia numai valori întregi pozitive este
definita de relatia
, , . (2.72)
. (2.73)
În functie de metoda obtinerii indicatorilor si de rolul jucat în cercetarea statistica, indicatorii pot
fi împartiti în doua categorii: (a) indicatori absoluti (primari); (b) indicatori derivati (secundari).
Indicatorii derivati se obtin în procesul de calcul statistic si reflecta într-o maniera abstracta,
aspecte calitative, evolutive ale colectivitatii cercetate. Dintre indicatorii derivati amintim: marimile
relative si marimile medii, indicatorii variatiei si ai asimetriei, indicii statistici, parametrii functiilor
de regresie si ajustare analitica etc.
Orice indicator statistic trebuie sa îndeplineasca doua conditii: (a) sa aiba un continut stiintific
bine determinat, o definitie sau o formula a sa; (b) sa indeplineasca conditia de compatibilitate.
Principali indicatori ai tendintei centrale sunt: (a) indicatorii medii de control: media aritmetica,
media geometrica, media armonica etc; (b) indicatorii medii de pozitie: modul, mediana, cuartilele si
decilele.
Media aritmetica
Media este expresia sintetizarii într-un singur nivel reprezentativ a tot ce este esential, tipic si
obiectiv în aparitia, manifestarea si dezvoltarea unei variabile (caracteristici) [1].
Functie de natura datelor înregistrate si de natura variatiei, media poate fi: media aritmetica
(simpla), media armonica, media geometrica, media patratica, media cubica, media parabolica, media
cronologica etc.
. (2.74)
. (2.75)
Principiul pe care se bazeaza media este cel al compensatiei abaterilor (+ sau -); suma abaterilor
nivelurilor individuale ale variabilei aleatoare fata de media lor diind egala cu zero.
Media armonica
Media armonica reprezinta acea valoare care înlocuid termenii reali din colectivitate nu modifica
suma inverselor. Media armonica este o valoare interna seriei din care a fost calculata. Se disting
doua cazuri:
; (2.76)
Media armonica ponderata
. (2.78)
(2.79)
Media geometrica
Media geometrica este acea valoare care înlocuid termenii reali din colectivitate nu modifica
produsul acestora. În cazul mediei geometrice functia determinanta este de tip multiplicativ si se
disting doua cazuri:
sau , (2.80)
. (2.81)
Media geometrica nu este influentata nici de valorile cele mai mici, nici de valorile cele mai
mari, dar nu poate fi determinata daca unele valori sunt nule sau negative. Media geometrica se
utilizeaza pentru calculul indicelui mediu de crestere sau descrestere.
Media patratica
Se foloseste când nivelul variabilei prezinta cresteri din ce în ce mai mari, modificându-se
aproximativ dupa o functie exponentiala. Se disting doua cazuri:
. (2.83)
Media patratica se poate calcula si pentru variabile nule sau negative. Media geometrica este
sensibila la variatii mari care prin ridicare la patrat devin foarte mari.
Într-o serie statistica în care se pot calcula toate mediile exista relatia
. (2.84)
Media cronologica
Media cronologica este utilizata pentru determinarea nivelului mediu al seriilor cronologice de
momente. Media cronologica este o medie care are la baza principiul de calcul al mediei aritmetice.
Daca intervalele de timp care separa termenii seriei cronologice sunt egale, se calculeaza media
cronologica simpla
. (2.85)
Daca intervalele de timp dintre termenii seriei cronologice de momente sunt neegale atunci se
calculeaza media cronologica ponderata. În acest caz, mediile partiale din care se calculeaza media
întregii perioade sunt ponderate cu durata perioadelor partiale cuprinse între termenii seriei dupa
formula
. (2.86)
Media progresiva
Media progresiva reprezinta o medie a timpilor de nivel calitativ superiori în cadrul colectivitati
date. Media progresiva se calculeaza cu relatia
. (2.87)
în care este media generala a seriei, iar - media termenilor calitativ superiori mediei generale.
Mediana
Mediana este acea valoarea a caracteristicii fata de care frecventa valorilor mai mica decât ea
este egala cu frecventa valorilor mai mari decât ea, deci mediana împarte sirul de date în doua parti
egale. Din punct de vedere analitic, mediana corespunde valorii abscisei pentru care ordonata împarte
suprafata delimitata de curba de repartitie în doua parti egale.
Daca sirul de date este constituit dintr-un numar impar de valori , mediana este
reprezentata de valoarea de rang . În cazul în care sirul de date este constituit dintr-un numar
par de valori , mediana se situeaza între doua valori mediane si . În general, s-a convenit
sa se considere ca mediana media aritmetica a celor doua valori mediane:
(2.88)
Mediana unei functii de repartitie este valoarea pentru care valoarea mai mare si mai
mica a lui au probabilitati egale
. (2.89)
Modul este, prin definitie, valoarea caracteristicii cu frecventa cea mai mare de aparitie în colectivitate. Modul
mai poate fi definit ca valoarea caracteristicii careia îi corespunde densitatea maxima de repartitie. Minimul
densitatii de repartitie este antimod. Daca sirul de masuratori are doua valori maxime, repartitia se numeste
bimodala, iar daca sunt mai multe, plurimodala.
Modul unei functii de repartitie este valoarea lui pentru care functia are un maxim.
Intervalul modal este intervalul cu frecventa cea mai mare.
, (2.92)
unde: este limita inferioara a intervalului modal; - diferenta dintre frecventa intervalului
modal si frecventa intervalului premodal (anterior); - diferenta dintre frecventa intervalului modal
si frecventa intervalului postmodal (urmator); - marimea intervalului modal.
. (2.93)
, (2.94)
în care este valoarea cea mai mare dintre valorile , iar , cea mai mica.
Cuantilele
Cuantilele sunt valori ale caracteristicii care împart seria în parti egale. Ele descriu pozitia
anumitor termeni în cadrul seriilor statistice. Functie de valorile lui , cuantilele se numesc:
mediana, ; cuartile, ; decile, ; centile, .
Cuartile
Cuartilele sunt marimi de pozitie în seriile statistice. Cuartilele, în numar de trei, împart seria în
patru parti de frecvente egale cu 1/4
, (2.95)
, (2.96)
Decilele
Decilele, în numar de noua, împart seria în zece intervale de frecvente egale cu 1/10
, (2.96)
unde este limita inferioara a decilei ; - frecventa cumulata (suma frecventelor anterioare)
pâna la intervalul ; - frecventa intervalului ; - marimea intervalului în care se afla decila
.
, (2.96)
Centilele
Centilele, în numar de 99, împart seria în 100 de intervale egale
, (2.97)
Dispersia
Dispersia (sau varianta) sirului de date, denumita si dispersie de sondaj (esantion) este
indicatorul de baza al împrastierii.
. (2.98)
. (2.99)
Dispersia de sondaj se poate folosi ca estimatie a dispersiei din populatia originara (dispersie de
selectie), considerându-se relatia
. (2.100)
Pentru o serie simpla, abaterea medie patratica (sau deviatia standard de sondaj; abaterea
standard) se calculeaza cu formula
. (2.101)
Pentru o serie de frecvente variate, abaterea medie patratica se calculeaza cu formula
. (2.102)
. (2.103)
Abaterea medie liniara (sau abaterea medie absoluta) se calculeaza ca media aritmetica din
valorile absolute ale abaterilor variantelor caracteristicii fata de media acestor variante.
. (2.104)
. (2.105)
Coeficientul de variatie
Coeficientul de variatie al sirului de date se calculeaza ca raportul dintre abaterea medie patratica
si media aritmetica a sirului de date
. (2.106)
. (2.107)
Abaterea medie intercuartilica este folosita în analiza dispersionala si are avantajul ca poate fi
usor calculata. Abaterea medie intercuartilica reprezinta aproximativ din abaterea standard si
este mai putin exacta decât abaterea medie liniara. Având în vedere ca se exprima în aceeasi unitate
de masura ca si variabila analizata, abaterea medie intercuartilica nu se poate utilize pentru
comparatii între serii statistice diferite din punct de vedere al unitatilor de masura.
. (2.108)
Amplitudinea
Amplitudinea absoluta este diferenta dintre valoarea cea mai mare si valoarea cea mai mica a
sirul de date
. (2.109)
Amplitudinea se poate calcula si ca marime relativa. Amplitudinea relativa este raportul dintre
amplitudinea absoluta si media aritmetica a sirului de date
. (2.110)
Momente
Momentele sunt acele valori care caracterizeaza o repartitie si permit precizarea anumitor
caracteristici ale repartitiei. Exista mai multe tipuri de momente:
. (2.111)
. (2.112)
. (2.113)
. (2.114)
Pentru serii simple, momentul ordinar de ordinul , calculat în raport cu o valoare arbitrara ,
are expresia
. (2.115)
. (2.116)
2-5.3 Indicatorii asimetriei
Coeficientul de asimetrie
, (2.117)
, (2.118)
în care este momentul centrat de ordinul trei, iar este momentul centrat de ordinul doi.
. (2.119)
Daca: atunci exista simetrie perfecta; exista asimetrie pozitiva sau de stânga;
exista asimetrie negativa sau de dreapta.
a) b)
Pentru masurarea asimetriei se foloseste cel mai des coeficientul de asimetrie Pearson [ ] definit
de relatia
(2.120)
, (2.121)
Coeficientul de asimetrie are valori între –3 si +3; cu cât se apropie de zero cu atât sirul este
mai simetric.
. (2.122)
. (2.123)
Coeficientul de boltire
Coeficientul de boltire se calculeaza ca raport între momentul centrat de ordinul patru si patratul
momentului centrat de ordinul doi
, (2.124)
în care:
; (2.125)
. (2.126)
Curtozisul
. (2.127)
Daca , curba densitatii de repartitie se numeste leptocurtica si este mai ascutita la vârf
decât curba normala. Daca repartitia se numeste platicurtica si are vârful mai plat decât o
curba normala. Daca repartitia se numeste normala sau mezocurtica.
. (2.128)
Interpretarea rezultatelor