Sunteți pe pagina 1din 42

C 02-C 03 Serii univariate

Powered by Turturean
Tema 2: Analiza unei distribuţii (serii) statistice
unidimensionale

1. Variabile numerice (cantitative) (C2 - ½ C4)


1.a. Variabilă discretă:
- seria statistică (frecvenţe absolute şi relative cumulate)
- analiza seriei folosind indicatori ai statisticii descriptive:
- mărimi medii: media, modul, mediana, quartile (Q1 şi Q3) şi
decile (D1 şi D9);
- indicatori ai dispersiei: abaterea medie liniară, varianţa,
abaterea standard, coeficientul de variaţie, intervalul interquartilic;
- indicatori ai formei: coeficienţii de asimetrie şi boltire Fisher;
- analiza seriei folosind procedee grafice: histograma, poligonul şi
curba frecvenţelor, diagrama box-and-whiskers.
- identificarea valorilor extreme (diagrama box-and-whiskers).
1.b. Variabilă continuă: distribuţia prezentată pe intervale de
variaţie, analiza seriei folosind indicatori ai statisticii descriptive şi
reprezentarea grafică (de precizat doar că se ia în considerare
mijlocul intervalelor).
2. Variabile nenumerice (calitative) (½ C4)

2.a. Variabilă nominală: reprezentare grafică (Bar Chart şi


Pie Chart), frecvenţe absolute şi relative, mărimi medii
(modul);

2.b. Variabilă ordinală: reprezentare grafică (Bar Chart şi


Pie Chart), frecvenţe absolute şi relative simple si cumulate
crescator sau descrescator, mărimi medii (modul, mediana,
quantile);
1. Variabile cantitative discrete

Variabila cantiaitva accepta relatia de identitate, relatia de


ordine (>, =, <) si operatiile aritmetice si au o exprimare
numerica.
Variabilele cantitative in functie de forma de prezentare a
domeniului valorilor pot fi impartite in doua categorii :
-variabile discrete;

-variabile continue sau variabile pe interval.

-Variabilele cantitative discrete au specific faptul ca intre


doua valori succesive nu exista valori intermediare.
-In continuare ne vom ocupa de analiza variabilelor univariate
cantitative discrete.
Ex: Numarul de locuri dintr-un cinematograf, Numarul de firme
dintr-un oras, Numarul de angajati ai unei firme etc.
Indicatori statistici specifici variabilei cantitative:
1. Volumul colectivitatii (n);
2. Frecventele absolute (ni , i=1,k, unde k - nr. valorilor distincte
luate de variabila nominala);
3. Frecventa relativa (fi sau exprimata procentual f%i );
4. Frecventele cumulate crescator si descrescator (Ni↓,
Ni ↑, Fi↓, Fi ↑)
5. Distributia statistica
6. Indicatori medii de pozitie: modul sau dominanata (Mo),
mediana (Me);
7. Quartilele si Decilele (Quartilele si Decilele) – generalizari ale
medianei
8. Indicatori medii de calcul: media aritmetica si media patratica.
9. Indicatori ai dispersiei: abaterea medie liniara, varianta,
abaterea standar, coeficientul de variatie.
10. Indicatori ai dispersiei in sistemul medianei:
amplitudinea intervalului interquartilic
11. Indicatori ai formei unei distributii: relatia dintre
indicatorii tendintei centrale, indicatori ai asimetriei si indicatori ai
boltirii.
Analiza seriilor cantitative discrete prin procedee grafice
specifice variabilelor cantitative:
12. Graficele de structura: █, ■, ●.
13. Graficele care reprezinta distributia variabilelor
cantitative: histograma, poligonul si curba frecventelor,
diagrama box-and-wiskers.
1. VOLUMUL COLECTIVITATII (n)
– reprezintă numărul unităților statistice incluse într-o colectivitate.
2. FRECVENTELE ABSOLUTE (ni )
– reprezintă numărul unităților statistice care iau o aceeași valoare
xi (cazul unei variabile discrete) sau iau valori din același interval de
variație (xi-1, xi] (cazul variabilelor continue).
La nivelul unei colectivitati suma frecvențelor absolute este
întotdeauna
k egală cu volumul colectivitatii:
 ni  n
i 1 ,k numărul de valori distincte xi ale variabilei observate

(X-variabila discretă) sau numărul distinct de intervale de variație (xi-1,

xi] a variabilei observate (X- variabila continuă).


3. FRECVENȚA RELATIVĂ (fi sau f%i )
- reprezinta ponderea unităților statistice, care iau o aceeași valoare
xi (cazul unei variabile discrete) sau iau valori din același interval de
variație (xi-1, xi] (cazul variabilelor continue), în totalul populației n.
n k


(%)
fi  i ( x100), i  1, k și fi
(%)
 1( x100)
n i 1

OBS: Pentru reprezentarea graficelor de structură se folosesc


frecvențele relative exprimate procentual.
4. FRECVENȚELE CUMULATE CRESCĂTOR și
DESCRESCĂTOR

Frecvența absolută cumulată crescător (Ni↓) sau descrescător


(Ni↑) reprezintă numărul de unități statistice cumulate până la (≤
xi), respectiv peste, nivelul xi (inclusiv) (≥ xi) al caracteristicii
observate X.

Frecvența relativă cumulată crescător (Fi↓) sau descrescător


(Fi↑) reprezintă ponderea unităților statistice cumulate până la
(≤ xi), respectiv peste, nivelul xi (inclusiv) (≥ xi), al caracteristicii
observate X, in totalul colectivității (n).

EXEMPLU: Tabla
Formule de calcul
Tipul Frecvente absolute cumulate Frecvente relative
cumularii cumulate
i i
N i   n h Fi   f h
h 1 h 1
Crescator
(↓)
i i

N i  N i 1   ni   nh si N1  n1 Fi  Fi 1   f i   f h si F1  f1
h 1 h 1

m m
N i   n h Fi   f h
Descresca h i h i
tor (↑) m m

N i  N i 1   ni   nh si N1  nm Fi  Fi 1   f i   f h si F1  f m
h i h i
5. Distribuția statistică

-pentru o serie simplă, fară frecvențe sau de frecvență 1


X: (xi), cu i=1,k;

- seria cu frecvenţe diferite:

 xi 
X:   , când n1≠n2≠ … ≠ni.
 ni 
Indicatori ai tendintei centrale

Indicatorii tendintei centrale pot fi impartiti in doua categorii


in:
- marimi medii de pozitie: modul, mediana
- marimi medii de calcul: media aritmetica, media patratica

Definitia generala a marimilor medii - sunt acele valori în jurul


cărora se repartizează/ concentreaza unităţile unei populaţii.
6. Marimi medii de pozitie

MODUL sau dominanata (Mo)


- este valoarea variabilei cea mai frecvent observată într-
o distribuţie, adică valoarea xi care corespunde frecvenţei
maxime (ni - max).
- este o mărime medie de poziție, , identificarea sa
porneste de la identificarea locului in serie si apoi a valorii
acestuia.

OBS: Modul poate fi aflat doar în cazul seriilor cu frecvenţe


diferite.
O serie statistică poate avea și mai multe valori modale.
MEDIANA
-mediana este o marime medie de pozitie
-este acea valoare a variabilei unei serii ordonate,
crescător sau descrescător, până la care şi peste care sunt
distribuite în număr egal unităţile colectivităţii: jumătate din
unităţi au valori mai mici sau egale cu mediana, iar jumătate
au valori mai mari sau egale cu mediana.

-UMe corespunde locului unităţii mediane calculate astfel:


n1
U Me 
2
Exemplu si interpretare: Tabla
Aflarea medianei se face diferit în funcţie de tipul seriei:
1. Serii simple:
- număr impar de termeni. Exemplu.
- număr par de termeni. Exemplu.

2. Serii cu frecvenţe diferite


- se calculează unitatea mediană (UMe).
- se calculează N i 
Mediana pentru o serie fara frecventa

P1: Ordonăm crescător seria (de aici și restricția calculului


quantilelor pentru variabile nominale pe care nu este definită
relația de ordine).
P2: Calculăm locul medianei, UMe, în cadrul seriei:
n  1 , unde n - volumul colectivității
U Me 
2
P3: Identificam locul lui UMe in cadrul seriei.
1. Daca locul Me cade exact peste o valoare a seriei atunci
Me ia valoarea peste care cade.
2. Daca locul Me cade intre doua valori succesive ale seriei,
atunci Me este calculata ca medie a celor doua valori.
Mediana pentru o serie cu frecventa

P1: Ordonăm crescător seria (de aici și restricția calculului


quantilelor pentru variabile nominale pe care nu este definită
relația de ordine).
n 1
P2: Calculăm locul medianei, U , în cadrul seriei:
Me U Me
 ,
2
unde n - volumul colectivității
i
P3: Calculam frecventele absolute cumulate crescator N i   n h
h 1

P4: Identificam cea mai mica valoare a frecventei absolute


cumulate crescator care indeplineste relatia N i  U Me
P5: Valoarea seriei, xi, corespunzatoare frecventei absolute
cumulate crescator identificata la pasul anterior reprezinta
valoarea medianei, N i  U Me
  Me  xi
Observaţie:
- mediana nu este influenţată de valorile extreme.
- mediana este o marime medie de pozitie, identificarea sa
porneste de la identificarea locului in serie si apoi a valorii
acesteia.
7. Generalizarea medianei

Quartilele

-sunt valori ale variabilei care împart volumul


eşantionului în 4 părţi egale.

-reprezentare grafică şi mod de calcul ( Q1, Q2, Q3).


Calculul quartilelor pentru o serie fara
frecventa
P1: Ordonăm crescător seria (de aici și restricția calculului
quantilelor pentru variabile nominale pe care nu este definită
relația de ordine).
P2: Calculăm locul medianei, UQj, în cadrul seriei:
n 1
, j  1,3 , unde n - volumul colectivității
Q
U  j
j

P3: Identificam locul lui UQj in cadrul seriei.


1. Daca locul Qj cade exact peste o valoare a seriei atunci Qj
ia valoarea peste care cade.
2. Daca locul Qj cade intre doua valori succesive ale seriei,
atunci Qj este calculata ca medie a celor doua valori.
Calculul quartilelor pentru o serie cu
frecventa
P1: Ordonăm crescător seria (de aici și restricția calculului
quantilelor pentru variabile nominale pe care nu este definită
relația de ordine).
P2: Calculăm locul quartilei j, UQ j, în cadrul seriei:
Q n 1
U j
j
, j  1,3 , unde n - volumul colectivității
4
i

P3: Calculam frecventele absolute cumulate crescator N i   h 1


nh

P4: Identificam cele mai mici valoari ale frecventelor absolute


Qj
cumulate crescator care indeplinesc relatile N i  U , cu j  1,3
P5: Valoarile seriei, xi, corespunzatoare frecventelor absolute
cumulate crescator identificate la pasul
Qj
anterior reprezinta
valoarile celor trei quartile, N i  U   Q j , cu j  1,3
Decilele

- decilele sunt valori ale variabilei care împart


volumul colectivitatii/ esantionului în 10 părţi egale.

-reprezentare grafică şi mod de calcul ( D1, D2,… D9).


Calculul decilelor pentru o serie fara
frecventa
P1: Ordonăm crescător seria (de aici și restricția calculului
quantilelor pentru variabile nominale pe care nu este definită
relația de ordine).
P2: Calculăm locul medianei, UDj, în cadrul seriei:
n 1
, j  1,9 , unde n - volumul colectivității
D
U  j
j

10

P3: Identificam locul lui UDj in cadrul seriei.


1. Daca locul Dj cade exact peste o valoare a seriei atunci Dj
ia valoarea peste care cade.
2. Daca locul Dj cade intre doua valori succesive ale seriei,
atunci Dj este calculata ca medie a celor doua valori.
Calculul quartilelor pentru o serie cu
frecventa
P1: Ordonăm crescător seria (de aici și restricția calculului
quantilelor pentru variabile nominale pe care nu este definită
relația de ordine).
P2: Calculăm locul quartilei j, UD j, în cadrul seriei:
D n 1
U j
j
, j  1,9 , unde n - volumul colectivității
10
i

P3: Calculam frecventele absolute cumulate crescator N i   h 1


nh

P4: Identificam cele mai mici valoari ale frecventelor absolute


Dj
cumulate crescator care indeplinesc relatile N i  U , cu j  1,9
P5: Valoarile seriei, xi, corespunzatoare frecventelor absolute
cumulate crescator identificate la pasul
Dj
anterior reprezinta
valoarile celor noua decile, N i  U   D j , cu j  1,9
8. Indicatori medii de calcul
Media aritmetică ( x )
-este o medie de calcul;
Media aritmetică este valoarea pe care ar lua-o fiecare
unitate statistica in conditiile in care colectivitatea ar fi
omogena (toate valorile sunt egale intre ele)
 xi
i
Media aritmetica: - fara pondere: x 
n
 x i  ni
- cu pondere: x  i
sau x   xi  f i
 ni i
i

OBS: Media aritmetică este sensibilă la prezenţa valorilor


extreme (outliers).
Cele mai importante proprietăţi ale mediei aritmetice:
1. Media aritmetica a unei distribuţii este o valoare internă:
xmin≤ x ≤xmax.

2. Media este o mărime normală: suma abaterilor valorilor


individuale ale unei variabile X de la media lor este egală cu
zero.
Media patratica ( x p ) (nu este in programa!!!)
- este o medie de calcul;
Media patratica este radacina patrata din media aritmetica
a valorilor individuale la patrat.
n

x 2
i

Media patratica - simpla: xp  i 1


n
k

x n 2
i i k
- ponderata: x p  i 1
k
sau xp  x f 2
i i

n
i 1
i
i 1

Media patratica este utilizata pentru calculul abaterii


standard.
Media aritmetica ≤ Media patratica
9. Indicatori ai dispersiei

Dispersia exprimă gradul de variaţie a valorilor individuale


ale unei variabile faţă de nivelul mediu.
In functie de gradul de dispersare a unei distribuţii se poate
aprecia gradul de reprezentativitate a mediei aritmetice.
Indicatori sintetici ai dispersiei:
1. Abaterea medie liniară (nu este in programa!!!)
 xi  x  x i  x  ni
i
d i , respectiv d   ni
n i

- arată cu cât variază, în medie, valorile xi ale variabilei faţă


de nivelul mediu al distribuţiei.
- se exprimă în aceeaşi unitate de măsură cu cea a
variabilei.
2. Varianţa
2
 ( xi  x )
2  ( x i  x )  ni
2
s  i
, respectiv s2  i

n  ni
i

Varianţa este întotdeauna pozitivă, nu are unitate de


măsură şi nu se interpretează.
Prin ridicarea la pătrat a abaterilor valorilor xi faţă de medie
creşte “influenţa” valorilor extreme asupra nivelului varianţei.
3. Abaterea standard (s) s  s 2
- arată cu cât variază, în medie (patratica), valorile xi ale
variabilei faţă de nivelul mediu al distribuţiei.
- se exprimă în aceeaşi unitate de măsură cu cea a
variabilei.
s
4. Coeficientul de variaţie (v): v   100
x
- se exprimă în procente.
- valori ridicate ale acestui coeficient (v>50%) arată o
distribuţie eterogenă, care se caracterizează printr-o variaţie
mare a valorilor xi faţă de nivelul mediu şi o medie
nereprezentativă.
- este sensibil faţă de valoarea mediei: cu cât media este
mai apropiată de zero, cu atât coeficientul de variaţie este
mai dificil de folosit (tinde spre infinit).
Indicatori ai dispersiei in sistemul medianei
5. Amplitudinea intervalului interquartilic
IQ=Q3-Q1 - cuprinde 50% din volumul eşantionului.

6. Coeficientul de variaţie interquartilic (nu este in


programa)
Q3  Q1
VQ  2  100
Me
În mod sintetic, cele mai importante caracteristici numerice ale
unei distribuţii pot fi “cuplate” astfel:
- media - abaterea standard (valoare absolută) - coeficientul
de variaţie (valoare relativă)
- mediana - intervalul interquartilic (valoare absolută) -
coeficientul de variaţie interquartilic (valoare relativă)
11. Indicatori ai formei

Asimetria
- reprezintă o deviere de la forma simetrică a unei distribuţii.
Asimetria poate fi apreciată:
- pe cale grafică: curba frecvenţelor, diagrama box-plot.
- pe cale numerică: - prin compararea marimilor medii
centrale: Me, Mo si x .
- prin calculul indicatorilor de asimetrie (Skewness).
STOP

Me ocupa este intotdeauna cuprinsa intre x si Mo si


anume este situata la 1/3 de x si 2/3 de Mo.
Daca x<Me<Mo => media este cea mai mica-> exista
asimetrie la stanga.
Daca Mo<Me< x => media este cea mai mare-> exista
asimetrie la dreapta.
Daca x = Me=Mo => seria este simetrica.
3 3
Coeficientul de asimetrie Fisher: 1  3 
s (  2 )3
Boltirea
- este definită prin compararea distribuţiei empirice cu
distribuţia normală din punctul de vedere al variaţiei variabilei
X şi a frecvenţei ni.
Boltirea poate fi apreciată:
- pe cale grafică: curba frecvenţelor.
- numeric: prin calculul indicatorilor boltirii.
4 4
Coeficientul de boltire Fisher :  2  4  3  2  3
s 2
n
Momentele centrate de ordin r:  ( x i  x ) r

- pentru serii fara frecventa:  r  i 1


n
m

 i ni
( x  x ) r

- pentru serii cu frecventa:  r 


i 1
m

n
i 1
i

OBS: Pentru distributiile simetrice momentele centrate de


ordin impar sunt nule de unde  1si =0
12. Grafice/ Diagrame de structura: █, □, ○

-reprezintă structura colectivității observate cu ajutorul unor figuri


geometrice (█, □, ○) care respectând principiul proporționalității sunt
impărțite astfel încât să rezulte figuri cu suprafață proprotională cu
structura fiecarei grupe. Un astfel de grafic trebuie să prezinte o
legendă.
Pentru █ de structură: l=1 si L=100%. Impărțirea în suprafețe
proporționale se face pornind de la divizarea proproțională a lungimii
dreptunghiului.
Pentru □ de structură: l=10 si S■=100%. Impărțirea în suprafețe
proporționale se face după ce am împărțit fiecare latura a pătratului in
10 părți componente. Fiecare nou pătrat va reprezenta 1%. Ținănd cont
de acest amănunt se va împărți pătratul în suprafețe proporționale cu
structura colectivității.
Pentru ○ de structură: unghiul la centru 360o ->100%. Divizarea în
sectoare de cerc proporționale cu structura colectivității se face pornind
de la divizarea proporțională a unghiului la centru.
13. Graficele care reprezinta distributia
variabilelor

a. Diagrama prin benzi -> Poligonul Frecvențelor ->


Curba Frecvențelor
b. Poligonul Frecvențelor cumulate -> Curba
Frecvențelor cumulate-> nu mai sunt in programa!!!
c. Diagrama Box & Wiskers (D1-|Q1-Me-Q3|-D9)
a. Diagrama prin benzi -> Poligonul Frecvențelor
-> Curba Frecvențelor
b. Poligonul frecvențelor cumulate↑ și ↓
-> Curba frecvențelor cumulate -> nu
mai sunt in programa!!!

Poligonul frecvențelor cumulate pentru variabilele discrete (care


este și cazul variabilelor ordinale) este in realitate un grafic în
trepte deoarece acumularea nu se produce decât punctual și nu
gradual pe parcursul unui interval.
În mod excepțional prin unirea punctelor de acumulare
(xi , Ni↓) sau (xi , Ni↑).
Prin ajustarea poligonului frecvențelor se obține curba
frecvențelor.
Cand poligonul frecvențelor cumulate crescător și cel al
frecvențelor cumulate descrescător se reprezinta simultan în
același sistem de coordonate se obtine ogiva frecventelor.
c. Diagrama Box & Wiskers

Diagrama Box-Plot sau Box & Wiskers se construiește


cu ajutorul quantilelor:

D1-|Q1-Me-Q3|-D9
STOP

S-ar putea să vă placă și