Sunteți pe pagina 1din 39

C 02-C 03 Serii univariate

Powered by Turturean
Analiza unei distribuţii (serii) statistice
unidimensionale

Variabile nenumerice (calitative)

Variabilă nominală: reprezentare grafică (Bar Chart şi Pie


Chart), mărimi medii (frecvenţe absolute şi relative, modul);

Variabilă ordinală: reprezentare grafică (Bar Chart şi Pie


Chart), mărimi medii (frecvenţe absolute şi relative, modul,
quantile);
Analiza unei distribuţii (serii) statistice
unidimensionale

Variabile numerice (cantitative)


Variabilă discretă:
- seria statistică (frecvenţe absolute şi relative cumulate)
- analiza seriei folosind indicatori ai statisticii descriptive:
- mărimi medii: media, modul, mediana, quartile (Q1 şi Q3) şi
decile (D1 şi D9);
- indicatori ai dispersiei: abaterea medie liniară, varianţa,
abaterea standard, coeficientul de variaţie, intervalul interquartilic;
- indicatori ai formei: coeficienţii de asimetrie şi boltire Fisher;
- analiza seriei folosind procedee grafice: histograma, poligonul şi
curba frecvenţelor, diagrama box-and-whiskers.
- identificarea valorilor extreme şi analiza influenţei lor asupra
rezultatelor statistice (diagrama box-and-whiskers).
Variabilă continuă: distribuţia prezentată pe intervale de variaţie,
analiza seriei folosind indicatori ai statisticii descriptive şi
reprezentarea grafică (de precizat doar că se ia în considerare
mijlocul intervalelor).
Analiza statistica a seriilor univariate

1. Variabile calitative: nominale și ordinale;


2. Variabile cantitative.

OBSERVATIE: Ordonarea variabilelor de mai sus a respectat


principiul complexitatii. Conform acestui principiu operațiile,
indicatorii statistici si graficele posibile pentru o variabila mai putin
complexa vor fi posibile si pentru variabile cu un grad de
complexitate mai ridicat.
Operațiile, graficele si indicatorii introdusi pentru o variabila cu un
grad de complexitate mai mic vor fi automat preluați și de variabilele
mai complexe fară a le defini de fiecare dată în mod explicit. Vom
preciza, dacă este cazul, particularitățile care apar in formulele sau
graficele asociate acestora.
1. Variabile nominale

Pentru variabila nominala singura operatie posibila este cea de


identitate (=/#). Unitatile statistice pot/ nu pot fi identice in ceea ce
priveste valoarea pe care o iau pentru o variabila nominala.
Ex: Nr. matricol, Nr. auto, Numele, Prenumele, Sexul, etc.
Indicatori statistici specifici variabilei nominale:
1. Volumul colectivitatii (n);
2. Frecventele absolute (ni , i=1,k, unde k - nr. valorilor distincte
luate de variabila nominala);
3. Frecventa relativa (fi sau exprimata procentual fi(%));
4. Modul sau dominanata (Mo);

Grafice specifice variabilelor nominale:

5. Grafice de structura: █, ■, ●.
1. VOLUMUL COLECTIVITATII (n)
– reprezintă numărul unităților statistice incluse într-o colectivitate.
2. FRECVENTELE ABSOLUTE (ni )
– reprezintă numărul unităților statistice care iau o aceeași valoare
xi (cazul unei variabile discrete) sau iau valori din același interval de
variație (xi-1, xi] (cazul variabilelor continue).
Obs: Variabilele nominale si cele ordinale sunt de obicei tratate ca
variabile discrete.
La nivelul unei colectivitati suma frecvențelor absolute este
întotdeauna egală cu volumul colectivitatii:
k

n
i 1
i n
,k numărul de valori distincte xi ale variabilei observate
(X-variabila discretă) sau numărul distinct de intervale de variație
(xi-1, xi] a variabilei observate (X- variabila continuă).
3. FRECVENȚA RELATIVĂ (fi sau f%i )
- reprezinta ponderea unităților statistice, care iau o aceeași valoare
xi (cazul unei variabile discrete) sau iau valori din același interval de
variație (xi-1, xi] (cazul variabilelor continue), în totalul populației n.
n m

 fi
(%)
fi  i ( x100), i  1, k și (%)
 1( x100)
n i 1

OBS: Pentru reprezentarea graficelor de structură se folosesc


frecvențele relative exprimate procentual.
4. MODUL sau dominanata (Mo)
- este valoarea variabilei cea mai frecvent observată într-o distribuţie,
adică valoarea xi care corespunde frecvenţei maxime (ni - max).
- este o mărime medie de poziție.
OBS: Modul poate fi aflat doar în cazul seriilor cu frecvenţe diferite.
O serie statistică poate avea și mai multe valori modale.
5. Grafice/ Diagrame de structura: █, □, ○
- reprezintă structura colectivității observate cu ajutorul unor figuri
geometrice (█, □, ○) care respectând principiul proporționalității sunt
impărțite astfel încât să rezulte figuri cu suprafață proprotională cu
structura fiecarei grupe. Un astfel de grafic trebuie să prezinte o
legendă.
Pentru █ de structură: l=1 si L=100%. Impărțirea în suprafețe
proporționale se face pornind de la divizarea proproțională a lungimii
dreptunghiului.
Pentru □ de structură: l=10 si S■=100%. Impărțirea în suprafețe
proporționale se face după ce am împărțit fiecare latura a pătratului in
10 părți componente. Fiecare nou pătrat va reprezenta 1%. Ținănd cont
de acest amănunt se va împărți pătratul în suprafețe proporționale cu
structura colectivității.
Pentru ○ de structură: unghiul la centru 360o ->100%. Divizarea în
sectoare de cerc proporționale cu structura colectivității se face pornind
de la divizarea proporțională a unghiului la centru.
2. Variabile ordinale
Variabila ordinală pe lângă relația de identitate mai permite și relația de
ordine (>, =, <). Ex: Scalele de intensitate.
Indicatori statistici specifici variabilei ordinale:
1. Volumul colectivității (n);
2. Frecvențele absolute (ni , i=1,k, unde k - nr. valorilor distincte luate de
variabila nominala);
3. Frecvența relativă (fi sau exprimata procentual f%i );
4. Frecventele cumulate crescător și descrescător (Ni↓, Ni↑, Fi↓, Fi↑)
5. Modul sau dominanata (Mo);
6. Mediana (Me);
7. Quantilele (Me, Quartilele, Decilele)
8. Distribuția statistică
Grafice specifice variabilelor ordinale:
9. Graficele de structură: █, ■, ●.
10. Graficele care reprezintă distribuția variabilelor ordinale.
4. Frecvențele cumulate crescător și descrescător (Ni↓,
Ni↑, Fi↓, Fi↑)
Frecvența absolută cumulată crescător sau descrescător
reprezintă numărul de unități statistice cumulate până la respectiv
peste nivelul xi (inclusiv) al caracteristicii observate X.
Frecvența relativă cumulată crescător sau descrescător reprezintă
ponderea unităților statistice cumulate până la respectiv peste nivelul xi
(inclusiv), al caracteristicii observate X, in totalul colectivității, n.
Formule de calcul
Tipul Frecvente absolute Frecvente relative
cumularii cumulate cumulate

i i
N i   n h Fi   f h
Crescator h 1 h 1
(↓)
Ni↓= Ni-1↓+ni ; N1↓= n1 Fi↓= Fi-1↓+fi ; F1↓= f1

m m
N i   n h Fi   f h
Descrescator h i h i
(↑)
Ni↑= Ni+1 ↑ +ni ; N1 ↑= nm Fi ↑ = Fi+1 ↑ +fi ; F1 ↑ = fm
6.-7. Quantilele
Quantilele de ordin r, notate Qj(r) cu j=1,…r-1, sunt valori
ale variabilei observate care impart colectivitatea în r părți
egale. Ele sunt in numar de r-1.

Tipuri particulare de quantile:


r=2 => Qj(2): Me – mediana iar r-1=1
r=4 => Qj(4) : Q1, Q2 = Me, Q3– quartilele iar r-1=3
r=10 => Qj(10) : D1, D2, D3, D4, D5 = Me, D6, D7, D8, D9–
decilele iar r-1=9
Particularizari ale quantilelor
MEDIANA (r=2)
- mediana este o marime medie de pozitie
- mediana este valoarea variabilei care imparte
colectivitatea studiata in doua parti egale: jumatate ia
valori mai mici sau egale cu mediana, iar cealalta
jumatate, ia valori mai mari sau egale cu mediana.
QUARTILELE (r =4)
- quartilele sunt valori ale variabilei care împart volumul
colectivitatii/ esantionului în 4 părţi egale.
DECILELE (r =10)
- decilele sunt valori ale variabilei care împart volumul
colectivitatii/ esantionului în 10 părţi egale.
2. Cum se identifica quantila j de ordin r, Qj(r)
pentru o serie fara frecventa?

P1: Calculăm locul quantilei j de ordin r, Qj(r), în cadrul


seriei, data de unitatea quantilei j de ordin r:
Q(r)
n 1
U j
j

r
, unde n - volumul colectivității, r- ordinul
quantilei , j – numărul quantilei de ordinul r
P2: Ordonăm crescător seria (de aici și restricția calculului
quantilelor pentru variabile nominale pe care nu este definită
relația de ordine).
P3: Identificam locul valorii lui Qj(r) in cadrul seriei.
1. locul lui Qj(r) cade exact peste o valoare reala situatie in
care Qj(r) ia valoarea peste care cade.
2. locul lui Qj(r) cade intre doua valori reale situatie in care
Qj(r) este calculat ca medie a celor doua valori.
Qj Dj
Cum calculam U , U , U ?
Me

Den. Quant. Unitatea quantilica j


Me n 1
U Me

(r=2, j=1) 2
Qj Qj n 1
U j , j  1,3
(r=4, j=1,3) 4
Dj Dj n 1
U j , j  1,9
(r=10, j=1,9) 10

Odata identificate valorile unitatilor mediane, quartilice sau


decilice se parcurge algoritmul descris pentru quantila Qj(r)
8. Distribuția statistică
-pentru o serie simplă, fară frecvențe sau de frecvență 1
X: (xi), cu i=1,k;
- seria cu frecvenţe diferite:

 xi 
X:   , când n1≠n2≠ … ≠ni.
 ni 
10. Graficele care reprezinta distributia variabilelor
ordinale:
a. Diagrama prin benzi -> Poligonul Frecvențelor ->
Curba Frecvențelor
b. Poligonul Frecvențelor cumulate -> Curba
Frecvențelor cumulate
c. Diagrama Box & Wiskers (D1 - |Q1 - Me – Q3 | - D9)
10. Graficele care reprezintă distribuția
variabilelor ordinale
Obs: Desi pentru variabilele ordinale avem definită relația
de ordine (care constituie o prima condiție în obținerea unei
distribuții “stabile”) totuși există un mare neajuns reprezentat
de faptul că distanța dintre două valori succesive nu poate fi
definită și prin urmare ea nu este constantă. De multe ori
aceasta distanță este convențională. Datorita acestui fapt vom
accepta ideea de distribuție dar în sens foarte larg. Ea poate fi
numită mai curând pseudo-distribuție.
a. Diagrama prin benzi -> Poligonul Frecvențelor
-> Curba Frecvențelor
b. Poligonul frecvențelor cumulate↑ și ↓
-> Curba frecvențelor cumulate

Poligonul frecvențelor cumulate pentru variabilele discrete


(care este și cazul variabilelor ordinale) este in realitate un
grafic în trepte deoarece acumularea nu se produce decât
punctual și nu gradual pe parcursul unui interval.
În mod excepțional prin unirea punctelor de acumulare
(xi , Ni↓) sau (xi , Ni↑).
Prin ajustarea poligonului frecvențelor se obține curba
frecvențelor.
Cand poligonul frecvențelor cumulate crescător și cel al
frecvențelor cumulate descrescător se reprezinta simultan în
același sistem de coordonate se obtine ogiva frecventelor.
c. Diagrama Box & Wiskers

Diagrama Box-Plot sau Box & Wiskers se construiește


cu ajutorul quantilelor:

D1- |Q1 - Me- Q3|- D9


3. Variabile cantitative discrete

Variabila cantiaitva accepta relatia de identitate, relatia de


ordine (>, =, <) si operatiile aritmetice.
Ex:.
Indicatori statistici specifici variabilei cantitative:
1. Volumul colectivitatii (n);
2. Frecventele absolute (ni , i=1,k, unde k - nr. valorilor
distincte luate de variabila nominala);
3. Frecventa relativa (fi sau exprimata procentual f%i );
4. Frecventele cumulate crescator si descrescator (Ni↓,
Ni ↑, Fi↓, Fi ↑)
5. Distributia statistica
6. Modul sau dominanata (Mo);
7. Mediana (Me);
8. Quantilele (Me, Quartilele, Decilele, Centilele)
OBS: Modul si mediana poarta denumirea de indicatori
medii de pozitie.
9. Indicatori medii de calcul: media aritmetica si media
patratica.
10. Indicatori ai dispersiei: abaterea medie liniara,
varianta, abaterea standar, coeficientul de variatie.
11. Indicatori ai dispersiei in sistemul medianei.
12. Indicatori ai formei unei distributii: relatia dintre
indicatorii tendintei centrale, indicatori ai asimetriei si indicatori
ai boltirii.
Grafice specifice variabilelor cantitative:
14. Graficele de structura: █, ■, ●.
15. Graficele care reprezinta distributia variabilelor
ordinale.

OBS: Variabilele cantitative in functie de forma de


prezentare a domeniului valorilor pot fi impartite in doua
categorii :
- variabile discrete;
- variabile continue pe interval.
Indicatori medii de calcul

Indicatorii tendintei centrale pot fi impartiti in doua


categorii in:
- marimi medii de pozitie: modul, mediana
- marimi medii de calcul: media aritmetica, media
patratica

Definitia generala a marimilor medii - sunt acele valori în


jurul cărora se repartizează/ concentreaza unităţile unei
populaţii.
Media aritmetică ( x )
- este o medie de calcul;
Media aritmetică este valoarea pe care ar lua-o fiecare
unitate statistica in conditiile in care colectivitatea ar fi
omogena (toate valorile sunt egale intre ele) [in conditiile in
care suma vlorilor inregistrate la nivelul colectivitatii ar ramane
constanta].  xi
i
Media aritmetica: - fara pondere: x 
n
 x i  ni
- cu pondere: x  i sau x   xi  f i
 ni i
i
OBS: Media aritmetică este sensibilă la prezenţa valorilor
extreme (outliers).
Cele mai importante proprietăţi ale mediei aritmetice:
1. Media aritmetica a unei distribuţii este o valoare internă:
xmin≤ x ≤xmax.

2. Media este o mărime normală: suma abaterilor valorilor


individuale ale unei variabile X de la media lor este egală cu
zero.
Media patratica ( x p )

- este o medie de calcul;


Media patratica este radacina patrata din media aritmetica
a valorilor individuale la patrat.
n

x 2
i

Media patratica - simpla: xp  i 1


n
k

x n 2
i i k
- ponderata: x p  i 1
k sau xp   i fi
x 2

n
i 1
i
i 1

Media patratica este utilizata pentru calculul abaterii


standard.
Media aritmetica ≤ Media patratica
Indicatori ai dispersiei

Dispersia exprimă gradul de variaţie a valorilor individuale


ale unei variabile faţă de nivelul mediu.
In functie de gradul de dispersare a unei distribuţii se poate
aprecia gradul de reprezentativitate a mediei aritmetice.
Indicatori sintetici ai dispersiei:
1. Abaterea medie liniară
 xi  x  x i  x  ni
i
d i, respectiv d
n  ni
i

- arată cu cât variază, în medie, valorile xi ale variabilei faţă


de nivelul mediu al distribuţiei.
- se exprimă în aceeaşi unitate de măsură cu cea a
variabilei.
2. Varianţa
2
 ( xi  x )
2  ( x i  x )  ni
2
s  i
, respectiv s2  i

n  ni
i

Varianţa este întotdeauna pozitivă, nu are unitate de


măsură şi nu se interpretează.
Prin ridicarea la pătrat a abaterilor valorilor xi faţă de medie
creşte “influenţa” valorilor extreme asupra nivelului varianţei.
3. Abaterea standard (s)
- arată cu cât variază, în medie, valorile xi ale variabilei faţă
de nivelul mediu al distribuţiei.
- se exprimă în aceeaşi unitate de măsură cu cea a
variabilei.
s
4. Coeficientul de variaţie (v): v   100
x
- se exprimă în procente.
- valori ridicate ale acestui coeficient (v>50%) arată o
distribuţie eterogenă, care se caracterizează printr-o variaţie
mare a valorilor xi faţă de nivelul mediu şi o medie
nereprezentativă.
- este sensibil faţă de valoarea mediei: cu cât media este
mai apropiată de zero, cu atât coeficientul de variaţie este
mai dificil de folosit (tinde spre infinit).
Indicatori ai dispersiei in sistemul medianei

5. Intervalul interquartilic
IQ=Q3-Q1 - cuprinde 50% din volumul eşantionului.

6. Coeficientul de variaţie interquartilic


Q3  Q1
VQ  2  100
Me
În mod sintetic, cele mai importante caracteristici numerice
ale unei distribuţii pot fi “cuplate” astfel:
- media - abaterea standard (valoare absolută) - coeficientul
de variaţie (valoare relativă)
- mediana - intervalul interquartilic (valoare absolută) -
coeficientul de variaţie interquartilic (valoare relativă)
Indicatori ai formei

Asimetria
- reprezintă o deviere de la forma simetrică a unei distribuţii.
Asimetria poate fi apreciată:
- pe cale grafică: curba frecvenţelor, diagrama box-plot.
- pe cale numerică: - prin compararea marimilor medii
centrale: Me, Mo si x .
- prin calculul indicatorilor de asimetrie
(Skewness).
Me ocupa este intotdeauna cuprinsa intre x si Mo si
anume este situata la 1/3 de x si 2/3 de Mo.
Daca x<Me<Mo => exista asimetrie la stanga.
Daca x >Me>Mo => exista asimetrie la dreapta.
Daca x = Me=Mo => seria este simetrica.
 32
a. Coeficientul de asimetrie Pearson 1 
 23
3
b. Coeficientul de asimetrie Fisher 1  3
s
Boltirea
- este definită prin compararea distribuţiei empirice cu
distribuţia normală din punctul de vedere al variaţiei variabilei
X şi a frecvenţei ni.
Boltirea poate fi apreciată:
- pe cale grafică: curba frecvenţelor.
- numeric: prin calculul indicatorilor boltirii.
4 4
a. Coeficientul de boltire Pearson:  2  
 22 s4

b. Coeficientul de boltire Fisher :  2  2  3


n
Momentele centrate de ordin r:  ( x i  x ) r

- pentru serii fara frecventa:  r  i 1


n
m

 i ni
( x  x ) r

- pentru serii cu frecventa: r  i 1


m

n
i 1
i
OBS: Pentru distributiile simetrice momentele centrate de
ordin impar sunt nule de unde si β1=0
Variabilă cantitativă continuă
1. Prezentarea seriei statistice - gruparea unităţilor statistice
este realizată pe intervale de variaţie.
Obs.: Gruparea pe intervale de variaţie duce la pierderea unei
părţi a informaţiei iniţiale.

2. Prelucrarea seriei statistice folosind metode grafice


a. Histograma
b. Poligonul frecvenţelor
c. Curba frecvenţelor

3. Indicatori ai statisticii descriptive


- se calculează în mod identic, prin “discretizarea” variabilei
(calculul mijlocului intervalelor de variaţie).

S-ar putea să vă placă și