Documente Academic
Documente Profesional
Documente Cultură
Cap 1
Cap 1
… … … … … … …
i xi1 xi2 … xij … xip
… … … … … … …
n xn1 xn2 … xnj … xnp
∑ x , ea fiind un
1
a) Media, notată m x , se calculează cu formula i
n
i =1
indicator important al tendinţei centrale.
b) Mediana este asociată secvenţei x(1) , x( 2) ,..., x( n ) ce reprezintă
valorile x1 , x 2 ,..., x n ordonate crescător. Ea este acea valoare (nu
neapărat dintre valorile x1 , x 2 ,..., x n ) pentru care numărul valorilor
din secvenţa x (1) , x ( 2) ,..., x ( n ) care-i sunt mai mici este acelaşi cu
numărul valorilor care-i sunt mai mari.
c) Modul este acea valoare cu frecvenţa cea mai mare de apariţie. (El
nu este în mod necesar unic.)
modul modul
mediana mediana
media media
modul=mediana=media
c) Repartiţie simetrică
Figura 1. Evaluări ale tendinţei centrale
∑ (x − m )
1 2
i x . (1)
n −1
i =1
b) Abaterea standard, notată s x , este calculată cu formula
n
∑ (x − m )
1 2
i x . (2)
n −1
i =1
c) Amplitudinea este calculată ca diferenţă între valoarea maximă şi
valoarea minimă a valorilor x1 , x 2 ,..., x n .
Este important ca, pentru diverse tipuri de distribuţii ale frecvenţelor
valorilor x1 , x 2 ,..., x n , să punem în evidenţă relaţii de ordine între cei trei
indicatori ai tendinţei centrale. Prezentăm în figura 1 cele trei situaţii
posibile. Astfel, în figura 1 c) prezentăm o repartiţie simetrică pentru care
cei trei indicatori ai tendinţei centrale coincid. În figura 1 a) şi 1 b) avem
repartiţii asimetrice, prima fiind „skewed dreapta” iar cea de-a doua fiind
„skewed stânga”. Relaţiile de ordine între cele trei valori pentru mod,
mediană şi medie sunt evidenţiate clar în graficele menţionate.
Exemplu: Fie secvenţa de şase numere 2, 5, 0, 9, 0, 7 reprezentând
observaţii asupra a şase indivizi. Secvenţa ordonată crescător o obţinem
imediat, ea este 0, 0, 2, 5, 7, 9. Valorile ce măsoară tendinţa centrală sunt:
media = 3.83, mediana se află între valorile 2 şi 5, prin interpolare putem
lua valoarea 3.5. Se observă faptul că mediana separă secvenţa de valori
ordonate în jumătate, 50% dintre valori fiind mai mici decât ea şi 50% dintre
valori fiind mai mari decât ea. Modul valorilor 2, 5, 0, 9, 0, 7 – adică
valoarea cu frecvenţa cea mai mare – este 0 (aici frecvenţa maximă este 2).
Media, mediana şi modul sunt trei indicatori ai localizării „centrului”
valorilor dintr-o secvenţă de date. În analiza repartiţiei valorilor observate,
la fel de importante sunt şi alte măsuri ale localizării datelor. Acestea sunt
cunoscute sub numele de percentile şi cuartile, şi sunt asociate secvenţei de
valori x (1) , x ( 2) ,..., x ( n ) .
1) Percentila de ordinul p este acea valoare, notată aici Pp , care are
proprietatea că p% dintre valorile secvenţei sunt mai mici decât ea şi
(100 – p)% dintre valori sunt mai mari decât ea.
2) Cuartila inferioară, notată Q1 , este percentila 25.
3) Cuartila de mijloc, notată Q2 , este percentila 50. Se observă faptul
că cuartila Q2 este tocmai mediana.
4) Cuartila superioară, notată Q3 este percentila 75.
Cuartilele se folosesc pentru a analiza dispersia valorilor secvenţei
x1 , x 2 ,..., x n calculându-se cu ajutorul lor aşa-numitul indicator inter-
quartile (notat IQR). El este calculat ca diferenţa dintre percentila 75 ( Q3 )
şi percentila 25 ( Q1 ). În cazul unei repartiţii normale a datelor acest interval
trebuie să fie aproximativ 1.35 din abaterea standard a datelor.
Tratarea punctelor aberante. Uneori, în secvenţa de valori
x1 , x 2 ,..., x n este semnalată prezenţa unor valori outliers (aberante ca
mărime în raport cu celelalte). În aceste situaţii unii indicatori de localizare
centrală sunt mult denaturaţi (deplasaţi) şi este indicat să calculăm aşa
numitele medii „robuste”. Acestea încearcă să elimine efectul valorilor
aberante (fără a afecta rezultatele). Dintre mediile robuste amintim:
1) Media winsorizată 95%, în calculul căreia primele 2.5% dintre
valorile ordonate sunt înlocuite cu „percentila 2.5” şi ultimele 2.5%
dintre valori sunt înlocuite cu „percentila 97.5”.
2) Media trunchiată 95%, trimmed mean, este calculată excluzând
primele 2.5% şi ultimele 2.5% dintre valorile secvenţei ordonate.
Tehnicile grafice sunt foarte relevante şi în cazul variabilelor
continue. Putem reprezenta datele sub formă de histograme, box plot-uri
(vezi figura 3), high-low plot-uri.
Exemplu. Să considerăm variabila Preţul la deschidere (coloana
corespunzătoare anului 2000 din Exemplul 5, Anexa 1). Aceasta este o
variabilă continuă, valorile ei exprimând preţul la deschiderea bursei pentru
acţiunile celor 13 companii (sunt valori medii anuale). Pentru a face o
apreciere generală asupra evoluţiei unui portofoliu compus din aceste
acţiuni, ne interesează indicatorii de centrare şi de împrăştiere ai variabilei
preţ. Prezentăm în tabelul 2 valorile indicatorilor prezentaţi mai sus,
outputul fiind de tip SPSS.
Mean 60.63
Median 50.16
Mode 14.93
Percentiles 25 38.43
50 50.16
75 92.68
120.00
IBM
100.00
80.00
60.00
40.00
20.00
0.00
2000 2001
year
No rm al Q- Q Plot o f O p en 2000
120
100
Expected Normal Value
80
60
40
20
0
0 20 40 60 80 100 120
Observed V alue
Mean
120.00 Low 2000 -
High 2000
Low 2001 -
High 2001
100.00
80.00
60.00
40.00
20.00
0.00
AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS
Trading symbol
Figura 5. Evoluţia preţului minim şi maxim (în anii 2000 şi 2001), pe companii
Mean
1.00 Fund avg % gain 2000 -
zero
Fund avg % gain 2001 -
zero
0.50
0.00
-0.50
-1.00
-1.50
-2.00
AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS
Trading symbol
Total
Modalitatea 1 2 … i … k
(valori observate)
Frecvenţa n1 n2 … ni … nk n
absolută
Frecvenţa n1 n2 … ni … nk 1
relativă
n n n n
(proporţia)
30
25
20
15
10
0
1 2 3 4 5 6
∑p
1
i = 1 şi putem să considerăm perechea de ipoteze:
1
H0 : p1 = p 2 = ... = p 6 = (adică preferinţele sunt echiprobabile)
6
1
H1 : cel puţin o probabilitate p i are o valoare ce diferă de .
6
4) Valoarea X 2 se compară cu χ α2 .
Regula de decizie este următoarea:
Dacă X 2 < χ α2 acceptăm ipoteza nulă; dimpotrivă, dacă X 2 > χ α2
nu avem motive s-o acceptăm (vezi şi figura 8).
X1\X2
1 1 5 4 2 3 15
2 1 7 12 3 3 26
Variabila 1
3 2 4 4 2 4 16
4 1 2 2 3 2 10
5 2 1 2 8 1 14
6 4 2 3 3 2 14
7 2 1 9 10 3 25
Total 13 22 36 31 18 120
Modalităţi Probabilităţi
X1\X2
1 2 … j … c marginale
1 p11 p12 … p1 j … p1c p1•
2 p 21 p 22 … p2 j … p 2c p2•
… … … … … … … …
i pi1 pi 2 … p ij … pic pi •
… … … … … … … …
r pr1 pr 2 … p rj … p rc pr•
Probabilităţi …
p•1 p •2 p• j p •c
marginale
Am folosit următoarele notaţii relativ la populaţia studiată:
1) p ij este probabilitatea ca un individ ales la întâmplare să aparţină
r c
celulei (i, j). Evident avem ∑ ∑ p ij = 1 ;
i =1 j =1
80
70
60
50
40
30
20
10
0
Yes
Did not complete
High s chool No
high s chool Some college
degr ee
College degr ee
P os t-
under gr aduate
degr ee
∑ ∑ (x
1 1
mj = xij şi sj = ij − m j )2
n n −1
i =1 1
Din orice matrice X se poate obţine o nouă matrice, fie ea X ' = ( xij' ) ,
xij − m j
ale cărei elemente sunt calculate astfel: xij' = pentru orice linie i şi
sj
coloană j
Această transformare asupra variabilelor este recomandată pentru a
evita discrepanţele între valori ce ar putea fi datorate unităţilor de măsură
diferite. Se obişnuieşte a se spune că, prin această transformare, exprimăm
informaţiile în formă standardizată, în unităţi de abatere medie pătratică
(unităţi standard). Se observă că, prin această transformare, centrăm mai
întâi valoarea (adică scădem din ea media) iar apoi o împărţim la abaterea
medie pătratică.
Observaţie: Un calcul matematic simplu ne conduce la faptul că
media valorilor standardizate este zero, iar dispersia este unu.
Exemplu: Fie datele din tabelul 1 al Anexei 1. Să considerăm doar
primele 4 caracteristici ale autoturismelor exprimate prin variabilele: preţul,
capacitatea cilindrică, viteza şi consumul. Printr-un calcul elementar
obţinem mediile şi respectiv abaterile medii pătratice ale acestor variabile
(folosind datele tuturor celor 26 mărci de autoturisme):
Capacitatea
Preţul Viteza Consumul
cilindrică
Media 16118 1172 155 7.18
Abaterea medie
4148 205 22.17 1.13
pătratică
Folosim acum formula de standardizare pe care o aplicăm fiecărui
element al matricei. Obţinem ca rezultat informaţiile standardizate
prezentate în tabelul 5. Se observă că, deşi cele 4 variabile selectate se
exprimă în unităţi de măsură diferite, în forma standard valorile sunt perfect
comparabile între ele.
Tabelul 5. Valori standardizate