Sunteți pe pagina 1din 155

Universitatea Alexandru Ioan Cuza Iai

Facultatea de Informatic
Valentin Clocotici
Introducere n statistica
multivariat
2007

Cuprins
Noiuni recapitulative ............................................................................................................... 11
Ce este statistica?.............................................................................................................................. 11
Terminologie ..................................................................................................................................... 11
Calitatea informaiei......................................................................................................................... 12
Variabile ............................................................................................................................................ 12
Variabile nominale ........................................................................................................................................... 13
Rezumatele statistice pentru date nominale..................................................................................................... 13
Variabile ordinale............................................................................................................................................. 14
Variabile de interval ......................................................................................................................................... 15
Rezumate statistice de tendin central .......................................................................................................... 17
Indicatori de msur ai mprtierii ................................................................................................................. 18
Elemente de teoria probabilitilor................................................................................................. 19
Funcia de probabilitate.................................................................................................................................... 19
Variabile aleatoare............................................................................................................................................ 20
Valori tipice...................................................................................................................................................... 21
Repartiii teoretice remarcabile........................................................................................................................ 22
Repartiia normal ....................................................................................................................................... 22
Repartiia
2
................................................................................................................................................. 24
Repartiia Student (t) ................................................................................................................................... 24
Repartiia Fisher-Snedecor (F) .................................................................................................................... 25
Inferena statistic ............................................................................................................................ 26
Estimaii............................................................................................................................................................ 27
Intervale de ncredere pentru valoarea medie............................................................................................. 29
Intervale de ncredere pentru dispersie ....................................................................................................... 29
Testarea ipotezelor statistice............................................................................................................ 29
Raionamentul general...................................................................................................................................... 30
Erori posibile n decizie.................................................................................................................................... 31
Categorii de teste.............................................................................................................................................. 32
Teste de concordan........................................................................................................................................ 32
Testul erorii standard a mediei .................................................................................................................... 33
Testul de concordan Student (t) ............................................................................................................... 33
Teste de comparare........................................................................................................................................... 34
Situaii de aplicare a testelor de comparare ................................................................................................ 34
Testul F........................................................................................................................................................ 34
Teste t de comparare.................................................................................................................................... 35
Teste privind egalitatea dispersiilor unor populaii normale........................................................................... 36
Testul Bartlett .............................................................................................................................................. 37
Testul Levene .............................................................................................................................................. 37
Prelucrri statistice........................................................................................................................... 38
Microsoft Excel ................................................................................................................................................ 38
SPSS ................................................................................................................................................................. 39
Distribuia de frecvene ............................................................................................................................... 39
Statisticile descriptive.................................................................................................................................. 40
Tabele de frecvene ncruciate................................................................................................................... 40
Analiza dispersional................................................................................................................ 42
Analiza dispersional unifactorial................................................................................................. 42
Structura datelor ............................................................................................................................................... 42
Tabelul ANOVA.............................................................................................................................................. 43
Modele ale analizei dispersionale unifactoriale............................................................................................... 46
Modelul cu efecte sistematice ..................................................................................................................... 46
4 Introducere n statistica multivariat
Modelul cu efecte ntmpltoare................................................................................................................. 47
Contraste........................................................................................................................................................... 48
Analiza post hoc ............................................................................................................................................... 49
Metoda Tukey.............................................................................................................................................. 49
Metoda Scheffe............................................................................................................................................ 50
Metoda Bonferroni ...................................................................................................................................... 50
Alegerea metodei de comparaie multipl .................................................................................................. 50
Analiza dispersional bifactorial ................................................................................................... 50
Structura datelor ............................................................................................................................................... 51
Modele ale analizei dispersionale bifactoriale................................................................................................. 55
Modelul cu efecte sistematice ..................................................................................................................... 56
MANOVA.......................................................................................................................................... 57
Teoria matematic ............................................................................................................................................ 58
Prelucrri statistice........................................................................................................................... 60
Excel ................................................................................................................................................................. 60
SPSS.................................................................................................................................................................. 61
Asocierea datelor....................................................................................................................... 63
Msuri de asociere ............................................................................................................................ 64
Asocierea ntre dou variabile nominale (calitative) ..................................................................... 65
Semnificaia statistic a asocierii ..................................................................................................................... 67
Asocierea datelor ordinale................................................................................................................ 67
Coeficientul de corelaie a rangurilor (Spearman) r
s
....................................................................................... 67
Coeficientul .................................................................................................................................................... 68
Asocierea datelor continue (de interval) ......................................................................................... 69
Dreapta de regresie........................................................................................................................................... 70
Coeficientul de corelaie (liniar)..................................................................................................................... 72
Modelul Liniar .......................................................................................................................... 73
Definiie.............................................................................................................................................. 73
Estimaia prin cele mai mici ptrate ............................................................................................... 74
Interpretarea coeficienilor ............................................................................................................................... 75
Distribuia estimatorului................................................................................................................................... 75
Teorema Gauss Markov: ............................................................................................................................. 75
Teorema lui Rao .......................................................................................................................................... 75
Estimaia dispersiei erorilor (
2
) ...................................................................................................................... 75
Precizia ajustrii ............................................................................................................................................... 76
Coeficientul de corelaie multipl .................................................................................................................... 77
Coeficientul de corelaie parial ..................................................................................................................... 77
Testarea ipotezelor............................................................................................................................ 77
Testul F de semnificaie global.................................................................................................................. 78
Teste t........................................................................................................................................................... 78
Intervale de ncredere....................................................................................................................... 78
Parametrii modelului ........................................................................................................................................ 78
Valorile prognozate .......................................................................................................................................... 79
Analiza reziduurilor.......................................................................................................................... 79
Diagrama reziduurilor ...................................................................................................................................... 80
Diagrama reziduuri valori estimate............................................................................................................... 80
Diagrama reziduuri variabil independent.................................................................................................. 81
Multicoliniaritatea ............................................................................................................................ 81
Detectarea multicoliniaritii............................................................................................................................ 82
Eliminarea multicoliniaritii ........................................................................................................................... 82
Cuprins 5
Cea mai bun regresie...................................................................................................................... 82
Etapele selectrii celei mai bune regresii......................................................................................................... 83
Etapa 1. Modelul maxim............................................................................................................................. 83
Etapa 2. Criteriul de selectare ..................................................................................................................... 83
Etapa 3. Strategii de selectare a celui mai bun model ................................................................................ 84
Etapa 5. Reliabilitatea modelului ales......................................................................................................... 85
Regresia polinomial ........................................................................................................................ 85
Variabile independente discrete ...................................................................................................... 86
Factori dihotomici ............................................................................................................................................ 86
Factori multicategoriali .................................................................................................................................... 87
Analiza varianei............................................................................................................................... 87
Analiza covarianei ........................................................................................................................... 89
Model 1: y
ik
= (+
i
)+(+
i
)x
ik
+
ik
................................................................................................................. 90
Model 2: y
ik
= (+
i
) + x
ik
+
ik
..................................................................................................................... 91
Model 3: y
ik
= + ( +
i
)x
ik
+
ik
................................................................................................................... 91
Model 4: y
ik
= + x
ik
+
ik
............................................................................................................................. 92
Model 5: y
ik
= +
ik
........................................................................................................................................ 92
Teste statistice n analiza covarianei............................................................................................................... 93
Testul egalitii pantelor.............................................................................................................................. 93
Testul identitii centrelor ........................................................................................................................... 93
Testul efectului global de clasament ........................................................................................................... 93
Testul unui y constant.................................................................................................................................. 94
Regresia logistic .............................................................................................................................. 94
Cazul unei singure variabile independente ...................................................................................................... 95
Cazul mai multor variabile independente ........................................................................................................ 96
Estimarea coeficienilor............................................................................................................................... 96
Prelucrri statistice........................................................................................................................... 98
Excel ................................................................................................................................................................. 98
SPSS ................................................................................................................................................................. 98
Analiza datelor metode factoriale.......................................................................................... 101
Reducerea dimensiunii ..................................................................................................................... 101
Elemente de calcul matriceal ........................................................................................................... 103
Vectori i valori proprii .................................................................................................................................... 103
Proprieti .................................................................................................................................................... 104
Analiza factorial metoda general ............................................................................................. 104
Ajustarea printr-un subspaiu vectorial din R
p
............................................................................................... 105
Ajustarea printr-un subspaiu vectorial din R
n
................................................................................................ 106
Relaia dintre cele dou subspaii din R
p
i R
n
............................................................................................. 106
Reconstituirea tabloului X................................................................................................................................ 107
Analize particulare ........................................................................................................................................... 107
Analiza n componente principale.................................................................................................................... 108
Analiza n componente principale normate ..................................................................................................... 108
Analiza rangurilor............................................................................................................................................. 109
Analiza corespondenelor................................................................................................................................. 109
Analiza n componente principale (normate) ACP/ACPN ........................................................... 109
Az = AAx = Ix = x, ................................................................................................................................... 110
Analiza n R
p
................................................................................................................................................... 110
Analiza n R
n
................................................................................................................................................... 110
Componente principale o alt definiie......................................................................................................... 111
Numrul de componente principale................................................................................................................. 111
Criteriul Kaiser ............................................................................................................................................ 112
Criteriul Cattell (scree test) ......................................................................................................................... 112
6 Introducere n statistica multivariat
Reprezentri grafice.......................................................................................................................................... 112
Variabile....................................................................................................................................................... 113
Observaii..................................................................................................................................................... 113
Variabile/observaii suplimentare .................................................................................................................... 114
Puncte-variabile suplimentare ..................................................................................................................... 115
Puncte-observaii suplimentare ................................................................................................................... 115
Analiza corespondenelor ................................................................................................................. 115
Norii de puncte ................................................................................................................................................. 116
Invariana distanelor n R
p
......................................................................................................................... 116
Analiza n R
p
.................................................................................................................................................... 116
Analiza n R
n
.................................................................................................................................................... 118
Relaia dintre spaiile R
p
i R
n
......................................................................................................................... 118
Reconstituirea tabloului de frecvene............................................................................................................... 119
Contribuii absolute i relative ......................................................................................................................... 119
Contribuii absolute ..................................................................................................................................... 119
Contribuii relative....................................................................................................................................... 120
Alte concepte ale analizei factoriale................................................................................................. 120
Tipuri de factori ................................................................................................................................................ 121
Rotaia factorilor............................................................................................................................................... 121
Validitatea rezultatelor ..................................................................................................................................... 121
Analiza covarianelor/corelaiilor pariale ..................................................................................... 122
Regresia ortogonal .......................................................................................................................... 122
Interpretarea geometric n R
p
......................................................................................................................... 123
Regresia ortogonal f(X,Y) ............................................................................................................................... 123
Regresia dup componente principale ............................................................................................ 125
Analiza canonic ............................................................................................................................... 125
Analiza discriminant....................................................................................................................... 128
Prelucrri statistice........................................................................................................................... 130
SPSS.................................................................................................................................................................. 130
Descriptives ................................................................................................................................................. 131
Extraction..................................................................................................................................................... 131
Rotation........................................................................................................................................................ 131
Scores........................................................................................................................................................... 131
Options......................................................................................................................................................... 132
Probleme de clasificare............................................................................................................. 133
Clasificare .......................................................................................................................................... 133
Clasificare predictiv........................................................................................................................ 133
Clasificare predictiv - Fisher .......................................................................................................................... 133
Clasificare predictiv - Bayes .......................................................................................................................... 134
Clasificare predictiv k vecini....................................................................................................................... 135
Clasificare descriptiv ...................................................................................................................... 136
Clasificare descriptiv - agregare..................................................................................................................... 137
Clasificare distane ntre obiecte................................................................................................... 137
Metoda celui mai apropiat vecin (nearest neighbor method) .......................................................................... 137
Metoda celui mai deprtat vecin (farthest neighbor method).......................................................................... 138
Metoda legturii medii ..................................................................................................................................... 138
Metoda distanei centrelor (average group linkage) ........................................................................................ 138
Metoda distanei Ward (Ward's linkage) ......................................................................................................... 139
Clasificare descriptiv - agregare..................................................................................................................... 139
Clasificare descriptiv - divizare ..................................................................................................... 139
Cuprins 7
Clasificare descriptiv - partiionare.............................................................................................. 140
Clasificare descriptiv metode fuzzy ........................................................................................... 141
Calitatea clasificrii .......................................................................................................................................... 142
Prelucrri statistice........................................................................................................................... 143
SPSS ................................................................................................................................................................. 143
K-Means Cluster.......................................................................................................................................... 144
Hierarchical Cluster..................................................................................................................................... 145
Exerciii ..................................................................................................................................... 147
Bibliografie................................................................................................................................ 155

Introducere
Statistica multivariat conine tehnici dedicate analizrii seturilor complexe de date, obinute n
urma studiilor experimentale n care sunt urmrite, evaluate, msurate mai multe variabile.
Complexitatea cercetrilor de acest tip este datorat nu att numrului mare de variabile, ct
necesitii de a studia relaii simultane ntre mai multe variabile. Prin urmare, descrierea
statistic a fiecrei variabile necesit doar cunotine de statistic elementar n timp ce studierea
relaiilor de asociere sau de structur a seturilor de variabile sau de observaii impune apelarea la
tehnici specifice. i cum studiul structurilor este obiectul predilect al cercetrilor ultimelor
decade, aplicarea tehnicilor statisticii multivariate a devenit o constant n cercetarea datelor
experimentale.
Aceste tehnici nu sunt ntotdeauna unitare ca prezentare (fiecare constituie subiectul unui tratat
de sute de pagini) i alegerea tehnicii adecvate este de multe ori dificil. n acest curs sunt
prezentate doar elementele de baz, depind puin nivelul introductiv, ale celor mai frecvente
metode incluse n domeniul statisticii multivariate. Se vor discuta n acest curs:
analiza dispersionala ANOVA/MANOVA,
analiza regresional multipl,
analiza covarianei,
analiza n componente principale,
analiza corespondenelor,
probleme de clasificare.
Cursul conine, din dorina de a se autosusine, o prim parte introductiv n care sunt reamintite
noiunile elementare de statistic. Aceast parte poate fi omis de ctre cititorii avizai, dei,
chiar i pentru acetia, are utilitatea obinuirii cu limbajul i noiunile necesare celorlalte seciuni
ale lucrrii.
Fiecare capitol conine o scurt prezentare a comenzilor disponibile n Excel i/sau SPSS i care
permit realizarea prelucrrilor efective de date statistice.
Se recomand cititorului s consulte i site-ul cursului, http://thor.info.uaic.ro/~val/stamult.html,
unde exist legturi ctre documente ajuttoare.

Noiuni recapitulative
Ce este statistica?
Statistica este un corp de metode utilizate pentru a aduna, a descrie i a analiza date numerice.
Statistica se concentreaz pe reprezentrile numerice ale diferitelor aspecte ale realitii, adic
asupra a ceea ce poate fi numrat, msurat sau cuantificat. Nu toate aspectele unei realiti care
se studiaz au caracter numeric; n aceste situaii, posibilitatea de utilizare a unei codificri
numerice permite unele prelucrri statistice. Programele informatice dedicate prelucrrilor
statistice necesit, uneori, codificri numerice pentru aspectele nenumerice studiate.
Metodele statisticii pot fi mprite n dou categorii: statistica descriptiv i statistica
inferenial. Clasificarea este mai mult teoretic; n practic, aceste aspecte se ntreptrund n
majoritatea analizelor statistice.
Terminologie
populaie statistic = mulimea elementelor studiate,
eantion = submulime a unei populaii statistice,
variabile = fiecare faet a realitii, fiecare atribut al unui element din populaia statistic,
distribuia (valorilor) unei variabile = mulimea tuturor valorilor (nu neaprat distincte).
Statistica descriptiv const n exact ceea ce spune numele: sunt metode de descriere.
Necesitatea descrierii unei variabile este impus de variaia valorilor variabilei. ntr-o lume
constant nu este nevoie de statistic.
Descrierea este, de regul, sub form numeric. Pentru a constitui informaie utilizabil,
descrierea trebuie s fie succint. De aici apariia rezumatelor statistice (statistici) cum ar fi
media, dispersia etc.
Orice descriere necesit cheltuieli i din acest motiv, ca i din altele, datele prelucrate sunt
valoroase i trebuie s fie tratate ca atare. Orice descriere este afectat de erori.
Statistica inferenial const n tehnicile prin care se pot deduce (infera) caracteristicile unei
populaii din observaiile efectuate asupra unui eantion din acea populaie. Tehnicile statisticii
infereniale sunt impuse de faptul c, n marea majoritate a cazurilor, este de interes descrierea
populaiei i nu a eantionului observat. Generalizarea la nivelul populaiei a unui rezultat
propriu unui eantion este, de multe ori, implicit: n formularea n urma unui studiu pe 1000 de
persoane s-a observat c 52% beau ap plat este evident c rezultatul este comunicat ca fiind
ataat populaiei i nu celor 1000 de persoane studiate. Analog pentru sondajul din data de
arat c 38% dintre alegtori vor vota cu . n schimb, formularea La alegerile din 33%
dintre voturi au fost pentru se refer evident la ceea ce s-a ntmplat, la eantionul celor care
au mers la vot,, fiind o simpl comunicare descriptiv.
Atunci cnd sunt implicate eantioane i populaii trebuie s se pstreze distincia dintre
rezumatele statistice de la nivelul eantionului i cele de la nivelul populaiei, mai ales c
formulele de calcul sunt similare (pn la identitate). Descrierile numerice (rezumatele
statistice) de la nivelul populaiei sunt parametrii populaiei: media populaiei, abaterea
standard a populaiei etc. Descrierile numerice (rezumatele statistice) de la nivelul eantionului
sunt denumite statistici.
In cadrul inferenei statistice, statisticile sunt estimaii (aproximri) ale parametrilor. De
menionat c termenul aproximare nu are nuan de minimalizare, cel puin att timp ct nsi
descrierea este aproximativ.
12 Introducere n statistica multivariat
Calitatea informaiei
Valoarea unei informaii poate fi privit ca
valoare istoric,
valoare de comparaie,
valoare de prognoz (predictiv).
Ordinea precizat la punctul anterior fixeaz ascendent i gradul de complexitate, de utilitate a
informaiei. Prelucrrile statistice sunt necesare tocmai pentru a obine informaii cu valori mai
mari, pentru a trece de la valoarea istoric la valoarea de comparaie sau, n final, la valoarea de
predicie.
Valoarea istoric este dat de ataarea la un anumit moment istoric. De regul, orice rezultat
statistic are aceast valoare, chiar dac se accept uzual unele compromisuri: n 1959 populaia
era de 16,1 milioane iar n 1960 era de 16,11 milioane; imaginai-v c studiul din 1959 a fost n
decembrie, cel din 1960 n ianuarie
Valoarea de comparaie este conferit de posibilitatea de a utiliza o anumit informaie pentru
a compara situaii diferite: momente de timp, locuri etc. De exemplu, dac n Iai sunt 15300 de
absolveni de nvmnt superior iar n Pacani sunt 1650, cele dou numere se pot compara
doar mecanic, fr a obine nimic nou: cum populaiile celor dou orae sunt diferite ca numr,
acelai lucru trebuie s se ntmple i cu numrul absolvenilor. Dac informaia este dat sub
forma: n Iai, 12,5% dintre locuitori sunt absolveni de nvmnt superior iar n Pacani
12,2%, atunci informaia are putere de comparaie.
Valoarea de prognoz (predictiv) este conferit de posibilitatea utilizrii informaiei pentru a
prevedea comportri viitoare. De exemplu, dac se tie c n Iai sunt 400 de mii de locuitori,
aceast informaie nu poate oferi indicii despre numrul de locuitori
de peste 5 ani. Dac se cunoate tabelul urmtor, puterea de
prognoz este mrit prin aceea c se poate studia ritmul de
cretere, sensul modificrii etc.
Variabile
O variabil reprezint o caracteristic, un atribut al elementelor din populaia statistic studiat:
dac se studiaz o colectivitate uman, nlimea, greutatea, anii de studiu, culoarea ochilor,
averea, vrsta etc. reprezint variabile posibile.
Din punct de vedere matematic, putem considera c, fixat un atribut, exist o funcie care
ataeaz fiecrui element din populaie valoarea pe care o are atributul pentru elementul
respectiv. Aceast funcie este, n statistic, variabila avnd numele atributului considerat.
Reamintim c existena statisticii se datoreaz faptului c variabilele nu sunt constante, ci au o
variaie (de origine cunoscut, sau nu) a valorilor. Variabilitatea valorilor se datoreaz unor surse
ce pot fi clasificate n previzibile (sistematice) i imprevizibile (ntmpltoare, fortuite).
Clasificarea este realizat din punctul de vedere al cercettorului: caracterul
previzibil/imprevizibil nu este un dat, ci este relativ la cercetarea efectuat.
Metodele statistice vor cuta, de regul, s stabileasc, cel puin relativ, importana surselor de
variaie previzibile n explicarea variabilitii valorilor unei variabile. Este de menionat i faptul
c dac sursa variaiilor imprevizibile este foarte puternic, atunci este practic imposibil s se
poat evalua corect ponderea variaiilor previzibile.
Valorile unei variabile se obin prin utilizarea unui instrument de msur pentru toate elementele
studiate (observate). Un asemenea instrument va fi numit n continuare scal de msur.
O scal de msur trebuie s fie
robust msurtori repetate ale aceluiai element produc acelai rezultat,
Anul Locuitori (mii)
1960 290
1980 340
2000 390
Noiuni recapitulative 13
corect (valid) scala produce evaluarea dorit,
exhaustiv scala poate evalua toate elementele int,
mutual exclusiv un element poate produce un singur rezultat.
S-au dezvoltat trei tipuri principale de scale:
nominal,
ordinal,
de intervale.
Alegerea unui tip de scal pentru determinarea valorilor unei variabile fixeaz a priori
prelucrrile posibile. Nici o tratare statistic nu poate aduga numerelor (valori ale variabilelor)
proprieti pe care experimentatorul nu le-a dat prin operaia de msurare. Intre tipurile
enumerate exist ordinea de la simplu (scale nominale) la complex (scale de intervale). O
variabil are caracterul scalei de msur utilizate: variabila nominal, variabil ordinal,
variabil de interval. Prin date nominale, date ordinale sau date de interval se va nelege
mulimea valorilor unei variabile de tipul specificat.
Variabile nominale
O scal nominal (calitativ, categorial) este format din categorii pentru clasificarea obiectelor
sau evenimentelor pe baza unei caliti (atribut). Pentru a construi o scal nominal este suficient
s se poat repartiza observaiile posibile ntr-un numr de clase, ansamblul acestor clase
constituie gradaiile scalei nominale astfel definite. Intre gradaiile scalei nu exist ordine;
enumerarea categoriilor scalei este arbitrar.
Este de menionat c fixarea criteriilor de clasificare este subiectiv; criterii mai fine produc mai
multe categorii cu riscul de a introduce criterii colaterale, strine inteniei iniiale.
Prezentarea datelor nominale se efectueaz sub forma tabelului urmtor:
Categoria (clasa) Frecvena absolut Frecvena relativ
c
1
f
1
r
1
= f
1
/n
c
2
f
2
r
2
= f
2
/n

c
m
f
m
r
m
= f
m
/n
Total n= f
i
1
Este de remarcat c frecvenele relative sunt utile pentru a compara o distribuie cu alta;
compararea frecvenelor absolute este posibil doar n cazul cnd aceluiai numr de observaii.
De regul, frecvenele relative
se exprim procentual
se raporteaz cu o zecimal (cel mult dou) mai mult dect msurtorile brute
se utilizeaz doar pentru n 50, dei literatura cunoate i alte situaii Pentru n
< 50 se consider c o mic modificare a lui n produce modificri prea mari ale
procentajelor.
Exprimarea sub form de procentaj este important deoarece asigur o percepie mai bun a
ordinului de mrime ( a se compara 0.05 cu 0.12 i 5% cu 12%).
Rezumatele statistice pentru date nominale
Valoarea mod = categoria cu frecvena maxim. Este indicatorul statistic de tendin central
(de localizare) a distribuiei.
Indicele de variaie calitativ (IQV), care arat procentual ct din variaia maxim este
prezent n distribuia observat. Este indicatorul statistic de mprtiere a distribuiei.
Calculul indicatorului IQV
Se consider distribuia cu gradul de mprtiere maxim, avnd efectivele claselor ct mai egale.
Pentru distribuia observat i pentru cea cu mprtierea maxim se calculeaz valoarea
14 Introducere n statistica multivariat

>
=
=
k
i j
j i
j i
f f
1 ,
var
Formula de calcul pentru IQV este
(%)
maxima var
observata var
= IQV
Reprezentrile grafice adecvate pentru datele nominale sunt (n variante 2D sau 3D)
diagramele cu bare (bar chart)
diagramele de structur (pie chart, doughnut chart)

Se remarc faptul c nu se introduce explicit ordinea ntre categoriile reprezentate.
Dintre variabilele nominale se disting variabilele dihotomice. Acestea au doar dou valori
posibile: adevrat/fals, prezent/absent, brbat/femeie etc. Dac valorile sunt codificate prin 0 i
1, atunci cu aceste coduri se pot efectua calcule: de exemplu, suma codurilor arat frecvena
categoriei codificate cu 1. Asemenea calcule nu sunt posibile pentru o variabil nominal
general.
Utilitatea variabilelor nominale ntr-o cercetare statistic este dat de faptul c determin, prin
categoriile lor, grupuri de elemente, subpopulaii. Existena unor subpopulaii, determinate de o
variabil nominal, constituie o surs sistematic de variaie, care poate fi verificat. De
exemplu, dac un studiu privind rezultatele la nvtur consider drept variabil mediul (rural,
urban etc.), nseamn c acesta este, n viziunea cercettorului, o surs de variaie a valorilor;
ipoteza se poate, sau nu, verifica.
Variabile ordinale
O scal ordinal (de ranguri) este format din categorii ordonate pentru clasificarea obiectelor
sau evenimentelor pe baza unei caliti (atribut). Pentru a construi o scal ordinal este suficient
s se poat defini o relaie de ordine ntre observaii. Clasele formate din observaii egale vor
constitui gradaiile scalei ordinale.
Intre gradaiile scalei nu exist distan; enumerarea categoriilor scalei este fixat de ordine.
Relaia de ordine este de multe ori subiectiv, corespunznd la ceea ce n viaa real este mai
bun, mai mare, mai frumos etc. Se poate spune c o scal ordinal este utilizat pentru
clasarea observaiilor, fr pretenia de a indica precis cantitatea prezent de caracteristic.
Prezentarea datelor ordinale se efectueaz sub forma tabelului urmtor:
Categoria
(clasa)
Frecvena absolut Frecvena
relativ
Frecvena
absolut
cumulat
Frecvena
relativ
cumulat
c
1
f
1
r
1
= f
1
/n f
1
r
1
c
2
f
2
r
2
= f
2
/n f
1
+ f
2
r
1
+ r
2

c
m
f
m
r
m
= f
m
/n f
1
++ f
m
r
1
++ r
m
Total n= f
i
1
Noiuni recapitulative 15
Scala ordinal este mai complex dect scala nominal; prelucrrile posibile sunt mai
numeroase. Rezumatele statistice definite la datele nominale se pot calcula i aici: valoarea mod,
IQV. Datorit faptului c observaiile sunt ordonate, se definesc noi rezumate statistice:
mediana, quantile. In calculul quantilelor, definiia nu se poate aplica cu strictee, totui, dect n
cazul datelor de interval.
Mediana este prima categorie a scalei care depete jumtate dintre elemente
(observaii). Mediana este utilizat ca indicator de tendin central.
Quantila de ordin p este acea categorie a scalei care depete o proporie p, p <
1, de elemente (observaii). Mediana este deci quantila de ordin 0.5.
Pentru facilitarea interpretrii se exprim uneori proporiile sub form procentual, deci se poate
vorbi de quantila de (ordin) 15%, sau quantila de (ordin) 75% etc. Prin faptul c definesc jaloane
sub care se gsesc proporii ale numrului de observaii, quantilele ofer o imagine a gradului de
mprtiere a observaiilor i sunt utilizate adesea pentru a fixa poziia unei observaii n raport
cu mediana distribuiei.
Sistemele de quantile (quartile, decile, centile) sunt utilizate pentru aprecierea mprtierii i
pentru compararea unor valori determinate pe scale ordinale diferite. De exemplu, sistemul
determinat de quantilele de ordine 1/4, 2/4 = 1/2, 3/4 realizeaz (teoretic) o mprire a
observaiilor n patru pri egale. Aceste quantile se numesc quartile i sunt notate, cel mai
adesea, prin Q1, Q2 i, respectiv, Q3.
Doar pentru o repartiie uniform, quartilele sunt egal deprtate (ca numr de categorii) ntre ele.
Reprezentrile grafice trebuie s reflecte att ordinea, ct i caracterul discret al scalei ordinale.
Diagrama cu coloane este cea mai adecvat, reprezentarea fiind pentru frecvene absolute,
relative sau cumulate.
Forma reprezentrii frecvenelor necumulate se apreciaz dup aplatizare i simetrie, cu efect
asupra calitii unei prognoze.

Variabilele ordinale sunt utile pentru c:
ordonarea observaiilor, pe lng interesul n sine, permite prelucrri mai
complexe;
caracterul discret al scalei ordinale definete subpopulaii care pot fi comparate n
scopul de a verifica o surs sistematic de variaie.
Este de remarcat i faptul c reprezentrile grafice ale datelor ordinale au mai mult informaie
care se transmite receptorului. Cazul cel mai frecvent de utilizare a unei variabile ordinale este
cel al ntrebrilor din sondaje de opinie cu rspuns de genul: foarte mult, mult, indiferent etc.
Deci ntrebrile care cer o ierarhizare. Notele colare sunt, n esena lor, categorii ale unei scale
ordinale: 8 la matematic nu este acelai lucru cu 8 la francez etc.
Variabile de interval
O scal de intervale se caracterizeaz prin aceea c ntre categoriile ordonate ale scalei este
definit o distan. Se poate gndi c o asemenea scal de msur este construit prin alturarea
de intervale egale, asemenea unei rigle. O unitate a scalei reprezint o aceeai cantitate de
caracteristic msurat, indiferent de poziia pe scal.
16 Introducere n statistica multivariat
La o scal de intervale nu exist un punct zero adevrat. De exemplu, scala timpului este scal
de intervale. O scal de intervale cu un punct de zero real este denumit scal de rapoarte. Pe
aceast scal valoarea 2x este de dou ori mai mare dect valoarea x (spre comparaie, cineva
care are nota 6 nu tie de dou ori mai mult dect cineva cu nota 3).
Scalele de interval sunt scale continue, spre deosebire de scalele nominale i ordinale, care sunt
scale discrete. Datele de interval (continue) sunt cele mai complexe i majoritatea prelucrrilor
statistice sunt dezvoltate pentru aceste date. Se poate observa, de altfel, c exist tendina de
multiplicare a categoriilor unei scale ordinale, tocmai pentru a o putea considera scal de
intervale (a se vedea sistemul de notare din nvmnt).
Datele de interval se prezint:
sub form brut = deoarece se msoar cantitatea exact de caracteristic prezent
(n anumite limite discutate anterior), observaiile pot fi foarte diferite ntre ele i
nu doar n limitele unui numr finit de categorii de clasificare; este foarte dificil
s se transmit sau s se obin informaii din mulimea prezentat.
sub form ordonat i de frecvene = valorile sunt ordonate i se raporteaz
frecvenele; este mai uor s se perceap repartiia valorilor i s apar valorile
minime, maxime;
sub form de date grupate.
Modul de prezentare are importan att la calculul statisticilor (sunt formule diferite dup
modul de prezentare disponibil), ct i n procesul de comunicare a rezultatelor.
Pentru gruparea datelor se definesc intervale de grupare i se raporteaz valorile sub forma de
frecvene. Se obine astfel un tabel de forma urmtoare.
Trebuie avut n vedere c s-a pierdut o parte din informaia iniial
(de exemplu, din tabel nu rezult exact care sunt cele 8 valori din
primul interval: mai aproape de 160, de 170, de 179 etc.). Aceast
pierdere se justific totui prin avantajul oferit de simplificare, ca i
prin aceea c aceast uniformizare a datelor (n cadrul fiecrui
interval) poate s reduc (s compenseze) unele erori posibile n
cadrul operaiunii tehnice de msurare.
Deoarece gruparea datelor este impus de necesitatea de concentrare a informaiei, ar trebui ca
numrul intervalelor s fie mic. Deoarece prin grupare se pierde informaie (nu se mai tie
valoarea exact observat), ar trebui ca numrul intervalelor s fie mare. Din aceast contradicie
a criteriilor rezult c nu exist un numr teoretic optim de intervale. Sunt propuse diverse
formule, calitatea lor principal fiind doar aceea de uniformizare. O formul acceptat de
majoritatea statisticienilor este relaia empiric a lui Sturges: N k
10
log 332 , 3 1+ = unde k
este numrul de intervale, N este numrul de observaii (volumul eantionului).
n tehnica gruprii se recomand respectarea anumitor principii:
numerele prin care se exprim intervalele s fie pe ct posibil rotunde (sociologic
acceptabile);
numrul de intervale s fie suficient de mare n scopul de a furniza informaii ct
mai analitice;
intervalele trebuie s permit regruparea datelor sau separarea lor;
frecvenele mici trebuie s fie evitate, acestea avnd o semnificaie statistic
redus.
De obicei se alege un numr impar de clase pentru o serie de avantaje (de exemplu se poate
observa mai bine simetria distribuiei, exist o clas central etc.). Din punct de vedere teoretic
nu exist ns restricii cu privire la alegerea unui numr par de intervale de grupare.
Interval Frecvena
160-179 8
180-199 14
200-219 20
220-239 32
240-259 56
Noiuni recapitulative 17
Prin gruparea datelor i considerarea frecvenelor de interval, valorile individuale sunt mascate
i cea mai bun aproximare a lor este oferit, pe baza principiului erorii minime, de centrul clasei
la care aparin, valoare care va apare n formulele de calcul pentru rezumatele statistice.
Prezentarea grafic a datelor continue are loc dup gruparea lor. Sunt utilizate, pentru date
simple sau cumulate:
histograma,
poligonul frecvenelor.

Rezumate statistice de tendin central
Valoarea mod,
Mediana,
Media aritmetic
Dintre indicatorii statistici de tendin central este prezentat doar media aritmetic.
Cea mai utilizat valoare rezumativ pentru caracterizarea tendinei centrale a datelor este media
aritmetic, calculat dup formula uzual
n
x x x
x
n
+ + +
=
K
2 1

unde n este numrul de observaii iar x
1
, x
2
, ,x
n
reprezint seria de valori observate. Formula
aceasta poate fi aplicat doar n cazul datelor negrupate pe intervale (doar atunci avem valorile
individuale observate).
n cazul datelor grupate, fiecare valoare este aproximat prin centrul intervalului la care aparine
i prin urmare formula devine
n
c f c f c f
f f f
c f c f c f
x
k k
k
k k
+ + +
=
+ + +
+ + +
=
K
K
K
2 2 1 1
2 1
2 2 1 1

unde k este numrul de intervale de grupare, f noteaz frecvenele, c noteaz centrele
intervalelor iar n este numrul de observaii. Formula este media ponderat a centrelor
intervalelor, ponderile fiind frecvenele intervalelor.
Media aritmetic este punctul de echilibru al distribuiei, n sensul c suma abaterile de la medie
pentru observaiile mai mici dect media este egal cu suma abaterile de la medie pentru
observaiile mai mari dect media. Acest rezultat se exprim matematic prin
. 0 ) ( ) ( ) ( ) (
3 2 1
= + + + + x x x x x x x x
n
K
Se mai spune c media aritmetic joac rolul de centru de greutate a datelor.
Din punct de vedere variaional, media aritmetic realizeaz minimul expresiei
2 2
2
2
1
) ( ) ( ) ( ) ( z x z x z x z E
n
+ + + = K
adic E este minim pentru x z = . Aceast relaie exprim i faptul c media aritmetic este
estimaia prin cele mai mici ptrate a valorii centrale a unei distribuii unidimensionale.
18 Introducere n statistica multivariat
Indicatori de msur ai mprtierii
Amplitudinea (domeniul datelor)
Este definit ca diferena dintre valoarea maxim i cea minim rezultnd intervalul de
variaie a valorilor observate. Indicatorul tinde s supraestimeze intervalul de variaie
deoarece prin mrirea volumului eantionului crete ansa de a observa o amplitudine
mai mare. Faptul c amplitudinea este obinut doar din valorile extreme este un alt
argument n favoarea interpretrii cu precauie a indicatorului.
Quantile
Noiunea de quantil se pstreaz de la datele ordinale. Quantila de ordin p a unei liste de
valori numerice (0 < p < 1) este cel mai mic numr q astfel nct o proporie p de
elemente ale listei sunt mai mici sau cel mult egale cu q. Adic, dac lista conine n
elemente, quantila de ordin p este cel mai mic numr q astfel nct np elemente ale listei
sunt mai mici sau egale cu q.
Problema determinrii quantilei de un anumit ordin se complic atunci cnd lista de
valori reprezint un eantion dintr-o anumit populaie. n acest caz, valoarea calculat
drept quantil trebuie s se refere la populaie i nu la eantion, adic se calculeaz o
estimaie a quantilei din populaie. Formulele utilizate de diverse aplicaii dedicate
prelucrrilor statistice pot fi diferite (diferenele nu sunt ns majore), astfel nct valorile
furnizate sunt diferite pentru acelai set de intrri. Diferena pornete de la ipoteze
suplimentare considerate (distribuie uniform, distribuie normal etc.) care se reflect n
formule de interpolare diferite. Regula de aur n aceste situaii este: valorile furnizate de
astfel de programe se utilizeaz ca atare, menionndu-se programul utilizat. Se utilizeaz
curent notaia qp pentru quantila de ordin p.
Abaterea quartil
Definit prin (Q
3
-Q
1
)/2 unde Q
1
i Q
3
sunt prima i, respectiv, a treia quartil; cantitatea
(Q
3
-Q
1
) este denumit amplitudinea interquartil. Abaterea quartil este utilizat pentru a
defini un interval centrat pe median i care conine aproximativ jumtate dintre
observaii (evident c n intervalul definit de Q
1
i de Q
3
exist de asemenea 50% dintre
observaii, dar intervalul nu este centrat pe median dect n cazul distribuiilor
simetrice). Abaterea quartil este astfel indicatorul de mprtiere raportat mpreun cu
mediana (aceasta ca indicator de tendin central).
Abaterea medie absolut
Este definit drept

=

n
i
i
x x
n
1
1
. Are avantajul c se consider toate valorile observate,
dar dezavantajul c toate valorile particip cu aceeai pondere, fie c sunt deprtate sau
apropiate de medie. De observat c fr a considera valorile absolute ale abaterilor de la
medie suma este nul.
Dispersia
Abaterea standard.
Dintre aceste rezumate statistice, se prezint, datorit importanei lor, doar dispersia i abaterea
standard.
Dispersia de sondaj s
2
este un estimator al dispersiei populaiei, bazat pe un eantion aleatoriu.
Ca statistic, msoar gradul de mprtiere a eantionului n jurul mediei de sondaj. Relaia de
definiie, n cazul datelor negrupate, este
. ) (
1
1
1
2 2

=
n
i
i
x x
n
s
Noiuni recapitulative 19
Se observ c dispersia, ca msur a mprtierii datelor, este calculat din toate datele de sondaj
iar valorile mai deprtate de medie contribuie mai mult la valoarea final, ceea ce este n
concordan cu simul comun n ceea ce privete mprtierea unor valori. Dezavantajul este
acela c nu se conserv unitatea de msur a datelor iniiale, ceea ce mrete dificultatea
interpretrii.
Pentru a simplifica interpretarea, se definete abaterea standard ca fiind rdcina ptrat din
dispersie, adic dispersia este ptratul abaterii standard de sondaj, s. Dispersia de sondaj definit
prin formula de mai sus este un estimator nedeplasat al dispersiei populaiei.
Elemente de teoria probabilitilor
Teoria probabilitilor este introdus ca teoria matematic a fenomenelor aleatorii. Prin fenomen
aleatoriu nelegem un fenomen a crui apariie este sub semnul hazardului, a ntmplrii.
Noiunea contrar este aceea de fenomen determinat, adic fenomen a crui apariie este
previzibil prin cunoaterea cauzalitii sale. Uneori, caracterul de aleatoriu este dat doar de
necunoaterea cauzei implicate, dac exist o asemenea cauz.
Noiunile de baz n teoria probabilitilor sunt proba i evenimentele asociate probei. Prob i
eveniment sunt concepte fundamentale ale teoriei probabilitilor, drept urmare nu sunt definite
n funcie de alte noiuni. Ele idealizeaz, abstractizeaz, noiunile de experien, cercetare,
investigaie i, respectiv, rezultatele observate n cercetare. De remarcat, totui, faptul c
evenimentele sunt dintr-o mulime fixat. Vom nota, n continuare, mulimea evenimentelor cu
A iar evenimentele cu litere mari: A, B, C etc. n cazul finit reamintim c A = P(), unde
este mulimea evenimentelor elementare. ntre evenimente se definesc operaii, inspirate din
teoria mulimilor: Egalitatea, Negaia, Reuniunea, Intersecia, Incluziunea.
n mulimea evenimentelor se disting dou evenimente cu caracter special:
evenimentul sigur este evenimentul care se produce cu certitudine; se noteaz cu .
De exemplu, evenimentul cap sau pajur la aruncarea unei monede este un
eveniment sigur.
evenimentul imposibil este evenimentul care nu se produce niciodat; se noteaz cu
. Este evident c evenimentul sigur este evenimentul contrar evenimentului
imposibil i reciproc.
Dou evenimente A i B se spun incompatibile dac intersecia lor este evenimentul imposibil, A
B = , adic nu este posibil ca evenimentele A i B s se produc simultan.
n prezentarea i prelucrarea datelor, msurate pe diverse scale, noiunea de frecven relativ
este o noiune unificatoare: se regsete la toate scalele, valorile obinute pot fi utilizate pentru
comparaii etc. Practica arat c atunci cnd o experien este repetat de un numr mare de ori,
frecvena relativ a apariiei unui fapt tinde s se stabilizeze. Acest fenomen este formalizat n
teoria probabilitilor prin introducerea noiunii de probabilitate.
Funcia de probabilitate
Fie A mulimea evenimentelor. Se numete probabilitate orice funcie cu valori reale definit pe
mulimea evenimentelor, P : A , care satisface:
probabilitatea oricrui eveniment este un numr nenegativ: P(A) 0;
probabilitatea evenimentului sigur este egal cu 1: P() = 1;
probabilitatea oricrei reuniuni de evenimente incompatibile dou cte dou este
egal cu suma probabilitilor evenimentelor.
Se poate deduce din definiia anterioar c, dat o mulime de baz i o mulime de evenimente,
se pot defini mai multe funcii de probabilitate. ns, odat definit funcia de probabilitate, toate
20 Introducere n statistica multivariat
rezultatele dezvoltate pentru prob vor fi determinate de aceast alegere. Se spune c tripleta (,
A,P) definete un spaiu de probabilitate.
Se numete probabilitatea evenimentului A condiionat de evenimentul B valoarea notat P(A |
B) i definit prin:
) ( P
) ( P
) | ( P
B
B A
B A

=
unde P(B) este diferit de 0. Altfel spus, P(A|B) reprezint probabilitatea evenimentului A tiind
c s-a realizat B.
Evenimentele A i B se zic independente dac are loc P(A | B) = P(A)P(B).
Variabile aleatoare
Cu ajutorul variabilelor aleatoare se modeleaz n teoria probabilitilor ceea ce n tiinele
experimentale este caracteristic, variabil studiat etc. Faptul poate fi intuit corect dac se
consider, de exemplu, msurarea nlimii unui elev ntr-o cercetare antropometric. A spune c
elevul X are nlimea de 1,20m trebuie neles c mai nti a fost selectat elevul X (realizarea
unui eveniment) i apoi c operaiunea de msurare a avut ca rezultat valoarea de 1,20m (o
valoare a fost atribuit evenimentului). n continuare se prezint definirea variabilelor aleatoare
i a noiunilor conexe doar pentru cazul general, fr a prezenta separat cazul finit; noiunile
specifice cazului finit vor fi amintite doar acolo unde apar.
Fie un spaiu de probabilitate (,A, P). Se numete variabil aleatoare o funcie real X:
, care satisface condiia:
{ } . fi ar oricare , ) X( | x x A
Cu alte cuvinte se cere, din considerente teoretice, ca mulimea evenimentelor elementare pentru
care v.a. X are valori mai mici sau egale cu x, oricare ar fi x, s fie tot un eveniment. Definiia
din cazul finit nu poate fi aplicat aici deoarece mprirea probabilitii totale la un numr
(potenial) infinit de evenimente elementare produce o probabilitate egal cu zero pentru fiecare
eveniment n parte.
In cazul infinit, are sens s considerm probabilitatea ca v.a. X s aparin la un anumit interval
i nu probabilitatea s ia o anumit valoare. Acest fapt nu este chiar att de deprtat de practica
experimental ntruct, de exemplu, ansa de a gsi un individ cu nlimea de 1,80m este
aproape nul dac msurarea se efectueaz cu eroare zero. De obicei printr-o asemenea valoare
nelegem un ntreg interval de nlimi, toate acelea care prin rotunjire la dou zecimale devin
1,80m.
Numim funcie de repartiie a v.a. X, funcia real de variabil real, F:, definit prin
x), P(X ) F( = x unde prin (X x) s-a notat evenimentul { } x ) X( | , adic reuniunea
acelor evenimente elementare pentru care v.a. ia valori mai mici sau egale cu x.
Funcia de repartiie se zice absolut continu dac exist o funcie real, f:, astfel nct
, d ) f( ) F(


=
x
u u x

Interpretarea geometric este cea uzual de mrime a ariei de sub graficul funciei f.
Noiuni recapitulative 21

Funcia f, dac exist, se numete densitate de probabilitate a v.a. X i are proprietile
. 1 d ) ( f
, fi ar oricare , 0 ) ( f

+

=

u u
x x

Proprietile definitorii ale funciei de repartiie sunt:
1. 1 ) F( 0 x
2. Funcia F este nedescresctoare, dac
2 1
x x < atunci ) F( ) F(
2 1
x x
3. Dac F este funcie de repartiie absolut continu a v.a. X, atunci are loc i
proprietatea:
), F( ) F( ) X P(x
1 2 2 1
x x x = <
formul care permite calculul probabilitilor atunci cnd se cunoate funcia de
repartiie.
Funcia de repartiie conine toat informaia necesar pentru calcularea probabilitilor cu care o
variabil aleatoare ia valori i pentru acest lucru va fi utilizat n ceea ce ne intereseaz.
Valori tipice
Pentru caracterizarea unei v.a. se definesc valori tipice, care reprezint (modeleaz) rezumatele
statistice ale variabilelor. Formulele de calcul (nu sunt toate reamintite aici) sunt diferite n cazul
finit fa de cazul infinit.
Valorile tipice sintetizeaz
gruparea valorilor: valoarea mod, mediana, media aritmetic;
mprtierea valorilor: quantile, momente, momente centrate, abaterea standard,
coeficient de variaie;
atribute ale reprezentrii grafice: coeficientul de aplatizare, coeficientul de asimetrie.
De exemplu, formulele de calcul pentru medie, sau EXP(X) sau M(X), sunt
cazul discret
; M(X)

=
i
i i
p x

cazul infinit
. d ) ( M(X)

+

= x x xf

Pentru aprecierea gradului de simetrie a unei repartiii se utilizeaz momentul centrat de ordinul
al treilea,, care pondereaz suplimentar valorile mai deprtate de medie dar conserv i semnul
abaterii de la medie. Rezult c valori negative ale momentului centrat de ordinul 3 reflect
repartiii asimetrice spre stnga iar valori pozitive reflect repartiii asimetrice spre dreapta.
Coeficientul de asimetrie este definit prin standardizarea momentului
3
, necesar pentru a-i
oferi putere de comparare:
22 Introducere n statistica multivariat
( )
3
2
2
3
1

=
sau, pentru pstrarea semnului,
( )
3/2
2
3
1

=

unde
2
este dispersia.
Simetria unei repartiii se reflect n forma simetric a graficului densitii de probabilitate sau a
funciei de probabilitate. Se poate considera c indicatorul se refer la forma graficului densitii
(funciei) de probabilitate.
Al doilea atribut important (primul fiind simetria) n aprecierea formei unei repartiii unimodale
este gradul de nlare n apropierea valorii mod. Acest fapt poate fi msurat prin panta curbei
densitii de probabilitate i este definit drept coeficient de boltire (sau coeficient de aplatizare).
( )
,
2
2
4
2

=

Se observ forma standardizat a acestui coeficient ceea ce permite utilizarea lui n comparaii
ntre variabile aleatoare. O valoare mai mare a coeficientului de boltire arat o supranlare n
apropierea valorii mod, deci reflect faptul c valorile respective au probabiliti de realizare
mult mai mari dect valorile mai deprtate. Utilizarea coeficientului este realizat uneori prin
raportare la boltirea repartiiei normale, boltire egal cu 3. Se introduce astfel excesul unei v.a. X
prin
E =
2
3.
n funcie de valoarea excesului, repartiia este numit:
platicurtic, dac E < 0 (sau
2
< 3);
mezocurtic, dac E = 0 (sau
2
= 3);
leptocurtic, dac E > 0 (sau
2
> 3).

Repartiii teoretice remarcabile
n continuare se prezint cteva dintre repartiiile teoretice care sunt utilizate n analiza datelor
experimentale. Trebuie avut n vedere faptul c utilizarea unui model teoretic nu rezolv toate
problemele experimentale. De multe ori, fenomenul real este modelat cu un grad sczut de
aproximare, astfel nct rezultatele obinute sunt doar orientative. Acest fapt reflect doar
limitele cunoaterii i nu, poate, faptul c o modelare nu este posibil n domeniul studiat. De
cele mai multe ori, ns, nici nu exist alt alternativ de prelucrare, astfel nct, chiar
orientative, rezultatele sunt utile.
Repartiia normal
Aceast repartiie are un rol central, att din considerente teoretice, ct i practice (nu n ultimul
rnd, uurina aplicrii). Teoretic, repartiia normal reprezint o repartiie limit ctre care tind,
Noiuni recapitulative 23
n anumite condiii, celelalte repartiii. Practic, atunci cnd nu se cunoate repartiia unui anumit
fenomen, se poate considera, cu respectarea unui numr minim de condiii, c fenomenul
urmeaz o repartiie normal.
Prin definiie, o variabil continu X are o repartiie normal, sau repartiie GaussLaplace,
dac funcia de repartiie este dat de:
, 0 , , , d e
2
1
x) P(X F(x)
2
2
2
> = < =

x t
x

) (t

unde i sunt parametrii funciei de repartiie
Funcia de repartiie normal se va nota prin N(;
2
) iar faptul c v.a. X este repartizat normal
cu parametrii i se noteaz X ~ N(;
2
).
Se demonstreaz c parametrii repartiiei au semnificaia unor valori tipice i anume
M(X) = Me(X) = Mo(X) =
D
2
(X) =
2

motiv pentru care se poate vorbi de repartiia
normal cu media i dispersia
2
, ceea ce
determin complet repartiia.
Graficul funciei densitate de probabilitate f se
numete curba normal, sau clopotul lui Gauss.
Pentru parametrii 3/2 i 1 se obine graficul alturat.

Repartiia normal N(0,1) se numete repartiia
normal redus, sau repartiia normal normat, sau
repartiia normal standard. O v.a. repartizat N(0;1) este notat, n mod uzual, cu Z i este
referit drept variabil Z, variabil normal redus etc. Orice variabil repartizat normal poate
fi transformat ntr-o v.a. repartizat N(0;1) prin transformarea (de normare, de standardizare)


=
X
Z
.
Valorile densitii de probabilitate, f(z), sunt tabelate n crile de statistic i sunt accesibile n
orice program de calculator dedicat prelucrrilor statisitce. Prin intermediul transformrii Z se
pot astfel calcula diferitele valori ale oricrei densiti de probabilitate normale, indiferent de
parametrii ei.
Notnd cu z

quantila de ordin a repartiiei N(0,1), reamintim c


= F(z

) = P(Z < z

)
n aplicaii sunt utile urmtoarele relaii pentru o variabila aleatoare X oarecare, repartizat
normal, N(,
2
):
calculul probabilitii pentru o v.a. X oarecare,
. unde ), F( ) P(Z ) P(X ) F(


= =

< = < =
x
z z
x
x x

calculul probabilitii ca o v.a. X s ia valori ntre dou valori date
) F( ) F( ) P(X ) P(X ) X P(
1 2 1 2 2 1
z z x x x x = < < = < <
unde z
1
i z
2
sunt transformatele Z ale valorilor x
1
i x
2
.
Calculul probabilitilor ca o v.a. X s ia valori raportate la medie i abatere standard
1 ) F( 2 ) Z P( ) X P( ) X P(
) F( 1 ) F( ) P(Z ) P(Z ) P(X
) F( ) P(Z )
X
P( ) P(X
= < < = < < = <
= = < = > = + >
= < = <

= + <
k k k k k k
k k k k k
k k k k






24 Introducere n statistica multivariat
unde k este o constant pozitiv
Ultima relaie este util prin aceea c exprim probabilitatea cu care valorile v.a. X se abat de la
medie cu mai puin de k abateri standard. Cantitatea 2F(k)1, exprimat eventual procentual,
este numit uneori siguran statistic. Poate fi interpretat ca o msur a ncrederii n faptul c
v.a. X ia valori n intervalul menionat.
Repartiia
2

Cunoscut, sub influena literaturii n limba englez i a programelor de calculator, i sub
numele de repartiia CHI2, repartiia
2
este utilizat mai mult n testarea ipotezelor statistice
dect ca model statistic. Din acest motiv vom defini repartiia
2
drept repartiia unei v.a. care se
obine ca suma ptratelor unor v.a. independente repartizate normal standard, adic:
dac Z
1
, Z
2
, , Z

sunt variabile aleatoare independente, fiecare cu


repartiia N(0;1), atunci variabila aleatoare
2 2
2
2
1
2
Z Z Z

+ + + = K
are o repartiie
2
cu grade de libertate.
Singurul parametru al repartiiei
2
este numrul gradelor de libertate. n general, prin numrul
gradelor de libertate asociate unei entiti se nelege numrul variabilelor independente a cror
variaie nu sufer nici o restricie i care definesc mrimea considerat.
Principalii indicatori statistici sunt
. 2 ) ( D
, ) M(
2 2
2


=
=

Notm quantila de ordin a unei v.a. repartizate

2
prin
2
,
. Deoarece nu exist ramura negativ
a repartiiei se obinuiete s se noteze quantilele
ntr-un mod inversat, adic . ) P(
2
,
2


= >
Graficul este o curb descresctoare pentru = 1
sau = 2, iar pentru > 2 are un punct de maxim
n punctul de abscis x = 2.
Repartiia Student (t)
Repartiia Student este utilizat n testarea ipotezelor statistice i a aprut datorit necesitii de a
compensa lipsa de informaie, privind atributele unei populaii statistice, prin acceptarea unor
probabiliti mai mari de eroare (a se vedea prezentarea testelor statistice). Repartiia Student
(denumit i repartiia t) depinde de un singur parametru, numit numrul gradelor de libertate i
notat cu . Se noteaz S() sau t

.

Repartiia este simetric fa de 0 i se observ c, spre deosebire de repartiia normal, valorile
extreme au probabiliti mai mari de realizare (ariile de sub grafic sunt mai mari)
Noiuni recapitulative 25
Dintre rezultatele importante care privesc repartiia t menionm:
Dac X este repartizat normal standard, X~N(0;1), iar Y este repartizat
2

cu grade de libertate, Y ~
2

, atunci v.a. Z obinut prin


Y
X
Y
X
Z

= =

este repartizat Student cu grade de libertate.
Indicatorii statistici principali ai unei v.a. t ~ t

sunt
. 2 pentru ,
2
) (
0 ) (
2
>

=
=


t D
t M

Dac > 30, atunci D
2
(t) devine aproximativ egal cu 1 iar densitatea de probabilitate se apropie
foarte mult de aceea a unei v.a. normale reduse. Acest fapt permite ca, pentru aplicaiile practice,
repartiia Student cu mai mult de 30 de grade de libertate s fie aproximat cu o repartiie N(0;1).
Quantilele distribuiei se noteaz cu t
;
.
Repartiia Fisher-Snedecor (F)
Repartiia F este introdus ca o repartiie util n testarea ipotezelor statistice privind compararea
a dou dispersii. Repartiia F depinde de doi parametri,
1
i
2
, ambii avnd semnificaia unor
grade de libertate. Notaia uzual este F(
1
,
2
) sau F
1; 2
. Dac repartiia se refer la o variabil
aleatoare care se obine drept ctul altor dou v.a., atunci
1
este numrul gradelor de libertate
pentru numrtor i
2
este numrul gradelor de libertate pentru numitor.
Dintre rezultatele importante legate de repartiia F menionm teorema, luat uneori ca definiie
pentru o v.a. repartizat FisherSnedecor:
Dac Y
1
i Y
2
sunt dou variabile aleatoare independente repartizate 2, cu
1

i, respectiv,
2
grade de libertate, atunci v.a. X definit prin
1 2
2 1
2
2
1
1
Y
Y
Y
Y
X

= =

are o repartiie F cu
1
i
2
grade de libertate.
Forma repartiiei F depinde de valorile parametrilor, o imagine orientativ este dat n figura
urmtoare.

26 Introducere n statistica multivariat
Quantilele repartiiei F, notate F
;1;2
, sunt tabelate pentru diferite valori uzuale ale lui i
diferite grade de libertate. Repartiia F nu este simetric, ntre quantile exist relaia
.
F
1
F
2 1
2 1
; ;
; ; 1


=


Inferena statistic
Prin inferen nelegem, potrivit definiiei de dicionar, operaiunea intelectual prin care se
trece de la un enun la altul, acceptarea adevrului ultimului enun bazndu-se pe legtura logic
cu enunurile anterioare, acceptate ca adevrate.
Prin inferen statistic se nelege, n sensul precizat anterior, obinerea de concluzii bazate pe
o eviden statistic, adic pe informaii derivate dintr-un eantion. Concluziile sunt asupra
caracteristicilor populaiei din care provine eantionul.
Observaie. Dac este investigat ntreaga populaie, atunci rezultatele care se obin constituie
finalul prelucrrii i nu sunt necesare (i nici posibile) prelucrrile introduse n aceast seciune.
Prin eantion (sau selecie) vom nelege o submulime a populaiei statistice considerate. O
cercetare statistic are ntotdeauna ca obiect un eantion finit. De obicei, termenul de eantion
presupune c eantionul este i reprezentativ, adic informaia aferent eantionului este n
concordan cu informaia caracteristic populaiei statistice. Reprezentativitatea unui eantion
depinde de modul de selectare a elementelor constitutive i nu exist, practic, instrumentul care
s spun c un eantion este sau nu reprezentativ n absena informaiilor privind populaia. Ceea
ce se poate face, n mod raional, este s se aleag acele metode de constituire a unui eantion
care au anse mai mari s produc eantioane reprezentative.
Operatiunea de formare a unui eantion se numete sondaj. Sondajele care au anse mai mari de
a produce eantioane reprezentative sunt cele bazate pe proceduri de selecie aleatoare.
In eantioane diferite, statisticile calculate au valori diferite. n acest fel se poate vorbi despre o
distribuie a valorilor statisticii n mulimea eantioanelor de un acelai volum; apare astfel
distribuia de sondaj a statisticii respective.
Inferena statistic implic trei distribuii asociate cu caracteristica studiat:
distribuia populaiei;
distribuia de sondaj;
distribuia eantionului.
Prin distribuia populaiei se nelege distribuia pe care o are caracteristica studiat (sau v.a.
asociat ei) n populaie. Aceast distribuie nu este, n general, cunoscut. Interesul unei
cercetri este tocmai acela de a studia aceast distribuie.
Prin distribuia eantionului se nelege distribuia pe care o are caracteristica studiat n
eantionul disponibil n studiu. Aceast distribuie este cunoscut complet, ntruct toate datele
necesare sunt msurate.
Prin distribuia de sondaj a unei statistici se nelege distribuia pe care o are statistica n
mulimea tuturor eantioanelor de volum dat. Aceast distribuie nu este cunoscut i conine
mai multe valori dect populaia de baz.
Este ns remarcabil faptul c, din considerente teoretice, ntre distribuia populaiei i distribuia
de sondaj exist legturi bine precizate sau, datorit unor teoreme de limit central, se cunoate
forma acestei distribuii atunci cnd volumul eantionului crete (tinde spre infinit).
Inferena statistic urmeaz, n general, urmtorul algoritm:
se obine, printr-un procedeu valid, un eantion;
se calculeaz o valoare tipic a eantionului (o statistic de sondaj);
Noiuni recapitulative 27
din considerente teoretice, se cunoate repartiia din care provine aceast valoare tipic i
relaia repartiiei de sondaj a statisticii cu valoarea tipic din populaie;
utiliznd repartiia de sondaj a statisticii se pot face evaluri ale erorilor de estimaie.
Primele dou etape (sondajul, calcularea statisticii) pot fi interpretate ca i cum s-a extras la
ntmplare o valoare (valoarea calculat) dintr-o repartiie cunoscut cel puin parial (repartiia
de sondaj a statisticii). Prin ultima etap se termin procesul prin care, plecnd de la un eantion,
ajungem la afirmaii asupra parametrilor populaiei i la o evaluare a probabilitilor de apariie a
erorilor. Este de remarcat faptul c nu se tie dac exist sau nu erori, dar se pot evalua
probabilitile de apariie ale diverselor erori.
Se consider, pentru exemplificarea procesului de inferen statistic, cazul mediei aritmetice.
Fie o populaie statistic i o caracteristic continu X cu parametrii M(X) = i D
2
(X) =
2
.
Repartiia variabilei X este necunoscut (deci nu sunt cunoscute , , forma distribuiei sau
numai unele dintre aceste atribute). Din populaia respectiv se extrage un eantion de volum n,
fie acesta x
1
, x
2
, , x
n
, i se calculeaz media aritmetic x . Este evident c se dorete ca aceast
valoare s fie utilizat drept estimaie a mediei populaiei, .
Repartiia de sondaj a mediei este caracterizat de
. ) D( , ) ( D , ) M(
2
2
n
x
n
x x

= = =

Forma repartiiei de sondaj a mediei este determinat de rezultatele:
dac X este repartizat normal, atunci media de sondaj este repartizat de asemenea
normal, cu parametrii precizai mai sus, indiferent de volumul eantionului
(demonstraie imediat)
dac nu se cunoate repartiia lui X, atunci teorema limit central afirm c repartiia
de sondaj a mediei devine normal la limit, pentru volum foarte mare al
eantionului.
Practic, se poate accepta o repartiie N(;
2
/n)
pentru n > 10 dac repartiia lui X este aproape simetric, sau
pentru n > 30 pentru repartiii cu asimetrie pronunat sau necunoscut.
Astfel, obinerea valorii medii x este echivalent cu a extrage la ntmplare o valoare dintr-o
repartiie normal, deci probabilitile pot fi calculate utiliznd repartiia normal. Deoarece se
tie c o valoare, extras la ntmplare, dintr-o repartiie normal, are ans cu att mai mare s
fie apropiat de medie cu ct dispersia este mai mic, rezult c media calculat este cu att mai
aproape de cu ct dispersia ei,
2
/n, este mai mic. Se observ astfel c pentru o populaie cu
o variabilitate mare este necesar s efectum studii pe eantioane mai mari (n mai mare produce
micorarea dispersiei de sondaj a mediei) dect pentru populaii cu variabilitate mai mic.
Utiliznd repartiia normal, se pot atunci calcula probabilitile cu care pot aprea diverse erori,
ajungndu-se la aseriuni probabiliste de genul:
683 . 0 ) | (| = < x P
adic exist o probabilitate de 68.3% ca media de sondaj s difere de media populaiei cu mai
puin de o abatere standard (eroarea de estimaie este mai mic de o abatere standard cu o
probabilitate de 68.3%).
Estimaii
Se numete estimator orice entitate a crei valoare poate fi utilizat drept valoare (de regul
aproximativ) pentru o alt entitate. Valoarea estimatorului se zice c este o estimaie. Avnd ca
suport situaia n care informaia dintr-un eantion este utilizat pentru a obine informaii asupra
unei populaii, este evident c estimatorii utilizai n statistic sunt valorile tipice de sondaj (cele
calculate n eantion).
28 Introducere n statistica multivariat
Valoarea care aproximeaz, pe baza datelor de sondaj, valoarea necunoscut a unui parametru al
populaiei poart denumirea de estimaie statistic.
Astfel, media aritmetic este estimator pentru media populaiei , abaterea standard s este
estimator pentru abaterea standard a populaiei etc.
Dup natura lor, n statistic se utilizeaz dou tipuri de estimaii:
punctuale
sub form de interval.
Ambele categorii de estimaii se nscriu pe linia extinderii simului comun prin raionamentul
statistic. Astfel n viaa curent se ntlnesc dou moduri de precizare numeric a unei situaii:
indicarea unei valori (afar sunt 5 grade), sau indicarea unui interval (afar sunt ntre 3 i 6
grade).
Printr-o estimaie punctual se nelege valoarea unui estimator calculat ntr-un eantion.
Numim eroare de estimare valoarea absolut a diferenei dintre estimaia punctual i valoarea
parametrului. Deoarece nu se cunoate valoarea parametrului este practic imposibil s se
calculeze eroarea de estimare. Pentru estimatori particulari se pot obine judeci probabiliste pe
baza repartiiei de sondaj (a se vedea exemplul de la medie).
Deoarece aprecierea erorilor de estimare posibile, n cazul estimaiile punctuale, este suficient de
laborioas, s-a ncercat dezvoltarea unei metode, care s pun accentul pe probabilitile de
apariie ale erorilor. Aceast metod generic este metoda determinrii intervalelor de ncredere,
sau metoda de estimare sub form de interval. Fie o populaie statistic, caracterizat de o v.a.
continu X a crei repartiie depinde de un parametru , necunoscut. Problema este ca, pornind
de la datele de sondaj ale unui eantion de volum n, s se determine dou limite ntre care
valoarea parametrului s se afle cu o probabilitate fixat. Adic s se determine dou statistici,

1
i
2
, astfel nct p = < < ) P(
2 1
, unde p este o probabilitate independent de
parametrul .
Prin definiie, dac se pot determina
1
i
2
astfel nct pentru o valoare prestabilit (0 < <
1) s aib loc = < < 1 ) P(
2 1
, atunci intervalul (
1
,
2
) se numete interval de
ncredere pentru parametrul necunoscut cu un coeficient (sau nivel) de ncredere egal cu , sau
cu o siguran statistic S

= 1.
Valoarea se numete nivel (sau prag) de semnificaie. Utilizarea termenului semnificaie este
explicat n seciunea dedicat testelor statistice.
Din punctul de vedere al estimrii, eroarea de estimare este egal, cel mult, cu jumtatea
intervalului de ncredere. Este de dorit astfel ca intervalul de ncredere s aib o lungime ct mai
mic pentru ca estimarea s fie mai precis. Dac valoarea parametrului este fixat, o dat cu
populaia, limitele intervalului de ncredere depind de eantionul ales, deci sunt limite aleatorii.
Se va subnelege atunci c nu putem avea certitudinea c valoarea parametrului este n
intervalul determinat. Raionamentul corect este acela c dac se repet procedeul pentru
eantioane diferite, atunci 100(1)% dintre intervalele determinate vor conine valoarea
necunoscut a parametrului (evident c nu se va ti care sunt acele intervale).
Apare atunci necesitatea ca s fie ct mai mic, dar o dat cu micorarea lui se mrete
lungimea intervalului, deci erorile de estimare sunt mai mari. Uzual se alege = 0,05 sau =
0,01.
Dac att
1
ct i
2
sunt finite, atunci intervalul de ncredere se zice bilateral. n cazul cnd
1

este -, sau
2
este +, ceea ce revine n fapt la determinarea unei singure limite, intervalul se
zice unilateral.
Relaia dintre nivelul de ncredere i lungimea intervalului este evident chiar la nivelul simului
comun. O afirmaie de genul afar sunt ntre 10 i 20 de grade are anse mai mari s fie mai
apropiat de adevr (s fie mai credibil, s prezinte mai mult ncredere) dect o afirmaie de
Noiuni recapitulative 29
genul afar sunt ntre 14 i 16 grade. A doua afirmaie, dac este adevrat, este mai precis.
Precizia i ncrederea sunt dou noiuni oarecum contrare i compromisul ntre ele conduce la o
stare acceptabil statistic.
Intervale de ncredere pentru valoarea medie
Fie o populaie statistic caracterizat de o v.a. X repartizat normal, cu parametrii i
2
.
Presupunem c s-au obinut, dintr-un eantion de volum n, media de sondaj x i dispersia de
sondaj s
2
. Fixm pragul de semnificatie . Limitele unui interval de ncredere depind att de
eantion, ct i de cunoasterea, sau nu, a dispersiei populaiei.
Dac dispersia,
2
este cunoscut, intervalul de ncredere pentru media populaiei:
,
2
1
2
1


+ < < z
n
x z
n
x

Dac dispersia,
2
, nu este cunoscut


2; / 1 ; 2 / 1
+ < < t
n
s
x t
n
s
x

Intervale de ncredere pentru dispersie
Fie o populaie normal, sau aproximativ normal, cu parametrii i
2
necunoscui. Se
demonstreaz c intervalul de ncredere bilateral pentru dispersia populaiei, cu ncrederea
statistic de 1, este dat de
,
) 1 ( ) 1 (
2
; 2 /
2
2
2
; 2 / 1
2

s n s n
< <


unde n este volumul eantionului,
2
este dispersia de sondaj, iar

; 2 /
i

; 2 / 1

sunt quantilele de ordin /2, respectiv 1- /2, ale repartiiei
2
cu = n1 grade de libertate.
Testarea ipotezelor statistice
Fr a ncerca o generalizare neadevrat, se poate accepta ideea c, n cele mai multe prelucrri
statistice, datele sunt obinute i prelucrate pentru a verifica ipoteze ale cercettorilor. Deci, ca o
prim imagine a subiectului, trebuie reinut secvena:
1. formularea unei ipoteze;
2. obinerea de date experimentale;
3. verificarea ipotezei pe baza acestor date.
Analiza secvenei anterioare arat c problematica se nscrie tot n inferena statistic, deoarece
1. ipotezele trebuie s priveasc populaiile statistice,
2. datele experimentale presupun eantioane reprezentative,
3. verificarea trebuie s conduc la afirmaii privitoare la populaii.
Prin ipotez, dicionarele definesc uzual o presupunere, explicaie provizorie, enunat pe baza
unor fapte cunoscute, cu privire la esena, cauza, legea, mecanismul intern al unui fenomen i
care este supus verificrii sau demonstrrii. Se va utiliza ipotez statistic deoarece verificarea
se face pe baza evidenei statistice, deci pe baza informaiilor obinute, n general, din
eantioane.
Datorit educaiei (n general) deterministe, ne ateptm ca testarea, verificarea unei ipoteze s
fie o procedur riguroas n sensul c, n final, putem spune c ipoteza este fals sau c este
adevrat. In realitate, din motive metodologice valide, procesul verificrii este mai complicat.
El este bazat pe criteriul falsificabilitii (Karl Popper) care afirm c n timp ce este posibil s
determinm cnd o ipotez este fals, este mult mai dificil, dac nu imposibil, s demonstrm c
30 Introducere n statistica multivariat
o ipotez este adevrat. Dac evidena empiric, a datelor, este contrar ipotezei, atunci ipoteza
este fals (ipoteza poate fi respins). Dac evidena coincide cu ipoteza, nu rezult n mod
necesar c ipoteza este adevrat. n acest caz, singurul lucru rezonabil care se poate afirma este
acela c evidena disponibil nu a artat falsitatea ipotezei (ipoteza nu poate fi respins).
Vom considera semnificativ un eveniment care contrazice ipoteza de plecare. Sensul se apropie
de sensul curent prin aceea c falsificnd ipoteza de pornire se permite acceptarea unei alte
ipoteze, n acest fel dezvoltndu-se procesul general de cunoatere a realitii.
Raionamentul general
Acceptm ca un dat urmtorul enun: In lumea real au loc evenimentele cu probabiliti mari
de realizare. Comentariu: Nu nseamn c se neag apariia evenimentelor cu probabiliti foarte
mici, chiar nule, de realizare. Aseriunea se refer doar la faptul c ntreg comportamentul nostru
este bazat pe previziuni care se bazeaz pe apariia evenimentelor cu probabiliti suficient de
mari de realizare. Pornind de la aceast afirmaie se poate nsui mecanismul de realizare a unui
test statistic urmrind schema din tabel (sincronizarea dintre coloane are loc prin aezarea pe o
aceeai linie).
Lumea real Statistic
Se formuleaz setul de ipoteze H
0
, H
1

Are loc un eveniment Se calculeaz, dintr-un eantion, o statistic (statistica
testului).
Se calculeaz, n ipoteza H
0
, probabilitatea p
c
de
apariie a valorii calculate (probabilitatea critic a
testului, p-value).
Rezult c probabilitatea
de realizare este
suficient de mare
Dac p
c
este mic, apare o contradicie,
Pentru a rezolva contradicia se va respinge H
0
n
favoarea ipotezei H
1
deoarece motivul pentru care
probabilitatea critic este mic este faptul c la calculul
acesteia s-a acceptat ipoteza H
0
.
Dac p
c
este mare, nu se respinge H
0
, nu exist nici un
motiv pentru a lua decizia contrar.
Rmne o singur ntrebare: ncepnd de unde o probabilitate este considerat drept mic?
Rspunsul nu poate fi lsat la latitudinea fiecrui utilizator, fiecare avnd criterii diferite de
apreciere. Pentru a nu introduce subiectivismul n aceast decizie, se fixeaz, anterior deciziei n
test, un prag sub care o probabilitate este considerat mic. Aceast valoare se numete prag
de semnificaie i se noteaz uzual cu . Denumirea este justificat prin faptul c valoarea
desparte evenimentele semnificative (care conduc la respingerea ipotezei nule) de cele
nesemnificative (care nu permit respingerea ipotezei nule).
Regula de decizie n test poate fi formulat atunci:
dac p
c
, atunci se respinge ipoteza nul, H
0
, n favoarea ipotezei alternative,
H
1
;
dac p
c
> , atunci nu se respinge ipoteza nul H
0
.
De reinut exprimarea nu respingem H
0
n loc de acceptm H
0
, ultima avnd mai mult sensul
atribuirii valorii de adevr lui H
0
, sens care nu este corect. Se poate utiliza i formularea
tolerm H
0
, care las loc unei urme de ndoial, atitudine corect n sensul discuiei de pn
acum.
Noiuni recapitulative 31
Numim regiune de respingere, pentru un nivel de semnificaie fixat, mulimea rezultatelor
(valorilor statisticii testului) care conduc la respingerea ipotezei H
0
. Dac se pot defini limitele
numerice ale regiunii de respingere, acestea se vor numi, uneori, valori critice ale testului.
Sintetiznd ideile expuse se poate stabili c procedura de testare a unei ipoteze statistice (pe
scurt un test statistic) const n:
formularea unei ipoteze H
0
i a unei ipoteze alternative H
1
;
obinerea de date statistice;
calcularea unei statistici din datele experimentale, statistic pentru care se tie
repartiia n ipoteza H
0
;
decizia pe baza
o probabilitii critice i a nivelului de semnificaie sau a
o regiunii de respingere corespunztoare nivelului fixat.
Testele pot fi
parametrice = ipoteza H
0
este strict legat de un parametru al populaiei, iar
statistica testului are o repartiie cunoscut tocmai din aceast ipotez.
neparametrice = repartiia statisticii testului se calculeaz i nu rezult din
presupuneri apriorice asupra acestei distribuii i a probabilitilor ataate.
Testele parametrice pot fi ( noteaz un parametru al populaiei):
bilaterale (nedirecionale)
H
0
: =
0

H
1
:
0

unilaterale (direcionale)
H
0
: =
0

H
1
: < (sau >)
0

Un test statistic are, de multe ori, o denumire dat de repartiia statisticii testului: teste normale
(sau Z), teste Student (sau t), teste F etc. Astfel, un test
2
reprezint un test a crui statistic are
o repartiie de sondaj din clasa
2
. Cunoaterea repartiiei statisticii testului permite calcularea
regiunilor de respingere sau a probabilitilor critice. Spre exemplificare, regiunile de respingere
pentru un test normal sunt prezentate n figura urmtoare.:

Avnd n vedere semnificaia quantilelor repartiiei normale standard, se poate preciza c
regiunile de respingere a celor trei teste sunt:
pentru testul bilateral zona I zona II;
pentru testul unilateral cu < zona III;
pentru testul unilateral cu > zona IV.
Erori posibile n decizie
Am accentuat c nu se pune problema obinerii unor certitudini n problemele analizate. Rezult
c se pot produce erori n procesul de decizie al unui test statistic.
Erorile pot fi de dou tipuri:
respingerea ipotezei nule, H
0
, dei H
0
este adevrat; aceste erori se zic erori de
tip I, sau erori de spea ntia.
32 Introducere n statistica multivariat
tolerarea (nerespingerea) ipotezei nule, H
0
, dei ea este fals; aceste erori se zic
erori de tip II, sau erori de spea a doua.
Dificultatea este aceea c nu exist nici un mijloc practic de a cunoate dac am luat o decizie
corect sau dac am fcut o eroare i de ce tip este eroarea. Singurul mod raional n care putem
aciona n asemenea situaii este acela de a minimiza riscul de a produce erori. Se observ
imediat c pragul de semnificaie msoar riscul de prima spe, adic riscul de a produce o
eroare de tip I. ntr-adevr, statistica testului ia cu probabilitatea , n condiiile ipotezei nule
adevarate, valori n regiunea de respingere, ceea ce conduce la respingerea ipotezei nule, deci la
producerea unei erori de tip I. Ar prea necesar atunci ca nivelul de semnificaie s fie ct mai
mic. Acest fapt nu este adevrat pentru c micorarea riscului de prima spe duce la mrirea
riscului de spea a doua. Notm c riscul de spea a II-a depinde de , de reprezentativitatea
eantionului, volumul acestuia etc.
Se definete puterea unui test ca 1, unde este riscul de spea a doua, adic riscul de a tolera
ipoteza nul dei ea este fals. Se poate interpreta puterea testului drept capacitatea lui de a
distinge o ipotez fals.
Rezult c pentru un test se va urmri
s se minimizeze riscul de spea I i
s se maximizeze puterea testului (s se minimizeze riscul de spea II).
Considerente teoretice, dar mai ales practice, au impus valorile = 0,05 sau = 0,01.
Categorii de teste
Testele sunt clasificate n teste pentru variabile continue i teste pentru variabile discrete
(nominale sau ordinale). Primele sunt, de regul, teste parametrice, celelalte sunt neparametrice.
Este inadecvat s se utilizeze teste proiectate pentru date continue la date discrete. Invers este
posibil prin aceea c, pe de o parte, se pot discretiza variabilele continue, iar pe de alt parte,
testele neparametrice sunt mai puin restrictive la condiiile de aplicare ori, de multe ori,
restriciile impuse de un test parametric nu sunt ndeplinite.
Reversul medaliei este acela c testele neparametrice sunt mai puin sensibile la diferene dect
testele parametrice.
Teste de concordan
Aceste teste se refer la potrivirea, concordana dintre valorile calculate n eantion (statisticile
de sondaj) i valorile parametrilor respectivi din populaia statistic (valori cunoscute sau
presupuse). Cu alte cuvinte, problema poate fi formulat: ct de mult poate s se abat o valoare
calculat (dintr-un eantion) de la valoarea presupus pentru ntreaga populaie pentru a putea
considera c are loc o nepotrivire ntre cele dou valori?
Dei formulat astfel problema pare c se refer la eantion i la populaia de baz, punctul de
vedere corect este:
1. exist o populaie statistic de interes, fie ea P
1
;
2. pentru orice eantion se poate considera o populaie de baz din care este extras
eantionul (reprezentativ pentru acea populaie); fie P
2
aceast populaie;
3. problema este dac se poate considera c P
2
este n concordan cu P
1
, adic
parametrii de interes ai celor dou populaii nu difer semnificativ.
Se observ c testarea se va efectua pentru ipoteze privind populaii, se va utiliza informaia
dintr-un eantion, deci rmnem n domeniul inferenei statistice.
Ipoteza nul va afirma, n general, c populaiile P
1
i P
2
concord. Respingerea ipotezei nule
poate avea, n practic, dou consecine:
se va considera c eantionul nu este reprezentativ pentru populaia de interes, populaie
care se consider stabil; se va cuta un alt eantion;
Noiuni recapitulative 33
sau
se va considera c populaia P
1
i-a modficat ntre timp parametrii; noua populaie de
referin este P
2
.
Alegerea ntre cele dou afirmaii aparine practicianului din domeniul studiat, fiind, de cele mai
multe ori, o alegere ghidat de intuiie, de experien etc.
Testul erorii standard a mediei
Fie P
1
populaia statistic de interes, caracterizat de media
0
(cunoscut sau presupus) i de
abaterea standard (cunoscut). ntrebarea este dac valorile tipice de sondaj susin ipoteza c
eantionul este din populaia P
1
, accentul fiind pus pe media populaiei.
n testul erorii standard a mediei se presupune c sunt ndeplinite condiiile care asigur mediei
de sondaj o repartiie normal sau aproape normal:
caracteristica studiat este repartizat normal sau
eantionul este mare (n30).
In aceste condiii, media de sondaj urmeaz o repartiie normal N(,
2
/n), unde este media
populaiei (notat n introducerea seciunii cu P
2
) din care provine eantionul. Pentru P
2
se
presupune aceeai abatere standard (se studiaz modificarea mediei unei populaii). Rezult c
variabila transformat
n
x x
x

= Z

este repartizat normal standard i poate fi utilizat pentru calcularea probabilitilor necesare.
Ipotezele testului erorii standard a mediei sunt
pentru testul bilateral:

=
0 1
0 0
: H
: H
(A)




pentru testele unilaterale:

>
=

<
=
0 1
0 0
1
'
1
0 0
: H
: H
(C) sau
: H
: H
(B)






n condiiile ipotezei nule, =
0
, rezult c transformata Z a mediei de sondaj devine
n

0
x
Z

=

n care toate valorile sunt cunoscute i prin urmare poate fi localizat pe curba densitii de
probabilitate normal standard.
Pentru a aplica acest test este necesar s se cunoasc i, prin urmare, situaia practic de
referin este aceea n care se studiaz dac o populaie statistic, constant ca variabilitate, i-a
meninut, sau nu, valoarea medie. Deoarece, n general, nu se poate ti cu siguran c repartiia
caracteristicii studiate este riguros normal, acest test se utilizeaz pentru eantioane mari.
Acest test este referit i ca testul Z de concordan, datorit utilizrii unei statistici repartizate
normal standard..
Testul de concordan Student (t)
Atunci cnd nu se cunoate abaterea standard a populaiei, , se va utiliza estimaia s, abaterea
standard de sondaj, n locul lui , iar repartiia statisticii testului va fi repartiia Student. Pentru
caracteristica studiat se presupune, ns, o repartiie normal (cu parametri necunoscui) sau
apropiat de o repartiie normal.
Ipotezele testului sunt aceleai cu seturile de ipoteze anterioare (A), (B), (C).
Statistica testului este similar statisticii din testul erorii standard a mediei, cu excepia faptului
c n loc de se utilizeaz estimaia s:
34 Introducere n statistica multivariat
n
s
x
0
t

=

Dac ipoteza nul, H
0
: =
0
, este adevrat, atunci variabila t urmeaz o repartiie Student cu
= n1 grade de libertate i se poate aplica o regul uzual de decizie n test.
Teste de comparare
Categoriile de teste prezentate aici se bazeaz, aparent, pe compararea datelor de sondaj care
aparin la dou eantioane. Cum ansa de a se obine dou eantioane identice este extrem de
redus, problema comparrii eantioanelor, luat n sensul strict al cuvntului, pare
neimportant.
Un test de comparare trebuie, ns, nscris n inferena statistic: fie dou eantioane extrase din
dou populaii P
1
i P
2
respectiv. Prin utilizarea eantioanelor se dorete de fapt compararea
celor dou populaii.
Dificultatea procedurii const n aceea c diferenele dintre cele dou eantioane, ca i
similaritatea lor, se pot datora:
diferenelor dintre populaii, i/sau
diferenelor de sondaj dintre eantioane.
Situaii de aplicare a testelor de comparare
Cazul I. Populaii diferite sunt comparate pentru a decide dac o anumit caracteristic este
repartizat la fel n cele dou populaii.
Procedura are sens dac ntre populaii exist ct mai multe atribute comune, ceea ce le atribuie
caracterul de subpopulaii ale unei populaii mai vaste. Identificarea celor dou populaii se face
pe baza unei variabile de clasificare, n general nominal. Situaia poate fi gndit i ca studiul
asocierii ntre variabila testat i variabila de clasificare.
Cazul II. Aceeai populaie este evaluat la momente diferite de timp sau n situaii, condiii
diferite.
Evaluarea se efectueaz prin eantioane diferite sau nu. n general, un eantion este supus la un
experiment, tratament etc. i este denumit uzual grup experimental. Cellalt eantion nu este
supus experimentului i joac rolul de grup de control. Compararea efectuat ntre cele dou
eantioane are drept scop stabilirea efectului experimentului efectuat. Ca rezultat,
Dac diferenele observate sunt apreciate ca prea mari, atunci se va considera c
faptul nu se poate datora operaiunii de sondaj (ntmplrii), ci reflect o
difereniere ntre populaii.
Dac diferenele sunt mici, atunci nu se poate susine, pe baza datelor de sondaj
analizate, diferena dintre cele dou populaii.
O noiune important este aceea de independen a eantioanelor:
Se spune c dou eantioane sunt independente, sau necorelate, dac selectarea elementelor
unui eantion nu este influenat i nici nu influeneaz selectarea elementelor celuilalt eantion.
n caz contrar se zice c eantioanele sunt dependente, corelate, sau perechi.
Testele statistice de comparare sunt difereniate att dup natura variabilelor (continue, discrete),
ct i dup natura eantioanelor (independente, dependente). Se prezint, n continuare doar un
test de comparare pentru dispersii i unul de comparare a mediilor.
Testul F
Compararea mediilor populaiilor normale ia n considerare mprtierea datelor n cele dou
populaii. Este important atunci s se cunoasc dac dispersiile celor dou populaii pot fi
considerate egale, sau nu. Acest fapt se decide utiliznd testul F, bazat pe repartiia teoretic F
(FisherSnedecor).
Situaia poate fi recunoscut prin:
Noiuni recapitulative 35
dou populaii, caracterizate de variabilele X
1
i X
2
, respectiv;
variabilele sunt repartizate normal, ) ; N( ~ X
2
1 1 1
, ) ; N( ~ X
2
2 2 2
;
din dou eantioane, unul din fiecare populaie, dispunem de estimaiile
2
1
s i
2
2
s ale
dispersiilor populaiilor; eantioanele au volume
1
n i
2
n , respectiv.
Ipotezele testului F sunt att de tip bilateral ct i de tip unilateral.
Testul bilateral:

=
2
2
2
1 1
2
2
2
1 0
: H
: H
(A)



Teste unilaterale:

<
=
2
2
2
1
'
2
2
2
1 0
: H
: H
(B)
1


;

>
=
2
2
2
1
"
2
2
2
1 0
: H
: H
(C)
1



Cnd ipoteza nul este adevrat, atunci statistica
2
2
2
1 *
s
F
s
=
este repartizat F cu 1
1 1
= n i 1
2 2
= n grade de libertate, nct se pot utiliza valorile
tabelate pentru F(
1
;
2
) pentru determinarea probabilitilor critice.
Pentru simplificarea deciziei n test, n practic se utilizeaz o statistic uor modificat prin
considerarea ca prim populaie, P
1
, a populaiei pentru care dispersia de sondaj este mai mare:
) , ( min
) , ( max
F
2
2
2
1
2
2
2
1
s s
s s
=
n aa fel nct sunt utilizabile doar testele (A) i (C). n acest caz se noteaz cu
max
numrul
gradelor de libertate pentru numrtor i cu
min
numrul gradelor de libertate pentru numitor.
Decizia, la nivelul de semnificaie , pentru testul bilateral (A):
se respinge ipoteza nul H
0
n favoarea ipotezei alternative H
1
dac
min max min max
; ; 2 / ; ; 2 / 1
F sau F

F F < >


Decizia, la nivelul de semnificaie , pentru testul unilateral (C):
se respinge ipoteza nul H
0
n favoarea ipotezei alternative
'
1
H dac
min max
; ; 1
F

> F
Teste t de comparare
Compararea mediilor a dou populaii se realizeaz prin teste de comparare t. Sunt utilizate
frecvent trei asemenea teste, difereniate de situaia existent ntre dispersiile populaiilor i
independena eantioanelor:
eantioane independente, dispersii egale,
eantioane independente, dispersii neegale,
eantioane dependente (perechi, corelate).
Este prezentat doar unul dintre teste, testul Student pentru eantioane independente i abateri
standard egale.
36 Introducere n statistica multivariat
n cazul cnd nu se poate respinge ipoteza egalitii dispersiilor celor dou populaii, datorit
aplicrii unui test F sau datorit cunoaterii din alt surs a egalitii dispersiilor, situaia poate fi
schematizat prin:
populaia P
1
cu media
1
i dispersia
2
;
populaia P
2
cu media
2
i dispersia
2
(aceeai ca la P
1
);
variabil X repartizat normal n cele dou populaii, cu parametrii corespunztori
menionai;
un eantion din P
1
, de volum n
1
, cu media
1
x i dispersia
2
1
s ;
un eantion din P
2
, de volum n
2
, cu media 2 x i dispersia
2
2
s .
Eantioanele se presupun independente.
n condiiile enunate, cele de normalitate fiind importante, variabila
2 1
2 1
2 1
2
2 2
2
1 1
2 1
2 1
2
) 1 ( ) 1 (
) ( ) (
n n
n n
n n
s n s n
x x
t
+

+
+

=


are o repartiie Student cu = n1 + n2 - 2 grade de libertate. Aceast statistic permite
compararea cu o diferen prestabilit a mediilor populaiilor (deci cu o valoare fixat pentru
1

2
). n cele mai multe aplicaii reale se consider ns o diferen egal cu zero, adic egalitatea
mediilor. Ipotezele considerate n acest caz sunt:

=
2 1 1
2 1 0
: H
: H
(A)


, pentru testul bilateral,

>
=

<
=
2 1
"
1
2 1 0
: H
: H




(C) sau
: H
: H
(B)
2 1
'
1
2 1 0
, pentru test unilateral.
n cazul cnd ipoteza H
0
este adevrat, adic
1

2
= 0, expresia statisticii testului se
simplific devenind:
2 1
2 1
2 1
2
2 2
2
1 1
2 1
2
1) ( 1) (
n n
n n
n n
s n s n
x x
t
+

+
+

= .
Numitorul mai este notat
2 1
x x
s

i este referit ca eroarea standard a diferenei mediilor de
sondaj.
Regula de decizie este cea a unui test t:
se respinge H
0
n favoarea ipotezei H
1
(n testul bilateral A), dac
; 2 / 1
t t ;
se respinge H
0
n favoarea ipotezei
'
1
H (n testul unilateral B), dac
; 1
< t t ;
se respinge H
0
n favoarea ipotezei
"
1
H (n testul unilateral C), dac
; 1
> t t .
Numrul gradelor de libertate este = n
1
+ n
2
2.
Observaie. Celelalte teste t de comparare a mediilor difer prin formulele de calcul ale
statisticii testului i a gradelor de libertate, dar, din punct de vedere formal, ipotezele i modul de
decizie sunt aceleai.
Teste privind egalitatea dispersiilor unor populaii normale
Dei egalitatea unui numr de k dispersii apare la verificarea ipotezelor analizei dispersionale
unifactoriale, problema este de interes i n sine. A decide dac mprtierea valorilor se menine
constant este o procedur complementar verificrii egalitii mediilor, atunci cnd sunt
Noiuni recapitulative 37
considerate mai mult de dou (sub)populaii. Pentru cazul a dou populaii reamintim c se
utilizeaz un test F. Problema poate fi referit ca verificarea omogenitii dispersiilor.
Pentru fixarea ideilor, considerm un numr de k variabile aleatorii, X
i
, i = 1,2,,k, (k > 2),
repartizate normal ) ; N(
2
i i
, att mediile ct i dispersiile fiind necunoscute. Dispunem de
dispersiile de sondaj ,
2
2
2
1
, s s
2
,
k
s K , determinate din eantioane de volume
k
n n n , , ,
2 1
K , respectiv.
Trebuie ca, pe baza datelor de sondaj, s se verifice ipoteza omogenitii dispersiilor. Se
consider testul statistic cu ipotezele:
H
0
:
2 2
2
2
1 k
= = = K
H
1
: exist
2 2
care pentru ,
j i
j i (exist cel puin dou dispersii diferite)
Testul Bartlett
Acest test este utilizat ndeosebi atunci cnd volumele eantioanelor sunt diferite ntre ele.
Statistica testului este
(

=

= =
k
i
i i
k
i
i
s s
1
2
1
2
ln ln
c
1
B
unde:
, , , 2 , 1 , 1 k i n
i i
K = =
,
1 1
k n
k
i
i
k
i
i
= =

= =
,
1
1
2 2

=
=
k
i
i i
s s


.
1 1
) 1 ( 3
1
1
1
(

+ =

=

k
i i
k
c
Decizia n test este bazat pe faptul c, n condiiile ipotezei nule, cantitatea B este repartizat
2

cu k1 grade de libertate.
Prin urmare, dup logica general a unui test bazat pe o repartiie cunoscut, se respinge ipoteza
H
0
dac valoarea B calculat este mai mare sau egal cu quantila corespunztoare nivelului de
semnificaie fixat:
2
1 ; 1
B

k
.
n aceast situaie se poate considera c dispersiile nu sunt omogene. Pentru a decide care dou
dispersii sunt diferite se vor efectua teste F, comparnd dispersiile dou cte dou, de regul
dispersiile de sondaj extreme producnd respingerea ipotezei egalitii dispersiilor pentru
populaiile respective.
Dac nu este ndeplinit condiia de respingere a ipotezei nule, adic statistica B calculat este
mai mic dect quantila
2
1 ; 1 k
, atunci se va accepta c dispersiile sunt omogene, sau, n sensul
raionamentului statistic, c datele de sondaj disponibile nu permit respingerea omogenitii
dispersiilor.
Testul Levene
Testul Levene este mai puin sensibil dect testul Bartlett la abaterile de la normalitate a datelor.
Prin urmare, dac exist o eviden puternic a normalitii datelor, se impune utilizarea testului
Bartlett. Statistica testului este

= =
=


=
k
i
n
j
i
ij
k
i
i
i
i
z z k
z z n k n
W
1 1
2
1
2
) ( ) 1 (
) ( ) (

38 Introducere n statistica multivariat
unde
ij
z poate avea una dintre urmtoarele definiii:
1. i
ij ij
x x z = ,
2.
i ij ij
x x z
~
= , n care x
~
este mediana grupului i,
3.
'
i
ij ij
x x z = , n care
'
i x este media redus 10% a grupului i.
n care i z este media dup j a cantitilor
ij
z iar z este media general.
Cele trei posibiliti determin robusteea (capacitatea de a nu detecta n mod fals variane
neegale atunci cnd datele brute nu sunt normal distribuite i varianele sunt egale) i puterea
(capacitatea de a determina variane neegale atunci cnd ele sunt neegale) testului. Alegerea
optim este n funcie de repartiia datelor, n lipsa oricrei cunoateri fiind recomandat alegerea
variantei care implic mediana.
Decizia n test este bazat pe repartiia F, respingndu-se ipoteza egalitii dispersiilor dac
k n k
F W

, 1 , 1
.
Prelucrri statistice
Microsoft Excel
Pentru prelucrarea unui set de date memorat ntr-un document Excel se pot utiliza att funciile
statistice ale aplicaiei, ct i procedurile obinute prin Tools Data Analysis. Funciile statistice
uzuale sunt (n ordine alfabetic):
AVEDEV abaterea medie absolut
AVERAGE media aritmetic
BINOMDIST funcia de repartiie binomial
CHIDIST funcia de repartiie
2

CHIINV inversa funciei de repartiie
2

CHITEST aplicarea testului
2

CONFIDENCE intervalul de ncredere pentru
medie
FDIST funcia de repartiie F
FINV inversa funciei de repartiie F
FTEST aplicarea testului F
HARMEAN media armonic
KURT coeficientul de aplatizare
MIN, MAX valorile extreme din list
MEDIAN mediana
MODE valoarea mod
NORMDIST funcia de repartiie normal

NORMINV inversa funciei de repartiie
normal
NORMSDIST funcia de repartiie normal
standard
NORMSINV inversa funciei de repartiie
normal standard
PERCENTILE quantile
QUARTILE quartile
RANK rangul argumentului ntr-o list
SKEW coeficientul de asimetrie
STANDARDIZE valoarea standardizat a
argumentului
STDEV abaterea standard
TDIST funcia de repartiie Student, t
TINV inversa funciei de repartiie Student
TTEST aplicarea testului Student
VAR dispersia
Pentru a utiliza procedurile statistice, trebuie ca prin Tools AddIns s se verifice dac este
instalat utilitarul Analysis ToolPak. n caz afirmativ, comanda Tools Data Analysis va
deschide dialogul Data Analysis din care sunt accesibile o serie de prelucrri statistice conduse
de dialogurile asociate. Astfel Descriptive Statistics va produce indicatorii statistici ai unei
variabile continue, Random Number Generation va genera secvene de numere aleatorii
repartizate dup o funcie precizat, Rank and Percentile realizeaz atribuirea de ranguri,
Sampling produce un eantion din nregistrrile oferite etc.
Tot n partea de descriere statistic poate fi ncadrat i metoda de creare a cuburilor OLAP prin
Data Pivot Table, metod prin care se obin distribuiile simple sau multivariate ale unor
Noiuni recapitulative 39
variabile discrete sau indicatorii statistici eseniali ai subpopulaiilor. De asemenea, nu trebuie
uitat c toate procedurile legate de reprezentrile grafice sunt o parte a prelucrrii statistice
descriptive oferind grafice, histograme etc.
SPSS
Prelucrrile statistice din SPSS se realizeaz prin comenzile din meniul Analyze, sau prin
executarea comenzilor scrise n fereastra Syntax Editor. Deoarece efectuarea unei prelucrri
necesit operarea cu un numr de dialoguri specializate, pentru familiarizarea cu principalele
dialoguri care apar la comenzile de prelucrri statistice se prezint n continuare modul n care se
obin statisticile descriptive.
Distribuia de frecvene
Se selecteaz Analyze - Descriptive Statistics - Frequencies...
Apare dialogul urmtor n care se trec variabilele dorite din lista din stnga n lista din
dreapta (prin dublu click sau selectare i X).

Se marcheaz checkbox-ul Display frequency tables dac se doresc i tabelele de
frecvene calculate. In caz contrar trebuie s se opereze cu subdialogurile Statistics,
Charts pentru a obine rezultate.
La acionarea butonului Statistics, se afieaz dialogul Frequencies: Statistics n care se
pot activa opiunile corespunztoare indicatorilor de tendin central, mprtiere sau de
caracterizare a curbei distribuiei (evident c anumite statistici se pot calcula doar pentru
variabile de tipuri adecvate: interval, ordinal, nominal).

Subdialogul Charts permite construirea unui grafic
adecvat pentru un tabel de frecvene. Opiunea
Histograms with normal curve afieaz curba normal
suprapus peste histogram, util pentru aprecierea
deprtrii de la normalitate.

Subdialogul Format gestioneaz modul de afiare a
intrrilor tabelului de frecvene n Order by. n Multiple
variables se poate opta ntre un format care include
40 Introducere n statistica multivariat
toate variabilele selectate (pentru comparare trebuie ca variabilele s fie de acelai tip) i
un format n care fiecare variabil este raportat separat.

Prin OK n dialogul iniial se va genera n fereastra Viewer ieirea cerut.
Statisticile descriptive
O comand sintetic pentru statisticile descriptive ale variabilelor continue este Analyze -
Descriptive Statistics - Descriptives. Parametrii prelucrrii se fixeaz n urmtoarele dou
dialoguri.

Tabele de frecvene ncruciate
Obinerea tabelelor de frecvene ncruciate, utile la studiul asocierii dintre variabile, este
gestionat de comanda Analyze Descriptive Statistics Crosstabs, care iniializeaz dialogul
urmtor.

Se trec, prin acionarea butoanelor de trecere, variabilele dorite n lista Rows (tabelele vor avea
cte o linie pentru fiecare valoare distinct a variabilelor din aceast list) i n lista Columns
(tabelele vor avea cte o coloan pentru fiecare valoare distinct a variabilelor din aceast list).
Se va calcula i afia cte un tabel de frecvene ncuciate pentru fiecare combinaie de variabile,
cte una din fiecare list.
n cazul n care se doresc frecvene ncruciate pentru trei sau mai multe variabile, se utilizeaz
controlul Layer n care se vor trece variabilele de pe poziia a treia, se trece la layerul urmtor i
se repet procedura.
Subdialogul Statistics permite selectarea statisticilor calculate. Este evident necesar
cunoaterea tipului variabilelor, pentru a alege statisticile adecvate.
Noiuni recapitulative 41

Subdialogul Cell permite selectarea statisticilor calculate pentru fiecare celul a tabelului. Se
remarc n grupul Percentages posibilitatea de a calcula frecvene relative raportate la totalul de
pe linie, de pe coloan sau general. De asemenea, prin Count Expected se pot calcula
frecvenele implicate n calculul statisticii
2
.

Subdialogul Format gestioneaz doar ordinea de afiare a liniilor n funcie de valorile care le
genereaz.
42 Introducere n statistica multivariat
Analiza dispersional
Utiliznd teste de comparare, putem s comparm oricte populaii, considerndu-le dou cte
dou. Aceast metod nu este satisfctoare deoarece, atunci cnd crete numrul de comparaii,
probabilitatea de a detecta, n mod eronat, o diferen semnificativ este mai mare dect nivelul
de semnificaie fixat pentru fiecare test individual. Atunci cnd crete numrul de comparaii,
se mrete riscul unei erori de spea a I-a. Din acest motiv s-au dezvoltat tehnici specifice pentru
comparaii multiple.
S considerm cazul n care se studiaz un grup de subieci, caracterizat de dou variabile
dihotomice: brbat/femeie i urban/rural. Apar patru subgrupuri: brbat+urban, brbat+rural etc.
Sunt 6 comparaii ntre aceste grupuri. Dac la o comparaie se alege ca nivel de semnificaie
= 0,05 i se presupune c testele sunt independente ntre ele, atunci
P(nu se respinge H
0
n nici un test | H
0
este adevrat) =
= (0,95)
6
= 0,7351.
Prin urmare probabilitatea evenimentului complementar este
P(se respinge H
0
n cel puin un test | H
0
este adevrat) =
= 1 (0,95)6 = 1 0,7351 = 0,2649.
Se poate spune c exist o ans de 26% de respingere a ipotezei nule dei ea este adevrat.
Reamintim c prin alegerea lui = 0,05, ansa era de 5%. Se observ astfel c, dac se consider
mai multe teste de comparare, crete probabilitatea de a accepta o diferen semnificativ acolo
unde ea nu exist. Apare astfel necesitatea de a dezvolta proceduri noi, care s nu mreasc
riscul apariiei unor erori de spea a I-a, pentru analiza situaiilor care implic comparaii
multiple.
Analiza dispersional este denumirea generic pentru o clas ntreag de astfel de tehnici,
dezvoltate pentru situaiile n care influenele unor variabile (factori) se nsumeaz, influena
global putnd fi evideniat ca parte a variaiei unei variabile dependente. Alt termen pentru
analiza dispersional este analiza varianei. Este frecvent utilizarea prescurtrii ANOVA (din
ANalysis Of Variance).
Existena mai multor populaii (grupuri) este determinat de una sau mai multe variabile
(discrete) care fac distincia ntre populaii. O astfel de variabil este numit variabil
independent. Variabila dup care se compar grupurile este numit variabil dependent. O
variabil independent mai este numit factor pentru c se consider a fi unul dintre factorii care
influeneaz comportarea variabilei dependente.
Observaie. Unii cercettori utilizeaz pentru o variabil independent i denumirea de efect
principal, deoarece se urmrete efectul variabilei independente asupra variabilei dependente.
Denumirea nu este foarte fericit deoarece conduce la ideea de cauzalitate, care nu poate fi
detectat numai prin metode statistice.
Dup numrul variabilelor independente, a factorilor, se distinge analiza dispersional
unifactorial, bifactorial etc., fiecare cu probleme specifice. n continuare sunt prezentate
cazurile cu unul sau doi factori, mai ales pentru c analizele cu mai mult de doi factori, posibile
teoretic, sunt foarte dificil de interpretat n termeni reali.
Analiza dispersional unifactorial
Structura datelor
Valorile unei caracteristici X, sunt msurate n k eantioane independente, obinute din k
populaii. Populaiile se consider repartizate normal, cu mediile
1
,
2
, ,
k
i dispersiile
Analiza dispersional 43
egale
2 2
2
2
1 k
= = = K , respectiv. Problema care se cere rezolvat este s se stabileasc dac
populaiile pot fi considerate identice din punctul de vedere al caracteristicii X.
Pentru verificarea ipotezei de egalitate a dispersiilor se va utiliza unul dintre testele prezentate n
seciunea final a acestui capitol. n cazul n care ipoteza normalitii nu este ndeplinit (sau nu
este verificat), erorile care se introduc nu sunt importante n cazul n care volumul eantioanelor
este suficient de mare (> 4) iar numrul grupurilor este relativ mic.
Formal, dispunem de k grupuri de valori, de volume n
1
, n
2
, , n
k
, respectiv, notate cu A
1
, A
2
, ,
A
k
. n sensul discuiei generale, se poate considera c A
1
, A
2
, sunt categoriile unei variabile
(de obicei nominale) care face deosebirea dintre grupuri. Aceasta este variabila independent a
analizei. Variabila X este variabila dependent, variabila dup care se compar populaiile.
Schematic, situaia este prezentat n tabelul urmtor.
Organizarea datelor de sondaj pentru analiza
dispersional unifactorial
A
1
A
i
A
k

11
x
i1
x
k1
x
12
x
i2
x
k2
x

1
1n
x

1
in
x

k
kn
x
Tabelul ANOVA
Reamintim c baza oricrei aplicaii statistice este variaia valorilor unei caracteristici (pentru un
ir constant de valori nu este de interes nici o prelucrare). n cazul structurrii datelor precum n
tabelul de mai sus apare ntrebarea ct din variaia datelor poate fi atribuit apartenenei la
grupuri diferite (de exemplu: este de ateptat ca x
12
s fie diferit de x
34
ntruct aparin la
grupuri diferite). Acesta este, n sensul discuiei din primul capitol, variaia sistematic a datelor,
mprirea n grupuri provenind de obicei din aceea c statisticianul se ateapt ca s apar
diferene ntre grupuri (n cazul contrar, dac statisticianul nu s-ar atepta la asemenea diferene,
nu ar avea sens s le marcheze la strngerea datelor). Este evident atunci c o asemenea variaie
n date poate fi evideniat doar dac nu este acoperit de sursele de variaie neluate n
considerare (cu alte cuvinte, dac sursa de variaie a mpririi n grupuri este suficient de
puternic). De aici i metoda analizei dispersionale:
se evideniaz variaia datelor datorat mpririi n grupuri;
se compar cu variaia total a datelor;
dac se poate decide c sursa de variaie a mpririi n grupuri este suficient de
puternic, atunci se consider c populaiile nu sunt omogene; dac sursa de variaie
respectiv este nesemnificativ, atunci se consider c populaiile sunt omogene.
Variaia datorat diferenelor dintre grupuri este definit ca variaie explicat partea din
variaia variabilei dependente explicat de variabila independent. Cu alte cuvinte, variaia
explicat este partea explicat de ctre mprirea n grupuri. Variaia, care rmne dup
separarea variaiei explicate, este definit drept variaie rezidual (variaia neexplicat) i este
datorat unor surse ntmpltoare de variaie. Variaie explicat mai este denumit i variaie
ntre grupuri (exterioar), iar cea rezidual variaie n grupuri (intern).
Rezumnd, se poate considera c modelul de baz al analizei dispersionale afirm c orice
valoare a variabilei X este obinut prin cumularea a dou efecte, unul sistematic i unul
ntmptor:
44 Introducere n statistica multivariat
x
ij
= efect sistematic (al nivelului A
i

)

+ efect ntmpltor (din nivelul A
i
).
Deoarece expresia matematic este mai complicat ntruct depinde i de alte presupuneri asupra
variabilei independente, explicitarea expresiei se face n alt seciune a capitolului.
Pe baza datelor experimentale se definesc mediile grupurilor (pentru fiecare se consider doar
valorile grupului)

=
=
+ + +
=
i
i
n
j
ij
i i
in i i
i x
n n
x x x
x
1
2 1 1
K
, k i , , 2 , 1 K =
i media general (considernd grupurile reunite)

= =
+ + +
=
k
i
n
j
ij
k
i
x
n n n
x
1 1 2 1
1
K
.
Se mai noteaz numrul total de observaii
k
n n n n + + + = K
2 1
.
Cu aceste notaii, se definete variaia din interiorul unui grup prin abaterile fa de media
grupului, iar variaia dintre grupuri prin abaterile de la media general a mediilor grupurilor. Se
demonstreaz c are loc relaia

= = = = = =
+ =
k
i
n
j
i
k
i
n
j
k
i
n
j
i ij ij
i i i
x x x x x x
1 1
2
1 1 1
2
1
2
) ( ) ( ) ( .
Suma din partea stng reflect variaia global a variabilei X (este suma ptratelor abaterilor
ntlnit i la calculul dispersiei). Prima sum din partea dreapt a egalitii reflect variaia
valorilor n interiorul grupurilor (abaterea unei valori se calculeaz fa de media grupului unde
este valoarea), iar ultima sum reflect variaia dintre grupuri (este bazat pe abaterile de la
media general a mediilor grupurilor). Notm:

=
= =
=
i j
i ij
i
i i
i j
i
i j
ij
x x
x x n x x
x x
2
rez
exp
2
g
) ( SP
( SP
) ( SP
2 2
) ( )
unde denumirile uzuale ale analizei diapersionale sunt: SP
g
este suma ptratelor global, SP
exp

este suma ptratelor explicat, iar SP
rez
este suma ptratelor rezidual. Prin urmare
rez exp g
SP SP SP + =
cu interpretarea de descompunere a variaiei globale n variaia explicat i variaia rezidual.
Cele trei sume de ptrate au, respectiv, urmtoarele grade de libertate, notate corespunztor
fiecrei sume:
. 1
,
, 1 1
exp
1
=
=
= =

=
k
k n
n n
rez
k
i
i g


Prin raportarea unei sume de ptrate la numrul ei de grade de libertate se obine media ptratic.
Astfel
Analiza dispersional 45
rez
rez 2
esp
exp
2
exp
2
SP
;
SP
;

= = =
rez
g
g
s s s
g
SP
,
care, potrivit discuiei de la introducerea dispersiei ca indicator al mprtierii, caracterizeaz,
respectiv, mprtierile global, explicat, rezidual.
Dintre acestea,
2
rez
s estimeaz absolut corect dispersia teoretic
2
, indiferent dac mediile de
sondaj ale grupurilor estimeaz sau nu aceeai medie teoretic .
Dac mediile de sondaj sunt omogene, atunci i celelalte medii ptratice,
2
g
s i
2
exp
s , sunt
estimaii absolut corecte ale dispersiei comune
2
. Dac mediile de sondaj nu sunt omogene (ca
urmare a influenei factorului sistematic de clasare n grupuri),
2
g
s i
2
exp
s nu vor mai estima
absolut corect dispersia comun. Aceste rezultate arat c ntre
2
rez
s i
2
exp
s apar diferene
semnificative cnd mediile grupurilor sunt neomogene (influenate de efectele variabilei
independente), deci compararea acestor cantiti printr-un test F evideniaz efectul variabilei
independente. Din acest motiv, analiza dispersional este uneori referit drept un test F pentru o
comparare multipl.
Cu datele calculate potrivit formulelor prezentate se completeaz tabelul analizei dispersionale
unifactoriale, denumit frecvent tabel ANOVA. Dei sunt interpretabile toate informaiile din
acest tabel, scopul principal este obinerea valorii calculate F.
Tabelul analizei dispersionale unifactoriale (ANOVA)
Sursa
variaiei
Suma
ptratelo
r
Grade
de
libertate
Media
ptratelor
F
ntre grupuri
(extern)
SP
exp

exp

2
exp
s
n grupuri
(intern)
SP
rez

rez

2
rez
s
2
rez
2
exp
s
F
s
=
Global SP
g

g

2
g
s

Testul F. Compararea cantitilor
2
exp
s i
2
rez
s se efectueaz ntr-un test F cu ipotezele:
H
0
:
1
=
2
= =
k
(mediile grupurilor sunt egale);
H
1
: exist
j i
, (cel puin dou medii sunt neegale).
De remarcat c n ipoteza alternativ se afirm existena unei diferene ntre dou medii, dar nu
se pot specifica mediile diferite; nu se afirm c toate mediile sunt diferite dou cte dou.
n condiiile ipotezei H
0
, cantitatea F calculat n tabelul ANOVA urmeaz o repartiie
Fisher-Snedecor cu
exp
i
rez
grade de libertate,
rez exp
;
F

, ceea ce permite efectuarea unui test
statistic.
Decizia. Dac, pentru un prag de semnificaie , fixat, valoarea F calculat este mai mare sau
egal cu quantila corespunztoare a repartiiei F,
rez exp
; ; 1
F F

,
atunci se respinge ipoteza nul n favoarea ipotezei alternative. Cu alte cuvinte, n acest caz se
poate accepta ipoteza c mediile grupurilor nu sunt omogene, exist cel puin dou diferite ntre
ele. Se conchide c diferenele dintre grupuri justific o parte semnificativ a variaiei variabilei
dependente.
n caz contrar, nu se respinge ipoteza nul a omogenitii mediilor: mprirea n grupuri nu este
semnificativ (grupurile sunt similare n privina variabilei dependente).
46 Introducere n statistica multivariat
Observaie. Reamintim presupunerea iniial c toate grupurile sunt caracterizate de aceeai
dispersie.
Modele ale analizei dispersionale unifactoriale
n funcie de modul de stabilire a grupurilor pot s apar dou situaii, dup cum sunt considerate
sau nu toate grupurile, de interes pentru cercetare, posibile.
1. Grupurile corespund categoriilor unei scale nominale (ordinale), toate categoriile scalei fiind
luate n considerare. n acest caz se spune c se studiaz ntreaga populaie a surselor.
Situaia apare i atunci cnd, prin convenie, se consider c se studiaz ntreaga populaie a
surselor. n acest caz se compar grupurile ntre ele, se obin concluzii valabile pentru fiecare
grup n parte. Acesta este modelul cu efecte sistematice (sau modelul 1).
2. Grupurile corespund unor surse alese ntmpltor dintr-o populaie a surselor. In acest caz
este important ca, pe lng compararea grupurilor, s se obin informaii despre mulimea
tuturor surselor. Este ca i cum, din multitudinea de categorii a unei scale nominale
(ordinale) se aleg la ntmplare cteva categorii, se obin eantioane din grupurile
corespunztoare categoriilor selectate, prelucrarea se efectueaz asupra acestor eantioane.
Acesta este modelul cu efecte ntmptoare (sau modelul 2).
De exemplu, ntr-o situaie imaginat, s presupunem c ntr-un birou sunt 5 operatoare i sunt
supuse toate unei investigaii, cu nregistrarea valorilor la momente aleatorii de timp, pe
parcursul unei sptmni. Pentru a stabili omogenitatea celor cinci grupe de valori observate,
cum s-au considerat toate operatoarele, se va utiliza modelul cu efecte sistematice.
Dac ntr-o hal industrial sunt 100 de operatoare, dintre acestea se aleg 8 la ntmplare i doar
acestea sunt supuse investigrii, atunci modelul adecvat este modelul cu efecte ntmpltoare,
deoarece cele 8 grupe de valori s-au obinut aleator dintr-o sut posibile, iar rezultatele trebuie s
se refere la toate cele 100 de operatoare i nu numai la cele 8 din grupul experimental.
Denumirile modelelor sunt explicate de utilizarea termenului efect pentru categoriile variabilei
independente. Este de remarcat c uneori, pe acelai set de date se aplic ambele modele, n
funcie de scopurile urmrite n cercetare.
Observatie. Indiferent de modelul aplicat, calculele care conduc la stabilirea tabelului ANOVA
sunt aceleai. Diferenele ntre modele apar la concluzii i la obinerea altor estimaii.
Modelul cu efecte sistematice
n acest model, fiecare grup (populaie) este considerat separat, ca o entitate care este de interes
n sine pentru cercettor, iar nu ca un element afectat de erori de sondaj, element extras aleator
dintr-o mulime posibil. Fiecare valoare de sondaj,
ij
x , este obinut atunci drept suma dintre
valoarea medie a grupului (populaiei) cruia i aparine,
i
, i o abatere (eroare) normal reparti-
zat,
ij
, ceea ce este formalizat prin:

+ =
te. independen v.a. ), N(0, ~
; , ,
2


ij
i ij i ij
n j k i x 1 1

Este de remarcat c erorile sunt proprii fiecrei observaii, sunt independente ntre ele, dar toate
sunt repartizate cu aceeai dispersie
2
. Aceste erori includ att erori aleatoare ct i erorile
sistematice datorate surselor de variaie care nu au fost considerate (sau sunt necunoscute).
Considerarea unei aceeai dispersii exprim matematic situaia experimental n care grupurile
sunt subpopulaii ale unei populaii mai vaste.
Verificarea ipotezei nule H
0
:
1
=
2
= =
k
= contra alternativei H
1
: exist o pereche

i

j
permite concluzii asupra omogenitii grupurilor.
Analiza dispersional 47
n cazul cnd H
0
nu se respinge,
rez
F
; ; 1
exp
F

< , atunci cele k grupuri pot fi considerate ca extrase
din aceeai populaie normal cu media i dispersia
2
, dispersie estimat de
rez exp
rez exp
g
g
2
SP SP SP
+
+
= =
g
s ,
astfel nct intervalele de ncredere pentru i
2
pot fi construite dup formulele uzuale
.
1 1
2
2
/2 ;
2 2
2
/2 1 ;
1 /2; 1 1 /2; 1
g g
g
n
g
n
s
n
s
n
n
s
t x
n
s
t x
g g



Dac ipoteza nul se respinge, atunci mediile grupurilor nu pot fi considerate omogene i pentru
calcularea intervalelor de ncredere se va utiliza estimaia
2
rez
s a lui
2
:
,
,
,
2
rez
2
/2 k; -
2 2
rez
2
/2 1 k; -
rez
/2; 1
rez
k /2; 1
rez
/2; 1
rez
k /2; 1
s
k n
s
k n
n
s
t x
n
s
t x
n
s
t x
n
s
t x
n n
i
k n i i
i
n i
k n n


+
+




unde i = 1, 2,, k.
Pentru diferena dintre media unui grup i media populaiei globale (n cazul cnd grupurile se
consider subpopulaii ale unei populaii de baz) se utilizeaz formula:
i
i
i
i
n n
n n
k n
i
i
n n
n n
k n
i
s
t x x
s
t x x
+


+
rez
/2; 1
) (


rez
; 2 / 1
) ( .
Modelul cu efecte ntmpltoare
Cum grupurile se consider, n cadrul acestui model, extrase aleator dintr-o populaie de grupuri,
are sens s considerm c fiecare observaie este obinut drept suma dintre media general a
populaiei de baz, efectul nivelului corespunztor al variabilei independente i abaterea
(eroarea) de la media grupului. Cu alte cuvinte, fa de modelul cu efecte sistematice, media
grupului nu mai este o constant, ci o variabil aleatoare msurat prin abaterea de la media
populaiei. Ambele abateri care s-au introdus se consider normal repartizate.
Relaiile matematice corespunztoare sunt:

= =
=
= = + + =
i ij
i
i ij i ij
n j k i
k i
n j k i x
, 1 , 1, te, independen sunt v.a. ), N(0, ~
1, te, independen sunt v.a. ), N(0, ~
1, , 1, ,
2
2



Se observ c
i
+ reprezint echivalentul mediei grupului din modelul cu efecte sistematice.
Egalitatea mediilor grupurilor revine atunci la verificarea ipotezei H
0
:
1
=
2
= =
k
= 0,
contra ipotezei alternative c nu toate efectele sunt egale cu zero.
Testul statistic este bazat tot pe tabelul ANOVA i, n cazul cnd ipoteza nul nu este respins,
rez
F
; ; 1
exp
F

< , continuarea este aceeai ca la modelul cu efecte sistematice.
48 Introducere n statistica multivariat
n cazul cnd se respinge ipoteza nul, se poate obine o estimaie a dispersiei abaterilor
i

|
|
.
|

\
|

=

=
k
i
i
ext
n
n
n
k
n
n
s s
s
1
2
2
rez
2
2
1
1
1
* unde ,
*


ceea ce permite judeci probabiliste asupra abaterilor grupurilor de la media general.
Reamintim c prin n se noteaz suma efectivelor grupurilor (volumul total). Dac grupurile sunt
echilibrate, adic de volume egale, n
1
= n
2
= = n
k
, atunci n* este egal cu volumul comun.
Pentru intervalul de ncredere al mediei globale se poate utiliza formula aproximativ (valabil
atunci cnd populaia efectelor este finit, de volum K):
n
s
k
s
K
k K
t x
n
s
k
s
K
k K
t x
k k
2
rez
2
1 /2; 1
2
rez
2
1 /2; 1
1 1
+

+ +


populaia surselor considerndu-se finit dac se selecteaz mai mult de o zecime dintre efectele
posibile.
Pentru o populaie de efecte infinit (foarte numeroas), intervalul de ncredere al mediei globale
este dat de
n
s
k
s
t x
n
s
k
s
t x
k k
2
rez
2
1 /2; 1
2
rez
2
1 /2; 1
+ + +

.
Contraste
Se numete contrast o combinaie liniar de dou sau mai multe medii
1
,
2
, ,
k
, avnd
suma coeficienilor egal cu zero. Dou contraste sunt ortogonale dac suma produselor
coeficienilor corespunztori este egal cu zero. Prin considerarea unui contrast se studiaz
relaiile care exist ntre mai multe medii.
Prin urmare, un contrast C este definit prin:
k k
c c c C + + + = K
2 2 1 1
, unde . 0
1
=

=
k
j
j
c
Astfel, diferena ntre dou medii este un contrast (care permite comparaii ntre cele dou
medii), iar compararea unei medii cu media altor dou medii poate fi realizat prin contrastul

1
+
2
2
3
.
O estimaie nedeplasat a unui contrast se obine prin considerarea aceleeai combinaii liniare
ntre estimaii ale mediilor:

=
=
k
i
i x C
1


iar dispersia de sondaj este

=
=
k
i i
i
C
n
c
1
2
2 2

cu estimaia

=
=
k
i i
i
rez
C
n
c
s s
1
2
2 2

.
Pentru modelul ANOVA unifactorial, se poate arta c
C
s
C C



este distribuit Student cu n-k grade de libertate i, prin urmare, limitele intervalului de ncredere
la pragul de semnificaie sunt
Analiza dispersional 49
C
k n
s t C
; 2 / 1


.
Observaie. n cazul cnd este necesar considerarea unei combinaii liniare care nu este un
contrast (cazul, de exemplu, al existenei unor costuri asociate grupurilor i se dorete estimarea
unui cost total), se poate obine un interval de ncredere dup exact aceleai formule.
Analiza post hoc
Atunci cnd ipoteza nul a testului F din analiza dispersional este respins, este de interes
determinarea faptului care a dus la aceast respingere: care medii nu pot fi considerate egale.
Apar astfel tehnici de comparaie multipl, deoarece s-a vzut c secvene de comparaii a cte
dou medii nu pot fi controlate n ceea ce privete pragul de semnificaie.
Dintre tehnicile de comparaie multipl prezentm:
Metoda Tukey testeaz simultan toate diferenele dintre perechi de medii pentru a
determina dac, cel puin, una este diferit semnificativ de zero;
Metoda Scheffe testeaz simultan toate contrastele posibile pentru a determina dac, cel
puin, una este diferit semnificativ de zero;
Metoda Bonferroni testeaz un grup, selectat n prealabil, de contraste.
Metoda Tukey
Se consider simultan toate diferenele dintre medii {
i

j
}. Atunci cnd eantioanele sunt de
volume egale, sigurana statistic pentru ntregul set de diferene este de 1- i nu se micoreaz
n cazul eantioanelor neegale. Metoda se bazeaz pe distribuia amplitudinii studentizate
(studentized range), definit ca raportul dintre amplitudine i abaterea standard estimat:
s
q
n

=
,
,
unde este amplitudinea eantionului (= maxim minim) i este abaterea standard. Ca
parametri sunt n, volumul eantionului, i , numrul gradelor de libertate asociate lui
2
.
Eantionul trebuie s provin dintr-o repartiie normal, s
2
fiind o estimaie a parametrului
2
.
Quantilele repartiiei q
n,
sunt tabelate sau calculate de programe specializate. De exemplu,
pentru n = 15 i = 10, se obine q
n,,0.95
= 6,114, adic
95 , 0 114 , 6 =
)
`


s
w
P
cu interpretarea c dac dispunem de o estimaie a dispersiei bazat pe 10 grade de libertate, 15
observaii din repartiia normal respectiv au o amplitudine de maxim 6,114 ori mai mare dect
abaterea standard, cu o probabilitate de 95%.
Limite de ncredere. Metoda Tukey, n cazul eantioanelor de volume egale, produce, pentru
fiecare diferen de dou medii, intervalele de ncredere:
. ; , , 1 , ,
2
2
1
1 , ,
j i k j i
n
s q x x
rez k N k
j i =

K


unde n este volumul fiecrui eantion, iar N este numrul total de observaii.
Observaie. Este posibil s se considere i eantioane de volume diferite, procedura fiind
cunoscut ca metoda Tukey-Kramer.
50 Introducere n statistica multivariat
Metoda Scheffe
In aceast metod se testeaz simultan toate contrastele posibile. Metoda se aplic la mulimea
estimaiilor tuturor contrastelor i nu numai la diferene de cte dou medii, ca n metoda Tukey.
De observat c exist un numr infinit de contraste posibile.
Limite de ncredere. Cu notaiile introduse anterior pentru contraste se arat c sigurana
statistic de 1- este asigurat pentru ansamblul intervalelor de ncredere
C
k N k
s F k C
1 , , 1
) 1 (


,
formula fiind calculat pentru fiecare contrast C de interes.
Este de ateptat ca un interval de ncredere calculat prin metoda Scheffe s fie mai mare dect
cel calculat pentru un singur contrast, dar s nu se uite c se asigur o siguran statistic
controlat pentru ntreaga mulime de contraste.
Observaie. Metoda Scheffe este util atunci cnd suficient de multe contraste sunt de interes.
Pentru comparaii ntre dou medii este de preferat metoda Tukey.
Metoda Bonferroni
Metoda se aplic n cazul cnd exist un numr finit de contraste care se testeaz i asigur, ca i
metodele anterioare, un nivel global al siguranei statistice. Poate fi aplicat indiferent de faptul
c eantioanele au, sau nu, volume egale. n esen, metoda utilizeaz un prag de semnificaie
mai mic pentru fiecare comparaie, astfel nct, pe ansamblu, s se ating pragul de semnificaie
dorit.
Limite de ncredere. Notnd cu m numrul de teste efectuat (adic numrul de contraste de
interes, C
i
), intervalele de ncredere sunt date de
i
C
m
k N
i
s t C

2
1 ,




notaiile fiind cele deja introduse.
Alegerea metodei de comparaie multipl
Nu exist metod uniform mai bun, adic indiferent de scopul urmrit.
Pentru comparaii ntre medii, dou cte dou, se prefer metoda Tukey.
Pentru testarea unui numr mic de contraste, se prefer metoda Bonferroni.
Pentru testarea unui numr mare de contraste, se prefer metoda Scheffe.
Dac un program de calculator include toate metodele, se prefer aceea care produce intervale de
ncredere mai nguste.
Analiza dispersional bifactorial
Presupunem c trebuie s comparm ntre ele grupuri (populaii statistice) caracterizate de dou
atribute.
De exemplu, ntr-o cercetare privind factorii de risc n producerea accidentelor de circulaie, s
comparm grupuri caracterizate de nivelul de oboseal i de consumul de alcool (variabile
independente, factori), variabila dependent fiind atenia. Scopul unei asemenea cercetri poate
fi s se stabileasc:
dac atenia depinde de oboseal, sau
dac atentia depinde de consumul de alcool, sau
dac atenia celor odihnii depinde de consumul de alcool ntr-un mod diferit de al
celor obosii (efectul conjugat al celor doi factori) etc.
Analiza dispersional 51
Primele dou categorii de obiective pot fi determinate printr-o analiz dispersional
unifactorial. Al treilea tip de obiectiv implic ns considerarea simultan a celor doi factori de
difereniere a grupurilor, ceea ce nu mai permite utilizarea analizei unifactoriale.
Rezult c implicarea a doi factori necesit un instrument de analiz care s poat diferenia
influena primului factor, influena celui de al doilea factor, precum i influena combinat
(interaciunea celor doi factori). Din acest motiv analiza dispersional bifactorial (denumit i
ANOVA pe dou ci) nu este o simpl juxtapunere a dou analize unifactoriale.
Metoda este bazat tot pe descompunerea variaiei totale n variaie explicat i variaie
rezidual, situaie care este ilustrat n continuare.

Se observ modurile de explicare a variaiei: de ctre fiecare factor (individual) sau de
interaciunea celor doi factori.
Dup descompunerea variaiei totale, decizia se ia pe baza comparrii cu variaia rezidual a
diferitelor pri ale variaiei explicate. Dac o parte explicat este semnificativ mai mare dect
partea rezidual, atunci se va considera c respectivul factor, sau interaciunea, este important n
explicarea valorii variabilei dependente.
Datorit prezenei interaciunilor, mrirea numrului de factori complic foarte mult
interpretarea rezultatelor. Pentru trei factori, A, B, C, apar interaciunile AB, AC, BC, dar i
interaciunea ABC. Astfel, numrul interaciunilor, 4, este mai mare dect numrul iniial de
factori. Din acest motiv, utilizarea analizei dispersionale pentru mai mult de doi factori este
suficient de redus.
Structura datelor
Notm cu A i B variabilele independente (factorii) iar cu X variabila dependent (dup care se
compar grupurile determinate de nivelurile factorilor). Presupunem c factorul A are h niveluri,
iar factorul B are q niveluri. Rezult c factorii A i B determin hq grupuri. Este uzual ca valo-
rile de sondaj corespunztoare grupurilor s fie aranjate ntr-o structur dreptunghiular, cu hq
celule, fiecare eantion ocupnd celula corespunztoare nivelurilor A
i
i B
j
, care identific
grupul. O asemenea structur este referit drept plan bifactorial. Dei este posibil ca
eantioanele s aib volume diferite, vom considera doar cazul n care toate celulele conin un
numr egal de valori, notat cu n, caz n care se spune c avem un plan factorial echilibrat.
Tabelul urmtor conine structura general de date pentru o analiz dispersional cu doi factori.
Valorile variabilei dependente X sunt indexate cu trei indici: primul pentru nivelul factorului A,
al doilea pentru nivelul factorului B, iar ultimul pentru numerotarea n cadrul celulei. Deci prin
x
ijk
se noteaz a k-a valoare din eantionul care corespunde grupului determinat de nivelul i al
factorului A i nivelul j al factorului B.
52 Introducere n statistica multivariat
Structura de date pentru analiza dispersional
bifactorial
B
A
B
1
K

B
j
K B
q
111
x
K
1 1 j
x
K
1 1q
x
M M M M M
A
1
n
x
11

K
jn
x
1

K
qn
x
1

M
M M M M M
11 i
x
K
1 ij
x
K
1 iq
x
M M M M M
A
i
n i
x
1

K
ijn
x
K
iqn
x
M
M M M M M
11 h
x
K
j1 h
x
K
q1 h
x
M M M M M
A
h
1n h
x
K
n hj
x
K
qn h
x
Pentru aceast structur de date este de remarcat organizarea n linii i coloane a celulelor. Se va
putea astfel vorbi, la un nivel mai general, de linia nivelului A
i
sau de coloana nivelului B
j
.
Introducem urmtoarele notaii pentru diferitele tipuri de valori medii care se pot defini:
media global (media tuturor valorilor observate pentru variabila X, indiferent de
nivelurile factorilor)

= = =
=
h
i
q
j
n
k
ijk
x
hqn
x
1 1 1
1
;
media celulei (i,j) (media eantionului determinat de nivelurile A
i
i B
j
), definit
pentru orice i i orice j

=
=
n
k
ijk
ij x
n
x
1
1
;
media liniei i (media valorilor observate la nivelul i al factorului A, indiferent de
nivelul factorului B), definit pentru orice i

= = =
= =
q
j
ij
q
j
n
k
ijk
i x
q
x
qn
x
1 1 1
1 1
;
media coloanei j (media valorilor observate la nivelul j al factorului B, indiferent de
nivelul factorului A), definit pentru orice j

= = =
= =
h
i
ij
h
i
n
k
ijk
j x
h
x
hn
x
1 1 1
1 1
.
Pentru media global se mai utilizeaz i notaia x , similar notaiilor utilizate pentru mediile
liniilor i coloanelor. Au loc i relaiile
Analiza dispersional 53

=

=

= =

= = =
q
j
j
h
i
i
h
i
q
j
ij x
q
x
h
x
hq
x x
1 1 1 1
1 1 1
) (sau
Fiecare dintre mediile calculate este interpretabil n sine, ca orice valoare medie calculat
pentru un eantion. Se pot utiliza, atunci cnd are sens, teste individuale de comparare a acestor
valori medii, dou cte dou (fr a implica n vreun fel variabilele independente A i B).
Utiliznd aceste valori medii se demonstreaz c are loc relaia urmtoare de descompunere a
variaiei totale n variaia datorat factorului A, variaia datorat factorului B, variaia datorat
interaciunii AB i variaia rezidual:
rez AB B A
2 2
2 2
2
g
SP SP SP SP
) ( ) (
) ( ) (
) ( SP
+ + + =
= + + +
+ + =
= =



i j k
ij
ijk
i j k
j i ij
i j k
j
i j k
i
i j k
ijk
x x x x x x
x x x x
x x

unde sumrile dup i, j i k se fac pn la limitele menionate deja, h, q i n, iar notaiile SP
A
,
SP
B
, i SP
AB
ale sumelor de ptrate sunt n ordinea apariiei lor. Dac se ine cont de faptul c, n
sumele respective, cantitatea sumat este constant n raport cu unii indici de sumare se obin
formulele simplificate
. ) ( SP
) ( SP
) ( SP
) ( SP
1 1 1
2
rez
1 1
2
AB
1
2
B
1
2
A

= = =
= =

=

=

=
+ =
=
=
h
i
q
j
n
k
ij
ijk
h
i
q
j
j i ij
q
j
j
h
i
i
x x
x x x x n
x x hn
x x qn

unde
SP
A
este suma ptratelor datorate factorului A i msoar variaia explicat de acest factor.
Suportul intuitiv este imediat prin aceea c se sumeaz abaterile ptrate ale mediilor liniilor
de la media general.
SP
B
este suma ptratelor datorate factorului B i msoar variaia explicat de acest factor.
Suportul intuitiv este asigurat de sumarea abaterilor ptrate ale mediilor coloanelor de la
media general.
SP
AB
este suma ptratelor datorate interaciunii factorilor A i B, msoar variaia explicat
de aceast interaciune. Suportul intuitiv este evident dac observm c
) ( ) ( ) ( x x x x x x x x x x j i ij j i ij = +
adic din abaterea mediei celulei fa de media general se scade efectul liniei i efectul
coloanei, ceea ce rmne fiind definit ca efectul interaciunii factorilor.
SP
rez
este suma rezidual a ptratelor i msoar variaia neexplicat de cei doi factori sau de
interaciunea lor. Intuitiv, abaterile observaiilor de la media grupului arat variaia intern,
proprie grupului.
54 Introducere n statistica multivariat
Se poate spune c S
A
+ S
B
+ S
AB
msoar variaia explicat de factorii A i B variaia
exterioar, ntre grupuri , n timp ce S
rez
msoar variaia neexplicat, variaia intern a
grupurilor.
Sumele de ptrate au, respectiv, gradele de libertate
). 1 ( ), 1 ( ) 1 (
, 1 , 1 , 1
rez AB
B A
= =
= = =
n hq q h
q h hqn
g



Cu aceste cantiti se completeaz tabloul analizei dispersionale bifactoriale, tabelul 4, care
permite testarea ipotezelor privind semnificaia contribuiei factorilor la explicarea variaiei
variabilei dependente. Construcia tabloului este similar analizei dispersionale unifactoriale,
coloana mediilor sumelor de ptrate fiind obinut prin raportarea sumelor de ptrate la numrul
corespunztor de grade de libertate.
Tabloul analizei dispersionale (ANOVA) bifactoriale
Sursa de variaie
Suma
ptratelor
Grade de
libertate
Media ptratelor F
ntre grupuri


Factorul A SP
A

A
A A
2
A
/ SP = s
2
rez
2
A A
/ F s s =
Factorul B SP
B

B
B B
2
B
/ SP = s
2
rez
2
B B
/ F s s =
Interaciunea AB SP
AB

AB
AB AB
2
AB
/ SP = s
2
rez
2
AB AB
/ F s s =
n interiorul
grupurilor
SP
rez

rez
rez rez
2
rez
/ SP = s

Global
SP
g

g

Ca i n cazul analizei dispersionale unifactoriale, verificarea semnificaiei factorilor se face prin
intermediul unor teste F comparnd variaiile explicate cu variaia rezidual. De aici coloana
ultim din tablou, care conine cele trei statistici necesare testelor F, obinute ca rapoarte avnd
la numitor
2
rez
s .
Ipotezele testate. Sunt trei seturi de ipoteze, corespunztoare celor doi factori i interaciunii lor.
Le vom nota dup factorii implicai:
(AB) H
0
: interaciunea factorilor A i B nu este semnificativ (efectul lui A nu se modific
funcie de nivelul lui B)
H
1
: interaciunea factorilor A i B este semnificativ (efectul lui A depinde de nivelul
factorului B)
(A) H
0
: factorul A nu este semnificativ (clasificarea dup linii nu este semnificativ sau
mediile liniilor nu difer semnificativ)
H
1
: factorul A este semnificativ (clasificarea dup linii este semnificativ, mediile
liniilor difer n mod semnificativ)
(B) H
0
: factorul B nu este semnificativ (clasificarea dup coloane nu este semnificativ sau
mediile coloanelor nu difer semnificativ)
H
1
: factorul B este semnificativ (clasificarea dup coloane este semnificativ, mediile
coloanelor difer n mod semnificativ)
Decizia. Deoarece acceptnd ipoteza nul a fiecrui test se demonstreaz c statistica F calculat
n tabloul ANOVA urmeaz o repartiie F avnd drept grade de libertate numerele ataate
numrtorului i numitorului, se va respinge ipoteza nul H
0
n favoarea ipotezei alternative dac
valoarea F calculat, corespunztoare testului, citit n tabloul ANOVA, este mai mare sau egal
cu quantila respectiv a repartiiei Fisher-Snedecor.
Analiza dispersional 55
Testul Regula de respingere a ipotezei nule
(AB) rez AB
; ; 1 AB
F

F
(A) rez A
; ; 1 A
F

F
(B) rez B
; ; 1 B
F

F
Modele ale analizei dispersionale bifactoriale
Dup modul de obinere a nivelurilor factorilor, se pot imagina mai multe situaii, dup un
raionament similar celui efectuat la analiza dispersional unifactorial.
Celulele sunt obinute la ntmplare dintr-o mulime (populaie) de celule posibile. Este ca i
cum att nivelurile factorului A, ct i nivelurile factorului B sunt mult mai numeroase dect
cele considerate i dintre acestea s-au extras la ntmplare (ntr-un sondaj) nivelurile pentru
care s-au efectuat determinri. Situaia este referit drept model cu efecte ntmpltoare.
Diferenele ntre celule sunt de tip aleator, datorate, cel puin parial, sondajului.
Celulele considerate sunt ntreaga mulime de celule posibile. Factorii A i B nu au alte
gradaii n afara celor prezente. Modelul este denumit drept model cu efecte sistematice.
Diferenele ntre celule sunt sistematice, datorate clasificrii dup cei doi factori.
Celulele s-au obinut sistematice dup un factor (care apare cu toate nivelurile sale) i aleator
dup cellalt factor (dintre nivelurile cruia apar doar o parte, extrase la ntmplare). Situaia
reprezint modelul cu efecte mixte. Abaterile dintre celule sunt sistematice dup un factor i
ntmpltoare dup cellalt.
Din punct de vedere matematic, se poate considera c valorile variabilei dependente X se obin
dup o expresie liniar care leag efectele factorilor de erorile nesistematice:
n k q j h i
k j i x
ijk ij j i ijk

+ + + + =
1 , 1 , 1
cu , , orice pentru ,

unde, pentru orice i, j, k n limitele admise,
i
reprezint efectul factorului A;
j
reprezint
efectul factorului B;
ij
reprezint efectul interaciunii factorilor A i B;
ijk
este eroarea
rezidual (datorat sondajului din cadrul subpopulaiei, datorat altor factori etc.), iar este
media populaiei de baz (pentru care grupurile sunt subpopulaii).
Asupra entitilor introduse se presupun satisfcute ipotezele:
valorile medii ale tuturor efectelor i interaciunilor sunt nule, adic
0 = = = =

j
ij
i
ij
j
j
i
i

erorile
ijk
sunt v.a. independente, repartizate normal cu media zero i aceeai
dispersie
k j i
ijk
, , ) ( ), ; 0 ( N ~
2

valorile
ijk
x sunt independente i repartizate normal (ipotez necesar pentru
determinarea intervalelor de ncredere).
Trebuie observat c ipotezele nu sunt mai restrictive dect cele presupuse n mod obinuit pentru
cantiti asimilate unor erori experimentale.
Considerarea tipului de model al analizei aduce urmtoarele precizri:
1. n cazul modelului cu efecte sistematice, ,
i
,
j
,
ij
i
2
sunt mrimi fixe,
necunoscute;
56 Introducere n statistica multivariat
2. n cazul modelului cu efecte ntmptoare
i
,
j
i
ij
sunt mrimi aleatorii cu
dispersiile
2 2 2
, ,

, respectiv; mrimile parametrilor ,
2
,
2 2 2
, ,

fiind
necunoscute;
3. n cazul modelului cu efecte mixte, presupunnd c factorul A este cel ntmpltor,
i
j
sunt mrimi fixe (nealeatorii), iar
i
i
ij
sunt mrimi aleatorii; ,
j
,
2 2
,

i

2
sunt parametri necunoscui.
Modelul cu efecte sistematice
Particulariznd ipotezele generale testate, se poate considera c ipotezele nule sunt n acest
model:
(AB) H
0
:
ij
= 0, pentru orice i = 1, 2, , h; j = 1, 2, , q;
() H
0
:
i
= 0, pentru orice i = 1, 2, , h;
()
j
= 0, pentru orice j = 1, 2, , q.
Se va ncepe cu verificarea ipotezei privind absena interaciunii factorilor testul (AB). n
funcie de rezultatul acestui test se modific aciunea ulterioar.
Nu se respinge ipoteza nul a testului (AB). Acesta este cazul cnd se accept ipoteza c ntre
cei doi factori nu exist interaciune, deci se poate considera c factorul A (sau B) nu i
modific influena n funcie de nivelurile celuilalt. n acest caz se pot verifica ipotezele privind
semnificaia factorilor A i B. Unii autori recomand ca, n acest caz, linia din tabloul ANOVA
care corespunde interaciunii factorilor s fie adunat la linia sursei reziduale de variaie, ntruct
variana respectiv nu mai este explicat de cei doi factori.
Intervalele de ncredere pentru parametrii necunoscui se obin dup formulele generale, cu
meniunea c dispersia rezidual este estimaia pentru
2
:
media global
hqn
s
t x
hqn
s
t x
2
rez
/2; 1
rez



+
2
rez
; 2 / 1
rez

media liniei i, i = 1, 2, , h
qn
s
t x
qn
s
t x i
i
i
2
rez
/2; 1
2
rez
/2; 1
rez rez



+
media coloanei j, j = 1, 2, , q
hn
s
t x
hn
s
t x j
j
j
2
rez
/2; 1
2
rez
/2; 1
rez rez



+
media celulei (i,j), i = 1, 2, , h; j = 1, 2, , q
n
s
t x
n
s
t x ij
ij
ij
2
rez
/2; 1
2
rez
/2; 1
rez rez



+
efectul
i
, i = 1, 2, , h
hqn
h s
t x x
hqn
h s
t x x i
i
i
1
) (
2
rez
/2; 1
2
rez
/2; 1
rez rez



1
) (
efectul
j
, j = 1, 2, , q
hqn
q s
t x x
hqn
q s
t x x j
j
j
1
) (
1
) (
2
rez
/2; 1
2
rez
/2; 1
rez rez


.
Analiza dispersional 57
Se respinge ipoteza nul a testului (AB), deci se accept ipoteza c ntre factorii A i B exist
o interaciune semnificativ. n aceast situaie metoda analizei dispersionale nu mai conduce la
rezultate valide, astfel c se va recurge la alte metode cum ar fi analiza de corelaie sau cea de
regresie.
MANOVA
n ANOVA, exist o singur variabil dependent a crei relaie cu variabilele factor este
studiat. Dac exist mai multe variabile dependente, relaiile acestora cu variabilele
independente necesit o secven de analize dispersionale. Obiecia general privind aplicarea
secvenial a unor teste, obiecie care justific apariia metodelor ANOVA, impune dezvoltarea
unor tehnici care s realizeze o analiz global i n asemenea situaii. Analiza multivariat a
varianei (Multivariate analysis of variance, MANOVA) este o astfel de tehnic, adecvat atunci
cnd exist mai multe variabile dependente. Variabilele independente sunt, ca n ANOVA,
variabile discrete care determin grupuri (subpopulaii).
Relaia dintre MANOVA i ANOVA este similar relaiei dintre ANOVA i testul t:
Este nevoie de ANOVA pentru a nu aplica o serie de teste t, care nu asigur
controlul pragului de semnificaie.
Este nevoie de MANOVA pentru a nu aplica o serie de ANOVA, din acelai
motiv al pstrrii pragului de semnificaie.
Cu alte cuvinte,
exist o serie de grupuri caracterizate de mai multe variabile continue (de
interval).
se va studia omogenitatea global aplicnd MANOVA.
n cazul n care se respinge ipoteza omogenitii grupurilor, se vor identifica
variabilele i grupurile care nu sunt omogene prin aplicarea unor metode
ANOVA individuale.
O scurt trecere n revist a situaiilor de utilizare a testelor de comparare (sunt specificate doar
ipotezele nule), pentru n grupuri i k variabile dependente, este prezentat n tabelul urmtor.
Testul t H
0
:
1
=
2

ANOVA H
0
:
1
=
2
=
3
= ... =
n
MANOVA H
0
:

11
=
12
=
13
= ... =
1n

21
=
22
=
23
= ... =
2n

.....

k1
=
k2
=
k3
= ... =
kn

Se observ c n MANOVA se compar vectori de medii, fiecare vector coninnd mediile unei
variabile dependente, fiecare medie fiind dintr-o (sub)populaie. Ipoteza alternativ este aceea c
exist cel puin o pereche de grupuri i o variabil pentru care mediile celor dou grupuri sunt
diferite.
O clasificare ceva mai elaborat a metodelor de comparare este coninut n tabelul urmtor, n
funcie de numrul de variabile dependente (continue), de numrul de factori (variabile
independente, discrete) i de numrul de categoriilor factorilor (numrul de grupuri comparate).
Numr de factori
O variabila
dependent
Mai multe variabile
dependente
Dou grupuri

ANOVA
(test t)
MANOVA
(test T
2
Hotelling)
Un factor
Dou sau mai
multe grupuri
ANOVA
(test F)
MANOVA
(test F)
58 Introducere n statistica multivariat
Mai muli factori
ANOVA
Analiz factorial
MANOVA
Analiz factorial
Condiiile de aplicare pentru MANOVA sunt:
Distribuie normal
o variabil dependent trebuie s fie repartizat normal n interiorul grupurilor;
o testul F este robust n raport cu lipsa normalitii dac abaterea este datorat mai
degrab asimetriei dect valorilor aberante; din acest motiv se vor aplica teste
specifice pentru detectarea valorilor aberante iar acestea vor fi eliminate sau
transformate nainte de a aplica MANOVA.
Omogenitatea dispersiilor (homoscedasticitatea)
o variabilele dependente trebuie s aib dispersii egale la diferite niveluri ale
factorilor. De reamintit c suma de ptrate rezidual se obine prin adunarea sumelor
de ptrate din interiorul grupurilor; dac dispersia difer dup grup, sumarea nu mai
are loc ntre entiti echivalente i nu se ajunge la o estimaie a dispersiei comune.
Homoscedasticitatea se poate verifica prin teste adecvate sau grafic.
Omogenitatea dispersiilor i covarianelor
o n plus fat de cerina anterioar, deoarece exist mai multe variabile dependente,
trebuie ca i covarianele acestora s fie omogene la diferite niveluri ale factorilor;
exist teste statistice n acest sens.
Prin metoda MANOVA, statisticianul ncearc s rspund la ntrebarea dac grupurile
considerate difer din punctul de vedere al variabilelor dependente. Acesta este deci scopul
urmrit de beneficiarul cercetrii. Din punct de vedere matematic, rspunsul este obinut prin
plasarea observaiilor (interpretate ca puncte date prin coordonatele lor) ntr-un spaiu
multidimensional i analizarea norilor de puncte astfel obinuti nct s se poat decide dac
exist, sau nu, suficient distincie ntre grupuri.
Matematic, problema se rezolv prin construirea unor combinaii liniare (cel puin una) din
variabilele dependente, combinaii care surprind diferenierea maxim a grupurilor. Acest proces
revine n fapt la transformarea sistemelor de referin, proces care va fi discutat mai pe larg n
capitolul privind analiza factorial. Prin urmare se va determina una sau mai multe dimensiuni
spaiale de-a lungul crora variabilitatea ntre grupuri este maximizat. n capitolul dedicat
analizei factoriale se va vedea c aceste dimensiuni sunt caracterizate de valorile proprii
calculate pentru o anumit matrice. De aici apariia, n unele formule ulterioare, a valorilor
proprii pentru o matrice precizat.
Observaie. Analiza oarecum complementar pentru MANOVA este analiza discriminant: s
se determine o mulime de variabile care pot s prognozeze apartenena la un grup. Cu alte
cuvinte rolul variabilelor este schimbat:
n MANOVA se studiaz influena variabilelor discrete (independente) asupra
variabilelor continue (dependente),
n analiza discriminant se studiaz influena variabilelor continue (independente)
asupra variabilelor discrete (dependente).
Teoria matematic
Modul de prezentare are scopul de a arta raionamentul similar celui din ANOVA.Se consider,
pentru simplitate, cazul MANOVA unifactorial, deci un singur factor cu m niveluri. Considerm
c se studiaz p variabile dependente (continue), X
1
, X
2
, , X
p
.
Notm cu
ij
media valorilor variabilei X
j
n grupul i, i=1,, m i j=1,,p. Fie x
irj
a r-a valoare
observat n grupul i pentru variabila X
j,
de unde notaia vectorial a valorilor observate pentru
elementul r din grupul i: x
ir
=(x
ir1
,,x
irp
), r=1,,N
i
.
Modelul multivariat al mediilor este
Analiza dispersional 59
x
ir
=
i
+
ir

unde
ir
=(
ir1
,,
irp
)~ N
p
(0,), erorile
ir
fiind independente. De notat c dependena este
permis ntr-un grup, n caz contrar (=
2
I) i se pot utiliza metode ANOVA pentru fiecare
dintre cele p variabile dependente X.
Sumele reziduale de ptrate i produse ncruciate, E, care are rolul similar sumei reziduale de
ptrate din ANOVA, numit uneori suma interioar de ptrate este
i m N
ir i ir i
i 1r 1
( )( )
= =
= E x x x x

unde vectorii mediilor au definiia imediat
i N
i ir
r 1
i
1
N =
= x x

N
i
fiind numrul de observaii din grupul i.
Matricea sumelor intergrupuri de ptrate, H, cu rol similar sumei explicate de ptrate din
ANOVA este atunci:
m
i i
i 1
( )( )
=
= H x x x x

unde
i m N
ir
i 1r 1
1
N = =
= x x
.
Matricea globale sumelor de ptrate este:

i m N
ir ir
i 1r 1
( )( )
= =
+ = H E x x x x

Cu aceste entiti se poate forma tabelul MANOVA, similar tabelului ANOVA.
Tabelul MANOVA
Sursa de variaie
Grade de
libertate
Sume de
ptrate
Grupuri m-1 H |E|/|H+E|
Rezidual N-m E
Total N-1 H+E
Prin intermediul entitii se testeaz ipotezele
H
0
:
1
=
2
==
m
unde
i
= (
i1
,,
ip
).
H
1
: exist cel puin dou medii diferite.
Acesta este testul Wilk al raportului de verosimilitate i poate fi gndit ca un test similar testului
F din ANOVA observnd c, n tabelul ANOVA, se respinge ipoteza nul dac valoarea
calculat F are o valoare suficient de mare, adic 1+F este suficient de mare, adic 1/(1+F) este
suficient de mic.
Notm cu
i
, i=1,2,,p valorile proprii ale matricei HE
-1
. Se poate atunci arta c

=
+
=
+
=
p
i i 1
1
1
E H
E

Observaie. Testul Wilk, , primul test MANOVA dezvoltat, este important i pentru alte
proceduri care apar n metodele multivariate. Cantitatea (1 - ) este interpretat ca proporia din
variana variabilelor dependente explicat de model, cu meniunea c nu este o statistic
nedeplasat i prin urmare poate conduce la interpretri false n eantioane mici.
Alte teste care se aplic n MANOVA sunt
Roy: se bazeaz pe cea mai mare valoare proprie
i
pentru matricea HE
-1

Hotelling - Lawley: T=tr(HE
-1
), bazat deci pe trasa matricei HE
-1

60 Introducere n statistica multivariat

= =
p
i
i
T
1
1
) ( tr HE
Pillai: V=tr[H(H+E)
-1
] este considerat de muli statisticieni drept cea mai puternic
i mai robust dintre statisticile de test enumerate.

+
= + =
p
i i
i
V
1
1
1
) ) ( ( tr

E H H .
Observaii
n ipoteza H
0
, toate aceste patru statistici au o repartiie F.
n unele situaii, cele patru teste genereaz statistici F egale i deci probabiliti critice
egale. Atunci cnd sunt diferite se va utiliza, de regul, Pillai.
Deoarece statistica Roy este o limit superioar pentru valorile F corespunztoare, acest
test va fi eliminat dac este singurul semnificativ dintre cele patru.
Pentru p=1, testele sunt echivalente.
Dac se respinge H
o
se examineaz fiecare variabil independent prin ANOVA sau se
aplic metode post-hoc.
Dac H
o
nu este respins, se va tolera faptul c nu exist diferene semnificative ntre
medii.

Prelucrri statistice
Excel
Compararea mediilor unor (sub)populaii se realizeaz prin proceduri apelate din dialogul
deschis prin Tools Data Analysis.
Atunci cnd se compar mediile a dou populaii pe baza unor eantioane necorelate este
necesar parcurgerea etapelor:
1. Testarea egalitii dispersiilor prin procedura F-Test Two-Sample for Variances.
2. n funcie de decizia n test se va aplica
t-Test: Two-Sample Assuming Equal Variances n cazul nerespingerii ipotezei
nule din testul F
t-Test: Two-Sample Assuming Unequal Variances n cazul respingerii ipotezei
nule n testul F.
Dac eantioanele sunt corelate, situaie caracteristic comparrii rezultatelor unui grup nainte i
dup efectuarea unui experiment, se aplic procedura t-Test: Paired Two Sample For Means.
Analiza dispersional poate fi efectuat n Excel prin trei proceduri ANOVA:
Anova: Single Factor realizeaz analiza dispersional unifactorial; datele trebuie s
fie structurate pe coloane/linii astfel nct fiecare coloan/linie s reprezinte
eantionul dintr-o subpopulaie. Nu se efectueaz analiza post-hoc sau studiul
contrastelor.
Anova: Two-Factor With Replication realizeaz o analiz dispersional bifactorial
pentru un plan experimental exhilibrat (fiecare celul conine acelai numr de
determinri). Datele de intrare trebuie s fie structurate ntr-un tabel bidimensional
identic cu cel prezentat la analiza bifactorial.
Anova: Two-Factor Without Replication este o analiz bifactorial dar fiecare celul
conine doar o singur determinare.
Analiza dispersional 61
SPSS
Pentru a realiza o analiz dispersional unifactorial se d comanda Analyze - Compare
Means - One-Way ANOVA... Este afiat dialogul

Se va trece n zona Factor variabila discret care realizeaz caracterizarea grupurilor de
comparat iar n lista Dependent List variabilele continue pentru care se compar grupurile.
Fiecare variabil continu va produce un tabel ANOVA, deci se realizeaz attea analize cte
variabile sunt n lista variabilelor dependente.
Options permite fixarea statisticilor care se calculeaz: Descriptive indicatorii statistici ai
variabilei dependente, total i pe grupuri, Fixed and random effects pentru a distinge la
interpretare modelul cu efecte sistematice sau nu, Homogeneity of variance test testul Levene
de egalitate a dispersiilor, Brown-Forsythe i Welch teste de egalitate a mediilor aplicabile n
cazul neegalitii dispersiilor, Means plot produce reprezentarea grafic a mediilor grupurilor
comparate (interpretarea este relativ, ca i orice interpretare a unui grafic, dar poate constitui un
sprijin intuitiv pentru rezultatele testelor statistice).

Analiza post-hoc este realizat prin acionarea butonului Post Hoc. n dialogul afiat se
marcheaz metodele dorite, att n cazul ANOVA (dispersii egale), ct i n cazul n care
dispersiile nu sunt egale.

Prin Contrasts se afieaz dialogul sinonim n care putem preciza coeficienii contrastelor dorite.
Procesul de definire este dublu iterativ: se tasteaz n Coefficients cte un coeficient i apoi Add.
La sfrit prin Next se trece la urmtorul contrast i operaiunea de definire se reia. Coeficienii
sunt n ordinea valorilor variabilei factor (dei este o variabil discret, aceasta trebuie s fie
codificat numeric).
62 Introducere n statistica multivariat

Analiza dispersional bifactorial se poate realiza n SPSS fie prin intermediul unei comenzi
ntr-o fereastr de sintax, fie prin intermediul procedurii Analyse General Linear Model,
care se va discuta n capitolul dedicat modelului liniar.


Asocierea datelor
Spunem c dou (sau mai multe) variabile sunt asociate dac, n distribuia comun a
variabilelor, anumite grupuri de valori au probabiliti mai mari de realizare simultan dect alte
grupuri de valori. Cu alte cuvinte, dac o variabil ia o valoare, atunci celelalte variabile vor lua,
cu probabiliti mai mari, valori determinate de valoarea primei variabile.
Definiia, dat din punctul de vedere intuitiv, poate conduce uor la ideea c prima variabil
determin, n sensul cauzalitii, comportarea celorlalte variabile. Aceast interpretare este ns
parial eronat. Este adevrat c asocierile de tip cauzefect se conformeaz definiiei date, dar
situaiile din lumea real sunt mult mai diverse.
S presupunem c studiem relaia dintre nlime i greutate pe o populaie uman. De regul,
persoanele cu nlimi mai mari au i o greutate mai mare. Apar astfel asocieri de valori de tipul
nlimi mari greuti mari (i, prin compensare, nlimi mici greuti mici). Vom spune
atunci c variabilele nlime i greutate sunt asociate. Prin urmare, pentru o persoan mai nalt
este mai probabil s msurm i o greutate mai mare. De aici ns pn la a spune c nlimea
este cauza greutii este o distan foarte mare (pe care nu a parcurs-o nc nimeni)
Este evident c asociaiile care reprezint relaii cauzefect sunt importante n multe domenii de
aplicaii (s ne gndim, de exemplu, la medicin), dar demonstrarea cauzalitii nu este nici
simpl, nici direct i nici de decontestat. Pentru exemplificare redm criteriile lui Hill de
evaluare a plauzibilitii unei relaii cauzefect:
planul de studiu dup care s-a evideniat asocierea (modul de obinere a datelor
experimentale, studiul lor etc.);
gradul asocierii cu considerarea semnificaiei statistice;
consistena mai muli investigatori, prin diferite modele de studiu, n locuri i
circumstane diferite ;
relaia temporal (cauza trebuie s precead efectul);
relaia dozrspuns (este de presupus c o mai mare "cantitate de cauz" trebuie s produc
un efect mai mare);
plauzibilitatea o relaie trebuie s fie plauzibil, adic trebuie s fie consistent cu
cunoaterea curent disponibil (cerina nu este, n sine, nici necesar, nici suficient);
specificitatea dac o singur cauz suspectat poate fi legat de un singur efect, aceast
specificitate furnizeaz o eviden direct n favoarea cauzalitii;
analogia existena unor relaii cauzale analogge poate oferi condiii pentru o nou
cauzalitate.
Se observ c subiectul cauzalitii relevate de studiile experimentale impune un studiu multiplu
i remarcm c primele dou criterii (i nu numai ele) sunt legate strict de statistic. n acelai
timp se poate spune c statistica singur nu poate evidenia legturi cauzale n lumea real.
Reinem ns c un aspect al problemei este evidenierea asocierii i alt aspect este evaluarea
gradului de asociere.
Din punctul de vedere al utilitii, evidenierea asocierii dintre variabile poate conduce la
simplificarea unor proceduri de analiz a realitii: faptul c o variabil este asociat suficient de
puternic cu alt variabil poate duce la abandonarea determinrii experimentale pentru una dintre
variabile (de regul cea care se obine cu cheltuieli mai mari).
Un alt punct de vedere este acela n care cunoaterea asocierii dintre variabile permite
mbuntirea prognozelor efectuate pentru una dintre variabile dac se cunoate valoarea
celeilalte.
Se observ astfel c, n analiz, una dintre variabile joac rolul de variabil dependent iar
cealalt (sau celelalte) joac rolul de variabil independent (variabile independente).
Denumirile (ca i rolurile) sunt relative, doar necesitile i posibilitile cercettorului stabilind
64 Introducere n statistica multivariat
rolul fiecrei variabile. Acceptm totui c n studiul asocierii suntem interesai s cunoatem ce
se ntmpl cu valorile unei variabile (variabila dependent) cunoscnd valorile celorlalte
variabile (variabilele independente).
Msuri de asociere
Msurile de asociere const din coeficieni, indici de asociere, care, pe ct posibil, sunt
standardizai (adimensionalizai) pentru a permite comparaii directe. Sunt mai multe scale pe
care se msoar gradul de asociere. Se disting scalele standardizate direcionale i nedirecionale.
Scala direcional (1+1). Permite distingerea asocierilor negative (n care valorile
variabilelor sunt invers proporionale: mare cu mic, mic cu mare) de asocierile pozitive (n care
valorile variabilelor sunt direct proporionale: mare cu mare, mic cu mic). Valoarea zero indic
lipsa de asociere. Este specific variabilelor ordinale i celor continue (de interval).
1 0 +1
Asociere negativ
(invers)
Lips de asociere Asociere pozitiv
(direct)

Scala nedirecional (01). Este mai puin senzitiv dect scala direcional, permite doar
diferenierea asociere neasociere, fr a specifica sensul asocierii. Pentru variabilele asociate
puternic nu se poate preciza tipul de asociere. Este specific variabilelor nominale.
Pentru un indicator de asociere se poate defini atributul PRE (Proportional Reduction in Error)
reducerea proporional a erorii. Acest atribut se refer la mbuntirea prognozei valorilor
variabilei dependente atunci cnd se cunoate valoarea variabilei independente. Nu toi
indicatorii de asociere au atributul PRE, dar cei care l au sunt preferai celor care nu l au.
S considerm un studiu n care 100 de salariai au rspuns la dou ntrebri: cum sunt pltii, ct
sunt de mulumii de munca lor. Rspunsurile la ntrebri (valori de variabile dichotomice,
nominale) sunt prezentate n urmtorul tabel de contingen:

Plata

Bun Rea Total
Satisfcut 35 15 50
Nesatisfcut 15 35 50
Satisfacia
muncii
Total 50 50 100

Considerm c "satisfacia muncii" este variabila dependent" n timp ce "plata" este variabila
independent. Dorim deci s putem prognoza (prezice, evalua) gradul de mulumire a unei
persoane cunoscnd modul n care este pltit. O analiz sumar a tabelului arat c exist o
anumit asociere ntre valori, deoarece repartizarea celor 100 de persoane nu este uniform.
Analiznd tabelul putem spune c o predicie corect poate fi fcut n 35 + 35 = 70 (%) din
cazuri dac tim care este nivelul de plat i utilizm frecvenele maxime (plat bun =>
satisfcut, plat rea => nesatisfcut). Prin urmare avem 30% erori.
Totui, acest raionament d prea mult putere de predicie modului de plat, deoarece, chiar n
lipsa oricrei cunoateri privind plata, putem grei, n orice predicie, doar n 50% dintre cazuri
(cunoscnd repartiia marginal 5050 a satisfaciei muncii).
Se definete atunci o msur a cantitii cu care cunoaterea variabilei independente mrete
corectitudinea prediciei n raport cu o "ghicire" pur (bazat doar pe cunoaterea repartiiei
variabilei dependente):

Asocierea datelor 65
Eroarea folosind
doar variabila
dependent

Eroarea folosind
variabila
independent
PRE=
Eroarea folosind doar variabila
dependent
n exemplul considerat, PRE = 40%, adic s-a redus cu 40% eroarea de predicie prin utilizarea
informaiei date de variabila independent. Se poate gndi PRE ca variana explicat de variabila
independent (deci 40% din variana variabilei dependente este explicat de variabila
independent).
Asocierea ntre dou variabile nominale (calitative)
Considerm dou variabile discrete nominale, fie ele X i Y, avnd r i, respectiv, s categorii.
Datele experimentale msurate ntr-un eantion de volum n sunt prezentate n urmtorul tabel de
frecvene ncruciate.
Y
1
Y
j
Y
s
Total
X
1
n
11
n
1j
n
1s
n
1*

X
i
n
i1
n
ij
n
is
n
i*

X
r
n
r1
n
rj
n
rs
n
r*
Total n
*1
n
*j
n
*s
n
unde n
i*
reprezint totalul frecvenelor de pe linia i, iar n
*j
este suma frecvenelor de pe coloana
j.
O prim analiz care se poate efectua asupra unui tabel de frecvene este trecerea la frecvene
relative i comparaiile uzuale ntre acestea. Se pot obine trei tipuri de frecvene relative:
raportate la totalurile pe linii (n
ij
/n
i*
), caz n care se obine tabloul profilelor-linii i se pot
compara ntre ele linii: prin ponderarea cu totalurile liniilor, se pot compara subpopulaiile
determinate de nivelurile variabilei X;
raportate la totalurile pe coloane (n
ij
/n
*j
), caz n care se obine tabloul profile-lor-coloane i
se pot compara ntre ele coloane: prin ponderarea cu totalurile coloanelor, se pot compara
subpopulaiile determinate de nivelurile variabilei Y.
Se poate considera c variabilele X i Y sunt independente empiric, dac are loc relaia
(1) j i
n
n n
n
j i
ij
, ) ( ,

=


care exprim faptul c liniile (coloanele) sunt proporionale, deci profilele-linii sunt egale (ca i
profilele-coloane). Se poate demonstra c, n aceste ccondiii, proporia elementelor clasate Y
j

este aceeai ntre elementele clasate X
i
ca i ntre elementele neclasate X
i
(elementele non X
i
).
Aceast observaie ntrete ideea de independen ntre caracteristicile X
i
i Y
j
, independen
care extins la toate nivelurile, conduce la independena ntre X i Y.
Orice abatere de la egalitile exprimate de relaia (1) denot o ndeprtare de independena celor
dou variabile, adic poate constitui baza unui indicator al asocierii dintre variabile.
Vom spune c ntre nivelurile X
i
i Y
j

exist o asociere pozitiv dac n
ij
> (n
i*
n
*j
) / n (adic n celula i,j exist o frecven mai mare
dect n populaie);
exist o asociere negativ dac n
ij
< (n
i*
n
*j
) / n (adic n celula i,j exist o frecven mai
mic dect n populaie).
66 Introducere n statistica multivariat
Se adopt ca msur a asocierii (globale) mrimea (Pearson)
d
2

(sau
2
) =


|
|
.
|

\
|

j i j i
j i
ij
n
n n
n
n n
n
, * *
2
* *


sau d
2
= n
(
(

1
* *
2
ij j i
ij
n n
n
.
De notat c pentru fiecare celul cantitatea
2
* *
2
* *
1

|
|
.
|

\
|

n
n n
n
n n
n
j i
j i
ij

numit contribuia la
2
evideniaz asociaiile semnificative.
Cum n
ij
/n
*j
1 =>
j
ij
ij j
ij
n
n
n n
n
* *
2
=> d
2
n(s1) i, analog, d
2
n(r1), de unde rezult c

n
d
2
min(s1, r1),
adic exist o limit superioar pentru cantitatea d
2
/n, dei d
2
este dependent de ordinul de
mrime al frecvenelor (deci al eantionului) i de numrul de niveluri ale variabilelor X i Y.
Marginea superioar este atins n cazul dependenelor funcionale (doar cte o celul nenul pe
fiecare linie, fiecare coloan).
Indicatorul
2
(numit indicator al contingenei ptratice) nu este msurat pe o scal 0 1 i, din
acest motiv, nencadrndu-se n teoria general a indicilor de asociere, nu poate fi utilizat cu
bune rezultate pentru comparaii.
Au fost propui atunci o serie de ali indici, (derivai din
2
):

2
=
n
2

, indicator al contingenei ptratice medii (Pearson)


C =
2
2

+ n
, coeficientul contingenei ptratice medii (Pearson)
cu observaiile:

2
are neajunsul c d rezultate diferite, pe aceeai populaie, atunci cnd se modific
modul de grupare n clase;
acelai lucru se poate spune i despre C. n plus, C nu poate lua valoarea maxim 1
(atins doar la limit, dup dimensiunea tabloului). Pentru o asociere perfect, la o
repartiie simetric de frecvene rr,
C =
r
r 1
.
Utilizarea lui C este mai potrivit pentru repartiii de dimensiuni mai mari: de exemplu, la
dimensiunea 55 maximul lui C este 0,80 etc.
Asocierea datelor 67
Pornind tot de la
2
se definete coeficientul lui Ciuprov:
T
2
=
) 1 )( 1 (

2
t s

care, pentru tablouri ptrate, r = s, variaz de la 0 la 1, deci se conformeaz unei msuri de
asociere nedirecional.
n sfrit, coeficientul lui Cramer
V
2
=
)} 1 ( ), 1 min{(
2
r s

.
Semnificaia statistic a asocierii
Se poate utiliza cantitatea
2
pentru a testa asocierea evideniat de datele de sondaj.
Testul de asociere
2
are ipotezele:
H
0
: variabilele X i Y nu sunt asociate;
H
1
: variabilele X i Y sunt asociate.
Se demonstreaz c n condiiile ipotezei H
0
, variabila
2
, calculat mai sus, este repartizat
2

cu un numr de grade de libertate egal cu (r1)(s1),
2
~
2
(r-1)(s-1)
, ceea ce permite efectuarea
unui test statistic.
Decizia n test se poate lua
pe baza comparrii valorii calculate
2
cu valoarea critic tabelat corespunztoare
pragului de semnificaie fixat; se respinge ipoteza nul dac valoarea calculat este
mai mare dect valoarea critic tabelat, sau
pe baza interpretrii probabilitii critice a testului; ipoteza nul se respinge dac
probabilitatea critic calculat este mai mic dect pragul de semnificaie fixat.
n cazul n care nu se respinge ipoteza nul nu nseamn c ntre cele dou variabile nu exist
asociere. Trebuie interpretat c asocierea nu a putut fi pus n eviden de datele existente, sau
c asocierea nu este statistic semnificativ.
Prin respingerea ipotezei nule se afirm doar existena asocierii dintre variabile, nu i msurarea
gradului de asociere. Pentru aceasta se utilizeaz alte tehnici statistice, de exemplu coeficienii
de corelaie.
Limite de aplicare. Pentru a aplica testul trebuie ca nu mai mult de 20% dintre celule s aib
mai puin de 5 elemente.
Asocierea datelor ordinale
Datorit faptului c scalele de msur ordinale au definit ordinea ntre categorii (clase),
coeficienii de asociere sunt direcionali, adic msurai pe o scal
10+1.
Coeficientul de corelaie a rangurilor (Spearman) r
s

Acesta este o msur PRE i este direcional. Se utilizeaz atunci cnd observaiile cuprind
valori ale unor variabile ordinale, structurate ca n tabelul urmtor:
Observaia variabila 1 variabila 2
1 v
11
v
21

2 v
12
v
22

n v
1n
v
2n

68 Introducere n statistica multivariat
Pentru a calcula r
s
, se ncepe prin a atribui ranguri valorilor fiecrei variabile, separat. n
atribuirea de ranguri se vor trata situaiile de ex-aequo prin atribuirea ca rang a unei secvene de
valori egale a rangului obinut ca medie aritmetic a rangurilor cuvenite valorilor egale (exist i
alte metode de tratare a egalitilor, de exemplu se poate da rangul maxim din secven). Se
obine astfel
Observaia
ranguri
variabila 1
ranguri
variabila 2
d
2
1 r
11
r
21
(r
11
-r
21
)
2
2 r
12
r
22
(r
12
-r
22
)
2


n r
1n
r
2n
(r
1n
-r
2n
)
2

Formula de definiie a coeficientului de corelaie a rangurilor este
r
s
= 1
) 1 (
6
2

n n
d
i
i
.
Este de menionat c r
s
este sensibil la ex-aequo-uri i din acest motiv, n cazul unui mare numr
de egaliti, se recomand utilizarea coeficientului de corelaie liniar Pearson (prezentat la
asocierea datelor continue), care produce o estimare mai conservatoare a corelaiei din populaie.
Testarea semnificaiei coeficientului r
s
calculat este bazat pe statistica
=
2
1
2
s
s
r
n
r

,
care, n ipoteza nul, H
0
:
s
= 0, urmeaz o distribuie Student cu = n2 grade de libertate. Se
va respinge H
0
n favoarea unei ipotezei alternative, direcionale sau nu, prin procedura uzual a
unui test bazat pe repartiia Student.
Coeficientul de corelaie a rangurilor nu este adecvat pentru scale ordinale cu puine categorii
(57) care dau, de regul, multiple cazuri de egalitate: pe o scal cu 5 categorii, un eantion de
30 de elemente duce, la o distribuie uniform, la 6 egaliti pe categorie, ceea ce este mult. n
asemenea situaii se utilizeaz coeficientul , definit n continuare.
Coeficientul
Acest indicator este bazat tot pe atribuirea de ranguri valorilor celor dou variabile ordinale, dar
pleac de la ideea: cunoaterea ordinii a dou ranguri pentru variabila independent poate
prezice ordinea rangurilor pentru variabila dependent? Rspunsul ar trebui s fie afirmativ
pentru variabile asociate, orice abatere de la acest rspuns trebuie s conduc la ideea de
independen (lips de asociere) ntre cele dou variabile.
Coeficientul este o msur PRE pe o scal direcional i se definete prin
=
i a
i a
f f
f f
+


unde f
a
este numrul de agremente (potriviri), f
i
este numrul de inversiuni, spunnd c
r
1i
r
2i

r
1j
r
2j

se potrivesc dac ordinea este aceeai n cele dou coloane i c are loc o inversiune dac
ordinea este schimbat.
Asocierea datelor 69
Pentru calcule, se ordoneaz observaiile dup prima variabil (independent) i apoi se numr
inversiunile ca la permutrile de n obiecte (din algebr). Perechile care coincid n cel puin o
variabil (nu sunt nici agremente, nici inversiuni) se exclud din calcule.
n cazurile de multiple egaliti, cum ar fi datele prezentate n tabelul urmtor:

consum de alcool
criminalitate
f. nalt nalt sczut f. sczut
f. nalt a b c d
nalt e f g h
sczut i j k l
f. sczut m n o p
calculul potrivirilor este efectuat din colul din stnga-sus, pentru fiecare celul adunnd
frecvenele din celulele dominate de celula respectiv (celulele aezate mai jos i mai la dreapta):
celula a domin blocul de celule f : p,
celula g domin blocul l i p,
celula h nu domin nici o alt celul etc.
Se obin astfel potrivirile:
pentru celula (a): a (f+g+h+j+k+l+n+o+p)
pentru celula (b): b (g+h+k+l+o+p)

pentru celula (k): k p
Numrul total, f
a
, se obine ca suma cantitilor astfel calculate.
Pentru inversiuni se pleac din colul din dreapta-sus i se utilizeaz frecvenele din celulele
aezate mai jos i mai la stnga fa de celula respectiv. Se obin astfel potrivirile:
pentru celula (d): d (e+f+g+i+j+k+m+n+o)
pentru celula (c): c (e+f+i+j+m+n)

pentru celula (i): i m
Numrul total de inversiuni, f
i
, se obine ca suma cantitilor astfel calculate.
Situaiile neconsiderate n aciunile descrise sunt egaliti care se exclud.
i semnificaia lui poate fi testat prin utilizarea unei formule aproximative (aplicabil pentru n
10)
z =
) - n(1
f f
2
i a

+

care, n ipoteza H
0
: = 0, este o variabil normal redus i se poate aplica un test bazat pe
repartiia normal standard.
Asocierea datelor continue (de interval)
n domeniul datelor continue, asocierea variabilelor este, de regul, studiat sub denumirea de
corelaie (denumire care a fost introdus i la coeficientul de corelaie a rangurilor, pentru date
ordinale). Se pot distinge dou mari direcii n acest studiu:
calcularea unui indicator al asocierii (corelaiei)
estimarea unui model funcional care s reprezinte asocierea dintre variabile.
Vom schia n continuare ambele direcii, n cazul a dou variabile. Generalizarea la un numr
oarecare de variabile este obiectul unui capitol separat.
n 1985, Francis Galton a publicat un studiu asupra corespondenei dintre nlimile prinilor i
cele ale fiilor lor (la recrutarea n armat). Datele au indicat c media nlimilor fiilor cu prini
70 Introducere n statistica multivariat
nali era mai mic dect a prinilor, n timp ce fiii celor mai scunzi erau, n medie, mai nali
dect prinii lor.
Galton a conchis c exist o tendin general pentru regresia ctre media populaiei. Articolul
su "Regresia ctre mediocritate n ereditate" constituie baza unei ramuri a statisticii, analiza
regresiei, care se ocup cu determinarea, predicia valorilor unei variabile dependente, Y, care
este asociat unei variabile independente, X.
Un contemporan al lui Galton, Karl Pearson, a dezvoltat metoda n analiza corelaiei. n timp ce
coeficientul de regresie reprezint schimbarea medie a lui Y asociat cu o schimbare a lui X,
coeficientul de corelaie furnizeaz un indicator sintetic, direcional, al relaiei de asociere
dintre dou variabile.
Dreapta de regresie
Considerm c, ntr-un eantion de volum n s-au determinat perechile de valori (x
i
,y
i
), i=1,,n,
corespunztoare celor dou variabile pentru care dorim s studiem asocierea i relaia dintre ele.
O prim apreciere asupra distribuiei comune o vom avea dac realizm diagrama de mprtiere
a valorilor, de fapt reprezentarea ntr-un sistem de axe a punctelor avnd coordonatele x i y.
Analiza vizual a organizrii i formei norului de puncte obinut poate oferi indicii importante
asupra relaiei dintre variabile.
Datele de sondaj vor susine ipoteza asocierii ntre variabile dac forma norului de puncte se
apropie de o curb funcional. Astfel, se pot aprecia asocieri liniare, curbilinii etc. Dac n norul
de puncte nu se poate distinge o tendin, se va spune c variabilele nu sunt corelate.
n figura urmtoare sunt ilustrate cteva tendine identificabile direct.
Cazul (a) ilustreaz o asociere pozitiv, (b) o asociere negativ, (c) lips de asociere, (d)
asociere curbilinie.
Relaiile de interes pentru discuia din continuare sunt cele ilustrate n cazurile (a) i (b), unde
este identificabil o tendin liniar n norul de puncte. Pentru a sintetiza modul n care
schimbrile lui Y sunt asociate cu schimbrile lui X, metoda matematic utilizat este "metoda
celor mai mici ptrate" (Legendre, 1806). Aplicat n cazul nostru, asocierea dintre X i Y este
reprezentat printr-o linie dreapt trasat printre punctele diagramei de mprtiere. Linia
estimat este "cea mai bun" n sensul c exprim cel mai central drum printre puncte: linia
pentru care suma ptratelor distanelor (pe vertical) dintre puncte i dreapt este minim.
Termenul comun pentru dreapta estimat este acela de dreapta de regresie.
Distanele sunt referite ca erori (reziduuri). Deci dreapta de regresie realizeaz valoarea minim
a b c d
x
0

y
0

Asocierea datelor 71
a ptratelor erorilor, n sensul c orice alt dreapt produce o sum de ptrate mai mare.
Este de amintit c o proprietate a mediei aritmetice este aceea c suma ptratelor diferenelor de
la medie are o valoare minim. Astfel se poate spune c, dup cum media reprezint punctul de
echilibru pentru o distribuie univariat de scoruri, la fel dreapta de regresie reprezint punctul
de echilibru ntr-o distribuie bivariat.
Utilitatea dreptei de regresiei este aceea c servete ca baz pentru predicia valorilor luiu Y
asociate valorilor lui X. Astfel, dat o valoare x
0
, valoarea prognozat pentru Y este y
0
, ordonata
pe dreapta de regresie corespunztoare abscisei x
0
. Problema estimrii erorilor de predicie va fi
tratat o dat cu prezentarea modelului general.
Problema prezentat poate fi formulat matematic drept determinarea cantitilor a i b din
ecuaia Y
e
= a + b X, unde
Y
e
este valoarea prezis a variabilei dependente;
a este termenul liber al dreptei de regresie (valoarea pentru X=0);
b este coeficientul de regresie (cantitatea cu care se modific Y atunci cnd X se
modific cu o unitate);
X este valoarea variabilei independente.
Se demonstreaz c, prin metoda celor mai mici ptrate, se obine:
b =


2
) (
) )( (
X x
Y y X x
i
i i
i
a = X b Y .
Valoarea estimat, totui, este numai o medie care se poate atepta. Acurateea depinde de ct de
bine se potrivete dreapta de regresie cu datele reale. Aceast potrivire este evaluat prin
considerarea unei statistici: eroarea standard a estimaiei, definit ca abaterea standard a erorilor
de estimare (a reziduurilor estimaiei):
s =
2 n
) (
2
i

ei
y y

unde y
ei
reprezint valoarea estimat (prin ecuaia de regresie) pentru x
i
.
O eroare standard mare arat c valorile observate sunt la distan de dreapta de regresie i deci
aceasta este mai puin reprezentativ pentru datele reale. n consecin i valorile prognozate
sunt afectate de erori mai mari.
Valorile estimate de dreapta de regresie trebuiesc gndite ca medii ale valorilor Y asociate cu un
X particular. Altfel spus, dac am dispune de eantioane repetate, mediile valorilor Y
(corespunztoare valorii X) vor fi date de dreapta de regresie.
Dac notm cu y
0
valoarea estimat corespunztoare lui x
0
, adic y
0
= a + b x
0
, atunci abaterea
standard a lui y
0
este
s(y
0
) = s

+
2
2
0
) (
) ( 1
x x
x x
n
i
,
unde s este abaterea standard a estimaiei.
Se poate construi atunci, pentru un prag de semnificaie fixat , intervalul de ncredere pentru
valoarea estimat:
(y
0
- t
1-/2;n-
s(y
0
), y
0
+ t
1-/2;n-2
s(y
0
))
Atunci cnd valorile x
0
sunt mai deprtate de media lui X, intervalul de ncredere se mrete,
prognoza este nsoit de erori mai mari. Prediciile pentru valorile Y vor fi mai precise n
apropierea mediei lui X.
72 Introducere n statistica multivariat
Coeficientul de corelaie (liniar)
Analiza de regresie este, n esen, o metod pentru a permite predicii, adic s estimm o
valoare a unei variabile Y atunci cnd dispunem de o valoare a variabilei asociate X. Totui, de
multe ori n aplicaii, cercettorii nu sunt interesai sau nu cunosc care variabil este
independent, care dependent n sensul cerut de practic. Ei sunt ns interesai s tie dac
dou variabile sunt asociate i gradul de asociere.
O asemenea msur o furnizeaz coeficientul de corelaie, notat r. Acesta (msurat pe o scala
direcional) are valori de la 1 la +1, o valoare nul indic lipsa de asociere, +1 arat o asociere
(corelaie) pozitiv perfect, o valoare de 1 arat o asociere negativ perfect.
Coeficientul de corelaie este definit prin
r =
( )( )



2 2
) ( ) (
) )( (
Y y X x
Y y X x
i i
i i
,
existnd, evident, i alte formule echivalente.
Semnificaia coeficientului de corelaie poate fi testat utiliznd un test Student. n aplicarea
testului se presupune (este cerut) c mprtierea valorilor Y este uniform dup valorile lui X
(proprietatea de homoscedasticitate). n plus, exist i ipoteze distribuionale, de normalitate a
variabilelor X i Y. Statistica testului este
t = r
2
1
2
r
n

.
n ipoteza H
0
: = 0, statistica t este repartizat Student cu n-2 grade de libertate. Se respinge H
0

n favoarea ipotezei alternative nedirecionale H
1
: 0, dac |t| > t
1-/2;n-2
. Se pot considera i
teste unilaterale, dup procedura general a testelor bazate pe distribuia Student.
Este de remarcat, dup formula statisticii testului, c valoarea critic a unui coeficient de
corelaie depinde de volumul eantionului, nct eantioane mai mici necesit coeficieni mai
mari pentru a susine asocierea variabilelor.
O ultim observaie este aceea c ipotezele testate se refer la populaie, de aceea este vorba
despre (coeficientul de corelaie n populaie) i nu despre r (coeficientul calculat n eantion i
care este doar o estimaie a coeficientului din populaie).
ntre cele dou analize, de regresie i de corelaie, legtura este dat de rezultatul:
Dac ntre Y i X exist o relaie liniar perfect, adic Y = X + , atunci
coeficientul de corelaie este dat de
=


egalitate ce arat c = 1, dac > 0 i = -1 dac < 0.
Rezultatul prezint o bun concordan cu aprecierile intuitive efectuate la nceputul seciunii
despre asocieri pozitive, negative etc.

Modelul Liniar
Regresia liniar, prin metoda celor mai mici ptrate, este metoda de modelare cea mai des
utilizat. Este metoda denumit regresie, regresie liniar, regresie multipl sau cele mai
mici ptrate atunci cnd se construiete un model.
Metoda regresiei liniare are, de asemenea, un rol important n dezvoltarea altor metode:
analiza dispersional (ANOVA),
analiza covarianei (ANCOVA),
analiza factorial,
analiza cluster,
scalare multidimensional,
analiza discriminant etc.
Din punct de vedere istoric, abordarea teoretic a devenit posibil o dat cu dezvoltarea teoriei
invarianilor algebrici (secolul XIX: Gauss, Boole, Cayley, Sylvester). Teoria invarianilor
algebrici are ca obiect identificarea cantitilor, ataate unui sistem liniar, care rmn
neschimbate atunci cnd variabilele sistemului sunt supuse unei transformri liniare. Putem
gndi c teoria invarianilor algebrici caut lucrurile stabile, eterne n haosul lucrurilor
schimbtoare, ceea ce nu este un lucru minor n nici o teorie. Revenind la statistic, s ne gndim
doar la ce ar nsemna coeficientul de corelaie dac nu ar fi invariant la o transformare liniar a
variabilelor (de exemplu o schimbare a unitilor de msur).
Scopul regresiei multiple (termen utilizat de Pearson, 1908) este de a evidenia relaia dintre o
variabil dependent (explicat, endogen, rezultativ) i o mulime de variabile independente
(explicative, factoriale, exogene, predictori). Prin utilizarea regresiei multiple se ncearc,
adesea, obinerea rspunsului la una dintre ntrebrile: care este cea mai bun predicie pentru
?, cine este cel mai bun predictor pentru ? .
De reinut c metoda regresiei multiple este generalizat prin teoria modelului liniar general,
n care se permit mai multe variabile dependente simultan i, de asemenea, variabile factoriale
care nu sunt independente liniar.
Definiie
Clasa modelelor liniare poate fi exprimat prin
y = x +
unde
y este variabila dependent (explicat, endogen, rezultativ),
x este vectorul variabilelor independente (explicative, exogene), de dimensiune 1p,
este vectorul coeficienilor, de dimensiune p1, parametrii modelului,
este o variabil, interpretat ca eroare (perturbare, eroare de msurare etc.).
Cu alte cuvinte,
y =
1
x
1
+
2
x
2
++
p
x
p
+
care exprim relaia liniar dintre y i x.
Observaii. 1. Liniaritatea relaiei se refer la coeficieni i nu la variabile. Astfel, modelul
+ + + =
3
3 2 2
2
1 1
1
y
x
x x
este tot un model liniar.
2. Considernd c x
1
este constant egal cu 1, se obine un model liniar care include un termen
constant (termenul liber al modelului).
3. Pentru p = 2 i x
1
1 se obine modelul liniar simplu, dreapta de regresie.
74 Introducere n statistica multivariat
4. Utilitatea principal a unui model liniar este aceea a prediciei valorii lui y din valorile
cunoscute ale variabilelor x.
Presupunem c avem un set de n observaii efectuate asupra variabilelor implicate n model. Prin
urmare dispunem de (x
i1
, x
i2
, . . . . , x
ip
, y
i
), i = 1, 2, . . . , n. Notnd cu y vectorul de tip n1 avnd
drept componente valorile msurate pentru variabila y, cu X matricea (x
ij
)
np
a valorilor msurate
pentru variabilele x i cu vectorul de tip n1 avnd drept componente valorile erorilor, modelul
se rescrie n relaia matriceal:
y = X +

Ipoteze iniiale. n tot ceea ce urmeaz se presupun ndeplinite ipotezele:
1. Matricea de experiene, n observaii pentru p variabile, este fixat: X
np
nu este
stohastic. n plus, n >> p.
2. X este de rang p (coloanele sunt liniar independente formeaz o baz a unui spaiu
vectorial p-dimensional).
3. a. Vectorul de perturbaii (n-dimensional) const din n variabile aleatoare
independente cu media 0 i aceeai dispersie:
Exp() = 0
Var() = Exp(') =
2
I
n
, unde
2
este un parametru necunoscut,
sau,
b. Vectorul este o v.a. n-dimensional normal
~ N(0,
2
I
n
).
De remarcat c ultima ipotez, a normalitii, este, mai degrab, o ipotez simplificatoare dect
una restrictiv, cum sunt primele dou. Aceasta deoarece erorile se datoreaz, n general, n
procesele studiate, aciunilor simultane ale unor factori aleatorii, ceea ce prin teorema de limit
central conduce la concluzia c , ca sum a lor, tinde spre o repartiie normal.
Problemele principale urmrite sunt:
estimarea coeficienilor ,
calitatea estimrii,
verificarea ipotezelor,
calitatea prediciei,
alegerea modelului.
Estimaia prin cele mai mici ptrate
Numim estimaie (ajustare) a modelului orice soluie {a, e} a sistemului
y = Xa + e.
Este de remarcat c sistemul conine n ecuaii i p + n necunoscute, deci admite o infinitate de
soluii.
Numim estimaie prin cele mai mici ptrate, acea soluie a care minimizeaz suma ptratelor
erorilor e
i
, adic

= =
+ + + =
n
i
ip p i i i
n
i
i
x a x a x a y e
1
2
2 2 1 1
1
2
)] ( [ K .
Cum e e =

=
2
1
2
i
i
e este o funcie de coeficienii a, o condiie necesar pentru atingerea
maximului este
0 ) ( =

e e
a
.
Se ajunge astfel la sistemul
Modelul Liniar 75
X'Xa = X'y,
care se numete sistemul ecuaiilor normale. Cum, din ipoteze, matricea X'X este inversabil,
se obine
a = (X'X)
-1
X'y.
Se demonstreaz c este satisfcut criteriul de minim i c este singura valoare cu aceast
proprietate. Prin urmare, valorile determinate reprezint estimaia prin cele mai mici ptrate a
coeficienilor modelului liniar.
Ecuaia
y = a
1
x
1
+ a
2
x
2
+ + a
p
x
p

se numete ecuaia de regresie multipl.
nlocuind n aceast relaie valori pentru variabilele independente x
i
se obine valoarea
prognozat pentru variabila dependent y.
Interpretarea coeficienilor
Un coeficient a
i
are interpretarea: modificarea cu 1 a valorii variabilei x
i
produce o modificare a
valorii y cu a
i
uniti. Deoarece scalele de msur sunt, n general, diferite, interpretarea n acest
sens a coeficienilor poate deforma imaginea importanei variabilelor independente n model.
Din acest motiv se introduc coeficienii de regresie standardizai definii drept coeficienii de
regresie estimai ai modelului:
p p
x x x y
~ ~ ~ ~
2 2 1 1
+ + + = K
n care nu exist termen liber, iar variabilele y
~
i
i
x
~
sunt variabilele standardizate. Prin
standardizare nelegndu-se transformarea de tipul
x
s
x x
x

=
~
.
Coeficienii de regresie standardizai au interpretarea: modificarea cu o abatere standard a valorii
variabilei x produce o modificare cu
i
abateri standard a valorii variabilei dependente. n acest
fel, mrimea coeficienilor standardizai reflect importana variabilelor independente n
predicia lui y.
Distribuia estimatorului

Exp(a) =
Var(a) =
2
(X'X)
-1
.
Teorema Gauss Markov:
n condiiile presupuse, estimaia este BLUE (Best Linear Unbiased Estimator):
media este egal cu parametrul estimat; dispersia este minim n clasa tuturor
estimatorilor liniari nedeplasai.
Teorema lui Rao
Estimaia (X'X)
-1
X'y este estimaia de verosimilitate maxim i este de varian
minim n clasa estimatorilor nedeplasai.
Estimaia dispersiei erorilor (
2
)
Notnd cu valoarea ajustat, dat de ecuaia de regresie, pentru o realizare a vectorului x,
considerat la estimarea parametrilor, se obine eroarea de ajustare, notat cu e:
e
i
= y
i
-
i
, i = 1,,n.
Erorile de ajustare sunt denumite uzual reziduuri i analiza lor este o parte important studiului
calitativ al ecuaiei de regresie. Este evident c reziduurile constituie estimaii ale erorilor . Prin
metoda de calcul se obine c media reziduurilor este egal cu zero (cu observaia evident c
76 Introducere n statistica multivariat
eventuala abatere de la zero este datorat erorilor propagate de metoda numeric utilizat). Se
demonstreaz c
p n
y y
s
n
i
i i

=

=1
2
2
) (

este o estimaie nedeplasat a dispersiei necunoscute
2
.
Este de notat c numitorul este egal cu numrul gradelor de libertate a sumei de la numrtor (n
observaii din care am obinut p estimaii).
Precizia ajustrii
Reziduuri mici exprim o ajustare mai bun a datelor experimentale, dar stabilirea unui criteriu
care s indice ct de mici trebuie s fie reziduurile pentru ca regresia s fie acceptat este o
problem dificil.
Pentru a obine o msur a preciziei ajustrii se pleac de la identitatea
) ( ) ( y y y y y y
i i i i
=
care, prin reorganizarea termenilor, produce
). ( ) (
i i i i
y y y y y y + =
Se poate demonstra c identitatea se pstreaz dac se ridic fiecare termen la ptrat i se
sumeaz dup i:
. ) ( ) ( ) (
2 2 2

+ =
i
i i
i
i
i
i
y y y y y y
Aceast relaie arat c variaia valorilor observate n jurul valorii medii se descompune ntr-un
termen ce exprim variaia valorilor estimate n jurul mediei i ntr-un termen datorat
reziduurilor ajustrii. Prin urmare, regresia estimat va fi cu att mai bun cu ct ultimul termen
va fi mai mic, sau cu ct variaia valorilor estimate va fi mai apropiat de variaia valorilor
observate. Se alege drept indicator sintetic de precizie a ajustrii raportul
2
2
2
) (
) (

=
i
i
i
i
y y
y y
R .
Pentru o bun ajustare a ecuaiei de regresie la datele experimentale, trebuie ca acest raport s fie
apropiat de 1.
Cantitatea R
2
se numete coeficientul de determinare i, exprimat procentual, arat ct din
variana variabilei dependente este explicat de ecuaia estimat. Este un indicator de asociere
avnd atributul PRE,
2
2 2
2
) (
) ( ) (


=
i
i
i
i i
i
i
y y
y y y y
R

deci poate fi interpretat i n urmtorul sens: cu ct se mbuntete prognoza valorilor y prin
considerarea modelului estimat.
Se arat c R
2
crete prin includerea mai multor variabile n model, astfel nct are loc o
supraestimare n cazul modelelor extinse. O soluie propus este ajustarea coeficientului de
determinare prin
). 1 (
1
2 2 2
R
p n
p
R R

=
Modelul Liniar 77
Coeficientul de corelaie multipl
Ca msur a asocierii dintre y i ansamblul variabilelor x se introduce coeficientul de corelaie
multipl, notat cu R. Poate fi definit drept coeficientul maxim de corelaie simpl (Pearson)
dintre y i o combinaie liniar de variabile x. Astfel se explic faptul c valoarea calculat a lui
R este ntotdeauna pozitiv i tinde s creasc o dat cu mrirea numrului de variabile
independente.
Metoda celor mai mici ptrate poate fi astfel gndit ca o metod care maximizeaz corelaia
dintre valorile observate i valorile estimate (acestea reprezentnd o combinaie liniar de
variabile x). Prin urmare, R poate constitui o msur a ct de bine sunt aproximate valorile y
observate de ctre regresia estimat. O valoare R apropiat de 0 denot o regresie
nesemnificativ, valorile prognozate de regresie nefiind mai bune dect cele obinute printr-o
ghicire aleatorie (sau bazate doar pe distribuia lui y).
Deoarece R tinde s supraestimeze asocierea dintre y i x, se prefer indicatorul definit anterior,
coeficientul de determinare, R
2
, care este ptratul coeficientului de corelaie multipl.
Coeficientul de corelaie parial
Corelaia parial a dou variabile este corelaia dintre variabile dup ce s-a eliminat influena
altor variabile (numite de control). Ca notaie, de exemplu, r
12.3
este coeficientul de corelaie
parial dintre variabilele 1 i 2 dup ce s-a eliminat influena variabilei 3; r
12.34
este coeficientul
de corelaie parial dintre variabilele 1 i 2 dup ce s-a eliminat influena variabilelor 3 i 4.
In analize, compararea coeficientului de corelaie parial cu coeficientul de corelaie liniar
(Pearson) ofer informaii asupra mrimii influenei variabilelor de control:
dac r
12.3
se apropie de r
12
, atunci variabilele de control nu au efect asupra
variabilelor 1 i 2,
dac r
12.3
se apropie de zero, atunci asocierea dintre variabilele 1 i 2 este fals,
datorat influenelor variabilelor de control.
Pentru situaia simpl a unei singure variabile de control, coeficientul de corelaie parial dintre
y i x
1
, controlnd pe x
2
, se obine prin (exist i formule care nu ofer ns suport intuitiv):
1. se estimeaz regresia simpl y = f(x
2
) i se calculeaz reziduurile, fie acestea r
yx2

(reprezint y din care s-a eliminat efectul lui x
2
),
2. se estimeaz regresia simpl x
1
= f(x
2
) i se calculeaz reziduurile, fie acestea r
x1x2

(reprezint x
1
din care s-a eliminat efectul lui x
2
),
3. se calculeaz coeficientul de corelaie dintre r
yx2
i r
x1x2
, obinndu-se corelaia
parial r
YX1.X2
.
Dac exist mai multe variabile de control, atunci se procedeaz n mod similar, estimndu-se
ns regresii multiple.
Testarea ipotezelor
Notm
. ) (
) (
) (
2
2
2

=
=
=
i
i i rez
i
i reg
i
i g
y y SP
y y SP
y y SP

cele trei sume de ptrate care apar n identitatea introdus la definirea coeficientului de
determinare. Sumele sunt referite ca suma ptratelor global (SP
g
), suma ptratelor datorate
regresiei (SP
reg
) i suma ptratelor reziduale (SP
rez
). Fiecare sum de ptrate are ataat un numr
78 Introducere n statistica multivariat
de grade de libertate:
g
= n-1,
reg
= p-1,
rez
= n-p i se poate realiza un tabel al analizei
dispersionale (ANOVA) sub forma
Sursa
de variaie
Suma
de ptrate
Grade de
libertate
Media ptrat F
Regresie SP
reg

reg
SP
reg
/
reg
= s
2
reg
F = s
2
reg
/ s
2

Rezidual
SP
rez

rez
SP
rez
/
rez
= s
2

Global
SP
g

g
SP
g
/
g

Testul F de semnificaie global
Primul test utilizat n analiza regresiei este un test global de semnificaie a ansamblului
coeficienilor (exceptnd termenul liber, dac acesta apare).
Ipotezele testului sunt
H
0
:
1
=
2
= =
p
= 0
H
1
: ()i, astfel nct
i
0.
n condiiile ipotezei nule, se demonstreaz c statistica F, calculat n tabelul ANOVA, este
repartizat Fisher-Snedecor F
p-1;n-p
, astfel nct se poate verifica ipoteza nul.
Nerespingerea ipotezei nule duce la concluzia c datele observate nu permit identificarea unui
model liniar valid, deci regresia nu este adecvat n scopul de prognoz, propus iniial. Anumii
autori recomand chiar ca utilizarea pentru predicie a ecuaiei de regresie s aib loc doar dac
valoarea F calculat este de cel puin 4 ori mai mare dect valoarea critic a testului.
Teste t
n situaia cnd este respins ipoteza nul, se accept c ecuaia de regresie este semnificativ la
nivel global, cu meniunea c s-ar putea totui ca anumii coeficieni s nu fie semnificativi.
Pentru testarea fiecrui coeficient se utilizeaz un test t cu ipotezele:
H
0
:
i
= 0
H
1
:
i
0.
n condiiile ipotezei H
0
se arat c statistica
) (
i
i
i
a s
a
t = este repartizat Student cu n p grade de
libertate, ceea ce permite utilizarea procedurii de decizie a unui test t. n expresia care d
statistica testului, s(a
i
) este abaterea standard estimat a coeficientului, dat ca rdcina ptrat
din elementul corespunztor de pe diagonala principal a matricei s
2
(XX)
-1
.
Nerespingerea ipotezei nule arat c datele experimentale nu permit stabilirea necesitii
prezenei variabilei x
i
n model, variabila este nesemnificativ n model.
Observaie. Se pot efectua, n mod similar, teste asupra unei combinaii liniare de coeficieni.
Intervale de ncredere
Apar de interes dou tipuri de intervale de ncredere: pentru parametrii modelului,
i
, i pentru
valorile prognozate cu ajutorul modelului estimat.
Parametrii modelului
Din condiiile de baz ale modelului liniar (vectorul este o v.a. normal n-dimensional, ~
N(0,
2
I
n
)) rezult c vectorul estimat a este de asemenea distribuit normal
a ~ N(,(XX)
-1

2
)
cu parametrii
media M(a) = i
matricea de covarian D
2
(a) =
2
(X'X)
-1
.
Regiunea de ncredere, la nivelul , a vectorului coeficienilor este obinut ca
Modelul Liniar 79
( a)XX( a) ps
2
F
1-,p,n-p

Atunci cnd numrul coeficienilor, p, este mare, informaia din relaia regiunii de ncredere nu
este practic utilizabil; este dificil de intuit un elipsoid n spaiul cu p dimensiuni. Se prefer
atunci intervalele de ncredere calculate pentru fiecare coeficient.
Utiliznd repartiia statisticilor t
i
, definite la testarea semnificaiei parametrilor, se demonstreaz
c intervalul de ncredere pentru parametrul
i
, i = 1, 2, , p, este dat la pragul de ncredere
, de relaia
a
i
t
1-/2;n-p
s(a
i
)
1
a
i
+ t
1-/2;n-p
s(a
i
) .
Observaie. Utilizarea simultan a mai multor relaii care dau intervalele de ncredere pentru o
submulime de parametri, produce o regiune de ncredere supradimensionat pentru ansamblul
parametrilor considerai (paralelipipedul care cuprinde elipsoidul corespunztor). n asemenea
cazuri se utilizeaz repartiii multidimensionale, care produc regiuni de ncredere elipsoidale,
mult mai mici dect regiunile dreptunghiulare rezultate prin intersectarea unor intervale de
ncredere individuale.
Valorile prognozate
Utilitatea principal a modelului liniar este prognozarea valorilor variabilei dependente. In logica
statisticii infereniale, valoarea prognozat trebuie s se refere la populaie, deci s implice
modelul adevrat i nu cel estimat. Valoarea prognozat este evident o statistic pentru c se
obine prin modelul estimat (din datele experi-mentale). Se poate atunci vorbi de repartiia de
sondaj a valorii prognozate, repartiie care st la baza determinrii intervalelor de ncredere
pentru valorile prognozate.
n estimarea intervalului de ncredere pentru o valoare y
0
= x
0
+
0
, se distinge ntre situaiile n
care observaia x
0
a fost, sau nu, utilizat la estimarea coeficienilor (cu alte cuvinte, dac
matricea X conine sau nu linia x
0
).
n primul caz, intervalul de ncredere pentru valoarea estimat este

0
t
1-/2;n-p
s
0
1
0
) ( x X X x

y
0

0
+ t
1-/2;n-p
s
0
1
0
) ( x X X x


unde
0
= x
0
a, este valoarea prognozat de ecuaia de regresie.
n al doilea caz, intervalul de ncredere este

0
t
1-/2;n-p
s 1 ) (
0
1
0
+

x X X x y
0

0
+ t
1-/2;n-p
s 1 ) (
0
1
0
+

x X X x .
n cazul regresiei simple (dreapta de regresie), ultimul interval de ncredere are forma

0
t
1-/2;n-p
s

+
2
2
0
) (
) ( 1
x x
x x
n
i
y
0

0
+ t
1-/2;n-p
s

+
2
2
0
) (
) ( 1
x x
x x
n
i
,
de unde se obine concluzia c valorile prognozate au intervale de ncredere, la acelai prag de
ncredere, mai mari pe msur ce valoarea x
0
este mai deprtat de media x . De aici apare
recomandarea ca un model liniar s nu fie utilizat pentru prognoz n cazul n care variabilele
independente au valori deprtate de centrul datelor considerate la estimarea modelului (de
exemplu, estimarea trendului ratei de schimb valutar din datele unei sptmni nu poate fi
utilizat pentru a prognoza rata de schimb de peste un an). n cazul unui sistem dinamic (valorile
sunt produse/evaluate n timp), prognoza se va realiza doar pentru cteva momente de timp, dup
care are loc o nou estimare a modelului etc.
Analiza reziduurilor
Analiza statistic a ecuaiei de regresie este bazat pe ipotezele Gauss-Markov asupra erorilor
~ N(0,
2
I
n
). Valabilitatea acestor ipoteze, n special cea a normalitii erorilor, poate fi testat
prin analiza reziduurilor. Ca i n cazul testelor statistice, concluziile analizei sunt de genul:
80 Introducere n statistica multivariat
ipoteza normalitii se respinge sau ipoteza normalitii nu se respinge. Analiza reziduurilor este,
n esen, de natur grafic.
Calculul estimaiilor erorilor produce
e = Y
obs
-Y
est
= Y
obs
Xa = Y
obs
X(XX)
-1
XY
obs
= (1 X(XX)
-1
X)Y
obs

Notnd Z = X(XX)
-1
X = (z
ij
), rezult c, n cazul ndeplinirii ipotezelor Gauss-Markov,
dispersia reziduului e
i
este egal cu (1-z
ii
)
2
unde z
ii
sunt elementele de pe diagonala principal
a matricei Z, cu estimaia s
2
(e
i
) = (1-z
ii
)s
2
. Reamintim c media reziduurilor este egal cu zero.
Ipotezele de repartiie a erorilor sunt reflectate n repartiia reziduurilor (estimaii ale erorilor).
Se analizeaz histograma reziduurilor sau diagrame ale reziduurilor n raport de valorile
estimate, de variabilele independente. Diagramele construite n continuare pun n eviden
eventualele abateri de la repartiiile presupuse pentru erori, abateri ce vor exprima deviaiile de
la ipotezele de repartiie a erorilor.
Diagrama reziduurilor
Deoarece ) ) 1 ( ; 0 ( ~
2

ii i
z N e , rezult c mrimile d
i
, i = 1,,n, date de
ii
i
i
z s
e
d

=
1

sunt repartizate N(0;1). Din acest motiv, mrimile d
i
sunt denumite reziduuri normalizate.
Observaie. n practic, se neglijeaz uneori radicalul de la numitor.
Histograma mrimilor d
i
trebuie s reflecte o repartiie normal standard. Atunci cnd n este
relativ mic, histograma va prezenta, n general, mari neregulariti fa de situaia care ar permite
aproximarea cu o curb normal. Decizia referitoare la proveniena, sau neproveniena, dintr-o
repartiie normal se poate lua n acest caz, de exemplu, n urma comparaiei cu histograme
obinute pentru eantioane de acelai volum n generate aleatoriu dintr-o repartiie normal
standard.
De exemplu, dou histograme obinute pentru eantioane, de volum n=25, extrase dintr-o
populaie normal sunt artate n diagramele urmtoare. Se poate observa abaterea important de
la forma funciei de densitate normal.

Diagrama reziduuri valori estimate
Considernd punctele de coordonate (
i
,d
i
), i = 1,,n, reprezentate ntr-un sistem de axe
rectangulare, sunt posibile 4 situaii caracteristice, sau combinaii ale lor, de regiuni ocupate de
punctele considerate.
Modelul Liniar 81


Cazul a) nu arat nici o abatere de la normalitate i nici o violare a ipotezei c erorile au aceeai
dispersie constant.
n cazul b), se constat o cretere a dispersiei, deci este invalidat ipoteza constanei dispersiei
erorilor. Practic, n aceast situaie se consider c modelul nu conine o variabil esenial, cum
ar fi timpul, sau c metoda de calcul adecvat este metoda celor mai mici ptrate ponderate. n
anumite situaii reale, situaia poate fi rezolvat i printr-o transformare prealabil a datelor (de
exemplu, prin logaritmare).
Cazul c) arat practic o eroare de calcul, deoarece este ca i cum nu s-ar fi reuit explicarea unei
componente liniare a variaiei variabilei dependente.
Cazul al patrulea, d), arat c modelul nu este adecvat datelor observate. Se ncearc un nou
model care s includ variabile de ordin superior, de genul x
2
, care s preia variaia curbilinie,
sau se transform n prealabil variabila y.
Observaie. Indiferent de forma regiunilor, punctele foarte deprtate de celelalte ofer informaii
despre observaiile aberante. Regula uzual este aceea ca orice observaie pentru care |d
i
| > 3 s
fie considerat o observaie aberant. Practic, n acest caz, observaiile aberante se vor exclude
din setul de date sau, dac observaiile sunt totui de interes, se va ncerca obinerea unor
determinri suplimentare n regiunea de interes. n ambele situaii se va reface calculul regresiei.
Diagrama reziduuri variabil independent
Se vor reprezenta grafic punctele de coordonate (x
ji
,d
i
), i = 1,,n, pentru fiecare variabil
independent x
j
.
Cele patru situaii grafice possibile se interpreteaz similar, cu observaia c situaia d) impune
introducerea n model a variabilei x
j
ridicat la o putere.
Multicoliniaritatea
Situaia descris drept multicoliniaritate apare atunci cnd un grup de variabile independente
sunt puternic corelate ntre ele. n acest caz, prin includerea n model a unei variabile din grup,
restul variabilelor din grup nu mai aduc o informaie semnificativ. Simultan are loc o
supraevaluare a coeficientului de determinare, ca i a dispersiilor coeficienilor estimai, ceea ce
poate denatura interpretarea modelului i, n plus, produce mrirea intervalelor de ncredere.
Apar astfel dou probleme: determinarea multicoliniaritii i cum trebuie procedat n cazul
existenei multicoliniaritii.
a) b)
d)
c)
82 Introducere n statistica multivariat
Detectarea multicoliniaritii
Cea mai simpl metod de detectare a multicoliniaritii este bazat pe studiul matricei de
corelaie dintre variabilele x. Se pot determina astfel perechile de variabile independente care
sunt puternic corelate ntre ele. O structur mai complex a intercorelaiilor poate fi detectat
prin calcularea determinantului acestei matrice de corelaie. O valoare apropiat de zero a
determinantului reflect o puternic corelaie ntre anumite variabile, deci existena
multicoliniaritii.
O alt abordare a problemei este aceea a stabilirii unui indicator sintetic pentru a decide dac o
variabil este coliniar cu celelalte (sau cu un grup dintre celelalte). Notnd cu
2
i
R coeficientul
de determinare obinut la estimarea regresiei multiple avnd ca variabil dependent pe x
i
i ca
variabile independente restul variabilelor x, adic
) , , , , , , (
1 1 2 1 p i i i
x x x x x f x K K
+
=
se introduce tolerana variabilei x
i
prin
2
1
i i
R = .
O valoare mic a lui
i
(uzual mai mic dect 0,1) reflect un coeficient
2
i
R apropiat de 1, deci o
legtur liniar puternic ntre x
i
i restul variabilelor independente. Prin urmare x
i
este coliniar
cu celelalte variabile independente.
Se definete factorul de inflaie a varianei, notat VIF, inversul toleranei:
i
i
VIF

1
= .
Denumirea provine din aceea c un asemenea factor apare multiplicativ n definirea varianei
coeficienilor estimai (se poate spune c se msoar de cte ori este supraevaluat variana
coeficienilor datorit multicoliniaritii n raport cu situaia cnd nu ar exista coliniaritate).
Interpretarea este dedus din cea a toleranei: o valoare VIF mare (uzual mai mare dect 10),
denot coliniaritate.
Eliminarea multicoliniaritii
O rezolvare comun a problemei multicoliniaritii este aceea ca dintre dou variabile
independente corelate s se rein n model doar una.
Prin interpretarea toleranelor sau a factorilor de inflaie se vor exclude din model acele variabile
care au tolerane mici (sau factori de inflaie mari).
Cea mai bun regresie
Procesul de selectare a celei mai bune regresii are loc n contextul n care exist o variabil
dependent y i o mulime de variabile independente posibile x. Problema poate fi formulat:
Care este acea submulime minimal de variabile independente care
permite estimarea unui model liniar semnificativ i adecvat valorilor
observate y?
n acest proces, criteriile uzuale sunt contradictorii, n sensul c, pe de o parte, submulimea de
variabile explicative ar trebui s fie ct mai vast, pentru a surprinde ct mai mult din variana
variabilei explicate, i, pe de alt parte, submulimea ar trebui s fie ct mai mic, pentru a nu
mri costurile exploatrii modelului. Din aceast cauz au aprut tehnici specifice pentru
selectarea celei mai bune regresii.
Exist dou mari puncte de vedere n ceea ce privete sensul de cea mai bun regresie, n
funcie de scopul urmrit prin modelare:
Modelul Liniar 83
Realiabilitatea (reliability) dac se urmrete utilizarea modelului pentru predicie, atunci un
model care conduce la valori prognozate bune (erori mici de estimare) se zice reliabil. Cel mai
bun model este acela care conduce la cele mai bune prognoze. n acest caz, nu conteaz forma
modelului.
Validitatea (validity) dac accentul este pus pe determinarea asocierilor dintre variabila
dependent i variabilele independente, atunci estimarea coeficienilor trebuie s se obin prin
considerarea unui model valid.
Etapele selectrii celei mai bune regresii
1. Se identific toate variabilele independente posibile (cu alte cuvinte se specific
modelul maxim).
2. Se specific criteriul de selectare a celei mai bune regresii.
3. Se specific o strategie pentru selectarea variabilelor independente.
4. Se realizeaz estimarea i analiza modelului.
5. Se evalueaz reliabilitatea modelului ales.
Etapa 1. Modelul maxim
Pornind cu modelul maxim, este asigurat faptul c toate variabilele predictor posibile
(considerate) sunt incluse n model, indiferent de importana lor. Modelul maxim conine de
asemenea termenii de ordin superior (puteri ale unor variabile) i interaciunile dintre variabile
(prin considerarea produselor dintre variabilele care interacioneaz).
Includerea n model a unui numr mai mare de predictori (over-fitting) nu introduce nici o
deplasare (bias) a modelului, situaie care poate s apar la excluderea unor variabile importante
(under-fitting). Totui, suprapopularea modelului poate s conduc la instabilitate numeric prin
corelaiile dintre predictori, ceea ce poate conduce la o matrice XX (aproape) singular, caz n
care estimarea modelului nu mai este posibil.
O regul care funcioneaz n practica modelrii este aceea ca n k 1 10, unde n este
numrul de observaii, k este numrul de variabile predictor (+1 aprnd din existena termenului
liber), expresia din partea stng reprezentnd numrul gradelor de libertate pentru suma
rezidual de ptrate. Alte reguli sugerate sunt n 5k sau chiar n 10k.
Etapa 2. Criteriul de selectare
Fie modelul complet Y =
0
+
1
X
1
++
p
X
p
+ +
k
X
k
+ (deci exist k variabile
independente din care se alege cel mai bun model) i modelul redus Y =
0
+
1
X
1
++
p
X
p
+
, cu p<=k. Se noteaz, n mod uzual, SP
rez
(p) suma rezidual a ptratelor pentru modelul redus
i cu SP
g
suma de ptrate global.
Criteriile de alegere a celei mai bune regresii implic unul dintre urmtorii indicatori:
coeficientul de determinare R
2
(p) = 1 SP
rez
(p)/SP
g
. Acesta este maxim n modelul
complet i se consider, de regul, valoarea corectat;
statistica F care compar modelul complet cu cel redus
F(p) = {[SP
rez
(p) SP
rez
(k)]/(kp)}/[SP
rez
(k)/(n-k)];
eroarea standard a estimaiei (pentru care se urmrete minimizarea) din modelul
redus;
statistica C
p
a lui Mallows, definit prin C
p
= SP
rez
(p)/s
2
[n2p], unde s
2
este cea mai
bun estimaie a dispersiei lui Y, uzual se ia ptratul erorii standard a estimaiei. n
cazul utilizrii erorii standard a estimaiei, C
k
= k, pentru modelul complet i prin
urmare dac un model redus a o eroare standard apropiat de cea a modelului
complet, atunci C
p
este apropiat de p, ceea ce poate constitui un criteriu de alegere a
modelului minimal.
84 Introducere n statistica multivariat
Etapa 3. Strategii de selectare a celui mai bun model
Teste F pariale
Deoarece n procesul determinrii celei mai bune regresii apare problema dac o anumit
variabil trebuie sau nu s fac parte din model, cel mai utilizat criteriu pentru adugarea sau
eliminarea unei variabile este bazat pe testul F parial.
S considerm dou modele:
y =
1
x
1
+
2
x
2
++
p
x
p
+ (1)
y =
1
x
1
+
2
x
2
++
p
x
p
+
p+1
x
p+1
+
p+2
x
p+2
+ +
q
x
q
+ (2)
Al doilea model conine q variabile suplimentare. Notm cu s
2
estimaia lui
2
din modelul (2) i
cu S
1
, S
2
sumele ptratelor datorate regresiei, notate SP
reg
n discuia anterioar, corespunztoare
modelelor (1) i (2). Putem gndi S
2
S
1
drept suma ptratelor datorate includerii n model a
variabilelor suplimentare. n acest caz, dac
p+1
=
p+2
= =
q
= 0, atunci
Exp [(S
2
S
1
) / (qp)] =
2

i, n ipotezele Gauss-Markov, S
2
S
1
este repartizat
2
2
p q
,
independent de s
2
.
Aceasta permite verificarea ipotezei
H
0
:
p+1
=
p+2
= =
q
= 0
printr-un test F cu statistica
2
1 2
) /( ) (
s
p q S S
F

= ,
care urmeaz o repartiie F
q-p;n-p-1
.
Nerespingerea ipotezei H
0
duce la concluzia c extensia modelului nu este semnificativ, adic
variabilele suplimentare nu trebuiesc incluse n model.
Pentru q=1, se poate gndi procesul ca un proces de extindere a modelului se pleac de la (1)
i se extinde la (2) , sau ca un proces de restrngere a modelului se pleac de la (2) i se
restrnge modelul la (1). n primul caz se vorbete de teste F secveniale, n al doilea caz se
vorbete de teste F pariale.
Prin utilizarea acestor teste, ntr-un sens sau n cellalt, se pot alege strategii diverse de obinere
a celei mai bune regresii.
Metoda tuturor regresiilor posibile
Se estimeaz toate regresiile posibile.
Se rein valorile coeficienilor de determinare; gruparea este dup cardinalul mulimii de
predictori.
Variabile independente R
2
{x
1
}, {x
2
}
{x
1
,x
2
}, {x
1
,x
3
}, , {x
n-1
,x
n
}

{x
1
,x
2
,,x
n
}
Se analizeaz valorile R
2
i se reine acea submulime de variabile pentru care se realizeaz
compromisul acceptabil ntre numrul de variabile i mrimea coeficientului de determinare.
Selecia prospectiv
Procedura ncepe prin includerea n model a variabilei independente avnd cel mai mare
coeficient de corelaie cu variabila y. La fiecare pas urmtor, se analizeaz fiecare dintre
variabilele neincluse nc n model printr-un test F secvenial i se extinde modelul prin
includerea acelei variabile care aduce o contribuie maxim (probabilitatea critic din testul F
este cea mai mic). Procesul se oprete atunci cnd modelul nu mai poate fi extins, criteriul
Modelul Liniar 85
uzual fiind acela al fixrii un prag de intrare (P
IN
) i acceptnd doar variabilele pentru care
probabilitatea critic n testul F secvenial este mai mic sau egal cu acest prag.
Procedura are ca limitri faptul c anumite variabile nu vor fi incluse n model niciodat, deci
importana lor nu va fi determinat. Pe de alt parte, o variabil inclus la un anumit pas rmne
permanent n model, chiar dac, prin includerea ulterioar a altor variabile, importana ei poate
s scad.
Selecia retrograd
Se ncepe cu estimarea modelului complet i apoi, ntr-un numr de pai succesivi, se elimin
din model variabilele nesemnificative. La fiecare pas, pe baza unui test F parial, se elimin acea
variabil care are cea mai mare probabilitate critic. Procesul se oprete atunci cnd nici o
variabil nu mai poate fi eliminat. Criteriul uzual este acela de fixare a unui prag de eliminare
(P
OUT
) i considerarea doar a variabilelor care au probabilitatea critic mai mare dect acest
prag.
Selecia pas cu pas
Procedura pas cu pas (stepwise regression) este o combinaie a celor dou metode descrise
anterior. La un pas ulterior al regresiei prospective se permite eliminarea unei variabile, ca n
regresia retrograd. O variabil eliminat din model devine candidat pentru includerea n
model, iar o variabil inclus n model devine candidat la excludere. Pentru ca procesul s nu
intre ntr-un ciclu infinit, trebuie ca P
IN
P
OUT
.
Etapa 5. Reliabilitatea modelului ales
O metod care poate fi utilizat pentru reliabilitatea modelului este divizarea eantionului:
Se mpart observaiile n dou submulimi, O
1
i O
2
. Alocarea unei observaii la o
submulime se va efectua, de regul, prin alocare aleatorie cu pstrarea stratificrilor
induse de variabilele categoriale de interes.
Se estimeaz cel mai bun model pentru O
1
.
Se calculeaz coeficientul de determinare R
2
(O
1
), reamintind c acesta este ptratul
coeficientului de corelaie dintre valorile observate i cele prognozate prin model.
Utiliznd modelul estimat, se obin valorile prognozate n submulimea O
2
i se
calculeaz R
2
(O
2
), ptratul coeficientului de corelaie dintre valorile observate n O
2

i valorile prognozate (tot n O
2
).
Se calculeaz R
2
(O
1
)-R
2
(O
2
). O valoare mai mic (n valoare absolut) dect 0,1 arat
o bun reliabilitate a modelului, n timp ce valori apropiate de 0,9 arat o reliabilitate
foarte redus.
Regresia polinomial
Un caz particular des utilizat de model liniar este regresia polinomial. Modelul polinomial este
y = a
0
+ a
1
x + a
2
x
2
+ + a
p
x
p
+ e
Se observ c exist o singur variabil independent, x. Acest model se impune atunci cnd
forma relaiei dintre y i x este curbilinie, fapt sugerat de diagrama de mprtiere sau de
considerente teoretice.
86 Introducere n statistica multivariat

Pentru a estima un model polinomial este necesar, dac produsul informatic utilizat nu dispune
de o procedur specializat, s se genereze variabilele independente ca puteri ale variabilei
iniiale.
y x x
2
x
p

y
1
x
1
x
1
2
x
1
p
y
2
x
2
x
2
2
x
2
p

Estimarea are loc prin procedura uzual a regresiei multiple, considernd puterile calculate drept
noi variabile, cu aceleai interpretri i teste ca la modelul liniar.
Alegerea gradului optim al modelului polinomial este o problem important pentru c:
Un grad mai mare dect 6 conduce la o matrice X ru condiionat (cu apariia unor
erori excesive la inversarea matricei),
Un grad apropiat de numrul de valori (sau de numrul de grupuri identificabile n
valori) va conduce la un polinom de interpolare, ceea ce nu surprinde esena
fenomenului).
Procedeele uzuale se bazeaz pe analizarea sumelor de ptrate datorate introducerii unor noi
variabile n model, definite n cursul trecut (la alegerea celei mai bune regresii). Se va analiza,
prospectiv sau retrospectiv, contribuia fiecrei puteri adugate, sau eliminate, din model i se va
opri procesul cnd aceast contribuie nu mai este semnificativ, n sensul precizat la alegerea
celei mai bune regresii.
Nu trebuie omis nici procedeul de a analiza grafic reziduurile modelului estimat, pentru a vedea
dac mai exist componente curbilinii care nu au fost incluse n model.
Variabile independente discrete
Modelul liniar poate fi utilizat i n cazul n care unii factori sunt variabile discrete (nominale,
ordinale). Un asemenea caz a fost de altfel discutat n seciunea despre analiza varianei. n
cazurile mai generale, aplicarea modelului liniar necesit o codificare special a valorilor
factorilor. Distingem ntre situaia unui factor dihotomic i situaia unui factor discret cu mai
multe categorii.
Factori dihotomici
Variabilele discrete dihotomice pot fi utilizate ca atare n modelul liniar att ca variabile
independente, ct i ca variabile dependente. Interpretarea coeficienilor pentru asemenea factori
depinde doar de modul de codificare:
n codificarea 0-1, valoarea coeficientului are interpretarea uzual de modificare a valorii
dependente y n sensul dat de semnul coeficientului;
Modelul Liniar 87
n codificarea (-1) 1, interpretarea este ceva mai complicat, dar tot n funcie de semnul
coeficientului; de exemplu, un coeficient pozitiv arat ct se adaug la y pentru grupul
codificat 1 i ct se scade din y pentru grupul codificat cu -1.
Variabilele dihotomice pot fi utilizate n teste, inclusiv n cele care privesc modificarea
coeficientului de determinare, R
2
, la fel ca orice variabil continu. De asemenea, se poate testa
semnificaia includerii n model a unui bloc de variabile dihotomice (gradele de libertate pentru
modificarea lui R
2
fiind egale cu numrul variabilelor din bloc).
Este de reamintit c n procesul de construire a modelului printr-o tehnic de tip forward,
includerea unei noi variabile produce creterea mecanic a lui R
2
, fr ca informaia adus
suplimentar s fie relevant n cazul unei corelaii puternice ntre variabilele existente n model
i noua variabil inclus. Din acest motiv se va prefera pe ct posibil s se opereze cu variabile
necorelate.
Factori multicategoriali
O variabil independent discret cu mai mult de dou categorii nu poate fi introdus direct
ntr-un model liniar. Transformarea prealabil a unei astfel de variabile se va realiza prin crearea
unor noi variabile dihotomice, care s permit regsirea informaiei iniiale din combinaiile de
valori ale noilor variabile. In general, o variabil discret cu k niveluri va genera k-1 variabile
dihotomice. Fiecare variabil dihotomic va reflecta prin codificare (0/1 sau -1/1) prezena sau
absena unei anumite categorii.
Modul de construcie a variabilelor dihotomice poate s adauge sau nu informaie suplimentar
ana;izei rezultatelor obinute dup estimarea modelului.
De exemplu, o variabil cu trei categorii va produce dou noi variabile potrivit tabelului
urmtor:
Categorie
Codificare
iniial
Variabila
fictiv 1
Variabila
fictiv 2
C
1
1 1 0
C
2
2 0 1
C
3
3 0 0
Dei tratarea situaiilor n care variabilele factoriale sunt discrete nu pare dificil, programele
dedicate prelucrrilor statistice, cum ar fi SPSS, utilizeaz un concept integrant, modelul liniar
general GLM, astfel nct generarea variabilelor fictive este automatizat, transparent pentru
utilizator. Cele cteva noiuni prezentate aici au doar rolul de a ajuta interpretarea rezultatelor.
n seciunile care urmeaz sunt tratate cazuri n care procesul de modelare implic variabile
discrete: analiza varianei, analiza covarianei, regresia logistic.
Analiza varianei
Reamintim c prin analiza dispersional unifactorial se compar simultan mai multe grupuri
(determinate de categoriile unei variabile independente discrete).
Situaia este sintetizat de modelul (p categorii):
i ik i ik
n k p i y , , 2 , 1 , , , 2 , 1 , K K = = + + =
unde este o medie general,
i
efectul datorat categoriei i iar
ik
un reziduu aleatoriu pentru
care presupunem media zero i, pentru a intra n domeniul liniar clasic,
ik
~ N(0,
2
). Abaterile
se presupun independente dou cte dou.
Problema efectelor poate s se traduc atunci prin testarea ipotezei
H
0
:
1
=
2
= =
p
= 0
contra ipotezei
H
1
: () i, nct
i
0.
88 Introducere n statistica multivariat
Se poate, atunci, considera modelul liniar
ik
p
j
jk j ik
u y + + =

=
u
1

unde
|
|
|
|
|
.
|

\
|
=

=
=
1
1
1
iar ,
0
1
L
u
i j
i j
u
jk

Sunt astfel evideniate variabilele u
j
, j=1,,p, care caracterizeaz apartenena la grupuri.
Variabila u reprezint termenul liber al modelului. Se obine astfel modelul
(1) y = L +
unde este vectorul parametrilor.

Ipoteza H
0
se poate atunci testa utiliznd statistica F uzual n modelul liniar. Reamintim c
testul F de semnificaie global nu se extinde i asupra termenului liber (n cazul nostru acesta
este ).
Necazul este c modelul (1) nu poate fi estimat deoarece matricea L este singular (ultima
coloan este suma primelor p coloane), rang L = p i, prin urmare, matricea LL (care intervine
n expresia parametrilor estimai prin metoda celor mai mici ptrate) nu este inversabil.
Ajustarea prin cele mai mici ptrate const n proiectarea ortogonal a lui y (vector n R
n
) pe
subspaiul generat de coloanele lui X (variabilele independente, la noi L). Prin urmare se poate
nlocui L cu L*, unde L* este baz n R
L
.

Pentru a obine o matrice nesingular
se poate elimina o coloan (deci un parametru) sau
se impune o restricie plauzibil asupra parametrilor.
Se alege a doua posibilitate:

1
+
2
+ +
p
= 0
cu interpretarea uzual c exist o compensare reciproc a efectelor factorilor.
Se obine
p
= -(
1
+
2
+ +
p-1
) care se va nlocui n model.
Modelul Liniar 89
Modelul devine
y =
1
(u
1
u
p
)+ +
p-1
(u
p-1
-u
p
)+u+
de unde, notnd u
i
* = u
i
u
p
, * = (
1
,
2
, ,
p-1
, ) se ajunge la modelul
(2) y = L** +
Sistemul (u, u
1
*,,u
p-1
*) constituie o baz n R
L
, trecerea de la L la L* nu modific subspaiul
R
L
. Ajustarea modelului (2) produce, atunci, aceeai sum de ptrate SP
reg
.
Statistica F devine
) /( ) , (
) 1 /( )] , ( ) ( [
p n SP
p SP SP
F




care are o distribuie F
p-1,n-p
, ceea ce permite efectuarea testului global de semnificaie. n
formula de calcul a lui F, prin SP() se nelege suma ptratelor din modelul care-l estimeaz pe
. De notat c valoarea F este egal celei din tabelul ANOVA.
Dei problema esenial a analizei varianei a fost rezolvat prin testul F, ajustarea modelului (2)
(cu restricia
i
=0) permite estimarea tuturor coeficienilor modelului. Notnd cu m i a
i

estimaiile pentru i
i
, se ajunge la
p i y
p
y a
y
p
m
p
i
i i i
p
i
i
, 1 ,
1
1
1
1
= =
=

=

=


Cantitile a
i
- a
j
sunt estimaii ale contrastelor
i
-
j
. De menionat c forma restriciei conduce
la forma estimaiei; cu alte restricii se va obine o alt form, dar aceeai estimaie.
Modelul analizei varianei se poate extinde prin:
mrirea numrului de variabile independente,
mrirea numrului de variabile dependente.
Primul caz se trateaz similar modelului unifactorial, prin construirea adecvat a matricei L,
transformarea ei prin impuneri de restricii de forma
i
=0 etc. Este de menionat c se vor
considera ca variabile cele care reflect interaciunile de interes. Al doilea caz necesit metode
speciale, cunoscute sub denumirea de MANOVA (Multiple ANOVA).
Analiza covarianei
In modelul analizei varianei exist o variabil dependent continu i variabile independente
discrete. Acest model poate fi complicat prin existena unor variabile independente continue. Se
obine astfel modelul analizei covarianei.
De exemplu, se pot studia cheltuielile pentru mbrcminte n funcie de sex (variabil discret)
i ctiguri (variabil continu). Reprezentarea sub form de diagram de mprtiere va
evidenia atunci cele dou grupuri (masculin, feminin) i se poate studia atunci dac funciile de
regresie (simpl) care leag cele dou variabile continue sunt similare n cele dou grupuri.

90 Introducere n statistica multivariat

Dac variabila independent discret este dihotomic, atunci modelul este
y
ik
= +
i
+
i
x
ik
+
ik
relaie ce exprim c valorile variabilei dependente, y, se obin sumnd:
o valoare de baz, ,
efectul de grup
i
,
efectul variabilei continue,
i
.
o eroare aleatorie,
ik
.
Pe imaginea dat n exemplul precedent
efectul de grup se regsete n puncte centrale diferite,
efectul variabilei continue se reflect n pante diferite ale dreptelor de regresie.
Formal, cazul general al modelului covarianei este
y = L +
unde L este matricea care conine simultan coloane pentru variabilele booleene de prezen-
absen (ca la ANOVA) i coloane pentru variabilele continue (ca la modelul liniar).
Presupunem i aici c y~ N(0,
2
I), ipotez nu att de restrictiv, dar necesar pentru a putea
testa diferite ipoteze asupra parametrilor modelului.
Prin particularizarea parametrilor, se obin modele care permit verificarea unor ipoteze privind:
efect al grupului, efect al variabilelor continue etc.
Model 1: y
ik
= (+
i
)+(+
i
)x
ik
+
ik

Modelul reflect situaia n care exist efecte semnificative ale grupurilor i variabilei continue.
n figur se poate distinge poziionarea distinct a grupurilor (efectul de grup) i pantele diferite
(efectul variabilei continue)

Modelul este y = L
1

1
+ , unde
( )
p p
p p
x
x
x
x
K K
M O M O
1 1
'
1
1 1
1
0
0
0
0
1
1
1
0
0
0
0
1
=
|
|
|
.
|

\
|
= L

Modelul Liniar 91
Matricea L
1
are 2p+2 coloane, dar numai rangul 2p i, pentru a calcula SP
rez
, se va ajusta un
model transformat ntr-un mod similar celui de la modelul ANOVA, de exemplu y = L
1
*
1
* +
, unde
( )
1 1 1 1
'
1
1 1
1
0
0
0
1
1
1
0
0
1
0
1

=
|
|
|
.
|

\
|

=
p p
p p p
x
x
x x
x
K K
M O M O L

de unde se estimeaz SP
rez
(1) cu = n-2p grade de libertate.
Model 2: y
ik
= (+
i
) + x
ik
+
ik

Este modelul care reflect doar existena efectului de grup, situaia din figura alturat.

Modelul este y = L
2

2
+ , unde
( )
p
p
x
x
K
M M O
1
'
2
1
2

1
1

1
0
0

0
0
1
=
|
|
|
.
|

\
|
= L

Matricea L
2
are p+2 coloane, dar numai rangul p+1 i, pentru a calcula SP
rez
, se va ajusta un
model transformat, de exemplu y = L
2
*
2
* +
( )
1 1
'
2
1
2
1
1
1
1
0
0
1
0
1

=
|
|
|
.
|

\
|

=
p
p
x
x
K
M O L

de unde se estimeaz SP
rez
(2), avnd = n-(p+1) grade de libertate.
Model 3: y
ik
= + ( +
i
)x
ik
+
ik

Acesta este modelul n care apare doar efectul variabilei continue, situaia ilustrat n figura
alturat.

Modelul este y = L
3

3
+ , unde
92 Introducere n statistica multivariat
( )
p
p p
x
x
x
K
M O
1
'
3
1 1
3
0
0

0
0
x

1
1
1
=
|
|
|
.
|

\
|
= L

Matricea L
3
are p+2 coloane, dar numai rangul p+1 i pentru a calcula SP
rez
, se va ajusta un
model transformat, de exemplu y = L
3
*
3
* +
( )
1 1
'
3
1 1
3
0
0

1
1
1

=
|
|
|
.
|

\
|

=
p
p p p
x
x
x x
x
K
M O M L

de unde se estimeaz SP
rez
(3) cu = n - (p+1) grade de libertate.
Model 4: y
ik
= + x
ik
+
ik

Este modelul n care nu exist nici efectul de grup i nici efectul factorului continuu (a
covariabilei). Grafic, situaia se prezint ca n figura alturat.

Modelul este y = L
4

4
+ , unde
( ) =
|
|
|
.
|

\
|
=
'
4
1
4

1
1
p
x
x
M M L

avnd rang(L
4
) = 2.
Se obine SP
rez
(4) cu = n - 2 grade de libertate.
Model 5: y
ik
= +
ik

Este modelul care nu implic niciun fel de efect.

Modelul formal este y = L
5

5
+
Modelul Liniar 93
( ) =
|
|
|
.
|

\
|
=
'
5
5

1
1
M L

de unde rang(L
5
)=1.
Se obine SP
rez
(5) cu = n-1 grade de libertate.
Teste statistice n analiza covarianei
Cu sumele de ptrate calculate din modelele (1) (5) se pot efectua teste F secveniale,
considernd diverse extinderi de la modelele pariale (2 5) la modelul total (1).
Sunt prezentate
testul egalitii pantelor (model 2),
testul identitii centrelor (model 3),
testul efectului global de clasament (model 4),
testul unui y constant (model 5).
Dup modelul testelor prezentate se pot dezvolta i alte teste.
Testul egalitii pantelor
Ipotezele testului sunt

= =
(complet) 1 model : H
oarecare , ,
, 1 , 0
: 2 model : H
1
0
i
i
p i


Statistica testului este
p n p
rez
rez rez
rez
rez rez
F
p n SP
p SP SP
p n SP
p n p n SP SP
F
2 , 1
~
) 2 /( ) 1 (
) 1 /( )] 1 ( ) 2 ( [
) 2 /( ) 1 (
)] 2 ( ) 1 /[( )] 1 ( ) 2 ( [


=
=


=

Testul identitii centrelor
Ipotezele testului sunt

= =
(complet) 1 model : H
oarecare , ,
, 1 , 0
3) (model : H
1
0
i
i
p i


Statistica testului este
p n p
rez
rez rez
rez
rez rez
F
p n SP
p SP SP
p n SP
p n p n SP SP
F
2 , 1
~
) 2 /( ) 1 (
) 1 /( )] 1 ( ) 3 ( [
) 2 /( ) 1 (
)] 2 ( ) 1 /[( )] 1 ( ) 3 ( [


=
=


=

Testul efectului global de clasament
Ipotezele testului sunt

= = =
(complet) 1 model : H
oarecare ,
, 1 0 , 0
4) (model : H
1
0

p i ,
i i

94 Introducere n statistica multivariat
Statistica testului este
p n p
rez
rez rez
rez
rez rez
F
p n SP
p SP SP
p n SP
p n n SP SP
F
2 , 2 2
~
) 2 /( ) 1 (
) 2 2 /( )] 1 ( ) 4 ( [
) 2 /( ) 1 (
)] 2 ( ) 2 /[( )] 1 ( ) 4 ( [


=
=


=

Testul unui y constant
Ipotezele testului sunt

= = = =
(complet) 1 model : H
oarecare
, 1 , 0 0 , 0
5) (model : H
1
0

p i ,
i i

Statistica testului este
p n p
rez
rez rez
rez
rez rez
F
p n SP
p SP SP
p n SP
p n n SP SP
F
2 , 1 2
~
) 2 /( ) 1 (
) 1 2 /( )] 1 ( ) 5 ( [
) 2 /( ) 1 (
)] 2 ( ) 1 /[( )] 1 ( ) 5 ( [


=
=


=

Modelul analizei covarianei se poate extinde prin:
mrirea numrului de variabile independente,
mrirea numrului de variabile dependente.
Primul caz se trateaz similar modelului precedent, prin construirea adecvat a matricei L. Este
de remarcat c dac se adaug variabile discrete (criterii), atunci apare problema interaciunilor.
Al doilea caz necesit metode speciale, cunoscute sub denumirea de MANCOVA (Multiple
ANCOVA).
Regresia logistic
Regresia logistic modeleaz relaia dintre o mulime de variabile independente x
i
(categoriale,
continue) i o variabil dependent dihotomic (nominal, binar) Y. O astfel de variabil
dependent apare, de regul, atunci cnd reprezint apartenena la dou clase, categorii
prezen/absen, da/nu etc.
Ecuaia de regresie obinut, de un tip diferit de celelalte regresii discutate, ofer informaii
despre:
importana variabilelor n diferenierea claselor,
clasificarea unei observaii ntr-o clas.
De remarcat c diagrama de mprtiere a valorilor nu ofer nici un indiciu n privinta
dependenelor. O diagram de mprtiere poate arta, de exemplu:

n asemenea cazuri, regresia liniar clasic nu ofer un model adecvat.
Modelul Liniar 95
Presupunem c valorile y (variabil binar) sunt codificate 0/1, valoarea 1 exprimnd n general
apariia unui anumit eveniment, astfel nct ceea ce se caut este o estimare a probabilitii de
producere a respectivului eveniment n funcie de valorile variabilelor independente.
Cazul unei singure variabile independente
Modelul este
x
x
e
e
x y P


+
+
+
= =
1
) 1 (
sau
x
x y P
x y P

) | 1 ( 1
) | 1 (
ln + =
|
|
.
|

\
|
=
=

Cantitatea din partea stng este numit (transformarea) logit a probabilitii P(y=1|x).
Semnificaia expresiei P(y=1|x) este evident: probabilitatea de realizare a valorii y=1
condiionat de valoarea x. Cu alte cuvinte, probabilitatea de clasare a observaiei x n clasa y=1,
sau probabilitatea ca valoarea x s fie asociat cu producerea evenimentului y=1. In continuare
se noteaz P(y=1|x) cu p, conform notaiei de la modelul probabilist binomial (probabilitatea de
succes).
Transformarea logit este necesar pentru a proiecta probabilitatea p din intervalul (0,1) n
intervalul (- , + ), fapt necesar n procesul de estimare a parametrilor. Modelul este legat
direct de noiunea de odds (raport de anse), notat OR (odds report):
p
p

=
1
OR
care reprezint raportul dintre probabilitatea de succes i probabilitatea de insucces .
Modelul se mai poate scrie
x
e
p
p

1
+
=


de unde interpretarea coeficientului :
creterea cantitii logit atunci cnd x crete cu o unitate sau
OR crete de e

ori atunci cnd x crete cu o unitate.


Testarea ipotezei = 0 se realizeaz prin testul Wald, corespunztor testului t de la regresia
liniar, statistica testului fiind

( Var
2
2
b)
b
=
care este repartizat
2
cu un singur grad de libertate.
Intervalul de ncredere pentru este, potrivit rezultatelor de la analiza ecuaiei de regresie,
|
|
.
|

\
|

+ ) ( ) (
2
1
2
1
,
b SE z b b SE z b
e e

,
unde b este estimaia lui (din ecuaia de regresie estimat) iar SE(b) este abaterea standard a
repartiiei de sondaj a lui b.
Se observ imediat c, pentru o observaie, dac p > 0,5, atunci este mai probabil ca observaia
s aparin grupului caracterizat de y=1. Aceast condiie este echivalent cu OR > 1, adic logit
> 0.
96 Introducere n statistica multivariat
Cazul mai multor variabile independente
Modelul general este
k k
x ... x x
-p
p
+ + + =
|
|
.
|

\
|
2 2 1 1 0
1
ln ,
unde p este P(y = 1 | x
1
,x
2
,,x
k
). Se poate obine imediat i forma exponenial echivalent.
Interpretarea coeficienilor
i
este evident: creterea cantitii logit (logaritm din OR) atunci
cnd x
i
crete cu o unitate (celelalte variabile x rmnnd constante). Pentru interpretri mai
sofisticate rescriem modelul sub forma:

) exp( 1
) exp(
) , , , | 1 (
2 2 1 1 0
2 2 1 1 0
2 1
k k
k k
k
x ... x x
x ... x x
x x x y P
+ + + +
+ + +
= =

K
Se obine atunci, dup calcule imediate,
) 0 | 0 (
) 0 | 1 (
) 0 | 1 ( 1
) 0 | 1 (
) exp(
2 1
2 1
2 1
2 1
0
= = = = =
= = = = =
=
=
= = = = =
= = = = =
=
k
k
k
k
x x x y P
x x x y P
x x x y P
x x x y P
K
K
K
K


adic OR n situaia de baz x
1
= x
2
== x
k
= 0.
Pentru coeficientul
i
se obine :
.
OR
OR
OR
1
) pentru 0 , 1 | 1 ( 1
) pentru 0 , 1 | 1 (
) exp(
baza
pentru 0 , 1
baza
i j x x
j i
j i
i
j i
i j x x y P
i j x x y P
= =
=
=
= = =
= = =
=

Se ajunge astfel, din caracterul multiplicativ al modelului logistic,
) exp( ) exp( ) exp( OR
1 1 0 , , ,
2 1
k k x x x
x x
k
= K
K
,
la interpretarea util c fiecare exprim contribuia factorului x
i
la explicarea probabilitii (sub
forma OR) de producere a evenimentului y = 1. Astfel, fixnd x
i
= 1, exp(
i
) va reprezenta
factorul multiplicativ constant indiferent de valorile celorlalte variabile independente.
Dac
i
= 0, factorul corespunztor nu are nici un efect, (nmulirea cu 1). Dac
i
< 0 prezena
factorului reduce probabilitatea evenimentului y = 1,
i
> 0 mrind aceast probabilitate.
Estimarea coeficienilor
Numim funcie de pierdere (loss function) msura potrivirii ntre modelul matematic i datele
experimentale. Un proces de modelare va ncerca atunci s determine acele valori al parametrilor
modelului pentru care see minimizeaz pierderea, nepotrivirea (badness-of-fit) sau se
maximizeaz potrivirea (goodness-of-fit) modelului la date. Estimarea modelului liniar a
considerat ca funcie de pierdere suma ptratelor reziduurilor (metoda celor mai mici ptrate),
urmrindu-se minimazarea acestei sume i, deci, maximizarea sumei de ptrate datorate regresiei
(a se vedea tabelul ANOVA asociat modelului liniar). n cazul altor modele, printre care i
modelul logistic, nu exist soluie matematic pentru a estimarea parametrilor n sensul celor mai
mici ptrate. Se alege n aceste cazuri funcia de verosimilitatea maxim, ceea ce ar reveni la
determinarea parametrilor astfel nct s fie maximizat probabilitatea de a obine datele
experimentale, deja existente.
Modelul Liniar 97
Observaie. Dintr-o urn cu un numr necunoscut de bile numerotate se extrage bila cu numrul
40. Estimaia de verosimilitate maxim a numrului de bile din urn este chiar 40, care
maximizeaz probabilitatea de a extragere a bilei 40.
Schim n continuare procesul de estimare a parametrilor. Notm coeficienii prin vectorul
coloan de tip p 1, cu elementele
i
. Cele n valori observate ale variabilei dependente le
notm cu vectorul coloan y de tip n 1, cu elemente y
j
. n sfrit, valorile variabilelor
independente, k variabile i n observaii, le notm prin x
ij
, i = 1,,k i j = 1,,n.
Cu alte cuvinte, o observaie este y
j
, x
1j
, x
2j
,,, x
pj
, j= 1, 2,, n.
Funcia de verosimilitate (likelihood function), L, este probabilitatea datelor observate exprimat
ca funcie de parametri (
i
n cazul regresiei logistice). Din definiia modelului, din faptul c y
este codificat 0/1 i deoarece observaiile sunt independente (presupunere natural ntr-un
studiu experimental) se obine expresia funciei de verosimilitate:
| |
( )
| |
. unde ,
) exp( 1
exp
) exp( 1
) ( exp
1
1
1 1 1 0
1 1 0

=
=
=
=
+
= =
=
+ + + +
+ + +
=
n
j
ij j i
n
j i
ij i
i
i i
n
j kj k j
kj k j j
x y t
x
t
x x
x x y
L



K
K
K

Se vor estima parametrii
i
care maximizeaz L. Pentru calcule este mai comod s se opereze cu
funcia l = log(L), numit loglikelihood, cu expresia
( ) | |. ) exp( 1 exp
1

=
+ =
n
j
i
ij i
i
i i
x t l
Este evident c maximizarea lui l este echivalent cu maximizarea lui L.
Ca metod numeric se poate utiliza, de exemplu, Newton-Raphson pentru maximizarea
funciilor de mai multe variabile, dar exist i metode dezvoltate special pentru situaiile ntlnite
n estimarea parametrilor modelului logistic. Estimarea coeficienilor i a intervalelor de
ncredere este realizat, indiferent de metod, cu algoritmi iterativi mai puin robuti dect cei
utilizai n modelul liniar. Estimaiile obinute sunt reliabile pentru seturi de date bune n care
numrul de observaii 1, ca i 0, este suficient de mare i de echilibrat iar numrul de coeficieni
este relativ mic n raport de numrul observaiilor (mai mic de 10%). Ca i n cazul modelului
liniar, coliniaritatea poate produce dificulti n procesul de calcul.
Estimaia coeficienilor pe baza principiului verosimilitii maxime asigur urmtoarele
proprieti asimptotice (pentru eantioane mari) :
consistena: probabilitatea ca estimatorul s difere de valoarea adevrat (parametrul
corespunztor) tinde spre zero o dat cu volumul eantionului ;
eficiena asimptotic: dispersia estimatorului este minim ntre estimatorii
consisteni;
repartiia normal asimptotic: aceast proprietate permite calcularea intervalelor
de ncredere i aplicarea testelor statistice ntr-un mod similar procedurilor din
analiza modelului liniar, cu condiia ca eantionul s fie suficient de mare.
Construirea modelului se poate realiza i prin metode forward sau backward, testarea
semnificaiei coeficienilor realizndu-se prin testul Wald sau prin testul raportului de
verosimilitate (LR, likelihood-ratio).
Testul Wald este prezentat la modelul logistic cu un singur factor. Testul LR se bazeaz pe
statistica obinut ca raport ntre maximul funciei de verosimilitate sub ipoteza nul i maximul
funciei de verosimilitate n condiii mai largi. Lema Neyman-Pearson arat c acesta este cel
mai puternic test la un prag fixat. Pentru cazul regresiei logistice, se calculeaz raportul ntre
98 Introducere n statistica multivariat
valoarea maxim a funciei de verosimilitate pentru modelul complet (L
1
) i cea pentru modelul
mai simplu (L
0
). Statistica LR este -2log(L
0
/L
1
), repartizat
2
. Testul LR este recomandat n
cazul construirii modelului pas cu pas, verificnd dac variabila eliminat din model este
semnificativ, deci dac modelul poate fi simplificat.
Este de amintit i testul de adaptare Hosmer-Lemeshow, care evalueaz potrivirea ntre model i
datele iniiale prin crearea a 10 grupuri ordonate de observaii i compararea, printr-un test
2
, a
numrului de elemente observat i cel prognozat de model (grupurile sunt create printr-o
procedur probabilist).
Prelucrri statistice
Excel
n Tools Data analysis exist procedura Regression prin care se poate estima un model liniar.
Ieirea nu este foarte complex, dar sunt prezente calculele eseniale, inclusiv cele legate de
reziduuri. Nu se calculeaz ns coeficienii standardizai, nu se poate preciza metoda de
selectare a variabilelor, nu se efectueaz testul de coliniaritate. Se genereaz unele diagrame,
care necesit ns prelucrri ulterioare majore pentru a fi uor de interpretat.
Variabilele independente trebuie s ocupe o regiune compact n foaia de calcul, ceea ce reduce
posibilitatea de a estima diferite modele fr a modifica structura foii de calcul.
SPSS
Principalul dialog pentru estimarea unui model liniar se obine prin Analyze Regression
Linear.
n Dependent se va transfera variabila
dependent. Variabilele independente,
Independent(s), pot fi grupate pe blocuri: 1. se
transfer variabilele dorite, 2. se precizeaz n
Method modul de introducere a acestor variabile
n regresie (Enter toate simultan, Forward,
Backward, Stepwise metodele discutate la
alegerea celei mai bune regresii), 3. se definete
un nou bloc prin Next.
Se pot selecta observaiile preciznd n Selection
Variable variabila i, prin Rule, regula de
selectare a cazurilor n funcie de valorile
variabilei de selecie.
n Case Labels se poate preciza variabila care
identific cazurile, etichetele fiind considerate la reprezentrile grafice. Prin WLS Weight se
poate preciza variabila de ponderare pentru metoda celor mai mici ptrate ponderate (nediscutat
n curs).
Butonul Statistics deschide dialogul sinonim n care se
pot preciza statisticile calculate. Unele opiuni sunt
selectate i n mod implicit.
Estimates coeficienii estimai, Confidence intervals
intervalele de ncredere ale coeficienilor, Model fit
calcularea statisticilor R, R
2
i a tabelului ANOVA, R
squared change modificrea coeficientului de
determinare i testarea semnificaiei schimbrii la
adugarea fiecrui bloc de variabile, Descriptive
Modelul Liniar 99
statisticile eseniale pentru fiecare variabil, Collinearity diagnostics calcularea toleranelor, a
statisticilor VIF i studiul multicoliniaritii prin analiza n componente principale (a se vedea
capitolul urmtor al cursului). n zona Residuals se produce o analiza a reziduurilor pentru a
putea decide asupra normalitii acestora i a diagnostica valorile aberante.
Prin Plots se afieaz dialogul sinonim n care se pot indica reprezentrile grafice dorite.
n lista variabilelor disponibile pentru diagrame se afl
DEPENDNT variabila dependent i variabile
derivate din regresie cum ar fi valorile prognozate
standardizate (*ZPRED), reziduurile standardizate
(*ZRESID).
Diagramele indicate n Standardized Residual Plots sunt
utile pentru verificarea normalitii reziduurilor.
Dialogul Save permite calcularea i salvarea ca
variabile noi a valorilor prognozate i a reziduurilor sub
diferite forme, precum i salvarea altor statistici de interes. Predicted Values valorile
prognozate prin model pentru fiecare caz: Unstandardized, Standardized pentru valorile
nestandardizate i standardizate, Adjusted valoarea prognozat pentru un caz din ecuaia de
regresie estimat fr a considera acel caz, S.E. of mean predictions abaterile standard ale
valorilor prognozate, utile pentru calcularea intervalelor de ncredere ale acestor valori.
Distances distanele cazurilor de la punctul mediu,
pentru identificarea valorilor aberante: Mahalanobis
este distana explicat n capitolul privind clasificarea,
Cook's este msura a ct de mult se modific
reziduurile dac se elimin cazul respectiv din
estimarea modelului (o valoare mare arat o influen
considerabil a cazului n estimarea coeficienilor),
Leverage values msoar influena cazurilor n
estimare.
Prediction Intervals sunt intervalele de incredere
pentru valorile estimate, la nivelul de ncredere
precizat n Confidence Interval. Sunt generate dou
variabile.
Residuals reziduurile estimrii n diferite forme:
standardizate, nestandardizate, studentizate (reziduul
este mprit la estimaia abaterii sale standard, proprie fiecrui
caz). Deleted, Studentized deleted se refer la reziduurile obinute
din modelul la estimarea cruia cazul respectiv a fost exclus.
Influence Statistics sunt modificrile n coeficieni (inclusiv cei
standardizai), DfBeta(s) i Standardized DfBeta, i n valorile
prognozate, DfFit i Standardized DfFit, rezultate dup
excluderea cazului din estimare.
n sfrit, prin butonul Options se deschide dialogul sinonim n
care se pot fixa parametri ai estimrii: pragurile de intrare i
excludere la metodele pas cu pas precum i modul de tratare a
valorilor lips dintr-o variabil implicat.

Analiza datelor metode factoriale
Prin analiza datelor se neleg de obicei metodele statisticii descriptive multidimensionale.
Metodele se grupeaz n:
metode factoriale,
metode de clasificare.
Metodele factoriale i au originea n tehnicile de analiz factorial propuse i dezvoltate de
psihologi (la nceputul sec. XX). Ele utilizeaz metode din algebra liniar i produc reprezentri
grafice care ajut la nelegerea structurii datelor.
Metodele de clasificare sunt mai recente, de natur algoritmic, i produc clase care permit
gruparea obiectelor studiate.
Cele dou familii de metode sunt, mai degrab, complementare, dect concurente, producnd
viziuni care ntregesc nelegerea domeniului studiat.
Scopul: nelegerea cauzelor
Analiza factorial, spre deosebire de alte metode statistice, nu studiaz relaia dintre variabilele
dependente i cele independente observate.
Analiza factorial i propune s studieze pattern-ul relaiilor dintre variabilele observate
(considerate variabile dependente), cu scopul de a descoperi ceva din natura variabilelor
independente care afecteaz variabilele dependente, chiar dac variabilele independente nu au
fost observate direct.
Astfel, rspunsurile obinute prin analiza factorial sunt mai mult ipotetice, tentative de
descoperire a dependenelor.
Variabilele independente obinute sunt numite factori.

O analiz factorial trebuie s ofere rspunsuri la patru ntrebri majore:
Ci factori diferii sunt necesari pentru a explica pattern ul relaiilor?
Care este natura acestor factori?
Ct de bine sunt explicate datele observate de factorii reinui?
Ct de mult varian pur aleatorie sau fix include fiecare variabil observat?
Utilizare direct
identificarea grupurilor de variabile intercorelate,
reducerea numrului de variabile.
Utilizare indirect:
metod de transformare a datelor. Datele transformate au proprieti pe care datele
iniiale nu le aveau. Datele pot fi transformate eficient nainte de a ncerca o
clasificare.
Reducerea dimensiunii
Presupunem c ntr-un studiu observaional s-au nregistrat valori pentru un numr mare, p, de
variabile (de exemplu, ntr-un studiu sociologic s-au nregistrat rspunsurile la 100 de ntrebri;
exist deci 100 de variabile urmrite n studiu i este foarte dificil s se neleag relaiile dintre
aceste variabile).
Pentru determinarea structurii (pattern-ului) acestor variabile, ca i pentru structura proprie
observaiilor efectuate, este de dorit s aib loc o reducere a dimensiunilor (mai puine variabile,
mai puine observaii).
Dac acest proces se efectueaz n mod mecanic, prin renunarea la unele variabile, este normal
s aib loc o simplificare exagerat, cu o pierdere de informaii eseniale.
102 Introducere n statistica multivariat
Din acest motiv este de preferat ca reducerea dimensiunii s aib loc n urma unei analize
globale.

Metodele factoriale pot fi privite ca tehnici de reducere a dimensiunii problemei studiate,
considerndu-se ns ntregul set de date observate.
Ideea este aceea de a crea un numr mai mic de noi variabile care s explice ct mai mult din
variana variabilelor iniiale, pornind de la argumentul intuitiv c dac variabilele iniiale sunt
puternic corelate, atunci ele exprim cam acelai lucru, deci se poate reduce numrul lor.
Mai mult, dac anumite variabile sunt puternic corelate, se poate ca acest fapt s se datoreze unei
variabile ascunse care le influeneaz puternic; aceast nou variabil poate nlocui grupul
iniial.

Pentru a obine o imagine intuitiv a reducerii dimensiunii, s considerm urmtoarele dou
diagrame de mprtiere.

n cazul datelor din stnga, variaia maxim este cuprins n variabila X
1
; dac s-ar dori reinerea
unei singure variabile, atunci aceasta ar fi X
1
(n diagrama din dreapta, s-ar reine evident X
2
).
Variabilele care nu prezint dect o varian minim nu sunt att de importante pentru c nu fac
distincia necesar ntre observaii.

O situaie mai apropiat de realitate este:

Renunarea la o variabil (X
1
sau X
2
) produce o pierdere important de informaie deoarece
variana este mare n ambele variabile.
Se poate arta (prin tehnicile expuse n continuare) c, dac se nlocuiesc ambele variabile
printr-o nou variabil, Z, se pstreaz maximul posibil de varian a observaiilor.
) (
2
1
2 1
X X Z + =


Combinaia liniar este impus de forma norului de puncte.
Analiza datelor metode factoriale 103
Elemente de calcul matriceal
Fie x i y doi vectori coloan de tip n1.
Produsul scalar
( )( ) y y' x x'
y x'
y x
Iy x' x y' y x'
=
= = =

=
) , cos(
1
n
i
i i
y x

Ortogonalitatea
0 ) , cos( sau 0 = = y x y x'
ultima relaie dnd i interpretarea geometric. Metrica este cea euclidian.

Form ptratic: este funcia real de argumente x
i

=
i j
j i ij
x x a Ax x'

unde A este o matrice simetric de tip (n,n) iar x este un vector coloan de tip (n,1)
O form ptratic se zice
Pozitiv definit dac
xAx > 0 pentru orice x 0
Semipozitiv definit dac
xAx 0 pentru orice x
(poate exista x 0 nct xAx = 0).

Exemple: xIx este o form ptratic pozitiv definit; XX i XX sunt matrice simetrice
semipozitiv definite (asociate cu forme ptratice semipozitiv definite).
Combinaie liniar: fie x
1
, x
2
, , x
p
vectori coloan de tip (n,1) i c
1
, c
2
, , c
p
constante reale.
Vectorul combinaie liniar este
c
1
x
1
+ c
2
x
2
+ + c
p
x
p
Independen liniar: vectorii x
1
, x
2
, , x
p
sunt liniar independeni (sau independeni) dac
c
1
x
1
+ c
2
x
2
+ + c
p
x
p
= 0 implic c
1
=c
2
==c
p
=0
Vectori i valori proprii
Fie A o matrice ptratic de tip (p,p), un scalar i x un vector nenul de tip (p,1), astfel nct
Ax = x
atunci A(sx) = (sx) pentru orice scalar s (deci x este determinat pn la un factor) i, prin
urmare, putem impune ca x s fie de lungime 1 (xx=1). Deci
(A I)x = 0 cu xx = 1
Se ajunge la ecuaia caracteristic
det (A I) = 0
104 Introducere n statistica multivariat
de unde se poate determina .
Ca definiii, se numete valoare proprie a lui A iar x se numete vector propriu a lui A
corespunztor valorii proprii .
Proprieti
Suma valorilor proprii este egal cu urma matricei A (suma termenilor de pe diagonala
principal).
tr A = a
ii
Produsul valorilor proprii este egal cu determinantul matricei A.
Dac A este o matrice ptrat i P este nesingular, atunci A i PAP
-1
au aceleai valori proprii.
Aceeai proprietate are loc i dac P este ortogonal (PP = I, deci P = P
-1
).
Dac A este simetric, atunci toate valorile proprii sunt reale i orice doi vectori proprii
(corespunznd la valorii proprii distincte) sunt ortogonali.
Dac A este simetric, numrul valorilor proprii nenule este egal cu rangul matricei.
Dac A este simetric i pozitiv definit, atunci toate valorile proprii sunt pozitive.
Dac A este simetric i semipozitiv definit, atunci toate valorile proprii sunt nenegative.
Analiza factorial metoda general
ntrebare:
Este posibil s reconstituim cele np valori x
ij
ale unui tablou X
np
pornind de la un numr mai
mic de date?
Rspunsul poate fi afirmativ: dac X = u
1
v
1
, unde u
n1
i v
1 p
, atunci se poate reconstitui X din
cele n+p valori ale lui u
1
i v
1
. Se spune c X este de rang 1.
n practic este foarte improbabil o asemenea descompunere i se va cuta o ajustare de rang q,
de forma
E v u v u v u X + + + + =
' '
2 2
'
1 1 q q
L

unde E este o matrice rezidual, cu termeni suficient de mici astfel nct cele np valori din X s
fie reconstituite suficient de bine din cele q(n+p) valori ale vectorilor u

i v

,

=1,,q.
Problema se va rezolva cu ajutorul reprezentrilor geometrice.
Tabloul X poate fi privit drept mulimea coordonatelor pentru
n puncte n spaiul cu p dimensiuni, R
p
(fiecare linie a tabloului este un punct n acest
spaiu), sau
p puncte n spaiul cu n dimensiuni, R
n
(fiecare coloan a tabloului este un punct n acest
spaiu).
Ambele spaii se consider dotate cu metrica euclidian uzual.
Analiza datelor metode factoriale 105

Ajustarea printr-un subspaiu vectorial din R
p
Ideea este aceea de a determina un subspaiu vectorial de dimensiune q < p n care s fie
coninut X (matricea X este gndit ca mulimea a n vectori coloanele matricei).
n acest caz, cele n puncte din X pot fi reconstituite plecnd de la
coordonatele pe noile q axe, adic nq valori,
componentele noilor axe n spaiul iniial, adic pq valori.
Se utilizeaz astfel nq + pq valori.
Dac, de exemplu, n = 1000, p = 100 i q = 4, se vor reconstitui cele np = 10
5
valori din numai
4400 de valori.
S ncepem prin a cuta dreapta F
1
, trecnd prin origine, care ajusteaz cel mai bine, n sensul
celor mai mici ptrate, norul de puncte.

Fie un vector unitar u de pe aceast dreapt, deci uu=1.
Rezult c fiecare linie din Xu este produsul scalar al punctului respectiv cu u i deci lungimea
proieciei punctului pe F
1
. Prin urmare, minimizarea sumei distanelor la F
1
(criteriul celor mai
mici ptrate) revine la maximizarea sumei proieciilor. Deci determinarea lui F
1
conduce la
maximizarea sumei ptratelor acestor proiecii, adic se caut u care maximizeaz forma
ptratic
(Xu)(Xu)=uXXu,
cu restricia uu=1.
Prin metoda multiplicatorului lui Lagrange, se consider
L = uXXu - ( uu-1)
i anularea derivatelor pariale n raport cu u conduce la
2 XXu-2u=0,
de unde
XXu = u
ceea ce arat c u este un vector propriu al matricei XX. Atunci,
uXXu = uu
106 Introducere n statistica multivariat
i, din restricia impus, rezult uXXu = , adic maximul cutat este egal cu o valoare proprie
a matricei simetrice XX.
Prin urmare, u este acel vector propriu u
1
care corespunde celei mai mari valori proprii
1
.
Dac se caut spaiul cu dou dimensiuni care ajusteaz cel mai bine n sensul celor mai mici
ptrate norul de puncte, se va determina o a doua dreapt, cu versorul v care trece prin origine,
este ortogonal cu u
1
i maximizeaz vXXv, adic vu
1
= 0 i vv = 1.
Langrangianul este L = vXXv - ( vv-1) - vu
1
. Anularea derivatelor pariale n raport cu
componentele lui v conduc la
2XXv - 2v - u
1
= 0.
Prin nmulirea la stnga cu u
1
i din u
1
XX = u
1
, u
1
u
1
= 1, se obine
2 u
1
v - 2 u
1
v - u
1
u
1
= 0
adic = 0.
Astfel, v este vectorul propriu asociat celei de a doua valori proprii ca mrime a matricei XX. n
general, se arat c o baz ortonormat a subspaiului vectorial cu q dimensiuni, care ajusteaz
norul de puncte n sensul celor mai mici ptrate, este constituit din cei q vectori proprii care
corespund celor mai mari q valori proprii ale matricei simetrice XX. Notm cu u
1
, u
2
,, u
q

vectorii proprii i
1
,
2
, ,
q
valorile proprii corespunztoare.
De remarcat c matricea XX este simetric i semipozitiv definit, deci toate valorile proprii
sunt reale nenegative, iar vectorii proprii sunt ortogonali.
Ajustarea printr-un subspaiu vectorial din R
n

n R
n
, coloanele matricei X
np
definesc un nor de p puncte. Raionnd analog (pe matricea X)
se ajunge la:
cel mai bun subspaiu cu q dimensiuni este generat de vectorii proprii v
1
, v
2
,,
v
q
care corespund la valorile proprii (descresctoare)
1
,
2
, ,
q
ale matricei
XX.
Relaia dintre cele dou subspaii din R
p
i R
n

Din definiia vectorului propriu v

, avem
XXv

v

de unde, prin nmulire la stnga cu X,
XXX v

Xv

adic
(XX)(X v

) =

(Xv

)
Deci fiecrui vector propriu v

a lui XX i corespunde un vector propriu egal cu Xv

a matricei
XX iar

este valoare proprie pentru XX. Adic


{

){

}
Analog se demonstreaz i incluziunea invers i se arat astfel identitatea celor dou mulimi de
valori proprii,

, = 1,,r,
unde r este rang(X), r min(p,n).
Intre vectorii proprii exist relaiile (cu observaia c egalitatea are loc pn la un factor)
u

= k

Xv

v

= k

Xu

unde k

i k

sunt constante necunoscute.


Din u

= v

= 1 rezult
1 u
' ' 2 '
= =

v XX v u k
Analiza datelor metode factoriale 107
Dar v

XXv

de unde

1
'
= = k k

Intre vectorii proprii din cele dou spaii exist astfel relaiile
(*)

v X u =
1
,

Xu v
1
=

Axa F

, care poart vectorul unitar u

, este numit a -a ax factorial din R


p
. Analog pentru
G

n R
n
.
Coordonatele punctelor pe axa din R
p
(i respectiv din R
n
) sunt, prin construcie,
componentele lui Xu

(respectiv Xv

).
Relaiile precedente arat proporionalitatea care exist ntre coordonatele punctelor pe o ax
dintr-un spaiu i componentele unitare (cosinuii directori) ai axei din cellalt spaiu.
Reconstituirea tabloului X
Din relaia (*) se obine

v Xu = , de unde

u v u Xu = i sumnd

= =
=
p p
u v u u X
1 1


.
Cum

=

p
u u
1

este produsul matricei ortogonale a vectorilor proprii cu transpusa sa, adic este
matricea unitate, se obine reconstituirea tabloului iniial prin

=
=
p
u v X
1
'



cu meniunea c anumite valori proprii pot fi 0 (dar exist vectorii proprii corespunztori).
O reconstituire aproximativ X
*
este obinut prin limitarea la primele q axe factoriale
(reamintim c valorile proprii au fost luate n ordine descresctoare, deci
q+1
, ,
p
sunt
valorile cele mai mici):

=
=
q
u v X X
1
' *


.
Fiecare valoare proprie msoar suma ptratelor distanelor la origine ale proieciilor pe axa
factorial respectiv. Prin urmare, reconstituirea va fi cu att mai bun cu ct suma valorilor
proprii reinute va constitui o parte notabil a sumei tuturor valorilor proprii. Calitatea global a
reconstituirii poate fi msurat prin cantitatea

= =
=
p q
q
1 1



numit rata de inerie (msoar partea din variana norului explicat de subspaiul cu q
dimensiuni). Se poate verifica i

=
j i
ij
j i
ij q
x x
,
2
,
2
*
.
care ofer un suport intuitiv faptului c reflect calitatea global a reconstituirii.
Analize particulare
Atunci cnd nu este vorba strict de o aproximare numeric i ne ncadrm n analiza statistic,
dispunem de informaii suplimentare asupra naturii datelor.
108 Introducere n statistica multivariat
Considerarea acestor informaii conduce la transformri prealabile ale datelor iniiale, astfel nct
aplicarea metodei generale la datele transformate permite interpretri mai adecvate structurii
datelor.
Se obin astfel analize factoriale particulare, cele mai importante sunt enumerate n continuare:
Analiza n componente principale,
Analiza n componente principale normate,
Analiza rangurilor,
Analiza corespondenelor.
Ideea de baz care st la baza tuturor acestor analize este aceea c
un tabel de valori poate produce (prin liniile, respectiv coloanele sale) reprezentri
sub forma norilor de puncte n dou spaii,
ajustrile punctelor din cele dou spaii sunt legate prin relaii simple, interpretabile.
De regul, analizele vor produce diagrame care evideniaz structura norilor de puncte. Metodele
pot fi gndite i ca metode algebrice care permit alegerea sistemului de referin i a punctului de
vedere, astfel nct imaginea norului de puncte s fie ct mai clar, mai relevant pentru
structurarea punctelor.

In imaginile prezentate se ncearc vizualizri ale unei aceleiai structuri de puncte, pentru a
ilustra, dac mai este necesar, dependena dintre nelegerea structurii i punctul de vedere (sau
transformarea prealabil). Se observ astfel c spaiul gol din centrul norului de puncte nu poate
fi vzut dect n anumite poziii ale punctului de vedere.
Analiza n componente principale
Iniiat de Pearson (1901) i dezvoltat de Hotelling (1933).
Tabloul de plecare R este oarecare: r
ij
semnific, n mod uzual, a i-a observaie a unei variabile j.
Variabilele pot fi eterogene n privina mediilor lor (de ex. uniti de msur diferite, ordine de
mrime diferite etc.). Pentru a anula efectul eterogenitii se efectueaz transformarea
n
r r
x
j ij
ij
*

= , unde

=
=
n
i
ij j
r
n
r
1
*
1
este media variabilei a j-a.
Analiza general se va aplica tabloului X astfel obinut, matricea XX este matricea de
covarian a variabilelor iniiale.
Analiza n componente principale normate
Dac variabilele sunt eterogene i n dispersie, se vor norma valorile prin
n s
r r
x
j
j ij
ij
*

= , unde s
j
este abaterea standard pentru a j-a variabil.
Analiza general se va aplica tabloului X, cu observaia c c matricea XX implicat n calcule
este tocmai matricea de corelaie a variabilelor iniiale.
Analiza datelor metode factoriale 109
Analiza rangurilor
Matricea de observaii R este nlocuit n prealabil prin matricea rangurilor, P, caz impus n
situaia n care variabilele sunt ordinale (conteaz ordinea valorilor i nu se poate defini distana
dintre valori). Cu alte cuvinte, fiecare valoare r
ij
este nlocuit cu
p
ij
= (rangul valorii r
ij
n cele n valori ale variabilei j).
n acest caz toate variabilele au aceeai medie, m = (n + 1)/2 i aceeai dispersie, s
2
= (n
2
-1)/12.
Analiza n componente principale normate aplicat tabloului P este numit analiza rangurilor.
Matricea XX este, n aceast analiz, matricea de corelaie a rangurilor (Spearman) pentru
variabilele iniiale.
Analiza corespondenelor
Se aplic atunci cnd tabloul iniial este un tablou de frecvene (f
ij
), sau un tablou de numere
pozitive.
Datele iniiale se transform prin
j i
j i ij
ij
f f
f f f
x
* *
* *

= ,
unde

=
j
ij i
f f
*
,

=
i
ij j
f f
*
.
Analiza general se aplic tabloului X astfel obinut. Este de remarcat rolul simetric jucat n
acest caz de indicii i i j, ceea ce este perfect pentru analizarea tabelelor de frecvene ncruciate.
Analiza n componente principale (normate)
ACP/ACPN
Numele metodei provine din aceea c factorii (obinui prin analiza general) sunt numii i
componente principale.
Dei pentru identificarea factorilor se aplic metoda general asupra matricei de covarian
(corelaie) a variabilelor implicate, n continuare se prezint i o metod alternativ, care poate
oferi o viziune mai intuitiv asupra calculelor efectuate.
Se dorete reducerea numrului de variabile dar cu pstrarea a ct mai mult (n limita
posibilitilor) din variana datelor iniiale.
Pentru aceasta se introduce o nou variabil, Z, ca o combinaie liniar a variabilelor iniiale:
p p
x a x a x a Z + + + = K
2 2 1 1

unde a
1
,,a
p
sunt ponderi asociate variabilelor iniiale.
De notat c ecuaia precedent este doar aparent similar unei ecuaii de regresie, deoarece nu se
cunosc valori observate pentru variabila Z, nu exist termen liber i nici erori (reziduuri).
Analiza n componente principale determin acele ponderi a
i
care maximizeaz variana
variabilei Z. Cum variana poate tinde la infinit pentru valori ale ponderilor convenabil alese,
metoda determin doar ponderile supuse restriciei c vectorul a este normalizat, adic

=
=
p
i
i
a
1
2
1.
O dat calculate ponderile a, variabila Z este numit prima component principal.
Notnd cu C matricea de covarian (corelaie) a variabilelor X, de fapt prin transformarea
datelor din analiza n componente principale C = XX, rezult c dispersia lui Z este aCa. Se
dorete maximizarea varianei lui Z cu restricia aa = 1.Se ajunge astfel la problema general:
max aXXa cu restricia aa = 1
Prin metoda multiplicatorilor lui Lagrange se va cuta maximul funciei
110 Introducere n statistica multivariat
F(a) = aCa - (aa 1)
de unde rezult, ca n metoda general, c a este vector propriu al matricei C corespunztor
valorii proprii i aCa = . Deoarece Var(Z) = aCa rezult Var(Z) = , adic a este vectorul
propriu care corespunde celei mai mari valori proprii .
A doua component principal este definit drept combinaia liniar a variabilelor X cu
urmtoarea cea mai mare varian:
Z
2
= a
12
x
1
+ a
22
x
2
+ + a
p2
x
p
Se ajunge astfel la a doua valoare proprie ca mrime etc. De remarcat c a
ij
reprezint ponderea
variabilei i n componenta principal cu numrul j.
O consecin a faptului c varianele componentelor principale sunt valorile proprii iar ponderile
(coeficienii combinaiilor liniare) sunt vectorii proprii este aceea c factorii obinui
(componentele principale) sunt necorelate ntre ele.
Astfel, din exprimarea matriceal z = Ax a componentelor principale i din faptul c matricea
vectorilor proprii este ortogonal, AA = I, rezult
Az = AAx = Ix = x,
adic i variabilele iniiale pot fi exprimate drept combinaii liniare ntre componentele
principale. Notnd cu C
zz
matricea de covariane a componentelor principale, relaia anterioar
produce
C = AC
zz
A.
de unde, utiliznd rezultatul cunoscut
C = AA,
unde este matricea diagonal a valorilor proprii, rezult c C
zz
este o matrice diagonal, adic
toate componentele principale sunt necorelate ntre ele. Se observ astfel c prin trecerea la
componentele principale se elimin redundana din date.
Analiza n R
p

Cele n puncte ale acestui spaiu sunt indivizi (observaii) i se dorete o reprezentare a
apropierilor dintre aceste puncte ntr-un spaiu de dimensiune mai mic. Prin transformrile
prealabile are loc o translaie a norului de puncte ntr-un reper avnd ca origine centrul de
greutate al norului.
In ACPN se modific i scala pe fiecare ax.
Analiza n R
n
Cele p puncte sunt aici variabilele, transformrile prealabile au ns o interpretare diferit:
transformarea din ACP este o proiecie paralel cu prima bisectoare
Astfel, n cazul n=2 (neimportant din punct de vedere statistic, dar permite o vizualizare
corect), un punct variabil este supus transformrii:


R(r
ij
)
X(x
ij
)
r
j
r
j
Analiza datelor metode factoriale 111
transformarea din ACPN este o deformare a norului de puncte care aduce fiecare
punct variabil la distana 1 de origine (pe sfera unitate).
ntr-adevr, din transformarea
n s
r r
x
j
j ij
ij
*

= , rezult c distana unui punct variabil la origine


este

=
= =
n
i
j j ij
s r r
n
j
1
2 2 2
1 / ) (
1
) 0 , ( d
.
Distana dintre dou puncte este
) , ( cor 2 2
1
2
1 1
1
) , ( d
1 1
2
1
2
1
2
2
k j
s
r r
s
r r
n s
r r
n s
r r
n
s
r r
s
r r
n
k j
n
i
n
i k
k ik
j
j ij
k
k ik
n
i j
j ij
n
i k
k ik
j
j ij
=
=
|
|
.
|

\
|

|
|
.
|

\
|
+
|
|
.
|

\
|
=
=
|
|
.
|

\
|

= = =
=

adic proximitile dintre puncte se pot interpreta n termenii corelaiilor dintre variabile.
Coordonatele punctelor variabile pe o ax sunt coeficienii de corelaie dintre variabile i
factorul respectiv (considerat ca o nou variabil). Prin urmare se poate interpreta un factor (ax)
drept o combinaie a variabilelor cele mai corelate cu el.
Componente principale o alt definiie
Definiia componentelor principale prezentat aici ofer un punct de vedere diferit (apropiat de sensul istoric iniial).
Notm cu X
np
matricea de date (n observaii asupra a p variabile), cu A
j
matricea (transpus) (de tip jp) a
ponderilor primelor j componente principale (coloanele din A
j
fiind primii j vectori proprii), cu Z
nj
matricea
scorurilor componentelor principale.
z
ik
= a
1i
x
1k
+ a
2i
x
2k
+ + a
pi
x
pk

Rezult atunci
X = Z A
j
+ U
unde U
np
este matricea reziduurilor.
Se poate arta atunci c primele j componente principale sunt acele variabile necorelate care
constituie cele mai bune variabile predictor (printr-un model liniar) ale variabilelor observate.
Criteriul este tot al celor mai mici ptrate

i j
ij
u
2
min

Se poate astfel spune c, dac s-ar determina mulimea de variabile necorelate care prognozeaz
cel mai bine (printr-un model liniar) variabilele observate, atunci aceste noi variabile ar fi
componentele principale.
Prin urmare, relaia matriceal
X = Z A
j
+ U
se interpreteaz ca evideniind variabilele ascunse (latente), z, care determin variabilele
observate x.
Numrul de componente principale
Din toat discuia de pn acum apare ca un punct important acela al fixrii numrului j de
componente principale care se rein n modelul final.
Aceast ntrebare nu are un rspuns precis. Exist o serie de proceduri acceptate, discutate n
continuare i care se aplic i altor metode factoriale.
112 Introducere n statistica multivariat
O proprietate important a metodei este aceea a meninerii varianei totale a datelor. Cu alte
cuvinte
) var( ... ) var( ) var( ) var( ... ) var( ) var(
2 1 2 1 p p
Z Z Z X X X + + + = + + +

p
+ + + = ...
2 1

n cazul ACPN, variabilele sunt standardizate i, prin urmare,
p X X X
p
= + + + = + + + 1 ... 1 1 ) var( ... ) var( ) var(
* *
2
*
1

de unde rezult c suma varianelor componentelor principale este p:
p
p
= + + + ...
2 1

n general, primele q componente principale ofer un rezumat q-dimensional al variabilelor
iniiale, acela care are variana maxim dintre toate rezumatele
q-dimensionale. Pentru q = p nu are loc o reducere a dimensiunii, obinnd o simpl
transformare a variabilelor iniiale. Prin reinerea doar a primelor q valori proprii, proporia
explicat din variana total este
p
q


+ +
+ +
...
...
1
1

Acesta nu poate constitui un criteriu pentru numrul de factori reinui, ntruct raportul crete o
dat cu numrul factorilor (ajungnd la 1). Un prim criteriu poate fi acela al reinerii acelor
valori proprii care depesc media, adic
) ... (
1
1 p i
p
+ + >

criteriul implicit n SPSS, cu observaia c n ACPN criteriul devine identic cu criteriul Kaizer.
Criteriul Kaiser
Se rein doar componentele principale corespunznd valorilor proprii mai mari dect 1. Se aplic
de regul n ACPN.
Criteriul Cattell (scree test)
Varianta grafic: se detecteaz pe diagrama valorilor proprii un cot. Se rein doar valorile
proprii de pn n acel loc, inclusiv.

Varianta analitic: se calculeaz

1
=
1
-
1
,
2
=
2
-
3
,

1
=
1
-
2
,
2
=
2
-
3
,
i se rein
1
, ,
k+1
astfel nct
1
,
2
, ,
k
s fie toate pozitive.
Analog, se ncearc trasarea unei drepte (dreapta de regresie) prin ultimele j valori proprii i se
rein doar valorile proprii situate deasupra acesteia.
Reprezentri grafice
In ACP/ACPN datele iniiale se refer la n observaii asupra a p variabile, care pot fi interpretate
ca
n puncte-indivizi (observaii) n R
p
,
p puncte-variabile n R
n
.
Analiza datelor metode factoriale 113
Reinerea unui numr de axe factoriale echivaleaz cu determinarea unui subspaiu n care datele
iniiale pot fi regsite cu suficient acuratee. Examinarea structurii norilor de puncte din
subspaiile respective se realizeaz prin metode grafice, reprezentnd punctele prin proiecii pe
un numr suficient de plane factoriale.
Astfel, pentru a putea nelege structura unui nor de puncte n R
3
este nevoie de proiecia lor pe
dou plane (xOy i xOz, de exemplu). Interpretrile difer totui dup cum este vorba de
variabile sau de observaii.
Variabile
Prin metoda numeric utilizat, coordonatele punctelor variabile sunt mai mici de 1, punctele
fiind pe sfera unitate. Cum distanele dintre puncte sunt invers proporionale cu corelaiile dintre
variabilele corespunztoare, gruprile de puncte indic grupuri de variabile corelate.
Pentru eliminarea erorilor de perspectiv, aprecierea corect apare doar dup analiza proiecii-lor
pe mai multe planuri factoriale (= nr.de factori 1). Variabilele apropiate de o ax sunt corelate
cu acea component principal, se poate considera c axa respectiv este o combinaie a
variabilelor apropiate de ea.

Observaii
Reprezentarea punctelor-observaii prezint de asemenea gruprile de observaii, fr a mai fi pe
sfera unitate.
Prima ax factorial este, uzual, factorul de talie, separnd de-a lungul ei observaiile mici de cel
mari. A doua ax factorial este factorul de form. care nuaneaz diferen-ele efectuate de
primul factor.
Dac observaiile aparin la grupuri de interes, evidenierea claselor (ca n figur) poate oferi
informaii utile prin configuraiile vizibile. Concluziile sunt justificate doar dup utilizarea unui
numr suficient de proiecii.
114 Introducere n statistica multivariat

Coordonatele punctelor observaii sunt, de regul, scalate astfel nct s permit suprapunerea
celor dou grafice (variabile, observaii). Dei trebuie o oarecare grij n emiterea concluziilor
(vezi, de exemplu, efectul de perspectiv n configuraiile multidimensionale), asemenea
vizualizri pot oferi explicaii ale apropierilor dintre observaii prin variabilele apropiate acelui
grup etc.

Variabile/observaii suplimentare
Dup efectuarea unei analize pe o matrice de date observate R, apare frecvent necesitatea de a
poziiona puncte suplimentare
observaii noi de exemplu un grup martor sau puncte remarcabile (centrele unor
clase),
variabile noi eventual eliminate din analiza iniial pentru a pstra o mai mare
omogenitate a caracteristicilor studiate.
Problema revine la a extinde matricea iniial R ca n figura urmtoare i la transformarea
adecvat a entitilor noi. Prin R
+
i R
+
se noteaz, respectiv, noile variabile i noile observaii.
Sunt notate corespunztor i valorile X transformate.
Analiza datelor metode factoriale 115

Puncte-variabile suplimentare
Variabilele noi din R
+
sunt fcute comparabile cu variabilele analizate prin centrare i reducere
(tabloul X
+
), ceea ce va duce punctele respective pe sfera unitar din R
n
.
n s r r x
j j ij ij
+ + + +
= / ) (
Coordonatele punctelor, corespunztoare axei se obin prin proiecie, deci calculnd produsul
scalar cu vectorul unitar v

:
( )

v X

+

Puncte-observaii suplimentare
Noile puncte sunt fcute comparabile cu liniile iniiale prin raportarea la centrul de gravitate al
norului iniial i reducerea utiliznd abaterile standard ale variabilelor iniiale.
n s r r x
j j ij ij
/ ) ( =
+ +

Coordonatele noilor puncte pe axa sunt, prin proiecie, vectorul produselor scalare cu versorul
axei, u

, n R
p

u X
+

Analiza corespondenelor
Dintre metodele factoriale, analiza corespondenelor este dedicat, n special, tablourilor de
contingen.
Presupunem c ntr-un studiu statistic s-au considerat dou variabile discrete. Dispunem, deci, de
tabloul (k
ij
), unde k
ij
este frecvena observaiilor care s-au ncadrat n categoria i dup prima
variabil i n categoria j dup a doua variabil. ntr-un asemenea tablou, liniile i coloanele
reprezint dou partiii ale aceleiai populaii i joac, prin urmare, roluri identice (ceea ce nu se
ntmpla la analiza n componente principale).
Se poate considera, mai general, c se pleac de la un tablou (k
ij
) de numere nenegative, dar n
continuare se presupune cazul unui tablou de frecvene.
Pentru a putea atribui un sens distanei dintre punctele-linii i punctele-coloane, este necesar s
se treac la frecvenele relative, obinndu-se astfel profile de linii, respectiv de coloane, prin
transformrile uzuale din statistica descriptiv.
Fixnd dimensiunea tabloului la np definim:
k
ij
este efectivul unei celule,

=
i j
ij
k k este efectivul total,
f
ij
= k
ij
/ k este frecvena relativ a unei celule,

= =

i
ij j
j
ij i
f f f f , sunt frecvenele relative marginale,
f
ij
/ f
i
, j = 1, 2, , p, formeaz profilul liniei i,
f
ij
/ f
j
, i = 1, 2, , n, formeaz profilul coloanei j.
116 Introducere n statistica multivariat
Norii de puncte
n R
p
avem n puncte, avnd coordonatele
{ f
ij
/ f
i
, j = 1, 2, , p}, i = 1, 2, , n
i se consider c fiecare punct i are o mas f
i
.
Cum suma coordonatelor unui punct este egal cu 1, aceste puncte sunt situate ntr-un subspaiu
cu p1 dimensiuni.
Apropierile dintre puncte se interpreteaz ca apropieri ntre profilele-linii, deci apropieri ntre
categoriile variabilei corespunztoare.
n R
n
avem p puncte, fiecare cu coordonatele
{ f
ij
/ f
j
, i = 1, 2, , n}, j = 1, 2, , p
i avnd o mas f
j
. Acest nor de puncte este situat ntr-un subspaiu cu n1 dimensiuni.
Ca distan ntre dou puncte se alege distana
2
, adic:


|
|
.
|

\
|
=
p
j i
j i
i
ij
j
f
f
f
f
f
i i d
1
2
2
1
) , (
ntre linii


|
|
.
|

\
|
=
n
i j
j i
j
ij
i
f
f
f
f
f
j j d
1
2
2
1
) , (
ntre coloane
Distana
2
are proprietatea de a verifica principiul de echivalen distribuional:
Dac dou puncte-linii, i
1
i i
2
, sunt confundate i se consider drept
un nou punct de mas egal cu suma maselor celor dou puncte (i
1
i
i
2
sunt nlocuite cu i
0
), atunci distanele dintre toate punctele din R
n
i
R
p
rmn neschimbate.
Proprietatea este verificat i pentru punctele coloane.
Aceast proprietate poate avea un rol stabilizator asupra rezultatelor prin aceea c agregarea
unor profile vecine (pe linii sau coloane) nu modific substanial rezultatele obinute.
Invariana distanelor n R
p

Dac punctele i
1
i i
2
sunt confundate n R
p
are loc, pentru orice j

= =
0
0
2
2
1
1
i
j i
i
j i
i
j i
f
f
f
f
f
f

de unde

=
+
+
0
0
2 1
2 1
i
j i
i i
j i j i
f
f
f f
f f

dar numitorii sunt egali i deci
j i j i j i
f f f
0 2 1
= +

Prin urmare calculele f
*j
= f
ij
nu sunt afectate, distanele d
2
(i,i ) se pstreaz.
Analiza n R
p

Distana
2
nu este euclidian i prin urmare nu se poate aplica direct analiza general. Se
modific, de aceea, scala axelor prin aceea c se normeaz coordonatele prin mprire cu
j
f


Noile coordonate ale unui punct i vor fi
Analiza datelor metode factoriale 117
. , , 1 , p j
f f
f
j i
ij
K =


Distana euclidian uzual dintre punctele i i i este

=
|
|
.
|

\
|
=
p
j j i
j i
j i
ij
f f
f
f f
f
i i
1
2
'
' 2
) , ( d

i se verific simplu c aceast distan coincide cu distana
2
definit iniial.
Se ajunge astfel la cazul analizei generale, considerndu-se norul de puncte avnd coordonatele
precizate. Norul de puncte este acum n hiperplanul de ecuaie
. 1
1
=

=
j
p
j
j
y f

deoarece coordonatele unui punct verific ecuaia precedent:
. 1
1
1 1
= =
= =


=
=

=

p
j i
ij
j i
ij
p
j
j j
p
j
j
f
f
f f
f
f y f

Trebuie s se determine prima component principal a acestui nor de puncte (interesndu-ne
forma norului i nu poziia fa de origine).
Se introduce centrul de greutate al norului de puncte, notat cu G, avnd coordonatele (fiecare
punct i avnd masa f
i*
)
. , , 1 ,
1
p j f
f f
f
f g
j
j i
ij
n
i
i j
K K = = = =

=


Dup translaia originii n punctul G, coordonatele punctului i devin
. , , 1 , p j f
f f
f
j
j i
ij
K =



punctul pstrnd, n continuare, masa f
i*
.
Acest punct are masa
i
f , care intervine n criteriul de ajustare al subspaiului generat de
vectorul unitar u (vezi metoda general, determinarea primei axe factoriale). Proiecia
i
a
punctului i pe axa u este
j
j
j
j i
ij
i
u f
f f
f

|
|
.
|

\
|
=



iar cantitatea care trebuie maximizat pentru determinarea lui u este

2

i i
f . Este de remarcat
considerarea sistematic a maselor (ponderilor) elementelor.
Se arat atunci c problema este redus la metoda general, considernd matricea X cu
elementele
j i
j i ij
ij
f f
f f f
x

= .
Dup determinarea axelor factoriale, prin metoda general, coordonata punctului i pe axa este
dat de

=

=

= =
p
j
j j i ij
p
j
j j j i ij i
u f f f u f f f f
1 1
) /( ( ) ) /( (

.
118 Introducere n statistica multivariat
Se arat c vectorul u
p
cu componentele (f
*j
)
1/2
este vector propriu pentru XX, la valoarea
proprie 0. Din ortogonalitatea vectorilor proprii rezult atunci c orice alt vector propriu u


verific

=
j
j j
f u 0
*

De aici va rezulta (aproape imediat) c, numeric, analiza se poate realiza i pe matricea
necentrat X* dac se elimin vectorul propriu u
p
asociat valorii proprii 1.
Matricea X* are elementele date de
j i
ij
ij
f f
f
x

=
.
Dup determinarea axelor factoriale, prin metoda general, coordonata punctului i pe axa este
dat de

=

=
p
j
j j j i ij i
u f f f f
1

) ) /( (


care se poate simplifica la

=
=
p
j
j
j i
ij
i
u
f f
f
1


Aceste coordonate pot fi utilizate pentru realizarea proieciilor pe planele factoriale pentru a
identifica structura norului de puncte.
Analiza n R
n

Permutnd rolurile indicilor i i j se poate obine analiza n R
n
. Coordonatele punctului j sunt
. , , 1 , n i
f f
f
i j
ij
K =


Punctul are masa f
*j
. Centrul de greutate H are coordonatele . , , 1 , n i f h
i i
K = =

Proiecia lui j
pe axa are coordonata
. ) /( (
1

=

=
n
i
i i j ij j
v f f f



Relaia dintre spaiile R
p
i R
n

Potrivit analizei generale se arat c
j j j
i i i
f
f

=
=
/
/






u
v

Formulele devin, n cazul analizei corespondenelor,
j
p
j i
ij
i
i
n
i j
ij
j
f
f
f
f

1

1

=
=
=
=

legtura dintre coordonatele punctelor linii i cele ale punctelor coloane implicnd matricele de
profiluri-coloane, respectiv profiluri-linii.
Se poate observa i faptul c relaiile precedente nu sunt o simpl transcriere a relaiilor (*) din
cazul analizei generale, deoarece matricele de trecere nu sunt transpuse una alteia.
Analiza datelor metode factoriale 119
Reconstituirea tabloului de frecvene
Potrivit metodei generale,

=
p
1
'
u


v X

Utiliznd formulele anterioare care dau pe v

i u

, se obine pentru x
*
ij
j i
p
j i
j i
ij
ij
f f
f f
f
x

=

|
|
.
|

\
|
= =
1


1


de unde, tiind prima valoare proprie (=1) i vectorii proprii corespunztori,
|
|
.
|

\
|
+ =

=

p
j i j i ij
f f f
2


1
1

.
n aceast formul, coordonatele


) )
, tind la zero atunci cnd

tinde la zero. Dac se


introduc notaiile
j j
i i

)
)
1
1
=
=

ceea ce revine la considerarea unor factori de norm unitar, atunci formula de reconstituire
devine
|
|
.
|

\
|
+ =

=

p
j i j i ij
f f f
2

1



.
Contribuii absolute i relative
Pentru a interpreta axele determinate ntr-o analiz a corespondenelor se calculeaz dou serii
de coeficieni pentru fiecare dintre elementele celor dou mulimi (puncte-linii i puncte-
coloane, pe de o parte, factori pe de alt parte) puse n coresponden.
contribuii absolute exprim partea asumat de un element dat n variana
explicat de un factor;
contribuii relative (corelaia element-factor) exprim partea asumat de un factor
n explicarea varianei unui element.
Contribuiile absolute evideniaz punctele (variabilele) responsabile de construcia unui
factor, iar contribuiile relative arat punctele (variabilele) preponderente ntr-un factor.
Contribuii absolute
Reamintim c suma valorilor proprii reprezint variana global. Prin urmare, o valoare proprie

reprezint variana explicat de factorul .


Calculnd variana coordonatelor celor n puncte-linie i pe axa , fiecare fiind ponderat cu masa
sa, se obine:

=

n
i
ai i
f
1
2

.
Analog, pentru cele p puncte-coloan, variana coordonatelor pe axa este

=

p
j
aj j
f
1
2

.
Se definesc atunci contribuiile absolute ale elementelor i i, respectiv, j la axa :
120 Introducere n statistica multivariat
.

) ( ,

) (
2
2

j j
i i
f
j Ca
f
i Ca

= =

De observat c suma contribuiilor absolute este egal cu 1 pentru orice ax .
Contribuii relative
Axele factoriale din fiecare subspaiu constituie un reper ortonormat. Ptratul distanei unui
punct la centrul de gravitaie (G sau H, originile subspaiului respectiv) se descompune astfel n
suma ptratelor coordonatelor.
n
2
1
2
p
2
1
2
din punct un pentru , ) , (
din punct un pentru , ) , (

|
|
.
|

\
|
=

|
|
.
|

\
|
=

=


=


j f
f f
f
H j d
i f
f f
f
G i d
n
i
i
i j
ij
n
p
j
j
j i
ij
p

Ctul
) , (

) (
2
2
G i d
i Cr
p
i


=

este deci ptratul cosinusului unghiului punctului i cu axa , ceea ce reprezint un coeficient de
determinare (ptratul unui coeficient de corelaie). Cantitatea Cr

(i) se numete contribuia


relativ a factorului la poziionarea punctului i.
Se definete n mod similar contribuia relativ a factorului la poziia punctului-coloan j
) , (

) (
2
2

H i d
j Cr
n
j


=
.
Se arat imediat, din descompunerea distanelor, c

=
=


j j Cr
i i Cr
) ( , 1 ) (
) ( , 1 ) (

relaii care vin n sprijinul denumirii de contribuii relative. Contribuiile cele mai mari vor
indica punctele (gruprile de puncte) care determin axele factoriale.
Alte concepte ale analizei factoriale
ncrcrile factorului (factor loadings, indici de saturare) sunt coeficienii de corelaie dintre
variabile i factor.
Ptratul acestuia exprim procentul din variana variabilei explicat de factor.
Pentru a obine procentajul de varian explicat n toate variabilele de un factor se
adun ptratele ncrcrilor pentru factor i se mparte la numrul variabilelor (acelai
rezultat ca i mprirea valorii proprii corespunztoare factorului la numrul de
variabile).
Numim comunalitate (communality) a unei variabile observate ptratul coeficientului de
corelaie dintre variabila respectiv i partea explicat de factori (ptratul coeficientului de
corelaie multipl folosind factorii ca variabile independente).
Poate fi calculat ca suma ptratelor ncrcrilor tuturor factorilor, corespunztoare
variabilei. Prin urmare, comunalitatea exprim proporia din variana variabilei
explicat de factorii comuni. Deoarece aceast proporie crete o dat cu mrirea
Analiza datelor metode factoriale 121
numrului de factori considerai, ea nu constituie un criteriu de alegere a numrului
de factori.
Comunaliti mici, pe de alt parte, sunt interpretate mai degrab ca o eviden a
faptului c variabilele analizate au puine lucruri n comun cu celelalte variabile.
Tipuri de factori
Se pot identifica:
factori generali: obinui din toate sau din marea majoritate a variabilelor, exprim o
parte comun tuturor variabilelor;
factori de grup: obinui doar dintr-un grup de variabile, restul variabilelor au
coeficieni neglijabili;
factori unici: obinui doar dintr-o variabil, exprim faptul c variabila respectiv
explic o parte comun a celorlalte variabile.
Rotaia factorilor
Prin rotaia factorilor se nelege o transformare a sistemului de coordonate n spaiul factorilor,
astfel nct s se obin un unghi de vedere mai bun. De exemplu, o ax factorial este mai
uor de interpretat dac trece printr-o grupare de puncte.
Exist dou categorii de rotaii:
ortogonale: factorii rmn necorelai i se incearc doar o repoziionare a sistemului
de coordonate;
oblice: factorii devin corelai (nu mai sunt ortogonali), dar se obine o mai bun
trecere a axelor prin gruprile de puncte.
Dintre rotaiile ortogonale, mai utilizate sunt:
VARIMAX simplific factorii prin maximizarea varianei ncrcrilor
variabilelor dup un factor; tinde s produc factori de grup.
QUARTIMAX simplific variabilele prin maximizarea varianei ncrcrilor unei
variabile dup factori; tinde s produc factori generali sau de grupuri mici.
Dintre rotaiile oblice, metoda mai utilizat este PROMAX care relaxeaz restriciile de
ortogonalitate pentru ca factorii s treac mai bine prin gruprile de puncte. De regul, orice
rotaie oblic are un parametru care fixeaz corelaia maxim permis ntre doi factori.
Validitatea rezultatelor
n aceast seciune se propune un rspuns la ntrebarea:
Sunt stabile configuraiile identificate n urma reducerii dimensiunii
problemei i analizrii proieciilor?
Un rspuns poate fi obinut prin perturbarea tabloului de date simulnd fluctuaii (erori de
msurare). Repetnd analiza pentru noile date, se poate observa care sunt asociaiile stabile i
ncepnd cu ce rang sunt perturbate axele factoriale. Se obin astfel configuraiile asupra crora
trebuie s se ndrepte interpretarea, ca i dimensiunea subspaiului de reprezentare.
Perturbaiile simulate pot fi:
generarea de erori de msurare pseudoaleatorii, cu distribuii specifice datelor
(normale, uniforme etc.), pentru a vedea efectul preciziei msurtorilor asupra
rezultatelor;
schimbri monotone ale variabilelor ordinale, pentru a evidenia partea din
reprezentri care depinde doar de ordinea valorilor i nu de scalele sau codificrile
utilizate;
formarea aleatorie de eantioane (de linii sau de coloane), pentru a vedea o eventual
invarian n raport cu sondajul.
122 Introducere n statistica multivariat

Analiza covarianelor/corelaiilor pariale
Structura unei mulimi de variabile (aa cum este evideniat, de exemplu, n ACP/ACPN) poate
fi deformat n situaia cnd exist un grup de variabile exogene (externe, de control) care
influeneaz neuniform variabilele studiate.
In aceste cazuri, trebuie s se elimine mai nti influena variabilelor de control, astfel nct
analiza reziduurilor rmase s poat evidenia structura variabilelor n ipoteza c toate celelalte
lucruri sunt egale, aceleai peste tot.
Presupunnd c X
1
, X
2
, , X
p
sunt variabilele studiate, iar
Z
1
, Z
2
, , Z
q
sunt variabilele de control, pasul iniial este acela de a determina reziduurile
p i f
q i i i
,..., 1 , ) , , , (
2 1
= = Z Z Z X K

unde, cel mai adesea, funciile f
i
sunt funcii liniare, determinate prin tehnica regresiei multiple.
Matricele implicate n analiza factorial sunt, n acest caz, matricele de covarian (corelaie)
dintre variabilele noi
1
,,
p
. Matricele sunt notate, respectiv, Cov(X|Z), Cor(X|Z), de unde
titlul prelucrrilor de acest gen.
Regresia ortogonal
Regresia liniar (modelul liniar) trateaz variabilele n mod asimetric: o variabil este cea
dependent, celelalte fiind considerate independente. Aceast fixare a rolurilor are ca efect
principal faptul c doar variabila dependent este afectat de erori. In practic, ns, sunt situaii
n care toate variabilele sunt afectate de erori (sunt variabile aleatorii), ca i situaii n care se
dorete o tratare simetric a variabilelor. Modelul adecvat este, n asemenea cazuri, regresia
ortogonal.
Regresia ortogonal este o metod prin care se determin o relaie liniar ntre p variabile care
au, a priori, roluri identice (nu se distinge ntre variabile dependente i independente). In acest
model, eroarea de estimare nu se msoar de-a lungul unei axe (ca la modelul liniar), ci este
msurat perpendicular pe planul de regresie (distana euclidian de la un punct la un plan). Mai
precis, se va determina acea combinaie liniar a variabilelor (neclasificate ca dependente,
independente) care are cea mai mic dispersie.
Fie u vectorul coeficienilor i X matricea de tip (n,p) a observaiilor centrate pe coloane (media
fiecrei coloane este zero). Fie S matricea de covarian a celor p variabile; din centrarea
variabilelor rezult
X X S =
n
1

Variana combinaiei liniare definit de u este atunci
Su u' Xu ' Xu = ) ( ) (
1
n

Analiza n componente principale ar determina combinaia liniar u
1
avnd variana maxim
1
,
unde
1
este cea mai mare valoare proprie a lui S iar u
1
este vectorul propriu unitar asociat (u
1
u
1

= 1).
Acelai raionament, dar cutnd combinaia liniar de varian minim, conduce la acceptarea
vectorului propriu u
p
a lui S, asociat celei mai mici valorii proprii
p
(valorile proprii ordonate
descresctor). Valoarea proprie
p
este, totodat, variana minim:
p p p
Su u
'
=
.
Analiza datelor metode factoriale 123
Interpretarea geometric n R
p
Dat vectorul u (presupus unitar) cu p componente, se definete n R
p
hiperplanul al punctelor
x ortogonale cu u, de ecuaie ux = 0.

Dac x
i
este o linie din matricea de observaii X, distana lui x
i
la planul este msurat prin
proiecia lui x
i
pe u, deci este ux
i
. Prin urmare, suma ptratelor distanelor ortogonale ale tuturor
celor n puncte definite de liniile lui X este:
) ' ( ) (
1
2
Su u Xu X' u' x u'
i
n
n
i
= =

=

Astfel, coeficienii de regresie ortogonal, componente ale vectorului propriu u
p
, caracterizeaz
n R
p
planul de proiecie care ajusteaz cel mai bine, n sensul celor mai mici ptrate, norul de
puncte (observaii). Acest plan se numete plan de regresie ortogonal (n R
p
este un hiperplan
cu p-1 dimensiuni).
Dac cea mai mic valoare proprie este nul, cele n puncte x
i
sunt coninute n planul de regresie
ortogonal, care constituie suport al norului de puncte din R
p
:

n i
n n
p
p p p
n
i
p
, 1 , 0
0 ) ( ) (
'
'
1
2 '
= =
= = =

=
i
i
x u
Su u x u

Se poate generaliza problema prin cutarea subspaiului de regresie ortogonal, de dimensiune p-
q. Acesta va fi caracterizat de ortogonalitatea celor q vectori proprii asociai celor mai mici q
valori proprii ale matricei S. Aceti vectori proprii succesivi vor defini q combinaii liniare de
variabile, necorelate i avnd variane minime.
Regresia ortogonal f(X,Y)
Considerm cazul a dou variabile, fie acestea X i Y, pentru care sunt disponibile n observaii,
(X
i
,Y
i
). Dac i X este afectat de erori (este variabil aleatorie), atunci metoda adecvat pentru
studierea relaiei dintre X i Y poate fi regresia ortogonal.
Metoda revine la a determina o dreapt y = a + b x astfel nct suma ptratelor distanelor celor n
puncte observate la dreapt s fie minim. Distanele sunt distanele euclidiene de la puncte la
dreapt, msurate pe perpendicularele la dreapt.
124 Introducere n statistica multivariat

Matematic, se caut minimul expresiei
( ) ( ) | |

=
+ =
n
i
i i i i
Y y X x E
1
2 2

cu restriciile
0 = + =
+ =
i i i
i i
y bx a f
bx a y
sau

Necunoscutele sunt a, b, x
i
, y
i
, i=1n. Se observ c metoda utilizat este tot metoda celor mai
mici ptrate. Rezolvarea se obine prin metoda multiplicatorilor lui Lagrange. Se consider astfel
F = E +
1
f
1
+
2
f
2
+ +
n
f
n
pentru care se determin extremele anulnd derivatele pariale (sistemul normal)

= =

n i
y
F
x
F
b
F
a
F
i i
, 1 , 0
0

Introducem notaiile, cunoscute i de la regresia simpl,

=
=
=
) )( (
) (
) (
2
2
Y Y X X S
Y Y S
X X S
i i XY
i Y
i X

Se demonstreaz c soluiile sistemului normal, pentru a i b, sunt
X b Y a
S
S S S S S
b
XY
XY Y X X Y
=
+
=
2
4 ) (
2 2

Se va alege valoarea lui b care minimizeaz pe E, cealalt valoare va realiza maximul expresiei
E i va produce o dreapt perpendicular pe prima.
Observaie. n final, se poate totui remarca faptul c regresia ortogonal are o caracteristic
dezavantajoas n raport cu regresia liniar: coeficienii ortogonali nu au proprietatea de
echivarian, cu alte cuvinte modificarea scalei de msur a unei variabile nu produce modificri
previzibile pentru coeficieni. Acesta este un motiv important pentru care modelul liniar este
preferat modelului ortogonal. Exist ns i ncercri (de exemplu Blankmeyer, E.) de nlturare
a acestui neajuns.
Analiza datelor metode factoriale 125
Regresia dup componente principale
Scopul regresiei dup componentele principale (PCR - principal component regression) este s
estimeze valorile unei variabile dependente considernd componentele principale ca variabile
independente.
Exist dou situaii principale pentru a utiliza acest tip de regresie:
coliniaritatea variabilelor independente iniiale; existena variabilelor puternic
corelate (coliniaritatea) duce la o matrice ru condiionat, cu mari erori la inversare
i, astfel, se ajunge la estimari eronate ale coeficienilor de regresie; reamintim
proprietatea componentelor principale de a fi necorelate.
existena unui numr mare de variabile independente; prin analiza n componente
principale are loc reducerea dimensiunii problemei.
Notm cu y vectorul valorilor variabilei dependente, cu X matricea np a valorilor independente
observate i presupunem c valorile sunt centrate (att pentru y, ct i pentru X, pe coloane).
Presupunem c se rein q valori proprii ale matricei XX, celelalte fiind aproape nule. Notm cu
u
1
, , u
q
vectorii proprii asociai i cu z

vectorul coordonatelor punctelor pe axa u

.
Reamintim c
q , 1 ,
1
= =

Xu z

Modelul avnd drept variabile independente pe u
1
,,u
q
este
y = Zc + e
unde Z este tabloul np al vectorilor unitari i ortogonali z

, iar c este vectorul celor q noi


coeficieni cutai.
Deoarece ZZ este matricea unitate, calculul lui c se reduce (prin formulele de la estimarea
modelului liniar) la
c = (ZZ)
-1
Zy = Zy.
Dispersia comun a reziduurilor modelului este
( ) ) 1 /(
2 2
=

q n e s
i

Matricea de covarian a coeficienilor este
Var(c) = s
2
(ZZ)
-1
= s
2
I
deci coeficienii sunt necorelai, au aceeai dispersie, estimat de s
2
.
Analiza canonic
Prin analiza canonic se sintetizeaz relaiile care exist ntre dou grupuri de variabile.
Analiza canonic ofer un cadru teoretic general, care include drept cazuri particulare:
regresia multipl (unul dintre grupuri conine o singur variabil),
analiza discriminant (variabilele unui grup sunt variabile discrete indicatoare ale
unei partiii a mulimii observaiilor i care conine, la rndul su, drept caz
particular, analiza corespondenelor).
Este totui de menionat c, dei interesant pe plan teoretic, analiza canonic are o utilizare
practic mai redus din cauza dificultilor de interpretare concret a rezultatelor obinute;
interpretarea celor dou grupuri de variabile drept input i output pentru un proces a impulsionat,
n ultimii ani, studiul i aplicarea metodelor analizei canonice.
In matematic, o form canonic este, n general vorbind, cea mai simpl i mai cuprinztoare
form la care se pot reduce funcii, relaii, expresii fr a pierde nimic din generalitatea
obiectului respectiv. De exemplu, forma canonic a matricei de covarian este matricea
diagonal a valorilor proprii. In general, cele mai multe metode din analiza canonic utilizeaz
126 Introducere n statistica multivariat
analiza vectorilor i valorilor proprii. Ca i celelalte metode prezentate pn acum n cadrul
analizelor factoriale, analiza canonic produce axe ortogonale care permit reprezentri grafice
prin intermediul crora se pot studia structuri.
Tabloul de date este structurat astfel

Liniile reprezint indivizi (observaii), subtabloul X are p coloane reprezentnd primul grup de
variabile, al doilea subtablou Z reprezint cele q variabile din al doilea grup. Un individ i este
caracterizat deci de linia de date
( )
iq i i ip i i
z z z x x x , , , ; , , ,
2 1 2 1
K K

Fie doi vectori, a i b, cu p i, respectiv, q componente. Se definesc astfel combinaii liniare ale
elementelor fiecrei linii din X i Z prin

= =
= = =
q
j
ij j
p
j
ij j
n i z b i b x a i a
1 1
, 1 , ) ( , ) (

Cele n valori a(i) sunt deci componentele lui Xa, analog b(i) sunt componentele lui Zb. Vectorii
Xa i Zb reprezint, de asemenea, dou puncte din R
n
, aparinnd, respectiv, la subspaiile R
X
i
R
Z
generate de coloanele lui X i ale lui Z.
Ne va interesa unghiul minimal dintre subspaiile R
X
i R
Z
. Mai precis, se vor determina
vectorii a i b astfel nct cosinusul unghiului dintre Xa i Zb s fie maxim (unghiul va fi atunci
minim).

In termenii produsului scalar al celor doi vectori, aceasta revine la maximizarea expresiei
( )( ) Zb Z' b' Xa X' a'
Zb X' a'
Zb Xa, = ) cos(

Expresia care d cosinusul unghiului este omogen de grad 0 n a i b, astfel nct impunnd
condiiile (care fixeaz laturile unghiului la unitate)
1
1
, 1
1
= = Zb Z' b' Xa X' a'
n n

problema se reduce la determinarea vectorilor a i b care produc maximul expresiei
Zb X' a'
n
1
.
Dac datele sunt centrate pe coloane, atunci cos(Xa,Zb) este egal cu coeficientul de corelaie
dintre combinaiile liniare respective, astfel nct problema devine
S se determine a i b astfel nct combinaiile liniare Xa i Zb s
aib corelaia maxim.
Analiza datelor metode factoriale 127
Observaie. In cazul datelor necentrate, problema revine la covariana maxim a combinaiilor
liniare Xa i Zb.
Se numesc variabile canonice vectorul a (cu p componente) i vectorul b (cu q componente).
Componentele vectorilor se mai numesc ponderi canonice. Calculul variabilelor canonice,
datorit condiiilor de normare a vectorilor, se efectueaz prin metoda multiplicatorilor lui
Lagrange, maximiznd expresia
) (
2
) (
2
n n L = Zb Z' b' Xa X' a' Zb X' a'


(forma particular a multiplicatorilor este aleas pentru simplificarea calculelor)
Anulnd derivatele pariale n raport cu a i b:
(**)

=
=

=
=
0
0
0
0
Zb Z' b' Xa Z' b'
Xa X' a' Zb X' a'
Zb Z' Xa Z'
Xa X' Zb X'


De unde, utiliznd normarea lui Xa i Zb,
( ) ( )


=
= = = = n n n ' ' Xa Z' b' Zb X' a'

Astfel
Zb X' a'
n
1
=


i, din expresia lui cos(Xa,Zb), rezult c aceasta este valoarea maxim cutat.
Dac XX este inversabil, atunci prima relaie (**) conduce la
(***)
( ) Zb X' X X' a
1
1

=


A doua relaie (**) devine
b Z Z' Zb X' X X' X Z'
1
) ( ) (
2
=


i, dac ZZ este nesingular, se deduce c b este vector propriu al matricei
( ) ( ) Z X' X X' X Z' Z Z' M
1 1
=
relativ la cea mai mare valoare proprie,
2
, ptratul cosinusului unghiului maxim dintre
subspaiile R
X
i R
Z
. Valoarea
2
este numit prima rdcin canonic.
Vectorul a se calculeaz atunci din relaia (***) sau ca vector propriu al matricei
( ) ( ) X Z' Z Z' Z X' X X' N
1 1
=
Vectorii proprii succesivi, n ordinea descresctoare a valorilor proprii, produc irul variabilelor
canonice (a
1
, a
2
,, a
p
), (b
1
, b
2
,, b
q
). De notat faptul c aceste variabile sunt normate, prin
condiiile
1 '
1
, 1 '
1
= =

Zb Z' b Xa X' a
n n
.
Matricea M nu este simetric. Forma sa implic faptul c pentru

variabilele canonice
asociate sunt ortogonale pentru metrica XX, respectiv ZZ, adic
a

XXa

=0, b

ZZb

=0.
Observaie. Se poate considera atunci c s-a estimat o relaie
a
1
x
1
+ a
2
x
2
+ + a
p
x
p
= b
1
z
1
+ b
2
z
2
+ + b
q
z
q

care exprim relaia dintre cele dou grupuri de variabile. Pentru p = 1 se obine o ecuaie de
regresie multipl.
Deoarece poate fi interpretat ca un coeficient de corelaie (potrivit unei observaii anterioare) i
cum
2
este valoare proprie, se definesc corelaiile canonice drept rdcinile ptrate ale
valorilor proprii calculate n analiza canonic. Cum valorile proprii se ordoneaz descresctor,
prima corelaie canonic este considerat ca fiind un indice global de asociere a celor dou
128 Introducere n statistica multivariat
grupuri de variabile. Exist ns interpretri i pentru celelalte variabile canonice. Semnificaia
statistic a corelaiilor canonice poate fi testat prin testul Wilk sau prin testul raportului de
verosilimilitate (LR).
Pornind de la faptul c un coeficient de corelaie canonic este asociat, prin definiie, cu dou
combinaii liniare de variabile (cte una pentru fiecare grup), se poate evalua contribuia unei
variabile la corelaia respectiv prin mrimea absolut a ponderii canonice corespunztoare.
Altfel spus, dac a
i1
, , a
ik
, b
i1
,, b
im
sunt cele mai mari componente (n valoare absolut) ale
variabilelor canonice, se poate considera c apare datorit variabilelor corespunztoare din
cele dou grupuri {x
i1
,,x
ik
; z
i1
,,z
im
}. Pentru a facilita compararea, ponderile sunt raportate de
obicei pentru variabile standardizate, similar coeficienilor standardizai de regresie.
Analiza discriminant
Prin analiza discriminant se desemneaz o serie de tehnici destinate clasificrii unor indivizi
(observaii) caracterizai de un numr important de variabile.
Funciile liniare discriminante (calculate n analiz) sunt combinaii liniare ale variabilelor
iniiale; valorile acestor funcii, pentru un individ, vor stabili clasa la care aparine individul.
Clasele sunt cunoscute a priori. Astfel, clasificarea unui individ ia n considerare cunoaterea
prealabil.
Analiza discriminant este caz particular al analizei canonice (variabilele Z sunt variabile
indicatoare ale celor q clase).
Un exemplu clasic este din medicin: problema este de a stabili diagnosticul cel mai probabil
pentru un pacient nou, ale crui analize i examene au fost efectuate, lund n considerare
cazuistica existent.
Fie X = (x
ij
) tabloul de date experimentale, n linii (indivizi sau observaii) i p coloane
(variabile). Cele n linii sunt partiionate n q clase.
Fie vectorul u cu componentele u
1
,,u
p
i notm prin u(i), pentru fiecare individ i, combinaia
liniar a celor p variabile centrate

= =
= =
n
j
ij
j
p
j
j
ij j
x
n
x x x u i u
1 1
1
unde ), ( ) (

Vectorul U cu componentele u(1),,u(n) este centrat ( u(i)=0) i variana lui se calculeaz prin
( )


= = =
= = =
=
=
|
|
.
|

\
|
= =
n
i
p
j
p
k
k
ik
j
ij k j
n
i
p
j
j
ij j
n
i
x x x x u u
n
x x u
n
i u
n
1 1 1
2
1 1 1
2
) )( (
1
1
) (
1
) ( Var U

Notm

=
=
n
i
k
ik
j
ij k j jk
x x x x u u
n
t
1
) )( (
1

astfel nct
Tu u' U = =

= =
p
j
p
k
jk k j
t u u
1 1
) ( Var

u este vectorul coeficienilor combinaiei liniare considerate, iar T este matricea de covarian a
celor p variabile. Se arat, similar analizei dispersionale, c variana Var(U) se descompune n
varian din interiorul claselor i varian dintre clase.
Problema analizei discriminante se poate atunci formula:
Analiza datelor metode factoriale 129
Dintre toate combinaiile liniare de variabile, s se determine acelea care au
o varian extern maximal (pentru a accentua diferenele dintre clase) i o
varian intern minimal (pentru a estompa diferenele dintre elementele
unei clase).
Combinaiile liniare estimate n rezolvarea problemei enunate se numesc funcii discriminante.
Notm cu n
m
numrul de observaii din clasa m, deci
,
1
n n
q
m
m
=

=

cu I
m
mulimea de indici pentru observaiile din clasa m i definim media variabilei j n clasa m
prin

=
m
I i
ij
m
mj
x
n
x
1

Pentru orice variabil j exist egalitatea

=
=
q
m
mj
m
j
x
n
n
x
1

Pornind de la egalitatea
) ( ) ( ) (
j mj mj
ij
j
ij
x x x x x x + =

se demonstreaz formula (de descompunere a lui Huygens, ecuaia analizei dispersionale)
jk jk jk
e d t + =

unde


=
=
=
=
q
m
k mk j mj
m
jk
q
m I i
mk
ik
mj
ij jk
x x x x
n
n
e
x x x x
n
d
m
1
1
) )( (
) )( (
1

Notm matriceal T = D + E, de unde descompunerea anunat
Eu u' Du u' Tu u' U + = = ) ( Var
Matricea D reprezint variana din interiorul claselor, n timp ce E reprezint variana dintre
clase.
Notnd
Tu u'
Eu u'
u = ) ( f

problema analizei discriminante revine la a determina acel vector u astfel nct s se ating
maximul funciei f.
Deoarece f este omogen de grad 0 n u (invariant dac u este transformat n u, fiind un
scalar), este suficient s determinm u nct
max uEu
uTu = 1
Prin metoda multiplicatorilor lui Lagrange, se obine, dac matricea T este nesingular, c u este
vectorul propriu al matricei T
-1
E relativ la cea mai mare valoare proprie .
In plus, = uEu, deci este i maximul cutat. Din faptul c este ctul dintre variana extern
i variana total, rezult c < 1. Pentru se utilizeaz uneori denumirea de puterea
discriminant a lui u.
Considernd n ordine descresctoare cele mai mari valori proprii se determin astfel funciile
discriminante importante. Prin analizarea coeficienilor acestor funcii se pot identifica
130 Introducere n statistica multivariat
variabilele care au un rol major n departajarea grupurilor. Din fiecare funcie discriminant se
pot calcula scorurile discriminante, adic valorile funciei pentru fiecare individ (observaie).
Reprezentarea bidimensional a indivizilor, considernd drept coordonate scorurile produse de
dou funcii discriminante ofer imaginea grupurilor (departajate prin nsi logica analizei
discriminante) i ofer totodat informaii despre funciile care departajeaz mai mult anumite
grupuri.
Prelucrri statistice
SPSS
Pentru a aplica analiza factorial, prin natura metodei, trebuie ca ntre variabile s existe corelaii
suficient de mari pentru a avea sens problema reducerii dimensiunii. Prin urmare, dac o
variabil nu este corelat cu celelalte va trebui exclus din analiz. n acelai timp, nici
corelaiile foarte mari (multicoliniaritatea) nu conduc la rezultate uor de interpretat, situaia
extrem fiind cea de singularitate, a existenei variabilelor perfect corelate. n asemenea cazuri
este imposibil s se determine contribuia individual la un factor a variabilelor. Prin urmare este
necesar s se calculeze i s se analizeze matricea de corelaii a variabilelor prin Analyse
Correlate Bivariate, inclusiv determinantul acestei matrice pentru determinarea
multicoliniaritii.
Este de asemenea necesar s se testeze c variabilele
au o distribuie apropiat de distribuia normal (prin
analizarea histogramelor sau a testelor de
normalitate).
Dialogul principal este Analyse Data Reduction
Factor. Se afieaz dialogul Factor Analysis.

Variabilele procesate se trec n lista Variables iar n
Selection Variable se poate indica o variabil care
selecteaz prin Value observaiile/cazurile considerate
n analiz. Parametrii analizei se fixeaz n dialogurile afiate de acionarea butoanelor
Descriptives, Extraction, Rotation, Scores, Options, dialoguri descrise n continuare.
Analiza datelor metode factoriale 131
Descriptives
n grupul Statistics se poate cere afiarea statisticilor elementare (media, abaterea standard etc.).
Selectarea Initial solution afieaz comunalitile iniiale, valorile
proprii etc.
Grupul Correlation Matrix conine informaiile despre coeficienii
de corelaie i cele utile n studiul multicoliniaritii. Dintre acestea
KMO (Kaiser-Meyer-Olkin) testeaz corelaiile pariale iar
Bartlett's Test of Sphericity testeaz dac matricea de corelaie este
aproximativ unitar, ceea ce denot o multicoliniaritate accentuat.
Opiunea Reproduced afieaz matricea de corelaie estimat din
soluia factorial i se afieaz i reziduurile.
Extraction
Din lista Method se poate fixa metoda de analiz
factorial. Pentru analiza n componente principale sau
componente principale normate se va selecta Principal
components. n acest caz, tipul analizei este dat de
selecia din grupul Analyze: correlation matrix pentru
ACPN sau covariance matrix pentru ACP.
n grupul de opiuni Extract se poate indica exact
numrul de factori sau preciza pragul pentru valorile
proprii (deci factorii) reinute. Prin selectarea opiunii
Scree plot se obine diagrama valorilor proprii care ofer ajutor n stabilirea numrului de
factori. Unrotated Factor Solution produce afiarea pentru soluie a ncrcrilor, comunalitilor
i valorilor proprii.
Deoarece soluia se obine n urma unui proces iterativ, se poate fixa numrul maxim de iteraii
n Maximum Iterations for Convergence.
Rotation
Rotaia reperului axelor factoriale pentru a prinde un unghi
de vedere mai bun se poate selecta n dialogul Rotation. Ca
metode sunt disponibile: varimax (se minimizeaz numrul de
variabile cu ncrcri mari pe fiecare factor, ceea ce simplific
interpretarea factorilor), direct oblimin (rotaie oblic),
quartimax (minimizeaz numrul de factori necesari explicrii
fiecrei variabile), equamax (combinaie ntre metodele
varimax i quartimax) i promax (rotaie oblic n care se
admit factori corelai).
Pentru soluia obinut n urma rotaiei se poate cere soluia sau diagramele ncrcrilor pentru
primii doi (dac nu s-au extras cel puin trei factori) sau trei factori. i pentru procesul de rotaie
se poate preciza numrul maxim de iteraii n Maximum Iterations for Convergence.
Scores
Se poate cere salvarea ca noi variabile a scorurilor factoriale finale,
fiecare factor producnd o variabil. Cu alte cuvinte coordonatele
cazurilor n reperul factorial sau transformri ale acestora. Se poate
preciza metoda de calcul a scorurilor: regression (scorurile produse
au media zero i o dispersie egal cu ptratul corelaiei multiple
132 Introducere n statistica multivariat
ntre scorurile factoriale estimate i coordonatele factoriale adevrate), Bartlett (scorurile
produse au media zero i este minimizat suma ptratelor factorilor reinui) sau Anderson-Rubin
(scorurile au media zero, abatere standard unitar i sunt necorelate).
Prin Display factor score coefficient matrix se afieaz matricea
de corelaie dintre scoruri i coeficienii cu care se nmulesc
variabilele pentru a obine scorurile factoriale.
Options
Se precizeaz modul de tratare a valorilor lips ca i modul de
afiare a matricelor, de exemplu se pot omite coeficienii care sunt
n valoare absolut sub un anumit prag.

Probleme de clasificare
Clasificare
Prin clasificare se nelege gruparea unor entiti (observaii, obiecte etc.) n clase (grupuri) de
entiti similare. Atunci cnd gruparea este efectuat manual, cel care o efectueaz opereaz cu
judeci de similaritate, asemnare, apropiere. Acest tip de raionament este formalizat i n
metodele automate.
Exist, n esen, dou tipuri de clasificare automat:
1. predictiv, de exemplu analiza discriminant; se asigneaz o observaie la un grup
pornind de la reguli de clasificare derivate din observaii clasificate n prealabil. Se
poate ca schema de clasificare existent s fie subiectiv, neutilizabil efectiv, astfel
nct metoda descoper aspectele eseniale ale schemei i le transform n reguli
practice.
2. descriptiv, de exemplu analiza cluster; se grupeaz obiectele pe baza similaritii
lor, nu este cunoscut o grupare prealabil.
Clasificare predictiv
Considerm cazul a dou populaii multivariate,
1
i
2
, fiecare caracterizat de repartiiile
diferitelor variabile msurate. Problema clasificrii revine la a stabili populaia la care aparine o
observaie u (caracterizat de valorile variabilelor considerate).
Notnd cu S spaiul de eantionare (care cuprinde observaii din
1
i din
2
), o regul de
clasificare revine la a partiiona S n A
1
i A
2
, unde
A
1
A
2
= S , A
1
A
2
= ,
astfel nct se poate dezvolta o procedur pentru o observaie u care decide

dac u A
1
, atunci u
1

dac u A
2
, atunci u
2
Clasificare predictiv - Fisher
Regula de clasificare a lui Fisher este bazat pe maximizarea separaiei dintre cele dou
populaii, n spiritul analizei varianei. Presupunem c populaiile univariate au, respectiv,
mediile
1
,
2
i dispersia comun
2
.

Este evident (intuitiv) c o observaie u va fi clasat n
1
dac u este mai apropiat de
1
i n

2
daca este mai apropiat de
2
.
In cazul a dou populaii m-dimensionale, ideea lui Fisher a fost s transforme observaia
multidimensional u ntr-o observaie univariat y = a'u. Problema devine atunci aceea de a
determina combinaia liniar, definit de vectorul a, astfel nct cele dou populaii s fie
134 Introducere n statistica multivariat
separate (difereniate) ct mai mult posibil. Se ajunge astfel, n cazul general, la problema
studiat n analiza discriminant. Aceast analiz ofer ca rezultat i funciile de clasificare:
Fiecare subpopulaie,
i
, are asociat o funcie de clasificare f
i
astfel nct observaia u este
clasat n populaia
j
determinat prin
) ( max ) ( u u
i
i
j
f f =

Definim centrul unei clase (sau centroidul clasei) n mod uzual, ca punctul avnd drept
componente mediile aritmetice ale componentelor corespunztoare din punctele clasei.
Funciile de clasificare sunt estimate pe baza distanelor dintre o observaie (valorile celor m
variabile determin un punct n spaiul R
m
) i punctele centrale, centroizii claselor. Distanele se
pot calcula ca distane euclidiene
( )

=
=
m
i
i i
u u
1
2
2 1
) ( d
2 1
u , u

Din pcate, distana euclidian nu reflect proprietile distribuionale ale variabilelor: variabile
msurate pe scale diferite, de ordine de mrime diferite, pot afecta foarte mult distanele
euclidiene. Componentele cu variabilitate mare ar trebui s contribuie cu ponderi mai mici dect
cele cu variabilitate mic.
Pentru a considera i distribuiile variabilelor au fost definite distane noi, cea mai utilizat fiind
distana Mahalanobis.
Dac este matricea de covarian a celor m variabile, adic
= cov(x)=exp[(x-exp(x))(x-exp(x))]
atunci distana Mahalanobis ntre punctele x = (x
1
, , x
m
) i y = (y
1
, , y
m
) , este definit
prin
y) (x ) y (x y x,
1

=

) ( d
i, corespunztor, se definete norma unui vector prin
x x' x x
1

= = ) 0 , ( d
.
Clasificare predictiv - Bayes
Reamintim regula lui Bayes:
) (
) ( ) | (
) | (
a A P
b B P b B a A P
a A b B P
=
= = =
= = =

care permite calcularea unei probabiliti, atunci cnd sunt cunoscute celelalte trei implicate n
formul.
Reamintim, ca noiuni, c
P(B=b) este probabilitatea a priori,
P(B=b|A=a) este probabilitatea a posteriori.
Cu alte cuvinte, regula lui Bayes permite calcularea probabilitii corectate (actualizate) datorit
obinerii unor cunotine ulterioare (n cazul nostru faptul c a avut loc evenimentul A=a).
Considerm c exist clasele
1
,
2
, ,
k
i sunt evaluate p atribute A
1
, A
2
, , A
p
; clasificarea
printr-o metod Bayes este:
1. Se calculeaz, pentru fiecare clas i, probabilitatea a posteriori dup realizarea unei
noi instane a atributelor (o observaie nou)
P(
i
| A
1
=a
1
,A
2
=a
2
,,A
p
=a
p
)
2. Obiectul este clasificat n clasa care produce probabilitatea a posteriori maxim.

Aplicnd formula lui Bayes, se obine
Probleme de clasificare 135
) ,..., (
) ( ) | ,..., (
) ,..., | (
1 1
1 1
1 1
p p
i i p p
p p i
a A a A P
P a A a A P
a A a A P
= =
= =
=
= = =


Este de remarcat c numitorul nu este esenial deoarece omiterea lui nu modific ordinea
probabilitilor a posteriori.
Estimarea probabilitii P(A
1
=a
1
, ,A
p
=a
p
|
i
) este facilitat dac evenimentele (A
1
=a
1
),
(A
2
=a
2
),, (A
p
=a
p
) sunt independente la nivelul clasei (condiional independente), caz n care
( )
( ) ( )
i p p i
i p p
a A P a A P
a A a A P


| |
| , ,
1 1
1 1
= = =
= = =
K
K

Se ajunge astfel la clasificarea bayesian naiv:
Etapa de descriere (nvare) exist o mulime de observaii (obiecte) clasificate
1. Se calculeaz probabilitile a priori (de exemplu, estimaii ca frecvene relative)
P(
i
) pentru orice clas
P(A
j
=a
jm
|
i
) pentru orice i, j, m
Etapa de clasificare se claseaz o nou observaie (A
1
=a
1
,,A
p
=a
p
)
2. Se calculeaz probabilitile a posteriori n ipoteza c evenimentele sunt
independente condiional
P(
i
| A
1
=a
1
,A
2
=a
2
,,A
p
=a
p
) pentru orice clas
i

Se claseaz obiectul n clasa cu probabilitatea maxim.
Observaie. Etapa de descriere se poate executa o singur dat sau se poate repeta dup un
numr de noi clasificri.
In etapa de nvare, dac nu exist suficient de multe obiecte clasificate, pot s apar
probabiliti a priori egale cu zero, ceea ce are ca efect obinerea unor probabiliti a posteriori
egale cu zero, deci anumite clase vor fi excluse ca pretendente n etapa de clasificare. Pentru a
depi acest neajuns, se alege corectarea probabilitilor a priori prin
Valoarea zero este nlocuit cu o constant , suficient de mic, sau
Frecvenele relative sunt calculate dup (f
i
+ m)/(n+m), unde m este un ntreg pozitiv
suficient de mic.
Observaie. De regul, atributele considerate sunt discrete sau discretizate (dac este vorba de
atribute continue). Exist, ns, i tratri directe ale variabilelor continue.
Clasificare predictiv k vecini
Considerm situaia clasificrii propriu-zise, adic sunt cunoscute n obiecte prin atributele lor,
inclusiv apartenena la clasele
1
,
2
, ,
k
, i se dorete clasarea unei noi observaii.
Un algoritm suficient de des utilizat este acela denumit al celor k vecini (k - nearest neighbours).
1. Se determin k obiecte cele mai apropiate de noua observaie.
2. Aceste k obiecte stabilesc clasa noului obiect prin
Vot majoritar noul obiect este clasat n clasa la care aparin cei mai muli dintre
cei k vecini (care dispun fiecare de un vot ntreg).
Vot invers proporional distanei similar votului majoritar, dar fiecare dintre cei
k vecini apropiai dispune de o fraciune de vot, egal cu inversul distanei la noul
obiect (obiectele mai apropiate contribuie mai mult la decizie).
136 Introducere n statistica multivariat
Clasificare descriptiv
In analiza multivariat, clasificarea descriptiv (cluster analysis) se refer la metodele utilizate
pentru a identifica ntr-o mulime de obiecte grupurile de obiecte similare. Cazurile de aplicare
ale acestor metode sunt similare celor n care se utilizeaz analiza factorial.
Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaii, obiecte, coloanele sunt
variabile, atribute). In plus,
datele sunt omogene n sensul c are sens calculul distanelor dintre elemente
exist suficient de multe date nct simpla inspecie vizual sau prelucrrile statistice
elementare nu ofer o imagine satisfctoare a structurii datelor
tabloul de date este amorf: nu exist o structurare a priori (dependene funcionale,
relaii, clasificri cunoscute).
De remarcat c ultima caracteristic este cea care ne deprteaz de descrierea predictiv (unde se
presupunea existena unei structurri necesare n etapa de training).
Drept rezultat al clasificrii descriptive se obin grupurile de elemente, clasele identificate.
Deoarece se pot aplica pe aceleai structuri de date, metodele clasificrii descriptive sunt
complementare metodelor analizei factoriale. De regul, atunci cnd se utilizeaz mpreun,
analiza factorial este efectuat mai nti, clasele evideniate de aceasta fiind precizate,
ierarhizate, localizate de clasificarea descriptiv.
Metodele de clasificare sunt de natur mai degrab algoritmic: clasele apar ca urmare a unei
suite de operaii efectuate recursiv sau repetitiv; matematica implicat este relativ elementar.
Numim clas (grup, cluster) o mulime de obiecte (elemente) similare ntre ele i nesimilare
obiectelor din alte clase. Un cluster poate fi gndit (reprezentrile grafice reflect aceste
interpretri)
Ca o mulime de puncte care sunt apropiate (la distane mici) ntre ele i deprtate de
punctele din alte clase, sau
Ca o regiune conex dintr-un spaiu multidimensional care are o densitate mare
(relativ) de puncte, clusterele fiind separate ntre ele de regiuni cu o densitate sczut
(relativ) de puncte.
Rezult c problema esenial n determinarea (identificarea) clusterelor este cea a specificrii
proximitii (apropierii, similaritii) i cum se determin aceasta. Este evident c proximitatea
este o noiune dependent de problema real cercetat.
Structurile uzuale de date privind obiectele supuse analizei cluster sunt:
Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin atributele lor
n obiecte i p atribute vor furniza o matrice de tip np, matricea de observaii
utilizat i n prelucrrile statistice. Liniile sunt obiecte (pattern-uri), coloanele sunt
atribute (variabile).
Matricea de proximitate. Elementele d(i,j) reprezint proximitile dintre obiectele i
i j. Proximitatea poate fi
o similaritate (apropiere, asemnare), cum ar fi coeficientul de corelaie, sau
o disociere (disimilaritate, deprtare, difereniere), cum ar fi distana euclidian.
De regul, matricea de proximitate poate fi calculat din matricea de observaii, dar sunt situaii
reale n care se dispune direct de matricea de proximitate.
Atunci cnd atributele sunt de tipuri diferite (att discrete, ct i continue), se poate calcula
proximitatea dintre obiectele i i j prin
] 1 , 0 [ ) , (
1
) (
1
) ( ) (
=

=
=
f
i
f
ij
p
f
f
ij
f
ij
d
j i d


Probleme de clasificare 137
unde
) ( f
ij
este ponderea variabilei f

= = =
rest in 1
binara , asimetrica este si 0 0
lipsa sau pentru 0
) (
f x x
x x
jf if
jf if
f
ij


Menionm c
) ( f
ij
d este contribuia variabilei f la d(i,j) i anume:
- dac f este binar sau nominal, atunci

=
=
altfel 1
pentru 0
) ( jf if f
ij
x x
d
(Hamming)
- dac f este continu, atunci (normalizare prin amplitudine)
hf
h
hf
h
jf if
f
ij
x x
x x
d
min max
) (

=

- dac f este ordinal, se atribuie rangul r
if
, se calculeaz
1 max
1

=
hf
h
if
if
r
r
z
i se consider
c f este continu, avnd valorile z
if
.

Exist mai multe tipuri de algoritmi de clasificare:
- Algoritmi ascendeni (de agregare, de sintez) clasele sunt construite prin agregarea
succesiv a elementelor, se obine astfel o ierarhie de partiii, de clase.
- Algoritmi descendeni (de divizare) mulimea obiectelor este divizat succesiv n
submulimi de obiecte din ce n ce mai omogene; se poate obine i aici o ierarhie a
partiiilor.
- Algoritmi de partiionare se pleac de la o partiie (structur de clase) care se
modific pentru a maximiza omogenitatea fiecrei clase.
Primele dou categorii pot fi reunite n clasificarea ierarhic (hierarchical cluster analysis).
Este evident c indiferent de metoda utilizat, noiunea esenial este aceea de omogenitate a
unei clase; practic, aceasta este dat de distanele dintre elementele clasei. In plus, pentru
funcionarea algoritmilor, apare necesitatea de a defini i distana de la un element la o alt clas,
sau distana dintre dou clase.
Clasificare descriptiv - agregare
Algoritmul fundamental de clasificare ascendent ierarhic este:
1. Etapa 0 exist cele n elemente care se clasific;
2. Etapa 1 se determin perechea de elemente cele mai apropiate ntre ele i se
produce, prin agregarea lor, un nou element;
3. Etapa 2 exist acum n-1 elemente care se clasific;
4. Se repet Etapa 1 i Etapa 2 pn cnd mulimea elementelor care se clasific are un
singur element.
Clasificare distane ntre obiecte
n continuare sunt prezentate metodele uzuale de calculare a distanelor dintre obiecte (elemente
sau grupuri deja constituite). Alegerea unei anumite distane modific gruprile care se
constituie.
Metoda celui mai apropiat vecin (nearest neighbor method)
Distana dintre dou grupuri este distana minim dintre dou elemente ale grupurilor (distana
dintre cele mai apropiate elemente din clase diferite)
( ) ) , ( min ,
2 1
,
2 1
y x d
y x


= d

138 Introducere n statistica multivariat
n imaginea urmtoare se exemplific, prin numerotarea 1 6 ordinea de atribuire a
elementelor respective la grupurile figurate n extremiti. Astfel, un lan de obiecte apropiate
dou cte dou este atribuit, de regul, la un singur grup, ceea ce nu produce o grupare
acceptabil.

Metoda celui mai deprtat vecin (farthest neighbor method)
Aceast metod utilizeaz calcularea distanei dintre dou grupuri drept distana maxim dintre
dou elemente ale grupurilor (distana dintre cele mai deprtate elemente din clase diferite)
( ) ) , ( max ,
2 1
,
2 1
y x d
y x


= d

Metoda are avantajul c nu aglomereaz grupuri legate printr-un lan. n imaginea alturat se
poate vedea ordinea de atribuire 1 6 a elementelor corespunztoare la cele dou grupuri
extreme. Gruparea obinut corespunde mai bine i gruprii intuitive (efectuat de un operator
uman).

Metoda legturii medii
Distana dintre dou grupuri este distana medie dintre perechile de elemente ale grupurilor
( )


=
1 2
) , (
1
,
2 1
2 1


x y
y x d
n n
d

Metoda distanei centrelor (average group linkage)
Se consider, ca distan dintre dou grupuri
1
i
2
, distana dintre centrele grupurilor
( ) ) , ( ,
2 1
2 1
G G d = d

unde centrele G
1
i G
2
au drept componente mediile aritmetice ale componentelor elementelor
din cele dou grupuri, respectiv.
De remarcat c centrul unui grup este dinamic, fiecare nou element putnd produce deplasarea
lui. Centrul unui grup format dintr-un singur element este chiar acel element.
Probleme de clasificare 139
Metoda distanei Ward (Ward's linkage)
Distana Ward este bazat pe creterea suma de ptrate a erorilor dup contopirea grupurilor
ntr-unul singur. Metoda Ward selecteaz gruprile care minimizeaz creterea sumei de ptrate
a erorilor.
( ) ( ) ) ( ) ( ) ( ,
) (
2 1 2 1 2 1
2


SP SP SP
x x SP
x
+ =
=

d

Clasificare descriptiv - agregare
Ca rezultat al algoritmului se obine arborele de clasificare (dendrograma).
Prin secionarea orizontal a dendrogramei se obine o partiie a mulimii elementelor clasificate.
Componentele partiiei sunt clasele cutate.
n figura alturat este prezentat o dendogram. Pe axa orizontal sunt elementele iniiale
(ordinea este cea care permite desenarea arborelui). Pe axa vertical sunt distanele dintre
obiecte, de exemplu, ntre obiectele 4 i 6 este o distan egal cu 4.


Clasificare descriptiv - divizare
Metoda ierarhic descendent const n construirea ierarhiei n ordine invers:
1. Se pleac de la mulimea total a elementelor
2. La fiecare pas urmtor, cea mai mare (cea mai eterogen) grupare este divizat n
dou subgrupri.
3. Algoritmul se oprete atunci cnd toate grupurile constituite au cte un singur
element.
Pentru definirea grupului cel mai eterogen se utilizeaz diametrul grupului, definit ca distana
maxim dintre dou elemente din grup. Evident c se pot utiliza i alte metode n acest scop.
Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis):
1. Se determin obiectul cu cea mai mare distan medie fa de celelalte obiecte (cea
mai mare disociere). Este obiectul care iniiaz un nou cluster, S (splinter group).
2. Pentru fiecare obiect i din afara grupului S
a. se calculeaz
) , ( ) , ( j i d j i d D
j j
i
media media
S S
=

b. Se determin un obiect h cu D
h
= max D
i
.
140 Introducere n statistica multivariat
c. Dac D
h
este pozitiv, atunci obiectul h se adaug grupului splinter (este mai
apropiat, n medie, de elementele din S).
d. Se repet a) c) pn ce D
h
este negativ. Mulimea iniial este acum divizat
n dou clustere.
3. Se selecteaz clusterul cu cel mai mare diametru. Acesta este divizat prin paii 1 2.
4. Se repet 3) pn cnd toate grupurile constituite au un singur element.
Exist o diagram sugestiv (diagram steag) pentru un algoritm descendent, n care pe axa
vertical sunt obiectele, pe axa orizontal se trec diametrele clusterelor.

Clasificare descriptiv - partiionare
Metodele de partiionare din analiza cluster au ca ideea esenial aceea c se poate porni de la o
partiie oarecare a mulimii de obiecte i se poate ajunge, prin migrarea obiectelor ntre clase, la
o partiie care ndeplinete un criteriu de optim. Partiia final constituie structura de clustere
cutat. De reinut, totui, faptul c nu exist un criteriu de optim care s funcioneze oricnd i
pentru orice obiecte.
Metodele de partiionare sunt utile atunci cnd exist un mare numr de obiecte, caz n care
dendrogramele nu mai pot fi interpretate (cteva sute de obiecte produc o dendrogram de
neneles).
Majoritatea metodelor au drept criteriu de optim obinerea partiiei care minimizeaz suma
ptratelor erorilor (apare la distana Ward). Eroarea este distana de la un obiect la centrul
clusterului su.
Un algoritm general de partiionare este:
1. Se selecteaz o partiie iniial cu k grupuri i se calculeaz centrele clusterelor.
2. Se genereaz o nou partiie atribuind fiecare obiect la clusterul cu centrul cel mai
apropiat.
3. Se calculeaz noile centre ale clusterelor.
4. Se repet paii 2-3 pn se stabilizeaz clusterele sau nu se mbuntete criteriul
ales.
5. Se ajusteaz numrul de clustere prin reunirea sau divizarea unor clustere sau prin
eliminarea clusterelor aberante (cu un numr mic de elemente).
6. Se repet paii 2-5 pn se stabilizeaz clusterele sau nu se mbuntete funcia
criteriu.
Elementele importante ale algoritmului sunt comentate n continuare.
Partiia iniial
O partiie iniial se poate obine selectnd k obiecte, considerndu-le centre i grupnd n jurul
fiecruia restul de obiecte (fiecare element va fi asociat centrului cel mai apropiat). Nu se
recalculeaz centrele dup fiecare clasificare a unui element.
Probleme de clasificare 141
Centroizii fiecrui cluster astfel format constituie centrele pentru pasul urmtor.
Cele k obiecte iniiale se pot alege aleatoriu sau dup criterii oferite de o analiz prealabil
(clasificare ascendent, analiz n componente principale etc.). Clusterele iniiale pot fi date de o
clasificare ascendent, de exemplu. De reinut, totui, c partiii iniiale diferite conduc la
clustere finale diferite.
Algoritmii care se bazeaz pe criteriul minimizrii sumei de ptrate a erorilor conduc la
atingerea unui optim local, cel puin dac grupurile nu sunt bine difereniate. Se poate depi
acest neajuns repetnd clasificarea cu partiii iniiale diferite.
Dac se ajunge la o aceeai partiie, atunci se mrete ncrederea c s-a atins un
optim global.
In caz c nu, se pot analiza subgrupurile stabile (elemente care sunt mereu
mpreun), care pot oferi informaii despre numrul de clustere.
Actualizarea partiiei
Exist mai multe moduri de abordare a pasului 2 din metoda general:
Atribuirea fiecrui obiect la clusterul cu centrul cel mai apropiat.
o Centrele se recalculeaz dup fiecare atribuire, sau
o Centrele se recalculeaz dup ce au fost procesate toate obiectele.
Atribuirea fiecrui obiect n fiecare cluster i evaluarea funciei criteriu. Se reine
partiia care reduce cel mai mult valoarea funciei criteriu. Se ncearc astfel evitarea
unui optim local.
Ajustarea partiiei
Se pot defini condiii pentru reducerea, sau extinderea numrului de clustere. Se ncearc astfel
atingerea unui numr natural de clustere, apropiat de gruparea real, neinfluenat de perturbaii
introduse n procesul de determinare a observaiilor sau din alte cauze exterioare.
Algoritmul cel mai cunoscut este, n acest sens, ISODATA (Ball & Hall, Jensen):
Clusterele sunt comasate dac au puine elemente (sub un prag fixat) sau dac
distana dintre centrele lor este mic (sub un prag fixat).
Un cluster este divizat dac dispersia elementelor (dup atributul cel mai dispersat)
depete un prag fixat i dac exist un numr suficient de elemente (de exemplu, de
dou ori mai multe dect numrul minim).
Este de remarcat c existena valorilor aberante poate denatura procesul de clusterizare. Din
acest motiv, anumii autori recomand excluderea obiectelor aberante (i chiar a celor din
clusterele cu puine elemente).
Convergena
Dei nu se garanteaz atingerea unui optim global, algoritmul se oprete atunci cnd funcia
criteriu nu mai poate fi mbuntit, sau n anumite variante cnd partiia nu se modific n
dou iteraii succesive.
Demonstraii matematice ale convergenei au fost bazate
fie pe formularea problemei ca o problem de programare matematic,
fie pe artarea faptului c de la o iteraie la alta se mrete variana interclase i se
micoreaz variana intraclase, ceea ce dat fiind finitudinea mulimii de obiecte
produce oprirea procesului.
Clasificare descriptiv metode fuzzy
In afar de metodele deterministe, au fost dezvoltate i metode de clasificare fuzzy. Intr-o
metod fuzzy se obin, pentru fiecare obiect, probabilitile ca obiectul s aparin la fiecare
dintre clustere.
142 Introducere n statistica multivariat
De exemplu, o metod fuzzy, similar metodei de partiionare, este metoda celor c medii (fuzzy
c-means), bazat pe minimizarea funciei obiectiv

= =
=
n
i
c
j
j i
m
ij m
c x d u J
1 1
2
) , (

unde
n - numrul de obiecte, c numrul de clustere,
m R , m > 1 este parametru (uzual este 2),
c
j
, j = 1c sunt centrele clusterelor, d este o distan de similaritate, u
ij
este gradul de
apartenen al lui i la clusterul j.
Rezultatul este coninut n matricea de apartenen (u
ij
) care ofer probabilitile apartenenei
elementelor la clase.
Partiionarea fuzzy se realizeaz iterativ (optimiznd implicit funcia obiectiv) prin actualizarea
la fiecare pas a matricei de apartenen (u
ij
) i a centrelor clusterelor (c
j
)

|
|
.
|

\
|
=
c
l
m
l i
j i
ij
c x d
c x d
u
1
1
1
2
2
) , (
) , (
1

=
=
=
n
i
m
ij
n
i
i
m
ij
j
u
x u
c
1
1
Procesul se oprete atunci cnd matricea de apartenen se stabilizeaz:
<
+ ) ( ) 1 (
,
max
k
ij
k
ij
j i
u u

unde (0, 1) are semnificaia uzual n procese iterative similare.
Calitatea clasificrii
Deoarece ntr-o problem de clusterizare nu se cunoate nimic a priori (numrul de clase n
special), evaluarea calitii partiiei obinute este o etap foarte important. Evaluarea trebuie s
ia n considerare att faptul c, poate, mulimea iniial nu are o structur bine determinat de
clase, ct i faptul c diferite metode conduc la clase diferite.
Procedurile uzuale de evaluare:
Vizualizarea partiiei (dendrograme, profiluri, proiecii).
Indicatori de calitate
o Coeficienii de divizare (divisive coefficient DC) i de aglomerare
(agglomerative coefficient AC) care ofer indicatori (medii) globali.
o Indici de siluet (Silhouette) care se pot defini att global, ct i local pentru
fiecare cluster.
Divisive Coefficient (DC): Pentru fiecare obiect i, se calculeaz d(i) ca fiind raportul dintre
diametrul ultimului cluster (n ordinea dat de algoritmul de divizare) la care a aparinut obiectul
nainte de a fi separat ca un singleton i diametrul mulimii totale de obiecte (clusterul iniial).
Atunci

= ) (
1
i d
n
DC

Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea ascendent: Pentru
fiecare obiect i, se calculeaz d(i) ca fiind raportul dintre disocierea primului cluster (n ordinea
Probleme de clasificare 143
dat de algoritm) la care se ataeaz obiectul i diametrul mulimii totale de obiecte (clusterul
final).
| |

= ) ( 1
1
i d
n
AC

AC tinde s creasc o dat cu numrul de obiecte.
Silueta se calculeaz (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a unui cluster,
silueta medie global. Acest indice vrea s reprezinte ct de bine este separat un cluster de
vecinii si (deci ct de apropiate sunt elementele dintr-un cluster distana intra-cluster i ct
de deprtate sunt de celelalte clustere distana inter-clustere).
Prin calculul siluetei se poate decide asupra validitii unui cluster, ca i asupra numrului corect
de clustere.
Notnd cu S (i) silueta obiectului i, formula de calcul este
} , max{
) (
i i
i i
b a
a b
i S

=

unde a
i
disocierea medie a obiectului i fa de restul obiectelor din acelai cluster; b
i

disocierea medie a obiectului i fa de obiectele din cel mai apropiat cluster (al doilea candidat
pentru includerea obiectului i).
Dac obiectul i este singurul element al unui cluster, atunci
S (i) = 0.
Rezult c -1 S (i) 1 i S (i) poate fi considerat ca un indice adimensional, cu putere de
comparare. Interpretarea este
Dac S (i) este apropiat de 1, atunci obiectul este bine clasificat (este asociat cu
clusterul adecvat).
Dac S (i) este aproape nul, atunci obiectul poate fi clasificat i n urmtorul cluster
apropiat (obiectul este situat similar n raport cu ambele clustere)
Dac S (i) este apropiat de 1, atunci obiectul este clasificat eronat (el este separat
fa de celelalte clustere).
Fiecare cluster este caracterizat de silueta medie, obinut ca media siluetelor elementelor din
cluster.
Intreaga structur de clustere este caracterizat de silueta medie global, obinut ca media
siluetelor S(i) dup toate obiectele i. Dac structura conine un numr k de clustere, se noteaz
silueta medie global cu S
k
. Silueta medie global se poate utiliza pentru a decide asupra celui
mai bun numr de clustere: se va alege acel k pentru care S
k
este maxim.
Se introduce coeficientul siluet prin
k
k
S SC max =

Este propus (Rousseeuw - 1987) urmtoarea interpretare a coeficientului siluet dup valoarea
sa:
0.71 - 1.00 s-a determinat o structur puternic (bine definit) de clustere;
0.51 - 0.70 s-a determinat o structur acceptabil
0.26 - 0.50 structura determinat este slab, poate fi artificial
0.25 structura determinat este artificial.
Prelucrri statistice
SPSS
Procedurile care rezolv probleme de clasificare sunt grupate n Analyze Classify. Dintre ele
se prezint n continuare K-Means Cluster care urmrete metoda general prezentat n curs i
144 Introducere n statistica multivariat
Hierarchical Cluster pentru clasificarea ierarhic. De menionat c dei algoritmul K-Means
este cel mai direct i mai eficient ca volum de calcule, el utilizeaz distana euclidian iar
standardizarea prealabil a variabilelor este important. Pentru considerarea altor distane se va
apela procedura Hierarchical Cluster.
K-Means Cluster
Algoritmul const n fixarea iniial aleatorie a centrelor claselor (numrul de clase este
cunoscut) i apoi se repet etapele:
atribuirea fiecrui caz la centrul cel mai apropiat,
actualizarea centrelor ca valori medii ale elementelor aparinnd clasei respective.
Ca interpretare se poate considera c centrul unei clase finale reflect caracteristicile unui
element tipic al clasei prin valorile variabilelor n acel centru.
Prin Analize Classify K-Means Cluster se deschide dialogul

n lista Variables se vor trece variabilele n funcie de care se face clasificarea. Se poate utiliza o
variabil pentru etichetarea cazurilor prin specificarea ei n Label Cases by. Numrul de clustere
se poate fixa n Number of Clusters. O ghicire a numrului de clustere poate fi obinut aplicnd
n prealabil ACP i studiind diagramele proieciilor pe planele factoriale. Ca metod se poate
alege
Iterate and classify pentru a realiza o adaptare iterativ a clasificrii cazurilor prin
recalcularea centrelor dup fiecare iteraie. Dac se dorete utilizarea rezultatelor i pentru
clasificarea altor cazurii, informaiile se vor salva ntr-un fiier prin selectarea opiunii Write
final as din grupul Cluster Centers.
Classify only pentru realizarea clasificrii cazurilor atunci cnd se citesc dintr-un fiier
centrele claselor, calculate n prealabil i salvate. n acest caz se va selecta, din zona Cluster
Centers, Read initial from i se va preciza File, fiierul salvat ntr-o prelucrare anterioar.
Prin acionarea butonului Iterate din dialogul principal, buton permis doar pentru metoda Iterate
and classify, se deschide dialogul sinonim.
n Maximum Iterations se fixeaz limita numrului de iteraii, cel mult
999. Valoarea dat n Convergence Criterion reprezint o proporie p
din distana minim dintre centrele iniiale, deci poate fi ntre 0 i 1.
Procesul iterativ se oprete dac niciun centru recalculat nu este
deplasat cu mai mult de 100p% din distana minim dintre centrele
iniiale iteraiei.
Prin selectarea opiunii Use running means se cere recalcularea centrelor la fiecare clasare a unui
caz i nu dup clasarea tuturor cazurilor.
Acionarea butonului Save din dialogul principal deschide dialogul
prin care se poate cere salvarea unor informaii ca noi variabile.
Cluster membership se salveaz ca valori 1 k apartenena la
clusterele finale. Distance from cluster center salveaz distana
Probleme de clasificare 145
euclidian dintre caz i centrul clasei la care aparine.
Prin dialogul Options, afiat la acionarea butonului Options din dialogul principal, se pot
preciza statisticile calculate i modul de tratare a datelor lips.
n grupul Statistics:
Initial cluster centers prima estimare a centrelor, obinut
prin alegerea unui numr de cazuri egal cu numrul de
clustere.
ANOVA table se afieaz tabelul ANOVA pentru fiecare
variabil, considernd clusterele drept factor. Valorile F mari
vor arta variabilele care contribuie cel mai mult la structura
clusterelor.
Cluster information for each case afieaz asignrile finale la clase, distana la centrul
clasei ca i distanele euclidiene dintre centrele finale.
Hierarchical Cluster
Algoritmul pleac de la clustere (cazurile) coninnd un singur element i unete clustere pn
cnd se obine un singur cluster. Se pot selecta mai multe distane, se afieaz statistici la fiecare
pas pentru a ajuta la selectarea numrului optim de clustere.
Comanda este Analyze Classify Hierarchical Cluster care produce afiarea dialogului
principal.

Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opiunii selectate n grupul
Cluster. Variabilele reprezentnd caracteristicile dup care are loc clasificarea sau care se
clasific se trec n lista Variables i se poate alege o variabil de etichetare a cazurilor (la
clasificarea cazurilor) util n reprezentrile grafice. Grupul Display controleaz ce se afieaz,
deci accesibilitatea la butoanele Statistics, Plots. Dialogurile secundare sunt explicate n
continuare.
Statistics

Agglomeration schedule se afieaz combinaiile din fiecare iteraie, distane etc. Proximity
matrix se afieaz distanele sau similaritile dintre elemente. Cluster Membership produce
afiarea apartenenei la clustere n una sau mai multe iteraii.
146 Introducere n statistica multivariat
Plots
Diagramele de aglomerare sunt disponibile n formatul
Dendrogram (dendrograma explicat in curs, orientat spre
vizualizarea clusterelor) sau
Icicle (similar diagramei steag, orientat spre vizualizarea
cazurilor).
Orientarea diagramei poate fi vertical sau orizontal. n
reprezentarea dendrogramei, distanele dintre elementele care se
unesc sunt scalate pe o scal 0 25, cu pstrarea raportului
distanelor.

Method
n lista Cluster Method se poate alege una dintre metodele explicate n curs ca metode de
agregare, de calculare a distanelor dintre clustere: cel mai apropiat vecin (nearest neighbor), cel
mai deprtat vecin (furthest neighbor), distana fa de
centru (centroid clustering), Ward etc.
n grupul Measure se poate specifica distana sau
similaritatea utilizat n grupare potrivit tipului de date:
Interval pentru datele continue sunt disponibile
distanele: euclidian, cosinus (cosinusul unghiului
dintre vectorii punctelor), corelaia Pearson,
Chebychev (diferena absolut maxim dintre valorile
elementelor), block (suma diferenelor absolute dintre
componente, distana Manhattan), Minkowski
(rdcina de ordin p din suma diferenelor absolute la
puterea p), Customized (similar cu distana Minkowski, dar rdcina poate fi de ordin r
diferit de puterea p a diferenelor de coordonate)
Count pentru frecvene (de date discrete) sunt disponibile msurile de disociere
2
i
2
(a
se vedea seciunea privind asocierea datelor nominale).
Binary pentru datele dihotomice exist o mulime de distane propuse, bazate pe tabelul de
frecvene ncruciate a celor dou variabile. Se pot preciza valorile interpretate ca 0 sau 1.
n grupurile Transform Values i Transform Measures se pot selecta metode de transformare
prealabil a valorilor astfel nct variabilele s fie ct mai omogen msurate.
Save
Se poate salva, sau nu, ca variabile noi, apartenena la clustere.
Selectarea opiunii Single solution i precizarea numrului de
clustere considerat ca soluie final va salva apartenena la acel
stadiu.
Dac se selecteaz Range of solutions, se va salva apartenena la
fiecare stadiu dintre cele menionate.


Exerciii
1. Un consultant de marketing a observat 50 de cumprtori (alei la ntmplare) ntr-un
supermarket. Una dintre variabilele de interes a fost valoarea cumprturilor efectuate. Datele
obinute sunt coninute n tabelul urmtor:
3,11 18,36 24,58 36,37 50,39 8,88 18,43 25,13 38,64 52,75
9,26 19,27 26,24 39,16 54,80 10,81 19,50 26,26 41,02 59,07
12,69 19,54 27,65 42,97 61,22 13,78 20,16 28,06 44,08 70,32
15,23 20,59 28,08 44,67 82,70 15,62 22,22 28,38 45,40 85,76
17,00 23,04 32,03 46,69 86,37 17,39 24,47 34,98 48,65 93,34
a) S se efectueze prelucrarea statistic a acestor date:
- indicatorii de tendin central,
- indicatorii de mprtiere,
- reprezentri grafice adecvate.
b) Presupunnd c datele prezentate la problema 1 au fost obinute n sectoarele A (primele 5
coloane) i B (ultimele 5 coloane) ale supermarketului, s se completeze analiza statistic
potrivit acestei informaii suplimentare. Se vor efectua, n special, comparaii ntre cumprturile
efectuate n cele dou sectoare.
2. Distribuia dup vrst a populaiei are o importan major asupra activitii economice i
sociale. Tabelul urmtor conine distribuia dup vrst a rezidenilor din S.U.A. n anii 1950
(date obinute prin recensmnt) i 2075 (date obinute prin prognoz). Valorile sunt date n
milioane de persoane.
Grupa de vrst 1950 2075
sub 10 ani 29,3 34,9
10 19 ani 21,8 35,7
20 29 ani 24,0 36,8
30 39 ani 22,8 38,1
40 49 ani 19,3 37,8
50 59 ani 15,5 37,5
60 69 ani 11,0 34,5
70 79 ani 5,5 27,2
80 89 ani 1,6 18,8
90 99 ani 0,1 7,7
100 109 ani 1,7
S se prelucreze statistic aceste date: statisticile uzuale ale fiecrui an, comparaii ntre cei doi
ani.
3. Durata sarcinei umane normale, de la concepere i pn la natere, variaz potrivit unei
repartiii care este aproximativ normal, cu o medie de 266 de zile i o abatere standard de 16
zile.
ntre ce durate situate simetric n jurul mediei se ncadreaz 95% dintre valori?
care este durata maxim a 2,5% dintre duratele minime?
care este durata minim a 2,5% dintre duratele maxime?
4. n fiecare dintre urmtoarele situaii, stabilii o ipotez nul adecvat i ipoteza alternativ n
vederea aplicrii unui test statistic (identificai i variabila care este utilizat n formularea
ipotezelor).
un sociolog chestioneaz un eantion mare de studeni despre domeniul academic
preferat; cercettorul crede c matematica este preferat de un procentaj mai mare de
biei dect este preferat de ctre fete.
un profesor mparte la ntmplare elevii unei clase la ora de educaie fizic. Ambele
grupe nva baschet dup aceleai metode, dar grupa A este ncurajat prin laude i
148 Introducere n statistica multivariat
atitudine pozitiv, n timp ce grupa B este tratat printr-o atitudine neutr; profesorul
dorete s arate c atitudinea pozitiv conduce la o medie mai mare a scorurilor obinute
la testarea cunotinelor de baschet.
un economist crede c printre tinerii angajai exist o corelaie pozitiv ntre venit i
procentajul economisit din venit. Pentru a testa aceast ipotez, cercettorul strnge
datele privind venitul i economiile realizate de tineri angajai (ntre 25 i 34 de ani),
eantionul fiind obinut n mod aleatoriu din localitatea de reedin a cercettorului.
5. ntr-un test statistic cu pragul de semnificaie = 0.05, care sunt probabilitile de a comite
erori de tip I, respectiv de tip II:
5% pentru eroare de tip I i 95% pentru eroare de tip II,
5% pentru eroare de tip I i necunoscut pentru eroare de tip II,
5% pentru eroare de tip II i 95% pentru eroare de tip I,
5% pentru eroare de tip II i necunoscut pentru eroare de tip II,
necunoscute pentru ambele tipuri de erori?
6. Compararea mediilor prin testul Student. Problema este propus pentru rezolvare n Excel.
a) Se vor genera dou eantioane de numere aleatoare,
b) Se apeleaz procedura F-test Two-Sample for Variances
c) Se vor repeta punctele a i b pentru diferite valori ale dispersiilor
d) Se va studia de unde ncepe s se fac distincie ntre dispersii.
e) Se vor apela procedurile dedicate testelor t pentru fiecare situaie (apelul este condiionat
de decizia de la aplicarea testului F).
7. Sunt comparate dou proceduri de laborator pentru determinarea nivelului de amilaz n
fluidele corpului uman. Metoda nou este mai puin costisitoare dect metoda "standard", dar
poate produce rezultate diferite. Fiecare metod este utilizat pentru fiecare dintre cei 10
subieci, obinndu-se rezultatele (n uniti per mililitru):
Subiect metoda standard metoda nou
1 38 46
2 48 57
3 58 73
4 53 60
5 75 86
6 58 67
7 59 65
8 46 58
9 69 85
10 59 74
Subiecii constituie un eantion aleatoriu din populaia de interes i rezultatele testelor sunt
repartizate normal.
Exist prerea c valorile obinute prin metoda nou sunt n medie mai mari cu 8
uniti dect cele obinute prin metoda standard. S se testeze aceast ipotez la pragul de
semnificaie de 5%.
S se obin un interval de ncredere, cu sigurana statistic de 95%, pentru diferena
mediilor celor dou metode.
8. Datele privind rezultatele a 24 de studeni la dou probe de examen sunt cuprinse n tabelul
urmtor. Se poate spune c nivelul general de pregtire este mai bun la a doua prob?
Exerciii 149

Student Proba 1 Proba 2 Student Proba 1 Proba 2
1 5 6 13 4 3
2 8 9 14 5 6
3 7 7 15 7 5
4 4 5 16 6 4
5 4 4 17 3 6
6 5 6 18 6 7
7 6 5 19 5 5
8 6 7 20 7 8
9 4 4 21 6 8
10 5 6 22 4 7
11 3 4 23 8 7
12 7 6 24 5 6
9. n experimente privind utilizarea diferitelor dispozitive sau produse software s-au evaluat mai
multe variabile, precizate mai departe. S se defineasc tipul acestor variabile (nominale,
ordinale, interval):
- numrul de erori la modificarea tonului de apel pentru un telefon mobil,
- dimensiunea palmei utilizatorului n cm,
- timpul de alegere a culorii pentru marcarea unui text ntr-un document,
- cel mai utilizat browser pentru web,
- suma de bani cheltuit pentru produse software ntr-un an,
- numrul de mesaje e-mail primite n ziua precedent.
10. De ce este mai bine s se utilizeze ANOVA n loc de un set de teste t?
11. ntr-un studiu privind nelegerea citirii la copii, s-au utilizat trei metode de predare. S-au
format trei grupuri de cte 22 de elevi. Fiecare metod a fost utilizat pentru cte un grup.
Rezultatele obinute de cei 66 de elevi la sfritul perioadei de studiu sunt raportate n tabelul
urmtor, scorurile mai mari exprimnd un nivel mai nalt de nelegere. Fiecare coloan,
etichetat grup1, , grup3, conine scorurile individuale ale elevilor din grupul respectiv.
Nr.crt. grup 1 grup 2 grup 3 Nr.crt. grup 1 grup 2 grup 3
1 4 7 11 12 9 6 13
2 6 7 7 13 12 8 4
3 9 12 4 14 12 9 13
4 12 10 7 15 12 9 6
5 16 16 7 16 10 8 12
6 15 15 6 17 8 9 6
7 14 9 11 18 12 13 11
8 12 8 14 19 11 10 14
9 12 13 13 20 8 8 8
10 8 12 9 21 7 8 5
11 13 7 12 22 9 10 8
(Not: formarea grupurilor a fost controlat astfel nct grupurile sunt similare n privina
abilitilor de nelegere.)
S se realizeze o analiz statistic a datelor experimentale cu scopul de a decide dac
metodele de predare utilizate pot fi considerate de aceeai valoare.
Primele 11 observaii (prima jumtate a tabelului) sunt obinute evalund elevi din coli
din mediul rural, ultimele 11 observaii (a doua jumtate a tabelului) sunt obinute pentru
elevi din mediul urban. S se refac analiza considernd noile informaii:
exist diferene ntre metode?
exist diferene dup mediu?
exist interaciune ntre mediu i metod?
150 Introducere n statistica multivariat
12. S se analizeze statistic urmtorul set de date. Datele se refer la situaia colar (medii la un
obiect).
Reedina elevului
Nr.crt.
Pregtirea
prinilor Urban Rural Suburban
1 superioare 8.45 9.35 8.70
2 6.25 7.11 8.47
3 6.73 7.55 10
4 6.36 6.64 8.20
5 7.92 7.79 7.45
6 5.40 8.25 7.41
7 6.24 8.25 7.96
8 7.49 10 6.93
9 7.62 9.07 8.70
10 8.73 8.50 7.45
1 liceale 6.14 6.81 4.84
2 4.52 7.92 8.77
3 7.41 6.40 7.67
4 5.72 7.06 5.97
5 7.07 5.10 5.29
6 4.97 5.44 7.38
7 7.00 8.53 7.42
8 9.10 7.49 3.04
9 10 8.44 6.64
10 6.44 7.62 7.10
1 primare 5.60 5.10 6.32
2 6.28 6.00 5.70
3 5.10 6.21 5.12
4 6.05 6.37 8.13
5 5.83 7.89 5.71
6 5.75 5.19 8.51
7 8.33 5.75 5.05
8 7.93 9.94 5.21
9 7.52 7.33 8.43
10 5.41 4.01 4.60
13. Un studiu raporteaz un coeficient de corelaie r = 0,5 pe baza unui eantion de volum n =
20; alt studiu raporteaz acelai coeficient de corelaie pe baza unui eantion de volum n = 10.
Pentru fiecare studiu, s se testeze ipoteza nul = 0. S se interpreteze i s se explice
rezultatele.
14. Legea lui Ohm, I = V/R, afirm c intensitatea curentului, I, este proporional cu tensiunea,
V, i invers proporional cu rezistena, R. Elevii dintr-un laborator de fizic efectueaz
experimente bazate pe legea lui Ohm: variaz tensiunea, msoar intensitatea curentului i
determin n final rezistena firului. Se obin rezultatele:
V 0,50 1,00 1,50 1,80 2,00
I 0,52 1,19 1,62 2,00 2,40
- Deoarece legea lui Ohm poate fi rescris sub forma unei regresii liniare, I = +V, unde
= 0 i =1/R, s se estimeze, pe baza datelor experimentale, coeficienii i .
- S se obin intervalul de ncredere, la pragul de semnificaie de 5%, pentru coeficientul
. S se deduc intervalul de ncredere pentru rezistena firului.
- S se verifice ipoteza = 0.
15. Exist o anumit eviden c prevenirea atacurilor de inim este ajutat de un consum
moderat de vin. n tabelul urmtor sunt prezentate date statistice din 1994 privind aceast
problem (consumul de alcool in litri/persoana, decesele sunt anuale/100000 locuitori).
Exerciii 151
- S se realizeze o diagram de mprtiere i s se descrie forma relaiei dintre cei doi
indicatori.
- Exist asociere ntre cei doi indicatori?
- S se calculeze coeficientul de corelaie.
ara
Alcool
din vin
Decese datorate
afectiunilor cardiace
Australia 2.5 211
Austria 3.9 167
Belgia 2.9 131
Canada 2.4 191
Danemarca 2.9 220
Finlanda 0.8 297
Franta 9.1 71
Islanda 0.8 211
Irlanda 0.7 300
Italia 7.9 107
Olanda 1.8 167
Noua Zeelanda 1.9 266
Norvegia 0.8 227
Spania 6.5 86
Suedia 1.6 207
Elvetia 5.8 115
Marea Britanie 1.3 285
SUA 1.2 199
Germania 2.7 172
16. Urmtorul tabel conine rezultatele dintr-o statistic oficial privind cheltuielile pentru
buturi alcoolice i produse de tutun n 11 regiuni ale Marii Britanii.
regiunea alcool tutun
North 6.47 4.03
Yorkshire 6.13 3.76
Northeast 6.19 3.77
East Midlands 4.89 3.34
West Midlands 5.63 3.47
East Anglia 4.52 2.92
Southeast 5.89 3.2
Southwest 4.79 2.71
Wales 5.27 3.53
Scotland 6.08 4.51
Northern Ireland 4.02 4.56
- S se realizeze o diagram de mprtiere i s se descrie forma relaei dintre cei doi
indicatori.
- Exist asociere ntre cei doi indicatori? S se calculeze coeficientul de corelaie.
- S se recalculeze coeficientul de corelaie doar pentru primele 10 regiuni i s se interpreteze
rezultatul.
17. O familie nregistreaz consumul de gaz necesar nclzirii locuinei. Consumul (n mc) este
raportat n tabelul urmtor, mpreun cu diferena medie de temperatur fa de cea extern (n
grade Fahrenheit).
Luna oct nov dec ian feb mar apr mai iun
temperatura 15.6 26.8 37.8 36.4 35.5 18.6 15.3 7.9 0
Gaz 520 610 870 850 880 490 450 250 110
- S se studieze relaia dintre cei doi indicatori. Exista asociere ntre acetia?
- S se estimeze dreapta de regresie care modeleaz relaia dintre cei doi parametri.
152 Introducere n statistica multivariat
- n timpul verii, proprietarul locuinei mbuntete izolaia termic a casei sale. n luna
februarie urmtoare, la o temperatur de 40, se consuma 895 mc de gaz. Se poate spune c
lucrarea efectuat reduce consumul de gaz?
18. S-a studiat abilitatea de a controla un joc de conducere auto n timp ce se utiliza un telefon
mobil. Au fost nregistrate valorile a 10 variabile diferite i setul de date a fost supus unei analize
n componente principale. S-au obinut rezultatele
Factor Valoare proprie Factor Valoare proprie
1 2.43 6 0.65
2 1.83 7 0.60
3 1.41 8 0.58
4 0.91 9 0.49
5 0.69 10 0.41
- S se calculeze procentajul din variana global asumat de fiecare factor i s se justifice
rspunsul
- S se selecteze cei mai importani factori i s se justifice alegerea.
19. Un experimentator a dezvoltat un chestionar constnd n 100 de ntrebri, rspunsurile
posibile fiind 1, 2, 3, 4 sau 5. Au fost interogate 30 de persoane. Primele cinci ntrebri au fost
rezumate prin tabelul:
ntrebare Scor mediu Abatere standard
1 3.666667 1.917853
2 3.1 0.844863
3 3.333333 1.184187
4 3.066667 0.868345
5 2.966667 1.129032
- Ce prere avei despre acest mod de prezentare a rspunsurilor?
- Propunei o alternativ de prezentare mai adecvat variabilelor.
20. Care este diferena dintre analiza regresional i cea a corelaiilor?
21. Ce nseamn c o corelaie este semnificativ? De exemplu, ntr-un experiment asupra
timpului de reacie s-au evaluat pulsul i timpul mediu necesar apsrii unui buton la 50 de
subieci. Coeficientul de corelaie dintre cele dou variabile este r = 0.4 i este semnificativ la
p < 0.02. Ce nseamn aceasta?
22. Un cercettor este interesant s specifice relaia dintre indicele de inteligen (IQ) i
rezultatul la un examen (msurat pe o scal cu 100 de puncte). Datele obinute de la un numr de
subieci sunt:
Student IQ Rezultat Student IQ Rezultat
1 110 42.5 7 127 70.5
2 112 53 8 130 60
3 118 46 9 132 81
4 119 61.75 10 134 70.5
5 122 70.5 11 136 77.5
6 125 56.5 12 138 88
- S se studieze asocierea celor dou variabile, IQ i scor.
- Ct din variana scorurilor poate fi atribuit variabilei IQ?
- S se estimeze i s se valideze dreapta de regresie care aproximeaz IQ ca o funcie de
scor, IQ = a scor + b.
- S se estimeze i s se valideze dreapta de regresie care aproximeaz scorul ca o funcie
de IQ, scor = a IQ + b.
- Ce relaie este ntre cele dou ecuaii?
- Se poate renuna la examen n sensul c nota se poate obine din ultima ecuaie estimat
tiind IQ-ul studentului?
Exerciii 153
23. In urma aplicrii ANOVA pe un set de date, n SPSS, s-a obinut urmtorul tabel
Sum of Squares df Mean Square F Sig.
Between Groups 144039.128 2 72019.564 63.672 .000
Within Groups 447916.290 396 1131.102
Total 591955.419 398
- Cte grupuri s-au comparat?
- Care este ipoteza nul a testului?
- S se interpreteze rezultatele.
24. Studiindu-se caracteristicile unor automobile produse n diferite continente s-a obinut (ieire
SPSS) urmtorul tabel ANOVA
Time to Accelerate from 0 to 60 mph (sec)

Sum of
Squares df Mean Square F Sig.
Between Groups 245.840 2 .000
Within Groups 2928.079 402
Total 3173.918 404
- S se completeze tabelul i s se interpreteze rezultatul.
- Analiza post-hoc (din aceeai prelucrare SPSS) este prezentat n tabelul urmtor. S se
interpreteze rezultatele.

Dependent Variable: Time to Accelerate from 0 to 60 mph (sec)
Tukey HSD
95% Confidence
Interval Country
(I)
Country
(J)
Mean Difference
(I-J)
Std. Error Sig.
Lower
Bound
Upper
Bound
American European -1.893(*) 0.359 0 -2.74 -1.05
Japanese -1.244(*) 0.348 0.001 -2.06 -0.43
European American 1.893(*) 0.359 0 1.05 2.74
Japanese 0.65 0.438 0.3 -0.38 1.68
Japanese American 1.244(*) 0.348 0.001 0.43 2.06
European -0.65 0.438 0.3 -1.68 0.38
* The mean difference is significant at the .05 level.
25. Datele necesare acestui exerciiu (prelucrarea se va efectua, de preferin, n SPSS) sunt la
adresa web www.infoiasi.ro/~val/statistica/boston.sav i sunt doar o oglindire a unor date din
surse internaionale. Se dorete prognozarea preului de vnzare a unei case din regiunea Boston.
Variabilele sunt n ordine: CRIM rata criminalitii, ZN proporia teritoriului zonat n loturi
de peste 25,000 sq.ft., INDUS proporia terirorial a zonei industriale, CHAS indicator de
nvecinare cu rul din zon (= 1 da, 0 nu), NOX concentraia de oxizi nitrici, RM numrul
mediu de camere, AGE proporia de locuine construite nainte de 1940 i ocupate de
proprietar, DIS distana ponderat la cinci centre din Boston, RAD indicele de accesibilitate
la reeaua de autostrzi, TAX rata de impozit (procent la 10000$), PTRATIO raportul copii-
profesori n zon, B 1000(Bk0.63)
2
unde Bk este procentajul populaiei de culoare n zon,
LSTAT procentajul populaiei srace, MEDV valoarea medie a caselor (n mii de dolari).
S se efectueze urmtoarele operaii:
- Completai n SPSS denumirile de variabile i informaiile necesare.
- Verificai condiiile necesare aplicrii analizei regresionale.
- Estimai ecuaia de regresie prin diferite metode. Analizai dac obinei un rspuns care
pare consistent, independent de metod.
- Validai i interpretai rezultatele regresiei.

Bibliografie
1. Draper, N.R., Smith, H. Applied Regression Analysis, J. Wiley, New York, 1966
2. Cojocaru, N., Clocotici, V., Dobra, D. Metode statistice aplicate n industria textil,
Editura Tehnic, Bucureti, 1986
3. Clocotici, V., Stan, A. Statistic aplicat n psihologie, Polirom, Iai,2000
4. Mihoc, G., Urseanu, V., Urseanu, E. Modele de analiz statistic, Editura tiinific i
Enciclopedic, Bucureti, 1982.
5. Seber, G.A.F., Linear Regression Analysis, J. Willey, New York, 1970
6. Vduva, I. Analiza dispersional, Editura Tehnic, 1970
7. Clocotici, V. Note de curs, documente auxiliare (disponibile n reea):
http://thor.info.uaic.ro/~val/stamult.html
8. Stockburger, David W. Introductory Statistics: Concepts, Models, and Applications,
WWW Version 1.0, http://www.psychstat.missouristate.edu/introbook/sbk00.htm
9. http://en.wikipedia.org/wiki/Category:Multivariate_statistics
10. http://www.statsoft.com/textbook/stathome.html