Sunteți pe pagina 1din 141

Statistic multivariat

Lucrarea nr. 1 Statistic descriptiv (Excel)


A. Noiuni teoretice
Variabil o caracteristic ale crei valori se modific dup elementele studiate
(este modelat printr-o variabil aleatorie). Statistica este inutil n analiza
caracteristicilor constante n domeniul observat.
Observaie valorile unei mulimi de variabile msurate pentru un element studiat.
Statistic descriptiv 1. Valoare care reprezint o sintez, un rezumat al valorilor
unei caracteristici pentru un eantion sau care evalueaz relaia dintre dou variabile.
2. Parte a statisticii care privete descrierea variabilelor (calcularea indicatorilor
statistici descriptivi statisticile descriptive , reprezentri grafice etc.).
Statistic inferenial Parte a statisticii care cuprinde procedurile prin intermediul
crora se pot obine aseriuni asupra populaiei studiate din observaiile efectuate
asupra unui eantion din acea populaie.
Msurare atribuirea de valori la elemente, observaii potrivit unei reguli; este
procesul prin care se obin valorile variabilelor.
Scal de msur regula prin care se atribuie o valoare numeric n procesul de
msurare.
Niveluri de msurare clasificarea variabilelor dup proprietile numerice asociate
scalelor pe care se msoar valorile.
Variabile nominale (nivelul nominal) variabile care pot lua un numr finit de
valori neordonate; variabile calitative, permit doar clasificarea observaiilor. De
observat c nivelul de msurare nu se modific prin utilizarea unei codificri
numerice.
Variabilele calitative care au exact dou valori sunt denumite dihotomice sau binare.
Codificarea prin 0/1 permite utilizarea acestor variabile n proceduri dedicate
nivelurilor mai nalte de msurare (ordinal, interval).
Variabile ordinale (nivelul ordinal) variabile ale cror valori sunt ordonate dar nu
este definit (nu se poate defini) distana dintre dou valorile posibile.
Variabile de interval (nivelul interval) variabile cu valori ordonate i pentru care
este definit o distan (se poate gndi c valorile posibile sunt similare gradaiilor
unei rigle uzuale). Dac exist o valoare zero adevrat, variabila se zice de
raport Variabilele de interval sunt cele mai complexe i majoritatea tehnicilor
statistice au fost dezvoltate tocmai pentru aceste variabile.
Variabile continue variabile care odat cu dou valori pot lua orice valoare
intermediar; pot lua orice valori din domeniul lor. Variabilele de interval (raport)
sunt, de regul, continue.
Variabile discrete variabile care nu sunt continue. Variabilele nominale i cele
ordinale sunt variabile discrete.
Distribuia unei variabile toate valorile unei variabile pentru fiecare caz
(element) studiat/cunoscut. Tipuri de distribuie: 1. valorile pentru un eantion sau
populaie (distribuie empiric), 2. distribuia de sondaj a unei statistici (distribuie
teoretic), 3. distribuia privit ca structur a datelor, ilustrat numeric sau grafic.
Descrierea distribuiilor
1. Tabelar
a. listarea datelor fr nicio ordonare prealabil
b. tablouri ordonate - cu ct numrul de observaii este mai mare, cu att
este mai greu de intuit structura.
c. distribuii de frecvene absolute - se pot utiliza pentru toate tipurile de
variabile, dar utilizarea cea mai frecvent este pentru datele discrete
(nominale, ordinale).
d. distribuii de frecvene relative (procentuale) - evideniaz valorile mai
frecvente, sunt utile pentru comparaii.
e. distribuii cumulate - att pentru frecvene absolute, ct i relative.
2. Grafic (tipurile uzuale)
a. grafice cu bare pentru date discrete.
b. histograme pentru date continue.
c. grafice arie pentru date cumulate.
Caracterizarea unei distribuii - trebuie s surprind trei aspecte
a. tendina central (referit uzual ca "medie" dei poate fi vorba de
indicatori statistici diferii)
b. mprtierea (ct de mult sunt repartizate sau deprtate valorile)
c. forma distribuiei (simetria - asimetrie, aplatizare)
Rezumate pentru evaluarea tendinei centrale - ofer o valoare de prognoz,
ncrederea depinde de gradul de mprtiere a valorilor
1. Mod - cea mai frecvent valoare; este utilizat n special pentru date discrete.
Pentru date continue se obinuiete gruparea datelor i mijlocul intervalului
modal.
2. Mediana - valoarea care depete jumtate dintre observaii (quantila de ordin
0.5); este o valoare "negociat" pentru date ordinale (valoarea care mparte cel
mai bine observaiile). Deoarece presupune ordine ntre valori, nu se aplic
datelor nominale. Este un indicator de tendin central preferat n locul
mediei pentru distribuii continue asimetrice.
3. Media - este media aritmetic a valorilor msurate, utilizat pentru date
continue.
Rezumate pentru evaluarea mprtierii
1. IQV (indicele de variaie calitativ), Entropia - sunt utilizate n cazul datelor
discrete
2. Quantile - utilizate pentru datele ordonate (ordinale, de interval)
3. Domeniul (amplitudinea) - pentru date continue
4. Intervalul interquartilic - adecvat pentru date ordonate (dar utilizat prin abuz
pentru date ordinale), reprezint domeniul centrat pe median i care conine
jumtate dintre valorile msurate.
5. Dispersia (variana), abaterea standard - sunt indicatorii uzuali de caracterizare
a mprtierii datelor continue. Interpretarea uzual a abaterii standard este
aceea c, pentru o variabil distribuit normal - aceast ipotez se omite
uneori, prin exces - , circa 68% dintre valori difer de medie cu cel mult o
abatere standard i circa 95% dintre valori difer de medie cu cel mult dou
abateri standard.
mpreun cu media (aritmetic) sunt indicatorii statistici cei mai des invocai
in analiza datelor continue (de interval sau de raport).
B. Instrumente Excel
Pentru prelucrarea unui set de date memorat ntr-un document Excel se pot utiliza att
funciile statistice ale aplicaiei, ct i proceduri obinute prin Tools Data Analysis.
Funciile statistice uzuale sunt (n ordine alfabetic):
AVEDEV abaterea medie absolut
AVERAGE media aritmetic
BINOMDIST funcia de repartiie
binomial
CHIDIST funcia de repartiie
2

CHIINV inversa funciei de repartiie
2

CHITEST aplicarea testului
2

CONFIDENCE intervalul de ncredere
pentru medie
FDIST funcia de repartiie F
FINV inversa funciei de repartiie F
FTEST aplicarea testului F
HARMEAN media armonic
KURT coeficientul de aplatizare
MIN, MAX valorile extreme din list
MEDIAN mediana
MODE valoarea mod
NORMDIST funcia de repartiie
normal

NORMINV inversa funciei de repartiie
normal
NORMSDIST funcia de repartiie
normal standard
NORMSINV inversa funciei de repartiie
normal standard
PERCENTILE quantile
QUARTILE quartile
RANK rangul argumentului ntr-o list
SKEW coeficientul de asimetrie
STANDARDIZE valoarea standardizat a
argumentului
STDEV abaterea standard
TDIST funcia de repartiie Student, t
TINV inversa funciei de repartiie
Student
TTEST aplicarea testului Student
VAR dispersia
Pentru a utiliza procedurile statistice, trebuie ca prin Tools AddIns s se
verifice dac este instalat utilitarul Analysis ToolPak. n caz afirmativ, comanda
Tools Data Analysis va deschide dialogul Data Analysis din care sunt accesibile o
serie de prelucrri statistice conduse de dialogurile asociate. Astfel, Descriptive
Statistics va produce indicatorii statistici ai unei variabile continue.
Tot n partea de descriere statistic poate fi ncadrat i metoda de creare a
cuburilor OLAP prin Data Pivot Table, metod prin care se obin distribuiile
simple sau multivariate ale unor variabile discrete sau indicatorii statistici eseniali ai
subpopulaiilor.
De asemenea, nu trebuie uitat c toate procedurile legate de reprezentrile
grafice, iniiate prin Insert - Chart (sau uneltele corespunztoare) sunt o parte a
prelucrrii statistice descriptive oferind grafice, histograme etc.
C. Lucrarea practic
1. Se va importa n Excel fiierul de date
http://thor.info.uaic.ro/~val/statistica/Admitere.txt
care conine datele de la un examen de admitere la facultatea de
informatic, pe vremea cnd examenul includea i o prob scris.
2. Se va stabili tipul fiecrei variabile (nominal, ordinal, interval)
Legitimatie - numrul legitimaiei (eliberate n ordinea
nscrierii)
Bacalaureat - media la bacalaureat
Optiune - proba la alegere (A - analiz matematic, C -
programare C, P - programare Pascal)
Sala - sala de examen
Scris - media la scris
Final - media final
Situatie - situaia dup examen (1 - fr taxa, 2 - cu tax, 3 -
respins, 4 - n ateptare)
3. Se vor caracteriza variabilele cu ajutorul indicatorilor statistici
adecvai.
4. Se vor realiza grafice de ilustrare a distribuiilor variabilelor.
5. Se vor identifica subpopulaiile pentru care este de interes s se
realizeze prelucrri separate.
6. S se creeze tablourile de frecvene ncruciate dintre variabilele
Opiune i Situaie, incluznd i calculul frecvenelor relative.
7. Utiliznd att indicatori statistici ct i reprezentri grafice, se vor
compara subpopulaiile att dup repartiiile unor variabile discrete, ct
i a unor variabile continue. Se va decide:
i. dac a fost mai avantajos s se dea examen la analiz sau la
programare; la analiz, la programare C sau la programare
Pascal;
ii. care candidai i-au depit ateptarea dat de media la
bacalaureat;
iii. dac s-au obinut note mai mari la scris de ctre cei care au
susinut proba n sli de examen mai mari;
iv. dac se poate spune c acei candidai care s-au nscris n
primele zile au avut rezultate mai bune.

Statistic multivariat
Lucrarea nr. 2 Inferena statistic.
Testarea ipotezelor statistice (Excel)
A. Noiuni teoretice
Fie un spaiu de probabilitate (,A, P). Se numete variabil aleatoare o
funcie real X: , care satisface condiia:
{ } . fi ar oricare , ) X( | x A x
Numim funcie de repartiie a v.a. X, funcia real de variabil real,
F:, definit prin x), P(X ) F( = x unde prin (X x) s-a notat evenimentul
{ } x ) X( | , adic reuniunea acelor evenimente elementare pentru care v.a. ia
valori mai mici sau egale cu x.
Funcia de repartiie se zice absolut continu dac exist o funcie real,
f:, astfel nct
, d ) f( ) F(


=
x
u u x

Interpretarea geometric este cea uzual de mrime a ariei de sub graficul
funciei f.

Funcia f, dac exist, se numete densitate de probabilitate a v.a. X.
Observaie. Funcia de repartiie conine toat informaia necesar pentru
calcularea probabilitilor cu care o variabil aleatoare ia valori n anumite intervale i
pentru acest lucru va fi utilizat n ceea ce ne intereseaz.
Repartiii teoretice remarcabile
Repartiia normal
Aceast repartiie are un rol central, att din considerente teoretice, ct i
practice (nu n ultimul rnd, uurina aplicrii). Teoretic, repartiia normal reprezint
o repartiie limit ctre care tind, n anumite condiii, celelalte repartiii.
Prin definiie, o variabil continu X are o repartiie normal, sau repartiie
GaussLaplace, dac funcia de repartiie este dat de:
, 0 , , , d e
2
1
x) P(X F(x)
2
2
2
> = < =

x t
x

) (t

unde i sunt parametrii funciei de repartiie
Funcia de repartiie normal se va nota prin N(;
2
) iar faptul c v.a. X este
repartizat normal cu parametrii i se noteaz X ~ N(;
2
).
Parametrii repartiiei au semnificaia unor valori tipice i anume
M(X) = Me(X) = Mo(X) = D
2
(X) =
2

motiv pentru care se poate vorbi de repartiia normal cu media i dispersia
2
, ceea
ce determin complet repartiia.
Repartiia normal N(0,1) se numete repartiia normal redus, repartiia
normal normat sau repartiia normal standard. O v.a. repartizat N(0;1) este
notat, n mod uzual, cu Z i este referit drept variabil Z, variabil normal redus
etc. Orice variabil repartizat normal poate fi transformat ntr-o v.a. repartizat
N(0;1) prin transformarea (de normare, de standardizare)


=
X
Z
.
Inferena statistic
Prin inferen statistic se nelege, n sensul precizat anterior, obinerea de
concluzii bazate pe o eviden statistic, adic pe informaii derivate dintr-un
eantion. Concluziile sunt asupra caracteristicilor populaiei din care provine
eantionul.
Observaie. Dac este investigat ntreaga populaie, atunci rezultatele care se obin
constituie finalul prelucrrii i nu sunt necesare (i nici posibile) prelucrrile introduse
n aceast seciune.
Prin eantion (sau selecie) vom nelege o submulime a populaiei statistice
considerate. Operatiunea de formare a unui eantion se numete sondaj. Sondajele
care au anse mai mari de a produce eantioane reprezentative sunt cele bazate pe
proceduri de selecie aleatoare.
In eantioane diferite, statisticile calculate au valori diferite. n acest fel se
poate vorbi despre o distribuie a valorilor statisticii n mulimea eantioanelor de un
acelai volum; apare astfel distribuia de sondaj a statisticii respective.
Inferena statistic implic trei distribuii asociate cu caracteristica studiat:
distribuia populaiei;
distribuia de sondaj;
distribuia eantionului.
Prin distribuia populaiei se nelege distribuia pe care o are caracteristica
studiat (sau v.a. asociat ei) n populaie. Aceast distribuie nu este, n general,
cunoscut. Interesul unei cercetri este tocmai acela de a studia aceast distribuie.
Prin distribuia eantionului se nelege distribuia pe care o are caracteristica
studiat n eantionul disponibil n studiu. Aceast distribuie este cunoscut complet,
ntruct toate datele necesare sunt msurate.
Prin distribuia de sondaj a unei statistici se nelege distribuia pe care o are
statistica n mulimea tuturor eantioanelor de volum dat. Este ns remarcabil faptul
c, din considerente teoretice, ntre distribuia populaiei i distribuia de sondaj exist
legturi bine precizate sau, datorit unor teoreme de limit central, se cunoate forma
acestei distribuii atunci cnd volumul eantionului crete (tinde spre infinit).
Inferena statistic urmeaz, n general, urmtorul algoritm:
se obine, printr-un procedeu valid, un eantion;
se calculeaz o valoare tipic a eantionului (o statistic de sondaj);
din considerente teoretice, se cunoate repartiia din care provine aceast valoare
tipic i relaia repartiiei de sondaj a statisticii cu valoarea tipic din populaie;
utiliznd repartiia de sondaj a statisticii se pot face evaluri ale erorilor de
estimaie.
Repartiia de sondaj a mediei este caracterizat de
. ) D( , ) ( D , ) M(
2
2
n
x
n
x x

= = =

Practic, se poate accepta o repartiie N(;
2
/n)
pentru n > 10 dac repartiia lui X este aproape simetric, sau
pentru n > 30 pentru repartiii cu asimetrie pronunat sau necunoscut.
Estimaii
Se numete estimator orice entitate a crei valoare poate fi utilizat drept
valoare (de regul aproximativ) pentru o alt entitate. Valoarea estimatorului se zice
c este o estimaie.
Valoarea care aproximeaz, pe baza datelor de sondaj, valoarea necunoscut a
unui parametru al populaiei poart denumirea de estimaie statistic. Astfel, media
aritmetic este estimator pentru media populaiei , abaterea standard s este estimator
pentru abaterea standard a populaiei etc.
Dup natura lor, n statistic se utilizeaz dou tipuri de estimaii:
punctuale
sub form de interval.
Printr-o estimaie punctual se nelege valoarea unui estimator calculat
ntr-un eantion. Numim eroare de estimare valoarea absolut a diferenei dintre
estimaia punctual i valoarea parametrului estimat.
Fie o populaie statistic, caracterizat de o v.a. continu X a crei repartiie
depinde de un parametru , necunoscut. Prin definiie, dac se pot determina
1
i
2

astfel nct pentru o valoare prestabilit (0 < < 1) s aib loc
= < < 1 ) P(
2 1
, atunci intervalul (
1
,
2
) se numete interval de ncredere
pentru parametrul necunoscut , cu un coeficient (sau nivel) de ncredere egal cu ,
sau cu o siguran statistic S

= 1.
Dac att
1
ct i
2
sunt finite, atunci intervalul de ncredere se zice bilateral.
n cazul cnd
1
este -, sau
2
este +, ceea ce revine n fapt la determinarea unei
singure limite, intervalul se zice unilateral.
Intervale de ncredere pentru valoarea medie
Fie o populaie statistic caracterizat de o v.a. X repartizat normal, cu
parametrii i
2
. Presupunem c s-au obinut, dintr-un eantion de volum n, media
de sondaj x i dispersia de sondaj s
2
. Fixm pragul de semnificatie .
Dac dispersia,
2
este cunoscut, intervalul de ncredere pentru media
populaiei:
,
2
1
2
1


+ < < z
n
x z
n
x

Dac dispersia,
2
, nu este cunoscut

2; / 1 ; 2 / 1
+ < < t
n
s
x t
n
s
x

Intervale de ncredere pentru dispersie
Fie o populaie normal, sau aproximativ normal, cu parametrii i
2

necunoscui. Se demonstreaz c intervalul de ncredere bilateral pentru dispersia
populaiei, cu ncrederea statistic de 1, este dat de
,
) 1 ( ) 1 (
2
; 2 /
2
2
2
; 2 / 1
2

s n s n
< <


unde n este volumul eantionului,
2
este dispersia de sondaj, iar

; 2 /
i

; 2 / 1
sunt quantilele de ordin /2, respectiv 1- /2, ale repartiiei
2
cu = n1
grade de libertate.
Testarea ipotezelor statistice
Fr a ncerca o generalizare, se poate accepta ideea c, n cele mai multe
prelucrri statistice, datele sunt obinute i prelucrate pentru a verifica ipoteze ale
cercettorilor. Deci, ca o prim imagine a subiectului, trebuie reinut secvena:
1. formularea unei ipoteze;
2. obinerea de date experimentale;
3. verificarea ipotezei pe baza acestor date.
Vom considera semnificativ un eveniment care contrazice ipoteza de plecare.
Raionamentul general
Lumea real Statistic
Se formuleaz setul de ipoteze H
0
, H
1

Se calculeaz, dintr-un eantion, o statistic (statistica
testului).
Are loc un eveniment
Se calculeaz, n ipoteza H
0
, probabilitatea p
c
de apariie a
valorii calculate (probabilitatea critic a testului, p-value).
Rezult c probabilitatea
de realizare este suficient
de mare
Dac p
c
este mic, apare o contradicie,
Pentru a rezolva contradicia se va respinge H
0
n favoarea
ipotezei H
1
deoarece motivul pentru care probabilitatea
critic este mic este faptul c la calculul acesteia s-a
acceptat ipoteza H
0
.
Dac p
c
este mare, nu se respinge H
0
, nu exist nici un motiv
pentru a lua decizia contrar.
Rmne o singur ntrebare: ncepnd de unde o probabilitate este considerat
drept mic? Pentru a nu introduce subiectivismul n aceast decizie, se fixeaz,
anterior deciziei n test, un prag sub care o probabilitate este considerat mic.
Aceast valoare se numete prag de semnificaie i se noteaz uzual cu .
Regula de decizie n test poate fi formulat atunci:
dac p
c
, atunci se respinge ipoteza nul, H
0
, n favoarea ipotezei
alternative, H
1
;
dac p
c
> , atunci nu se respinge ipoteza nul H
0
.
Se numete regiune de respingere, pentru un nivel de semnificaie fixat,
mulimea rezultatelor (valorilor statisticii testului) care conduc la respingerea ipotezei
H
0
. Dac se pot defini limitele numerice ale regiunii de respingere, acestea se vor
numi, uneori, valori critice ale testului.
Testele pot fi
parametrice = ipoteza H
0
este strict legat de un parametru al
populaiei, iar statistica testului are o repartiie cunoscut tocmai din
aceast ipotez.
neparametrice = repartiia statisticii testului se calculeaz i nu rezult
din presupuneri apriorice asupra acestei distribuii i a probabilitilor
ataate.
Testele parametrice pot fi ( noteaz un parametru al populaiei):
bilaterale (nedirecionale)
H
0
: =
0

H
1
:
0

unilaterale (direcionale)
H
0
: =
0

H
1
: < (sau >)
0

Un test statistic are, de multe ori, o denumire dat de repartiia statisticii
testului: teste normale (sau Z), teste Student (sau t), teste F etc. Astfel, un test 2
reprezint un test a crui statistic are o repartiie de sondaj din clasa 2..
Categorii de teste
Testele sunt clasificate n teste pentru variabile continue i teste pentru
variabile discrete (nominale sau ordinale). Primele sunt, de regul, teste parametrice,
celelalte sunt neparametrice.
Teste de concordan
Aceste teste se refer la potrivirea, concordana dintre valorile calculate n
eantion (statisticile de sondaj) i valorile parametrilor respectivi din populaia
statistic (valori cunoscute sau presupuse). Cu alte cuvinte, problema poate fi
formulat: ct de mult poate s se abat o valoare calculat (dintr-un eantion) de la
valoarea presupus pentru ntreaga populaie pentru a putea considera c are loc o
nepotrivire ntre cele dou valori?
Dei formulat astfel problema pare c se refer la eantion i la populaia de
baz, punctul de vedere corect este:
1. exist o populaie statistic de interes, fie ea P
1
;
2. pentru orice eantion se poate considera o populaie de baz din care este
extras eantionul (reprezentativ pentru acea populaie); fie P
2
aceast
populaie;
3. problema este dac se poate considera c P
2
este n concordan cu P
1
,
adic parametrii de interes ai celor dou populaii nu difer semnificativ.
Se observ c testarea se va efectua pentru ipoteze privind populaii, se va
utiliza informaia dintr-un eantion, deci rmnem n domeniul inferenei statistice.
Ipoteza nul va afirma, n general, c populaiile P
1
i P
2
concord.
Respingerea ipotezei nule poate avea, n practic, dou consecine:
se va considera c eantionul nu este reprezentativ pentru populaia de interes,
populaie care se consider stabil; se va cuta un alt eantion;
sau
se va considera c populaia P
1
i-a modficat ntre timp parametrii; noua
populaie de referin este P
2
.
Alegerea ntre cele dou afirmaii aparine practicianului din domeniul studiat,
fiind, de cele mai multe ori, o alegere ghidat de intuiie, de experien etc.
Testul erorii standard a mediei
Fie P
1
populaia statistic de interes, caracterizat de media
0
(cunoscut sau
presupus) i de abaterea standard (cunoscut). ntrebarea este dac valorile tipice
de sondaj susin ipoteza c eantionul este din populaia P
1
, accentul fiind pus pe
media populaiei.
n testul erorii standard a mediei se presupune c sunt ndeplinite condiiile
care asigur mediei de sondaj o repartiie normal sau aproape normal:
caracteristica studiat este repartizat normal sau
eantionul este mare (n30).
In aceste condiii, media de sondaj urmeaz o repartiie normal N(,
2
/n),
unde este media populaiei (notat n introducerea seciunii cu P
2
) din care provine
eantionul. Pentru P
2
se presupune aceeai abatere standard (se studiaz modificarea
mediei unei populaii). Rezult c variabila transformat
n
x x
x

= Z

este repartizat normal standard i poate fi utilizat pentru calcularea
probabilitilor necesare. Ipotezele testului erorii standard a mediei sunt
pentru testul bilateral:

=
0 1
0 0
: H
: H
(A)




pentru testele unilaterale:

>
=

<
=
0 1
0 0
1
'
1
0 0
: H
: H
(C) sau
: H
: H
(B)






n condiiile ipotezei nule, =
0
, rezult c transformata Z a mediei de sondaj
devine
n

0
x
Z

=

n care toate valorile sunt cunoscute i prin urmare poate fi localizat pe curba
densitii de probabilitate normal standard.
Pentru a aplica acest test este necesar s se cunoasc i, prin urmare, situaia
practic de referin este aceea n care se studiaz dac o populaie statistic,
constant ca variabilitate, i-a meninut, sau nu, valoarea medie. Deoarece, n general,
nu se poate ti cu siguran c repartiia caracteristicii studiate este riguros normal,
acest test se utilizeaz pentru eantioane mari.
Acest test este referit i ca testul Z de concordan, datorit utilizrii unei
statistici repartizate normal standard..
Testul de concordan Student (t)
Atunci cnd nu se cunoate abaterea standard a populaiei, , se va utiliza
estimaia s, abaterea standard de sondaj, n locul lui , iar repartiia statisticii testului
va fi repartiia Student. Pentru caracteristica studiat se presupune, ns, o repartiie
normal (cu parametri necunoscui) sau apropiat de o repartiie normal.
Ipotezele testului sunt aceleai cu seturile de ipoteze anterioare (A), (B), (C).
Statistica testului este similar statisticii din testul erorii standard a mediei, cu
excepia faptului c n loc de se utilizeaz estimaia s:
n
s
x
0
t

=

Dac ipoteza nul, H
0
: =
0
, este adevrat, atunci variabila t urmeaz o
repartiie Student cu = n1 grade de libertate i se poate aplica o regul uzual de
decizie n test.
Teste de comparare
Categoriile de teste prezentate aici se bazeaz, aparent, pe compararea datelor
de sondaj care aparin la dou eantioane. Cum ansa de a se obine dou eantioane
identice este extrem de redus, problema comparrii eantioanelor, luat n sensul
strict al cuvntului, pare neimportant.
Un test de comparare trebuie, ns, nscris n inferena statistic: fie dou
eantioane extrase din dou populaii P
1
i P
2
respectiv. Prin utilizarea eantioanelor
se dorete de fapt compararea celor dou populaii.
Dificultatea procedurii const n aceea c diferenele dintre cele dou
eantioane, ca i similaritatea lor, se pot datora:
diferenelor dintre populaii, i/sau
diferenelor de sondaj dintre eantioane.
Testul F
Compararea mediilor populaiilor normale ia n considerare mprtierea
datelor n cele dou populaii. Este important atunci s se cunoasc dac dispersiile
celor dou populaii pot fi considerate egale, sau nu. Acest fapt se decide utiliznd
testul F, bazat pe repartiia teoretic F (FisherSnedecor).
Situaia poate fi recunoscut prin:
dou populaii, caracterizate de variabilele X
1
i X
2
, respectiv;
variabilele sunt repartizate normal, ) ; N( ~ X
2
1 1 1
, ) ; N( ~ X
2
2 2 2
;
din dou eantioane, unul din fiecare populaie, dispunem de estimaiile
2
1
s
i
2
2
s ale dispersiilor populaiilor; eantioanele au volume
1
n i
2
n ,
respectiv.
Ipotezele testului F sunt att de tip bilateral ct i de tip unilateral.
Testul bilateral:

=
2
2
2
1 1
2
2
2
1 0
: H
: H
(A)



Teste unilaterale:

<
=
2
2
2
1
'
2
2
2
1 0
: H
: H
(B)
1


;

>
=
2
2
2
1
"
2
2
2
1 0
: H
: H
(C)
1



Cnd ipoteza nul este adevrat, atunci statistica
2
2
2
1 *
s
F
s
=
este repartizat F cu 1
1 1
= n i 1
2 2
= n grade de libertate, nct se pot utiliza
valorile tabelate pentru F(
1
;
2
) pentru determinarea probabilitilor critice.
Pentru simplificarea deciziei n test, n practic se utilizeaz o statistic uor
modificat prin considerarea ca prim populaie, P
1
, a populaiei pentru care dispersia
de sondaj este mai mare:
) , ( min
) , ( max
F
2
2
2
1
2
2
2
1
s s
s s
=
n aa fel nct sunt utilizabile doar testele (A) i (C). n acest caz se noteaz cu
max

numrul gradelor de libertate pentru numrtor i cu
min
numrul gradelor de libertate
pentru numitor.
Decizia, la nivelul de semnificaie , pentru testul bilateral (A):
se respinge ipoteza nul H
0
n favoarea ipotezei alternative H
1
dac
min max min max
; ; 2 / ; ; 2 / 1
F sau F

F F < >


Decizia, la nivelul de semnificaie , pentru testul unilateral (C):
se respinge ipoteza nul H
0
n favoarea ipotezei alternative
'
1
H dac
min max
; ; 1
F

> F
Teste t de comparare
Compararea mediilor a dou populaii se realizeaz prin teste de comparare t.
Sunt utilizate frecvent trei asemenea teste, difereniate de situaia existent ntre
dispersiile populaiilor i independena eantioanelor:
eantioane independente, dispersii egale,
eantioane independente, dispersii neegale,
eantioane dependente (perechi, corelate).
B. Instrumente Excel
Procedurile prezentate sunt disponibile prin dialogul Tools - Data Analysis.
RANDOM NUMBER GENERATION
Utiliznd aceast procedur se pot genera serii de numere aleatoare distribuite
dup 7 tipuri diferite de funcii de repartiie. Rezultatul const n una sau mai multe
coloane de numere, fiecare coloan reprezentnd valori ale unei variabile repartizate
dup o funcie de repartiie precizat.
Pentru fiecare generare se va da numrul de coloane (variabile) generate,
numrul de valori (acelai pentru toate variabilele), tipul funciei de repartiie,
parametrii funciei i locul unde se vor nscrie rezultatele.
Deoarece parametrii unei funcii de repartiie depind de tipul funciei, prezen-
tarea procedurii va fi particularizat pentru cteva clase de funcii. Dialogul principal
al procedurii Random Number Generation este prezentat n figura care urmeaz.
Se observ cele patru componente principale ale dialogului: zona care
precizeaz tipul de generare (numr de variabile, numr de valori, tipul distribuiei),
zona cu parametrii funciei de repartiie specific funciei selectate , zona
parametrului de iniializare a generrii aleatoare i zona de precizare a domeniului
rezultat.

Ti pul de generare
Number of Variables se precizeaz numrul de variabile generate, adic numrul de
coloane;
Number of Random Numbers se precizeaz numrul de valori generate, acelai pentru toate
variabilele;
Distribution se alege funcia de repartiie a variabilelor generate.
Ini i al i zarea generri i
Random Seed Procesele de generare aleatoare sunt caracterizate i prin fixarea unei valori
iniiale funcie de care se ncepe procesul de generare. Aceast valoare, care nu nseamn
prima valoare generat, este un numr ntreg ntre 1 i 32000. Dac nu se precizeaz
aceast valoare, atunci se va considera n mod automat un numr aleator (obinut din data
curent i timpul curent).
Diferena ntre cele dou situaii este: la alegerea automat se genereaz de
fiecare dat serii diferite; la alegerea de ctre utilizator se va genera aceeai serie
de fiecare dat cnd se indic acelai numr. Prin urmare, se va completa aceast
zon doar dac, pentru a simula o anumit comportare sau prelucrare, este nevoie
de generarea aceleeai serii de numere aleatoare n utilizri succesive.
Out put opt i ons
Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive
Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele.
Paramet ers
Structura acestei zone depinde de funcia de distribuie selectat.
Repartiie discret (Discrete)
Structura zonei Parameters
este prezentat n figur. O
distribuie discret este distribuia
unei variabile care ia un numr finit
de valori cu probabiliti fixate.
Deoarece valorile trebuie s fie
numerice, acest tip de repartiie
poate fi utilizat pentru probleme care implic variabile nominale atunci cnd
categoriile nominale sunt codificate numeric.
Precizarea distribuiei se face enumernd, ntr-o zon continu, valorile posibile i
probabilitile asociate acestora, de genul
1 0,40
2 0,15
3 0,20
4 0,25
pentru o variabil care ia valoare 1 cu probabilitatea 0,4, valoarea 2 cu probabilitatea 0,15 etc.
Acest exemplu poate s corespund repartiiei unei variabile nominale pentru care categoriile
au fost codificate cu 1, 2, 3, sau 4.
Value and Probability Input Range se precizeaz domeniul care conine definirea repartiiei
discrete: un domeniu dreptunghiular care d probabilitile valorilor numerice posibile.
Domeniul poate fi selectat dinamic.
Repartiie normal (Normal)
Structura zonei Parameters este prezentat n figura alturat. Pentru determinarea
distribuiei este necesar s se precizeze valorile pentru media i abaterea standard a
populaiei.
Mean se precizeaz valoarea pentru
media populaiei.
Standard Deviation se precizeaz
valoarea pentru abaterea standard a
populaiei.
Valorile implicite sunt cele ale
repartiiei normale standard, media 0 i
abaterea standard 1.
SAMPLING
Procedura de sondaj permite obinerea unei submulimi dintr-o mulime de
valori existent. Parametrii prezeni n dialogul procedurii sunt explicai n continuare.

Input
Input Range se specific domeniul, sau denumirea domeniului, care conine datele din care
se va face selecia. Domeniul poate fi selectat i n mod dinamic. Datele care joac rolul
populaiei statistice trebuie s fie de tip numeric i organizate, de preferin, sub forma
unei coloane sau a unei linii. Prima celul poate conine denumirea setului de date. n
cazul n care selecia se face dintre nregistrrile unei baze de date (fiecare nregistrare
avnd, uzual, mai multe cmpuri) se va indica drept domeniu doar coloana unui cmp
cum ar fi numrul nregistrrii, sau codul (numeric) de identificare etc.
Labels boxa de control va fi marcat dac domeniul indicat conine pe prima poziie
denumirea setului de date.
Sampl i ng Met hod
n acest grup se precizeaz metoda de selecie.
Periodic selectarea acestui buton radio permite indicarea n cmpul Period a cotei fixe de
formare a eantionului. Dac, de exemplu, se completeaz 5, atunci eantionul este format
din al 5-lea element i toate cele care urmeaz din 5 n 5 (al 10-lea element, al 15-lea, al
20-lea etc.)
Random selectarea acestui buton radio indic o formare aleatoare a eantionului. Fiecare
element are aceeai probabilitate de a fi ales. Din acest motiv, dac mulimea de baz este
relativ restrns, atunci unele elemente pot s apar de mai multe ori n eantionul
constituit. Volumul eantionului se specific n cmpul Number of Samples.
Out put opt i ons
Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive
Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele.
Rezultatul este o coloan cu valorile selectate.
Verificarea ipotezelor statistice
Sunt disponibile proceduri pentru efectuarea a trei tipuri de teste statistice:
test F pentru compararea dispersiilor;
test t pentru compararea mediilor, n toate variantele principale (eantioane corelate,
dispersii egale, dispersii neegale);
test z pentru compararea mediilor.
Fiecare procedur are ca rezultat att probabilitatea critic a testului respectiv,
ct i valoarea critic pentru un nivel de semnificaie fixat de utilizator. Ipoteza nul
este, pentru fiecare test, aceea a egalitii, deci respingerea ei se va face dac
probabilitatea critic este mai mic dect , sau dac valoarea calculat este mai mare
dect valoarea critic.
Compararea mediilor unor (sub)populaii se realizeaz prin proceduri apelate
din dialogul deschis prin Tools Data Analysis.
Atunci cnd se compar mediile a dou populaii pe baza unor eantioane
necorelate este necesar parcurgerea etapelor:
1. Testarea egalitii dispersiilor prin procedura F-Test Two-Sample for
Variances.
2. n funcie de decizia n test se va aplica
t-Test: Two-Sample Assuming Equal Variances n cazul nerespingerii
ipotezei nule din testul F
t-Test: Two-Sample Assuming Unequal Variances n cazul respingerii
ipotezei nule n testul F.
Dac eantioanele sunt corelate, situaie caracteristic comparrii rezultatelor
unui grup nainte i dup efectuarea unui experiment, se aplic procedura t-Test:
Paired Two Sample For Means.
FTEST TWOSAMPLE FOR VARIANCES
Dialogul iniiat de alegerea opiunii F-Test Two-Sample for Variances este prezentat
n figura III.25. n zona Input se vor indica domeniile ocupate de cele dou eantioane i
pragul de semnificatie ales. Zona Output va preciza domeniul unde se nscriu rezultatele
prelucrrii.
Input
Variable 1 Range se va preciza domeniul primului eantion. Este obligatoriu ca acesta s fie
o coloan sau o linie. Domeniul poate fi ales dinamic sau dat prin denumirea sa.
Variable 2 Range se va preciza domeniul celui de al doilea eantion. Este obligatoriu ca
acesta s fie o coloan sau o linie i s nu se intersecteze cu domeniul primului eantion.
Domeniul poate fi ales dinamic sau dat prin denumirea sa.
Labels se va marca boxa de control dac domeniile eantioanelor conin n prima celul
denumirea (eticheta) variabilei.
Alpha se precizeaz valoarea nivelului de semnificaie. Implicit se va considera = 0,05.
Out put opt i ons
Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive
Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele.
Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga
sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat.
Exempl u
Un exemplu de aplicare a procedurii F-Test este artat n figura urmtoare (numrul
zecimalelor afiate a fost redus).
Mean mediile eantioanelor;
Variance dispersiile eantioanelor;
Obsevations volumele eantioanelor;
df gradele de libertate;
F statistica testului F (ctul dispersiilor);
P(F<=f) one-tail probabilitatea critic
unilateral, adic probabilitatea ca o
variabil f, repartizat Fisher-Snedecor, cu
numerele respective de grade de libertate, s
depeasc valoarea calculat.
Ipoteza nul a egalitii dispersiilor
poate fi respins dac valoarea raportat aici
este mai mic sau egal cu nivelul de
semnificaie ales. De exemplu, pentru = 0,25 (un prag neuzual) se poate respinge
ipoteza nul ntruct 0,203 < 0,25.
F Critical one-tail valoarea critic a testului. Determin regiunea de respingere a testului, la
pragul de semnificaie fixat n dialogul procedurii. Dac valoarea F, din linia a 5-a a
rezultatelor, este mai mare sau egal cu valoarea critic, nseamn c aparine regiunii de
respingere i deci se poate respinge ipoteza egalitii dispersiilor. n tabel avem 1,410 <
1,984 i deci nu se poate respinge ipoteza nul (la pragul fixat).
Fig. III.25. Dialogul procedurii F-Test
F-Test structura rezultatelor
Concluzia testului este aceea c ipoteza nul nu poate fi respins. Se va tolera prin
urmare ipoteza c dispersiile sunt egale sau, cu alte cuvinte, c n populaiile din care provin
eantioanele variabila urmrit prezint acelai grad de mprtiere.
TESTE STUDENT (t)
Sunt disponibile trei teste bazate pe distribuia Student. n toate cazurile se verific
ipoteza nul privind mediile att ntr-un test unilateral, ct i bilateral.
Ipoteza nul privete o diferen fixat a mediilor:
H
0
:
1

2
= d,
unde
1
,
2
sunt mediile populaiilor din care provin eantioanele disponibile, iar d este
diferena presupus sau cunoscut a mediilor.
Pentru a testa egalitatea mediilor celor dou populaii se va aplica procedura n cazul
particular d = 0.
Cele trei teste t sunt cazurile principale din punct de vedere practic:
testul t pentru eantioane corelate;
testul t pentru populaii cu dispersii egale;
testul t pentru populaii cu dispersii neegale.
tTEST: PAIRED TWO SAMPLE FOR MEANS
Sunt considerate dou eantioane cu date perechi (corelate), provenite eventual
dintr-o cercetare pretest-posttest pe un acelai eantion, din care un eantion este lotul
experimental, cellat fiind lotul martor. Compararea mediilor este efectuat pentru a decide
dac experimentul la care este supus lotul experimental produce o abatere suficient de mare n
media variabilei de control.
n figur se prezint dialogul de fixare a parametrilor procedurii.

Input
Variable 1 Range, Variable 2 Range conin referinele la zonele celor dou eantioane,
respectiv. Deoarece testul este pentru eantioane cu date perechi, este necesar ca zonele
indicate s aib acelai numr de celule completate cu date numerice, valorile de pe
aceleai poziii n cele dou serii fiind perechi. Domeniile pot fi selectate dinamic.
Hypothesized Mean Difference conine valoarea testat pentru diferena mediilor. Dac se
indic valoarea 0 (zero), atunci se verific ipoteza egalitii mediilor.
Labels boxa de control se marcheaz dac zonele de date indicate conin pe primele locuri
denumirile zonelor.
Alpha conine valoarea pragului de semnificaie utilizat de procedur pentru a calcula
valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei
nule).
Out put opt i ons
Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive
Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele.
Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga
sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat.
Exempl u
Un grup de 20 de persoane au fost evaluate nainte i dup efectuarea unui
experiment, care avea scopul de a micora valoarea unei caracteristici msurate. Deoarece
efectul experimentului trebuie evaluat la nivelul
populaiei de unde s-a selectat eantionul, un
indicator statistic adecvat este media rezultatelor
nainte i dup. Cum datele sunt perechi, situaia
descris fiind tipic, compararea mediilor s-a
efectuat printr-un test t pentru date perechi
(corelate). Seriile de date sunt numite Date1
(datele pretest), Date2 (datele posttest) i s-a
indicat n dialogul procedurii, un prag de
semnificaie = 0,05.
Rezultatele produse de procedura t Test:
Paired Two Sample for Means sunt descrise n
figura alturat:
Mean mediile celor dou eantioane. Se observ
c media primului eantion este mai mare
(10,6 fa de 9,9), diferena fiind relativ
important, 0,7 reprezint o diminuare a
mediei cu 6,6%. Compararea mediilor vrea s
arate dac aceast diferen poate fi acceptat
pentru ntreaga populaie, sau este efectul
sondajului (ntmpltor n primul eantion sunt mai multe valori mari).
Variance dispersiile celor dou eantioane. Se poate emite ipoteza c dispersiile se modific
semnificativ: se pare c experimentul are efectul unei concentrri a rezultatelor n jurul
mediei.
Observations numrul de observaii (= volumul eantionului).
Pearson Correlation coeficientul de corelaie Pearson. Valoarea obinu este relativ mare,
apropiat de 0,5. Dei nu este nsoit de testul de semnificaie, arat o bun corelaie ntre
seriile de rezultate, cu interpretarea c scderea valorilor dup experiment are loc
oarecum uniform: observaiile cu valori mari nainte rmn, n general, cu valori mari i
dup experiment (evident c observaiile cu valori mici nainte rmn, n general, cu
valori mici i dup experiment).
Hypothesized Mean Difference valoarea cu care se compar diferena mediilor populaiilor.
Deoarece ne-am propus s testm egalitatea mediilor, aceasta revine la a compara
diferena mediilor cu zero.
df numrul gradelor de libertate al repartiiei t (a statisticii testului). Este numrul de
observaii mai puin unu.
t Stat valoarea calculat a statisticii testului. Provine, teoretic, dintr-o repartiie Student cu
df (raportat anterior) grade de libertate.
Rezultatele aplicrii testului t
pentru date perechi.
P(T<=t) one-tail probabilitatea critic unidimensional, arat care este probabilitatea ca o
variabil Student cu df grade de libertate s depeasc valoarea calculat. Dac aceast
valoare este mai mic dect pragul de semnificaie fixat, atunci se poate respinge ipoteza
nul n favoarea ipotezei alternative. Deoarece, n situaia dat, prima medie este mai
mare, ipoteze alternativ ntr-un test unilateral este
H
1
:
1

2
> 0 sau, echivalent, H
1
:
1
>
2
.
Valoarea 0,169 afiat este mai mare dect toate valorile uzuale, deci nu se poate
respinge ipoteza nul. Prin urmare se pare c diferena dintre medii este datorat mai mult
ntmplrii, seleciei eantionului.
t Critical one-tail valoarea critic unidimensional pentru pragul de semnificaie = 0,05
(precizat n dialogul procedurii). Dac valoarea t calculat este mai mare dect aceast
valoare critic, atunci se poate respinge H
0
n favoarea ipotezei alternative H
1
:
1
>
2
.
Pentru exemplul prezentat acest fapt nu se ntmpl (0,984 < 1,729).
P(T<=t) two-tail probabilitatea critic bilateral, arat care este probabilitatea ca o variabil
Student cu df grade de libertate s depeasc, n valoare absolut, valoarea calculat. Cu
alte cuvinte, probabilitatea ca diferena dintre mediile populaiilor s fie mai deprtat de
zero dect diferena observat.
Dac aceast valoare este mai mic dect pragul de semnificaie fixat, atunci se
poate respinge ipoteza nul n favoarea ipotezei alternative a unor medii diferite: H
1
:
1

2
.
Valoarea 0,337 afiat este mai mare dect toate valorile
uzuale, deci nu se poate respinge ipoteza nul.
t Critical two-tail valoarea critic bidimensional pentru pragul de semnificaie = 0,05
(precizat n dialogul procedurii). Dac valoarea t calculat este mai mare, n valoare
absolut, dect aceast valoare critic, atunci se poate respinge H
0
n favoarea ipotezei
alternative H
1
:
1

2
. Pentru exemplul prezentat, | t | = |0,984| = 0,984 < 2,093, deci nu
se poate respinge ipoteza nul.
z-TEST: TWO SAMPLE FOR MEANS
Aceast procedur servete pentru compararea mediilor a dou populaii
atunci cnd se cunosc dispersiile acestora. Testul utilizat este bazat pe distribuia
normal standard.

Input
Variable 1 Range, Variable 2 Range conin referinele la zonele celor dou eantioane,
respectiv. Domeniile indicate pot s aib numere diferite de celule, dar completate cu date
numerice (cel mult prima celul n fiecare zon poate fi un titlu). Domeniile pot fi
selectate dinamic.
Hypothesized Mean Difference conine valoarea testat pentru diferena mediilor. Dac se
indic valoarea 0 (zero), atunci se verific ipoteza egalitii mediilor.
Variable 1 Variance (known), Variable 2 Variance (known) dispersiile celor dou populaii.
Acestea se presupun cunoscute. n practic, pentru eantioane mari, se pot lua valorile
dispersiilor de sondaj, dar n aceast situaie este preferabil s se aplice un test t dect un
test z.
Labels boxa de control se marcheaz dac zonele de date indicate conin pe primele locuri
denumirile zonelor.
Alpha conine valoarea pragului de semnificaie utilizat de procedur pentru a calcula
valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei
nule). Implicit se ia = 0,05.
Out put opt i ons
Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive
Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele.
Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga
sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat.
Exempl u
Pentru a compara mediile a dou populaii s-au extras dou eantioane de volume 35,
respectiv 34. Se cunoate, din alte cercetri, c dispersiile populaiilor sunt 18 i 15, respectiv.
Dispersiile de sondaj concord cu aceste valori.
Pentru a compara mediile populaiilor se aplic un
test z. Resultatele sunt explicate n continuare.
Mean mediile de sondaj ale celor dou eantioane.
Known Variance dispersiile cunoscute ale celor
dou populaii.
Observations numrul de observaii (volumul
eantionului).
Hypothesized Mean Difference valoarea cu care
se compar diferena mediilor populaiilor.
Testarea egalitii mediilor revine la a compara
diferena mediilor cu zero.
z valoarea calculat a statisticii testului. Provine,
teoretic, dintr-o repartiie normal standard.
Servete pentru raportare sau pentru decizia n
test la alte grade de semnificaie dect valoarea
fixat n dialogul procedurii.
P(Z<=z) one-tail probabilitatea critic unidimensional, arat care este probabilitatea ca o
variabil normal redus s depeasc valoarea calculat. Dac aceast valoare este mai
mic dect pragul de semnificaie fixat, atunci se poate respinge ipoteza nul n favoarea
ipotezei alternative. Deoarece, n situaia dat, prima medie este mai mare, ipoteza
alternativ ntr-un test unilateral este
H
1
:
1

2
> 0 sau, echivalent, H
1
:
1
>
2
.
Valoarea 0,008 afiat este mai mic dect valorile uzuale (0,05 sau 0,01), deci nu se
poate respinge ipoteza nul la aceste valori ale lui . Prin urmare se poate respinge
ipoteza nul i accepta ipoteza alternativ c prima populaie are o medie mai mare.
z Critical one-tail valoarea critic unidimensional pentru pragul de semnificaie = 0,05
(precizat n dialogul procedurii). Dac valoarea z calculat este mai mare dect aceast
Rezultatele procedurii z-Test.
valoare critic, atunci se poate respinge H
0
n favoarea ipotezei alternative H
1
:
1
>
2
.
Pentru exemplul prezentat acest fapt nu se ntmpl (2,4096 < 1,6449).
P(Z<=z) two-tail probabilitatea critic bilateral, arat care este probabilitatea ca o variabil
normal standard s depeasc, n valoare absolut, valoarea calculat. Cu alte cuvinte,
probabilitatea ca diferena dintre mediile populaiilor s fie mai deprtat de zero dect
diferena observat.
Dac aceast valoare este mai mic dect pragul de semnificaie fixat, atunci se
poate respinge ipoteza nul n favoarea ipotezei alternative a unor medii diferite: H
1
:
1

2
.
Valoarea 0,016 afiat este mai mic dect = 0,05, deci se poate respinge
ipoteza nul.
z Critical two-tail valoarea critic bidimensional pentru pragul de semnificaie = 0,05
(precizat n dialogul procedurii). Dac valoarea z calculat este mai mare, n valoare
absolut, dect aceast valoare critic, atunci se poate respinge H
0
n favoarea ipotezei
alternative H
1
:
1

2
. Pentru exemplul prezentat, | z | = |2,4096| = 2,4096 > 1,96, deci se
poate respinge ipoteza nul.
C. Lucrarea practic

1) Un studiu a artat c 50% dintre utilizatorii de internet au primit mai mult de 10
mesaje e-mail pe zi. Repetnd, dup un timp, studiul, se dorete verificarea
ipotezei c a crescut utilizarea e-mail-ului. S se precizeze ipoteza nul i ipoteza
alternativ a testului statistic adecvat.
2) ntr-un test z cu ipotezele H
0
:
1

2
= 5 vs. H
1
:
1

2
> 5 s-a obinut statistica
testului z = 1.69. Care este probabilitatea critic a testului?
3) Se vor genera dou coloane de cte 100 de valori dintr-o repartiie normal cu
media 0 i dispersia 1.
i) s se calculeze mediile i dispersiile celor irruri de valori; s se compare
cu valorile 0, respectiv 1, i s se interpreteze rezultatul comparaiilor n
termenii populaie-eantion.
ii) s se testeze egalitatea mediilor celor dou seturi de valori cu valoarea
teoretic 0.
iii) s se testeze dac cele dou seturi de valori au mediile egale.
4) Se vor genera dou coloane de valori din repartiii normale cu medii i dispersii
diferite. Presupunnd c media celei de a doua coloane difer de media primei
coloane cu , s se verifice, prin generri repetate ale coloanelor, dac
eantioanele pot fi considerate ca aparinnd aceleiai populaii.
i) Se va mri treptat diferena , ca i diferena dispersiilor, pentru a obine o
imagine intuitiv asupra rspunsului la ntrebarea: ct de mare trebuie s
fie diferena pentru ca eantioanele s nu pot fi considerate omogene?
ii) Se va studia i influena diferenelor dintre dispersii asupra concluziei
testului.
5) Se import n Excel fiierul admitere.txt (utilizat la lucrarea nr.1). S se verifice
statistic dac
i) mediile la bacalaureat pot fi considerate egale pentru cei care opteaz la
analiz, programare C sau programare Pascal
ii) mediile la scris pot fi considerate egale pentru cei care opteaz la analiz,
programare C sau programare Pascal
Statistic multivariat
Lucrarea nr. 3 Introducere n SPSS
A. Noiuni teoretice
Lucrarea are ca obiectiv introducerea n SPSS i realizarea prelucrrilor uzuale
de statistic descriptiv i de testarea ipoteselor statistice, care au fcut obiectul
primelor dou lucrri realizate n Excel. Prin urmare se pot revedea seciunile A din
primele dou lucrri.
B. SPSS - prezentare i operare
Programul SPSS (Statistical Package for the Social Sciences) este unul
dintre cele mai utilizate n analiza statistic a datelor. Prima versiune a aprut n anul
1968, a evoluat pn la versiunea 15 i aria de aplicabilitate s-a extins de la versiune
la versiune, odat cu modul de operare i cu facilitile oferite. Programul este utilizat
astzi n marketing, cercetare experimental, educaie, sntate etc. n afar de
analizele statistice posibile, programul are componente puternice pentru
managementul datelor (selectare, reconfigurare, creare de date noi) i pentru
documentarea datelor (exist un dicionar metadata, care reine caracteristici ale
datelor). Se mai poate aduga flexibilitatea privind tipurile de date acceptate ca i
modulul de construire a rapoartelor.
Acest document se dorete a fi o introducere n operarea SPSS:
- interfa,
- gestionarea datelor,
- analiza statistic elementar.
Ferestre SPSS
Sunt enumerate tipurile de ferestre disponibile n mediul SPSS i se precizeaz
funcionalitatea lor.
Data Editor
Este fereastra care se deschide automat la pornirea unei sesiuni i care permite
editarea datelor, crearea de noi nregistrri, eliminarea unor nregistrri etc.

Datele pot fi vzute n dou ipostaze:
- Activnd tab-ul Data View se vor afia nregistrrile fiierului de date ntr-o
gril, coloanele reprezentnd variabilele, liniile fiind cazurile studiate
(termenul de cazuri provine evident din practica sociologic/medical, sunt
elementele eantionului studiat).
- Activnd tab-ul Variable View se vor afia metadatele asociate variabilelor
(numele variabilei, tipul variabilei, indicaii de afiare etc.).
Viewer
Fereastra Viewer este utilizat pentru afiarea rezultatelor: statistici, tabele,
diagrame etc. Dac nu exist o fereastr Viewer deschis, se va crea automat
una la prima comand care produce ieiri. Rezultatele afiate pot fi editate,
deplasate, eliminate etc. ntr-un mediu similar cu cel din Microsoft Explorer.

Pivot Table Editor
Multe dintre tabelele care conin rezultate sunt de fapt tabele pivot (cuburi
OLAP). Acestea pot fi modificate n fereastra Pivot Table Editor (editare
text, reconfigurare tabel etc.) activat prin dublu click pe un tabel. Apar
meniurile corespunztoare care permit editarea.
Chart Editor
Diagramele care pot fi construite, n general prin comenzile meniului Graphs,
pot fi modificate, formatate etc. prin comenzile disponibile n Chart Editor.
O asemenea fereastr este activat la dublu click pe o diagram dintr-un fiier
SPSS de ieire.
Text Output Editor
Textul simplu (neinclus ntr-un tabel pivot) poate fi modificat, la dublu click
pe o intrare text din fiierul de ieire, n fereastra Text Output Editor. Se pot
modifica n acest fel caracteristicile uzuale ale fontului.
Syntax Editor
SPSS poate fi utilizat prin intermediul unei limbaj de comenzi proprii. Acesta
a fost modul iniial de operare, astfel nct o serie de prelucrri foarte
specializate au rmas disponibile, chiar i n ultimele versiuni, doar prin
intermediul comenzilor.
O fereastr Syntax Editor poate fi deschis prin File New/Open
Syntax. Comenzile pot fi scrise direct n fereastra Syntax Editor, dar exist i
posibilitatea de a nregistra aciunile din interfaa utilizator sub form de
comenzi (similar nregistrrii unui macro din Microsoft Office). Comenzile
pot fi salvate ca un fiier de comenzi, n vederea reutilizrii.
Script Editor
SPSS poate fi personalizat/automatizat prin intermediul unui limbaj de
scriptare, Sax Basic (compatibil Visual Basic for Applications). Se va
deschide o fereastr Script Editor prin File New/Open Script.
Pot exista mai multe ferestre de ieire (Viewer), ca i mai multe ferestre de
sintax (Syntax Editor). Fereastra activ dintr-un grup este indicat de semnul !
afiat pe bara de stare a ferestrei active, activarea poate fi modificat prin acionarea
uneltei din fereastra inactiv
Meniuri SPSS
Ca n orice aplicaie Windows, multe dintre prelucrrile SPSS pot fi executate
prin acionarea comenzilor din meniuri.Fiecare fereastr SPSS are propriile meniuri i
unelte corespunztoare.
Meniuri comune
File
Este utilizat pentru creare, deschidere, export de fiiere diverse: date, rezultate,
comenzi etc.
Edit
Editrile uzuale pentru date numerice, text sau obiecte grafice: copieri, alipiri
etc. n aceeai aplicaie sau nu.
View
Controleaz modul de afiare a uneltelor, a liniaturii, a identificatorilor de
valori (valorile pot avea ataate denumiri explicite).
Analyze
Este meniul care d acces la procedurile statistice.
Graphs
Permite crearea diagramelor. Orice diagram poate fi modificat (reamintim)
prin Chart Editor, afiat la dublu click pe diagram.
Utilities
Permite afisarea informaiilor despre variabile, definirea unor mulimi de
variabile etc.
Window
Operaii asupra ferestrelor.
Help
Deschide o fereastr standard de ajutor.
Data Editor meniuri specifice

Data
Se pot realiza modificri globale cum ar fi transpunerea variabilelor i
cazurilor, filtrarea cazurilor etc. Modificrile sunt temporare dac nu sunt
salvate n fiierul iniial.
Transform
Permite transformarea unor variabile (cum ar fi recodificare) i obinerea unor
noi variabile prin calcule efectuate asupra variabilelor existente. Modificrile
sunt temporare pentru sesiunea curent, dac nu sunt salvate n fiierul iniial.
SPSS - Opiuni
Se poate personaliza mediul SPSS prin selectarea comenzii Edit - Options

Se remarc, pe pagina General, posibilitatea de a menine un jurnal al
aciunilor (Session Journal), de a controla afiarea variabilelor i rezultatelor, de a
stabili folderul temporar. Celelalte pagini permit stabilirea atributelor implicite pentru
diagrame, tablourile pivotante, modul de calcul etc.
Fiierul de rezultate
Rezultatele sunt afiate n fereastra Viewer n ordinea n care sunt apelate
procedurile, fiecare apel producnd o intrare n arborele de navigare din stnga
ferestrei. n aceast fereastr se poate naviga la orice component prin operare n
arborele de navigare i se pot efectua editri care s conduc la o ieire clar, uor de
interpretat, potrivit necesitilor prelucrrii.
Se poate utiliza fereastra Viewer pentru:
Parcurgerea rezultatelor, vizualizarea sau ascunderea unor componente
(tabele, diagrame),
Modificarea ordinii n care sunt afiate componentele,
Accesul la ferestrele Pivot Table Editor, Text Output Editor, Chart Editor,
Copierea/mutarea elementelor ntre SPSS i alte aplicaii (Word, Excel etc.).
Panelul din stnga al ferestrei conine arborele de structur a ieirii. Se pot
extinde sau restrnge ramuri, se pot deplasa elementele prin drag-and-drop, se poate
naviga la un element prin selectarea nodului asociat.
Pentru copiere ntre aplicaii se poate utiliza tehnica uzual Edit Copy urmat
de Edit Paste/Paste Special.
Exist ns i posibilitatea de export a ieirii prin
Se activeaz fereastra Viewer i se d comanda File Export.
Se afieaz dialogul

Se fixeaz n File Type tipul fiierului destinaie; ultimele versiuni accept i
formate .xls, .doc.
Se alege numele i calea fiierului destinaie i ce anume se export (ntreg
documentul cu sau fr diagrame, ce obiecte).
Organizarea datelor
SPSS utilizeaz datele organizate n linii i coloane: liniile reprezint cazurile
(observaiile), coloanele reprezint variabilele cercetrii. Aparent, grila seamn cu o
foaie Excel, dar funcionalitatea nu este aceeai. Deoarece prelucrrile statistice se
aplic variabilelor, acestea au n SPSS o serie de atribute memorate n fiierul de date
i artate n Data Editor - Variable View:
n SPSS, variabilele sunt denumite, cel puin n versiunile mai vechi, cu
identificatori de maxim 8 caractere i care nu se pot termina cu punct (rezervat
pentru comenzi de scriptare). Identificatorii sunt formai dup regulile uzuale
(cele mai restrictive sunt interzicerea spaiilor i a caracterelor speciale &, !, ?,
', *) i nu sunt case sensitive.
Tipul unei variabile poate fi (semnificaia este evident) numeric, comma, dot,
scientific notation, date, custom currency sau string. Variabilele numerice pot
avea cel mult 40 de caractere, dintre care 16 la partea zecimal. Variabilele
string se pot clasifica n short string (pn la 8 caractere) sau long string (pn
la 256 caractere). Variabilele short string suport unele proceduri SPSS.
Se poate defini pentru fiecare variabil care este valoarea lips (missing
value), cu alte cuvinte cum este codificat situaia c un caz nu conine o
valoare pentru variabila respectiv. Valorile lips pot fi separate n system
missing (un spaiu n cazul datelor numerice sau nimic, irul vid, n toate
cazurile) i user missing (cele specificate explicit ca valori lips). Variabilele
long string nu permit valori user-missing.
Pe lng denumire, care apare ca nume al coloanei, o variabil poate avea
ataat o etichet, label, care este un text explicit privind semnificaia
variabilei. De exemplu, variabila Nume poate avea ca label textul Numele i
prenumele candidatului. Aceste etichete vor fi utilizate n raportarea
rezultatelor.
Atributul Width fixeaz numrul maxim de caractere al valorilor string,
Columns precizeaz numrul de caractere afiate.
Deoarece cazul frecvent ntlnit n prelucrrile statistice este acela n care sunt
nscrise n fiierul de date codurile valorilor (de exemplu, 1=elev, 2=student
etc.), SPSS permite definirea i memorarea codificrilor utilizate pentru
fiecare variabil. n fereastra Data Editor, pagina Variable View, activarea
celulei din coloana Values conduce la afiarea dialogului Value Labels:

Fiecare pereche Value Value Label este adugat la lista de coduri prin
activarea butonului Add etc. Etichetele de valori, mpreun cu etichetele de
variabile conduc la o form explicit a rezultatelor.
Ultimul atribut specific al unei variabile este scala de msur utilizat, atribut
reinut n coloana Measure din Variable View. Denumirile SPSS utilizate
sunt scale pentru variabile de interval, ordinal pentru variabile ordinale,
nominal pentru variabile nominale. Fixarea msurii corecte este esenial
deoarece, reamintim, anumite prelucrri statistice se pot aplica doar unor
variabile ordinale, sau de interval etc.
Filtrarea cazurilor
Apare uneori necesitatea de a prelucra doar un subset de nregistrri: pentru a
obine o imagine rapid a unei structuri, pentru a prelucra doar eantionul dintr-o
anumit subpopulaie etc. SPSS ofer n acest scop comanda Data Select Cases
care produce afiarea dialogului urmtor.
Prin opiunile din grupul Select se fixeaz modalitatea de filtrare. Este de
remarcat c prin grupul Unselected Cases Are se poate opta pentru eliminarea
efectiv a cazurilor neselectate (opiune nerecomandat) sau pentru filtrarea lor, adic
eliminarea este doar logic, o nou selectare cu opiunea All cases le va reactiva.

n continuare se prezint doar subdialogul obinut la opiunea If condition
i activarea butonului If.

n zona de formare a condiiei se pot utiliza denumiri de variabile (aduse din
lista din stnga), operatori, funcii. Vor rmne vizibile doar nregistrrile pentru care
condiia este adevrat.
Generarea unei noi variabile
Din diferite motive, de exemplu necesitatea unei recodificri sau cea a
calculrii unei variabile noi ca medie a altor variabile etc., este util posibilitatea de a
genera automat o nou variabil. SPSS are dou comenzi principale destinate acestui
scop: Transform Compute i Transform Recode. Prima permite obinerea unei
variabile n urma unui calcul, a doua este pentru recodificare.
Comanda Compute
Prin Transform Compute se afieaz dialogul Compute Variable (n
versiuni mai noi dialogul este modificat ca aranjare a zonelor):

n zona Target Variable se trece denumirea noii variabile pentru care se poate
preciza tipul i eticheta n subdialogul afiat prin acionarea butonului Type &
Label.
n zona de formare a expresiei de calcul, Numeric Expression, se formeaz
expresia de calcul prin utilizarea butoanelor existente pentru operatori i
funcii sau prin tastare direct. Denumirile variabilelor existente pot fi aduse n
expresie prin selectare n lista variabilelor, dublu click sau butonul .
Se poate efectua o filtrare a nregistrrilor (cazurilor) pentru care are loc
transformarea dac se acioneaz butonul If. Cazurile neselectate vor avea
valoarea system-missing pentru noua variabil.
Comanda Recode
Recodificarea unei variabile este util n dou situaii principale:
1. se transform o variabil de interval ntr-o variabil ordinal pentru a o
raporta ca date grupate sau pentru a studia asocierea cu alte variabile ordinale,
2. o variabil string trebuie recodificat cu coduri numerice necesare pentru a
putea aplica anumite proceduri SPSS, care cer variabile codificate numeric.
Recodificarea poate fi n aceeai variabil, sau ntr-o nou variabil, cazul
discutat aici.
Prin Transform Recode Into Different Variables se afieaz dialogul

n care se transfer variabila numerica pentru care se realizeaz recodificarea din lista
variabilelor n lista Numeric Variable Output Variable, se completeaz numele
i eventual eticheta noii variabile n Output Variable dup care se acioneaz
Change.
Se pot selecta cazurile pentru care are loc recodificarea prin If. Prin acionarea
Old and New Values se deschide dialogul

Se va selecta n zona Old Value opiunea dorit, se va completa noua valoare
n New Value i prin Add se trece corespondena definit n lista OldNew.
Noile coduri pot fi de tip string doar dac se activeaz checkbox-ul Output
variables are string.
Prelucrri statistice
Prelucrrile statistice din SPSS se realizeaz prin comenzile din meniul
Analyze, sau prin executarea comenzilor scrise n fereastra Syntax Editor. Deoarece
efectuarea unei prelucrri necesit operarea cu un numr de dialoguri specializate,
pentru familiarizarea cu principalele dialoguri care apar la comenzile de prelucrri
statistice se prezint n continuare modul n care se obin statisticile descriptive i o
procedur de testare a egalitii mediilor.
Analyze - Frequencies
Se selecteaz Analyze - Descriptive Statistics - Frequencies...
Apare dialogul urmtor n care se trec variabilele dorite din lista din stnga n
lista din dreapta (prin dublu click sau selectare i ).

Se marcheaz checkbox-ul Display frequency tables dac se doresc i tabelele
de frecvene calculate. In caz contrar trebuie s se opereze cu subdialogurile
Statistics, Charts pentru a obine rezultate.
La acionarea butonului Statistics, se afieaz dialogul Frequencies: Statistics
n care se pot activa opiunile corespunztoare indicatorilor de tendin
central, mprtiere sau de caracterizare a curbei distribuiei (evident c
anumite statistici se pot calcula doar pentru variabile de tipuri adecvate:
interval, ordinal, nominal).

Subdialogul Charts permite construirea unui grafic adecvat pentru un tabel de
frecvene. Opiunea Histograms with normal curve afieaz curba normal
suprapus peste histogram, util pentru aprecierea deprtrii de la
normalitate.

Subdialogul Format gestioneaz modul de afiare a intrrilor tabelului de
frecvene n Order by. n Multiple variables se poate opta ntre un format care
include toate variabilele selectate (pentru comparare trebuie ca variabilele s
fie de acelai tip) i un format n care fiecare variabil este raportat separat.

Prin OK n dialogul iniial se va genera n fereastra Viewer ieirea cerut.
Analyze Descriptives
O comand sintetic pentru statisticile descriptive ale variabilelor continue
este Analyze - Descriptive Statistics - Descriptives. Parametrii prelucrrii se fixeaz
n urmtoarele dou dialoguri.

Analyze Crosstabs
Obinerea tabelelor de frecvene ncruciate, utile la studiul asocierii dintre
variabile, este gestionat de comanda Analyze Descriptive Statistics Crosstabs,
care iniializeaz dialogul urmtor.

Se trec, prin acionarea butoanelor de trecere, variabilele dorite n lista Rows
(tabelele vor avea cte o linie pentru fiecare valoare distinct a variabilelor din aceast
list) i n lista Columns (tabelele vor avea cte o coloan pentru fiecare valoare
distinct a variabilelor din aceast list). Se va calcula i afia cte un tabel de
frecvene ncuciate pentru fiecare combinaie de variabile, cte una din fiecare list.
n cazul n care se doresc frecvene ncruciate pentru trei sau mai multe
variabile, se utilizeaz controlul Layer n care se vor trece variabilele de pe poziia a
treia, se trece la layerul urmtor i se repet procedura.
Subdialogul Statistics permite selectarea statisticilor calculate. Este evident
necesar cunoaterea tipului variabilelor, pentru a alege statisticile adecvate.

Subdialogul Cell permite selectarea statisticilor calculate pentru fiecare celul
a tabelului. Se remarc n grupul Percentages posibilitatea de a calcula frecvene
relative raportate la totalul de pe linie, de pe coloan sau general. De asemenea, prin
Count Expected se pot calcula frecvenele implicate n calculul statisticii
2
.

Subdialogul Format gestioneaz doar ordinea liniilor funcie de valorile care
le genereaz.


Analyse - Compare means
Testarea ipotezelor de egalitate a mediilor se realizeaz prin intermediul
comenzilor grupate n Analyze - Compare means. Dintre procedurile existente se
prezint n continuare doar cele care conduc la aplicarea unor teste t..
Prin Analyze - Compare means - Independent Samples T test se iniiaz
testul t de comparare n cazul eantioanelor independente (necorelate). Se realizeaz
calculele att pentru cazul dispersiilor egale, ct i a dispersiilor neegale, utilizatorul
fiind acela care alege situaia adecvat.


Comanda produce afiarea urmtorului dialog.

Se vor selecta variabilele, dup care se compar cele dou grupuri, din lista
variabilelor (continue) i se trec n lista variabilelor de test. Pentru a preciza grupurile
care sunt comparate precizeaz variabila care identific grupurile (Grouping
Variable) i se iniiaz dialogul Define Groups n care, pentru o variabil discret,
se precizeaz valorile etichete ale celor dou grupuri sau, pentru o variabil continu,
valoarea care separ cele dou grupuri.

Prin intermediul dialogului iniiat la Options, se poate fixa pragul de semnifi-
caie i modul de tratare a valorilor lips.

Rezultatele conin un tabel al statisticilor elementare pentru fiecare grup i
variabil de test

Rezultatele numerice utile n efectuarea testului t sunt coninute ntr-un tabel
precum cel care urmeaz.
Independent Samples Test
,004 ,948 8,664 152 ,000 5,597 ,646 4,321 6,874
9,356 79,405 ,000 5,597 ,598 4,407 6,788
Equal
variances
assumed
Equal
variances not
assumed
Fuel efficiency
F Sig.
Levene's Test for
Equality of
Variances
t df
Sig.
(2-tailed)
Mean
Difference
Std. Error
Difference Lower Upper
95% Confidence
Interval of the
Difference
t-test for Equality of Means

Tabelul conine dou linii de rezultate numerice: rndul superior privete testul
t n situaia dispersiilor egale, rndul inferior se refer la cazul dispersiilor neegale.
Alegerea este condus de testul Levene de egalitate a dispersiilor, care este realizat
prin intermediul coloanelor aflate sub antetul Levene's Test. Statistica este F (=0,004
n cazul ilustrat) iar probabilitatea critic este Sig (0,948 n cazul ilustrat). Prin
urmare, la pragul de 0,05, nu se respinge ipoteza egalitii dispersiilor. In acest caz se
vor utiliza valorile din rndul superior al tabelului i se citete valoarea statisticii
testului t = 8,664 i probabilitatea critic bilateral Sig < 0,001. Drept urmare se va
respinge ipoteza egalitii mediilor celor dou grupuri.
Ultimele 4 coloane conin diferena dintre medii, eroarea standard a acestei
diferene i intervalul de ncredere pentru diferena mediilor (faptul c intervalul nu
conine valoarea 0 este echivalent cu respingerea egalitii mediilor).

Alte teste, neparametrice, pot fi aplicate individual prin intermediul
comenzilor grupate n Analyze - Nonparametric Tests.



Testele statistice specifice prelucrrilor diverse de analiz a datelor sunt
aplicate automat sau la cerere la iniierea diverselor prelucrri: analiza varianei,
analiza regresional etc.
C. Lucrarea practic
1. Se va importa n SPSS fiierul de date (utilizat i la lucrarea nr.1)
http://thor.info.uaic.ro/~val/statistica/Admitere.txt
i. Se vor completa, pentru fiecare variabil, atributele specifice:
tipul (nominal, ordinal, interval), denumirea, modul de afiare
(coloane, zecimale etc.), etichetele de valori (acolo unde este
cazul).
ii. Se vor elimina coloanele care poart n fiierul text informaii
auxiliare.
iii. Se va crea o variabil filtru cu valoarea 1 dac proba la alegere
este analiza matematic i valoarea 0 n rest.
iv. Se va recodifica variabila reprezentnd situaia dup examen
astfel nct s poat fi asimilat unei variabile ordinale (ordinea
fiind cea intuitiv - reuit fr tax, cu tax, n ateptare,
respins).
2. Se vor caracteriza variabilele cu ajutorul indicatorilor statistici
adecvai.
3. S se creeze tablourile de frecvene ncruciate dintre variabilele
Opiune i Situaie, incluznd i calculul frecvenelor relative.
4. Se va testa egalitatea mediilor de admitere dup cele trei discipline la
alegere.
5. Se va testa egalitatea mediilor de admitere pentru cei care au ales
analiza matematic i cei care au ales o prob de programare.
6. Se vor crea i edita grafice adecvate ale repartiiilor variabilelor
coninnd proba la alegere, mediile la bacalaureat, scris, final.
Statistic multivariat
Lucrarea nr. 4 Analiza dispersional univariat -
Excel, SPSS
A. Noiuni teoretice
Structura datelor
Valorile unei caracteristici X, sunt msurate n k eantioane independente, obinute din
k populaii. Populaiile se consider repartizate normal, cu mediile
1
,
2
, ,
k
i
dispersiile egale
2 2
2
2
1 k
= = = K , respectiv. Problema care se cere rezolvat este s
se stabileasc dac populaiile pot fi considerate omogene din punctul de vedere al
caracteristicii X. Cum egalitatea dispersiilor este impus, mai trebuie testat egalitatea
mediilor.
Observaie. Pentru verificarea ipotezei de egalitate a dispersiilor se va utiliza un test adecvat
(De exemplu, Levene). n cazul n care ipoteza normalitii nu este ndeplinit (sau nu este
verificat), erorile care se introduc nu sunt importante n cazul n care volumul eantioanelor
este suficient de mare (> 4) iar numrul grupurilor este relativ mic. Exist i teste de egalitate
a mediilor care se pot aplica i n cazul respingerii ipotezei de egalitate a dispersiilor: Brown -
Forsythe, Welch.
De amintit i c o reprezentare grafic de tip boxplot poate oferi o imagine intuitiv n ceea ce
privete egalitatea dispersiilor.
Formal, dispunem de k grupuri de valori, de volume n
1
, n
2
, , n
k
, respectiv, notate cu
A
1
, A
2
, , A
k
. n sensul discuiei generale, se poate considera c A
1
, A
2
, sunt
categoriile unei variabile (de obicei nominale) care face deosebirea dintre grupuri.
Aceasta este variabila independent a analizei. Variabila X este variabila dependent,
variabila dup care se compar populaiile..
Variaia datorat diferenelor dintre grupuri este definit ca variaie explicat
partea din variaia variabilei dependente explicat de variabila independent. Cu alte
cuvinte, variaia explicat este partea explicat de ctre mprirea n grupuri. Variaia,
care rmne dup separarea variaiei explicate, este definit drept variaie rezidual
(variaia neexplicat) i este datorat unor surse ntmpltoare de variaie. Variaie
explicat mai este denumit i variaie ntre grupuri (exterioar), iar cea rezidual
variaie n grupuri (intern).
Se poate considera c modelul de baz al analizei dispersionale afirm c orice
valoare a variabilei X este obinut prin cumularea a dou efecte, unul sistematic i
unul ntmptor:
x
ij
= efect sistematic (al nivelului A
i

)

+ efect ntmpltor (din nivelul A
i
).
Formule de calcul
Mediile grupurilor

=
=
+ + +
=
i
i
n
j
ij
i i
in i i
i x
n n
x x x
x
1
2 1 1
K
, k i , , 2 , 1 K =
Media general (considernd grupurile reunite)

= =
+ + +
=
k
i
n
j
ij
k
i
x
n n n
x
1 1 2 1
1
K
.
Numrul total de observaii
k
n n n n + + + = K
2 1
.
Cu aceste notaii, se definete variaia din interiorul unui grup prin abaterile fa de
media grupului, iar variaia dintre grupuri prin abaterile de la media general a
mediilor grupurilor. Se demonstreaz c are loc relaia

= = = = = =
+ =
k
i
n
j
i
k
i
n
j
k
i
n
j
i ij ij
i i i
x x x x x x
1 1
2
1 1 1
2
1
2
) ( ) ( ) ( .
Relaia se mai scrie
rez exp g
SP SP SP + =
unde SP
g
este suma ptratelor global, SP
exp
este suma ptratelor explicat, iar SP
rez

este suma ptratelor rezidual, cu interpretarea de descompunere a variaiei globale n
variaia explicat i variaia rezidual.
Cele trei sume de ptrate au, respectiv, urmtoarele grade de libertate:
. 1 , , 1 1
exp
1
= = = =

=
k k n n n
rez
k
i
i g

Prin raportarea unei sume de ptrate la numrul ei de grade de libertate se obine
media ptratic. Astfel
rez
rez 2
esp
exp
2
exp
2
SP
;
SP
;

= = =
rez
g
g
s s s
g
SP
,
care caracterizeaz, respectiv, mprtierile global, explicat, rezidual.
Dintre acestea,
2
rez
s estimeaz absolut corect dispersia teoretic
2
, indiferent dac
mediile de sondaj ale grupurilor estimeaz sau nu aceeai medie teoretic .
Dac mediile de sondaj sunt omogene, atunci i celelalte medii ptratice,
2
g
s i
2
exp
s ,
sunt estimaii absolut corecte ale dispersiei comune
2
. Dac mediile de sondaj nu
sunt omogene (ca urmare a influenei factorului sistematic de clasare n grupuri),
2
g
s i
2
exp
s nu vor mai estima absolut corect dispersia comun.
Prin urmare, ntre
2
rez
s i
2
exp
s apar diferene semnificative cnd mediile grupurilor sunt
neomogene. Din acest motiv, analiza dispersional este uneori referit drept un test F
pentru o comparare multipl.
Se construiete astfel tabelul analizei dispersionale unifactoriale, ANOVA.
Sursa
variaiei
Suma
ptratelor
Grade de
libertate
Media
ptratelor
F
ntre grupuri
(extern)
SP
exp

exp

2
exp
s
n grupuri
(intern)
SP
rez

rez

2
rez
s
2
rez
2
exp
s
F
s
=
Global SP
g

g

2
g
s

Testul F. Compararea cantitilor
2
exp
s i
2
rez
s se efectueaz ntr-un test F cu ipotezele:
H
0
:
1
=
2
= =
k
(mediile grupurilor sunt egale);
H
1
: exist
j i
, (cel puin dou medii sunt neegale).
De remarcat c n ipoteza alternativ se afirm existena unei diferene ntre dou
medii, dar nu se pot specifica mediile diferite; nu se afirm c toate mediile sunt
diferite dou cte dou.
n condiiile ipotezei H
0
, cantitatea F calculat n tabelul ANOVA urmeaz o
repartiie Fisher-Snedecor cu
exp
i
rez
grade de libertate,
rez exp
;
F

, ceea ce permite
efectuarea unui test statistic.
Decizia. Dac, pentru un prag de semnificaie , fixat, valoarea F calculat este mai
mare sau egal cu quantila corespunztoare a repartiiei F,
rez exp
; ; 1
F F

,
atunci se respinge ipoteza nul n favoarea ipotezei alternative. Cu alte cuvinte, n
acest caz se poate accepta ipoteza c mediile grupurilor nu sunt omogene, exist cel
puin dou diferite ntre ele. Se conchide c diferenele dintre grupuri justific o parte
semnificativ a variaiei variabilei dependente.
n caz contrar, nu se respinge ipoteza nul a omogenitii mediilor: mprirea n
grupuri nu este semnificativ (grupurile sunt similare n privina variabilei
dependente).
Observaie. Reamintim presupunerea iniial c toate grupurile sunt caracterizate de
aceeai dispersie.
Modele ale analizei dispersionale unifactoriale
n funcie de modul de stabilire a grupurilor pot s apar dou situaii, dup cum sunt
considerate sau nu toate grupurile, de interes pentru cercetare, posibile.
1. Grupurile corespund categoriilor unei scale nominale (ordinale), toate
categoriile scalei fiind luate n considerare. n acest caz se spune c se studiaz
ntreaga populaie a surselor. Situaia apare i atunci cnd, prin convenie, se
consider c se studiaz ntreaga populaie a surselor. n acest caz se compar
grupurile ntre ele, se obin concluzii valabile pentru fiecare grup n parte. Acesta
este modelul cu efecte sistematice (sau modelul 1).
2. Grupurile corespund unor surse alese ntmpltor dintr-o populaie a
surselor. In acest caz este important ca, pe lng compararea grupurilor, s se
obin informaii despre mulimea tuturor surselor. Este ca i cum, din
multitudinea de categorii a unei scale nominale (ordinale) se aleg la ntmplare
cteva categorii, se obin eantioane din grupurile corespunztoare categoriilor
selectate, prelucrarea se efectueaz asupra acestor eantioane. Acesta este modelul
cu efecte ntmptoare (sau modelul 2).
Observatie. Indiferent de modelul aplicat, calculele care conduc la stabilirea tabelului
ANOVA sunt aceleai. Diferenele ntre modele apar la concluzii i la obinerea altor
estimaii.
B. Instrumente Excel, SPSS
Excel
Analiza dispersional unifactorial poate fi efectuat n Excel prin Tools - Data
Analysis: - Anova: Single Factor.
Datele trebuie s fie structurate pe coloane/linii astfel nct fiecare coloan/linie s
reprezinte eantionul dintr-o subpopulaie. Nu este necesar ca planul de experiene s
fie echilibrat (eantioanele pot avea volume diferite). n exemplul alturat,
cele patru coloane etichetate Optiune1 - Optiune4 reprezint fiecare cte un
eantion; etichetele pot fi gndite ca valori ale unei variabile discrete
(nominal n mod uzual), valori care identific subpopulaiile comparate.
organizarea datelor n zona care ncepe din celula A1 este ntmpltoare (din
motive de prezentare).

Dialogul analizei este prezentat n continuare i se poate remarca faptul c se indic la
Input Range ntreg domeniul ocupat de date, faptul c prezena etichetelor n prima
linie este menionat n Label in first row i c n zona Alpha se poate preciza
valoarea pragului de semnificaie (implicit este 0,05).
Adresa Output Range se refer la un domeniu din caietul existent unde se vor afia
rezultatele, dar rezultatele pot fi scrise ntr-o nou foaie de calcul sau un nou caiet.

Rezultatele conin un prim tabel sintetic cu statisticile uzuale:

Tabelul ANOVA este

unde:
Source of Variation reprezint descompunerea n variaie explicat (Between
Groups) i variaie neexplicat (Within Groups)
SS este coloana sumelor de ptrate
df este coloana gradelor de libertate asociate sumelor de ptrate
MS conine mediile sumelor de ptrate
F este valoarea calculat a staticii F
P-value, F crit sunt, respectiv, probabilitatea critic i valoarea critic care
permit decizia n testul statistic: ipoteza nul a grupurilor omogene se respinge
dac p-value este mai mic sau egal cu pragul a ales sau dac valoarea F
calculat este mai mare sau egal cu valoarea critic..
SPSS
Pentru a realiza o analiz dispersional unifactorial se d comanda Analyze -
Compare Means - One-Way ANOVA... Este afiat dialogul

Se va trece n zona Factor variabila discret care realizeaz caracterizarea grupurilor
de comparat iar n lista Dependent List variabilele continue pentru care se compar
grupurile. Fiecare variabil continu va produce un tabel ANOVA, deci se realizeaz
attea analize cte variabile sunt n lista variabilelor dependente.
Comanda Options (celelalte comenzi, Contrasts i Post Hoc vor fi utilizate n
lucrarea urmtoare) afieaz dialogul cu acelai nume, care permite fixarea
statisticilor care se calculeaz:
Descriptive indicatorii statistici ai variabilei dependente, total i pe grupuri,
Fixed and random effects pentru a distinge la interpretare modelul cu efecte
sistematice sau nu,
Homogeneity of variance test testul
Levene de egalitate a dispersiilor,
Brown-Forsythe i Welch teste de
egalitate a mediilor aplicabile n cazul
neegalitii dispersiilor,
Means plot produce reprezentarea
grafic a mediilor grupurilor
comparate (interpretarea este relativ,
ca i orice interpretare a unui grafic,
dar poate constitui un sprijin intuitiv
pentru rezultatele testelor statistice).


In arborele de structur a fiierului de
ieire este de remarcat c intrarea
corespunztoare este un nod de tip Oneway,
prezentat n continuare, n care sunt prezente
toate seciunile, vizibile sau ascunse.
Dac se vizualizeaz, prin dublu
click, seciunea Notes, se va obine un tabel
cu parametrii prelucrrii: data prelucrrii,
fiier de date, filtrare etc. Se poate vedea,
lucru util pentru crearea unor scripturi, sintaxa instruciunii care realizeaz aceeai
prelucrare.

Tabelul de statistici descriptive conine, pentru fiecare grup determinat de valorile
variabilei factor, informaiile:
numr de cazuri (N),
media (Mean),
abaterea standard (Std. Deviation),
eroarea standard a mediei (Std. Error),
intervalul de ncredere pentru medie (Confidence Interval for Mean)
valorile extreme,
statisticile specifice modelului de analiz solicitat (cu efecte sistematice sau cu
efecte ntmpltoare).

Dac s-a solicitat testarea omogenitii dispersiilor, se va aplica testul Levene,
rezultatele fiind sub forma:

n care Sig. reprezint probabilitatea critic a testului (rotunjit la trei zecimale).
Tabelul ANOVA este sub forma:

afindu-se doar probabilitatea critic (p-value) n coloana Sig.
Dac se solicit graficul mediilor, interpretarea este relativ, funcie de scalele
utilizate, culori etc. Se pot ns vedea grupurile relativ apropiate, valorile extreme.

C. Lucrarea practic
1. Se salveaz i se deschide n Excel fiierul
http://thor.info.uaic.ro/~val/statistica/TVHours.xls
Datele privesc un studiu desfurat timp de 4 sptmni n care s-a urmrit
numrul de ore de vizionare a trei tipuri de programe TV: filme, divertisment,
tiri.
2. S se analizeze setul de date TVHours.xls i s se rspund la urmtoarele
ntrebri:
a. exist diferene ntre brbai i femei n ceea ce privete numrul total
de ore de vizionare?
b. exist diferene ntre brbai i femei n ceea ce privete numrul de ore
de vizionare pe categorii de programe?
c. pe total i pe brbai-femei separat, cele 4 sptmni ale studiului
difer
i. dup numrul total al orelor de vizionare?
ii. dup numrul de ore pe categorii de programe?
d. se mpart subiecii pe categorii de vrst: 21-25, 26-30, 31-35. S se
decid dac exist deosebiri ntre cele trei categorii de vrst definite
n ceea ce privete
i. numrul total al orelor de vizionare?
ii. numrul de ore pe categorii de programe?
3. Se va importa n SPSS fiierul TVHours.xls i se va reface analiza n vederea
obinerii rspunsurilor la ntrebrile 2-b, 2-d.
4. Se va deschide n SPSS fiierul cars.sav (fiierul de date se gsete n folderul
aplicaiei SPSS). S se decid dac, ntre caracteristicile tehnice ale
autoturismelor considerate n studiul respectiv, exist deosebiri dup
localizarea productorului (Europa, Japonia, America) att pe ansamblul
perioadei considerate, ct i pe ultimii 5 ani ai studiului.
Statistic multivariat
Lucrarea nr. 5 ANOVA: analiza post-hoc, analiza
bifactorial - Excel, SPSS
A. Noiuni teoretice
Analiza post-hoc
Aplicarea testului ANOVA poate produce ca rezultat respingerea ipotezei de egalitate
a mediilor. Nu se precizeaz ns care grupuri au mediile diferite, producnd astfel
respingerea ipotezei nule.
Din acest motiv au fost dezvoltate tehnicile de comparaie multipl, cunoscute ca
analiza post-hoc, care vor evidenia grupurile care difer ca medie. Reamintim c nu
se poate ajunge la acest lucru prin comparaii asigurate de teste t, deoarece astfel nu se
menine pragul de semnificaie la o valoare acceptabil.
Dintre metodele de comparaie multipl enumerm:
Bonferroni - (numit i testul Dunn) implic o succesiune de teste t la care pragul
de semnificaie este divizat prin numrul de comparaii. De exemplu, pentru a
pstra nivelul de semnificaie global la 0,05 n m comparaii, fiecare test t de
comparare este efectuat la pragul de 0,05/m. Rezult c procedura poate fi
aplicat doar atunci cnd exist puine comparaii, n caz contrar este greu de
gsit o diferen semnificativ (i crete riscul unei erori de spea II).
Scheffe - este o metod bazat pe testul F, utilizat n situaiile n care numrul de
comparaii este mare, cu meniunea c puterea testului este mic (riscul
apariiei unei erori de spea II este mare).
Tukey - (honestly significant difference - HSD) este o metod bazat pe statistica
q i este preferat n cazul n care se dorete efectuarea tuturor comparaiilor
de grupuri, dou cte dou. Este, pe de alt parte, cea mai conservativ
metod, n sensul c accept cel mai repede ipoteza nul a omogenitii
grupurilor (de regul, n cazul unui numr mare de comparaii, riscul apariiei
unei erori de spea I este mare, astfel nct o metod conservativ este de
preferat).
Statistica q, numit statistica amplitudinii studentizate, constituie baza unor
metode de comparaie multipl. Diferena fa de statistica t este doar n ceea
ce privete numitorul expresiei matematice de definiie: q utilizeaz eroarea
standard a mediei, prin urmare se poate testa probabilitatea ca mediile extreme
ale grupurilor comparate s fie obinute din aceeai populaie (n testul t se
testa diferena a dou medii). Evident, dac ipoteza omogenitii mediilor
extreme nu se respinge, atunci toate mediile sunt omogene.
Tukey's b - (wholly significant difference - WSD) este un test Tukey modificat
pentru a fi mai puin conservativ, considerndu-se o valoare critic modificat.
Dunnett - este un test bazat pe o statistic t, utilizat atunci cnd se dorete
compararea cu un grup de control.
LSD - (least significant difference test - LSD) este bazat pe statistic t i este cea
mai liberal metod de comparaie multipl, n sensul c accept cel mai
adesea o diferen semnificativ.
Exist i metode care se pot aplica n cazul n care ipoteza omogenitii varianelor nu
este acceptat:
Games-Howell - (GH) bazat pe statistica q este mai conservativ i, datorit
puterii crescute (n raport cu alte metode similare), este recomandat n situaia
grupurilor de volume diferite i cu dispersii neegale sau necunoscute.
Dunnett's T3, Dunnett's C - pstreaz un control mai strict al pragului de
semnificaie.
Tamhane's T2 - este un test conservativ (tinde s nu respimg ipoteza nul).

Contrast - reprezint o combinaie ntre mediile unor grupuri. Testarea egalitii cu
zero realizeaz astfel un test privind adevrul relaiei respective ntre mediile
grupurilor implicate.

Analiza dispersional bifactorial (two-way ANOVA)
Studiul asocierii dintre o variabil continu (variabila dependent) i dou variabile
discrete (variabile independente, factori) necesit un instrument de analiz care s
poat diferenia influena primului factor, influena celui de al doilea factor, precum i
influena combinat, interaciunea celor doi factori. n acest scop s-a dezvoltat analiza
dispersional bifactorial.
Metoda este bazat tot pe descompunerea variaiei totale n variaie explicat i
variaie rezidual, situaie ilustrat n figura alturat


Dup descompunerea variaiei totale, decizia se ia pe baza comparrii diferitelor
pri ale variaiei explicate cu variaia rezidual. Dac o parte explicat este
semnificativ mai mare dect partea rezidual, atunci se va considera c respectivul
factor, sau interaciunea lor, este important pentru nivelul valorii variabilei
dependente.
Notm cu A i B variabilele independente (factorii) iar cu X variabila dependent
(dup care se compar grupurile determinate de nivelele factorilor). Presupunem c
factorul A are h nivele, iar factorul B are q nivele. Rezult c factorii A i B determin
hq grupuri. Este uzual ca valorile de sondaj corespunztoare grupurilor s fie aranjate
ntr-o structur dreptunghiular, cu hq celule, fiecare eantion ocupnd celula
corespunztoare nivelelor A
i
i B
j
, care identific grupul. O asemenea structur este
referit drept plan bifactorial. Dei este posibil ca eantioanele s aib volume
diferite, vom considera doar cazul n care toate celulele conin un numr egal de
valori, notat cu n, caz n care se spune c avem un plan factorial echilibrat. Prin x
ijk

Variaie explicat
de al doilea factor
Variaie explicat
de primul factor
Variaie explicat de
interaciunea factorilor
Variaie neexplicat

se noteaz astfel a k-a valoare din eantionul care corespunde grupului determinat de
nivelul i al factorului A i nivelul j al factorului B.
Utiliznd valorile medii calculate pentru linii, coloane, celule i pentru totalitatea
valorilor se demonstreaz c are loc relaia de descompunere a variaiei totale n
variaia datorat factorului A, variaia datorat factorului B, variaia datorat
interaciunii AB i variaia rezidual:
SP
g
= SP
A
+ SP
B
+ SP
AB
+ SP
rez

unde
. ) ( SP
) ( SP
) ( SP
) ( SP
) (
1 1 1
2
rez
1 1
2
AB
1
2
B
1
2
A
1 1 1

= = =
= =

=

= = =
=
+ =
=
=
=
h
i
q
j
n
k
ij
ijk
h
i
q
j
j i ij
q
j
j
h
i
i
h
i
q
j
n
k
ijk g
x x
x x x x n
x x hn
x x qn
x x SP

Sumele de ptrate au, respectiv, gradele de libertate
). 1 ( ), 1 ( ) 1 (
, 1 , 1 , 1
rez AB
B A
= =
= = =
n hq q h
q h hqn
g



Cu aceste cantiti se completeaz tabloul analizei dispersionale bifactoriale.


Ca i n cazul analizei dispersionale unifactoriale, verificarea semnificaiei factorilor
se face prin intermediul unor teste F comparnd variaiile explicate cu variaia
rezidual. De aici coloana ultim din tablou, care conine cele trei statistici necesare
testelor F, obinute ca rapoarte avnd la numitor
2
rez
s .
Ipotezele testate. Sunt trei seturi de ipoteze, corespunztoare celor doi factori i
interaciunii lor. Le vom nota dup factorii implicai:
Tabloul analizei dispersionale (ANOVA) bifactoriale
Sursa de variaie
Suma
ptratelor
Grade de
libertate
Media ptratelor F
ntre grupuri


Factorul A SP
A

A A A
2
A
/ SP = s
2
rez
2
A A
/ F s s =
Factorul B SP
B

B B B
2
B
/ SP = s
2
rez
2
B B
/ F s s =
Interaciunea AB SP
AB

AB AB AB
2
AB
/ SP = s
2
rez
2
AB AB
/ F s s =
n interiorul
grupurilor
SP
rez

rez rez rez


2
rez
/ SP = s
Global SP
g
g

(AB) H
0
: interaciunea factorilor A i B nu este semnificativ
(efectul lui A nu se modific funcie de nivelul lui B)
H
1
: interaciunea factorilor A i B este semnificativ
(efectul lui A depinde de nivelul factorului B)
(A) H
0
: factorul A nu este semnificativ (clasificarea dup linii
nu este semnificativ sau mediile liniilor nu difer
semnificativ)
H
1
: factorul A este semnificativ (clasificarea dup linii este
semnificativ, mediile liniilor difer n mod semnificativ)
(B) H
0
: factorul B nu este semnificativ (clasificarea dup coloane
nu este semnificativ sau mediile coloanelor nu difer
semnificativ)
H
1
: factorul B este semnificativ (clasificarea dup coloane
este semnificativ, mediile coloanelor difer n mod
semnificativ)
Decizia. Deoarece se demonstreaz c, acceptnd ipoteza nul a fiecrui test, statistica
F calculat n tabloul ANOVA urmeaz o repartiie F avnd drept grade de libertate
numerele ataate numrtorului i numitorului, se va respinge ipoteza nul H
0
n
favoarea ipotezei alternative dac valoarea F calculat, corespunztoare testului, citit
n tabloul ANOVA, este mai mare sau egal cu quantila respectiv a repartiiei
Fisher-Snedecor.

Testul Regula de respingere a ipotezei nule
(AB) rez AB
; ; 1 AB
F

F
(A) rez A
; ; 1 A
F

F
(B) rez B
; ; 1 B
F

F

Observaie. Pentru ca pragul de semnificaie s fie pentru ansamblul celor trei
teste, se recomand ca pragul de semnificaie s fie /3 pentru fiecare test individual.

B. Instrumente Excel
n Excel nu se poate efectua analiza post-hoc (dac nu se dezvolt/deschide etc. un
proiect VBA dedicat).
Pentru analiza dispersional bifactorial, datele se vor organiza n modul urmtor:

Este important de reinut c se pot efectua doar analize n care planul de experimente
este echilibrat, deci fiecare celul are acelai numr de valori, n.
Din Tools - Data Analysis se continu cu:
ANOVA: Two-Factor With Replication n cazul n > 1
ANOVA: Two-Factor Without Replication n cazul n = 1
Dialogul afiat n primul caz, cel mai general deoarece se permite studiul interaciunii
ntre factori, este

unde se completeaz:
Input Range - referina la zona datelor, zona colorat din figura cu structura
datelor.
Rows per sample - valoarea lui n, numrul de valori dintr-o celul.
Restul zonelor sunt explicate prin denumirile lor.
Instrumente SPSS
Analiza Post Hoc
Pentru a realiza o analiz dispersional unifactorial se d comanda Analyze -
Compare Means - One-Way ANOVA... dup cum s-a explicat n lucrarea
anterioar.
Analiza post-hoc este realizat prin acionarea butonului Post Hoc. n dialogul afiat
se marcheaz metodele dorite, att n cazul ANOVA (dispersii egale), ct i n cazul
n care dispersiile nu sunt egale.

n dialogul One-way ANOVA, prin Contrasts se afieaz dialogul sinonim n care
putem preciza coeficienii contrastelor dorite. Procesul de definire este dublu iterativ:
se tasteaz n Coefficients cte un coeficient i apoi Add. La sfrit prin Next se trece
la urmtorul contrast i operaiunea de definire se reia. Coeficienii sunt n ordinea
valorilor variabilei factor (dei este o variabil discret, aceasta trebuie s fie
codificat numeric).

Two-Way ANOVA
Analiza bifactorial se poate realiza n dou moduri:
1. din fereastra de sintax sau
2. utiliznd comanda General Linear Model (GLM).
Comanda ANOVA
Se deschide o nou fereastr de sintax prin File - New - Syntax:

Se afieaza stfel o fereastr n care se pot scrie i executa comenzi:

Comanda ANOVA are sintaxa general:
ANOVA [VARIABLES=] varlist BY
varlist(min,max)...varlist(min,max)
[WITH varlist] [/VARIABLES=...]
[/COVARIATES={FIRST**}]
{WITH }
{AFTER }
[/MAXORDERS={ALL** }]
{n }
{NONE }
[/METHOD={UNIQUE** }]
{EXPERIMENTAL}
{HIERARCHICAL}
[/STATISTICS=[MCA] [REG] [MEAN] [ALL] [NONE]]
[/MISSING={EXCLUDE**}]
{INCLUDE }
unde:
VARIABLES specific lista variabilelor analizate. Analize diferite sunt separate prin
slash-uri.
variabilele din faa cuvntului rezervat BY sunt dependente, cele de dup
sunt factorii analizei.
fiecare factor trebuie s fie codificat numeric i grupurile considerate se
precizeaz prin valorile minim i maxim asociate.
variabilele listate dup WITH sunt covariabilele analizei (analiza
covarianei)
COVARIATES specific ordinea de considerare n analiz a covariabilelor i a
factorilor principali.
FIRST produce procesarea covariabilelor naintea factorilor; WITH
procesare simultan; AFTER proceseaz covariabilelor la sfrit.
ordinea este neglijat dac METHOD=UNIQUE.
MAXORDERS precizeaz ordinul maxim de interaciune considerat n analiz.
ALL fixeaza ordinul de interaciune la 5 (valoarea implicit n SPSS); n
stabilete ordinul maxim; NONE nu se analizeaz interaciunile.
interaciunile omise sunt incluse n variana rezidual.
METHOD controleaz metoda de descompunere a sumei de ptrate n construcia i
analiza tabelului ANOVA.
UNIQUE nseamn abordare regresional (toate efectele - covariabile, factori
- sunt considerate simultan); EXPERIMENTAL abordarea clasic;
HIERARCHICAL abordare ierarhic a considerrii efectelor.
alegerea unei opiuni poate impune restricii n alegerea altor parametri ai
comenzii, ceea ce poate produce mesaje de atenionare.
STATISTICS precizeaz statisticile suplimentare calculate
MEAN = mediile i frecvenele celulelor, pentru toate nivelurile de
interaciune cerute ; REG = coeficienii de regresie nestandardizai (explicaia
va fi neleas mai bine doar dup studiul modelului liniar); MCA (Multiple
Classification Analysis) = diverse statistici privind mediile prognozate,
rapoarte de corelaie etc. studiate ulterior; ALL, NONE cu sensurile evidente.
MISSING precizeaz modul de tratare a valorilor lips.
EXCLUDE - valoarea implicit- este exclus orice observaie cu o valoare
lips n orice variabil menionat n analiz; INCLUDE are ca efect
includerea n analiz a observaiilor care au valori lips definite de utilizator.
Comanda GLM
Fundamentarea acestei proceduri se va gsi n capitolul privind modelul liniar,
considerndu-se deocamdat c analiza dispersional poate fi privit ca o problem de
model liniar i, deci, rezolvat printr-o metod dedicat acestei probleme.
1. Se d comanda Analyze General Linear ModelUnivariate. Ca urmare, se
afieaz dialogul


2. Se precizeaz variabila dependent prin mutarea n zona Dependent Variable
3. Se precizeaz factorii sistematici n zona Fixed Factor(s), factorii ntmpltori n
zona Random Factor(s), ca i eventualele covariabile n lista Covariate(s).
4. Pentru o analiz ponderat se va preciza variabila pondere n WLS Weight.
5. Pentru a realiza comparaiile multiple (analiza post hoc) se acioneaz butonul Post
Hoc, afindu-se dialogul

n care se precizeaz factorii pentru care se dorete analiza post hoc, ca i metodele de
analiz selectate.
C. Lucrarea practic
1. Se va deschide fiierul
http://thor.info.uaic.ro/~val/statistica/MagAds.xls
care conine date obinute n urma analizrii reclamelor unor reviste n ceea ce
privete gradul de dificultate a lecturii lor, dup nivelul de educaie al
cititorilor int. Variabilele urmrite sunt:
Words - numrul de cuvinte din reclam
Sentences - numrul de propoziii din reclam
Syllable3 - numrul de cuvinte cu mai mult de 3 silabe
Magazine - codul revistei
EducLevel - nivelul de educaie a grupului de cititori int, notat descresctor
de la 1 la 3.
a. S se decid dac variabilele Words, Sentences i Syllable3 difer, n
medie,
i. dup revist,
ii. dup grupul int.
b. S se decid tipul de prelucrare dup revist dac se cunoate c pentru
fiecare nivel de educaie s-au ales aleatoriu trei reviste dintre cele care
au acest grup int.
c. Ce se poate spune de studiul interaciunii dintre variabilele factor
Magazine i EducLevel?
2. Se va deschide n SPSS fiierul cars.sav (fiierul de date utilizat i n Lucrarea
4, se gsete n folderul aplicaiei SPSS). Se va observa c anumite prelucrri
trebuie s disting ntre camioane i autoturisme.
a. S se utilizeze ANOVA, inclusiv analiza post-hoc, pentru a decide
asupra diferenelor semnificative, dintre caracteristicile tehnice ale
autoturismelor, dup localizarea productorului (Europa, Japonia,
America), att pe ansamblul perioadei considerate, ct i pe ultimii 5
ani ai studiului.
b. S se aplice analiza bifactorial considernd factorii localizare i
numr de cilindri.
c. Realiznd o grupare a anilor de fabricaie n 3-4 grupe, s se studieze
eventuala interaciune a noii variabilei factor cu factorul localizare.

Statistic multivariat
Lucrarea nr. 6 Asocierea datelor - Excel, SPSS
A. Noiuni teoretice
Generaliti
Spunem c dou (sau mai multe) variabile sunt asociate dac, n distribuia comun a
variabilelor, anumite grupuri de valori au probabiliti mai mari de realizare simultan dect
alte grupuri de valori. Cu alte cuvinte, dac o variabil ia o valoare, atunci celelalte variabile
vor lua, cu probabiliti mai mari, valori determinate de valoarea primei variabile.
Se observ astfel c, n analiz, una dintre variabile joac rolul de variabil
dependent iar cealalt (sau celelalte) joac rolul de variabil independent
(variabile independente). Denumirile (ca i rolurile) sunt relative, doar necesitile i
posibilitile cercettorului stabilind rolul fiecrei variabile.
Un aspect al problemei este evidenierea asocierii i alt aspect este evaluarea
gradului de asociere.
Evaluarea asocierii:
Scala direcional (1+1). Permite distingerea asocierilor negative (n care
valorile variabilelor sunt invers proporionale: mare cu mic, mic cu mare) de
asocierile pozitive (n care valorile variabilelor sunt direct proporionale: mare cu
mare, mic cu mic). Valoarea zero indic lipsa de asociere. Este specific variabilelor
ordinale i celor continue (de interval).
1 0 +1
Asociere negativ
(invers)
Lips de asociere Asociere pozitiv
(direct)

Scala nedirecional (01). Este mai puin senzitiv dect scala direcional,
permite doar diferenierea asociere neasociere, fr a specifica sensul asocierii.
Pentru variabilele asociate puternic nu se poate preciza tipul de asociere. Este
specific variabilelor nominale.
Atributul PRE (Proportional Reduction in Error) reducerea proporional a erorii,
se refer la mbuntirea prognozei valorilor variabilei dependente atunci cnd se
cunoate valoarea variabilei independente. Se definete ca msur a cantitii cu care
cunoaterea variabilei independente mrete corectitudinea prediciei n raport cu o
"ghicire" pur (bazat doar pe cunoaterea repartiiei variabilei dependente):

Eroarea folosind doar
variabila dependent

Eroarea folosind
variabila independent
PRE=
Eroarea folosind doar variabila dependent
Se poate gndi PRE ca variana explicat de variabila independent.
Asocierea ntre dou variabile nominale (calitative)
Fie dou variabile discrete nominale, X i Y, avnd r i, respectiv, s categorii. Se
consider c datele experimentale msurate ntr-un eantion de volum n sunt
prezentate n tabelul de frecvene ncruciate:
Y
1
Y
j
Y
s
Total
X
1
n
11
n
1j
n
1s
n
1*

X
i
n
i1
n
ij
n
is
n
i*

X
r
n
r1
n
rj
n
rs
n
r*
Total n
*1
n
*j
n
*s
n
unde n
i*
reprezint totalul frecvenelor de pe linia i, iar n
*j
este suma frecvenelor de
pe coloana j.
Se consider c variabilele X i Y sunt independente empiric, dac are loc relaia
j i
n
n n
n
j i
ij
, ) ( ,

=


care exprim faptul c liniile (coloanele) sunt proporionale, deci profilele-linii sunt
egale (ca i profilele-coloane). Se poate demonstra c, n aceste condiii, proporia
elementelor clasate Y
j
este aceeai ntre elementele clasate X
i
ca i ntre elementele
neclasate X
i
(elementele non X
i
).
ntre nivelurile X
i
i Y
j

exist o asociere pozitiv dac n
ij
> (n
i*
n
*j
) / n (adic n celula ij exist o
frecven mai mare dect n populaie);
exist o asociere negativ dac n
ij
< (n
i*
n
*j
) / n (adic n celula ij exist o
frecven mai mic dect n populaie).
Se adopt ca msur a asocierii (globale) mrimea (Pearson)
d
2

(sau
2
) =


|
|
.
|

\
|

j i j i
j i
ij
n
n n
n
n n
n
, * *
2
* *

sau
d
2
= n
(
(

1
* *
2
ij j i
ij
n n
n
.
Indicatorul
2
(numit indicator al contingenei ptratice) nu este msurat pe o scal
0-1 i din acest motiv, nencadrndu-se n teoria general a indicilor de asociere, nu
poate fi utilizat cu bune rezultate pentru comparaii. Au fost propui atunci o serie de
ali indici, (derivai din
2
):

2
=
n
2

, indicator al contingenei ptratice medii (Pearson)


C =
2
2

+ n
, coeficientul contingenei ptratice medii (Pearson)
T
2
=
) 1 )( 1 (

2
t s
, coeficientul lui Ciuprov
V
2
=
)} 1 ( ), 1 min{(
2
r s

, coeficientul lui Cramer.

Semnificaia statistic a asocierii:
Se poate utiliza cantitatea
2
pentru a testa asocierea evideniat de datele de sondaj.
Testul de asociere
2
are ipotezele:
H
0
: variabilele X i Y nu sunt asociate;
H
1
: variabilele X i Y sunt asociate.
Se demonstreaz c n condiiile ipotezei H
0
, variabila
2
, calculat mai sus, este
repartizat
2
cu un numr de grade de libertate egal cu (r1)(s1),
2
~
2
(r-1)(s-1)
,
ceea ce permite efectuarea unui test statistic.
Limite de aplicare. Pentru a aplica testul trebuie ca nu mai mult de 20% dintre celule s aib
mai puin de 5 elemente.
Asocierea datelor ordinale
Datorit faptului c scalele de msur ordinale au definit ordinea ntre categorii
(clase), coeficienii de asociere sunt direcionali, adic msurai pe o scal
(10+1).
Coeficientul de corelaie a rangurilor (Spearman) r
s

Acesta este o msur PRE i este direcional. Se utilizeaz atunci cnd observaiile
cuprind valori ale unor variabile ordinale, structurate ca n tabelul urmtor:

Observaia variabila 1 variabila 2
1 v
11
v
21

2 v
12
v
22

n v
1n
v
2n


Se ncepe prin a atribui ranguri valorilor fiecrei variabile, separat, cu tratarea
situaiile de ex-aequo. Se obine astfel

Observaia
ranguri
variabila 1
ranguri
variabila 2
d
2
1 r
11
r
21
(r
11
-r
21
)
2
2 r
12
r
22
(r
12
-r
22
)
2


n r
1n
r
2n
(r
1n
-r
2n
)
2


Formula de definiie a coeficientului de corelaie a rangurilor este
r
s
= 1
) 1 (
6
2

n n
d
i
i
.
Testarea semnificaiei coeficientului r
s
calculat este bazat pe statistica
=
2
1
2
s
s
r
n
r

,
care, n ipoteza nul, H
0
:
s
= 0, urmeaz o distribuie Student cu = n2 grade de
libertate. Se va respinge H
0
n favoarea unei ipotezei alternative, direcionale sau nu,
prin procedura uzual a unui test bazat pe repartiia Student.
Coeficientul de corelaie a rangurilor nu este adecvat pentru scale ordinale cu puine
categorii (57) care dau, de regul, multiple cazuri de egalitate. n asemenea situaii se
utilizeaz coeficientul , definit n continuare.
Coeficientul
Acest indicator este bazat tot pe atribuirea de ranguri valorilor celor dou variabile ordinale,
dar pleac de la ideea: cunoaterea ordinii a dou ranguri pentru variabila independent
poate prezice ordinea rangurilor pentru variabila dependent? Rspunsul ar trebui s fie
afirmativ pentru variabile asociate, orice abatere de la acest rspuns trebuie s conduc la
ideea de independen (lips de asociere) ntre cele dou variabile.
Coeficientul este o msur PRE pe o scal direcional i se definete prin
=
i a
i a
f f
f f
+


unde f
a
este numrul de agremente (potriviri), f
i
este numrul de inversiuni, spunnd
c
r
1i
r
2i

r
1j
r
2j

se potrivesc dac ordinea este aceeai n cele doucoloane i c are loc o inversiune
dac ordinea este schimbat.
Semnificaia lui poate fi testat prin utilizarea unei formule aproximative (aplicabil
pentru n 10)
z =
) - n(1
f f
2
i a

+

care, n ipoteza H
0
: = 0, este o variabil normal redus i se poate aplica un test
bazat pe repartiia normal standard.
Asocierea datelor continue (de interval)
n domeniul datelor continue, asocierea variabilelor este, de regul, studiat sub
denumirea de corelaie (denumire care a fost introdus i la coeficientul de corelaie a
rangurilor, pentru date ordinale). Se pot distinge dou mari direcii n acest studiu:
calcularea unui indicator al asocierii (corelaiei)
estimarea unui model funcional care s reprezinte asocierea dintre variabile
(analizat n cursurile dedicate tematicii modelului liniar).
Coeficientul de corelaie (liniar)
Pentru a evalua existena unei asocieri i intensitatea asocierii, se utilizeaz coefi-
cientul de corelaie, notat r. Acesta este msurat pe o scal direcional de la 1 la +1
i are atributul PRE.
Coeficientul de corelaie este definit prin
r =
( )( )



2 2
) ( ) (
) )( (
Y y X x
Y y X x
i i
i i
,
existnd, evident, i alte formule echivalente. Cantitatea r obinut pe baza unui
eantion este, n spiritul discuiei de pn acum, o estimare a coeficientului de
corelaie din populaie.
Semnificaia coeficientului de corelaie poate fi testat utiliznd un test Student. n
aplicarea testului se presupune (este cerut) c mprtierea valorilor Y este uniform
dup valorile lui X (proprietatea de homoscedasticitate). n plus, exist i ipoteze
distribuionale de normalitate a variabilelor X i Y. Statistica testului este
t = r
2
1
2
r
n

.
n ipoteza H
0
: = 0, statistica t este repartizat Student cu n-2 grade de libertate. Se
respinge H
0
n favoarea ipotezei alternative nedirecionale H
1
: 0, dac |t| > t
1-/2;n-2
.
Se pot considera i teste unilaterale, dup procedura general a testelor bazate pe
distribuia Student.
B. Instrumente Excel, SPSS
Excel
Coeficientul de corelaie dintre dou variabile poate fi calculat prin funcia
CORREL(Array1,Array2), unde Array1, Array2 sunt, respectiv, zonele care conin
valorile celor dou variabile (trebuie s aib, evident, acelai numr de valori).
Pentru a calcula matricea de corelaie (deci sunt implicate mai mult de dou variabile)
se utilizeaz procedura CORRELATION din Tools - Data Analysis.
Observaie. Nu sunt disponibile prelucrri specifice pentru asocierea variabilelor
nominale sau ordinale, acestea trebuind s fie realizate prin funciile i operaiile
posibile n Excel.
CORRELATION
Este procedura care calculeaz coeficienii de corelaie liniar, cunoscui i drept
coeficienii de corelaie Pearson. Variabilele implicate sunt variabile continue (de
interval). n cazul cnd exist un numr suficient de mare de valori i de ranguri
posibile, procedura poate fi utilizat i pentru calculul coeficienilor de corelaie a
rangurilor (Spearman).
Dialogul de iniiere a procedurii Correlation este prezentat n figura alturat.
Input
Input Range se precizeaz domeniul
datelor de intrare. Acesta trebuie s
fie o zon compact dintr-o foaie de
calcul.
Grouped By se selecteaz butonul
corespunztor modului de nscriere
a valorilor unei variabile: Columns
pentru variabile pe coloane, Rows
pentru variabile pe linie.
Labels in First Row se marcheaz
dac prima linie (cazul Columns)
sau prima coloan (cazul Rows)
conine denumirile variabilelor.

Out put opt i ons
Output Range, New Worksheet Ply, New Workbook Precizeaz zona unde se vor nscrie
rezultatele. Zona de rezultate cuprinde un tabel ptratic cu coeficienii de corelaie ntre
toate perechile de variabile din domeniul de intrare. Deoarece tabloul este simetric fa de
prima diagonal, se afieaz doar partea inferioar (stnga-jos).
Din pcate, n Excel nu este raportat semnificatia acestor coeficieni de corelaie, cu
alte cuvinte nu se raporteaz informaiile necesare verificrii ipotezei de nulitate a
coeficienilor. Testarea semnificaiei coeficienilor se poate efectua prin apelarea, n
foaia de calcul Excel, a funciilor necesare, dup modelul urmtor, n care se verific
H
0
: coeficientul de corelaie dintre variabile este egal cu zero
H
1
: coeficientul de corelaie dintre variabile este diferit de zero
Se calculeaz transformata Fisher a coeficientului de corelaie r calculat prin utilizarea
funciei fisher() din Excel: ntr-o celul neutilizat se tasteaz
=fisher(referina la celula unde este coeficientul de corelaie)
Se obine rezultatul calculului:
r
r
z

+
=
1
1
ln
2
1

Cu aceast valoare se calculeaz intervalul aproximativ de ncredere cu limitele
z
1
= z
3
1
n
z
1
i z
2
= z +
3
1
n
z
1

Observaie. Calculul unei limite, de ex, z
1
, se efectueaz cu formula Excel
= referina la celula unde este z 1/sqrt(n-3)*normsinv(1-/2)
O metod alternativ, pentru ipoteza nul a unui coeficient egal cu 0, este utilizarea
unui test t bazat pe statistica, dat direct ca o formul Excel:
= r/sqrt(1-r^2)*sqrt(n2)
unde r semnific valoarea, sau referina la coeficientul de corelaie testat, iar n este
valoarea sau referina la volumul eantionului.
Pentru a obine, n Excel, probabilitatea critic bilateral se utilizeaz formula
=tdist(abs(t),n-2,2)
n care t poate fi nlocuit direct cu expresia de calcul corespunztoare:
=tdist(abs(r/sqrt(1r^2)*sqrt(n-2)),n-2,2)
unde r i n au semnificaiile precizate anterior.
RANK AND PERCENTILE
Aceast procedur realizeaz atribuirea de ranguri valorilor unei variabile. Se obin
att ranguri ordinale descresctoare ct i ranguri centilice.
Rangurile ordinale sunt atribuie descresctor: valoarea maxim are rangul 1,
urmtoarea mai mic are rangul 2 etc. Cazurile de ex-aequo sunt tratate prin atribuirea
primului rang disponibil tuturor cazurilor din aceeai categorie. Reamintim c o
procedur mai des utilizat este aceea a atribuirii rangului mediu tuturor valorilor
egale.
Rangul centilic al unei valori este exprimat procentual dup formula
numr de valori
depite
Rang
centilic =
n-1
100 %,
unde n este volumul eantionului. La baza acestei formule este presupunerea c
rangurile sunt distribuite uniform (ceea ce nu este adevrat pentru datele ordinale
unde rangul este o simpl convenie), cele n ranguri posibile (= numrul de observaii)
separ (n1) intervale de lungimi egale i se calculeaz atunci ct la sut din aceste
intervale (sau din domeniul rangurilor) este sub valoarea pentru care se calculeaz
rangul centilic. De remarcat c sunt utilizate i alte formule (cu rezultate uor diferite)
pentru calculul rangului centilic, formule bazate pe rangul mediu atribuit valorilor
egale. n general, asemenea formule sunt utilizate pentru eantioane relativ mici,
pentru care erorile estimaiilor sunt mari i deci utilizarea unei formule sau a alteia nu
ne scoate din limitele de siguran acceptate.
Calculele sunt efectuate pentru toate variabilele prezente n domeniul precizat ca
intrare, datele trebuind s fie organizate ntr-un domeniu dreptunghiular continuu.
n figur se prezint dialogul Rank and Percentile, parametrii care trebuie s fie
specificai sunt doar de localizare a intrrilor i ieirilor i sunt explicai n continuare.
Input
Input Range, Grouped By, Labels in First Row Se specific domeniul de intrare, modul de
organizare a variabilelor (pe coloane sau pe linii) i faptul dac exist denumiri n
domeniul indicat. Pentru o descriere mai pe larg a cmpurilor se va vedea zona Input de la
Descriptive Statistics.
Out put opt i ons
Output Range, New Worksheet Ply, New Workbook Fixeaz zona unde se vor nscrie
rezultatele.
Exempl u
Rezultatele unui apel la procedura Rank and Percent, situaia ilustrat este pur
didactic, sunt structurate dup cum urmeaz.
Primele dou coloane conin datele de sondaj. Aplicarea procedurii pentru variabila
Dialogul Rank and Percentile

Scoruri produce rezultatele din coloanele DG. Prima coloan, Point, prezint
numerele de ordine iniiale ale valorilor. Coloana a doua, Scoruri, este ordonarea
descresctoare a valorilor. Coloana a treia conine rangurile ordinale atribuite
valorilor. Se observ c valorile egale cu 15, care ar avea rangurile 4 i 5, primesc
ambele rangul 4 iar rangul 5 nu mai este atribuit (urmtoarea valoare are rangul 6).
Coloana a patra conine rangurile centilice, calculate dup formula precizat. Astfel
valoarea 18, cu rangul 3, depete 3 valori. Cum n = 6 se obine un rang centilic egal
cu 3/(61), adic de 60%. Aceasta valoare poate fi neleas potrivit figurii urmtoare:
Se vede c valoarea 18 are n dreapta ei, deci valori mai mici ordinea este
descresctoare , trei segmente din totalul de 5, adic 60% din distribuie. Analog,
valoarea 15 depete 2 segmente din 5, deci 20% etc.

SPSS
Pentru a calcula coeficienii de corelaie dintre variabile de interval sau ordinale se d
comanda Analyze > Correlate > Bivariate

Se afieaz dialogul Bivariate Correlations n care se fixeaz variabilele care sunt
analizate i tipul de coeficient de corelaie calculat: Pearson, Spearman precum i
testul de semnificaie dorit.

Prin dialogul Options se pot selecta anumite statistici elementare dorite n rezultat ca
i modul de tratare a observaiilor lips.
ranguri
valori 27 23 18
15
15
12
1 2 3 4 6 5
60%

Ca rezultat se obine, n principal, matricea de corelaie ntre variabilele selectate
pentru analiz. O celul a tabelului conine valoarea coeficientului de corelaie,
probabilitatea critic a testului de semnificaie i numrul de valori reinute pentru
calcul (dup tratarea cazurilor lips).



Potrivit procedurii de decizie ntr-un test statistic, se respinge ipoteza unei corelaii
nule dac probabilitatea critic este mai mic sau egal cu pragul de semnificaie ales.
Corelaiile semnificative pot fi marcate automat cu * (=0,05) sau ** (=0,01) prin
selectarea opiunii Flag significant correlations din dialogul principal.
Pentru cazul variabilelor discrete, se poate consulta tabelul urmtor care conine o
sistematizare a coeficienilor de asociere definii (ei sunt calculai i de SPSS), tabel
adaptat dup tabelul similar din
http://demography.anu.edu.au/Publications/SDA-course-notes/sec03.htm.
Denumirile statisticilor sunt pstrate pentru a fi recunoscute n dialogurile
specializate.
Coeficient Statistic
Variabila
dependent
Variabila
independent
Observaii
Coeficieni bazai pe

CHISQ Chi-square Orice tip Orice tip
PHI Phi sau
Cramer's V
Orice tip Orice tip Phi se utilizeaz de
obicei pentru tabele
22
CC Contingency coefficient Orice tip Orice tip
Coeficieni bazai pe reducerea proporional a erorii
LAMBDA Lambda Orice tip Orice tip
UC Uncertainty coefficient Orice tip Orice tip
Statistici pentru variabile ordinal
BTAU Kendall tau-b Ordinal Ordinal
CTAU Kendall tau-c Ordinal Ordinal Se recomand BTAU
GAMMA Gamma Ordinal Ordinal Se recomand BTAU
D Somer's d Ordinal Ordinal
Ali coeficieni
KAPPA Kappa Nominal Nominal Tabele ptratice de
frecvene
RISK Relative risk Interval Orice tip
ETA Eta Interval Orice tip
CORR Correlation Interval Interval

Cazul variabilelor discrete, nominale n special, este analizat n dialogul afiat de
comanda Analyze > Descriptive Statistics > Crosstabs. Din dialogul afiat, care
produce calculul frecvenelor ncruciate pentru dou variabile discrete, se acioneaz
butonul Statistics, afindu-se dialogul

din care se selecteaz indicatorii de asociere dorii. Rezultatul afiat va include i
testele de semnificaie adecvate.
Pentru explicaii suplimentare privind coeficienii de asociere considerai n dialog, se
poate studia urmtorul document privind asocierea variabilelor discrete:
http://www.infoiasi.ro/~val/statistica/AsocVarDisc.pdf
C. Lucrarea practic
1. S se genereze n Excel dou iruri de numere dintr-o repartiie uniform.
a) S se calculeze coeficientul de corelaie ntre cele dou variabile astfel
construite. S se interpreteze rezultatul i s se verifice concordana cu
reprezentarea grafic adecvat.
b) S se repete generarea de numere i s se testeze semnificaia statistic
a coeficientului de corelaie n fiecare caz.
c) Pentru o generare de numere, s se calculeze coeficientul de corelaie a
rangurilor (Spearman).
2. S se deschid n SPSS fiierul University of Florida graduate salaries.sav din
fiierele de test care nsoesc aplicaia SPSS.
a) S se studieze asocierea (indicatorii
2
, , C) dintre variabilele discrete
gender i college. Prin agregare de categorii, sau eliminarea categorii-
lor cu frecvene mici, s se aduc datele n situaia n care se poate
aplica
2
.
b) S se studieze asocierea dintre variabilele graduation date i gender.
c) S se studieze asocierea gender i salary:
prin test t
prin discretizare i
2
.
3. S se deschid fiierul World95.sav din fiierele de test care nsoesc aplicaia
SPSS.
a) S se calculeze i s se interpreteze matricea de corelaie dintre
variabilele continue.
b) S se compare corelaiile semnificative calculate pentru:
global (toate datele),
pe religii predominante,
pe regiuni.
Statistic multivariat
Lucrarea nr. 7 Regresia liniar simpl
- Excel, SPSS -
A. Noiuni teoretice
Considerm c, ntr-un eantion de volum n s-au determinat perechile de
valori (x
i
,y
i
), i=1,,n, corespunztoare celor dou variabile pentru care dorim s
studiem asocierea i relaia dintre ele.
O prim apreciere asupra distribuiei comune o vom avea dac realizm
diagrama de mprtiere a valorilor, de fapt reprezentarea ntr-un sistem de axe a
punctelor avnd coordonatele x i y. Analiza vizual a organizrii i formei norului de
puncte obinut poate oferi indicii importante asupra relaiei dintre variabile. Datele de
sondaj vor susine ipoteza asocierii ntre variabile dac forma norului de puncte se
apropie de o curb funcional. Astfel, se pot aprecia asocieri liniare, curbilinii etc.
Dac n norul de puncte nu se poate distinge o tendin, se va spune c variabilele nu
sunt corelate.
n figura urmtoare sunt ilustrate cteva tendine identificabile direct.
Cazul (a) ilustreaz o asociere pozitiv, (b) o
asociere negativ, (c) lips de asociere, (d) asociere
curbilinie.
Relaiile de interes pentru discuia din continuare sunt cele ilustrate n cazurile
(a) i (b), unde este identificabil o tendin liniar n norul de puncte.
Pentru a sintetiza modul n care schimbrile lui Y sunt asociate cu schimbrile
lui X, metoda matematic utilizat este "metoda celor mai mici ptrate" (Legendre,
1806). Aplicat n cazul nostru, asocierea dintre X i Y este reprezentat printr-o
dreapt trasat printre punctele diagramei de mprtiere.
Linia estimat este "cea mai bun" n sensul c exprim cel mai central drum
printre puncte: linia pentru care suma ptratelor distanelor (pe vertical) dintre puncte
i dreapt este minim. Termenul comun pentru dreapta estimat este acela de dreapta
de regresie.
x
0

y
0

Distanele sunt referite ca erori (reziduuri). Deci dreapta de regresie realizeaz
valoarea minim a ptratelor erorilor, n sensul c orice alt dreapt produce o sum
de ptrate mai mare.
Este de amintit c o proprietate a mediei aritmetice este aceea c suma
ptratelor diferenelor de la medie are o valoare minim. Astfel se poate spune c
dup cum media reprezint punctul de echilibru pentru o distribuie univariat de
scoruri, la fel dreapta de regresie reprezint punctul de echilibru ntr-o distribuie
bivariat.
Utilitatea dreptei de regresiei este aceea c servete ca baz pentru predicia
valorilor lui Y asociate valorilor lui X. Astfel, dat o valoare x
0
, valoarea prognozat
pentru Y este y
0
, ordonata pe dreapta de regresie corespunztoare abscisei x
0
.
Problema estimrii erorilor de predicie va fi tratat o dat cu prezentarea modelului
general.
Problema prezentat poate fi formulat matematic drept determinarea
cantitilor a i b din ecuaia Y
e
= a + b X, unde
Y
e
este valoarea prezis (estimat) a variabilei dependente;
a este termenul liber al dreptei de regresie (valoarea pentru X=0);
b este coeficientul de regresie (cantitatea cu care se modific Y atunci cnd X
se modific cu o unitate);
X este valoarea variabilei independente.
Se demonstreaz c, prin metoda celor mai mici ptrate, se obine:
b =


2
) (
) )( (
X x
Y y X x
i
i i
i
a = X b Y .
Valoarea estimat, totui, este numai o medie care se poate atepta. Acurateea
depinde de ct de bine se potrivete dreapta de regresie cu datele reale. Aceast
potrivire este evaluat prin considerarea unei statistici: eroarea standard a estimaiei,
definit ca abaterea standard a erorilor de estimare (a reziduurilor estimaiei):
s =
2 n
) (
2
i

ei
y y

unde y
ei
reprezint valoarea estimat (prin ecuaia de regresie) pentru x
i
.
O eroare standard mare arat c valorile observate sunt la distan de dreapta
de regresie i deci aceasta este mai puin reprezentativ pentru datele reale. n
consecin i valorile prognozate sunt afectate de erori mai mari.
Analiza distribuional a ecuaiei de regresie simple
Deoarece coeficienii ecuaiei de regresie sunt calculai dintr-un eantion,
rezult c au caracterul de statistici, se poate deci vorbi de repartiia lor de sondaj etc.
Acest fapt permite analiza distribuional a coeficienilor, n sensul inferenei
statistice: ecuaia determinat prin formulele prezentate este doar o estimaie a
ecuaiei care are loc la nivel de populaie. Prin urmare, ecuaia de regresie calculat
Y
e
= a + b X este estimaia modelului general Y
e
= + X. O discuie mai ampl
este prezent la lucrarea cu tema "modelul liniar", aici se prezint doar cteva
elemente.
Analiza distribuional este bazat pe ipoteza: pentru orice valoare fixat X
(variabila independent), Y (variabila dependent) este distribuit normal, cu aceeai
dispersie peste tot. Se demonstreaz atunci c repartiia de sondaj a fiecrui coeficient
de sondaj are ca medie valorile parametrilor: Exp(a) = , Exp(b) = .
Teste de semnificaie. Testul principal este acela al coeficientului lui X,
deoarece acesta conine informaia privind asocierea dintre Y i X. Ipotezele testului
(un test t) sunt:
H
0
: = 0
H
1
: 0
Dac nu se respinge H
0
, atunci legtura liniar dintre Y i X nu este
semnificativ, cea mai bun predicie este dat de media lui Y.
Valorile estimate de dreapta de regresie trebuiesc gndite ca medii ale
valorilor Y asociate cu un X particular. Altfel spus, dac am dispune de eantioane
repetate, mediile valorilor Y (corespunztoare valorii X) vor fi date de dreapta de
regresie.
Dac notm cu y
0
valoarea estimat corespunztoare lui x
o
, adic y
0
= a + b x
0
,
atunci abaterea standard a lui y
0
este
s(y
0
) = s

+
2
2
0
) (
) ( 1
x x
x x
n
i
,
unde s este abaterea standard a estimaiei.
Se poate construi atunci, pentru un prag de semnificaie fixat , intervalul de
ncredere pentru valoarea estimat:
(y
0
-t
1-/2;n-2
s(y
0
), y
0
+t
1-/2;n-2
s(y
0
))
Atunci cnd valorile x
0
sunt mai deprtate de media lui X, intervalul de
ncredere se mrete, prognoza este nsoit de erori mai mari. Prediciile pentru
valorile Y vor fi mai precise n apropiereas mediei lui X.
Coeficientul de corelaie (liniar)
Analiza de regresie este, n esen, o metod pentru a permite predicii, adic
s estimm o valoare a unei variabile Y atunci cnd dispunem de o valoare a
variabilei asociate X. Totui, de multe ori n aplicaii, cercettorii nu sunt interesai
sau nu cunosc care variabil este independent, care dependent n sensul cerut de
practic. Ei sunt ns interesai ss tie dac dou variabile sunt asociate i gradul de
asociere.
O asemenea msur o furnizeaz coeficientul de corelaie, notat r. Acesta are
valori de la 1 la +1, o valoare nul indic lipsa de asociere, +1 arat o asociere
(corelaie) pozitiv perfect, o valoare de 1 arat o asociere negativ perfect.
Coeficientul de corelaie este definit prin
r =
( )( )



2 2
) ( ) (
) )( (
Y y X x
Y y X x
i i
i i
,
existnd, evident, i alte formule echivalente.
ntre cele dou analize, de regresie i de corelaie, legtura este dat de
rezultatul:
Dac ntre Y i X exist o relaie liniar perfect, adic
Y = X + , atunci coeficientul de corelaie este dat de =


egalitate ce arat c = 1, dac >0 i = -1 dac <0.
Rezultatul prezint o bun concordan cu aprecierile intuitive efectuate la
nceputul seciunii despre asocieri pozitive, negative etc.
B. Instrumente Excel, SPSS
Excel
Din uneltele Excel se prezint doar cele care in de reprezentrile grafice.
Componenta Regression (din Tools > Data Analysis) va fi prezentat n lucrarea
StatWork_8. Ca rezultat se va obine o diagram de tipul urmtor (formatrile sunt
orientative).
Graficul funciei
y = 3,33x + 6,92
R
2
= 0,73
-5
0
5
10
15
20
-4 -3 -2 -1 0 1 2 3 4

XY (scatter) (Diagrama de mprtiere, diagrama X-Y, grafic de funcie)
O diagram de mprtiere reprezint, ntr-un sistem ortogonal de axe de coor-
donate, punctele determinate de perechile de valori (X
i
,Y
ji
), i = 1,,n, j = 1,,k. Cu
alte cuvinte, se reprezint k serii de numere Y
j
, j = 1,,k,
fiecare valoare fiind considerat drept ordonata unui
punct. Abscisele punctelor, X
i
,

i = 1,,n, sunt date ca o
serie separat, dar sunt aceleai pentru toate seriile Y.
Pentru a obine un asemenea grafic, n primul pas
al utilitarului Insert > Chart (activat i din bara de unelte
Standard), se alege tipul XY(Scatter). n figura alturat
sunt subtipurile disponibile de diagrame X-Y.
Desenele din coloana A difer de cele din coloana
B prin aceea c sunt marcate punctele reprezentate.
Desenele de pe linii difer dup modul de unire a
punctelor care aparin aceleeai serii de date. Linia a doua
de desene unete punctele prin linii netezite (curbe), n
timp ce desenele de pe ultima linie are punctele unite prin
segmente.
Observaie. Punctele sunt unite n ordinea n care
apar n seria numeric. Prin urmare, dac perechile de puncte nu sunt n ordinea
cresctoare a absciselor (X), ceea ce se obine la unirea punctelor este o linie haotic,
fr nimic din graficul de funcie la care ne ateptm. Pentru aceasta se vor sorta mai
nti datele n ordinea cresctoare a valorilor X.
Diagrame X-Y.
A B
Diagrama din primul subtip este utilizat pentru studiul asocierii dintre
variabila X i variabilaY. Dispunerea ascendent sau descendent a norului de puncte
obinut ofer informaii asupra existenei i formei asocierii ntre variabile.
Interpretrile reprezentrilor X-Y de forma puncte unite ntre ele sunt cele
uzuale pentru graficele de funcie: maxime, minime, ritm de cretere, ritm de
descretere, care serie are valori mai mari, cine depete pe cine etc.
Observaie. Trebuie s se fac distincie ntre diagramele de tip linie i cele de
tip X-Y. Se poate ns considera c, pentru valori numerice, diagramele de tip linie au
o variabil X implicit: seria 1,2, sau o serie temporal.
Add Trendline (meniul Chart)
Permite figurarea pe grafic a trendului variabilei selectate. Exist mai multe
tipuri de modele pentru calcularea tendinei datelor, dar opiunea nu este activ dect
pentru anumite serii de date numerice. Opiunea poate fi activat din meniul Chart
(existent pe bara de meniuri doar dac este selectat o diagram) sau din meniul
contextual asociat unei serii numerice. Dialogul iniiat este organizat pe dou fie,
reprezentate n figurile urmtoare.
Fia Add Trendline Type permite selectarea modelului utilizat pentru
determinarea tendinei generale a seriei numerice. Sunt disponibile principalele
modele utilizate n calculele economice sau tehnice.

Linear modelul liniar (regresia simpl), y = a + bx.
Polynomial modelul polinomial de ordin 2, 3, 4, 5, sau 6,
y = a
0
+ a
1
x
1
+ a
2
x
2
+ + a
k
x
k
.
Logarithmic modelul logaritmic: y = a + b ln x.
Exponential modelul exponenial: y = a e
bx
.
Power modelul putere: y = a x
b
.
Moving Average modelul de tip MA (medii glisante), n care se calculeaz o
serie nou cu valori obinute ca medie aritmetic a valorilor din seria iniial:
y
n
= (x
n
+ x
n-1
+ + x
n-k+1
)/k, unde k este ordinul modelului. Este modelul prin
care se elimin influenele pe termen foarte scurt sau scurt.
Pentru o alegere corect se poate utiliza informaia cunoscut din cercetri
anterioare sau cea furnizat vizual de aspectul norului de puncte.
Zona Order este activ pentru modelul polinomial (stabilete ordinul modelului,
maxim 6), iar zona Period este activ pentru modelul Moving Average
(stabilete ordinul modelului cte elemente contribuie la calculul mediei
aritmetice).
n zona Based on series se indic seria (dintre cele reprezentate) pentru care se
estimeaz prin metoda celor mai mici ptrate modelul selectat.
Ca efect al procedurii de adugare a liniei de trend, n grafic se va afia, ca o
linie separat, seria ipotetic obinut prin calcularea trendului. Aceast linie poate fi
formatat ca orice alt obiect grafic (se selecteaz, se aplic meniul Format etc.).
Fia Add Trendline Options este prezentat n figura urmtoare i permite
definirea altor atribute ale liniei de trend.

n grupul de opiuni Trendline name se poate ataa liniei o denumire proprie
(butonul radio Custom i tastarea numelui n zona rezervat) sau se alege
denumirea implicit (butonul radio Automatic).
n grupul de opiuni Forecast se poate indica numrul de perioade (valori) pentru
care se efectueaz prognoze, att n viitor (Forward), ct i n trecut
(Backward). Este suficient s se nscrie o valoare diferit de zero n zona
contor alocat i seria de trend se va extinde corespunztor.
Set intercept = permite fixarea valorii termenului liber al modelului la o valoare
cunoscut (opiune util pentru anumite tipuri de regresii). Se va marca boxa
de control i se va trece valoarea termenului liber.
Display equation on chart marcarea boxei de control are efectul trecerii pe
grafic a ecuaiei estimate.
Display R-squared value on chart este util pentru afiarea coeficientului de
determinare R
2
(= ptratul coeficientului de corelaie multipl), interpretabil n
analiza de regresie.
SPSS
Scatterplot
Diagrama de mprtiere (scatterplot dup denumirea utilizat n SPSS)
presupune, uzual, c variabila dependent este pe axa vertical (Oy) iar variabila
independent este pe axa orizontal.
Pentru a obine o diagram de mprtiere se utilizeaz comanda Graphs >
Scatter... Se va afia dialogul:

Pentru diagrama de mprtiere (relaia dintre dou variabile) se alege varianta
Simple. Dup acionarea butonului Define se afieaz dialogul de fixare a variabilelor
i a opiunilor asociate.

Se va trece variabila dependent n zona Y Axis i variabila independent n
zona X Axis. Se pot diferenia (prin marcaje diferite) observaiile care aparin la
diverse grupuri dac se trece variabila care face diferena n zona Set Markers by.
Titlurile se pot aduga prin deschiderea dialogului Titles. Acionarea butonului OK va
produce trasarea graficului, obiect n fiierul de ieire.
Abia dup obinerea diagramei se pot fixa alte atribute de formatare prin
iniierea editrii diagramei. Prin urmare, dublu click pe diagrama va deschide
fereastra de editare:

n aceast fereastr, prin dublu click pe un element se deschid dialoguri
specializate de formatare. Comanda Chart > Options conduce la afiarea dialogului:

n acest dialog, se pot marca casetele din grupul Fit Line, care vor produce
trasarea dreptelor de regresie pe total sau/i pe grupuri.Opiunile disponibile pentru
trasarea dreptelor de regresie se gsesc n dialogul Fit Options:

Pentru trasarea dreptelor de regresie se va selecta opiunea Linear regression i
se poate cere includerea sau nu a constantei n regresie, afiarea coeficientului de
determinare etc.
Dreapta de regresie
Principalul dialog pentru estimarea unui model liniar se obine prin Analyze
Regression Linear.
In aceast lucrare se vor preciza doar acele elemente care sunt necesare pentru
estimarea dreptei de regresie (ecuaia de regresie simpl). Lucrarea urmtoare va
conine explicaiile complete ale dialogurilor SPSS implicate n estimarea i
analizarea modelului liniar.

n Dependent se va transfera variabila dependent. Variabila independent
(unic n cazul regresiei simple) se transfer n Independent(s), n zona Method se
fixeaz ca metod Enter.
Butonul Statistics deschide dialogul sinonim n care se pot preciza statisticile
calculate. Unele opiuni sunt selectate i n mod implicit.

Estimates coeficienii estimai, Confidence intervals intervalele de
ncredere ale coeficienilor, Model fit calcularea statisticilor R, R
2
i a tabelului
ANOVA, R squared change modificrea coeficientului de determinare i testarea
semnificaiei schimbrii la adugarea fiecrui bloc de variabile, Descriptive
statisticile eseniale pentru fiecare variabil, n zona Residuals se produce o analiza a
reziduurilor pentru a putea decide asupra normalitii acestora i a diagnostica valorile
aberante.
Dintre tabelele de rezultate sunt prezentate n continuare doar cele importante
n cazul regresiei simple:


Tabelul Model Summary conine informaiile care privesc coeficientul de
corelaie i eroarea standard a estimaiei. De remarcat coeficientul de determinare R
2

care exprim ct la sut din variana variabilei dependente este explicat de ecuaia de
regresie.

n tabelul ANOVA, informaia important este statistica F cu ajutorul creia se
testeaz semnificaia global a variabilelor independente (doar una n cazul regresiei
simple, procedura capt substan n cazul regresiei multiple). Pe coloana Sig. este
afiat probabilitatea crritic a testului, astfel c dac Sig < se respinge ipoteza
lipsei de semnificaie a variabilelor independente n favoarea ipotezei c modelul
regresional este unul semnificativ. Se mai spune c testul este un test de semnificaie
asupra lui R
2
.

Tabelul Coefficients conine informaiile privind coeficienii: coloana B -
valoarea coeficientului, Std. Error - eroarea standard a coeficientului (abaterea
standard n distribuia de sondaj a coeficientului), Beta - valoarea coeficientului
standardizat (arat cu cte abateri standard se modific Y dac X se modific cu o
abatere standard), t - statistica testului de semnificaie a coeficientului, Sig. -
probabilitatea critic a testului. Prin urmare, un coeficient este semnificativ (diferit de
zero n ecuaia de regresie) dac Sig < .
Pentru exemplul din tabel se poate scrie ecuaia de regresie simpl
Y = - 0.157 X + 39.855, toi coeficienii fiind semnificativi statistic.
C. Lucrarea practic
1. Exist o anumit eviden c prevenirea atacurilor de inim este ajutat de
un consum moderat de vin. n tabelul urmtor sunt prezentate date statistice din 1994
privind aceast problem (consumul de alcool in litri/persoana, decesele sunt
anuale/100000 locuitori).
- S se realizeze o diagram de mprtiere i s se descrie forma relaiei dintre cei
doi indicatori.
- Exist asociere ntre cei doi indicatori?
- S se calculeze coeficientul de corelaie dintre cei doi indicatori.
ara
Alcool
din vin
Decese datorate
afectiunilor cardiace
Australia 2.5 211
Austria 3.9 167
Belgia 2.9 131
Canada 2.4 191
Danemarca 2.9 220
Finlanda 0.8 297
Franta 9.1 71
Islanda 0.8 211
Irlanda 0.7 300
Italia 7.9 107
Olanda 1.8 167
Noua Zeelanda 1.9 266
Norvegia 0.8 227
Spania 6.5 86
Suedia 1.6 207
Elvetia 5.8 115
Marea Britanie 1.3 285
ara
Alcool
din vin
Decese datorate
afectiunilor cardiace
SUA 1.2 199
Germania 2.7 172
2. Urmtorul tabel conine rezultatele dintr-o statistic oficial privind
cheltuielile pentru buturi alcoolice i produse de tutun n 11 regiuni ale Marii
Britanii.
- S se realizeze o diagram de mprtiere i s se descrie forma relaei dintre cei
doi indicatori.
- Exist asociere ntre cei doi indicatori? S se calculeze coeficientul de corelaie.
- S se recalculeze coeficientul de corelaie doar pentru primele 10 regiuni i s se
interpreteze rezultatul.
regiunea alcool tutun
North 6.47 4.03
Yorkshire 6.13 3.76
Northeast 6.19 3.77
East Midlands 4.89 3.34
West Midlands 5.63 3.47
East Anglia 4.52 2.92
Southeast 5.89 3.2
Southwest 4.79 2.71
Wales 5.27 3.53
Scotland 6.08 4.51
Northern Ireland 4.02 4.56
3. Un cercettor este interesant s specifice relaia dintre indicele de
inteligen (IQ) i rezultatul la un examen (msurat pe o scal cu 100 de puncte).
Datele obinute de la un numr de subieci sunt:
Student IQ Scor Student IQ Scor
1 110 42.5 7 127 70.5
2 112 53 8 130 60
3 118 46 9 132 81
4 119 61.75 10 134 70.5
5 122 70.5 11 136 77.5
6 125 56.5 12 138 88
- S se studieze asocierea celor dou variabile, IQ i scor.
- Ct din variana scorurilor poate fi atribuit variabilei IQ?
- S se estimeze i s se valideze dreapta de regresie care aproximeaz IQ ca o
funcie de scor, IQ = a scor + b.
- S se estimeze i s se valideze dreapta de regresie care aproximeaz scorul
ca o funcie de IQ, scor = a IQ + b.
- Ce relaie este ntre cele dou ecuaii?
- Se poate renuna la examen n sensul c nota se poate obine din ultima
ecuaie estimat tiind IQ-ul studentului?
4. Se va deschide n SPSS fiierul Catalog.sav din fiierele de test
(SPSS/Tutorial/Sample files/) sau prin descrcare din pagina cursului. Fiierul conine
date privind rezultatele unor campanii publicitare. Se va estima relaia liniar (sau una
care poate fi liniarizat) dintre variabilele men, women i jewel ca variabile
dependente i variabilele mail, page, phone, print i service ca variabile independente.
Statistic multivariat
Lucrarea nr. 8 Regresia liniar multipl
- Excel, SPSS -
A. Noiuni teoretice
Regresia liniar, prin metoda celor mai mici ptrate, este metoda de modelare
cea mai des utilizat. Este metoda denumit regresie, regresie liniar, regresie
multipl sau cele mai mici ptrate atunci cnd se construiete un model.
Scopul regresiei multiple (termen utilizat de Pearson, 1908) este de a evidenia
relaia dintre o variabil dependent (explicat, endogen, rezultativ) i o mulime de
variabile independente (explicative, factoriale, exogene, predictori). Prin utilizarea
regresiei multiple se ncearc, adesea, obinerea rspunsului la una dintre ntrebrile:
care este cea mai bun predicie pentru ?, cine este cel mai bun predictor
pentru ? .
De reinut c metoda regresiei multiple este generalizat prin teoria
modelului liniar general, n care se permit mai multe variabile dependente simultan
i, de asemenea, variabile factoriale care nu sunt independente liniar.
Clasa modelelor liniare poate fi exprimat prin
y = x +
unde
y este variabila dependent (explicat, endogen, rezultativ),
x este vectorul variabilelor independente (explicative, exogene), de
dimensiune 1p,
este vectorul coeficienilor, de dimensiune p1, parametrii modelului,
este o variabil, interpretat ca eroare (perturbare, eroare de msurare
etc.).
Cu alte cuvinte,
y =
1
x
1
+
2
x
2
++
p
x
p
+
care exprim relaia liniar dintre y i x.
Observaii. 1. Liniaritatea relaiei se refer la coeficieni i nu la variabile.
Astfel, modelul
+ + + =
3
3 2 2
2
1 1
1
y
x
x x
este tot un model liniar.
2. Considernd c x
1
este constant egal cu 1, se obine un model liniar care
include un termen constant (termenul liber al modelului).
3. Pentru p = 2 i x
1
1 se obine modelul liniar simplu, dreapta de regresie.
4. Utilitatea principal a unui model liniar este aceea a prediciei valorii lui y
din valorile cunoscute ale variabilelor x.
Presupunem c avem un set de n observaii efectuate asupra variabilelor
implicate n model. Prin urmare dispunem de (x
i1
, x
i2
, . . . . , x
ip
, y
i
), i = 1, 2, . . . , n.
Notnd cu y vectorul de tip n1 avnd drept componente valorile msurate pentru
variabila y, cu X matricea (x
ij
)
np
a valorilor msurate pentru variabilele x i cu
vectorul de tip n1 avnd drept componente valorile erorilor, modelul se rescrie n
relaia matriceal:
y = X +

Ipoteze iniiale. n tot ceea ce urmeaz se presupun ndeplinite ipotezele:
1. Matricea de experiene, n observaii pentru p variabile, este fixat: X
np
nu
este stohastic. n plus, n >> p.
2. X este de rang p (coloanele sunt liniar independente formeaz o baz a
unui spaiu vectorial p-dimensional).
3. a. Vectorul de perturbaii (n-dimensional) const din n variabile
aleatoare independente cu media 0 i aceeai dispersie:
Exp() = 0
Var() = Exp(') =
2
I
n
, unde
2
este un parametru necunoscut,
sau,
b. Vectorul este o v.a. n-dimensional normal
~ N(0,
2
I
n
).
De remarcat c ultima ipotez, a normalitii, este, mai degrab, o ipotez
simplificatoare dect una restrictiv, cum sunt primele dou. Aceasta deoarece erorile
se datoreaz, n general, n procesele studiate, aciunilor simultane ale unor factori
aleatorii, ceea ce prin teorema de limit central conduce la concluzia c , ca sum a
lor, tinde spre o repartiie normal.
Problemele principale urmrite sunt:
estimarea coeficienilor ,
calitatea estimrii,
verificarea ipotezelor,
calitatea prediciei,
alegerea modelului.
Estimaia prin cele mai mici ptrate
Numim estimaie (ajustare) a modelului orice soluie {a, e} a sistemului
y = Xa + e.
Este de remarcat c sistemul conine n ecuaii i p + n necunoscute, deci
admite o infinitate de soluii.
Numim estimaie prin cele mai mici ptrate, acea soluie a care minimizeaz
suma ptratelor erorilor e
i
, adic

= =
+ + + =
n
i
ip p i i i
n
i
i
x a x a x a y e
1
2
2 2 1 1
1
2
)] ( [ K .
Cum e e =

=
2
1
2
i
i
e este o funcie de coeficienii a, o condiie necesar pentru
atingerea maximului este
0 ) ( =

e e
a
.
Se obine
a = (X'X)
-1
X'y
i se demonstreaz c este ndeplinit criteriul de minim i c este singura valoare cu
aceast proprietate adic valorile determinate reprezint estimaia prin cele mai mici
ptrate a coeficienilor modelului liniar.
Ecuaia
y = a
1
x
1
+ a
2
x
2
+ + a
p
x
p

se numete ecuaia de regresie multipl.
nlocuind n aceast relaie valori pentru variabilele independente x
i
se obine
valoarea prognozat pentru variabila dependent y.
Interpretarea coeficienilor
Un coeficient a
i
are interpretarea: modificarea cu 1 a valorii variabilei x
i

produce o modificare a valorii y cu a
i
uniti. Deoarece scalele de msur sunt, n
general, diferite, interpretarea n acest sens a coeficienilor poate deforma imaginea
importanei variabilelor independente n model. Din acest motiv se introduc
coeficienii de regresie standardizai definii drept coeficienii de regresie estimai ai
modelului:
p p
x x x y
~ ~ ~ ~
2 2 1 1
+ + + = K
n care nu exist termen liber, iar variabilele y
~
i
i
x
~
sunt variabilele standardizate,
prin standardizare nelegndu-se transformarea de tipul
x
s
x x
x

=
~
.
Coeficienii de regresie standardizai au interpretarea: modificarea cu o abatere
standard a valorii variabilei x produce o modificare cu
i
abateri standard a valorii
variabilei dependente. n acest fel, mrimea coeficienilor standardizai reflect
importana variabilelor independente n predicia lui y.
Distribuia estimatorului
Exp(a) =
Var(a) =
2
(X'X)
-1
.
Estimaia dispersiei erorilor (
2
)
Notnd cu valoarea ajustat, dat de ecuaia de regresie, pentru o realizare a
vectorului x, considerat la estimarea parametrilor, se obine eroarea de ajustare,
notat cu e:
e
i
= y
i
-
i
, i = 1,,n.
Erorile de ajustare sunt denumite uzual reziduuri i analiza lor este o parte
important studiului calitativ al ecuaiei de regresie. Este evident c reziduurile
constituie estimaii ale erorilor . Se demonstreaz c
p n
y y
s
n
i
i i

=1
2
2
) (

este o estimaie nedeplasat a dispersiei necunoscute
2
. Este de notat c numitorul
este egal cu numrul gradelor de libertate a sumei de la numrtor (n observaii din
care am obinut p estimaii).
Precizia ajustrii
Reziduuri mici exprim o ajustare mai bun a datelor experimentale, dar
stabilirea unui criteriu care s indice ct de mici trebuie s fie reziduurile pentru ca
regresia s fie acceptat este o problem dificil.
Pentru a obine o msur a preciziei ajustrii se pleac de la identitatea
) ( ) ( y y y y y y
i i i i
=
care, prin reorganizarea termenilor, produce
). ( ) (
i i i i
y y y y y y + =
Se poate demonstra c are loc identitatea:
. ) ( ) ( ) (
2 2 2

+ =
i
i i
i
i
i
i
y y y y y y
Aceast relaie arat c variaia valorilor observate n jurul valorii medii se
descompune ntr-un termen ce exprim variaia valorilor estimate n jurul mediei i
ntr-un termen datorat reziduurilor ajustrii. Prin urmare, regresia estimat va fi cu
att mai bun cu ct ultimul termen va fi mai mic, sau cu ct variaia valorilor
estimate va fi mai apropiat de variaia valorilor observate. Se alege drept indicator
sintetic de precizie a ajustrii raportul
2
2
2
) (
) (

=
i
i
i
i
y y
y y
R .
Pentru o bun ajustare a ecuaiei de regresie la datele experimentale, trebuie ca
acest raport s fie apropiat de 1.
Cantitatea R
2
se numete coeficientul de determinare i, exprimat procentual,
arat ct din variana variabilei dependente este explicat de ecuaia estimat. Este un
indicator de asociere avnd atributul PRE,
2
2 2
2
) (
) ( ) (


=
i
i
i
i i
i
i
y y
y y y y
R

deci poate fi interpretat i n urmtorul sens: cu ct se mbuntete prognoza
valorilor y prin considerarea modelului estimat.
Se arat c R
2
crete prin includerea mai multor variabile n model, astfel nct
are loc o supraestimare n cazul modelelor extinse. O soluie propus este ajustarea
coeficientului de determinare prin
). 1 (
1
2 2 2
R
p n
p
R R

=
Coeficientul de corelaie multipl
Ca msur a asocierii dintre y i ansamblul variabilelor x se introduce
coeficientul de corelaie multipl, notat cu R. Poate fi definit drept coeficientul maxim
de corelaie simpl (Pearson) dintre y i o combinaie liniar de variabile x. Astfel se
explic faptul c valoarea calculat a lui R este ntotdeauna pozitiv i tinde s creasc
o dat cu mrirea numrului de variabile independente.
Metoda celor mai mici ptrate poate fi astfel gndit ca o metod care
maximizeaz corelaia dintre valorile observate i valorile estimate (acestea
reprezentnd o combinaie liniar de variabile x). O valoare R apropiat de 0 denot o
regresie nesemnificativ, valorile prognozate de regresie nefiind mai bune dect cele
obinute printr-o ghicire aleatorie (sau bazate doar pe distribuia lui y).
Deoarece R tinde s supraestimeze asocierea dintre y i x, se prefer
indicatorul definit anterior, coeficientul de determinare, R
2
, care este ptratul
coeficientului de corelaie multipl.
Testarea ipotezelor
Notm

= = =
i
i i rez
i
i reg
i
i g
y y SP y y SP y y SP
2 2 2
) ( , ) ( , ) (
cele trei sume de ptrate care apar n identitatea introdus la definirea coeficientului
de determinare. Sumele sunt referite ca suma ptratelor global (SP
g
), suma ptratelor
datorate regresiei (SP
reg
) i suma ptratelor reziduale (SP
rez
). Fiecare sum de ptrate
are ataat un numr de grade de libertate:
g
= n-1,
reg
= p-1,
rez
= n-p i se poate
realiza un tabel al analizei dispersionale (ANOVA) sub forma
Sursa
de variaie
Suma
de ptrate
Grade de
libertate
Media ptrat F
Regresie
SP
reg

reg
SP
reg
/
reg
= s
2
reg
F = s
2
reg
/ s
2

Rezidual
SP
rez

rez
SP
rez
/
rez
= s
2

Global
SP
g

g
SP
g
/
g

Testul F de semnificaie global
Primul test utilizat n analiza regresiei este un test global de semnificaie a
ansamblului coeficienilor (exceptnd termenul liber, dac acesta apare).
Ipotezele testului sunt
H
0
:
1
=
2
= =
p
= 0
H
1
: ()i, astfel nct
i
0.
n condiiile ipotezei nule, se demonstreaz c statistica F, calculat n tabelul
ANOVA, este repartizat Fisher-Snedecor F
p-1;n-p
, nct se poate verifica ipoteza nul.
Nerespingerea ipotezei nule duce la concluzia c datele observate nu permit
identificarea unui model liniar valid, deci regresia nu este adecvat n scopul de
prognoz, propus iniial.
Teste t
n situaia cnd este respins ipoteza nul, se accept c ecuaia de regresie
este semnificativ la nivel global, cu meniunea c s-ar putea ca anumii coeficieni s
nu fie semnificativi. Pentru testarea fiecrui coeficient se utilizeaz un test t cu
ipotezele:
H
0
:
i
= 0
H
1
:
i
0.
n condiiile ipotezei H
0
se arat c statistica
) (
i
i
i
a s
a
t = este repartizat Student
cu n p grade de libertate, ceea ce permite utilizarea testului t. n expresia care d
statistica testului, s(a
i
) este abaterea standard estimat a coeficientului, dat ca
rdcina ptrat din elementul corespunztor de pe diagonala principal a matricei
s
2
(XX)
-1
.
Nerespingerea ipotezei nule arat c datele experimentale nu permit stabilirea
necesitii prezenei variabilei x
i
n model, variabila este nesemnificativ n model.
Intervale de ncredere
Apar de interes dou tipuri de intervale de ncredere: pentru parametrii
modelului,
i
, i pentru valorile prognozate cu ajutorul modelului estimat.
Parametrii modelului
O regiune de ncredere, la nivelul , pentru ansamblul parametrilor este dat
de
( a)XX( a) ps
2
F
1-,p,n-p

Utiliznd repartiia statisticilor t
i
, definite la testarea semnificaiei
parametrilor, se demonstreaz c intervalul de ncredere pentru parametrul
i
,
i = 1, 2, , p, este dat la pragul de ncredere , de relaia
a
i
t
1-/2;n-p
s(a
i
)
1
a
i
+ t
1-/2;n-p
s(a
i
) .
Valorile prognozate
Utilitatea principal a modelului liniar este prognozarea valorilor variabilei
dependente. Valoarea prognozat este evident o statistic pentru c se obine prin
modelul estimat (din datele experimentale). Se poate atunci vorbi de repartiia de
sondaj a valorii prognozate, repartiie care st la baza determinrii intervalelor de
ncredere pentru valorile prognozate.
n estimarea intervalului de ncredere pentru o valoare y
0
= x
0
+
0
, se
distinge ntre situaiile n care observaia x
0
a fost, sau nu, utilizat la estimarea
coeficienilor (cu alte cuvinte, dac matricea X conine sau nu linia x
0
).
n primul caz, intervalul de ncredere pentru valoarea estimat este

0
t
1-/2;n-p
s
0
1
0
) ( x X X x

y
0

0
+ t
1-/2;n-p
s
0
1
0
) ( x X X x


unde
0
= x
0
a, este valoarea prognozat de ecuaia de regresie.
n al doilea caz, intervalul de ncredere este

0
t
1-/2;n-p
s 1 ) (
0
1
0
+

x X X x y
0

0
+ t
1-/2;n-p
s 1 ) (
0
1
0
+

x X X x .
n cazul regresiei simple (dreapta de regresie), ultimul interval de ncredere are
forma

0
t
1-/2;n-p
s

+
2
2
0
) (
) ( 1
x x
x x
n
i
y
0

0
+ t
1-/2;n-p
s

+
2
2
0
) (
) ( 1
x x
x x
n
i
,
de unde se obine concluzia c valorile prognozate au intervale de ncredere, la acelai
prag de ncredere, mai mari pe msur ce valoarea x
0
este mai deprtat de media x .
De aici apare recomandarea ca un model liniar s nu fie utilizat pentru prognoz n
cazul n care variabilele independente au valori deprtate de centrul datelor
considerate la estimarea modelului (de exemplu, estimarea trendului ratei de schimb
valutar din datele unei sptmni nu poate fi utilizat pentru a prognoza rata de
schimb de peste un an). n cazul unui sistem dinamic (valorile sunt produse/evaluate
n timp), prognoza se va realiza doar pentru cteva momente de timp, dup care are
loc o nou estimare a modelului etc.
Analiza reziduurilor
Analiza statistic a ecuaiei de regresie este bazat pe ipotezele Gauss-Markov
asupra erorilor ~ N(0,
2
I
n
). Valabilitatea acestor ipoteze, n special cea a
normalitii erorilor, poate fi testat prin analiza reziduurilor. Ca i n cazul testelor
statistice, concluziile analizei sunt de genul: ipoteza normalitii se respinge sau
ipoteza normalitii nu se respinge. Analiza reziduurilor este, n esen, de natur
grafic.
Calculul estimaiilor erorilor produce
e = Y
obs
-Y
est
= Y
obs
Xa = Y
obs
X(XX)
-1
XY
obs
= (1 X(XX)
-1
X)Y
obs

Notnd Z = X(XX)
-1
X = (z
ij
), rezult c, n cazul ndeplinirii ipotezelor
Gauss-Markov, dispersia reziduului e
i
este egal cu (1-z
ii
)
2
unde z
ii
sunt elementele
de pe diagonala principal a matricei Z, cu estimaia s
2
(e
i
) = (1-z
ii
)s
2
. Reamintim c
media reziduurilor este egal cu zero.
Ipotezele de repartiie a erorilor sunt reflectate n repartiia reziduurilor
(estimaii ale erorilor). Se analizeaz histograma reziduurilor sau diagrame ale
reziduurilor n raport de valorile estimate, de variabilele independente. Diagramele
construite n continuare pun n eviden eventualele abateri de la repartiiile presupuse
pentru erori, abateri ce vor exprima deviaiile de la ipotezele de repartiie a erorilor.
Diagrama reziduurilor
Deoarece ) ) 1 ( ; 0 ( ~
2

ii i
z N e , rezult c mrimile d
i
, i = 1,,n, date de
ii
i
i
z s
e
d

=
1

sunt repartizate N(0;1). Din acest motiv, mrimile d
i
sunt denumite reziduuri
normalizate.
Observaie. n practic, se neglijeaz uneori radicalul de la numitor.
Histograma mrimilor d
i
trebuie s reflecte o repartiie normal standard.
Atunci cnd n este relativ mic, histograma va prezenta, n general, mari neregulariti
fa de situaia care ar permite aproximarea cu o curb normal. Decizia referitoare la
proveniena, sau neproveniena, dintr-o repartiie normal se poate lua n acest caz, de
exemplu, n urma comparaiei cu histograme obinute pentru eantioane de acelai
volum n generate aleatoriu dintr-o repartiie normal standard.
Diagrama reziduuri valori estimate
Considernd punctele de coordonate (
i
,d
i
), i = 1,,n, reprezentate ntr-un
sistem de axe rectangulare, sunt posibile 4 situaii caracteristice, sau combinaii ale
lor, de regiuni ocupate de punctele considerate.


Cazul a) nu arat nici o abatere de la normalitate i nici o violare a ipotezei c
erorile au aceeai dispersie constant.
n cazul b), se constat o cretere a dispersiei, deci este invalidat ipoteza
constanei dispersiei erorilor. Practic, n aceast situaie se consider c modelul nu
conine o variabil esenial, cum ar fi timpul, sau c metoda de calcul adecvat este
metoda celor mai mici ptrate ponderate. n anumite situaii reale, situaia poate fi
rezolvat i printr-o transformare prealabil a datelor (de exemplu, prin logaritmare).
Cazul c) arat practic o eroare de calcul, deoarece este ca i cum nu s-ar fi
reuit explicarea unei componente liniare a variaiei variabilei dependente.
Cazul al patrulea, d), arat c modelul nu este adecvat datelor observate. Se
ncearc un nou model care s includ variabile de ordin superior, de genul x
2
, care s
preia variaia curbilinie, sau se transform n prealabil variabila y.
Observaie. Indiferent de forma regiunilor, punctele foarte deprtate de
celelalte ofer informaii despre observaiile aberante. Regula uzual este aceea ca
orice observaie pentru care |d
i
| > 3 s fie considerat o observaie aberant. Practic, n
acest caz, observaiile aberante se vor exclude din setul de date sau, dac observaiile
a) b)
d)
c)
sunt totui de interes, se va ncerca obinerea unor determinri suplimentare n
regiunea de interes. n ambele situaii se va reface calculul regresiei.
Diagrama reziduuri variabil independent
Se vor reprezenta grafic punctele de coordonate (x
ji
,d
i
), i = 1,,n, pentru
fiecare variabil independent x
j
.
Cele patru situaii grafice possibile se interpreteaz similar, cu observaia c
situaia d) impune introducerea n model a variabilei x
j
ridicat la o putere.
Multicoliniaritatea
Situaia descris drept multicoliniaritate apare atunci cnd un grup de variabile
independente sunt puternic corelate ntre ele. n acest caz, prin includerea n model a
unei variabile din grup, restul variabilelor din grup nu mai aduc o informaie
semnificativ. Simultan are loc o supraevaluare a coeficientului de determinare, ca i
a dispersiilor coeficienilor estimai, ceea ce poate denatura interpretarea modelului i,
n plus, produce mrirea intervalelor de ncredere.
Apar astfel dou probleme: determinarea multicoliniaritii i cum trebuie
procedat n cazul existenei multicoliniaritii.
Detectarea multicoliniaritii
Cea mai simpl metod de detectare a multicoliniaritii este bazat pe studiul
matricei de corelaie dintre variabilele x. Se pot determina astfel perechile de variabile
independente care sunt puternic corelate ntre ele. O structur mai complex a
intercorelaiilor poate fi detectat prin calcularea determinantului acestei matrice de
corelaie. O valoare apropiat de zero a determinantului reflect o puternic corelaie
ntre anumite variabile, deci existena multicoliniaritii.
O alt abordare a problemei este aceea a stabilirii unui indicator sintetic pentru
a decide dac o variabil este coliniar cu celelalte (sau cu un grup dintre celelalte).
Notnd cu
2
i
R coeficientul de determinare obinut la estimarea regresiei multiple
avnd ca variabil dependent pe x
i
i ca variabile independente restul variabilelor x,
adic
) , , , , , , (
1 1 2 1 p i i i
x x x x x f x K K
+
=
se introduce tolerana variabilei x
i
prin
2
1
i i
R = .
O valoare mic a lui
i
(uzual mai mic dect 0,1) reflect un coeficient
2
i
R
apropiat de 1, deci o legtur liniar puternic ntre x
i
i restul variabilelor
independente. Prin urmare x
i
este coliniar cu celelalte variabile independente.
Se definete factorul de inflaie a varianei, notat VIF, inversul toleranei:
i
i
VIF

1
= .
Denumirea provine din aceea c un asemenea factor apare multiplicativ n
definirea varianei coeficienilor estimai (se poate spune c se msoar de cte ori
este supraevaluat variana coeficienilor datorit multicoliniaritii n raport cu
situaia cnd nu ar exista coliniaritate). Interpretarea este dedus din cea a toleranei: o
valoare VIF mare (uzual mai mare dect 10), denot coliniaritate.
Eliminarea multicoliniaritii
O rezolvare comun a problemei multicoliniaritii este aceea ca dintre dou
variabile independente corelate s se rein n model doar una.
Prin interpretarea toleranelor sau a factorilor de inflaie se vor exclude din
model acele variabile care au tolerane mici (sau factori de inflaie mari).
Cea mai bun regresie
Procesul de selectare a celei mai bune regresii are loc n contextul n care
exist o variabil dependent y i o mulime de variabile independente posibile x.
Problema poate fi formulat:
Care este acea submulime minimal de variabile independente
care permite estimarea unui model liniar semnificativ i
adecvat valorilor observate y?
Etapele selectrii celei mai bune regresii
1. Se identific toate variabilele independente posibile (cu alte cuvinte se
specific modelul maxim).
2. Se specific criteriul de selectare a celei mai bune regresii.
3. Se specific o strategie pentru selectarea variabilelor independente.
4. Se realizeaz estimarea i analiza modelului.
5. Se evalueaz reliabilitatea modelului ales.
Strategii de selectare a celui mai bun model
Metoda tuturor regresiilor posibile
Se estimeaz toate regresiile posibile.
Se rein valorile coeficienilor de determinare; gruparea este dup cardinalul
mulimii de predictori.
Variabile independente R
2
{x
1
}, {x
2
}
{x
1
,x
2
}, {x
1
,x
3
}, , {x
n-1
,x
n
}

{x
1
,x
2
,,x
n
}
Se analizeaz valorile R
2
i se reine acea submulime de variabile pentru care
se realizeaz compromisul acceptabil ntre numrul de variabile i mrimea
coeficientului de determinare.
Selecia prospectiv
Procedura ncepe prin includerea n model a variabilei independente avnd cel
mai mare coeficient de corelaie cu variabila y. La fiecare pas urmtor, se analizeaz
fiecare dintre variabilele neincluse nc n model printr-un test F secvenial i se
extinde modelul prin includerea acelei variabile care aduce o contribuie maxim
(probabilitatea critic din testul F este cea mai mic). Procesul se oprete atunci cnd
modelul nu mai poate fi extins, criteriul uzual fiind acela al fixrii un prag de intrare
(P
IN
) i acceptnd doar variabilele pentru care probabilitatea critic n testul F
secvenial este mai mic sau egal cu acest prag.
Procedura are ca limitri faptul c anumite variabile nu vor fi incluse n model
niciodat, deci importana lor nu va fi determinat. Pe de alt parte, o variabil inclus
la un anumit pas rmne permanent n model, chiar dac, prin includerea ulterioar a
altor variabile, importana ei poate s scad.
Selecia retrograd
Se ncepe cu estimarea modelului complet i apoi, ntr-un numr de pai
succesivi, se elimin din model variabilele nesemnificative. La fiecare pas, pe baza
unui test F parial, se elimin acea variabil care are cea mai mare probabilitate
critic. Procesul se oprete atunci cnd nici o variabil nu mai poate fi eliminat.
Criteriul uzual este acela de fixare a unui prag de eliminare (P
OUT
) i considerarea
doar a variabilelor care au probabilitatea critic mai mare dect acest prag.
Selecia pas cu pas
Procedura pas cu pas (stepwise regression) este o combinaie a celor dou
metode descrise anterior. La un pas ulterior al regresiei prospective se permite
eliminarea unei variabile, ca n regresia retrograd. O variabil eliminat din model
devine candidat pentru includerea n model, iar o variabil inclus n model devine
candidat la excludere. Pentru ca procesul s nu intre ntr-un ciclu infinit, trebuie ca
P
IN
P
OUT
.
B. Instrumente Excel, SPSS
Excel
REGRESSION
Estimarea coeficienilor unui model liniar prin metoda celor mai mici ptrate
i calculul statisticilor necesare testelor statistice asociate sunt efectuate de procedura
Regression, una dintre cele mai complexe din pachetul de prelucrri statistice din
Excel. Procedura permite i construirea graficelor necesare pentru aprecierea vizual a
potrivirii modelului liniar. Dei acestea, din motive evidente, necesit prelucrri
suplimentare de scalare nainte de interpretare, existena lor este un real ajutor pentru
statistician.
Termeni
Modelul liniar estimat de procedur
este
Y =
0
X
0
+
1
X
1
+
2
X
2
+ +
p-1
X
p-1
+ ,
care exprim faptul c variabila Y se poate
obine ca o combinaie liniar a variabilelor
X
0
, X
1
,, X
p-1
la care se adaug o "eroare" .
Pentru estimarea parametrilor
modelului se consider disponibile n
observaii asupra tuturor variabilelor din
model. Valorile sunt structurate ca un tablou
dreptunghiular, fiecare variabil ocupnd o
coloan (deci o linie este referit drept o
observaie).
Dialogul procedurii Regression este
prezentat n figura urmtoare.
Input
Input Y Range se precizeaz domeniul (coloana) pe care se afl valorile variabilei depen-
dente.
Input X Range se precizeaz domeniul pe care se afl valorile tuturor variabilelor
independente. Acest domeniu trebuie s fie compact, fiecare variabil X
i
ocupnd o
coloan.
Labels se marcheaz boxa de control n cazul n care prima linie din tabloul de date este cu
denumirile variabilelor (situaie recomandat).
Constant Is Zero se marcheaz boxa de control dac modelul care se estimeaz este fr
termen liber.
Confidence Level se precizeaz, procentual, sigurana statistic dorit n raportarea
intervalelor de ncredere deci valoarea (1)100, unde este pragul de semnificaie.
Intervalele obinute sunt suplimentare, ntotdeauna afindu-se cele pentru = 0,05. Boxa
se va marca doar dac se dorete i un alt prag de semnificaie.
Out put opt i ons
Output Range, New Worksheet Ply, New Workbook Precizeaz zona unde se vor nscrie
rezultatele. Zona de rezultate este foarte complex, cuprinde tabele care depind de
mrimea modelului, de numrul de observaii, de numrul graficelor dorite etc. Prin
urmare se va prefera o foaie de calcul nou sau o zon liber n dreapta i n jos.
Resi dual s
Residuals se marcheaz boxa de control n cazul cnd se dorete calcularea reziduurilor
modelului estimat.
Residual Plots se marcheaz boxa de control n cazul cnd se dorete obinerea diagramelor
reziduuri variabil independent, adic vizualizarea punctelor de coordonate
(x
ij
, r
j
), j = 1,n, avnd ca abscis o valoare a variabilei independente X
i
, iar ca ordonat
reziduul corespunztor.
Standardized Residuals aceast box de control se va marca dac se dorete calculul
valorilor standardizate ale reziduurilor. Valorile astfel obinute provin, teoretic, dintr-o
distribuie normal standard, astfel nct o histogram a acestor valori trebuie s se
apropie de curba normal (clopotul lui Gauss).
Line Fit Plots se marcheaz aceast box de control dac se dorete afiarea diagramelor Y
variabil independent, prin care se vizualizeaz, pe un acelai grafic, punctele de
coordonate (x
ij
, y
obs,i
), (x
ij
, y
est,i
), j = 1,,n, unde abscisele sunt valorile variabilei
independente, iar ordonatele sunt valorile observate i cele estimate ale variabilei
dependente. Este desenat cte un grafic pentru fiecare variabil independent.
Interpretarea acestor diagrame poate oferi indicaii asupra adecvanei modelului, asupra
valorilor aberante.
Normal Probabi l i t y
Normal Probability Plots se marcheaz dac se dorete vizualizarea repartiiei de sondaj a
variabilei Y ntr-o reea de probabilitate.
Exempl u
Un set de date cuprinde 25 de observaii asupra a 4 variabile, notate Y (considerat
variabila dependent) i X
1
, X
2
, X
3
(considerate variabile independente). Valorile i
denumirile ocup n foaia de calcul un domeniu dreptunghiular continuu, B2:E27, valorile Y
ocupnd prima coloan.
Pentru a estima modelul liniar
Y =
0
+
1
X
1
+
2
X
2
+
3
X
3
+ ,
cu termen constant, se apeleaz procedura Regression.
a) Un prim tabel de rezultate, prezentat n figura alturat, conine statisticile
generale ale ecuaiei de regresie.
Multiple R coeficientul multiplu de corelaie.
R Square coeficientul de determinare (este egal cu ptratul
coeficientului de corelaie multipl). Poate fi gndit,
exprimat procentual, drept proporia din variaia
variabilei dependente explicat de variaia variabilelor
independente: 60,7% din variaia lui Y este explicat de
variabilele X.
Adjusted R Square valoarea corectat a coeficientului de
determinare. Este introdus pentru a contracara (parial)
efectul creterii mecanice a lui R
2
o dat cu numrul variabilelor independente.
Standard Error eroarea standard a estimaiei. Se calculeaz ca abaterea standard a
reziduurilor (pentru numrul gradelor de libertate utilizat se va vedea tabloul ANOVA, n
continuare) i este estimaia abaterii standard a erorilor (n ipoteza normalitii
acestora).
Observations numrul de observaii din eantion.
b) Al doilea tabel de rezultate cuprinde tabloul de analiz a varianei asociat regresiei
estimate.

Coloanele acestui tablou au semnificaiile uzuale ntr-un tablou ANOVA:
Sursa de variaie arat descompunerea variaiei totale n variaia explicat de regresie i cea
rezidual (neexplicat).
df numrul gradelor de libertate: 3 = p 1, 21 = n p, 24 = n 1, unde p = 4 este numrul
parametrilor modelului (trei variabile X plus termenul liber) iar n = 25 este numrul de
observaii.
SS sumele de ptrate potrivit descompunerii
Suma global
de ptrate
=
Suma de ptrate
datorat regresiei
+
Suma de ptrate
rezidual
MS media sumelor de ptrate: SS mprit la numrul respectiv de grade de libertate.
Valoarea de pe linia a doua (Residual) este estimaia dispersiei pentru repartiia erorilor i
este ptratul erorii standard a estimaiei.
F valoarea statisticii F pentru testul caracterizat de
H
0
:
1
=
2
=
3
= 0
H
1
: exist cel puin un coeficient
i
diferit de zero.
Acest test se refer la ansamblul variabilelor independente (este de remarcat c H
0
nu se
extinde i asupra termenului liber). Datorit nelesului ipotezei nule, se consider c prin
acest test se verific semnificaia ntregii regresii.
Significance F este probabilitatea critic unilateral. Dac valoarea afiat este mai mic
dect pragul de semnificaie fixat, atunci se respinge ipoteza nul n favoarea ipotezei
alternative.
c) Al treilea tablou de rezultate conine valorile estimate pentru coeficienii modelului,
precum i statisticile necesare verificrii ipotezelor uzuale asupra coeficienilor. De remarcat
c, spre deosebire de testul F, testele asupra coeficienilor sunt individuale.

Liniile tabelului se refer la variabilele din model, incluznd i termenul liber.
Coloanele tabelului sunt urmtoarele:
(prima coloan) sunt afiate denumirile existente n tabloul de date sau create automat
pentru variabilele independente implicate. Intercept este denumirea pentru termenul liber
(constant) al modelului.
Coefficients conine valorile estimate ale coeficienilor. Din valorile afiate rezult c
modelul estimat n exemplu este
Y = 11,718 1,443*X
1
+ 3,135*X
2
0,324*X
3
.
n ipotezele distribuionale ale modelului liniar, valorile calculate ale coeficienilor provin
din repartiii normale, fiind astfel posibile verificri statistice ale coeficienilor.
Standard Error eroarea standard a coeficientului (abaterea standard a repartiiei
coeficientului).
t Stat statistica t pentru verificarea ipotezei H
0
:
i
= 0 contra ipotezei alternative H
1
:
i
0.
n condiiile ipotezei nule se demonstreaz c raportul dintre coeficient i eroarea
standard a coeficientului urmeaz o repartiie Student cu (n p) grade de libertate. Acest
raport este tocmai valoarea raportat drept t Stat. Adic 2,161 = 11,718/5,421 etc.
Utilizarea statisticii este cea uzual.
P-value probabilitatea critic bilateral a testului t cu ipotezele precizate la t Stat. Pentru
pragul de semnificaie = 0,05 se poate respinge ipoteza de nulitate a termenului liber
(0,042 < 0,05) i a coeficienilor
1
i
2
(0,002 i 0,000 sunt mai mici dect 0,05). Nu se
poate respinge ipoteza nul privind coeficientul
3
(0,069 > 0,05).
Lower 95%, Upper 95% limitele inferioar i superioar ale intervalului de ncredere pentru
parametrul respectiv. Limitele la pragul 0,05 sunt calculate automat, indiferent de
iniializarea procedurii Regression.
Se poate deci interpreta c, n populaie, parametrii modelului liniar sunt cuprini n
intervalele urmtoare:
0,444 <
0
< 22,992
2,271 <
1
< 0,615
...
Se poate observa c ultimul interval cuprinde i valoarea zero, prin urmare se regsete
concluzia privind nerespingerea ipotezei nule H
0
:
3
= 0.
d) Studiul reziduurilor se poate face pe baza datelor raportate n tabelul alocat
reziduurilor, tabel avnd structura urmtoare:

Pentru fiecare observaie (linie din tabelul de date iniial) se afieaz:
Observation numrul de ordine al observaiei.
Predicted y valoarea y prognozat pentru observaia respectiv; se obine nlocuind valorile
X ale observaiei n modelul estimat.
Residuals valoarea erorii de predicie (diferena dintre valoarea observat i valoarea
prognozat).
Standard Reziduals valoarea standardizat a erorii. Este obinut prin mprirea
reziduului la abaterea standard a reziduurilor (rezultatul nu este susinut absolut riguros de
teorie).
e) Analiza calitii modelului este facilitat i de graficele construite automat de
procedura Regression. Sunt produse dou tipuri de diagrame:
diagrame reziduuri vs. variabile independente i
diagrame variabila dependent vs. variabile independente.
Graficele necesit, de obicei, prelucrri suplimentare pentru a fi interpretate sau
raportate.

n figur se d un exemplu de diagram reziduuri variabil independent X.
Punctele din figur se pot considera ntr-o regiune de tip band orizontal ceea ce nu
contrazice ipotezele de normalitate a erorilor. Forma de band uniform reflect
constana dispersiei reziduurilor pentru tot domeniul variabilei independente X
1
. Alte
forme de distribuire a reziduurilor duc la concluzii importante pentru adecvana
modelului n privina variabilei independente implicate:
Forma regiunii Interpretare
Situaia "bun". Nu se contrazic
ipotezele de normalitate fcute asupra
erorilor.
Dispersia erorilor nu este constant (se
modific dup valorile X). Se poate ca
din model s fie omis o variabil de
gen "Timp".
Modelul liniar nu este adecvat n
privina variabilei independente
respective. Se poate ncerca un
introducerea unui termen ptratic.
Situaia poate s apar n urma unei
erori de calcul. Practic ar nsemna c
nu s-a considerat componenta liniar,
adic scopul modelului nu a fost atins.
n mod asemntor se pot interpreta diagramele Y X.
Diagrama reziduuri variabil
R
e
g
i
u
n
e
a

r
e
z
i
d
u
u
r
i
l
o
r

SPSS
Dreapta de regresie
Principalul dialog pentru estimarea unui model liniar se obine prin Analyze
Regression Linear.
n Dependent se va transfera
variabila dependent. Variabilele
independente, Independent(s), pot fi
grupate pe blocuri: 1. se transfer
variabilele dorite, 2. se precizeaz n
Method modul de introducere a
acestor variabile n regresie (Enter
toate simultan, Forward, Backward,
Stepwise metodele discutate la
alegerea celei mai bune regresii), 3. se
definete un nou bloc prin Next.
Se pot selecta observaiile
preciznd n Selection Variable
variabila i, prin Rule, regula de
selectare a cazurilor n funcie de
valorile variabilei de selecie.
n Case Labels se poate preciza variabila care identific cazurile, etichetele
fiind considerate la reprezentrile grafice. Prin WLS Weight se poate preciza variabila
de ponderare pentru metoda celor mai mici ptrate ponderate (nediscutat n curs).
Butonul Statistics deschide dialogul sinonim n care se pot preciza statisticile
calculate. Unele opiuni sunt selectate i n mod implicit.
Estimates coeficienii estimai,
Confidence intervals intervalele de
ncredere ale coeficienilor, Model fit
calcularea statisticilor R, R
2
i a tabelului
ANOVA, R squared change modificrea
coeficientului de determinare i testarea
semnificaiei schimbrii la adugarea
fiecrui bloc de variabile, Descriptive
statisticile eseniale pentru fiecare variabil,
Collinearity diagnostics calcularea toleranelor, a statisticilor VIF i studiul
multicoliniaritii prin analiza n componente principale (a se vedea capitolul urmtor
al cursului). n zona Residuals se produce o analiza a reziduurilor pentru a putea
decide asupra normalitii acestora i a diagnostica valorile aberante.
Prin Plots se afieaz dialogul sinonim n care se pot indica reprezentrile
grafice dorite.
n lista variabilelor disponibile pentru
diagrame se afl DEPENDNT variabila
dependent i variabile derivate din
regresie cum ar fi valorile prognozate
standardizate (*ZPRED), reziduurile
standardizate (*ZRESID).
Diagramele indicate n Standardized
Residual Plots sunt utile pentru verificarea
normalitii reziduurilor.
Dialogul Save permite calcularea i salvarea ca variabile noi a valorilor
prognozate i a reziduurilor sub diferite forme, precum i salvarea altor statistici de
interes. Predicted Values valorile prognozate prin model pentru fiecare caz:
Unstandardized, Standardized pentru valorile nestandardizate i standardizate,
Adjusted valoarea prognozat pentru un caz din ecuaia de regresie estimat fr a
considera acel caz, S.E. of mean predictions abaterile standard ale valorilor
prognozate, utile pentru calcularea intervalelor de ncredere ale acestor valori.
Distances distanele cazurilor de
la punctul mediu, pentru identificarea
valorilor aberante: Mahalanobis este
distana explicat n capitolul privind
clasificarea, Cook's este msura a ct de
mult se modific reziduurile dac se
elimin cazul respectiv din estimarea
modelului (o valoare mare arat o influen
considerabil a cazului n estimarea
coeficienilor), Leverage values msoar
influena cazurilor n estimare.
Prediction Intervals sunt intervalele
de incredere pentru valorile estimate, la
nivelul de ncredere precizat n Confidence
Interval. Sunt generate dou variabile.
Residuals reziduurile estimrii n diferite forme: standardizate,
nestandardizate, studentizate (reziduul este mprit la estimaia abaterii sale standard,
proprie fiecrui caz). Deleted, Studentized deleted se
refer la reziduurile obinute din modelul la estimarea
cruia cazul respectiv a fost exclus.
Influence Statistics sunt modificrile n
coeficieni (inclusiv cei standardizai), DfBeta(s) i
Standardized DfBeta, i n valorile prognozate, DfFit
i Standardized DfFit, rezultate dup excluderea
cazului din estimare.
n sfrit, prin butonul Options se deschide
dialogul sinonim n care se pot fixa parametri ai
estimrii: pragurile de intrare i excludere la metodele pas cu pas precum i modul de
tratare a valorilor lips dintr-o variabil implicat.
C. Lucrarea practic
1. Legea lui Ohm, I = V/R, afirm c intensitatea curentului, I, este
proporional cu tensiunea, V, i invers proporional cu rezistena, R.
Elevii dintr-un laborator de fizic efectueaz experimente bazate pe legea
lui Ohm: variaz tensiunea, msoar intensitatea curentului i determin n
final rezistena firului. Se obin rezultatele:
V 0,50 1,00 1,50 1,80 2,00
I 0,52 1,19 1,62 2,00 2,40
Deoarece legea lui Ohm poate fi rescris sub forma unei regresii liniare,
I = +V, unde = 0 i =1/R, s se estimeze, pe baza datelor
experimentale, coeficienii i .
S se obin intervalul de ncredere, la pragul de semnificaie de 5%, pentru
coeficientul . S se deduc intervalul de ncredere pentru rezistena
firului.
S se verifice ipoteza = 0.
2. O familie nregistreaz consumul de gaz necesar nclzirii locuinei.
Consumul (n mc) este raportat n tabelul urmtor, mpreun cu diferena
medie de temperatur fa de cea extern (n grade Fahrenheit).
Luna oct nov dec ian feb mar apr mai iun
temperatura 15.6 26.8 37.8 36.4 35.5 18.6 15.3 7.9 0
Gaz 520 610 870 850 880 490 450 250 110
S se studieze forma relatiei dintre cei doi indicatori. Exista asociere ntre
cei doi indicatori?
S se estimeze dreapta de regresie care modeleaz relaia dintre cei doi
parametri.
n timpul verii, proprietarul locuinei mbuntete izolaia termic a casei
sale. Drept care n luna februarie urmtoare, la o diferen medie de 40, se
consuma 895 mc de gaz. Se poate spune c lucrarea efectuat reduce
consumul de gaz?
3. Datele necesare acestul exerciiu sunt la adresa web
www.infoiasi.ro/~val/statistica/boston.sav i sunt doar o oglindire a unor
date din surse internaionale. Analiza datelor dorete s prognozeze preul
de vnzare a unei case din regiunea Boston n funcie de caracteristici
diverse ale locuinei i ale localizrii ei. Prelucrarea se va efectua, de
preferin, n SPSS
Variabilele sunt n ordine: CRIM rata criminalitii, ZN proporia
teritoriului zonat n loturi de peste 25,000 sq.ft., INDUS proporia
terirorial a zonei industriale, CHAS indicator de nvecinare cu rul din
zon (= 1 da, 0 nu), NOX concentraia de oxizi nitrici, RM numrul
mediu de camere, AGE proporia de locuine construite nainte de 1940
i ocupate de proprietar, DIS distana ponderat la cinci centre din
Boston, RAD indicele de accesibilitate la reeaua de autostrzi, TAX
rata de impozit (procent la 10000$), PTRATIO raportul copii-profesori
n zon, B 1000(Bk0.63)
2
unde Bk este procentajul populaiei de
culoare n zon, LSTAT procentajul populaiei srace, MEDV valoarea
medie a caselor (n mii de dolari).
Se se efectueze urmtoarele operaii:
Completai n SPSS denumirile de variabile i informaiile necesare.
Verificai condiiile necesare aplicrii analizei regresionale.
Estimai ecuaia de regresie prin diferite metode. Analizai dac obinei un
rspuns care pare consistent, independent de metod.
Validai i interpretai rezultatele regresiei.

Statistic multivariat
Lucrarea nr. 9 Multicoliniaritate, valori aberante,
regresia polinomial - SPSS
A. Noiuni teoretice
Reamintim c un model liniar poate fi exprimat prin
y = x +
unde
y este variabila dependent (explicat, endogen, rezultativ),
x este vectorul variabilelor independente (explicative, exogene), de
dimensiune 1p,
este vectorul coeficienilor, de dimensiune p1, parametrii modelului,
este o variabil, interpretat ca eroare (perturbare, eroare de msurare
etc.).
Cu alte cuvinte,
y =
1
x
1
+
2
x
2
++
p
x
p
+
care exprim relaia liniar dintre y i x.
Multicoliniaritatea
Situaia descris drept multicoliniaritate apare atunci cnd un grup de variabile
independente sunt puternic corelate ntre ele. n acest caz, prin includerea n model a
unei variabile din grup, restul variabilelor din grup nu mai aduc o informaie
semnificativ. Simultan are loc o supraevaluare a coeficientului de determinare, ca i
a dispersiilor coeficienilor estimai, ceea ce poate denatura interpretarea modelului i,
n plus, produce mrirea intervalelor de ncredere.
Apar astfel dou probleme: determinarea multicoliniaritii i cum trebuie
procedat n cazul existenei multicoliniaritii.
Detectarea multicoliniaritii
Cea mai simpl metod de detectare a multicoliniaritii este bazat pe studiul
matricei de corelaie dintre variabilele x. Se pot determina astfel perechile de variabile
independente care sunt puternic corelate ntre ele. O structur mai complex a
intercorelaiilor poate fi detectat prin calcularea determinantului acestei matrice de
corelaie. O valoare apropiat de zero a determinantului reflect o puternic corelaie
ntre anumite variabile, deci existena multicoliniaritii.
O alt abordare a problemei este aceea a stabilirii unui indicator sintetic pentru
a decide dac o variabil este coliniar cu celelalte (sau cu un grup dintre celelalte).
Notnd cu
2
i
R coeficientul de determinare obinut la estimarea regresiei multiple
avnd ca variabil dependent pe x
i
i ca variabile independente restul variabilelor x,
adic
) , , , , , , (
1 1 2 1 p i i i
x x x x x f x K K
+
=
se introduce tolerana variabilei x
i
prin
2
1
i i
R = .
O valoare mic a lui
i
(uzual mai mic dect 0,1) reflect un coeficient
2
i
R
apropiat de 1, deci o legtur liniar puternic ntre x
i
i restul variabilelor
independente. Prin urmare x
i
este coliniar cu celelalte variabile independente.
Se definete factorul de inflaie a varianei, notat VIF, inversul toleranei:
i
i
VIF

1
= .
Denumirea provine din aceea c un asemenea factor apare multiplicativ n
definirea varianei coeficienilor estimai (se poate spune c se msoar de cte ori
este supraevaluat variana coeficienilor datorit multicoliniaritii n raport cu
situaia cnd nu ar exista coliniaritate). Interpretarea este dedus din cea a toleranei: o
valoare VIF mare (uzual mai mare dect 10), denot coliniaritate.
Eliminarea multicoliniaritii
O rezolvare comun a problemei multicoliniaritii este aceea ca dintre dou
variabile independente corelate s se rein n model doar una.
Prin interpretarea toleranelor sau a factorilor de inflaie se vor exclude din
model acele variabile care au tolerane mici (sau factori de inflaie mari).
Valori aberante
Printr-o valoare aberant (outlier) se nelege o observaie extrem, adic o
observaie care nu se "ncadreaz" n paternul general al celorlalte valori. Atunci cnd
este studiat o singur variabil, exist teste specifice eliminrii valorilor aberante, de
exemplu testul Dixon. Regula empiric (bazat pe distribuia normal) este aceea de
considera ca valoare aberant orice valoare care este deprtat de medie cu mai mult
de trei abateri standard.
n situaia special a regresiei liniare, problematica valorilor aberante este mai
complex deoarece anumite valori extreme (nu toate) pot influena major coeficienii
regresiei. Se pot astfel identifica valori aberante
ntre valorile y (n spaiul rspunsurilor)
ntre valorile x (n spaiul x, al variabilelor independente)
n ambele spaii.
n problematica valorilor aberante se disting astfel dou aspecte: identificarea
valorilor aberante i modul de tratare a valorilor identificate.
Identificarea valorile aberante se realizeaz prin analiza reziduurilor
standardizate, caz n care se identific valorile extreme n spaiul y. Din pcate,
anumite valori din acest spaiu nu pot fi identificate din cauz c, prin procesul de
estimare, curba de regresie a fost "tras" spre valoarea extrem. Acest fapt se ntmpl
atunci cnd valori extreme y sunt asociate valorilor extreme din spaiul x (aa-zisele
puncte prghie leverage points; punctele extreme y asociate valorii medii x nu
modific n mod exagerat curba). Au fost atunci dezvoltate i msuri specifice pentru
identificarea acelor puncte care influeneaz semnificativ regresia. Una este distana
Cook (sau D), explicat n continuare.
Cook's D. Considernd s eroarea standard a estimaiei,
j
y valoarea
estimat (pentru a j-a observaie) i ) ( i y
j
valoarea estimat din regresia calculat
dup omiterea celei de a i-a observaii, distana Cook pentru observaia (punctul) i se
definete prin
( )
n i
s k
i y y
D
n
j
j j
i
, , 1 ,
) 1 (
) (
2
1
2
K =
+

=

adic o msur a influenei celei de a i-a observaii asupra tuturor valorilor
prognozate. Regula detectrii unei valori aberante este, pentru distana Cook,

) 1 (
4
+

k n
D
i

Deoarece n este uzual mult mai mare dect k, unii autori propun devizarea
doar la n. Prin aceast regul are loc o supraidentificare, mai multe valori aberante
dect ar fi natural, i se recomand tratarea acestor distane ca o nou variabil pentru
care se determin valorile sale aberante (de exemplu regula celor 3 abateri standard).
De remarcat c procedura care utilizeaz distana Cook identific acele
observaii care au o influen major asupra coeficienilor de regresie (asupra
modelului estimat).
Tratarea valorilor aberante presupune, ca abordare direct, eliminarea acestora
(a observaiilor care le conin) i refacerea regresiei. Se poate totui ca n acest mod de
abordare s se piard informaii valoroase, poate singurele cu adevrat importante n
procesul studiat. Prin urmare, se va studia n prealabil:
dac valorile au aprut n urma unor erori de msurare,
dac reprezint cazuri neimportante pentru procesul studiat,
dac exist influene majore asupra modelului (a coeficienilor).
In cazul nendeplinirii unei asemenea condiii, atunci valoarea nu este
eliminat i se va ncerca, pentru o adecvan mai mare a modelului, s se obo
adecvan mai mare a modelului, s se obin determinri suplimentare n acea
regiune a spaiului variabilelor.
Transformri de variabile
n cazul n care relaia dintre y i x nu pare a fi liniar, situaie detectabil
ntr-o diagram de mprtiere, sau dispersia valorilor y nu pare a fi constant dup
valorile lui x, se poate ncerca o
transformare prealabil a lui x i/sau
y. Mosteller i Tukey (1977) propun
un ghid (bulging rule) pentru
selectarea unei transformri care s
pconduc la o "liniarizare" a relaiei.
Se observ, n figura alturat, c pe
fiecare ax, x sau y, se propune o
cretere (x
2
, x
3
...) sau o scdere (log
x, x , 1/x ...) a gradului variabilei
respective. Prin urmare, se va
identifica forma relaiei n diagrama
de mprtiere i se vor utiliza
transformrile din cadranul
corespunztor.
Un alt set de propuneri de transformri de variabile pornesc de la histograma
valorilor variabilei (i nu de la diagrama de mprtiere):
Histograma variabilei x Transformarea propus
1.
x
2.
lg x
3.
x
1

4.
x x +1 ) max(
5.
lg (max(x) +1 x)
6.
x x +1 ) max(
1

De notat c situaiile 4 - 6 sunt reduse la 1 - 3 prin simetrizare.
Regresia polinomial
Un caz particular des utilizat de model liniar este regresia polinomial.
Modelul polinomial este
y =
0
+
1
x +
2
x
2
+ +
p
x
p
+
Se observ c exist o singur variabil independent, x. Acest model se
impune atunci cnd forma relaiei dintre y i x este curbilinie, fapt sugerat de
diagrama de mprtiere sau de considerente teoretice.
Pentru a estima un model polinomial este necesar, dac produsul informatic
utilizat nu dispune de o procedur specializat, s se genereze variabilele
independente ca puteri ale variabilei iniiale.
y x x
2
x
p

y
1
x
1
x
1
2
x
1
p
y
2
x
2
x
2
2
x
2
p

Estimarea are loc prin procedura uzual a regresiei multiple, considernd
puterile calculate drept noi variabile, cu aceleai interpretri i teste ca la modelul
liniar.

B. Instrumente SPSS
SPSS
Dreapta de regresie
Reamintim principalul dialog pentru estimarea unui model liniar se obine prin
Analyze Regression Linear.
n Dependent se va transfera
variabila dependent. Variabilele
independente, Independent(s), pot fi
grupate pe blocuri: 1. se transfer
variabilele dorite, 2. se precizeaz n
Method modul de introducere a acestor
variabile n regresie (Enter toate
simultan, Forward, Backward, Stepwise
metodele discutate la alegerea celei mai
bune regresii), 3. se definete un nou bloc
prin Next.
Se pot selecta observaiile
preciznd n Selection Variable variabila
i, prin Rule, regula de selectare a
cazurilor n funcie de valorile variabilei
de selecie.
Butonul Statistics deschide
dialogul sinonim n care se pot preciza
statisticile calculate. Unele opiuni sunt
selectate i n mod implicit.
Estimates coeficienii estimai,
Confidence intervals intervalele de
ncredere ale coeficienilor, Model fit
calcularea statisticilor R, R
2
i a tabelului
ANOVA, R squared change modificrea
coeficientului de determinare i testarea semnificaiei schimbrii
la adugarea fiecrui bloc de variabile, Descriptive statisticile
eseniale pentru fiecare variabil
Pentru tema curent este important alegerea Collinearity diagnostics
calcularea toleranelor, a statisticilor VIF i studiul multicoliniaritii prin analiza n
componente principale (a se vedea capitolul urmtor al cursului). n acest caz, tabelul
privind coeficienii modelului estimat va conine nc dou coloane cu statisticile
privind diagnosticul coliniaritii.
Apare totodat n fiierul de ieire un tabel intitulat Collinearity Diagnostics
care conine informaii privind analiza factorial (a se vedea capitolul urmtor din
curs) a variabilelor independente. Se poate deocamdat interpreta (mecanic) faptul c
existena mai multor valori proprii situate n imediata vecintate a lui 0 denot o
posibil coliniaritate n variabilele independente.
In ceea ce privete valorile aberante reamintim dialogul Plots (prezentat n
lucrarea trecut) prin intermediul cruia se pot solicita diagramele asociate
reziduurilor.
Din dialogul Save, care permite calcularea i salvarea unor variabile noi
(valorile prognozate, reziduuri sub diferite forme etc.) accentum elementele:


Distances distanele cazurilor de la punctul mediu, pentru identificarea
valorilor aberante: Mahalanobis este distana explicat n capitolul privind
clasificarea, Cook's este distana Cook explicat mai sus (o valoare mare arat o
influen considerabil a cazului n estimarea coeficienilor), Leverage values msoar
influena cazurilor n estimare.
Influence Statistics sunt modificrile n coeficieni (inclusiv cei standardizai),
DfBeta(s) i Standardized DfBeta, i n valorile prognozate, DfFit i Standardized
DfFit, rezultate dup excluderea cazului din estimare.
In ieirea SPSS, valorile aberante pot fi deci identificate prin
1) Std residual sau Stud Residual mai mari dect 3 n valoare absolut.
2) Standardized DfBeta mai mari de 1 (sau, dup ali autori, chiar mai mari de
2/Sqrt(N)).
3) Cooks D mai mare dect 4/N pot indica observaii cu probleme..
C. Lucrarea practic
1) Se va salva i deschide fiierul
www.infoiasi.ro/~val/statistica/Expenditures.xls
Datele se refer la cheltuielile publice (1960) pe cap de locuitor n statele
americane. Variabilele sunt
EX: cheltuieli publice pe locuitor
ECAB: indice de dezvoltare economic
MET: procentajul populaiei din zone metropolitane
GROW: modificarea procentual a populaiei 1950-1960
YOUNG: procentajul populaiei tinere 5-19 ani
OLD: procentajul populaiei peste 65 ani
WEST: 1 pentru statele din vest, 0 pentru celelalte
i) s se studieze relaia dintre EX (nivelul cheltuielilor) i indicatorii
demografici i economici (ECAB, MET, GROW, YOUNG, OLD)
ii) se va estima o regresie polinomial n cazul n care asocierea pare a fi
curbilinie
iii) se vor identifica valorile aberante i se va reface estimarea prin excluderea
acestora
iv) se va estima i analiza regresia multipl
EX = f(ECAB, MET, GROW, YOUNG, OLD)
att pe ansamblu, ct i pentru fiecare categorie de state (estice, vestice).
Se vor identifica diferenele.
2) Se va deschide fiierul Employee Data.sav dintre fiierele de test SPSS.
i) se va modela salariul curent funcie de celelalte variabile continue.
(1) se va studia influena variabilelor independente.
(2) se vor analiza i trata valorile aberante.
ii) se va reface analiza pentru fiecare categorie de job

Statistic multivariat
Lucrarea nr. 10 Regresia logistic - SPSS
A. Noiuni teoretice
Regresia logistic
Regresia logistic modeleaz relaia dintre o mulime de variabile
independente x
i
(categoriale, continue) i o variabil dependent dihotomic
(nominal, binar) Y. O astfel de variabil dependent apare, de regul, atunci cnd
reprezint apartenena la dou clase, categorii prezen/absen, da/nu etc.
Ecuaia de regresie obinut, de un tip diferit de celelalte regresii discutate,
ofer informaii despre:
importana variabilelor n diferenierea claselor,
clasificarea unei observaii ntr-o clas.
De remarcat c diagrama de mprtiere a valorilor nu ofer nici un indiciu n
privinta dependenelor. n asemenea cazuri, regresia liniar clasic nu ofer un model
adecvat.
Presupunem c valorile y (variabil binar) sunt codificate 0/1, valoarea 1
exprimnd n general apariia unui anumit eveniment, astfel nct ceea ce se caut este
o estimare a probabilitii de producere a respectivului eveniment n funcie de
valorile variabilelor independente.
Cazul unei singure variabile independente
Modelul este
x
x
e
e
x y P


+
+
+
= =
1
) 1 (
sau
x
x y P
x y P

) | 1 ( 1
) | 1 (
ln + =
|
|
.
|

\
|
=
=

Cantitatea din partea stng este numit (transformarea) logit a probabilitii
P(y=1|x).
Semnificaia expresiei P(y=1|x) este evident: probabilitatea de realizare a
valorii y=1 condiionat de valoarea x. Cu alte cuvinte, probabilitatea de clasare a
observaiei x n clasa y=1, sau probabilitatea ca valoarea x s fie asociat cu
producerea evenimentului y=1. In continuare se noteaz P(y=1|x) cu p, conform
notaiei de la modelul probabilist binomial (probabilitatea de succes).
Transformarea logit este necesar pentru a proiecta probabilitatea p din
intervalul (0,1) n intervalul (- , + ), fapt necesar n procesul de estimare a
parametrilor. Modelul este legat direct de noiunea de odds (raport de anse), notat
OR (odds report):
p
p

=
1
OR
care reprezint raportul dintre probabilitatea de succes i probabilitatea de
insucces .
Modelul se mai poate scrie
x
e
p
p

1
+
=


de unde interpretarea coeficientului :
creterea cantitii logit atunci cnd x crete cu o unitate sau
OR crete de e

ori atunci cnd x crete cu o unitate.


Testarea ipotezei = 0 se realizeaz prin testul Wald, corespunztor testului t
de la regresia liniar, statistica testului fiind

( Var
2
2
b)
b
=
care este repartizat
2
cu un singur grad de libertate.
Intervalul de ncredere pentru este, potrivit rezultatelor de la analiza ecuaiei
de regresie,
|
|
.
|

\
|

+ ) ( ) (
2
1
2
1
,
b SE z b b SE z b
e e

,
unde b este estimaia lui (din ecuaia de regresie estimat) iar SE(b) este abaterea
standard a repartiiei de sondaj a lui b.
Se observ imediat c, pentru o observaie, dac p > 0,5, atunci este mai
probabil ca observaia s aparin grupului caracterizat de y=1. Aceast condiie este
echivalent cu OR > 1, adic logit > 0.
Cazul mai multor variabile independente
Modelul general este
k k
x ... x x
-p
p
+ + + =
|
|
.
|

\
|
2 2 1 1 0
1
ln ,
unde p este P(y = 1 | x
1
,x
2
,,x
k
). Se poate obine imediat i forma exponenial
echivalent.
Interpretarea coeficienilor
i
este evident: creterea cantitii logit (logaritm
din OR) atunci cnd x
i
crete cu o unitate (celelalte variabile x rmnnd constante).
Pentru interpretri mai sofisticate rescriem modelul sub forma:
) exp( 1
) exp(
) , , , | 1 (
2 2 1 1 0
2 2 1 1 0
2 1
k k
k k
k
x ... x x
x ... x x
x x x y P
+ + + +
+ + +
= =

K
Se obine atunci, dup calcule imediate,
) 0 | 0 (
) 0 | 1 (
) 0 | 1 ( 1
) 0 | 1 (
) exp(
2 1
2 1
2 1
2 1
0
= = = = =
= = = = =
=
=
= = = = =
= = = = =
=
k
k
k
k
x x x y P
x x x y P
x x x y P
x x x y P
K
K
K
K


adic OR n situaia de baz x
1
= x
2
== x
k
= 0.
Pentru coeficientul
i
se obine :
.
OR
OR
OR
1
) pentru 0 , 1 | 1 ( 1
) pentru 0 , 1 | 1 (
) exp(
baza
pentru 0 , 1
baza
i j x x
j i
j i
i
j i
i j x x y P
i j x x y P
= =
=
=
= = =
= = =
=

Se ajunge astfel, din caracterul multiplicativ al modelului logistic,
) exp( ) exp( ) exp( OR
1 1 0 , , ,
2 1
k k x x x
x x
k
= K
K
,
la interpretarea util c fiecare
i
exprim contribuia factorului x
i
la explicarea
probabilitii (sub forma OR) de producere a evenimentului y = 1. Astfel, fixnd
x
i
= 1, exp(
i
) va reprezenta factorul multiplicativ constant indiferent de valorile
celorlalte variabile independente.
Dac
i
= 0, factorul corespunztor nu are nici un efect, (nmulirea cu 1).
Dac
i
< 0 prezena factorului reduce probabilitatea evenimentului y = 1,
i
> 0
mrind aceast probabilitate.

Construirea modelului se poate realiza i prin metode forward sau backward,
testarea semnificaiei coeficienilor realizndu-se prin testul Wald sau prin testul
raportului de verosimilitate (LR, likelihood-ratio).
Testul Wald este prezentat la modelul logistic cu un singur factor. Testul LR
se bazeaz pe statistica obinut ca raport ntre maximul funciei de verosimilitate sub
ipoteza nul i maximul funciei de verosimilitate n condiii mai largi. Lema
Neyman-Pearson arat c acesta este cel mai puternic test la un prag fixat. Pentru
cazul regresiei logistice, se calculeaz raportul ntre valoarea maxim a funciei de
verosimilitate pentru modelul complet (L
1
) i cea pentru modelul mai simplu (L
0
).
Statistica LR este -2log(L
0
/L
1
), repartizat
2
. Testul LR este recomandat n cazul
construirii modelului pas cu pas, verificnd dac variabila eliminat din model este
semnificativ, deci dac modelul poate fi simplificat.
Observaie. O mai bun imagine intuitiv asupra raportului de verosimilitate
este dat n continuare. presupunem c se dorete distingerea ntre dou ipoteze H
0
i
H
1
(o contrar a lui H
0
). Fie p
0
probabilitatea ca datele observate s apar n ipoteza
H
0
adevrat i p
1
probabilitatea ca datele observate s apar n ipoteza H
1
adevrat.
Raportul p
1
/ p
0
este raportul de verosimilitate (LR) i msoar OR (odds report) ca H
1

s fie adevrat ca opus lui H
0
adevrat.
Deoarece unele simulri arat c datorit datelor "rare" (sparse) statistica prin
care se compar dou modele nu este repartizat
2
i, din acest motiv, s-a dezvoltat
testul Hosmer-Lemeshow. De notat c testul este recomandat pentru variabile
independente continue i mai m ult de 400 de observaii. Testul const n clasificarea
n decile a probabilitilor prognozate (10 grupuri bazate pe rangul percentilic) i
calcularea statisticii
2
care compar frecvenele observate cu cele prognozate (n
tabelul 2 10). Valori mici ale statisticii (deci acceptarea nediferenierii dintre cele
dou iruri de frecvene) arat o bun potrivire a datelor prognozate, deci o adecvana
modelului.
n regresia logistic nu exist un indicator absolut similar coeficientului R
2
din
regresia liniar. S-au dezvoltat ns indicatori similari. Astfel n SPSS exist Cox &
Snell Pseudo-R
2
definit prin
2/
2
2
1
2
n
null
k
LL
R
LL
(
=
(



unde LL
null
este logaritm din maximul funciei de verosimilitate pentru modelul
constant, iar LL
k
este logaritm din maximul funciei de verosimilitate pentru modelul
cu variabile independente incluse. Se poate astfel observa c se merge pe varianta de
comparare a cantitilor -2LL prin intermediul raportului lor i nu a mpririi lor (ca
la LR). Acest R
2
nu atinge 1 i a fost introdus de Nagelkerke o modificare prin care
se atinge 1. Formula pentru Nagelkerke Pseudo-R
2
este
( )
2/
2
2/
2
1
2
1 2
n
null
k
n
null
LL
LL
R
LL
(


=


Ali indicatori sunt:
AIC (Akaikes Information Criterion) definit ca -2LL
k
+2k, unde k
este numrul de parametri estimai.
BIC (Bayesian Information Criterion) definit ca -2LL
k
+ k*log(n) unde
k este numrul de parametri estimai iar n este numrul de observaii.
BIC mai este referit i drept criteriul Schwartz (care l-a argumentat).
Vor fi preferate modelele pentru care criteriile (AIC sau BIC) au valori mai
mici. Se observ c ambele criterii "recompenseaz" buna potrivire a modelului dar i
"penalizeaz" numrul de parametri estimai, astfel nct s se obin un model bun
dar cu un numr minim de parametri. n BIC, penalizarea lui k este mai puternic
dect n AIC. Ambii indicatori necesit condiia ca erorile (reziduurile) s fie normal
distribuite.
Regresia logistic multinomial
Modelul regresional logistic multinomial (cunoscut i ca regresia logistic
politomic polytomous logistic regression sau ca model de alegere discret
discrete choice model n econometrie) este o generalizare a modelului logistic
acceptnd ca variabila dependent Y s aib mai mult de dou valori.
S presupunem c variabila Y are ca valori posibile elementele mulimii
neordonate {1, ... , g}. Modelul logistic multinomial presupune c probabilitatea ca Y
s fie egal cu s n observaia i depinde de valorile variabilelor x
i1
, ... , x
ip
prin

=
= =
g
t
i
it
is
e
e
s Y P
1
) (


unde

=
=
p
k
ks ik is
x
1
este o funcie liniar. n aceast formulare a modelului, este
de remarcat c exist coeficieni de regresie
ks
diferii pentru fiecare k i, mai ales, s.
Prin urmare, fiecare valoare posibil Y are un model asociat.
Modelul astfel definit este supraparametrizat, ceea ce impune o reducere prin
fixarea unei valori Y, de exemplu Y = 1, drept categorie de referin (adic
11
, ... ,

p1
sunt egali cu zero). Alegerea categoriei de referin poate facilita interpretarea.
B. Instrumente SPSS
Comanda este Analyse - Regression - Binary Logistic.


Se afieaz dialogul de fixare a variabilelor i statisticilor.

Se mut variabila dependent (binar) n Dependent. Variabila independent
sau variabilele independente (n cazul multivariat) sunt mutate n lista Covariates.
Pentru a indica variabilele independente care este categoriale (discrete), se va
aciona butonul Categorical, afidu-se dialogul

Fiecare variabil trecut n lista Categorical Covariates poate fi caracterizat
prin selecii corespunztoare n grupul Change Contrast

Acionnd butonul Options din dialogul principal, se deschide dialogul
sinonim n care se precizeaz statisticile i diagramele dorite n ieire.

n dialogul principal Logistic Regression, se poate alege metoda utilizat
pentru introducerea variabilelor la estimarea regresiei. De reinut metoda Enter n care
variabilele sunt introduse n bloc (se estimeaz o singur ecuaie) sau metode de
selectare pas cu pas (ca la regresia liniar multipl), cum ar fi Forward: LR. Aceasta
nseamn c modelul este construit ascendent, criteriul de introducere a unei noi
variabile fiind testul LR (a raportului de verosimilitate).

Prin acionarea butonului Save n dialogul principal se pot preciza noile
variabile care pot fi create din ieirea procedurii, ca i la regresia multipl.
Informaiile care apar n fiierul de ieire SPSS sunt explicate n continuare.
Un prim tabel cu informaiile generale (numr de observaii valide etc.).

Un tabel n care se precizeaz codificrile variabilelor categoriale (inclusiv cea
dependent). Pentru variabilele categoriale independente are loc o recodificare cu
considerarea categoriei de referin: aceasta este recodificat 0.

Ieirea difer ca structur dup metoda de selectare a variabilelor, dar conine
un prim bloc de informaii care se refer la modelul simplu (doar cu termenul
constant). De remarcat structura: clasificare, variabile n ecuaie, variabile candidate.

Tabelul de clasificare este construit prin considerarea probabilitii de
clasificare prognozate de modelul curent pentru fiecare observaie. dup principiul c
OR>1 claseaz observaia n grupul codificat 1. Un model bun trebuie s numere cele
mai multe observaii pe diagonala principal a tabelului.
Tabelul care urmeaz, referitor la model, este explicat i se interpreteaz
potrivit celor spuse la tabelul similar dintr-un pas intermediar afiat ceva mai departe
n lucrare.


Informaiile oferite pentru faza final sunt dup structura

Se observ c n fiecare pas al estimrii modelului se testeaz dac trecerea de
la precedent este semnificativ (se respinge ipoteza nulitii variabilei sau variabilelor
adugate).
Indicatorii similari coeficientului de determinare din regresia multipl sunt n
tabelul care urmeaz.

Testul Hosmer & Lemeshow este explicitat pentru fiecare pas prin raportarea
celor 10 frecvene observate/ateptate (statistica i semnificaia sunt raportate n
tabelul precedent).


Se raporteaz de asemenea tabelul de clasificare pentru fiecare pas al
procedurii.


n tabelul referitor la variabilele din model se raporteaz:
coeficienii B
Exp (B) cu interpretarea, dat n partea teoretic, c reprezint
modificare OR a variabilei dependente la modificarea cu o unitate a
variabilei independente, deci Exp (B) 1 pentru variabilele
nesemnificative.
informaii asociate testul Wald de semnificaie a fiecrui coeficient.

n tabelul urmtor (apare doar pentru anumite metode de selectare a
variabilelor) se prezint informaiile necesare pentru a testa ce s-ar ntmpla daca o
variabil din model este exclus. Pentru un model care se construiete ascendent,
acestea pot sugera prezena unor variabile care au devenit nesemnificative prin
includerea altor variabile.

Pentru variabilele care nu sunt n model, se prezint testele care decid
necesitatea prezenei lor. La pasul urmtor, va fi introdus n model variabila cu
scorul cel mai mare (scor calculat potrivit metodei selectate).

Diagrama de clasificare (afiat n continuare) este alctuit:
Axa X este probabilitatea prognozat (de la 0 la 1) de a fi clasificat n
grupul codat "1". Sub ax sunt difereniate zonele de clasificare prin
simbolurile care codific grupul 1 (Yes) i grupul 2 (No). Se observ
pragul de 0.5 care schimb clasificarea.
Axa Y este frecven (numr de cazuri).
Coloanele care apar n diagram sunt alctuite din marcaje (fiecare
reprezint un numr de cazuri pentru simplificare) care reprezint
clasificarea observat a cazurilor.
Examinarea diagramei const n analiza faptului dac marcajele
corespund la acelai semn (Yes/No) situat sub axa X. Prin urmare
o semnele Y care corespund la valori Y de pe axa OX (i semnele
N care corespund la valori N de pe axa OX) reprezint
clasificri prognozate corect de model.
o celelalte marcaje (semnele Y care corespund la valori N de pe
axa OX, precum i semnele N care corespund la valori Y de pe
axa OX) reprezint cazuri clasate eronat, deci observaii pentru
care modelul estimat nu funcioneaz.


C. Lucrarea practic
1. Un studiu care urmrete de cine depinde gustul brnzeturilor de tip
cheddar a prelevat probe i a determinat concentraia unor compui
chimici. Fiecare prob a fost supus unui proces de degustare i a
primit o not. Unele valori au fost transformate n prealabil (Acetic i
H2S sunt obinute prin logaritmarea valorilor msurate).
Fiierul de date este www.infoiasi.ro/~val/statistica/CheeseData.txt
Variabilele sunt
i. Taste: nota obinut n urma combinrii notelor acordate de
mai muli degusttori
ii. Acetic: logaritm natural din concentraia de acid acetic
iii. H2S: logaritm natural din concentraia de H
2
S.
iv. Lactic: concentraia de acid lactic
S se modeleze variabila Taste cu ajutorul celorlalte trei
variabile.
S se analizeze modelul obinut.
2. Date privind un numr de companii au fost selectate din lista Forbes
500 pentru anul 1986 (printr-un sondaj sistematic 1/10 din lista
alfabetic a companiilor). Studiul urmrete volumul de vnzri al
companiei.
Fiierul de date este www.infoiasi.ro/~val/statistica/ForbesData.txt
Variabilele sunt:
i. Company: numele companiei
ii. Assets: bunurile companiei (milioane $)
iii. Sales: volumul de vnzri (milioane $)
iv. Market_Value: valoarea de pia a companiei (milioane $)
v. Profits: profitul (milioane $)
vi. Cash_Flow: volumul tranzaciilor (milioane $)
vii. Employees: numrul de angajai (mii persoane)
viii. Sector: domeniul de activitate a companiei.
S se modeleze volumul de vnzri n funcie de celelalte
variabile. S se analizeze modelul obinut.
S se determine transformrile prealabile necesare pentru unele
variabile i s se refac modelarea.
3. Se va deschide fiierul Employee Data.sav din setul de fiiere test
oferite de SPSS. S se decid dac faptul c un angajat aparine
minoritii (minority = 1) este reflectat de variabilele educ, prevexp,
jobcat i gender.
Pentru aceasta se va estima i se va analiza o regresie logistic n care
variabila dependent este minority, restul variabilelor fiind considerate
independente.




Statistic multivariat
Lucrarea nr. 11 Analiza n componente principale -
SPSS
A. Noiuni teoretice
Analiza factorial (analiza n componente principale este o metod factorial)
a aprut pentru a rezolva probleme din categoria urmtoare:
reducerea complexitii datelor (data reduction) poate fi nlocuit un
masiv de date de mari dimensiuni prin masive de dimensiuni mai mici?
evidenierea i fixarea patternului asocierilor (corelaiilor) dintre
variabile.
determinarea variabilelor latente (mai puine) care se afl n spatele
variabilelor msurate (mai multe) problem similar descoperirii
celor care mnuiesc ppuile ntr-un teatru de ppui; comportarea,
variana variabilelor msurate poate fi regsit din variana unor
variabile ascunse, care le determin prin asociere.
Variabilele ascunse, latente, sunt denumite factori i de aici denumirea
metodelor analizei factoriale.
Metoda a aprut la nceput n studii psihologice n care s-a ncercat s se
determine, evalueze, variabile precum inteligena. Cum se pot evalua atribute precum
puterea de asimilare, de reacie, de nelegere etc., s-a presupus c multe dintre acestea
sunt determinate de o variabil latent care poate fi inteligena.
Formaliznd cele spuse se consider c exist o mulime de variabile X
1
,
X
2
,...,X
p
i se dorete determinarea unor variabile noi C
1
, C
2
,...,C
m
, unde
C
i
= w
i1
X
1
+

w
i2
X
2
+ ... + w
ip
X
p
, cu dorina ca m << p. Aceste variabile noi se numesc
uzual factori sau componente. Este evident i cerina inversrii, deci posibilitatea de
a regsi variabilele X cu ajutorul componentelor, X
i
= a
i1
C
1
+

a
i2
C
2
+ ... + a
im
C
m
.
Se observ astfel c prin intermediul componentelor se ncearc reducerea
numrului de variabile (i, dup cum se va vedea, fr a pierde variana variabilelor
iniiale).
Dac se propune ca n noile componente, notate cu F de la factor, s se rein
doar ceea ce este comun variabilelor X, adic X
i
= a
i1
F
1
+

a
i2
F
2
+ ... + a
im
F
m
+ E
i
,
unde F
1
, F
2
,..., F
m
sunt factorii comuni variabilelor X,

iar E
i
reprezint partea
specific a lui X
i
, analiza este cea propus iniial n psihologie (analiza n factori
comuni i specifici).
Analiza factorial metoda general
Metoda general este prezentat pornind de la urmtoarea problem
matematic (deci adoptnd limbajul din data reduction):
Este posibil s reconstituim cele np valori x
ij
ale unui
tablou X
np
pornind de la un numr mai mic de date?
Rspunsul poate fi afirmativ: dac X = u
1
v
1
, unde u
n1
i v
1 p
, atunci se poate
reconstitui X din cele n+p valori ale lui u
1
i v
1
. Se spune c X este de rang 1.
n practic este foarte improbabil o asemenea descompunere i se va cuta o
ajustare de rang q, de forma
E v u v u v u X + + + + =
' '
2 2
'
1 1 q q
L

unde E este o matrice rezidual, cu termeni suficient de mici astfel nct cele np valori
din X s fie reconstituite suficient de bine din cele q(n+p) valori ale vectorilor u

i
v

,

=1,,q.
Problema se va rezolva cu ajutorul reprezentrilor geometrice.
Tabloul X poate fi privit drept mulimea coordonatelor pentru
n puncte n spaiul cu p dimensiuni, R
p
(fiecare linie a tabloului este un
punct n acest spaiu), sau
p puncte n spaiul cu n dimensiuni, R
n
(fiecare coloan a tabloului este
un punct n acest spaiu).
Ambele spaii, R
p
i R
n
, se consider dotate cu metrica euclidian uzual.

Ajustarea printr-un subspaiu vectorial din R
p
Ideea este aceea de a determina un subspaiu vectorial de dimensiune q < p n
care s fie coninut X (matricea X este gndit ca mulimea a n vectori coloanele
matricei). n acest caz, cele n puncte din X pot fi reconstituite plecnd de la
coordonatele pe noile q axe, adic nq valori,
componentele noilor axe n spaiul iniial, adic pq valori.
Se utilizeaz astfel nq + pq valori.
S ncepem prin a cuta dreapta F
1
, trecnd prin origine, care ajusteaz cel mai
bine, n sensul celor mai mici ptrate, norul de puncte.

Fie un vector unitar u de pe aceast dreapt, deci uu=1.
Rezult c fiecare linie din Xu este produsul scalar al punctului respectiv cu u
i deci lungimea proieciei punctului pe F
1
. Prin urmare, minimizarea sumei
distanelor la F
1
(criteriul celor mai mici ptrate) revine la maximizarea sumei
proieciilor. Deci determinarea lui F
1
conduce la maximizarea sumei ptratelor acestor
proiecii, adic se caut u care maximizeaz forma ptratic
(Xu)(Xu)=uXXu,
cu restricia uu=1.
Prin metoda multiplicatorului lui Lagrange, se consider
L = uXXu - ( uu-1)
i anularea derivatelor pariale n raport cu u conduce la
2 XXu-2u=0,
de unde
XXu = u
ceea ce arat c u este un vector propriu al matricei XX. Atunci,
uXXu = uu
i, din restricia impus, rezult uXXu = , adic maximul cutat este egal cu o
valoare proprie a matricei simetrice XX.
Prin urmare, u este acel vector propriu u
1
care corespunde celei mai mari
valori proprii
1
.
n general, se arat c o baz ortonormat a subspaiului vectorial cu q
dimensiuni, care ajusteaz norul de puncte n sensul celor mai mici ptrate, este
constituit din cei q vectori proprii care corespund celor mai mari q valori proprii ale
matricei simetrice XX. Notm cu u
1
, u
2
,, u
q
vectorii proprii i
1
,
2
, ,
q

valorile proprii corespunztoare.
De remarcat c matricea XX este simetric i semipozitiv definit, deci toate
valorile proprii sunt reale nenegative, iar vectorii proprii sunt ortogonali.
Ajustarea printr-un subspaiu vectorial din R
n

n R
n
, coloanele matricei X
np
definesc un nor de p puncte. Raionnd analog
(pe matricea X) se ajunge la:
cel mai bun subspaiu cu q dimensiuni este generat de vectorii
proprii v
1
, v
2
,, v
q
care corespund la valorile proprii
(descresctoare)
1
,
2
, ,
q
ale matricei XX.
Relaia dintre cele dou subspaii din R
p
i R
n

Din definiia vectorului propriu v

, avem
XXv

v

de unde, prin nmulire la stnga cu X,
XXX v

Xv

adic
(XX)(X v

) =

(Xv

)
Deci fiecrui vector propriu v

a lui XX i corespunde un vector propriu egal


cu Xv

a matricei XX iar

este valoare proprie pentru XX. Adic


{

){

}
Analog se demonstreaz i incluziunea invers i se arat astfel identitatea
celor dou mulimi de valori proprii,

, = 1,,r,
unde r este rang(X), r min(p,n).
Intre vectorii proprii exist relaiile (cu observaia c egalitatea are loc pn la
un factor)
u

= k

Xv

v

= k

Xu

unde k

i k

sunt constante necunoscute.


Din u

= v

= 1 rezult
1 u
' ' 2 '
= =

v XX v u k
Dar v

XXv

de unde

1
'
= = k k

Intre vectorii proprii din cele dou spaii exist astfel relaiile
(*)

v X u =
1
,

Xu v
1
=

Axa F

, care poart vectorul unitar u

, este numit a -a ax factorial din


R
p
. Analog pentru G

n R
n
.
Coordonatele punctelor pe axa din R
p
(i respectiv din R
n
) sunt, prin
construcie, componentele lui Xu

(respectiv Xv

).
Relaiile precedente arat proporionalitatea care exist ntre coordonatele
punctelor pe o ax dintr-un spaiu i componentele unitare (cosinuii directori) ai
axei din cellalt spaiu.
Reconstituirea tabloului X
Din relaia (*) se obine

v Xu = , de unde

u v u Xu = i sumnd

= =
=
p p
u v u u X
1 1


.
Cum

=

p
u u
1

este produsul matricei ortogonale a vectorilor proprii cu
transpusa sa, adic este matricea unitate, se obine reconstituirea tabloului iniial prin

=
=
p
u v X
1
'



cu meniunea c anumite valori proprii pot fi 0 (dar exist vectorii proprii
corespunztori).
O reconstituire aproximativ X
*
este obinut prin limitarea la primele q axe
factoriale (reamintim c valorile proprii au fost luate n ordine descresctoare, deci

q+1
, ,
p
sunt valorile cele mai mici):

=
=
q
u v X X
1
' *


.
Fiecare valoare proprie msoar suma ptratelor distanelor la origine ale
proieciilor pe axa factorial respectiv. Prin urmare, reconstituirea va fi cu att mai
bun cu ct suma valorilor proprii reinute va constitui o parte notabil a sumei tuturor
valorilor proprii. Calitatea global a reconstituirii poate fi msurat prin cantitatea

= =
=
p q
q
1 1



numit rata de inerie (msoar partea din variana norului explicat de subspaiul cu q
dimensiuni). Se poate verifica i

=
j i
ij
j i
ij q
x x
,
2
,
2
*
.
care ofer un suport intuitiv faptului c reflect calitatea global a reconstituirii.
Analize particulare
Atunci cnd nu este vorba strict de o aproximare numeric i ne ncadrm n
analiza statistic, dispunem de informaii suplimentare asupra naturii datelor.
Considerarea acestor informaii conduce la transformri prealabile ale datelor
iniiale, astfel nct aplicarea metodei generale la datele transformate permite
interpretri mai adecvate structurii datelor.
Se obin astfel analize factoriale particulare, cele mai importante sunt
enumerate n continuare:
Analiza n componente principale,
Analiza n componente principale normate,
Analiza rangurilor,
Analiza corespondenelor.
Ideea de baz care st la baza tuturor acestor analize este aceea c
un tabel de valori poate produce (prin liniile, respectiv coloanele sale)
reprezentri sub forma norilor de puncte n dou spaii,
ajustrile punctelor din cele dou spaii sunt legate prin relaii simple,
interpretabile.
Analiza n componente principale
Iniiat de Pearson (1901) i dezvoltat de Hotelling (1933).
Tabloul de plecare R este oarecare: r
ij
semnific, n mod uzual, a i-a observaie
a unei variabile j. Variabilele pot fi eterogene n privina mediilor lor (de ex. uniti de
msur diferite, ordine de mrime diferite etc.). Pentru a anula efectul eterogenitii se
efectueaz transformarea
n
r r
x
j ij
ij
*

= , unde

=
=
n
i
ij j
r
n
r
1
*
1
este media variabilei a j-a.
Analiza general se va aplica tabloului X astfel obinut, matricea XX este
matricea de covarian a variabilelor iniiale.
Analiza n componente principale normate
Dac variabilele sunt eterogene i n dispersie, se vor norma valorile prin
n s
r r
x
j
j ij
ij
*

= , unde s
j
este abaterea standard pentru a j-a variabil.
Analiza general se va aplica tabloului X, cu observaia c c matricea XX
implicat n calcule este tocmai matricea de corelaie a variabilelor iniiale.
Analiza n componente principale (normate) ACP/ACPN
Numele metodei provine din aceea c factorii (obinui prin analiza general)
sunt numii i componente principale.
Dei pentru identificarea factorilor se aplic metoda general asupra matricei
de covarian (corelaie) a variabilelor implicate, n continuare se prezint i o metod
alternativ, care poate oferi o viziune mai intuitiv asupra calculelor efectuate.
Se dorete reducerea numrului de variabile dar cu pstrarea a ct mai mult (n
limita posibilitilor) din variana datelor iniiale.
Pentru aceasta se introduce o nou variabil, Z, ca o combinaie liniar a
variabilelor iniiale:
p p
x a x a x a Z + + + = K
2 2 1 1

unde a
1
,,a
p
sunt ponderi asociate variabilelor iniiale.
Observaie. Ecuaia precedent este doar aparent similar unei ecuaii de
regresie, deoarece nu se cunosc valori observate pentru variabila Z, nu exist termen
liber i nici erori (reziduuri).
Analiza n componente principale determin acele ponderi a
i
care
maximizeaz variana variabilei Z. Cum variana poate tinde la infinit pentru valori
ale ponderilor convenabil alese, metoda determin doar ponderile supuse restriciei c
vectorul a este normalizat, adic

=
=
p
i
i
a
1
2
1. O dat calculate ponderile a, variabila Z
este numit prima component principal.
Notnd cu C matricea de covarian (corelaie) a variabilelor X, de fapt prin
transformarea datelor din analiza n componente principale C = XX, rezult c
dispersia lui Z este aCa. Se dorete maximizarea varianei lui Z cu restricia
aa = 1.Se ajunge astfel la problema general:
max aXXa cu restricia aa = 1
Prin metoda multiplicatorilor lui Lagrange se va cuta maximul funciei
F(a) = aCa - (aa 1)
de unde rezult, ca n metoda general, c a este vector propriu al matricei C
corespunztor valorii proprii i aCa = . Deoarece Var(Z) = aCa rezult
Var(Z) = , adic a este vectorul propriu care corespunde celei mai mari valori
proprii .
A doua component principal este definit drept combinaia liniar a
variabilelor X cu urmtoarea cea mai mare varian:
Z
2
= a
12
x
1
+ a
22
x
2
+ + a
p2
x
p
Se ajunge astfel la a doua valoare proprie ca mrime etc. De remarcat c a
ij

reprezint ponderea variabilei i n componenta principal cu numrul j.
O consecin a faptului c varianele componentelor principale sunt valorile
proprii iar ponderile (coeficienii combinaiilor liniare) sunt vectorii proprii este aceea
c factorii obinui (componentele principale) sunt necorelate ntre ele.
Astfel, din exprimarea matriceal z = Ax a componentelor principale i din
faptul c matricea vectorilor proprii este ortogonal, AA = I, rezult
Az = AAx = Ix = x,
adic i variabilele iniiale pot fi exprimate drept combinaii liniare ntre
componentele principale. Notnd cu C
zz
matricea de covariane a componentelor
principale, relaia anterioar produce
C = AC
zz
A.
de unde, utiliznd rezultatul cunoscut
C = AA,
unde este matricea diagonal a valorilor proprii, rezult c C
zz
este o matrice
diagonal, adic toate componentele principale sunt necorelate ntre ele. Se observ
astfel c prin trecerea la componentele principale se elimin redundana din date.
Analiza n R
p

Cele n puncte ale acestui spaiu sunt indivizi (observaii) i se dorete o
reprezentare a apropierilor dintre aceste puncte ntr-un spaiu de dimensiune mai
mic. Prin transformrile prealabile are loc o translaie a norului de puncte ntr-un
reper avnd ca origine centrul de greutate al norului.
In ACPN se modific i scala pe fiecare ax.
Analiza n R
n
Cele p puncte sunt aici variabilele, transformrile prealabile au ns o
interpretare diferit:
transformarea din ACP este o proiecie paralel cu prima bisectoare
Astfel, n cazul n=2 (neimportant din punct de vedere statistic, dar permite o
vizualizare corect), un punct variabil este supus transformrii:


transformarea din ACPN este o deformare a norului de puncte care aduce
fiecare punct variabil la distana 1 de origine (pe sfera unitate).
ntr-adevr, din transformarea
n s
r r
x
j
j ij
ij
*

= , rezult c distana unui punct


variabil la origine este

=
= =
n
i
j j ij
s r r
n
j
1
2 2 2
1 / ) (
1
) 0 , ( d
.
Distana dintre dou puncte este dat de
) , ( cor 2 2 ) , ( d
2
k j k j =
adic proximitile dintre puncte se pot interpreta n termenii corelaiilor dintre
variabile.
Coordonatele punctelor variabile pe o ax sunt coeficienii de corelaie dintre
variabile i factorul respectiv (considerat ca o nou variabil). Prin urmare se poate
interpreta un factor (ax) drept o combinaie a variabilelor cele mai corelate cu el.
Componente principale o alt definiie
Definiia componentelor principale prezentat aici ofer un punct de vedere diferit (apropiat
de sensul istoric iniial). Notm cu X
np
matricea de date (n observaii asupra a p variabile), cu A
j

matricea (transpus) (de tip jp) a ponderilor primelor j componente principale (coloanele din A
j
fiind
primii j vectori proprii), cu Z
nj
matricea scorurilor componentelor principale.
z
ik
= a
1i
x
1k
+ a
2i
x
2k
+ + a
pi
x
pk

Rezult atunci
X = Z A
j
+ U
unde U
np
este matricea reziduurilor.
Se poate arta atunci c primele j componente principale sunt acele variabile
necorelate care constituie cele mai bune variabile predictor (printr-un model liniar) ale
variabilelor observate.
Criteriul este tot al celor mai mici ptrate

i j
ij
u
2
min

Se poate astfel spune c, dac s-ar determina mulimea de variabile necorelate
care prognozeaz cel mai bine (printr-un model liniar) variabilele observate, atunci
aceste noi variabile ar fi componentele principale.
Prin urmare, relaia matriceal
X = Z A
j
+ U
se interpreteaz ca evideniind variabilele ascunse (latente), z, care determin
variabilele observate x.
Numrul de componente principale
Din toat discuia de pn acum apare ca un punct important acela al fixrii
numrului j de componente principale care se rein n modelul final.
Aceast ntrebare nu are un rspuns precis. Exist o serie de proceduri
acceptate, discutate n continuare i care se aplic i altor metode factoriale.
O proprietate important a metodei este aceea a meninerii varianei totale a
datelor. Cu alte cuvinte
) var( ... ) var( ) var( ) var( ... ) var( ) var(
2 1 2 1 p p
Z Z Z X X X + + + = + + +

p
+ + + = ...
2 1

n cazul ACPN, variabilele sunt standardizate i, prin urmare,
p X X X
p
= + + + = + + + 1 ... 1 1 ) var( ... ) var( ) var(
* *
2
*
1

de unde rezult c suma varianelor componentelor principale este p:
p
p
= + + + ...
2 1

n general, primele q componente principale ofer un rezumat q-dimensional
al variabilelor iniiale, acela care are variana maxim dintre toate rezumatele
q-dimensionale. Pentru q = p nu are loc o reducere a dimensiunii, obinnd o simpl
transformare a variabilelor iniiale. Prin reinerea doar a primelor q valori proprii,
proporia explicat din variana total este
p
q


+ +
+ +
...
...
1
1

Acesta nu poate constitui un criteriu pentru numrul de factori reinui, ntruct
raportul crete o dat cu numrul factorilor (ajungnd la 1). Un prim criteriu poate fi
acela al reinerii acelor valori proprii care depesc media, adic
) ... (
1
1 p i
p
+ + >

criteriul implicit n SPSS, cu observaia c n ACPN criteriul devine identic cu
criteriul Kaizer.
Criteriul Kaiser
Se rein doar componentele principale corespunznd valorilor proprii mai mari
dect 1. Se aplic de regul n ACPN.
Criteriul Cattell (scree test)
Varianta grafic: se detecteaz pe diagrama valorilor proprii un cot. Se
rein doar valorile proprii de pn n acel loc, inclusiv.

Varianta analitic: se calculeaz

1
=
1
-
1
,
2
=
2
-
3
,

1
=
1
-
2
,
2
=
2
-
3
,
i se rein
1
, ,
k+1
astfel nct
1
,
2
, ,
k
s fie toate pozitive.
Analog, se ncearc trasarea unei drepte (dreapta de regresie) prin ultimele j
valori proprii i se rein doar valorile proprii situate deasupra acesteia.
Reprezentri grafice
In ACP/ACPN datele iniiale se refer la n observaii asupra a p variabile, care
pot fi interpretate ca
n puncte-indivizi (observaii) n R
p
,
p puncte-variabile n R
n
.
Reinerea unui numr de axe factoriale echivaleaz cu determinarea unui
subspaiu n care datele iniiale pot fi regsite cu suficient acuratee. Examinarea
structurii norilor de puncte din subspaiile respective se realizeaz prin metode
grafice, reprezentnd punctele prin proiecii pe un numr suficient de plane factoriale.
Astfel, pentru a putea nelege structura unui nor de puncte n R
3
este nevoie
de proiecia lor pe dou plane (xOy i xOz, de exemplu). Interpretrile difer totui
dup cum este vorba de variabile sau de observaii.
Variabile
Prin metoda numeric utilizat, coordonatele punctelor variabile sunt mai mici
de 1, punctele fiind pe sfera unitate. Cum distanele dintre puncte sunt invers
proporionale cu corelaiile dintre variabilele corespunztoare, gruprile de puncte
indic grupuri de variabile corelate.
Pentru eliminarea erorilor de perspectiv, aprecierea corect apare doar dup
analiza proiecii-lor pe mai multe planuri factoriale (= nr.de factori 1). Variabilele
apropiate de o ax sunt corelate cu acea component principal, se poate considera c
axa respectiv este o combinaie a variabilelor apropiate de ea.

Observaii
Reprezentarea punctelor-observaii prezint de asemenea gruprile de
observaii, fr a mai fi pe sfera unitate.
Prima ax factorial este, uzual, factorul de talie, separnd de-a lungul ei
observaiile mici de cel mari. A doua ax factorial este factorul de form. care
nuaneaz diferen-ele efectuate de primul factor.
Dac observaiile aparin la grupuri de interes, evidenierea claselor (ca n
figur) poate oferi informaii utile prin configuraiile vizibile. Concluziile sunt
justificate doar dup utilizarea unui numr suficient de proiecii.

Coordonatele punctelor observaii sunt, de regul, scalate astfel nct s
permit suprapunerea celor dou grafice (variabile, observaii). Dei trebuie o
oarecare grij n emiterea concluziilor (vezi, de exemplu, efectul de perspectiv n
configuraiile multidimensionale), asemenea vizualizri pot oferi explicaii ale
apropierilor dintre observaii prin variabilele apropiate acelui grup etc.


B. Instrumente SPSS
Dialogul Factor Analysis
Pentru a aplica analiza factorial, prin natura metodei, trebuie ca ntre
variabile s existe corelaii suficient de mari pentru a avea sens problema reducerii
dimensiunii. Prin urmare, dac o variabil nu este corelat cu celelalte va trebui
exclus din analiz. n acelai timp, nici corelaiile foarte mari (multicoliniaritatea) nu
conduc la rezultate uor de interpretat, situaia extrem fiind cea de singularitate, a
existenei variabilelor perfect corelate. n asemenea cazuri este imposibil s se
determine contribuia individual la un factor a variabilelor. Prin urmare este necesar
s se calculeze i s se analizeze matricea de corelaii a variabilelor prin Analyse
Correlate Bivariate, inclusiv determinantul acestei matrice pentru determinarea
multicoliniaritii.
Este de asemenea necesar s se testeze c variabilele au o distribuie apropiat
de distribuia normal (prin analizarea histogramelor sau a testelor de normalitate).
Dialogul principal este Analyse Data Reduction Factor. Se afieaz
dialogul Factor Analysis.

Variabilele procesate se trec n lista Variables iar n Selection Variable se
poate indica o variabil care selecteaz prin Value observaiile/cazurile considerate n
analiz. Parametrii analizei se fixeaz n dialogurile afiate de acionarea butoanelor
Descriptives, Extraction, Rotation, Scores, Options, dialoguri descrise n
continuare.
Descriptives
n grupul Statistics se poate cere afiarea statisticilor elementare (media,
abaterea standard etc.). Selectarea Initial solution afieaz comunalitile iniiale,
valorile proprii etc.

Grupul Correlation Matrix conine informaiile despre coeficienii de corelaie
i cele utile n studiul multicoliniaritii. Dintre acestea, Bartlett's Test of Sphericity
testeaz dac matricea de corelaie este aproximativ unitar (ca ipotez nul), ceea ce
denot o multicoliniaritate accentuat, dar nu precizeaz care variabil nu este
corelat cu celelalte. Acest studiu ar trebui realizat separat prin estimarea
coeficientului de determinare R
2
n fiecare model liniar X
i
= f (restul variabilelor X).
KMO (Kaiser-Meyer-Olkin) testeaz corelaiile pariale dintre variabile doar global,
ceea ce nu este util n identificarea variabilelor necorelate.
Acceptarea ipotezei nule din testul Bartlett conduce la ideea c variabilele nu
sunt corelate ntre ele, deci o ncercare de reducere a dimensiunii nu este sortit
succesului, fiecare variabil are o contribuie proprie important i care nu poate fi
suplinit de celelalte variabile.
Este de remarcat c dac o variabil nu este bine corelat cu celelalte (deci nu
contribuie la multicoliniaritate), aceast variabil poate fi omis din analiz.
Opiunea Reproduced afieaz matricea de corelaie estimat din soluia
factorial i se afieaz i reziduurile.
Extraction
Din lista Method se poate fixa metoda de analiz factorial. Pentru analiza n
componente principale sau componente principale normate se va selecta Principal
components. n acest caz, tipul analizei este dat de selecia din grupul Analyze:
correlation matrix pentru ACPN sau covariance matrix pentru ACP.

n grupul de opiuni Extract se poate indica exact numrul de factori sau
preciza pragul pentru valorile proprii (deci factorii) reinute. Prin selectarea opiunii
Scree plot se obine diagrama valorilor proprii care ofer ajutor n stabilirea numrului
de factori. Unrotated Factor Solution produce afiarea pentru soluie a ncrcrilor,
comunalitilor i valorilor proprii.
Deoarece soluia se obine n urma unui proces iterativ, se poate fixa numrul
maxim de iteraii n Maximum Iterations for Convergence.
Reamintim c din p variabile se pot extrage p componente, fiecare valoare
proprie reprezentnd partea de varian care este explicat de componenta respectiv.
Rotation
Rotaia reperului axelor factoriale pentru a prinde un unghi de vedere mai
bun se poate selecta n dialogul Rotation. Ca metode sunt disponibile: varimax (se
minimizeaz numrul de variabile cu ncrcri mari pe fiecare factor, ceea ce
simplific interpretarea factorilor), direct oblimin (rotaie oblic), quartimax
(minimizeaz numrul de factori necesari explicrii fiecrei variabile), equamax
(combinaie ntre metodele varimax i quartimax) i promax (rotaie oblic n care se
admit factori corelai).

Pentru soluia obinut n urma rotaiei se poate cere soluia sau diagramele
ncrcrilor pentru primii doi (dac nu s-au extras cel puin trei factori) sau trei
factori. i pentru procesul de rotaie se poate preciza numrul maxim de iteraii n
Maximum Iterations for Convergence.
Scores
Se poate cere salvarea ca noi variabile a scorurilor factoriale finale, fiecare
factor producnd o variabil. Cu alte cuvinte coordonatele cazurilor n reperul
factorial sau transformri ale acestora.
Se poate preciza metoda de calcul a scorurilor: regression (scorurile produse
au media zero i o dispersie egal cu ptratul corelaiei multiple ntre scorurile
factoriale estimate i coordonatele factoriale adevrate), Bartlett (scorurile produse au
media zero i este minimizat suma ptratelor factorilor reinui) sau Anderson-Rubin
(scorurile au media zero, abatere standard unitar i sunt necorelate).

Prin Display factor score coefficient matrix se afieaz matricea de corelaie
dintre scoruri i coeficienii cu care se nmulesc variabilele pentru a obine scorurile
factoriale.
Options
Se precizeaz modul de tratare a valorilor lips ca i modul de afiare a
matricelor, de exemplu se pot omite coeficienii care sunt n valoare absolut sub un
anumit prag.

Structura fiierului de ieire
Matricea de corelaie, dac este solicitat, se interpreteaz n mod uzual,
dupcum s-a explicat n lucrarea dedicat asocierii variabilelor. Se recomand
analizarea corelaiilor pentru a identifica variabilele care nu sunt corelate cu celelalte
(i care pot fi eventual omise din analiz, dac nu se dorete mai degrab reducerea
numrului de variabile dect analiza corelaiilor). Se afieaz i tabelul cu testele
amintite mai sus, asociate existenei multicoliniaritii:

Tabelul valorilor proprii (eigenvalues) conine, pe lng valoarea efectiv,
calculul necesar identificrii varianelor explicate de componentele respective. Suma
celor p valori proprii este egal cu p (numrul de variabile). Proporia de varian
explicat de o component este prin urmare raportul dintre valoarea proprie respectiv
i p (reamintind c fiecare valoare proprie reprezint partea de varian explicat,
captat de componenta respectiv):
3.313 47.327 47.327
2.616 37.369 84.696
.575 8.209 92.905
.240 3.427 96.332
.134 1.921 98.252
9.E-02 1.221 99.473
4.E-02 .527 100.000
Component
1
2
3
4
5
6
7
Total
% of
Variance
Cumulative
%
Initial Eigenvalues
Extraction Method: Principal Component Analysis.

Se observ c din ultima coloan se citete direct ct din variana total se
explic prin reinerea unui numr de componente.
Pentru ajutor n stabilirea numrul de componente se poate cere afiarea
diagramei valorilor (diagrama dat de exemplu conduce la reinerea a dou sau trei
componente, decizia final fiind influenat i de proporia cumulat a varianei
explicate):
Scree Plot
Component Number
7 6 5 4 3 2 1
E
i
g
e
n
v
a
l
u
e
3.5
3.0
2.5
2.0
1.5
1.0
.5
0.0

Tabloul Component Matrix, esenial n analiz, conine ncrcrile factorilor,
factor loadings. Matricea este referit i prin loading matrix sau factor pattern matrix.
Elementele matricei, ncrcrile, sunt corelaiile dintre componente (coloane) i
variabilele iniiale (linii). Datorit proprietilor componentelor (sunt ortogonale),
ncrcrile au i interpretarea de coeficieni standardizai din regresia multipl, cu alte
cuvinte arat cu cte abateri standard s
X
se modific X dac factorul respectiv se
modific cu o abatere standard s
F
.
Component Matrix
a
.760 -.576
.736 -.614
-.735 -.071
.710 -.646
.550 .734
.632 .699
.667 .675
COLOR
AROMA
REPUTAT
TASTE
COST
ALCOHOL
SIZE
1 2
Component
Extraction Method: Principal Component Analysis.
2 components extracted. a.

Structura mai util pentru interpretare este, totui, cea obinut dup rotirea
factorilor, care ofer o "viziune" mai bun. Matricea de ncrcare este afiat i dup
ce s-au rotit factorii, interpretarea fiind cea dat mai sus.
Rotated Component Matrix
a
.960 -.028
.958 1.E-02
.952 6.E-02
7.E-02 .947
2.E-02 .942
-.061 .916
-.512 -.533
TASTE
AROMA
COLOR
SIZE
ALCOHOL
COST
REPUTAT
1 2
Component
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Rotation converged in 3 iterations. a.

Se observ c sunt evideniate mai bine diferenele de ncrcare ale factorilor.
Observaie. ncrcrile factorilor constituie baza denumirii factorilor,
problem important n analiza factorial. Un factor, ca variabil latent, ar trebui s
poarte un nume pentru a fi neles, utilizat, referit etc. Structura de ncrcare a unui
factor poate oferi sugestii n acest sens, ncrcrile mai mari ca 0,6 sunt considerate ca
importante, cele sub 0,4 sunt sczute. Variabilele cu ncrcri mari constituie
combinaia de variabile iniiale care determin factorul, deci i denumirea lui (creat
evident de specialitii din domeniu, nu de statistician).
Dac s-a cerut o rotaie a factorilor, SPSS afieaz i variana explicat de
fiecare component dup rotaie. Variana explicat este egal cu suma ncrcrilor la
ptrat.

Acest tabel ajut s se decid cte componente ar trebui reinute, suma
ptratelor ncrcrilor (SSL, sum of squared loadings) dup rotaie este oarecum
similar unei valori proprii. Se pot, drept urmare, pstra acele componente cu SSL
post-rotaie mai mari ca 1.
ncrcrile post-rotaie arat cum sunt definite componentele. Dac o singur
variabil are o ncrcare mare la o component, componenta nu este bine definit.
Dac doar dou variabile au ncrcri puternice cu o component, componenta este
corect dac variabilele sunt corelate ntre ele dar nu sunt corelate cu celelalte
variabile.
Se numete comunalitate (communality)
proporia explicat de factori din variana unei
variabilei. Deoarece ncrcrile sunt corelaiile
dintre variabile i componente i cum
componentele sunt ortogonale, comunalitatea unei
variabile reprezint coeficientul de determinare,
R
2
, dac variabila este prognozat de componente.
Se poate calcula comunalitatea unei variabile ca
suma ptratelor ncrcrilor dup factori.
Comunalitile iniiale sunt 1 fiind calculate nainte de reducerea dimensiunii.

C. Lucrarea practic
1) Un studiu din 1979 a urmrit n diferite ri europene modul de ncadrare a forei
de munc n diferite ramuri industriale. Datele sunt sub form de procentaje i se
gsesc n fiierul www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Variabilele
sunt Country numele rii, Agr procentajul de muncitori din agrucultur, Min
procentajul de muncitori din minerit, Man procentajul de muncitori din
industria prelucrtoare, PS procentajul de muncitori din industria energetic,
Con procentajul de muncitori din construcii, SI procentajul de muncitori din
servicii, Fin procentajul de muncitori din finane, SPS procentajul de
muncitori din servicii sociale, TC procentajul de muncitori din transporturi i
comunicaii.
a) S se realizeze o analiz n componente principale.
b) S se deduc grupurile principale de state omogene ca structur a muncii.
2) Datele necesare acestul exerciiu sunt la adresa web
www.infoiasi.ro/~val/statistica/boston.sav.
Datele au fost utilizate i n lucrarea 8 n scopul prognozei preului de vnzare a
unei case din regiunea Boston n funcie de caracteristici diverse ale locuinei i
ale localizrii ei. Reamintim c variabilele sunt, n ordine, CRIM rata
criminalitii, ZN proporia teritoriului zonat n loturi de peste 25,000 sq.ft.,
INDUS proporia terirorial a zonei industriale, CHAS indicator de nvecinare
cu rul din zon (= 1 da, 0 nu), NOX concentraia de oxizi nitrici, RM numrul
mediu de camere, AGE proporia de locuine construite nainte de 1940 i
ocupate de proprietar, DIS distana ponderat la cinci centre productive din
Boston, RAD indicele de accesibilitate la reeaua de autostrzi, TAX rata de
impozit (procent la 10000$), PTRATIO raportul copii-profesori n zon, B
1000(Bk0.63)
2
unde Bk este procentajul populaiei de culoare n zon, LSTAT
procentajul populaiei srace, MEDV valoarea medie a caselor (n mii de dolari).
a) S se realizeze o analiz n componente principale a variabilelor dintre care
s-au exclus CHAS i MEDV.
b) S se analizeze dac apar diferene n rezultate atunci cnd se consider
separat grupurile definite de CHAS.
Statistic multivariat
Lucrarea nr. 12 Clasificare - SPSS
A. Noiuni teoretice
Clasificare
Prin clasificare se nelege gruparea unor entiti (observaii, obiecte etc.) n
clase (grupuri) de entiti similare. Atunci cnd gruparea este efectuat manual, cel
care o efectueaz opereaz cu judeci de similaritate, asemnare, apropiere. Acest tip
de raionament este formalizat i n metodele automate.
Exist, n esen, dou tipuri de clasificare automat:
1. predictiv, de exemplu analiza discriminant; se asigneaz o observaie la
un grup pornind de la reguli de clasificare derivate din observaii
clasificate n prealabil. Se poate ca schema de clasificare existent s fie
subiectiv, neutilizabil efectiv, astfel nct metoda descoper aspectele
eseniale ale schemei i le transform n reguli practice.
2. descriptiv, de exemplu analiza cluster; se grupeaz obiectele pe baza
similaritii lor, nu este cunoscut o grupare prealabil.
Clasificare predictiv
Considerm cazul a dou populaii multivariate,
1
i
2
, fiecare caracterizat
de repartiiile diferitelor variabile msurate. Problema clasificrii revine la a stabili
populaia la care aparine o observaie u (caracterizat de valorile variabilelor
considerate).
Notnd cu S spaiul de eantionare (care cuprinde observaii din
1
i din
2
),
o regul de clasificare revine la a partiiona S n A
1
i A
2
, astfel nct pentru o
observaie u se poate dezvolta o procedur care decide

dac u A
1
, atunci u
1

dac u A
2
, atunci u
2
Clasificare predictiv - Fisher
Regula de clasificare a lui Fisher este bazat pe maximizarea separaiei dintre
cele dou populaii, n spiritul analizei varianei. Presupunem c populaiile univariate
au, respectiv, mediile
1
,
2
i dispersia comun
2
.
Este evident (intuitiv) c o observaie u va fi clasat n
1
dac u este mai
apropiat de
1
i n
2
daca este mai apropiat de
2
.
In cazul a dou populaii m-dimensionale, ideea lui Fisher a fost s transforme
observaia multidimensional u ntr-o observaie univariat y = a'u. Problema devine
atunci aceea de a determina combinaia liniar, definit de vectorul a, astfel nct cele
dou populaii s fie separate (difereniate) ct mai mult posibil. Se ajunge astfel, n
cazul general, la problema studiat n analiza discriminant. Aceast analiz ofer ca
rezultat i funciile de clasificare:
Fiecare subpopulaie,
i
, are asociat o funcie de clasificare f
i
astfel nct
observaia u este clasat n populaia
j
determinat prin
) ( max ) ( u u
i
i
j
f f =

Definim centrul unei clase (sau centroidul clasei) n mod uzual, ca punctul
avnd drept componente mediile aritmetice ale componentelor corespunztoare din
punctele clasei. Funciile de clasificare sunt estimate pe baza distanelor dintre o
observaie (valorile celor m variabile determin un punct n spaiul R
m
) i punctele
centrale, centroizii claselor. Distanele se pot calcula ca distane euclidiene, dar, din
pcate distana euclidian nu reflect proprietile distribuionale ale variabilelor:
variabile msurate pe scale diferite, de ordine de mrime diferite, pot afecta foarte
mult distanele euclidiene. Componentele cu variabilitate mare ar trebui s contribuie
cu ponderi mai mici dect cele cu variabilitate mic.
Pentru a considera i distribuiile variabilelor au fost definite distane noi, cea
mai utilizat fiind distana Mahalanobis: dac este matricea de covarian a celor m
variabile, adic = cov(x)=exp[(x-exp(x))(x-exp(x))] atunci distana Mahalanobis
ntre punctele x = (x
1
, , x
m
) i y = (y
1
, , y
m
) , este definit prin
y) (x ) y (x y x,
1

=

) ( d
i, corespunztor, se definete norma unui vector prin
x x' x x
1

= = ) 0 , ( d
.
Clasificare predictiv k vecini
Considerm situaia clasificrii propriu-zise, adic sunt cunoscute n obiecte
prin atributele lor, inclusiv apartenena la clasele
1
,
2
, ,
k
, i se dorete clasarea
unei noi observaii.
Un algoritm suficient de des utilizat este acela denumit al celor k vecini
(k - nearest neighbours).
1. Se determin k obiecte cele mai apropiate de noua observaie.
2. Aceste k obiecte stabilesc clasa noului obiect prin
Vot majoritar noul obiect este clasat n clasa la care aparin cei mai
muli dintre cei k vecini (care dispun fiecare de un vot ntreg).
Vot invers proporional distanei similar votului majoritar, dar fiecare
dintre cei k vecini apropiai dispune de o fraciune de vot, egal cu
inversul distanei la noul obiect (obiectele mai apropiate contribuie mai
mult la decizie).
Clasificare descriptiv
In analiza multivariat, clasificarea descriptiv (cluster analysis) se refer la
metodele utilizate pentru a identifica ntr-o mulime de obiecte grupurile de obiecte
similare. Cazurile de aplicare ale acestor metode sunt similare celor n care se
utilizeaz analiza factorial.
Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaii, obiecte,
coloanele sunt variabile, atribute). In plus,
datele sunt omogene n sensul c are sens calculul distanelor dintre
elemente
exist suficient de multe date nct simpla inspecie vizual sau
prelucrrile statistice elementare nu ofer o imagine satisfctoare a
structurii datelor
tabloul de date este amorf: nu exist o structurare a priori (dependene
funcionale, relaii, clasificri cunoscute).
De remarcat c ultima caracteristic este cea care ne deprteaz de descrierea
predictiv (unde se presupunea existena unei structurri necesare n etapa de
training).
Drept rezultat al clasificrii descriptive se obin grupurile de elemente, clasele
identificate. Deoarece se pot aplica pe aceleai structuri de date, metodele clasificrii
descriptive sunt complementare metodelor analizei factoriale. De regul, atunci cnd
se utilizeaz mpreun, analiza factorial este efectuat mai nti, clasele evideniate
de aceasta fiind precizate, ierarhizate, localizate de clasificarea descriptiv.
Metodele de clasificare sunt de natur mai degrab algoritmic: clasele apar ca
urmare a unei suite de operaii efectuate recursiv sau repetitiv; matematica implicat
este relativ elementar.
Numim clas (grup, cluster) o mulime de obiecte (elemente) similare ntre
ele i nesimilare obiectelor din alte clase. Un cluster poate fi gndit (reprezentrile
grafice reflect aceste interpretri)
Ca o mulime de puncte care sunt apropiate (la distane mici) ntre ele i
deprtate de punctele din alte clase, sau
Ca o regiune conex dintr-un spaiu multidimensional care are o densitate
mare (relativ) de puncte, clusterele fiind separate ntre ele de regiuni cu o
densitate sczut (relativ) de puncte.
Rezult c problema esenial n determinarea (identificarea) clusterelor este
cea a specificrii proximitii (apropierii, similaritii) i cum se determin aceasta.
Este evident c proximitatea este o noiune dependent de problema real cercetat.
Structurile uzuale de date privind obiectele supuse analizei cluster sunt:
Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin
atributele lor n obiecte i p atribute vor furniza o matrice de tip np.
Liniile sunt obiecte (pattern-uri), coloanele sunt atribute (variabile).
Matricea de proximitate. Elementele d(i,j) reprezint proximitile dintre
obiectele i i j. Proximitatea poate fi
o similaritate (asemnare), cum ar fi coeficientul de corelaie, sau
o disociere (deprtare, difereniere), cum ar fi distana euclidian.
Atunci cnd atributele sunt de tipuri diferite (att discrete, ct i continue), se
poate calcula proximitatea dintre obiectele i i j prin
] 1 , 0 [ ) , (
1
) (
1
) ( ) (
=

=
=
f
i
f
ij
p
f
f
ij
f
ij
d
j i d


unde
) ( f
ij
este ponderea variabilei f

= = =
rest in 1
binara , asimetrica este si 0 0
lipsa sau pentru 0
) (
f x x
x x
jf if
jf if
f
ij


Menionm c
) ( f
ij
d este contribuia variabilei f la d(i,j) i anume:
- dac f este binar sau nominal, atunci

=
=
altfel 1
pentru 0
) ( jf if f
ij
x x
d

(Hamming)
- dac f este continu, atunci (normalizare prin amplitudine)
hf
h
hf
h
jf if
f
ij
x x
x x
d
min max
) (

=

- dac f este ordinal, se atribuie rangul r
if
, se calculeaz
1 max
1

=
hf
h
if
if
r
r
z
i se
consider c f este continu, avnd valorile z
if
.

Exist mai multe tipuri de algoritmi de clasificare:
- Algoritmi ascendeni (de agregare, de sintez) clasele sunt construite
prin agregarea succesiv a elementelor, se obine astfel o ierarhie de
partiii, de clase.
- Algoritmi descendeni (de divizare) mulimea obiectelor este divizat
succesiv n submulimi de obiecte din ce n ce mai omogene; se poate
obine i aici o ierarhie a partiiilor.
- Algoritmi de partiionare se pleac de la o partiie (structur de clase)
care se modific pentru a maximiza omogenitatea fiecrei clase.
Primele dou categorii pot fi reunite n clasificarea ierarhic (hierarchical
cluster analysis).
Clasificare descriptiv - agregare
Algoritmul fundamental de clasificare ascendent ierarhic este:
1. Etapa 0 exist cele n elemente care se clasific;
2. Etapa 1 se determin perechea de elemente cele mai apropiate ntre ele i
se produce, prin agregarea lor, un nou element;
3. Etapa 2 exist acum n-1 elemente care se clasific;
4. Se repet Etapa 1 i Etapa 2 pn cnd mulimea elementelor care se
clasific are un singur element.
Clasificare descriptiv - divizare
Metoda ierarhic descendent const n construirea ierarhiei n ordine invers:
1. Se pleac de la mulimea total a elementelor
2. La fiecare pas urmtor, cea mai mare (cea mai eterogen) grupare este
divizat n dou subgrupri.
3. Algoritmul se oprete atunci cnd toate grupurile constituite au cte un
singur element.
Pentru definirea grupului cel mai eterogen se utilizeaz diametrul grupului,
definit ca distana maxim dintre dou elemente din grup. Evident c se pot utiliza i
alte metode n acest scop.
Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis):
1. Se determin obiectul cu cea mai mare distan medie fa de celelalte
obiecte (cea mai mare disociere). Este obiectul care iniiaz un nou cluster,
S (splinter group).
2. Pentru fiecare obiect i din afara grupului S
a. se calculeaz
) , ( ) , ( j i d j i d D
j j
i
media media
S S
=

b. Se determin un obiect h cu D
h
= max D
i
.
c. Dac D
h
este pozitiv, atunci obiectul h se adaug grupului splinter
(este mai apropiat, n medie, de elementele din S).
d. Se repet a) c) pn ce D
h
este negativ. Mulimea iniial este
acum divizat n dou clustere.
3. Se selecteaz clusterul cu cel mai mare diametru. Acesta este divizat prin
paii 1 2.
4. Se repet 3) pn cnd toate grupurile constituite au un singur element.
Exist o diagram sugestiv (diagram steag) pentru un algoritm descendent,
n care pe axa vertical sunt obiectele, pe axa orizontal se trec diametrele clusterelor.

Clasificare descriptiv - partiionare
Metodele de partiionare din analiza cluster au ca ideea esenial aceea c se
poate porni de la o partiie oarecare a mulimii de obiecte i se poate ajunge, prin
migrarea obiectelor ntre clase, la o partiie care ndeplinete un criteriu de optim.
Partiia final constituie structura de clustere cutat. De reinut, totui, faptul c nu
exist un criteriu de optim care s funcioneze oricnd i pentru orice obiecte.
Metodele de partiionare sunt utile atunci cnd exist un mare numr de
obiecte, caz n care dendrogramele nu mai pot fi interpretate (cteva sute de obiecte
produc o dendrogram de neneles).
Majoritatea metodelor au drept criteriu de optim obinerea partiiei care
minimizeaz suma ptratelor erorilor (apare la distana Ward). Eroarea este distana
de la un obiect la centrul clusterului su.
Un algoritm general de partiionare este:
1. Se selecteaz o partiie iniial cu k grupuri i se calculeaz centrele
clusterelor.
2. Se genereaz o nou partiie atribuind fiecare obiect la clusterul cu
centrul cel mai apropiat.
3. Se calculeaz noile centre ale clusterelor.
4. Se repet paii 2-3 pn se stabilizeaz clusterele sau nu se
mbuntete criteriul ales.
5. Se ajusteaz numrul de clustere prin reunirea sau divizarea unor
clustere sau prin eliminarea clusterelor aberante (cu un numr mic de
elemente).
6. Se repet paii 2-5 pn se stabilizeaz clusterele sau nu se
mbuntete funcia criteriu.
Elementele importante ale algoritmului sunt comentate n continuare.
Partiia iniial
O partiie iniial se poate obine selectnd k obiecte, considerndu-le centre i
grupnd n jurul fiecruia restul de obiecte (fiecare element va fi asociat centrului cel
mai apropiat). Nu se recalculeaz centrele dup fiecare clasificare a unui element.
Centroizii fiecrui cluster astfel format constituie centrele pentru pasul
urmtor.
Cele k obiecte iniiale se pot alege aleatoriu sau dup criterii oferite de o
analiz prealabil (clasificare ascendent, analiz n componente principale etc.).
Clusterele iniiale pot fi date de o clasificare ascendent, de exemplu. De reinut,
totui, c partiii iniiale diferite conduc la clustere finale diferite.
Algoritmii care se bazeaz pe criteriul minimizrii sumei de ptrate a erorilor
conduc la atingerea unui optim local, cel puin dac grupurile nu sunt bine
difereniate. Se poate depi acest neajuns repetnd clasificarea cu partiii iniiale
diferite.
Dac se ajunge la o aceeai partiie, atunci se mrete ncrederea c s-a
atins un optim global.
In caz c nu, se pot analiza subgrupurile stabile (elemente care sunt
mereu mpreun), care pot oferi informaii despre numrul de clustere.
Actualizarea partiiei
Exist mai multe moduri de abordare a pasului 2 din metoda general:
Atribuirea fiecrui obiect la clusterul cu centrul cel mai apropiat.
o Centrele se recalculeaz dup fiecare atribuire, sau
o Centrele se recalculeaz dup ce au fost procesate toate obiectele.
Atribuirea fiecrui obiect n fiecare cluster i evaluarea funciei criteriu.
Se reine partiia care reduce cel mai mult valoarea funciei criteriu. Se
ncearc astfel evitarea unui optim local.
Ajustarea partiiei
Se pot defini condiii pentru reducerea, sau extinderea numrului de clustere.
Se ncearc astfel atingerea unui numr natural de clustere, apropiat de gruparea
real, neinfluenat de perturbaii introduse n procesul de determinare a observaiilor
sau din alte cauze exterioare.
Algoritmul cel mai cunoscut este, n acest sens, ISODATA (Ball & Hall,
Jensen):
Clusterele sunt comasate dac au puine elemente (sub un prag fixat) sau
dac distana dintre centrele lor este mic (sub un prag fixat).
Un cluster este divizat dac dispersia elementelor (dup atributul cel mai
dispersat) depete un prag fixat i dac exist un numr suficient de
elemente (de exemplu, de dou ori mai multe dect numrul minim).
Este de remarcat c existena valorilor aberante poate denatura procesul de
clusterizare. Din acest motiv, anumii autori recomand excluderea obiectelor
aberante (i chiar a celor din clusterele cu puine elemente).
Convergena
Dei nu se garanteaz atingerea unui optim global, algoritmul se oprete atunci
cnd funcia criteriu nu mai poate fi mbuntit, sau n anumite variante cnd
partiia nu se modific n dou iteraii succesive.
Demonstraii matematice ale convergenei au fost bazate
fie pe formularea problemei ca o problem de programare matematic,
fie pe artarea faptului c de la o iteraie la alta se mrete variana
interclase i se micoreaz variana intraclase, ceea ce dat fiind
finitudinea mulimii de obiecte produce oprirea procesului.
Clasificare descriptiv metode fuzzy
In afar de metodele deterministe, au fost dezvoltate i metode de clasificare
fuzzy. Intr-o metod fuzzy se obin, pentru fiecare obiect, probabilitile ca obiectul s
aparin la fiecare dintre clustere.
De exemplu, o metod fuzzy, similar metodei de partiionare, este metoda
celor c medii (fuzzy c-means), bazat pe minimizarea funciei obiectiv

= =
=
n
i
c
j
j i
m
ij m
c x d u J
1 1
2
) , (

unde
n - numrul de obiecte, c numrul de clustere,
m R , m > 1 este parametru (uzual este 2),
c
j
, j = 1c sunt centrele clusterelor, d este o distan de similaritate, u
ij
este
gradul de apartenen al lui i la clusterul j.
Rezultatul este coninut n matricea de apartenen (u
ij
) care ofer
probabilitile apartenenei elementelor la clase.
Partiionarea fuzzy se realizeaz iterativ (optimiznd implicit funcia obiectiv)
prin actualizarea la fiecare pas a matricei de apartenen (u
ij
) i a centrelor clusterelor
(c
j
)

|
|
.
|

\
|
=
c
l
m
l i
j i
ij
c x d
c x d
u
1
1
1
2
2
) , (
) , (
1

=
=
=
n
i
m
ij
n
i
i
m
ij
j
u
x u
c
1
1
Procesul se oprete atunci cnd matricea de apartenen se stabilizeaz:
<
+ ) ( ) 1 (
,
max
k
ij
k
ij
j i
u u

unde (0, 1) are semnificaia uzual n procese iterative similare.
Distane ntre obiecte
n continuare sunt prezentate metodele uzuale de calculare a distanelor dintre
obiecte (elemente sau grupuri deja constituite). Alegerea unei anumite distane
modific gruprile care se constituie.
Metoda celui mai apropiat vecin (nearest neighbor method)
Distana dintre dou grupuri este distana minim dintre dou elemente ale
grupurilor (distana dintre cele mai apropiate elemente din clase diferite)
( ) ) , ( min ,
2 1
,
2 1
y x d
y x


= d

n imaginea urmtoare se exemplific, prin numerotarea 1 6 ordinea de
atribuire a elementelor respective la grupurile figurate n extremiti. Astfel, un lan de
obiecte apropiate dou cte dou este atribuit, de regul, la un singur grup, ceea ce nu
produce o grupare acceptabil.

Metoda celui mai deprtat vecin (farthest neighbor method)
Aceast metod utilizeaz calcularea distanei dintre dou grupuri drept
distana maxim dintre dou elemente ale grupurilor (distana dintre cele mai
deprtate elemente din clase diferite)
( ) ) , ( max ,
2 1
,
2 1
y x d
y x


= d

Metoda are avantajul c nu aglomereaz grupuri legate printr-un lan. n
imaginea alturat se poate vedea ordinea de atribuire 1 6 a elementelor
corespunztoare la cele dou grupuri extreme. Gruparea obinut corespunde mai bine
i gruprii intuitive (efectuat de un operator uman).

Metoda legturii medii
Distana dintre dou grupuri este distana medie dintre perechile de elemente
ale grupurilor
( )


=
1 2
) , (
1
,
2 1
2 1


x y
y x d
n n
d

Metoda distanei centrelor (average group linkage)
Se consider, ca distan dintre dou grupuri
1
i
2
, distana dintre centrele
grupurilor
( ) ) , ( ,
2 1
2 1
G G d = d

unde centrele G
1
i G
2
au drept componente mediile aritmetice ale componentelor
elementelor din cele dou grupuri, respectiv.
De remarcat c centrul unui grup este dinamic, fiecare nou element putnd
produce deplasarea lui. Centrul unui grup format dintr-un singur element este chiar
acel element.
Metoda distanei Ward (Ward's linkage)
Distana Ward este bazat pe creterea suma de ptrate a erorilor dup
contopirea grupurilor ntr-unul singur. Metoda Ward selecteaz gruprile care
minimizeaz creterea sumei de ptrate a erorilor.
( ) ( ) ) ( ) ( ) ( ,
) (
2 1 2 1 2 1
2


SP SP SP
x x SP
x
+ =
=

d

Dendrograma
Ca rezultat al algoritmului se obine arborele de clasificare (dendrograma).
Prin secionarea orizontal a dendrogramei se obine o partiie a mulimii
elementelor clasificate. Componentele partiiei sunt clasele cutate.
n figura alturat este prezentat o dendogram. Pe axa orizontal sunt
elementele iniiale (ordinea este cea care permite desenarea arborelui). Pe axa
vertical sunt distanele dintre obiecte, de exemplu, ntre obiectele 4 i 6 este o
distan egal cu 4.


Calitatea clasificrii
Deoarece ntr-o problem de clusterizare nu se cunoate nimic a priori
(numrul de clase n special), evaluarea calitii partiiei obinute este o etap foarte
important. Evaluarea trebuie s ia n considerare att faptul c, poate, mulimea
iniial nu are o structur bine determinat de clase, ct i faptul c diferite metode
conduc la clase diferite.
Procedurile uzuale de evaluare:
Vizualizarea partiiei (dendrograme, profiluri, proiecii).
Indicatori de calitate
o Coeficienii de divizare (divisive coefficient DC) i de aglomerare
(agglomerative coefficient AC) care ofer indicatori (medii)
globali.
o Indici de siluet (Silhouette) care se pot defini att global, ct i
local pentru fiecare cluster.
Divisive Coefficient (DC): Pentru fiecare obiect i, se calculeaz d(i) ca fiind
raportul dintre diametrul ultimului cluster (n ordinea dat de algoritmul de divizare)
la care a aparinut obiectul nainte de a fi separat ca un singleton i diametrul mulimii
totale de obiecte (clusterul iniial). Atunci

= ) (
1
i d
n
DC

Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea
ascendent: Pentru fiecare obiect i, se calculeaz d(i) ca fiind raportul dintre
disocierea primului cluster (n ordinea dat de algoritm) la care se ataeaz obiectul i
diametrul mulimii totale de obiecte (clusterul final).
| |

= ) ( 1
1
i d
n
AC

AC tinde s creasc o dat cu numrul de obiecte.
Silueta se calculeaz (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a
unui cluster, silueta medie global. Acest indice vrea s reprezinte ct de bine este
separat un cluster de vecinii si (deci ct de apropiate sunt elementele dintr-un cluster
distana intra-cluster i ct de deprtate sunt de celelalte clustere distana inter-
clustere).
Prin calculul siluetei se poate decide asupra validitii unui cluster, ca i
asupra numrului corect de clustere.
Notnd cu S (i) silueta obiectului i, formula de calcul este
} , max{
) (
i i
i i
b a
a b
i S

=

unde a
i
disocierea medie a obiectului i fa de restul obiectelor din acelai cluster;
b
i
disocierea medie a obiectului i fa de obiectele din cel mai apropiat cluster (al
doilea candidat pentru includerea obiectului i).
Dac obiectul i este singurul element al unui cluster, atunci
S (i) = 0.
Rezult c -1 S (i) 1 i S (i) poate fi considerat ca un indice adimensional,
cu putere de comparare. Interpretarea este
Dac S (i) este apropiat de 1, atunci obiectul este bine clasificat (este
asociat cu clusterul adecvat).
Dac S (i) este aproape nul, atunci obiectul poate fi clasificat i n
urmtorul cluster apropiat (obiectul este situat similar n raport cu ambele
clustere)
Dac S (i) este apropiat de 1, atunci obiectul este clasificat eronat (el este
separat fa de celelalte clustere).
Fiecare cluster este caracterizat de silueta medie, obinut ca media siluetelor
elementelor din cluster.
Intreaga structur de clustere este caracterizat de silueta medie global,
obinut ca media siluetelor S(i) dup toate obiectele i. Dac structura conine un
numr k de clustere, se noteaz silueta medie global cu S
k
. Silueta medie global se
poate utiliza pentru a decide asupra celui mai bun numr de clustere: se va alege
acel k pentru care S
k
este maxim.
Se introduce coeficientul siluet prin
k
k
S SC max =

Este propus (Rousseeuw - 1987) urmtoarea interpretare a coeficientului
siluet dup valoarea sa:
0.71 - 1.00 s-a determinat o structur puternic (bine definit) de
clustere;
0.51 - 0.70 s-a determinat o structur acceptabil
0.26 - 0.50 structura determinat este slab, poate fi artificial
0.25 structura determinat este artificial.

B. Instrumente SPSS
Procedurile care rezolv probleme de clasificare sunt grupate n Analyze
Classify. Dintre ele se prezint n continuare K-Means Cluster care urmrete metoda
general prezentat n curs i Hierarchical Cluster pentru clasificarea ierarhic. De
menionat c dei algoritmul K-Means este cel mai direct i mai eficient ca volum de
calcule, el utilizeaz distana euclidian iar standardizarea prealabil a variabilelor
este important. Pentru considerarea altor distane se va apela procedura Hierarchical
Cluster.
K-Means Cluster
Algoritmul const n fixarea iniial aleatorie a centrelor claselor (numrul de
clase este cunoscut) i apoi se repet etapele:
atribuirea fiecrui caz la centrul cel mai apropiat,
actualizarea centrelor ca valori medii ale elementelor aparinnd clasei
respective.
Ca interpretare se poate considera c centrul unei clase finale reflect
caracteristicile unui element tipic al clasei prin valorile variabilelor n acel centru.
Prin Analize Classify K-Means Cluster se deschide dialogul

n lista Variables se vor trece variabilele n funcie de care se face clasificarea.
Se poate utiliza o variabil pentru etichetarea cazurilor prin specificarea ei n Label
Cases by. Numrul de clustere se poate fixa n Number of Clusters. O ghicire a
numrului de clustere poate fi obinut aplicnd n prealabil ACP i studiind
diagramele proieciilor pe planele factoriale. Ca metod se poate alege
Iterate and classify pentru a realiza o adaptare iterativ a clasificrii cazurilor prin
recalcularea centrelor dup fiecare iteraie. Dac se dorete utilizarea rezultatelor
i pentru clasificarea altor cazurii, informaiile se vor salva ntr-un fiier prin
selectarea opiunii Write final as din grupul Cluster Centers.
Classify only pentru realizarea clasificrii cazurilor atunci cnd se citesc dintr-un
fiier centrele claselor, calculate n prealabil i salvate. n acest caz se va selecta,
din zona Cluster Centers, Read initial from i se va preciza File, fiierul salvat
ntr-o prelucrare anterioar.
Prin acionarea butonului Iterate din dialogul principal, buton permis doar
pentru metoda Iterate and classify, se deschide dialogul sinonim.
n Maximum Iterations se fixeaz limita numrului de
iteraii, cel mult 999. Valoarea dat n Convergence
Criterion reprezint o proporie p din distana minim dintre
centrele iniiale, deci poate fi ntre 0 i 1. Procesul iterativ se
oprete dac niciun centru recalculat nu este deplasat cu mai
mult de 100p% din distana minim dintre centrele iniiale iteraiei.
Prin selectarea opiunii Use running means se cere
recalcularea centrelor la fiecare clasare a unui caz i nu dup
clasarea tuturor cazurilor.
Acionarea butonului Save din dialogul principal
deschide dialogul prin care se poate cere salvarea unor
informaii ca noi variabile.
Cluster membership se salveaz ca valori 1 k apartenena la clusterele
finale. Distance from cluster center salveaz distana euclidian dintre caz i centrul
clasei la care aparine.
Prin dialogul Options, afiat la acionarea butonului Options din dialogul
principal, se pot preciza statisticile calculate i modul de tratare a datelor lips.
n grupul Statistics:
Initial cluster centers prima estimare a centrelor,
obinut prin alegerea unui numr de cazuri egal cu
numrul de clustere.
ANOVA table se afieaz tabelul ANOVA pentru
fiecare variabil, considernd clusterele drept
factor. Valorile F mari vor arta variabilele care
contribuie cel mai mult la structura clusterelor.
Cluster information for each case afieaz asignrile finale la clase, distana la
centrul clasei ca i distanele euclidiene dintre centrele finale.
Rezultatele SPSS n cazul K-Means Cluster
Ieirea depinde de opiunile selectate n dialogurile procedurii, tabelele listate
n cazul (aproape) complet sunt prezentate n continuare. S-a realizat o clasificare
ilustrativ utiliznd fiierul SPSS de test Employee Data.
Centrele iniiale ale claselor sunt alese aleatoriu, attea cte clustere sunt
indicate n dialogul principal. Se prezint coordonatele centrelor n spaiul
variabilelor.

Modificrile survenite n timpul procesului iterativ sunt sistematizate n
tabloul urmtor, prezentndu-se modificrile aprute n coordonatele centrelor.

Centrele claselor finale sunt afiate ntr-un tabel similar celui care arat
centrele iniiale:

O verificare mai mult orientativ asupra separrii clusterelor dup fiecare
variabil considerat este coninut n tabelul ANOVA:

Cum nsi procesul de clasificare urmrete o ct mai bun difereniere a
clusterelor, toate testele F duc la respingerea ipotezei de egalitate a mediilor
clusterelor. Se poate ns interpreta comparativ valoarea statisticii F n sensul c
variabilele care au asociate valori mai mari asigur o difereniere mai pronunat.
Un tabel final arat cte elemente sunt clasificate n fiecare cluster.

Apartenena observaiilor (cazurilor) la clustere i distana pn la centrul
clasei sunt create ca noi variabile cu denumiri implicite, dup modelul

Informaiile salvate pot fi utilizate, n afara scopului propus de a cunoate
unde aparine fiecare observaie, i pentru ilustrarea clasificrii prin diagrama de
forma urmtoare, n care se poate observa modul de difereniere a claselor dup
diverse variabile (comanda a fost Graph - Scatter - Simple Scatter i s-a precizat
noua variabil Cluster Number n Set Markers by).

Hierarchical Cluster
Algoritmul pleac de la clustere coninnd un singur element (cazurile) i
reunete clustere pn cnd se obine un singur cluster. Se pot selecta mai multe
distane, se afieaz statistici la fiecare pas pentru a ajuta la selectarea numrului
optim de clustere.
Comanda este Analyze Classify Hierarchical Cluster care produce
afiarea dialogului principal.

Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opiunii
selectate n grupul Cluster. Variabilele reprezentnd caracteristicile dup care are loc
clasificarea sau care se clasific se trec n lista Variables i se poate alege o variabil
de etichetare a cazurilor (la clasificarea cazurilor) util n reprezentrile grafice.
Grupul Display controleaz ce se afieaz, deci accesibilitatea la butoanele Statistics,
Plots. Dialogurile secundare sunt explicate n continuare.
Statistics
Agglomeration schedule se afieaz
combinaiile din fiecare iteraie, distane etc.
Proximity matrix se afieaz distanele sau
similaritile dintre elemente. Cluster Membership
produce afiarea apartenenei la clustere n una sau
mai multe iteraii.
Plots
Diagramele de aglomerare sunt disponibile n
formatul
Dendrogram (dendrograma explicat in curs,
orientat spre vizualizarea clusterelor) sau
Icicle (similar diagramei steag, orientat spre
vizualizarea cazurilor).
Orientarea diagramei poate fi vertical sau
orizontal. n reprezentarea dendrogramei, distanele
dintre elementele care se unesc sunt transformate pe o
scal 0 25, cu pstrarea raportului distanelor.
Method
n lista Cluster Method se poate alege una dintre metodele explicate n curs ca
metode de agregare, de calculare a distanelor dintre clustere: cel mai apropiat vecin
(nearest neighbor), cel mai deprtat vecin
(furthest neighbor), distana fa de centru
(centroid clustering), Ward etc.
n grupul Measure se poate specifica
distana sau similaritatea utilizat n grupare
potrivit tipului de date:
Interval pentru datele continue sunt
disponibile distanele: euclidian, cosinus
(cosinusul unghiului dintre vectorii
punctelor), corelaia Pearson, Chebychev
(diferena absolut maxim dintre valorile
elementelor), block (suma diferenelor
absolute dintre componente, distana Manhattan), Minkowski (rdcina de ordin p
din suma diferenelor absolute la puterea p), Customized (similar cu distana
Minkowski, dar rdcina poate fi de ordin r diferit de puterea p a diferenelor de
coordonate)
Count pentru frecvene (de date discrete) sunt disponibile msurile de disociere

2
i
2
(a se vedea seciunea privind asocierea datelor nominale).
Binary pentru datele dihotomice exist o mulime de distane propuse, bazate pe
tabelul de frecvene ncruciate a celor dou variabile. Se pot preciza valorile
interpretate ca 0 sau 1.
n grupurile Transform Values i Transform Measures se pot selecta metode
de transformare prealabil a valorilor astfel nct variabilele s fie ct mai omogen
msurate.
Save
Se poate salva, sau nu, ca variabile noi,
apartenena la clustere. Selectarea opiunii Single
solution i precizarea numrului de clustere
considerat ca soluie final va salva apartenena la
acel stadiu.
Dac se selecteaz Range of solutions, se va
salva apartenena la fiecare stadiu dintre cele
menionate.
C. Lucrarea practic
1) Setul de date aflat la adresa www.infoiasi.ro/~val/statistica/EuropeanProtein.txt
conine consumul de proteine n 25 de ri europene. Datele se refer la anul 1973.
Sunt msurate urmtoarele variabile: Country - numele rii, RdMeat - carne roie,
WhMeat - carne alb, Eggs - ou, Milk - lapte, Fish - pete, Cereal - cereale,
Starch - grsimi, Nuts - oleaginoase, Fr&Veg - fructe, vegetale.
a) s se realizeze o analiz factorial pentru a stabili numrul de clase n care pot
fi grupate cele 25 de ri
b) s se realizeze o clasificare a celor 25 de ri; s se studieze concordana cu
situaia observat la punctul a).
2) Datele acestei probleme sunt cele prelucrate i n lucrarea numrul 11,
www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Reamintim variabilele: Country
numele rii, Agr procentajul de muncitori din agrucultur, Min procentajul
de muncitori din minerit, Man procentajul de muncitori din industria
prelucrtoare, PS procentajul de muncitori din industria energetic, Con
procentajul de muncitori din construcii, SI procentajul de muncitori din
servicii, Fin procentajul de muncitori din finane, SPS procentajul de
muncitori din servicii sociale, TC procentajul de muncitori din transporturi i
comunicaii.
a) s se aplice un algoritm de clasificare ierarhic
b) s se aplice algoritmul k-means pentru k = 4; s se compare cu rezultatul
clasificrii realizate la a).