Documente Academic
Documente Profesional
Documente Cultură
Doct LPStatistica 2007 PDF
Doct LPStatistica 2007 PDF
C. Lucrarea practic
1. Se va importa n Excel fiierul de date
http://thor.info.uaic.ro/~val/statistica/Admitere.txt
care conine datele de la un examen de admitere la facultatea de
informatic, pe vremea cnd examenul includea i o prob scris.
2. Se va stabili tipul fiecrei variabile (nominal, ordinal, interval)
Legitimatie - numrul legitimaiei (eliberate n ordinea
nscrierii)
Bacalaureat - media la bacalaureat
Optiune - proba la alegere (A - analiz matematic, C -
programare C, P - programare Pascal)
Sala - sala de examen
Scris - media la scris
Final - media final
Situatie - situaia dup examen (1 - fr taxa, 2 - cu tax, 3 -
respins, 4 - n ateptare)
3. Se vor caracteriza variabilele cu ajutorul indicatorilor statistici
adecvai.
4. Se vor realiza grafice de ilustrare a distribuiilor variabilelor.
5. Se vor identifica subpopulaiile pentru care este de interes s se
realizeze prelucrri separate.
6. S se creeze tablourile de frecvene ncruciate dintre variabilele
Opiune i Situaie, incluznd i calculul frecvenelor relative.
7. Utiliznd att indicatori statistici ct i reprezentri grafice, se vor
compara subpopulaiile att dup repartiiile unor variabile discrete, ct
i a unor variabile continue. Se va decide:
i. dac a fost mai avantajos s se dea examen la analiz sau la
programare; la analiz, la programare C sau la programare
Pascal;
ii. care candidai i-au depit ateptarea dat de media la
bacalaureat;
iii. dac s-au obinut note mai mari la scris de ctre cei care au
susinut proba n sli de examen mai mari;
iv. dac se poate spune c acei candidai care s-au nscris n
primele zile au avut rezultate mai bune.
Statistic multivariat
Repartiia normal
Aceast repartiie are un rol central, att din considerente teoretice, ct i
practice (nu n ultimul rnd, uurina aplicrii). Teoretic, repartiia normal reprezint
o repartiie limit ctre care tind, n anumite condiii, celelalte repartiii.
Prin definiie, o variabil continu X are o repartiie normal, sau repartiie
GaussLaplace, dac funcia de repartiie este dat de:
x (t )2
1
F(x) = P(X < x) = e 2 2 dt , x , , > 0,
2
unde i sunt parametrii funciei de repartiie
Funcia de repartiie normal se va nota prin N(; 2) iar faptul c v.a. X este
repartizat normal cu parametrii i se noteaz X ~ N(; 2).
Parametrii repartiiei au semnificaia unor valori tipice i anume
M(X) = Me(X) = Mo(X) = D2(X) = 2
motiv pentru care se poate vorbi de repartiia normal cu media i dispersia 2, ceea
ce determin complet repartiia.
Repartiia normal N(0,1) se numete repartiia normal redus, repartiia
normal normat sau repartiia normal standard. O v.a. repartizat N(0;1) este
notat, n mod uzual, cu Z i este referit drept variabil Z, variabil normal redus
etc. Orice variabil repartizat normal poate fi transformat ntr-o v.a. repartizat
N(0;1) prin transformarea (de normare, de standardizare)
X
Z= .
Inferena statistic
Prin inferen statistic se nelege, n sensul precizat anterior, obinerea de
concluzii bazate pe o eviden statistic, adic pe informaii derivate dintr-un
eantion. Concluziile sunt asupra caracteristicilor populaiei din care provine
eantionul.
Observaie. Dac este investigat ntreaga populaie, atunci rezultatele care se obin
constituie finalul prelucrrii i nu sunt necesare (i nici posibile) prelucrrile introduse
n aceast seciune.
Prin eantion (sau selecie) vom nelege o submulime a populaiei statistice
considerate. Operatiunea de formare a unui eantion se numete sondaj. Sondajele
care au anse mai mari de a produce eantioane reprezentative sunt cele bazate pe
proceduri de selecie aleatoare.
In eantioane diferite, statisticile calculate au valori diferite. n acest fel se
poate vorbi despre o distribuie a valorilor statisticii n mulimea eantioanelor de un
acelai volum; apare astfel distribuia de sondaj a statisticii respective.
Inferena statistic implic trei distribuii asociate cu caracteristica studiat:
distribuia populaiei;
distribuia de sondaj;
distribuia eantionului.
Prin distribuia populaiei se nelege distribuia pe care o are caracteristica
studiat (sau v.a. asociat ei) n populaie. Aceast distribuie nu este, n general,
cunoscut. Interesul unei cercetri este tocmai acela de a studia aceast distribuie.
Prin distribuia eantionului se nelege distribuia pe care o are caracteristica
studiat n eantionul disponibil n studiu. Aceast distribuie este cunoscut complet,
ntruct toate datele necesare sunt msurate.
Prin distribuia de sondaj a unei statistici se nelege distribuia pe care o are
statistica n mulimea tuturor eantioanelor de volum dat. Este ns remarcabil faptul
c, din considerente teoretice, ntre distribuia populaiei i distribuia de sondaj exist
legturi bine precizate sau, datorit unor teoreme de limit central, se cunoate forma
acestei distribuii atunci cnd volumul eantionului crete (tinde spre infinit).
Inferena statistic urmeaz, n general, urmtorul algoritm:
se obine, printr-un procedeu valid, un eantion;
se calculeaz o valoare tipic a eantionului (o statistic de sondaj);
din considerente teoretice, se cunoate repartiia din care provine aceast valoare
tipic i relaia repartiiei de sondaj a statisticii cu valoarea tipic din populaie;
utiliznd repartiia de sondaj a statisticii se pot face evaluri ale erorilor de
estimaie.
Repartiia de sondaj a mediei este caracterizat de
2
M( x) = , D 2 ( x) = , D( x) = .
n n
Practic, se poate accepta o repartiie N(;2/n)
pentru n > 10 dac repartiia lui X este aproape simetric, sau
pentru n > 30 pentru repartiii cu asimetrie pronunat sau necunoscut.
Estimaii
Se numete estimator orice entitate a crei valoare poate fi utilizat drept
valoare (de regul aproximativ) pentru o alt entitate. Valoarea estimatorului se zice
c este o estimaie.
Valoarea care aproximeaz, pe baza datelor de sondaj, valoarea necunoscut a
unui parametru al populaiei poart denumirea de estimaie statistic. Astfel, media
aritmetic este estimator pentru media populaiei , abaterea standard s este estimator
pentru abaterea standard a populaiei etc.
Dup natura lor, n statistic se utilizeaz dou tipuri de estimaii:
punctuale
sub form de interval.
Printr-o estimaie punctual se nelege valoarea unui estimator calculat
ntr-un eantion. Numim eroare de estimare valoarea absolut a diferenei dintre
estimaia punctual i valoarea parametrului estimat.
Fie o populaie statistic, caracterizat de o v.a. continu X a crei repartiie
depinde de un parametru , necunoscut. Prin definiie, dac se pot determina 1 i 2
astfel nct pentru o valoare prestabilit (0 < < 1) s aib loc
P(1 < < 2 ) = 1 , atunci intervalul (1, 2) se numete interval de ncredere
pentru parametrul necunoscut , cu un coeficient (sau nivel) de ncredere egal cu ,
sau cu o siguran statistic S = 1.
Dac att 1 ct i 2 sunt finite, atunci intervalul de ncredere se zice bilateral.
n cazul cnd 1 este -, sau 2 este +, ceea ce revine n fapt la determinarea unei
singure limite, intervalul se zice unilateral.
Raionamentul general
Lumea real Statistic
Se formuleaz setul de ipoteze H0, H1
Are loc un eveniment Se calculeaz, dintr-un eantion, o statistic (statistica
testului).
Se calculeaz, n ipoteza H0, probabilitatea pc de apariie a
valorii calculate (probabilitatea critic a testului, p-value).
Rezult c probabilitatea Dac pc este mic, apare o contradicie,
de realizare este suficient
de mare
Pentru a rezolva contradicia se va respinge H0 n favoarea
ipotezei H1 deoarece motivul pentru care probabilitatea
critic este mic este faptul c la calculul acesteia s-a
acceptat ipoteza H0.
Dac pc este mare, nu se respinge H0, nu exist nici un motiv
pentru a lua decizia contrar.
Rmne o singur ntrebare: ncepnd de unde o probabilitate este considerat
drept mic? Pentru a nu introduce subiectivismul n aceast decizie, se fixeaz,
anterior deciziei n test, un prag sub care o probabilitate este considerat mic.
Aceast valoare se numete prag de semnificaie i se noteaz uzual cu .
Regula de decizie n test poate fi formulat atunci:
dac pc , atunci se respinge ipoteza nul, H0, n favoarea ipotezei
alternative, H1;
dac pc > , atunci nu se respinge ipoteza nul H0.
Se numete regiune de respingere, pentru un nivel de semnificaie fixat,
mulimea rezultatelor (valorilor statisticii testului) care conduc la respingerea ipotezei
H0. Dac se pot defini limitele numerice ale regiunii de respingere, acestea se vor
numi, uneori, valori critice ale testului.
Testele pot fi
parametrice = ipoteza H0 este strict legat de un parametru al
populaiei, iar statistica testului are o repartiie cunoscut tocmai din
aceast ipotez.
neparametrice = repartiia statisticii testului se calculeaz i nu rezult
din presupuneri apriorice asupra acestei distribuii i a probabilitilor
ataate.
Testele parametrice pot fi ( noteaz un parametru al populaiei):
bilaterale (nedirecionale)
H0: = 0
H1: 0
unilaterale (direcionale)
H0: = 0
H1: < (sau >) 0
Un test statistic are, de multe ori, o denumire dat de repartiia statisticii
testului: teste normale (sau Z), teste Student (sau t), teste F etc. Astfel, un test 2
reprezint un test a crui statistic are o repartiie de sondaj din clasa 2..
Categorii de teste
Testele sunt clasificate n teste pentru variabile continue i teste pentru
variabile discrete (nominale sau ordinale). Primele sunt, de regul, teste parametrice,
celelalte sunt neparametrice.
Teste de concordan
Aceste teste se refer la potrivirea, concordana dintre valorile calculate n
eantion (statisticile de sondaj) i valorile parametrilor respectivi din populaia
statistic (valori cunoscute sau presupuse). Cu alte cuvinte, problema poate fi
formulat: ct de mult poate s se abat o valoare calculat (dintr-un eantion) de la
valoarea presupus pentru ntreaga populaie pentru a putea considera c are loc o
nepotrivire ntre cele dou valori?
Dei formulat astfel problema pare c se refer la eantion i la populaia de
baz, punctul de vedere corect este:
1. exist o populaie statistic de interes, fie ea P1;
2. pentru orice eantion se poate considera o populaie de baz din care este
extras eantionul (reprezentativ pentru acea populaie); fie P2 aceast
populaie;
3. problema este dac se poate considera c P2 este n concordan cu P1,
adic parametrii de interes ai celor dou populaii nu difer semnificativ.
Se observ c testarea se va efectua pentru ipoteze privind populaii, se va
utiliza informaia dintr-un eantion, deci rmnem n domeniul inferenei statistice.
Ipoteza nul va afirma, n general, c populaiile P1 i P2 concord.
Respingerea ipotezei nule poate avea, n practic, dou consecine:
se va considera c eantionul nu este reprezentativ pentru populaia de interes,
populaie care se consider stabil; se va cuta un alt eantion;
sau
se va considera c populaia P1 i-a modficat ntre timp parametrii; noua
populaie de referin este P2.
Alegerea ntre cele dou afirmaii aparine practicianului din domeniul studiat,
fiind, de cele mai multe ori, o alegere ghidat de intuiie, de experien etc.
Testul erorii standard a mediei
Fie P1 populaia statistic de interes, caracterizat de media 0 (cunoscut sau
presupus) i de abaterea standard (cunoscut). ntrebarea este dac valorile tipice
de sondaj susin ipoteza c eantionul este din populaia P1, accentul fiind pus pe
media populaiei.
n testul erorii standard a mediei se presupune c sunt ndeplinite condiiile
care asigur mediei de sondaj o repartiie normal sau aproape normal:
caracteristica studiat este repartizat normal sau
eantionul este mare (n30).
In aceste condiii, media de sondaj urmeaz o repartiie normal N(,2/n),
unde este media populaiei (notat n introducerea seciunii cu P2) din care provine
eantionul. Pentru P2 se presupune aceeai abatere standard (se studiaz modificarea
mediei unei populaii). Rezult c variabila transformat
x x
Z= = n
x
este repartizat normal standard i poate fi utilizat pentru calcularea
probabilitilor necesare. Ipotezele testului erorii standard a mediei sunt
pentru testul bilateral: pentru testele unilaterale:
H 0 : = 0 H 0 : = 0 H : = 0
(A) (B) ' sau (C) 0
H1 : 0 H1 : < 1 H1 : > 0
Teste de comparare
Categoriile de teste prezentate aici se bazeaz, aparent, pe compararea datelor
de sondaj care aparin la dou eantioane. Cum ansa de a se obine dou eantioane
identice este extrem de redus, problema comparrii eantioanelor, luat n sensul
strict al cuvntului, pare neimportant.
Un test de comparare trebuie, ns, nscris n inferena statistic: fie dou
eantioane extrase din dou populaii P1 i P2 respectiv. Prin utilizarea eantioanelor
se dorete de fapt compararea celor dou populaii.
Dificultatea procedurii const n aceea c diferenele dintre cele dou
eantioane, ca i similaritatea lor, se pot datora:
diferenelor dintre populaii, i/sau
diferenelor de sondaj dintre eantioane.
Testul F
Compararea mediilor populaiilor normale ia n considerare mprtierea
datelor n cele dou populaii. Este important atunci s se cunoasc dac dispersiile
celor dou populaii pot fi considerate egale, sau nu. Acest fapt se decide utiliznd
testul F, bazat pe repartiia teoretic F (FisherSnedecor).
Situaia poate fi recunoscut prin:
dou populaii, caracterizate de variabilele X1 i X2, respectiv;
variabilele sunt repartizate normal, X1 ~ N( 1 ; 12 ) , X 2 ~ N( 2 ; 22 ) ;
din dou eantioane, unul din fiecare populaie, dispunem de estimaiile s12
i s 22 ale dispersiilor populaiilor; eantioanele au volume n1 i n 2 ,
respectiv.
Ipotezele testului F sunt att de tip bilateral ct i de tip unilateral.
Testul bilateral:
H : 2 = 22
(A) 0 12
H1 : 1 22
Teste unilaterale:
H : 12 = 22 H 0 : 12 = 22
(B) 0' 2 2 ; (C) " 2 2
H 1 : 1 < 2 H 1 : 1 > 2
n aa fel nct sunt utilizabile doar testele (A) i (C). n acest caz se noteaz cu max
numrul gradelor de libertate pentru numrtor i cu min numrul gradelor de libertate
pentru numitor.
Decizia, la nivelul de semnificaie , pentru testul bilateral (A):
se respinge ipoteza nul H0 n favoarea ipotezei alternative H1 dac
F > F1 / 2; max ; min sau F < F / 2; max ; min
Teste t de comparare
Compararea mediilor a dou populaii se realizeaz prin teste de comparare t.
Sunt utilizate frecvent trei asemenea teste, difereniate de situaia existent ntre
dispersiile populaiilor i independena eantioanelor:
eantioane independente, dispersii egale,
eantioane independente, dispersii neegale,
eantioane dependente (perechi, corelate).
B. Instrumente Excel
Procedurile prezentate sunt disponibile prin dialogul Tools - Data Analysis.
SAMPLING
Procedura de sondaj permite obinerea unei submulimi dintr-o mulime de
valori existent. Parametrii prezeni n dialogul procedurii sunt explicai n continuare.
Input
Input Range se specific domeniul, sau denumirea domeniului, care conine datele din care
se va face selecia. Domeniul poate fi selectat i n mod dinamic. Datele care joac rolul
populaiei statistice trebuie s fie de tip numeric i organizate, de preferin, sub forma
unei coloane sau a unei linii. Prima celul poate conine denumirea setului de date. n
cazul n care selecia se face dintre nregistrrile unei baze de date (fiecare nregistrare
avnd, uzual, mai multe cmpuri) se va indica drept domeniu doar coloana unui cmp
cum ar fi numrul nregistrrii, sau codul (numeric) de identificare etc.
Labels boxa de control va fi marcat dac domeniul indicat conine pe prima poziie
denumirea setului de date.
Sampling Method
n acest grup se precizeaz metoda de selecie.
Periodic selectarea acestui buton radio permite indicarea n cmpul Period a cotei fixe de
formare a eantionului. Dac, de exemplu, se completeaz 5, atunci eantionul este format
din al 5-lea element i toate cele care urmeaz din 5 n 5 (al 10-lea element, al 15-lea, al
20-lea etc.)
Random selectarea acestui buton radio indic o formare aleatoare a eantionului. Fiecare
element are aceeai probabilitate de a fi ales. Din acest motiv, dac mulimea de baz este
relativ restrns, atunci unele elemente pot s apar de mai multe ori n eantionul
constituit. Volumul eantionului se specific n cmpul Number of Samples.
Output options
Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive
Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele.
Rezultatul este o coloan cu valorile selectate.
Output options
Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive
Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele.
Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga
sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat.
Exemplu
Un exemplu de aplicare a procedurii F-Test este artat n figura urmtoare (numrul
zecimalelor afiate a fost redus).
Mean mediile eantioanelor;
Variance dispersiile eantioanelor;
Obsevations volumele eantioanelor;
df gradele de libertate;
F statistica testului F (ctul dispersiilor);
P(F<=f) one-tail probabilitatea critic
unilateral, adic probabilitatea ca o
variabil f, repartizat Fisher-Snedecor, cu
numerele respective de grade de libertate, s
depeasc valoarea calculat.
Ipoteza nul a egalitii dispersiilor F-Test structura rezultatelor
poate fi respins dac valoarea raportat aici
este mai mic sau egal cu nivelul de
semnificaie ales. De exemplu, pentru = 0,25 (un prag neuzual) se poate respinge
ipoteza nul ntruct 0,203 < 0,25.
F Critical one-tail valoarea critic a testului. Determin regiunea de respingere a testului, la
pragul de semnificaie fixat n dialogul procedurii. Dac valoarea F, din linia a 5-a a
rezultatelor, este mai mare sau egal cu valoarea critic, nseamn c aparine regiunii de
respingere i deci se poate respinge ipoteza egalitii dispersiilor. n tabel avem 1,410 <
1,984 i deci nu se poate respinge ipoteza nul (la pragul fixat).
Concluzia testului este aceea c ipoteza nul nu poate fi respins. Se va tolera prin
urmare ipoteza c dispersiile sunt egale sau, cu alte cuvinte, c n populaiile din care provin
eantioanele variabila urmrit prezint acelai grad de mprtiere.
Input
Variable 1 Range, Variable 2 Range conin referinele la zonele celor dou eantioane,
respectiv. Deoarece testul este pentru eantioane cu date perechi, este necesar ca zonele
indicate s aib acelai numr de celule completate cu date numerice, valorile de pe
aceleai poziii n cele dou serii fiind perechi. Domeniile pot fi selectate dinamic.
Hypothesized Mean Difference conine valoarea testat pentru diferena mediilor. Dac se
indic valoarea 0 (zero), atunci se verific ipoteza egalitii mediilor.
Labels boxa de control se marcheaz dac zonele de date indicate conin pe primele locuri
denumirile zonelor.
Alpha conine valoarea pragului de semnificaie utilizat de procedur pentru a calcula
valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei
nule).
Output options
Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive
Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele.
Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga
sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat.
Exemplu
Un grup de 20 de persoane au fost evaluate nainte i dup efectuarea unui
experiment, care avea scopul de a micora valoarea unei caracteristici msurate. Deoarece
efectul experimentului trebuie evaluat la nivelul
populaiei de unde s-a selectat eantionul, un
indicator statistic adecvat este media rezultatelor
nainte i dup. Cum datele sunt perechi, situaia
descris fiind tipic, compararea mediilor s-a
efectuat printr-un test t pentru date perechi
(corelate). Seriile de date sunt numite Date1
(datele pretest), Date2 (datele posttest) i s-a
indicat n dialogul procedurii, un prag de
semnificaie = 0,05.
Rezultatele produse de procedura t Test:
Paired Two Sample for Means sunt descrise n
figura alturat:
Mean mediile celor dou eantioane. Se observ
c media primului eantion este mai mare
(10,6 fa de 9,9), diferena fiind relativ
important, 0,7 reprezint o diminuare a
mediei cu 6,6%. Compararea mediilor vrea s
Rezultatele aplicrii testului t
arate dac aceast diferen poate fi acceptat
pentru date perechi.
pentru ntreaga populaie, sau este efectul
sondajului (ntmpltor n primul eantion sunt mai multe valori mari).
Variance dispersiile celor dou eantioane. Se poate emite ipoteza c dispersiile se modific
semnificativ: se pare c experimentul are efectul unei concentrri a rezultatelor n jurul
mediei.
Observations numrul de observaii (= volumul eantionului).
Pearson Correlation coeficientul de corelaie Pearson. Valoarea obinu este relativ mare,
apropiat de 0,5. Dei nu este nsoit de testul de semnificaie, arat o bun corelaie ntre
seriile de rezultate, cu interpretarea c scderea valorilor dup experiment are loc
oarecum uniform: observaiile cu valori mari nainte rmn, n general, cu valori mari i
dup experiment (evident c observaiile cu valori mici nainte rmn, n general, cu
valori mici i dup experiment).
Hypothesized Mean Difference valoarea cu care se compar diferena mediilor populaiilor.
Deoarece ne-am propus s testm egalitatea mediilor, aceasta revine la a compara
diferena mediilor cu zero.
df numrul gradelor de libertate al repartiiei t (a statisticii testului). Este numrul de
observaii mai puin unu.
t Stat valoarea calculat a statisticii testului. Provine, teoretic, dintr-o repartiie Student cu
df (raportat anterior) grade de libertate.
P(T<=t) one-tail probabilitatea critic unidimensional, arat care este probabilitatea ca o
variabil Student cu df grade de libertate s depeasc valoarea calculat. Dac aceast
valoare este mai mic dect pragul de semnificaie fixat, atunci se poate respinge ipoteza
nul n favoarea ipotezei alternative. Deoarece, n situaia dat, prima medie este mai
mare, ipoteze alternativ ntr-un test unilateral este
H1 : 1 2 > 0 sau, echivalent, H1 : 1 > 2.
Valoarea 0,169 afiat este mai mare dect toate valorile uzuale, deci nu se poate
respinge ipoteza nul. Prin urmare se pare c diferena dintre medii este datorat mai mult
ntmplrii, seleciei eantionului.
t Critical one-tail valoarea critic unidimensional pentru pragul de semnificaie = 0,05
(precizat n dialogul procedurii). Dac valoarea t calculat este mai mare dect aceast
valoare critic, atunci se poate respinge H0 n favoarea ipotezei alternative H1 : 1 > 2.
Pentru exemplul prezentat acest fapt nu se ntmpl (0,984 < 1,729).
P(T<=t) two-tail probabilitatea critic bilateral, arat care este probabilitatea ca o variabil
Student cu df grade de libertate s depeasc, n valoare absolut, valoarea calculat. Cu
alte cuvinte, probabilitatea ca diferena dintre mediile populaiilor s fie mai deprtat de
zero dect diferena observat.
Dac aceast valoare este mai mic dect pragul de semnificaie fixat, atunci se
poate respinge ipoteza nul n favoarea ipotezei alternative a unor medii diferite: H1 : 1
2.
Valoarea 0,337 afiat este mai mare dect toate valorile
uzuale, deci nu se poate respinge ipoteza nul.
t Critical two-tail valoarea critic bidimensional pentru pragul de semnificaie = 0,05
(precizat n dialogul procedurii). Dac valoarea t calculat este mai mare, n valoare
absolut, dect aceast valoare critic, atunci se poate respinge H0 n favoarea ipotezei
alternative H1 : 1 2. Pentru exemplul prezentat, | t | = |0,984| = 0,984 < 2,093, deci nu
se poate respinge ipoteza nul.
Input
Variable 1 Range, Variable 2 Range conin referinele la zonele celor dou eantioane,
respectiv. Domeniile indicate pot s aib numere diferite de celule, dar completate cu date
numerice (cel mult prima celul n fiecare zon poate fi un titlu). Domeniile pot fi
selectate dinamic.
Hypothesized Mean Difference conine valoarea testat pentru diferena mediilor. Dac se
indic valoarea 0 (zero), atunci se verific ipoteza egalitii mediilor.
Variable 1 Variance (known), Variable 2 Variance (known) dispersiile celor dou populaii.
Acestea se presupun cunoscute. n practic, pentru eantioane mari, se pot lua valorile
dispersiilor de sondaj, dar n aceast situaie este preferabil s se aplice un test t dect un
test z.
Labels boxa de control se marcheaz dac zonele de date indicate conin pe primele locuri
denumirile zonelor.
Alpha conine valoarea pragului de semnificaie utilizat de procedur pentru a calcula
valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei
nule). Implicit se ia = 0,05.
Output options
Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive
Statistics. Precizeaz domeniul din foaia de calcul unde se vor nscrie rezultatele.
Rezultatele sunt formatate ca un tabel pentru care se va preciza poziia colului din stnga
sus. Semnificaia rubricilor din tabel este explicat n exemplul prezentat.
Exemplu
Pentru a compara mediile a dou populaii s-au extras dou eantioane de volume 35,
respectiv 34. Se cunoate, din alte cercetri, c dispersiile populaiilor sunt 18 i 15, respectiv.
Dispersiile de sondaj concord cu aceste valori.
Pentru a compara mediile populaiilor se aplic un
test z. Resultatele sunt explicate n continuare.
Mean mediile de sondaj ale celor dou eantioane.
Known Variance dispersiile cunoscute ale celor
dou populaii.
Observations numrul de observaii (volumul
eantionului).
Hypothesized Mean Difference valoarea cu care
se compar diferena mediilor populaiilor.
Testarea egalitii mediilor revine la a compara
diferena mediilor cu zero.
z valoarea calculat a statisticii testului. Provine,
teoretic, dintr-o repartiie normal standard.
Servete pentru raportare sau pentru decizia n Rezultatele procedurii z-Test.
test la alte grade de semnificaie dect valoarea
fixat n dialogul procedurii.
P(Z<=z) one-tail probabilitatea critic unidimensional, arat care este probabilitatea ca o
variabil normal redus s depeasc valoarea calculat. Dac aceast valoare este mai
mic dect pragul de semnificaie fixat, atunci se poate respinge ipoteza nul n favoarea
ipotezei alternative. Deoarece, n situaia dat, prima medie este mai mare, ipoteza
alternativ ntr-un test unilateral este
H1 : 1 2 > 0 sau, echivalent, H1 : 1 > 2.
Valoarea 0,008 afiat este mai mic dect valorile uzuale (0,05 sau 0,01), deci nu se
poate respinge ipoteza nul la aceste valori ale lui . Prin urmare se poate respinge
ipoteza nul i accepta ipoteza alternativ c prima populaie are o medie mai mare.
z Critical one-tail valoarea critic unidimensional pentru pragul de semnificaie = 0,05
(precizat n dialogul procedurii). Dac valoarea z calculat este mai mare dect aceast
valoare critic, atunci se poate respinge H0 n favoarea ipotezei alternative H1 : 1 > 2.
Pentru exemplul prezentat acest fapt nu se ntmpl (2,4096 < 1,6449).
P(Z<=z) two-tail probabilitatea critic bilateral, arat care este probabilitatea ca o variabil
normal standard s depeasc, n valoare absolut, valoarea calculat. Cu alte cuvinte,
probabilitatea ca diferena dintre mediile populaiilor s fie mai deprtat de zero dect
diferena observat.
Dac aceast valoare este mai mic dect pragul de semnificaie fixat, atunci se
poate respinge ipoteza nul n favoarea ipotezei alternative a unor medii diferite: H1 : 1
2.
Valoarea 0,016 afiat este mai mic dect = 0,05, deci se poate respinge
ipoteza nul.
z Critical two-tail valoarea critic bidimensional pentru pragul de semnificaie = 0,05
(precizat n dialogul procedurii). Dac valoarea z calculat este mai mare, n valoare
absolut, dect aceast valoare critic, atunci se poate respinge H0 n favoarea ipotezei
alternative H1 : 1 2. Pentru exemplul prezentat, | z | = |2,4096| = 2,4096 > 1,96, deci se
poate respinge ipoteza nul.
C. Lucrarea practic
Ferestre SPSS
Sunt enumerate tipurile de ferestre disponibile n mediul SPSS i se precizeaz
funcionalitatea lor.
Data Editor
Este fereastra care se deschide automat la pornirea unei sesiuni i care permite
editarea datelor, crearea de noi nregistrri, eliminarea unor nregistrri etc.
Viewer
Fereastra Viewer este utilizat pentru afiarea rezultatelor: statistici, tabele,
diagrame etc. Dac nu exist o fereastr Viewer deschis, se va crea automat
una la prima comand care produce ieiri. Rezultatele afiate pot fi editate,
deplasate, eliminate etc. ntr-un mediu similar cu cel din Microsoft Explorer.
Chart Editor
Diagramele care pot fi construite, n general prin comenzile meniului Graphs,
pot fi modificate, formatate etc. prin comenzile disponibile n Chart Editor.
O asemenea fereastr este activat la dublu click pe o diagram dintr-un fiier
SPSS de ieire.
Syntax Editor
SPSS poate fi utilizat prin intermediul unei limbaj de comenzi proprii. Acesta
a fost modul iniial de operare, astfel nct o serie de prelucrri foarte
specializate au rmas disponibile, chiar i n ultimele versiuni, doar prin
intermediul comenzilor.
O fereastr Syntax Editor poate fi deschis prin File New/Open
Syntax. Comenzile pot fi scrise direct n fereastra Syntax Editor, dar exist i
posibilitatea de a nregistra aciunile din interfaa utilizator sub form de
comenzi (similar nregistrrii unui macro din Microsoft Office). Comenzile
pot fi salvate ca un fiier de comenzi, n vederea reutilizrii.
Script Editor
SPSS poate fi personalizat/automatizat prin intermediul unui limbaj de
scriptare, Sax Basic (compatibil Visual Basic for Applications). Se va
deschide o fereastr Script Editor prin File New/Open Script.
Pot exista mai multe ferestre de ieire (Viewer), ca i mai multe ferestre de
sintax (Syntax Editor). Fereastra activ dintr-un grup este indicat de semnul !
afiat pe bara de stare a ferestrei active, activarea poate fi modificat prin acionarea
uneltei din fereastra inactiv
Meniuri SPSS
Ca n orice aplicaie Windows, multe dintre prelucrrile SPSS pot fi executate
prin acionarea comenzilor din meniuri.Fiecare fereastr SPSS are propriile meniuri i
unelte corespunztoare.
Meniuri comune
File
Este utilizat pentru creare, deschidere, export de fiiere diverse: date, rezultate,
comenzi etc.
Edit
Editrile uzuale pentru date numerice, text sau obiecte grafice: copieri, alipiri
etc. n aceeai aplicaie sau nu.
View
Controleaz modul de afiare a uneltelor, a liniaturii, a identificatorilor de
valori (valorile pot avea ataate denumiri explicite).
Analyze
Este meniul care d acces la procedurile statistice.
Graphs
Permite crearea diagramelor. Orice diagram poate fi modificat (reamintim)
prin Chart Editor, afiat la dublu click pe diagram.
Utilities
Permite afisarea informaiilor despre variabile, definirea unor mulimi de
variabile etc.
Window
Operaii asupra ferestrelor.
Help
Deschide o fereastr standard de ajutor.
Data Editor meniuri specifice
Data
Se pot realiza modificri globale cum ar fi transpunerea variabilelor i
cazurilor, filtrarea cazurilor etc. Modificrile sunt temporare dac nu sunt
salvate n fiierul iniial.
Transform
Permite transformarea unor variabile (cum ar fi recodificare) i obinerea unor
noi variabile prin calcule efectuate asupra variabilelor existente. Modificrile
sunt temporare pentru sesiunea curent, dac nu sunt salvate n fiierul iniial.
SPSS - Opiuni
Se poate personaliza mediul SPSS prin selectarea comenzii Edit - Options
Fiecare pereche Value Value Label este adugat la lista de coduri prin
activarea butonului Add etc. Etichetele de valori, mpreun cu etichetele de
variabile conduc la o form explicit a rezultatelor.
Ultimul atribut specific al unei variabile este scala de msur utilizat, atribut
reinut n coloana Measure din Variable View. Denumirile SPSS utilizate
sunt scale pentru variabile de interval, ordinal pentru variabile ordinale,
nominal pentru variabile nominale. Fixarea msurii corecte este esenial
deoarece, reamintim, anumite prelucrri statistice se pot aplica doar unor
variabile ordinale, sau de interval etc.
Filtrarea cazurilor
Apare uneori necesitatea de a prelucra doar un subset de nregistrri: pentru a
obine o imagine rapid a unei structuri, pentru a prelucra doar eantionul dintr-o
anumit subpopulaie etc. SPSS ofer n acest scop comanda Data Select Cases
care produce afiarea dialogului urmtor.
Prin opiunile din grupul Select se fixeaz modalitatea de filtrare. Este de
remarcat c prin grupul Unselected Cases Are se poate opta pentru eliminarea
efectiv a cazurilor neselectate (opiune nerecomandat) sau pentru filtrarea lor, adic
eliminarea este doar logic, o nou selectare cu opiunea All cases le va reactiva.
n zona Target Variable se trece denumirea noii variabile pentru care se poate
preciza tipul i eticheta n subdialogul afiat prin acionarea butonului Type &
Label.
n zona de formare a expresiei de calcul, Numeric Expression, se formeaz
expresia de calcul prin utilizarea butoanelor existente pentru operatori i
funcii sau prin tastare direct. Denumirile variabilelor existente pot fi aduse n
expresie prin selectare n lista variabilelor, dublu click sau butonul X.
Se poate efectua o filtrare a nregistrrilor (cazurilor) pentru care are loc
transformarea dac se acioneaz butonul If. Cazurile neselectate vor avea
valoarea system-missing pentru noua variabil.
Comanda Recode
Recodificarea unei variabile este util n dou situaii principale:
1. se transform o variabil de interval ntr-o variabil ordinal pentru a o
raporta ca date grupate sau pentru a studia asocierea cu alte variabile ordinale,
2. o variabil string trebuie recodificat cu coduri numerice necesare pentru a
putea aplica anumite proceduri SPSS, care cer variabile codificate numeric.
Recodificarea poate fi n aceeai variabil, sau ntr-o nou variabil, cazul
discutat aici.
Prin Transform Recode Into Different Variables se afieaz dialogul
n care se transfer variabila numerica pentru care se realizeaz recodificarea din lista
variabilelor n lista Numeric Variable Output Variable, se completeaz numele
i eventual eticheta noii variabile n Output Variable dup care se acioneaz
Change.
Se pot selecta cazurile pentru care are loc recodificarea prin If. Prin acionarea
Old and New Values se deschide dialogul
Prelucrri statistice
Prelucrrile statistice din SPSS se realizeaz prin comenzile din meniul
Analyze, sau prin executarea comenzilor scrise n fereastra Syntax Editor. Deoarece
efectuarea unei prelucrri necesit operarea cu un numr de dialoguri specializate,
pentru familiarizarea cu principalele dialoguri care apar la comenzile de prelucrri
statistice se prezint n continuare modul n care se obin statisticile descriptive i o
procedur de testare a egalitii mediilor.
Analyze - Frequencies
Se selecteaz Analyze - Descriptive Statistics - Frequencies...
Apare dialogul urmtor n care se trec variabilele dorite din lista din stnga n
lista din dreapta (prin dublu click sau selectare i X).
Analyze Crosstabs
Obinerea tabelelor de frecvene ncruciate, utile la studiul asocierii dintre
variabile, este gestionat de comanda Analyze Descriptive Statistics Crosstabs,
care iniializeaz dialogul urmtor.
Se vor selecta variabilele, dup care se compar cele dou grupuri, din lista
variabilelor (continue) i se trec n lista variabilelor de test. Pentru a preciza grupurile
care sunt comparate precizeaz variabila care identific grupurile (Grouping
Variable) i se iniiaz dialogul Define Groups n care, pentru o variabil discret,
se precizeaz valorile etichete ale celor dou grupuri sau, pentru o variabil continu,
valoarea care separ cele dou grupuri.
Tabelul conine dou linii de rezultate numerice: rndul superior privete testul
t n situaia dispersiilor egale, rndul inferior se refer la cazul dispersiilor neegale.
Alegerea este condus de testul Levene de egalitate a dispersiilor, care este realizat
prin intermediul coloanelor aflate sub antetul Levene's Test. Statistica este F (=0,004
n cazul ilustrat) iar probabilitatea critic este Sig (0,948 n cazul ilustrat). Prin
urmare, la pragul de 0,05, nu se respinge ipoteza egalitii dispersiilor. In acest caz se
vor utiliza valorile din rndul superior al tabelului i se citete valoarea statisticii
testului t = 8,664 i probabilitatea critic bilateral Sig < 0,001. Drept urmare se va
respinge ipoteza egalitii mediilor celor dou grupuri.
Ultimele 4 coloane conin diferena dintre medii, eroarea standard a acestei
diferene i intervalul de ncredere pentru diferena mediilor (faptul c intervalul nu
conine valoarea 0 este echivalent cu respingerea egalitii mediilor).
C. Lucrarea practic
1. Se va importa n SPSS fiierul de date (utilizat i la lucrarea nr.1)
http://thor.info.uaic.ro/~val/statistica/Admitere.txt
i. Se vor completa, pentru fiecare variabil, atributele specifice:
tipul (nominal, ordinal, interval), denumirea, modul de afiare
(coloane, zecimale etc.), etichetele de valori (acolo unde este
cazul).
ii. Se vor elimina coloanele care poart n fiierul text informaii
auxiliare.
iii. Se va crea o variabil filtru cu valoarea 1 dac proba la alegere
este analiza matematic i valoarea 0 n rest.
iv. Se va recodifica variabila reprezentnd situaia dup examen
astfel nct s poat fi asimilat unei variabile ordinale (ordinea
fiind cea intuitiv - reuit fr tax, cu tax, n ateptare,
respins).
2. Se vor caracteriza variabilele cu ajutorul indicatorilor statistici
adecvai.
3. S se creeze tablourile de frecvene ncruciate dintre variabilele
Opiune i Situaie, incluznd i calculul frecvenelor relative.
4. Se va testa egalitatea mediilor de admitere dup cele trei discipline la
alegere.
5. Se va testa egalitatea mediilor de admitere pentru cei care au ales
analiza matematic i cei care au ales o prob de programare.
6. Se vor crea i edita grafice adecvate ale repartiiilor variabilelor
coninnd proba la alegere, mediile la bacalaureat, scris, final.
Statistic multivariat
Formule de calcul
Mediile grupurilor
xi1 + xi 2 + K + x ini 1
ni
xi =
ni
=
ni
x
j =1
ij , i = 1,2, K , k
i =1 j =1
( xij x) 2 =
i =1 j =1
( xij xi ) 2 + ( x
i =1 j =1
i x) 2 .
unde SPg este suma ptratelor global, SPexp este suma ptratelor explicat, iar SPrez
este suma ptratelor rezidual, cu interpretarea de descompunere a variaiei globale n
variaia explicat i variaia rezidual.
Cele trei sume de ptrate au, respectiv, urmtoarele grade de libertate:
k
g = ni 1 = n 1, exp = n k , rez = k 1.
i =1
Prin raportarea unei sume de ptrate la numrul ei de grade de libertate se obine
media ptratic. Astfel
SPg SPexp SPrez
s g2 = 2
; s exp = 2
; s rez = ,
g esp rez
Global SPg g s g2
2 2
Testul F. Compararea cantitilor s exp i s rez se efectueaz ntr-un test F cu ipotezele:
H0 : 1 = 2 = = k (mediile grupurilor sunt egale);
H1 : exist i j , (cel puin dou medii sunt neegale).
De remarcat c n ipoteza alternativ se afirm existena unei diferene ntre dou
medii, dar nu se pot specifica mediile diferite; nu se afirm c toate mediile sunt
diferite dou cte dou.
n condiiile ipotezei H0, cantitatea F calculat n tabelul ANOVA urmeaz o
repartiie Fisher-Snedecor cu exp i rez grade de libertate, F exp ; rez , ceea ce permite
efectuarea unui test statistic.
Decizia. Dac, pentru un prag de semnificaie , fixat, valoarea F calculat este mai
mare sau egal cu quantila corespunztoare a repartiiei F,
F F1 ; exp ; rez ,
unde:
Source of Variation reprezint descompunerea n variaie explicat (Between
Groups) i variaie neexplicat (Within Groups)
SS este coloana sumelor de ptrate
df este coloana gradelor de libertate asociate sumelor de ptrate
MS conine mediile sumelor de ptrate
F este valoarea calculat a staticii F
P-value, F crit sunt, respectiv, probabilitatea critic i valoarea critic care
permit decizia n testul statistic: ipoteza nul a grupurilor omogene se respinge
dac p-value este mai mic sau egal cu pragul a ales sau dac valoarea F
calculat este mai mare sau egal cu valoarea critic..
SPSS
Pentru a realiza o analiz dispersional unifactorial se d comanda Analyze -
Compare Means - One-Way ANOVA... Este afiat dialogul
Variaie explicat
Variaie explicat
de al doilea factor
de primul factor
Variaie explicat de
Variaie neexplicat interaciunea factorilor
Interaciunea AB SPAB AB 2
s AB = SPAB / AB 2
FAB = s AB 2
/s rez
n interiorul
grupurilor
SPrez rez 2
s rez = SPrez / rez
Global SPg g
(A) FA F1 ; A ; rez
(B) FB F1 ; B ; rez
B. Instrumente Excel
n Excel nu se poate efectua analiza post-hoc (dac nu se dezvolt/deschide etc. un
proiect VBA dedicat).
Pentru analiza dispersional bifactorial, datele se vor organiza n modul urmtor:
Este important de reinut c se pot efectua doar analize n care planul de experimente
este echilibrat, deci fiecare celul are acelai numr de valori, n.
Din Tools - Data Analysis se continu cu:
ANOVA: Two-Factor With Replication n cazul n > 1
ANOVA: Two-Factor Without Replication n cazul n = 1
Dialogul afiat n primul caz, cel mai general deoarece se permite studiul interaciunii
ntre factori, este
unde se completeaz:
Input Range - referina la zona datelor, zona colorat din figura cu structura
datelor.
Rows per sample - valoarea lui n, numrul de valori dintr-o celul.
Restul zonelor sunt explicate prin denumirile lor.
Instrumente SPSS
Analiza Post Hoc
Pentru a realiza o analiz dispersional unifactorial se d comanda Analyze -
Compare Means - One-Way ANOVA... dup cum s-a explicat n lucrarea
anterioar.
Analiza post-hoc este realizat prin acionarea butonului Post Hoc. n dialogul afiat
se marcheaz metodele dorite, att n cazul ANOVA (dispersii egale), ct i n cazul
n care dispersiile nu sunt egale.
Two-Way ANOVA
Analiza bifactorial se poate realiza n dou moduri:
1. din fereastra de sintax sau
2. utiliznd comanda General Linear Model (GLM).
Comanda ANOVA
Se deschide o nou fereastr de sintax prin File - New - Syntax:
Comanda GLM
Fundamentarea acestei proceduri se va gsi n capitolul privind modelul liniar,
considerndu-se deocamdat c analiza dispersional poate fi privit ca o problem de
model liniar i, deci, rezolvat printr-o metod dedicat acestei probleme.
1. Se d comanda Analyze General Linear ModelUnivariate. Ca urmare, se
afieaz dialogul
n care se precizeaz factorii pentru care se dorete analiza post hoc, ca i metodele de
analiz selectate.
C. Lucrarea practic
1. Se va deschide fiierul
http://thor.info.uaic.ro/~val/statistica/MagAds.xls
care conine date obinute n urma analizrii reclamelor unor reviste n ceea ce
privete gradul de dificultate a lecturii lor, dup nivelul de educaie al
cititorilor int. Variabilele urmrite sunt:
Words - numrul de cuvinte din reclam
Sentences - numrul de propoziii din reclam
Syllable3 - numrul de cuvinte cu mai mult de 3 silabe
Magazine - codul revistei
EducLevel - nivelul de educaie a grupului de cititori int, notat descresctor
de la 1 la 3.
a. S se decid dac variabilele Words, Sentences i Syllable3 difer, n
medie,
i. dup revist,
ii. dup grupul int.
b. S se decid tipul de prelucrare dup revist dac se cunoate c pentru
fiecare nivel de educaie s-au ales aleatoriu trei reviste dintre cele care
au acest grup int.
c. Ce se poate spune de studiul interaciunii dintre variabilele factor
Magazine i EducLevel?
2. Se va deschide n SPSS fiierul cars.sav (fiierul de date utilizat i n Lucrarea
4, se gsete n folderul aplicaiei SPSS). Se va observa c anumite prelucrri
trebuie s disting ntre camioane i autoturisme.
a. S se utilizeze ANOVA, inclusiv analiza post-hoc, pentru a decide
asupra diferenelor semnificative, dintre caracteristicile tehnice ale
autoturismelor, dup localizarea productorului (Europa, Japonia,
America), att pe ansamblul perioadei considerate, ct i pe ultimii 5
ani ai studiului.
b. S se aplice analiza bifactorial considernd factorii localizare i
numr de cilindri.
c. Realiznd o grupare a anilor de fabricaie n 3-4 grupe, s se studieze
eventuala interaciune a noii variabilei factor cu factorul localizare.
Statistic multivariat
1 0 +1
Asociere negativ Lips de asociere Asociere pozitiv
(invers) (direct)
Scala nedirecional (01). Este mai puin senzitiv dect scala direcional,
permite doar diferenierea asociere neasociere, fr a specifica sensul asocierii.
Pentru variabilele asociate puternic nu se poate preciza tipul de asociere. Este
specific variabilelor nominale.
Atributul PRE (Proportional Reduction in Error) reducerea proporional a erorii,
se refer la mbuntirea prognozei valorilor variabilei dependente atunci cnd se
cunoate valoarea variabilei independente. Se definete ca msur a cantitii cu care
cunoaterea variabilei independente mrete corectitudinea prediciei n raport cu o
"ghicire" pur (bazat doar pe cunoaterea repartiiei variabilei dependente):
2
C= , coeficientul contingenei ptratice medii (Pearson)
n+ 2
2
T2 = , coeficientul lui Ciuprov
( s 1)(t 1)
2
V2 = , coeficientul lui Cramer.
min{( s 1), (r 1)}
Semnificaia statistic a asocierii:
Se poate utiliza cantitatea 2 pentru a testa asocierea evideniat de datele de sondaj.
Testul de asociere 2 are ipotezele:
H0: variabilele X i Y nu sunt asociate;
H1: variabilele X i Y sunt asociate.
Se demonstreaz c n condiiile ipotezei H0, variabila 2 , calculat mai sus, este
repartizat 2 cu un numr de grade de libertate egal cu (r1)(s1), 2 ~ 2(r-1)(s-1) ,
ceea ce permite efectuarea unui test statistic.
Limite de aplicare. Pentru a aplica testul trebuie ca nu mai mult de 20% dintre celule s aib
mai puin de 5 elemente.
ranguri ranguri
Observaia d2
variabila 1 variabila 2
1 r11 r21 (r11-r21)2
2 r12 r22 (r12-r22)2
n r1n r2n (r1n-r2n)2
Coeficientul
Acest indicator este bazat tot pe atribuirea de ranguri valorilor celor dou variabile ordinale,
dar pleac de la ideea: cunoaterea ordinii a dou ranguri pentru variabila independent
poate prezice ordinea rangurilor pentru variabila dependent? Rspunsul ar trebui s fie
afirmativ pentru variabile asociate, orice abatere de la acest rspuns trebuie s conduc la
ideea de independen (lips de asociere) ntre cele dou variabile.
Coeficientul este o msur PRE pe o scal direcional i se definete prin
fa fi
=
fa + fi
unde fa este numrul de agremente (potriviri), fi este numrul de inversiuni, spunnd
c
r1i r2i
r1j r2j
se potrivesc dac ordinea este aceeai n cele doucoloane i c are loc o inversiune
dac ordinea este schimbat.
Semnificaia lui poate fi testat prin utilizarea unei formule aproximative (aplicabil
pentru n 10)
fa + fi
z=
n(1 - 2 )
care, n ipoteza H0: = 0, este o variabil normal redus i se poate aplica un test
bazat pe repartiia normal standard.
r=
( x X )( y Y ) ,
i i
( ( x X ) )( ( y Y ) )
i
2
i
2
existnd, evident, i alte formule echivalente. Cantitatea r obinut pe baza unui
eantion este, n spiritul discuiei de pn acum, o estimare a coeficientului de
corelaie din populaie.
Semnificaia coeficientului de corelaie poate fi testat utiliznd un test Student. n
aplicarea testului se presupune (este cerut) c mprtierea valorilor Y este uniform
dup valorile lui X (proprietatea de homoscedasticitate). n plus, exist i ipoteze
distribuionale de normalitate a variabilelor X i Y. Statistica testului este
n2
t=r .
1 r2
n ipoteza H0 : = 0, statistica t este repartizat Student cu n-2 grade de libertate. Se
respinge H0 n favoarea ipotezei alternative nedirecionale H1: 0, dac |t| > t1-/2;n-2.
Se pot considera i teste unilaterale, dup procedura general a testelor bazate pe
distribuia Student.
CORRELATION
Este procedura care calculeaz coeficienii de corelaie liniar, cunoscui i drept
coeficienii de corelaie Pearson. Variabilele implicate sunt variabile continue (de
interval). n cazul cnd exist un numr suficient de mare de valori i de ranguri
posibile, procedura poate fi utilizat i pentru calculul coeficienilor de corelaie a
rangurilor (Spearman).
Dialogul de iniiere a procedurii Correlation este prezentat n figura alturat.
Input
Input Range se precizeaz domeniul
datelor de intrare. Acesta trebuie s
fie o zon compact dintr-o foaie de
calcul.
Grouped By se selecteaz butonul
corespunztor modului de nscriere
a valorilor unei variabile: Columns
pentru variabile pe coloane, Rows
pentru variabile pe linie.
Labels in First Row se marcheaz
dac prima linie (cazul Columns)
sau prima coloan (cazul Rows)
conine denumirile variabilelor.
Output options
Output Range, New Worksheet Ply, New Workbook Precizeaz zona unde se vor nscrie
rezultatele. Zona de rezultate cuprinde un tabel ptratic cu coeficienii de corelaie ntre
toate perechile de variabile din domeniul de intrare. Deoarece tabloul este simetric fa de
prima diagonal, se afieaz doar partea inferioar (stnga-jos).
Din pcate, n Excel nu este raportat semnificatia acestor coeficieni de corelaie, cu
alte cuvinte nu se raporteaz informaiile necesare verificrii ipotezei de nulitate a
coeficienilor. Testarea semnificaiei coeficienilor se poate efectua prin apelarea, n
foaia de calcul Excel, a funciilor necesare, dup modelul urmtor, n care se verific
H0: coeficientul de corelaie dintre variabile este egal cu zero
H1: coeficientul de corelaie dintre variabile este diferit de zero
Se calculeaz transformata Fisher a coeficientului de corelaie r calculat prin utilizarea
funciei fisher() din Excel: ntr-o celul neutilizat se tasteaz
=fisher(referina la celula unde este coeficientul de corelaie)
Se obine rezultatul calculului:
1 1+ r
z= ln
2 1 r
Cu aceast valoare se calculeaz intervalul aproximativ de ncredere cu limitele
1 1
z1 = z z1 i z2 = z + z1
n3 n3
Observaie. Calculul unei limite, de ex, z1, se efectueaz cu formula Excel
= referina la celula unde este z 1/sqrt(n-3)*normsinv(1-/2)
O metod alternativ, pentru ipoteza nul a unui coeficient egal cu 0, este utilizarea
unui test t bazat pe statistica, dat direct ca o formul Excel:
= r/sqrt(1-r^2)*sqrt(n2)
unde r semnific valoarea, sau referina la coeficientul de corelaie testat, iar n este
valoarea sau referina la volumul eantionului.
Pentru a obine, n Excel, probabilitatea critic bilateral se utilizeaz formula
=tdist(abs(t),n-2,2)
n care t poate fi nlocuit direct cu expresia de calcul corespunztoare:
=tdist(abs(r/sqrt(1r^2)*sqrt(n-2)),n-2,2)
unde r i n au semnificaiile precizate anterior.
Exemplu
Rezultatele unui apel la procedura Rank and Percent, situaia ilustrat este pur
didactic, sunt structurate dup cum urmeaz.
Primele dou coloane conin datele de sondaj. Aplicarea procedurii pentru variabila
Scoruri produce rezultatele din coloanele DG. Prima coloan, Point, prezint
numerele de ordine iniiale ale valorilor. Coloana a doua, Scoruri, este ordonarea
descresctoare a valorilor. Coloana a treia conine rangurile ordinale atribuite
valorilor. Se observ c valorile egale cu 15, care ar avea rangurile 4 i 5, primesc
ambele rangul 4 iar rangul 5 nu mai este atribuit (urmtoarea valoare are rangul 6).
Coloana a patra conine rangurile centilice, calculate dup formula precizat. Astfel
valoarea 18, cu rangul 3, depete 3 valori. Cum n = 6 se obine un rang centilic egal
cu 3/(61), adic de 60%. Aceasta valoare poate fi neleas potrivit figurii urmtoare:
Se vede c valoarea 18 are n dreapta ei, deci valori mai mici ordinea este
15
valori 27 23 18 12
15
ranguri 1 2 3 4 5 6
60%
descresctoare , trei segmente din totalul de 5, adic 60% din distribuie. Analog,
valoarea 15 depete 2 segmente din 5, deci 20% etc.
SPSS
Pentru a calcula coeficienii de corelaie dintre variabile de interval sau ordinale se d
comanda Analyze > Correlate > Bivariate
Prin dialogul Options se pot selecta anumite statistici elementare dorite n rezultat ca
i modul de tratare a observaiilor lips.
Ca rezultat se obine, n principal, matricea de corelaie ntre variabilele selectate
pentru analiz. O celul a tabelului conine valoarea coeficientului de corelaie,
probabilitatea critic a testului de semnificaie i numrul de valori reinute pentru
calcul (dup tratarea cazurilor lips).
Potrivit procedurii de decizie ntr-un test statistic, se respinge ipoteza unei corelaii
nule dac probabilitatea critic este mai mic sau egal cu pragul de semnificaie ales.
Corelaiile semnificative pot fi marcate automat cu * (=0,05) sau ** (=0,01) prin
selectarea opiunii Flag significant correlations din dialogul principal.
Pentru cazul variabilelor discrete, se poate consulta tabelul urmtor care conine o
sistematizare a coeficienilor de asociere definii (ei sunt calculai i de SPSS), tabel
adaptat dup tabelul similar din
http://demography.anu.edu.au/Publications/SDA-course-notes/sec03.htm.
Denumirile statisticilor sunt pstrate pentru a fi recunoscute n dialogurile
specializate.
Variabila Variabila
Coeficient Statistic Observaii
dependent independent
Coeficieni bazai pe
Ali coeficieni
C. Lucrarea practic
1. S se genereze n Excel dou iruri de numere dintr-o repartiie uniform.
a) S se calculeze coeficientul de corelaie ntre cele dou variabile astfel
construite. S se interpreteze rezultatul i s se verifice concordana cu
reprezentarea grafic adecvat.
b) S se repete generarea de numere i s se testeze semnificaia statistic
a coeficientului de corelaie n fiecare caz.
c) Pentru o generare de numere, s se calculeze coeficientul de corelaie a
rangurilor (Spearman).
2. S se deschid n SPSS fiierul University of Florida graduate salaries.sav din
fiierele de test care nsoesc aplicaia SPSS.
a) S se studieze asocierea (indicatorii 2, , C) dintre variabilele discrete
gender i college. Prin agregare de categorii, sau eliminarea categorii-
lor cu frecvene mici, s se aduc datele n situaia n care se poate
aplica 2.
b) S se studieze asocierea dintre variabilele graduation date i gender.
c) S se studieze asocierea gender i salary:
prin test t
prin discretizare i 2.
3. S se deschid fiierul World95.sav din fiierele de test care nsoesc aplicaia
SPSS.
a) S se calculeze i s se interpreteze matricea de corelaie dintre
variabilele continue.
b) S se compare corelaiile semnificative calculate pentru:
global (toate datele),
pe religii predominante,
pe regiuni.
Statistic multivariat
y0
x0
Linia estimat este "cea mai bun" n sensul c exprim cel mai central drum
printre puncte: linia pentru care suma ptratelor distanelor (pe vertical) dintre puncte
i dreapt este minim. Termenul comun pentru dreapta estimat este acela de dreapta
de regresie.
Distanele sunt referite ca erori (reziduuri). Deci dreapta de regresie realizeaz
valoarea minim a ptratelor erorilor, n sensul c orice alt dreapt produce o sum
de ptrate mai mare.
Este de amintit c o proprietate a mediei aritmetice este aceea c suma
ptratelor diferenelor de la medie are o valoare minim. Astfel se poate spune c
dup cum media reprezint punctul de echilibru pentru o distribuie univariat de
scoruri, la fel dreapta de regresie reprezint punctul de echilibru ntr-o distribuie
bivariat.
Utilitatea dreptei de regresiei este aceea c servete ca baz pentru predicia
valorilor lui Y asociate valorilor lui X. Astfel, dat o valoare x0, valoarea prognozat
pentru Y este y0, ordonata pe dreapta de regresie corespunztoare abscisei x0.
Problema estimrii erorilor de predicie va fi tratat o dat cu prezentarea modelului
general.
Problema prezentat poate fi formulat matematic drept determinarea
cantitilor a i b din ecuaia Ye = a + b X, unde
Ye este valoarea prezis (estimat) a variabilei dependente;
a este termenul liber al dreptei de regresie (valoarea pentru X=0);
b este coeficientul de regresie (cantitatea cu care se modific Y atunci cnd X
se modific cu o unitate);
X este valoarea variabilei independente.
Se demonstreaz c, prin metoda celor mai mici ptrate, se obine:
b=
( x X )( y Y )
i i
i
(x X )
i
2
a = Y b X .
Valoarea estimat, totui, este numai o medie care se poate atepta. Acurateea
depinde de ct de bine se potrivete dreapta de regresie cu datele reale. Aceast
potrivire este evaluat prin considerarea unei statistici: eroarea standard a estimaiei,
definit ca abaterea standard a erorilor de estimare (a reziduurilor estimaiei):
s=
(y i y ei ) 2
n2
unde yei reprezint valoarea estimat (prin ecuaia de regresie) pentru xi.
O eroare standard mare arat c valorile observate sunt la distan de dreapta
de regresie i deci aceasta este mai puin reprezentativ pentru datele reale. n
consecin i valorile prognozate sunt afectate de erori mai mari.
r=
( x X )( y Y ) ,
i i
( ( x X ) )( ( y Y ) )
i
2
i
2
Graficul funciei
20
15
10
5 y = 3,33x + 6,92
R 2 = 0,73
0
-4 -3 -2 -1 0 1 2 3 4
-5
SPSS
Scatterplot
Diagrama de mprtiere (scatterplot dup denumirea utilizat n SPSS)
presupune, uzual, c variabila dependent este pe axa vertical (Oy) iar variabila
independent este pe axa orizontal.
Pentru a obine o diagram de mprtiere se utilizeaz comanda Graphs >
Scatter... Se va afia dialogul:
Pentru diagrama de mprtiere (relaia dintre dou variabile) se alege varianta
Simple. Dup acionarea butonului Define se afieaz dialogul de fixare a variabilelor
i a opiunilor asociate.
n acest dialog, se pot marca casetele din grupul Fit Line, care vor produce
trasarea dreptelor de regresie pe total sau/i pe grupuri.Opiunile disponibile pentru
trasarea dreptelor de regresie se gsesc n dialogul Fit Options:
Dreapta de regresie
Principalul dialog pentru estimarea unui model liniar se obine prin Analyze
Regression Linear.
In aceast lucrare se vor preciza doar acele elemente care sunt necesare pentru
estimarea dreptei de regresie (ecuaia de regresie simpl). Lucrarea urmtoare va
conine explicaiile complete ale dialogurilor SPSS implicate n estimarea i
analizarea modelului liniar.
n Dependent se va transfera variabila dependent. Variabila independent
(unic n cazul regresiei simple) se transfer n Independent(s), n zona Method se
fixeaz ca metod Enter.
Butonul Statistics deschide dialogul sinonim n care se pot preciza statisticile
calculate. Unele opiuni sunt selectate i n mod implicit.
C. Lucrarea practic
1. Exist o anumit eviden c prevenirea atacurilor de inim este ajutat de
un consum moderat de vin. n tabelul urmtor sunt prezentate date statistice din 1994
privind aceast problem (consumul de alcool in litri/persoana, decesele sunt
anuale/100000 locuitori).
- S se realizeze o diagram de mprtiere i s se descrie forma relaiei dintre cei
doi indicatori.
- Exist asociere ntre cei doi indicatori?
- S se calculeze coeficientul de corelaie dintre cei doi indicatori.
Alcool Decese datorate
ara
din vin afectiunilor cardiace
Australia 2.5 211
Austria 3.9 167
Belgia 2.9 131
Canada 2.4 191
Danemarca 2.9 220
Finlanda 0.8 297
Franta 9.1 71
Islanda 0.8 211
Irlanda 0.7 300
Italia 7.9 107
Olanda 1.8 167
Noua Zeelanda 1.9 266
Norvegia 0.8 227
Spania 6.5 86
Suedia 1.6 207
Elvetia 5.8 115
Marea Britanie 1.3 285
Alcool Decese datorate
ara
din vin afectiunilor cardiace
SUA 1.2 199
Germania 2.7 172
2. Urmtorul tabel conine rezultatele dintr-o statistic oficial privind
cheltuielile pentru buturi alcoolice i produse de tutun n 11 regiuni ale Marii
Britanii.
- S se realizeze o diagram de mprtiere i s se descrie forma relaei dintre cei
doi indicatori.
- Exist asociere ntre cei doi indicatori? S se calculeze coeficientul de corelaie.
- S se recalculeze coeficientul de corelaie doar pentru primele 10 regiuni i s se
interpreteze rezultatul.
regiunea alcool tutun
North 6.47 4.03
Yorkshire 6.13 3.76
Northeast 6.19 3.77
East Midlands 4.89 3.34
West Midlands 5.63 3.47
East Anglia 4.52 2.92
Southeast 5.89 3.2
Southwest 4.79 2.71
Wales 5.27 3.53
Scotland 6.08 4.51
Northern Ireland 4.02 4.56
3. Un cercettor este interesant s specifice relaia dintre indicele de
inteligen (IQ) i rezultatul la un examen (msurat pe o scal cu 100 de puncte).
Datele obinute de la un numr de subieci sunt:
Student IQ Scor Student IQ Scor
1 110 42.5 7 127 70.5
2 112 53 8 130 60
3 118 46 9 132 81
4 119 61.75 10 134 70.5
5 122 70.5 11 136 77.5
6 125 56.5 12 138 88
- S se studieze asocierea celor dou variabile, IQ i scor.
- Ct din variana scorurilor poate fi atribuit variabilei IQ?
- S se estimeze i s se valideze dreapta de regresie care aproximeaz IQ ca o
funcie de scor, IQ = a scor + b.
- S se estimeze i s se valideze dreapta de regresie care aproximeaz scorul
ca o funcie de IQ, scor = a IQ + b.
- Ce relaie este ntre cele dou ecuaii?
- Se poate renuna la examen n sensul c nota se poate obine din ultima
ecuaie estimat tiind IQ-ul studentului?
4. Se va deschide n SPSS fiierul Catalog.sav din fiierele de test
(SPSS/Tutorial/Sample files/) sau prin descrcare din pagina cursului. Fiierul conine
date privind rezultatele unor campanii publicitare. Se va estima relaia liniar (sau una
care poate fi liniarizat) dintre variabilele men, women i jewel ca variabile
dependente i variabilele mail, page, phone, print i service ca variabile independente.
Statistic multivariat
2
Cum e = ee este o funcie de coeficienii a, o condiie necesar pentru
2
i =1 i
xx
prin standardizare nelegndu-se transformarea de tipul ~ x= .
sx
Coeficienii de regresie standardizai au interpretarea: modificarea cu o abatere
standard a valorii variabilei x produce o modificare cu i abateri standard a valorii
variabilei dependente. n acest fel, mrimea coeficienilor standardizai reflect
importana variabilelor independente n predicia lui y.
Distribuia estimatorului
Exp(a) =
Var(a) = 2(X'X)-1.
(y i yi ) 2
s2 = i =1
n p
este o estimaie nedeplasat a dispersiei necunoscute 2. Este de notat c numitorul
este egal cu numrul gradelor de libertate a sumei de la numrtor (n observaii din
care am obinut p estimaii).
Precizia ajustrii
Reziduuri mici exprim o ajustare mai bun a datelor experimentale, dar
stabilirea unui criteriu care s indice ct de mici trebuie s fie reziduurile pentru ca
regresia s fie acceptat este o problem dificil.
Pentru a obine o msur a preciziei ajustrii se pleac de la identitatea
yi yi = ( yi y ) ( y i y )
care, prin reorganizarea termenilor, produce
yi y = ( y i y ) + ( yi yi ).
Se poate demonstra c are loc identitatea:
( yi y )2 = ( yi y )2 + ( yi yi )2 .
i i i
Aceast relaie arat c variaia valorilor observate n jurul valorii medii se
descompune ntr-un termen ce exprim variaia valorilor estimate n jurul mediei i
ntr-un termen datorat reziduurilor ajustrii. Prin urmare, regresia estimat va fi cu
att mai bun cu ct ultimul termen va fi mai mic, sau cu ct variaia valorilor
estimate va fi mai apropiat de variaia valorilor observate. Se alege drept indicator
sintetic de precizie a ajustrii raportul
i ( yi y )2
R =
2
.
( yi y )2
i
Pentru o bun ajustare a ecuaiei de regresie la datele experimentale, trebuie ca
acest raport s fie apropiat de 1.
Cantitatea R2 se numete coeficientul de determinare i, exprimat procentual,
arat ct din variana variabilei dependente este explicat de ecuaia estimat. Este un
indicator de asociere avnd atributul PRE,
( yi y )2 ( yi yi )2
R2 = i i
i y )2
( y
i
deci poate fi interpretat i n urmtorul sens: cu ct se mbuntete prognoza
valorilor y prin considerarea modelului estimat.
Se arat c R2 crete prin includerea mai multor variabile n model, astfel nct
are loc o supraestimare n cazul modelelor extinse. O soluie propus este ajustarea
coeficientului de determinare prin
p 1
R 2 = R2 (1 R 2 ).
n p
Testarea ipotezelor
Notm
SPg = ( yi y )2 , SPreg = ( yi y )2 , SPrez = ( yi yi )2
i i i
cele trei sume de ptrate care apar n identitatea introdus la definirea coeficientului
de determinare. Sumele sunt referite ca suma ptratelor global (SPg), suma ptratelor
datorate regresiei (SPreg) i suma ptratelor reziduale (SPrez). Fiecare sum de ptrate
are ataat un numr de grade de libertate: g = n-1, reg = p-1, rez = n-p i se poate
realiza un tabel al analizei dispersionale (ANOVA) sub forma
Sursa Suma Grade de Media ptrat F
de variaie de ptrate libertate
Regresie SPreg reg SPreg / reg = s2reg F = s2reg / s2
Rezidual SPrez rez SPrez / rez = s2
Global SPg g SPg / g
Teste t
n situaia cnd este respins ipoteza nul, se accept c ecuaia de regresie
este semnificativ la nivel global, cu meniunea c s-ar putea ca anumii coeficieni s
nu fie semnificativi. Pentru testarea fiecrui coeficient se utilizeaz un test t cu
ipotezele:
H0 : i = 0
H1: i 0.
a
n condiiile ipotezei H0 se arat c statistica ti = i este repartizat Student
s (ai )
cu n p grade de libertate, ceea ce permite utilizarea testului t. n expresia care d
statistica testului, s(ai) este abaterea standard estimat a coeficientului, dat ca
rdcina ptrat din elementul corespunztor de pe diagonala principal a matricei
s2(XX)-1.
Nerespingerea ipotezei nule arat c datele experimentale nu permit stabilirea
necesitii prezenei variabilei xi n model, variabila este nesemnificativ n model.
Intervale de ncredere
Apar de interes dou tipuri de intervale de ncredere: pentru parametrii
modelului, i, i pentru valorile prognozate cu ajutorul modelului estimat.
Parametrii modelului
O regiune de ncredere, la nivelul , pentru ansamblul parametrilor este dat
de
( a)XX( a) ps2F1-,p,n-p
Utiliznd repartiia statisticilor ti, definite la testarea semnificaiei
parametrilor, se demonstreaz c intervalul de ncredere pentru parametrul i,
i = 1, 2, , p, este dat la pragul de ncredere , de relaia
ai t1-/2;n-ps(ai) 1 ai + t1-/2;n-ps(ai) .
Valorile prognozate
Utilitatea principal a modelului liniar este prognozarea valorilor variabilei
dependente. Valoarea prognozat este evident o statistic pentru c se obine prin
modelul estimat (din datele experimentale). Se poate atunci vorbi de repartiia de
sondaj a valorii prognozate, repartiie care st la baza determinrii intervalelor de
ncredere pentru valorile prognozate.
n estimarea intervalului de ncredere pentru o valoare y0= x0 + 0, se
distinge ntre situaiile n care observaia x0 a fost, sau nu, utilizat la estimarea
coeficienilor (cu alte cuvinte, dac matricea X conine sau nu linia x0).
n primul caz, intervalul de ncredere pentru valoarea estimat este
0 t1-/2;n-ps x0 ( X X ) 1 x0 y0 0 + t1-/2;n-ps x0 ( X X ) 1 x0
unde 0 = x0a, este valoarea prognozat de ecuaia de regresie.
n al doilea caz, intervalul de ncredere este
0 t1-/2;n-ps x0 ( X X ) 1 x0 + 1 y0 0 + t1-/2;n-ps x0 ( X X ) 1 x0 + 1 .
n cazul regresiei simple (dreapta de regresie), ultimul interval de ncredere are
forma
1 ( x0 x ) 2 1 ( x0 x ) 2
0 t1-/2;n-ps + y + t s + ,
n ( xi x ) 2 n ( xi x ) 2
0 0 1-/2;n-p
Analiza reziduurilor
Analiza statistic a ecuaiei de regresie este bazat pe ipotezele Gauss-Markov
asupra erorilor ~ N(0, 2In ). Valabilitatea acestor ipoteze, n special cea a
normalitii erorilor, poate fi testat prin analiza reziduurilor. Ca i n cazul testelor
statistice, concluziile analizei sunt de genul: ipoteza normalitii se respinge sau
ipoteza normalitii nu se respinge. Analiza reziduurilor este, n esen, de natur
grafic.
Calculul estimaiilor erorilor produce
e = Yobs-Yest = Yobs Xa = Yobs X(XX)-1XYobs = (1 X(XX)-1X)Yobs
Notnd Z = X(XX)-1X = (zij), rezult c, n cazul ndeplinirii ipotezelor
Gauss-Markov, dispersia reziduului ei este egal cu (1-zii) 2 unde zii sunt elementele
de pe diagonala principal a matricei Z, cu estimaia s2(ei) = (1-zii)s2. Reamintim c
media reziduurilor este egal cu zero.
Ipotezele de repartiie a erorilor sunt reflectate n repartiia reziduurilor
(estimaii ale erorilor). Se analizeaz histograma reziduurilor sau diagrame ale
reziduurilor n raport de valorile estimate, de variabilele independente. Diagramele
construite n continuare pun n eviden eventualele abateri de la repartiiile presupuse
pentru erori, abateri ce vor exprima deviaiile de la ipotezele de repartiie a erorilor.
Diagrama reziduurilor
Deoarece ei ~ N (0; (1 zii ) 2 ) , rezult c mrimile di, i = 1,,n, date de
ei
di =
s 1 zii
sunt repartizate N(0;1). Din acest motiv, mrimile di sunt denumite reziduuri
normalizate.
Observaie. n practic, se neglijeaz uneori radicalul de la numitor.
Histograma mrimilor di trebuie s reflecte o repartiie normal standard.
Atunci cnd n este relativ mic, histograma va prezenta, n general, mari neregulariti
fa de situaia care ar permite aproximarea cu o curb normal. Decizia referitoare la
proveniena, sau neproveniena, dintr-o repartiie normal se poate lua n acest caz, de
exemplu, n urma comparaiei cu histograme obinute pentru eantioane de acelai
volum n generate aleatoriu dintr-o repartiie normal standard.
a) b)
c) d)
Multicoliniaritatea
Situaia descris drept multicoliniaritate apare atunci cnd un grup de variabile
independente sunt puternic corelate ntre ele. n acest caz, prin includerea n model a
unei variabile din grup, restul variabilelor din grup nu mai aduc o informaie
semnificativ. Simultan are loc o supraevaluare a coeficientului de determinare, ca i
a dispersiilor coeficienilor estimai, ceea ce poate denatura interpretarea modelului i,
n plus, produce mrirea intervalelor de ncredere.
Apar astfel dou probleme: determinarea multicoliniaritii i cum trebuie
procedat n cazul existenei multicoliniaritii.
Detectarea multicoliniaritii
Cea mai simpl metod de detectare a multicoliniaritii este bazat pe studiul
matricei de corelaie dintre variabilele x. Se pot determina astfel perechile de variabile
independente care sunt puternic corelate ntre ele. O structur mai complex a
intercorelaiilor poate fi detectat prin calcularea determinantului acestei matrice de
corelaie. O valoare apropiat de zero a determinantului reflect o puternic corelaie
ntre anumite variabile, deci existena multicoliniaritii.
O alt abordare a problemei este aceea a stabilirii unui indicator sintetic pentru
a decide dac o variabil este coliniar cu celelalte (sau cu un grup dintre celelalte).
Notnd cu Ri2 coeficientul de determinare obinut la estimarea regresiei multiple
avnd ca variabil dependent pe xi i ca variabile independente restul variabilelor x,
adic
xi = f ( x1 , x2 ,K, xi 1 , xi +1 ,K, x p )
se introduce tolerana variabilei xi prin
i = 1 Ri2 .
O valoare mic a lui i (uzual mai mic dect 0,1) reflect un coeficient Ri2
apropiat de 1, deci o legtur liniar puternic ntre xi i restul variabilelor
independente. Prin urmare xi este coliniar cu celelalte variabile independente.
Se definete factorul de inflaie a varianei, notat VIF, inversul toleranei:
1
VIFi = .
i
Denumirea provine din aceea c un asemenea factor apare multiplicativ n
definirea varianei coeficienilor estimai (se poate spune c se msoar de cte ori
este supraevaluat variana coeficienilor datorit multicoliniaritii n raport cu
situaia cnd nu ar exista coliniaritate). Interpretarea este dedus din cea a toleranei: o
valoare VIF mare (uzual mai mare dect 10), denot coliniaritate.
Eliminarea multicoliniaritii
O rezolvare comun a problemei multicoliniaritii este aceea ca dintre dou
variabile independente corelate s se rein n model doar una.
Prin interpretarea toleranelor sau a factorilor de inflaie se vor exclude din
model acele variabile care au tolerane mici (sau factori de inflaie mari).
Selecia prospectiv
Procedura ncepe prin includerea n model a variabilei independente avnd cel
mai mare coeficient de corelaie cu variabila y. La fiecare pas urmtor, se analizeaz
fiecare dintre variabilele neincluse nc n model printr-un test F secvenial i se
extinde modelul prin includerea acelei variabile care aduce o contribuie maxim
(probabilitatea critic din testul F este cea mai mic). Procesul se oprete atunci cnd
modelul nu mai poate fi extins, criteriul uzual fiind acela al fixrii un prag de intrare
(PIN) i acceptnd doar variabilele pentru care probabilitatea critic n testul F
secvenial este mai mic sau egal cu acest prag.
Procedura are ca limitri faptul c anumite variabile nu vor fi incluse n model
niciodat, deci importana lor nu va fi determinat. Pe de alt parte, o variabil inclus
la un anumit pas rmne permanent n model, chiar dac, prin includerea ulterioar a
altor variabile, importana ei poate s scad.
Selecia retrograd
Se ncepe cu estimarea modelului complet i apoi, ntr-un numr de pai
succesivi, se elimin din model variabilele nesemnificative. La fiecare pas, pe baza
unui test F parial, se elimin acea variabil care are cea mai mare probabilitate
critic. Procesul se oprete atunci cnd nici o variabil nu mai poate fi eliminat.
Criteriul uzual este acela de fixare a unui prag de eliminare (POUT) i considerarea
doar a variabilelor care au probabilitatea critic mai mare dect acest prag.
REGRESSION
Estimarea coeficienilor unui model liniar prin metoda celor mai mici ptrate
i calculul statisticilor necesare testelor statistice asociate sunt efectuate de procedura
Regression, una dintre cele mai complexe din pachetul de prelucrri statistice din
Excel. Procedura permite i construirea graficelor necesare pentru aprecierea vizual a
potrivirii modelului liniar. Dei acestea, din motive evidente, necesit prelucrri
suplimentare de scalare nainte de interpretare, existena lor este un real ajutor pentru
statistician.
Termeni
Modelul liniar estimat de procedur
este
Y = 0X0 + 1X1 + 2X2 + + p-1Xp-1 + ,
care exprim faptul c variabila Y se poate
obine ca o combinaie liniar a variabilelor
X0, X1,, Xp-1 la care se adaug o "eroare" .
Pentru estimarea parametrilor
modelului se consider disponibile n
observaii asupra tuturor variabilelor din
model. Valorile sunt structurate ca un tablou
dreptunghiular, fiecare variabil ocupnd o
coloan (deci o linie este referit drept o
observaie).
Dialogul procedurii Regression este
prezentat n figura urmtoare.
Input
Input Y Range se precizeaz domeniul (coloana) pe care se afl valorile variabilei depen-
dente.
Input X Range se precizeaz domeniul pe care se afl valorile tuturor variabilelor
independente. Acest domeniu trebuie s fie compact, fiecare variabil Xi ocupnd o
coloan.
Labels se marcheaz boxa de control n cazul n care prima linie din tabloul de date este cu
denumirile variabilelor (situaie recomandat).
Constant Is Zero se marcheaz boxa de control dac modelul care se estimeaz este fr
termen liber.
Confidence Level se precizeaz, procentual, sigurana statistic dorit n raportarea
intervalelor de ncredere deci valoarea (1)100, unde este pragul de semnificaie.
Intervalele obinute sunt suplimentare, ntotdeauna afindu-se cele pentru = 0,05. Boxa
se va marca doar dac se dorete i un alt prag de semnificaie.
Output options
Output Range, New Worksheet Ply, New Workbook Precizeaz zona unde se vor nscrie
rezultatele. Zona de rezultate este foarte complex, cuprinde tabele care depind de
mrimea modelului, de numrul de observaii, de numrul graficelor dorite etc. Prin
urmare se va prefera o foaie de calcul nou sau o zon liber n dreapta i n jos.
Residuals
Residuals se marcheaz boxa de control n cazul cnd se dorete calcularea reziduurilor
modelului estimat.
Residual Plots se marcheaz boxa de control n cazul cnd se dorete obinerea diagramelor
reziduuri variabil independent, adic vizualizarea punctelor de coordonate
(xij, rj), j = 1,n, avnd ca abscis o valoare a variabilei independente Xi, iar ca ordonat
reziduul corespunztor.
Standardized Residuals aceast box de control se va marca dac se dorete calculul
valorilor standardizate ale reziduurilor. Valorile astfel obinute provin, teoretic, dintr-o
distribuie normal standard, astfel nct o histogram a acestor valori trebuie s se
apropie de curba normal (clopotul lui Gauss).
Line Fit Plots se marcheaz aceast box de control dac se dorete afiarea diagramelor Y
variabil independent, prin care se vizualizeaz, pe un acelai grafic, punctele de
coordonate (xij, yobs,i), (xij, yest,i), j = 1,,n, unde abscisele sunt valorile variabilei
independente, iar ordonatele sunt valorile observate i cele estimate ale variabilei
dependente. Este desenat cte un grafic pentru fiecare variabil independent.
Interpretarea acestor diagrame poate oferi indicaii asupra adecvanei modelului, asupra
valorilor aberante.
Normal Probability
Normal Probability Plots se marcheaz dac se dorete vizualizarea repartiiei de sondaj a
variabilei Y ntr-o reea de probabilitate.
Exemplu
Un set de date cuprinde 25 de observaii asupra a 4 variabile, notate Y (considerat
variabila dependent) i X1, X2, X3 (considerate variabile independente). Valorile i
denumirile ocup n foaia de calcul un domeniu dreptunghiular continuu, B2:E27, valorile Y
ocupnd prima coloan.
Pentru a estima modelul liniar
Y = 0 + 1X1 + 2X2 + 3X3 + ,
cu termen constant, se apeleaz procedura Regression.
a) Un prim tabel de rezultate, prezentat n figura alturat, conine statisticile
generale ale ecuaiei de regresie.
Multiple R coeficientul multiplu de corelaie.
R Square coeficientul de determinare (este egal cu ptratul
coeficientului de corelaie multipl). Poate fi gndit,
exprimat procentual, drept proporia din variaia
variabilei dependente explicat de variaia variabilelor
independente: 60,7% din variaia lui Y este explicat de
variabilele X.
Adjusted R Square valoarea corectat a coeficientului de
determinare. Este introdus pentru a contracara (parial)
efectul creterii mecanice a lui R2 o dat cu numrul variabilelor independente.
Standard Error eroarea standard a estimaiei. Se calculeaz ca abaterea standard a
reziduurilor (pentru numrul gradelor de libertate utilizat se va vedea tabloul ANOVA, n
continuare) i este estimaia abaterii standard a erorilor (n ipoteza normalitii
acestora).
Observations numrul de observaii din eantion.
b) Al doilea tabel de rezultate cuprinde tabloul de analiz a varianei asociat regresiei
estimate.
Dreapta de regresie
Principalul dialog pentru estimarea unui model liniar se obine prin Analyze
Regression Linear.
n Dependent se va transfera
variabila dependent. Variabilele
independente, Independent(s), pot fi
grupate pe blocuri: 1. se transfer
variabilele dorite, 2. se precizeaz n
Method modul de introducere a
acestor variabile n regresie (Enter
toate simultan, Forward, Backward,
Stepwise metodele discutate la
alegerea celei mai bune regresii), 3. se
definete un nou bloc prin Next.
Se pot selecta observaiile
preciznd n Selection Variable
variabila i, prin Rule, regula de
selectare a cazurilor n funcie de
valorile variabilei de selecie.
n Case Labels se poate preciza variabila care identific cazurile, etichetele
fiind considerate la reprezentrile grafice. Prin WLS Weight se poate preciza variabila
de ponderare pentru metoda celor mai mici ptrate ponderate (nediscutat n curs).
Butonul Statistics deschide dialogul sinonim n care se pot preciza statisticile
calculate. Unele opiuni sunt selectate i n mod implicit.
Estimates coeficienii estimai,
Confidence intervals intervalele de
ncredere ale coeficienilor, Model fit
calcularea statisticilor R, R2 i a tabelului
ANOVA, R squared change modificrea
coeficientului de determinare i testarea
semnificaiei schimbrii la adugarea
fiecrui bloc de variabile, Descriptive
statisticile eseniale pentru fiecare variabil,
Collinearity diagnostics calcularea toleranelor, a statisticilor VIF i studiul
multicoliniaritii prin analiza n componente principale (a se vedea capitolul urmtor
al cursului). n zona Residuals se produce o analiza a reziduurilor pentru a putea
decide asupra normalitii acestora i a diagnostica valorile aberante.
Prin Plots se afieaz dialogul sinonim n care se pot indica reprezentrile
grafice dorite.
n lista variabilelor disponibile pentru
diagrame se afl DEPENDNT variabila
dependent i variabile derivate din
regresie cum ar fi valorile prognozate
standardizate (*ZPRED), reziduurile
standardizate (*ZRESID).
Diagramele indicate n Standardized
Residual Plots sunt utile pentru verificarea
normalitii reziduurilor.
Dialogul Save permite calcularea i salvarea ca variabile noi a valorilor
prognozate i a reziduurilor sub diferite forme, precum i salvarea altor statistici de
interes. Predicted Values valorile prognozate prin model pentru fiecare caz:
Unstandardized, Standardized pentru valorile nestandardizate i standardizate,
Adjusted valoarea prognozat pentru un caz din ecuaia de regresie estimat fr a
considera acel caz, S.E. of mean predictions abaterile standard ale valorilor
prognozate, utile pentru calcularea intervalelor de ncredere ale acestor valori.
Distances distanele cazurilor de
la punctul mediu, pentru identificarea
valorilor aberante: Mahalanobis este
distana explicat n capitolul privind
clasificarea, Cook's este msura a ct de
mult se modific reziduurile dac se
elimin cazul respectiv din estimarea
modelului (o valoare mare arat o influen
considerabil a cazului n estimarea
coeficienilor), Leverage values msoar
influena cazurilor n estimare.
Prediction Intervals sunt intervalele
de incredere pentru valorile estimate, la
nivelul de ncredere precizat n Confidence
Interval. Sunt generate dou variabile.
Residuals reziduurile estimrii n diferite forme: standardizate,
nestandardizate, studentizate (reziduul este mprit la estimaia abaterii sale standard,
proprie fiecrui caz). Deleted, Studentized deleted se
refer la reziduurile obinute din modelul la estimarea
cruia cazul respectiv a fost exclus.
Influence Statistics sunt modificrile n
coeficieni (inclusiv cei standardizai), DfBeta(s) i
Standardized DfBeta, i n valorile prognozate, DfFit
i Standardized DfFit, rezultate dup excluderea
cazului din estimare.
n sfrit, prin butonul Options se deschide
dialogul sinonim n care se pot fixa parametri ai
estimrii: pragurile de intrare i excludere la metodele pas cu pas precum i modul de
tratare a valorilor lips dintr-o variabil implicat.
C. Lucrarea practic
1. Legea lui Ohm, I = V/R, afirm c intensitatea curentului, I, este
proporional cu tensiunea, V, i invers proporional cu rezistena, R.
Elevii dintr-un laborator de fizic efectueaz experimente bazate pe legea
lui Ohm: variaz tensiunea, msoar intensitatea curentului i determin n
final rezistena firului. Se obin rezultatele:
V 0,50 1,00 1,50 1,80 2,00
I 0,52 1,19 1,62 2,00 2,40
Deoarece legea lui Ohm poate fi rescris sub forma unei regresii liniare,
I = +V, unde = 0 i =1/R, s se estimeze, pe baza datelor
experimentale, coeficienii i .
S se obin intervalul de ncredere, la pragul de semnificaie de 5%, pentru
coeficientul . S se deduc intervalul de ncredere pentru rezistena
firului.
S se verifice ipoteza = 0.
2. O familie nregistreaz consumul de gaz necesar nclzirii locuinei.
Consumul (n mc) este raportat n tabelul urmtor, mpreun cu diferena
medie de temperatur fa de cea extern (n grade Fahrenheit).
Luna oct nov dec ian feb mar apr mai iun
temperatura 15.6 26.8 37.8 36.4 35.5 18.6 15.3 7.9 0
Gaz 520 610 870 850 880 490 450 250 110
S se studieze forma relatiei dintre cei doi indicatori. Exista asociere ntre
cei doi indicatori?
S se estimeze dreapta de regresie care modeleaz relaia dintre cei doi
parametri.
n timpul verii, proprietarul locuinei mbuntete izolaia termic a casei
sale. Drept care n luna februarie urmtoare, la o diferen medie de 40, se
consuma 895 mc de gaz. Se poate spune c lucrarea efectuat reduce
consumul de gaz?
3. Datele necesare acestul exerciiu sunt la adresa web
www.infoiasi.ro/~val/statistica/boston.sav i sunt doar o oglindire a unor
date din surse internaionale. Analiza datelor dorete s prognozeze preul
de vnzare a unei case din regiunea Boston n funcie de caracteristici
diverse ale locuinei i ale localizrii ei. Prelucrarea se va efectua, de
preferin, n SPSS
Variabilele sunt n ordine: CRIM rata criminalitii, ZN proporia
teritoriului zonat n loturi de peste 25,000 sq.ft., INDUS proporia
terirorial a zonei industriale, CHAS indicator de nvecinare cu rul din
zon (= 1 da, 0 nu), NOX concentraia de oxizi nitrici, RM numrul
mediu de camere, AGE proporia de locuine construite nainte de 1940
i ocupate de proprietar, DIS distana ponderat la cinci centre din
Boston, RAD indicele de accesibilitate la reeaua de autostrzi, TAX
rata de impozit (procent la 10000$), PTRATIO raportul copii-profesori
n zon, B 1000(Bk0.63)2 unde Bk este procentajul populaiei de
culoare n zon, LSTAT procentajul populaiei srace, MEDV valoarea
medie a caselor (n mii de dolari).
Se se efectueze urmtoarele operaii:
Completai n SPSS denumirile de variabile i informaiile necesare.
Verificai condiiile necesare aplicrii analizei regresionale.
Estimai ecuaia de regresie prin diferite metode. Analizai dac obinei un
rspuns care pare consistent, independent de metod.
Validai i interpretai rezultatele regresiei.
Statistic multivariat
Multicoliniaritatea
Situaia descris drept multicoliniaritate apare atunci cnd un grup de variabile
independente sunt puternic corelate ntre ele. n acest caz, prin includerea n model a
unei variabile din grup, restul variabilelor din grup nu mai aduc o informaie
semnificativ. Simultan are loc o supraevaluare a coeficientului de determinare, ca i
a dispersiilor coeficienilor estimai, ceea ce poate denatura interpretarea modelului i,
n plus, produce mrirea intervalelor de ncredere.
Apar astfel dou probleme: determinarea multicoliniaritii i cum trebuie
procedat n cazul existenei multicoliniaritii.
Detectarea multicoliniaritii
Cea mai simpl metod de detectare a multicoliniaritii este bazat pe studiul
matricei de corelaie dintre variabilele x. Se pot determina astfel perechile de variabile
independente care sunt puternic corelate ntre ele. O structur mai complex a
intercorelaiilor poate fi detectat prin calcularea determinantului acestei matrice de
corelaie. O valoare apropiat de zero a determinantului reflect o puternic corelaie
ntre anumite variabile, deci existena multicoliniaritii.
O alt abordare a problemei este aceea a stabilirii unui indicator sintetic pentru
a decide dac o variabil este coliniar cu celelalte (sau cu un grup dintre celelalte).
Notnd cu Ri2 coeficientul de determinare obinut la estimarea regresiei multiple
avnd ca variabil dependent pe xi i ca variabile independente restul variabilelor x,
adic
xi = f ( x1 , x2 ,K, xi 1 , xi +1 ,K, x p )
se introduce tolerana variabilei xi prin
i = 1 Ri2 .
O valoare mic a lui i (uzual mai mic dect 0,1) reflect un coeficient Ri2
apropiat de 1, deci o legtur liniar puternic ntre xi i restul variabilelor
independente. Prin urmare xi este coliniar cu celelalte variabile independente.
Se definete factorul de inflaie a varianei, notat VIF, inversul toleranei:
1
VIFi = .
i
Denumirea provine din aceea c un asemenea factor apare multiplicativ n
definirea varianei coeficienilor estimai (se poate spune c se msoar de cte ori
este supraevaluat variana coeficienilor datorit multicoliniaritii n raport cu
situaia cnd nu ar exista coliniaritate). Interpretarea este dedus din cea a toleranei: o
valoare VIF mare (uzual mai mare dect 10), denot coliniaritate.
Eliminarea multicoliniaritii
O rezolvare comun a problemei multicoliniaritii este aceea ca dintre dou
variabile independente corelate s se rein n model doar una.
Prin interpretarea toleranelor sau a factorilor de inflaie se vor exclude din
model acele variabile care au tolerane mici (sau factori de inflaie mari).
Valori aberante
Printr-o valoare aberant (outlier) se nelege o observaie extrem, adic o
observaie care nu se "ncadreaz" n paternul general al celorlalte valori. Atunci cnd
este studiat o singur variabil, exist teste specifice eliminrii valorilor aberante, de
exemplu testul Dixon. Regula empiric (bazat pe distribuia normal) este aceea de
considera ca valoare aberant orice valoare care este deprtat de medie cu mai mult
de trei abateri standard.
n situaia special a regresiei liniare, problematica valorilor aberante este mai
complex deoarece anumite valori extreme (nu toate) pot influena major coeficienii
regresiei. Se pot astfel identifica valori aberante
ntre valorile y (n spaiul rspunsurilor)
ntre valorile x (n spaiul x, al variabilelor independente)
n ambele spaii.
n problematica valorilor aberante se disting astfel dou aspecte: identificarea
valorilor aberante i modul de tratare a valorilor identificate.
Identificarea valorile aberante se realizeaz prin analiza reziduurilor
standardizate, caz n care se identific valorile extreme n spaiul y. Din pcate,
anumite valori din acest spaiu nu pot fi identificate din cauz c, prin procesul de
estimare, curba de regresie a fost "tras" spre valoarea extrem. Acest fapt se ntmpl
atunci cnd valori extreme y sunt asociate valorilor extreme din spaiul x (aa-zisele
puncte prghie leverage points; punctele extreme y asociate valorii medii x nu
modific n mod exagerat curba). Au fost atunci dezvoltate i msuri specifice pentru
identificarea acelor puncte care influeneaz semnificativ regresia. Una este distana
Cook (sau D), explicat n continuare.
Cook's D. Considernd s eroarea standard a estimaiei, y j valoarea
estimat (pentru a j-a observaie) i y j (i ) valoarea estimat din regresia calculat
dup omiterea celei de a i-a observaii, distana Cook pentru observaia (punctul) i se
definete prin
n
(y y j (i))2
j =1 j
D =
i , i = 1, K , n
(k + 1) s 2
adic o msur a influenei celei de a i-a observaii asupra tuturor valorilor
prognozate. Regula detectrii unei valori aberante este, pentru distana Cook,
4
Di
n (k + 1)
Deoarece n este uzual mult mai mare dect k, unii autori propun devizarea
doar la n. Prin aceast regul are loc o supraidentificare, mai multe valori aberante
dect ar fi natural, i se recomand tratarea acestor distane ca o nou variabil pentru
care se determin valorile sale aberante (de exemplu regula celor 3 abateri standard).
De remarcat c procedura care utilizeaz distana Cook identific acele
observaii care au o influen major asupra coeficienilor de regresie (asupra
modelului estimat).
Tratarea valorilor aberante presupune, ca abordare direct, eliminarea acestora
(a observaiilor care le conin) i refacerea regresiei. Se poate totui ca n acest mod de
abordare s se piard informaii valoroase, poate singurele cu adevrat importante n
procesul studiat. Prin urmare, se va studia n prealabil:
dac valorile au aprut n urma unor erori de msurare,
dac reprezint cazuri neimportante pentru procesul studiat,
dac exist influene majore asupra modelului (a coeficienilor).
In cazul nendeplinirii unei asemenea condiii, atunci valoarea nu este
eliminat i se va ncerca, pentru o adecvan mai mare a modelului, s se obo
adecvan mai mare a modelului, s se obin determinri suplimentare n acea
regiune a spaiului variabilelor.
Transformri de variabile
n cazul n care relaia dintre y i x nu pare a fi liniar, situaie detectabil
ntr-o diagram de mprtiere, sau dispersia valorilor y nu pare a fi constant dup
valorile lui x, se poate ncerca o
transformare prealabil a lui x i/sau
y. Mosteller i Tukey (1977) propun
un ghid (bulging rule) pentru
selectarea unei transformri care s
pconduc la o "liniarizare" a relaiei.
Se observ, n figura alturat, c pe
fiecare ax, x sau y, se propune o
cretere (x2, x3 ...) sau o scdere (log
x, x , 1/x ...) a gradului variabilei
respective. Prin urmare, se va
identifica forma relaiei n diagrama
de mprtiere i se vor utiliza
transformrile din cadranul
corespunztor.
Un alt set de propuneri de transformri de variabile pornesc de la histograma
valorilor variabilei (i nu de la diagrama de mprtiere):
Histograma variabilei x Transformarea propus
x
1.
lg x
2.
1
x
3.
max( x) +1 x
4.
lg (max(x) +1 x)
5.
1
max( x) + 1 x
6.
De notat c situaiile 4 - 6 sunt reduse la 1 - 3 prin simetrizare.
Regresia polinomial
Un caz particular des utilizat de model liniar este regresia polinomial.
Modelul polinomial este
y = 0 + 1x + 2x2 + + pxp +
Se observ c exist o singur variabil independent, x. Acest model se
impune atunci cnd forma relaiei dintre y i x este curbilinie, fapt sugerat de
diagrama de mprtiere sau de considerente teoretice.
Pentru a estima un model polinomial este necesar, dac produsul informatic
utilizat nu dispune de o procedur specializat, s se genereze variabilele
independente ca puteri ale variabilei iniiale.
y x x2 xp
y1 x1 x12 x1p
y2 x2 x22 x2p
Estimarea are loc prin procedura uzual a regresiei multiple, considernd
puterile calculate drept noi variabile, cu aceleai interpretri i teste ca la modelul
liniar.
B. Instrumente SPSS
SPSS
Dreapta de regresie
Reamintim principalul dialog pentru estimarea unui model liniar se obine prin
Analyze Regression Linear.
n Dependent se va transfera
variabila dependent. Variabilele
independente, Independent(s), pot fi
grupate pe blocuri: 1. se transfer
variabilele dorite, 2. se precizeaz n
Method modul de introducere a acestor
variabile n regresie (Enter toate
simultan, Forward, Backward, Stepwise
metodele discutate la alegerea celei mai
bune regresii), 3. se definete un nou bloc
prin Next.
Se pot selecta observaiile
preciznd n Selection Variable variabila
i, prin Rule, regula de selectare a
cazurilor n funcie de valorile variabilei
de selecie.
Butonul Statistics deschide
dialogul sinonim n care se pot preciza
statisticile calculate. Unele opiuni sunt
selectate i n mod implicit.
Estimates coeficienii estimai,
Confidence intervals intervalele de
ncredere ale coeficienilor, Model fit
calcularea statisticilor R, R2 i a tabelului
ANOVA, R squared change modificrea
coeficientului de determinare i testarea semnificaiei schimbrii
la adugarea fiecrui bloc de variabile, Descriptive statisticile
eseniale pentru fiecare variabil
Pentru tema curent este important alegerea Collinearity diagnostics
calcularea toleranelor, a statisticilor VIF i studiul multicoliniaritii prin analiza n
componente principale (a se vedea capitolul urmtor al cursului). n acest caz, tabelul
privind coeficienii modelului estimat va conine nc dou coloane cu statisticile
privind diagnosticul coliniaritii.
Apare totodat n fiierul de ieire un tabel intitulat Collinearity Diagnostics
care conine informaii privind analiza factorial (a se vedea capitolul urmtor din
curs) a variabilelor independente. Se poate deocamdat interpreta (mecanic) faptul c
existena mai multor valori proprii situate n imediata vecintate a lui 0 denot o
posibil coliniaritate n variabilele independente.
In ceea ce privete valorile aberante reamintim dialogul Plots (prezentat n
lucrarea trecut) prin intermediul cruia se pot solicita diagramele asociate
reziduurilor.
Din dialogul Save, care permite calcularea i salvarea unor variabile noi
(valorile prognozate, reziduuri sub diferite forme etc.) accentum elementele:
Distances distanele cazurilor de la punctul mediu, pentru identificarea
valorilor aberante: Mahalanobis este distana explicat n capitolul privind
clasificarea, Cook's este distana Cook explicat mai sus (o valoare mare arat o
influen considerabil a cazului n estimarea coeficienilor), Leverage values msoar
influena cazurilor n estimare.
Influence Statistics sunt modificrile n coeficieni (inclusiv cei standardizai),
DfBeta(s) i Standardized DfBeta, i n valorile prognozate, DfFit i Standardized
DfFit, rezultate dup excluderea cazului din estimare.
In ieirea SPSS, valorile aberante pot fi deci identificate prin
1) Std residual sau Stud Residual mai mari dect 3 n valoare absolut.
2) Standardized DfBeta mai mari de 1 (sau, dup ali autori, chiar mai mari de
2/Sqrt(N)).
3) Cooks D mai mare dect 4/N pot indica observaii cu probleme..
C. Lucrarea practic
1) Se va salva i deschide fiierul
www.infoiasi.ro/~val/statistica/Expenditures.xls
Datele se refer la cheltuielile publice (1960) pe cap de locuitor n statele
americane. Variabilele sunt
EX: cheltuieli publice pe locuitor
ECAB: indice de dezvoltare economic
MET: procentajul populaiei din zone metropolitane
GROW: modificarea procentual a populaiei 1950-1960
YOUNG: procentajul populaiei tinere 5-19 ani
OLD: procentajul populaiei peste 65 ani
WEST: 1 pentru statele din vest, 0 pentru celelalte
i) s se studieze relaia dintre EX (nivelul cheltuielilor) i indicatorii
demografici i economici (ECAB, MET, GROW, YOUNG, OLD)
ii) se va estima o regresie polinomial n cazul n care asocierea pare a fi
curbilinie
iii) se vor identifica valorile aberante i se va reface estimarea prin excluderea
acestora
iv) se va estima i analiza regresia multipl
EX = f(ECAB, MET, GROW, YOUNG, OLD)
att pe ansamblu, ct i pentru fiecare categorie de state (estice, vestice).
Se vor identifica diferenele.
2) Se va deschide fiierul Employee Data.sav dintre fiierele de test SPSS.
i) se va modela salariul curent funcie de celelalte variabile continue.
(1) se va studia influena variabilelor independente.
(2) se vor analiza i trata valorile aberante.
ii) se va reface analiza pentru fiecare categorie de job
Statistic multivariat
1 ( 2 LLnull )
2/n
k =1 xik ks
p
unde is = este o funcie liniar. n aceast formulare a modelului, este
de remarcat c exist coeficieni de regresie ks diferii pentru fiecare k i, mai ales, s.
Prin urmare, fiecare valoare posibil Y are un model asociat.
Modelul astfel definit este supraparametrizat, ceea ce impune o reducere prin
fixarea unei valori Y, de exemplu Y = 1, drept categorie de referin (adic 11, ... ,
p1 sunt egali cu zero). Alegerea categoriei de referin poate facilita interpretarea.
B. Instrumente SPSS
Comanda este Analyse - Regression - Binary Logistic.
C. Lucrarea practic
1. Un studiu care urmrete de cine depinde gustul brnzeturilor de tip
cheddar a prelevat probe i a determinat concentraia unor compui
chimici. Fiecare prob a fost supus unui proces de degustare i a
primit o not. Unele valori au fost transformate n prealabil (Acetic i
H2S sunt obinute prin logaritmarea valorilor msurate).
Fiierul de date este www.infoiasi.ro/~val/statistica/CheeseData.txt
Variabilele sunt
i. Taste: nota obinut n urma combinrii notelor acordate de
mai muli degusttori
ii. Acetic: logaritm natural din concentraia de acid acetic
iii. H2S: logaritm natural din concentraia de H2S.
iv. Lactic: concentraia de acid lactic
S se modeleze variabila Taste cu ajutorul celorlalte trei
variabile.
S se analizeze modelul obinut.
2. Date privind un numr de companii au fost selectate din lista Forbes
500 pentru anul 1986 (printr-un sondaj sistematic 1/10 din lista
alfabetic a companiilor). Studiul urmrete volumul de vnzri al
companiei.
Fiierul de date este www.infoiasi.ro/~val/statistica/ForbesData.txt
Variabilele sunt:
i. Company: numele companiei
ii. Assets: bunurile companiei (milioane $)
iii. Sales: volumul de vnzri (milioane $)
iv. Market_Value: valoarea de pia a companiei (milioane $)
v. Profits: profitul (milioane $)
vi. Cash_Flow: volumul tranzaciilor (milioane $)
vii. Employees: numrul de angajai (mii persoane)
viii. Sector: domeniul de activitate a companiei.
S se modeleze volumul de vnzri n funcie de celelalte
variabile. S se analizeze modelul obinut.
S se determine transformrile prealabile necesare pentru unele
variabile i s se refac modelarea.
3. Se va deschide fiierul Employee Data.sav din setul de fiiere test
oferite de SPSS. S se decid dac faptul c un angajat aparine
minoritii (minority = 1) este reflectat de variabilele educ, prevexp,
jobcat i gender.
Pentru aceasta se va estima i se va analiza o regresie logistic n care
variabila dependent este minority, restul variabilelor fiind considerate
independente.
Statistic multivariat
Reconstituirea tabloului X
Din relaia (*) se obine
Xu = v , de unde Xu u = v u i sumnd
p p
X u u = v u .
=1 =1
p
Cum u u
=1
este produsul matricei ortogonale a vectorilor proprii cu
transpusa sa, adic este matricea unitate, se obine reconstituirea tabloului iniial prin
p
X = v u'
=1
cu meniunea c anumite valori proprii pot fi 0 (dar exist vectorii proprii
corespunztori).
O reconstituire aproximativ X* este obinut prin limitarea la primele q axe
factoriale (reamintim c valorile proprii au fost luate n ordine descresctoare, deci
q+1, , p sunt valorile cele mai mici):
q
X X * = v u' .
=1
Fiecare valoare proprie msoar suma ptratelor distanelor la origine ale
proieciilor pe axa factorial respectiv. Prin urmare, reconstituirea va fi cu att mai
bun cu ct suma valorilor proprii reinute va constitui o parte notabil a sumei tuturor
valorilor proprii. Calitatea global a reconstituirii poate fi msurat prin cantitatea
q p
q =
=1 =1
numit rata de inerie (msoar partea din variana norului explicat de subspaiul cu q
dimensiuni). Se poate verifica i
q = xij* x
2 2
ij .
i, j i, j
Analiza n R p
Cele n puncte ale acestui spaiu sunt indivizi (observaii) i se dorete o
reprezentare a apropierilor dintre aceste puncte ntr-un spaiu de dimensiune mai
mic. Prin transformrile prealabile are loc o translaie a norului de puncte ntr-un
reper avnd ca origine centrul de greutate al norului.
In ACPN se modific i scala pe fiecare ax.
Analiza n R n
Cele p puncte sunt aici variabilele, transformrile prealabile au ns o
interpretare diferit:
transformarea din ACP este o proiecie paralel cu prima bisectoare
Astfel, n cazul n=2 (neimportant din punct de vedere statistic, dar permite o
vizualizare corect), un punct variabil este supus transformrii:
Criteriul Kaiser
Se rein doar componentele principale corespunznd valorilor proprii mai mari
dect 1. Se aplic de regul n ACPN.
Reprezentri grafice
In ACP/ACPN datele iniiale se refer la n observaii asupra a p variabile, care
pot fi interpretate ca
n puncte-indivizi (observaii) n R p,
p puncte-variabile n R n.
Reinerea unui numr de axe factoriale echivaleaz cu determinarea unui
subspaiu n care datele iniiale pot fi regsite cu suficient acuratee. Examinarea
structurii norilor de puncte din subspaiile respective se realizeaz prin metode
grafice, reprezentnd punctele prin proiecii pe un numr suficient de plane factoriale.
Astfel, pentru a putea nelege structura unui nor de puncte n R 3 este nevoie
de proiecia lor pe dou plane (xOy i xOz, de exemplu). Interpretrile difer totui
dup cum este vorba de variabile sau de observaii.
Variabile
Prin metoda numeric utilizat, coordonatele punctelor variabile sunt mai mici
de 1, punctele fiind pe sfera unitate. Cum distanele dintre puncte sunt invers
proporionale cu corelaiile dintre variabilele corespunztoare, gruprile de puncte
indic grupuri de variabile corelate.
Pentru eliminarea erorilor de perspectiv, aprecierea corect apare doar dup
analiza proiecii-lor pe mai multe planuri factoriale (= nr.de factori 1). Variabilele
apropiate de o ax sunt corelate cu acea component principal, se poate considera c
axa respectiv este o combinaie a variabilelor apropiate de ea.
Observaii
Reprezentarea punctelor-observaii prezint de asemenea gruprile de
observaii, fr a mai fi pe sfera unitate.
Prima ax factorial este, uzual, factorul de talie, separnd de-a lungul ei
observaiile mici de cel mari. A doua ax factorial este factorul de form. care
nuaneaz diferen-ele efectuate de primul factor.
Dac observaiile aparin la grupuri de interes, evidenierea claselor (ca n
figur) poate oferi informaii utile prin configuraiile vizibile. Concluziile sunt
justificate doar dup utilizarea unui numr suficient de proiecii.
B. Instrumente SPSS
Dialogul Factor Analysis
Pentru a aplica analiza factorial, prin natura metodei, trebuie ca ntre
variabile s existe corelaii suficient de mari pentru a avea sens problema reducerii
dimensiunii. Prin urmare, dac o variabil nu este corelat cu celelalte va trebui
exclus din analiz. n acelai timp, nici corelaiile foarte mari (multicoliniaritatea) nu
conduc la rezultate uor de interpretat, situaia extrem fiind cea de singularitate, a
existenei variabilelor perfect corelate. n asemenea cazuri este imposibil s se
determine contribuia individual la un factor a variabilelor. Prin urmare este necesar
s se calculeze i s se analizeze matricea de corelaii a variabilelor prin Analyse
Correlate Bivariate, inclusiv determinantul acestei matrice pentru determinarea
multicoliniaritii.
Este de asemenea necesar s se testeze c variabilele au o distribuie apropiat
de distribuia normal (prin analizarea histogramelor sau a testelor de normalitate).
Dialogul principal este Analyse Data Reduction Factor. Se afieaz
dialogul Factor Analysis.
Descriptives
n grupul Statistics se poate cere afiarea statisticilor elementare (media,
abaterea standard etc.). Selectarea Initial solution afieaz comunalitile iniiale,
valorile proprii etc.
Extraction
Din lista Method se poate fixa metoda de analiz factorial. Pentru analiza n
componente principale sau componente principale normate se va selecta Principal
components. n acest caz, tipul analizei este dat de selecia din grupul Analyze:
correlation matrix pentru ACPN sau covariance matrix pentru ACP.
Rotation
Rotaia reperului axelor factoriale pentru a prinde un unghi de vedere mai
bun se poate selecta n dialogul Rotation. Ca metode sunt disponibile: varimax (se
minimizeaz numrul de variabile cu ncrcri mari pe fiecare factor, ceea ce
simplific interpretarea factorilor), direct oblimin (rotaie oblic), quartimax
(minimizeaz numrul de factori necesari explicrii fiecrei variabile), equamax
(combinaie ntre metodele varimax i quartimax) i promax (rotaie oblic n care se
admit factori corelai).
Pentru soluia obinut n urma rotaiei se poate cere soluia sau diagramele
ncrcrilor pentru primii doi (dac nu s-au extras cel puin trei factori) sau trei
factori. i pentru procesul de rotaie se poate preciza numrul maxim de iteraii n
Maximum Iterations for Convergence.
Scores
Se poate cere salvarea ca noi variabile a scorurilor factoriale finale, fiecare
factor producnd o variabil. Cu alte cuvinte coordonatele cazurilor n reperul
factorial sau transformri ale acestora.
Se poate preciza metoda de calcul a scorurilor: regression (scorurile produse
au media zero i o dispersie egal cu ptratul corelaiei multiple ntre scorurile
factoriale estimate i coordonatele factoriale adevrate), Bartlett (scorurile produse au
media zero i este minimizat suma ptratelor factorilor reinui) sau Anderson-Rubin
(scorurile au media zero, abatere standard unitar i sunt necorelate).
Options
Se precizeaz modul de tratare a valorilor lips ca i modul de afiare a
matricelor, de exemplu se pot omite coeficienii care sunt n valoare absolut sub un
anumit prag.
Initial Eigenvalues
% of Cumulative
Component Total Variance %
1 3.313 47.327 47.327
2 2.616 37.369 84.696
3 .575 8.209 92.905
4 .240 3.427 96.332
5 .134 1.921 98.252
6 9.E-02 1.221 99.473
7 4.E-02 .527 100.000
Extraction Method: Principal Component Analysis.
3.0
2.5
2.0
1.5
1.0
Eigenvalue
.5
0.0
1 2 3 4 5 6 7
Component Number
Component
1 2
COLOR .760 -.576
AROMA .736 -.614
REPUTAT -.735 -.071
TASTE .710 -.646
COST .550 .734
ALCOHOL .632 .699
SIZE .667 .675
Extraction Method: Principal Component Analysis.
a. 2 components extracted.
Structura mai util pentru interpretare este, totui, cea obinut dup rotirea
factorilor, care ofer o "viziune" mai bun. Matricea de ncrcare este afiat i dup
ce s-au rotit factorii, interpretarea fiind cea dat mai sus.
Rotated Component Matrixa
Component
1 2
TASTE .960 -.028
AROMA .958 1.E-02
COLOR .952 6.E-02
SIZE 7.E-02 .947
ALCOHOL 2.E-02 .942
COST -.061 .916
REPUTAT -.512 -.533
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.
Clasificare
Prin clasificare se nelege gruparea unor entiti (observaii, obiecte etc.) n
clase (grupuri) de entiti similare. Atunci cnd gruparea este efectuat manual, cel
care o efectueaz opereaz cu judeci de similaritate, asemnare, apropiere. Acest tip
de raionament este formalizat i n metodele automate.
Exist, n esen, dou tipuri de clasificare automat:
1. predictiv, de exemplu analiza discriminant; se asigneaz o observaie la
un grup pornind de la reguli de clasificare derivate din observaii
clasificate n prealabil. Se poate ca schema de clasificare existent s fie
subiectiv, neutilizabil efectiv, astfel nct metoda descoper aspectele
eseniale ale schemei i le transform n reguli practice.
2. descriptiv, de exemplu analiza cluster; se grupeaz obiectele pe baza
similaritii lor, nu este cunoscut o grupare prealabil.
Clasificare predictiv
Considerm cazul a dou populaii multivariate, 1 i 2, fiecare caracterizat
de repartiiile diferitelor variabile msurate. Problema clasificrii revine la a stabili
populaia la care aparine o observaie u (caracterizat de valorile variabilelor
considerate).
Notnd cu S spaiul de eantionare (care cuprinde observaii din 1 i din 2),
o regul de clasificare revine la a partiiona S n A1 i A2, astfel nct pentru o
observaie u se poate dezvolta o procedur care decide
dac u A1, atunci u 1
dac u A2, atunci u 2
Clasificare descriptiv
In analiza multivariat, clasificarea descriptiv (cluster analysis) se refer la
metodele utilizate pentru a identifica ntr-o mulime de obiecte grupurile de obiecte
similare. Cazurile de aplicare ale acestor metode sunt similare celor n care se
utilizeaz analiza factorial.
Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaii, obiecte,
coloanele sunt variabile, atribute). In plus,
datele sunt omogene n sensul c are sens calculul distanelor dintre
elemente
exist suficient de multe date nct simpla inspecie vizual sau
prelucrrile statistice elementare nu ofer o imagine satisfctoare a
structurii datelor
tabloul de date este amorf: nu exist o structurare a priori (dependene
funcionale, relaii, clasificri cunoscute).
De remarcat c ultima caracteristic este cea care ne deprteaz de descrierea
predictiv (unde se presupunea existena unei structurri necesare n etapa de
training).
Drept rezultat al clasificrii descriptive se obin grupurile de elemente, clasele
identificate. Deoarece se pot aplica pe aceleai structuri de date, metodele clasificrii
descriptive sunt complementare metodelor analizei factoriale. De regul, atunci cnd
se utilizeaz mpreun, analiza factorial este efectuat mai nti, clasele evideniate
de aceasta fiind precizate, ierarhizate, localizate de clasificarea descriptiv.
Metodele de clasificare sunt de natur mai degrab algoritmic: clasele apar ca
urmare a unei suite de operaii efectuate recursiv sau repetitiv; matematica implicat
este relativ elementar.
Numim clas (grup, cluster) o mulime de obiecte (elemente) similare ntre
ele i nesimilare obiectelor din alte clase. Un cluster poate fi gndit (reprezentrile
grafice reflect aceste interpretri)
Ca o mulime de puncte care sunt apropiate (la distane mici) ntre ele i
deprtate de punctele din alte clase, sau
Ca o regiune conex dintr-un spaiu multidimensional care are o densitate
mare (relativ) de puncte, clusterele fiind separate ntre ele de regiuni cu o
densitate sczut (relativ) de puncte.
Rezult c problema esenial n determinarea (identificarea) clusterelor este
cea a specificrii proximitii (apropierii, similaritii) i cum se determin aceasta.
Este evident c proximitatea este o noiune dependent de problema real cercetat.
Structurile uzuale de date privind obiectele supuse analizei cluster sunt:
Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin
atributele lor n obiecte i p atribute vor furniza o matrice de tip np.
Liniile sunt obiecte (pattern-uri), coloanele sunt atribute (variabile).
Matricea de proximitate. Elementele d(i,j) reprezint proximitile dintre
obiectele i i j. Proximitatea poate fi
o similaritate (asemnare), cum ar fi coeficientul de corelaie, sau
o disociere (deprtare, difereniere), cum ar fi distana euclidian.
Atunci cnd atributele sunt de tipuri diferite (att discrete, ct i continue), se
poate calcula proximitatea dintre obiectele i i j prin
p
f =1
(f)
ij d ij( f )
d (i, j ) = f
[0,1]
ij( f )
i =1
unde (f)
ij
este ponderea variabilei f
0 pentru xif sau x jf lipsa
(f)
ij = 0 xif = x jf = 0 si f este asimetrica, binara
1 in rest
Menionm c d ij( f ) este contribuia variabilei f la d(i,j) i anume:
- dac f este binar sau nominal, atunci dij( f ) = 0 pentru xif = x jf
1 altfel
(Hamming)
- dac f este continu, atunci (normalizare prin amplitudine)
xif x jf
d ij( f ) =
max xhf min xhf
h h
- dac f este ordinal, se atribuie rangul rif, se calculeaz zif = rif 1 i se
max rhf 1
h
Calitatea clasificrii
Deoarece ntr-o problem de clusterizare nu se cunoate nimic a priori
(numrul de clase n special), evaluarea calitii partiiei obinute este o etap foarte
important. Evaluarea trebuie s ia n considerare att faptul c, poate, mulimea
iniial nu are o structur bine determinat de clase, ct i faptul c diferite metode
conduc la clase diferite.
Procedurile uzuale de evaluare:
Vizualizarea partiiei (dendrograme, profiluri, proiecii).
Indicatori de calitate
o Coeficienii de divizare (divisive coefficient DC) i de aglomerare
(agglomerative coefficient AC) care ofer indicatori (medii)
globali.
o Indici de siluet (Silhouette) care se pot defini att global, ct i
local pentru fiecare cluster.
Divisive Coefficient (DC): Pentru fiecare obiect i, se calculeaz d(i) ca fiind
raportul dintre diametrul ultimului cluster (n ordinea dat de algoritmul de divizare)
la care a aparinut obiectul nainte de a fi separat ca un singleton i diametrul mulimii
totale de obiecte (clusterul iniial). Atunci
1
DC = d (i )
n
Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea
ascendent: Pentru fiecare obiect i, se calculeaz d(i) ca fiind raportul dintre
disocierea primului cluster (n ordinea dat de algoritm) la care se ataeaz obiectul i
diametrul mulimii totale de obiecte (clusterul final).
1
AC = [1 d (i )]
n
AC tinde s creasc o dat cu numrul de obiecte.
Silueta se calculeaz (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a
unui cluster, silueta medie global. Acest indice vrea s reprezinte ct de bine este
separat un cluster de vecinii si (deci ct de apropiate sunt elementele dintr-un cluster
distana intra-cluster i ct de deprtate sunt de celelalte clustere distana inter-
clustere).
Prin calculul siluetei se poate decide asupra validitii unui cluster, ca i
asupra numrului corect de clustere.
Notnd cu S (i) silueta obiectului i, formula de calcul este
bi ai
S (i ) =
max{ai , bi }
unde ai disocierea medie a obiectului i fa de restul obiectelor din acelai cluster;
bi disocierea medie a obiectului i fa de obiectele din cel mai apropiat cluster (al
doilea candidat pentru includerea obiectului i).
Dac obiectul i este singurul element al unui cluster, atunci
S (i) = 0.
Rezult c -1 S (i) 1 i S (i) poate fi considerat ca un indice adimensional,
cu putere de comparare. Interpretarea este
Dac S (i) este apropiat de 1, atunci obiectul este bine clasificat (este
asociat cu clusterul adecvat).
Dac S (i) este aproape nul, atunci obiectul poate fi clasificat i n
urmtorul cluster apropiat (obiectul este situat similar n raport cu ambele
clustere)
Dac S (i) este apropiat de 1, atunci obiectul este clasificat eronat (el este
separat fa de celelalte clustere).
Fiecare cluster este caracterizat de silueta medie, obinut ca media siluetelor
elementelor din cluster.
Intreaga structur de clustere este caracterizat de silueta medie global,
obinut ca media siluetelor S(i) dup toate obiectele i. Dac structura conine un
numr k de clustere, se noteaz silueta medie global cu Sk. Silueta medie global se
poate utiliza pentru a decide asupra celui mai bun numr de clustere: se va alege
acel k pentru care Sk este maxim.
Se introduce coeficientul siluet prin
SC = max Sk
k
Este propus (Rousseeuw - 1987) urmtoarea interpretare a coeficientului
siluet dup valoarea sa:
0.71 - 1.00 s-a determinat o structur puternic (bine definit) de
clustere;
0.51 - 0.70 s-a determinat o structur acceptabil
0.26 - 0.50 structura determinat este slab, poate fi artificial
0.25 structura determinat este artificial.
B. Instrumente SPSS
Procedurile care rezolv probleme de clasificare sunt grupate n Analyze
Classify. Dintre ele se prezint n continuare K-Means Cluster care urmrete metoda
general prezentat n curs i Hierarchical Cluster pentru clasificarea ierarhic. De
menionat c dei algoritmul K-Means este cel mai direct i mai eficient ca volum de
calcule, el utilizeaz distana euclidian iar standardizarea prealabil a variabilelor
este important. Pentru considerarea altor distane se va apela procedura Hierarchical
Cluster.
K-Means Cluster
Algoritmul const n fixarea iniial aleatorie a centrelor claselor (numrul de
clase este cunoscut) i apoi se repet etapele:
atribuirea fiecrui caz la centrul cel mai apropiat,
actualizarea centrelor ca valori medii ale elementelor aparinnd clasei
respective.
Ca interpretare se poate considera c centrul unei clase finale reflect
caracteristicile unui element tipic al clasei prin valorile variabilelor n acel centru.
Prin Analize Classify K-Means Cluster se deschide dialogul
Centrele claselor finale sunt afiate ntr-un tabel similar celui care arat
centrele iniiale:
Hierarchical Cluster
Algoritmul pleac de la clustere coninnd un singur element (cazurile) i
reunete clustere pn cnd se obine un singur cluster. Se pot selecta mai multe
distane, se afieaz statistici la fiecare pas pentru a ajuta la selectarea numrului
optim de clustere.
Comanda este Analyze Classify Hierarchical Cluster care produce
afiarea dialogului principal.
Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opiunii
selectate n grupul Cluster. Variabilele reprezentnd caracteristicile dup care are loc
clasificarea sau care se clasific se trec n lista Variables i se poate alege o variabil
de etichetare a cazurilor (la clasificarea cazurilor) util n reprezentrile grafice.
Grupul Display controleaz ce se afieaz, deci accesibilitatea la butoanele Statistics,
Plots. Dialogurile secundare sunt explicate n continuare.
Statistics
Agglomeration schedule se afieaz
combinaiile din fiecare iteraie, distane etc.
Proximity matrix se afieaz distanele sau
similaritile dintre elemente. Cluster Membership
produce afiarea apartenenei la clustere n una sau
mai multe iteraii.
Plots
Diagramele de aglomerare sunt disponibile n
formatul
Dendrogram (dendrograma explicat in curs,
orientat spre vizualizarea clusterelor) sau
Icicle (similar diagramei steag, orientat spre
vizualizarea cazurilor).
Orientarea diagramei poate fi vertical sau
orizontal. n reprezentarea dendrogramei, distanele
dintre elementele care se unesc sunt transformate pe o
scal 0 25, cu pstrarea raportului distanelor.
Method
n lista Cluster Method se poate alege una dintre metodele explicate n curs ca
metode de agregare, de calculare a distanelor dintre clustere: cel mai apropiat vecin
(nearest neighbor), cel mai deprtat vecin
(furthest neighbor), distana fa de centru
(centroid clustering), Ward etc.
n grupul Measure se poate specifica
distana sau similaritatea utilizat n grupare
potrivit tipului de date:
Interval pentru datele continue sunt
disponibile distanele: euclidian, cosinus
(cosinusul unghiului dintre vectorii
punctelor), corelaia Pearson, Chebychev
(diferena absolut maxim dintre valorile
elementelor), block (suma diferenelor
absolute dintre componente, distana Manhattan), Minkowski (rdcina de ordin p
din suma diferenelor absolute la puterea p), Customized (similar cu distana
Minkowski, dar rdcina poate fi de ordin r diferit de puterea p a diferenelor de
coordonate)
Count pentru frecvene (de date discrete) sunt disponibile msurile de disociere
2 i 2 (a se vedea seciunea privind asocierea datelor nominale).
Binary pentru datele dihotomice exist o mulime de distane propuse, bazate pe
tabelul de frecvene ncruciate a celor dou variabile. Se pot preciza valorile
interpretate ca 0 sau 1.
n grupurile Transform Values i Transform Measures se pot selecta metode
de transformare prealabil a valorilor astfel nct variabilele s fie ct mai omogen
msurate.
Save
Se poate salva, sau nu, ca variabile noi,
apartenena la clustere. Selectarea opiunii Single
solution i precizarea numrului de clustere
considerat ca soluie final va salva apartenena la
acel stadiu.
Dac se selecteaz Range of solutions, se va
salva apartenena la fiecare stadiu dintre cele
menionate.
C. Lucrarea practic
1) Setul de date aflat la adresa www.infoiasi.ro/~val/statistica/EuropeanProtein.txt
conine consumul de proteine n 25 de ri europene. Datele se refer la anul 1973.
Sunt msurate urmtoarele variabile: Country - numele rii, RdMeat - carne roie,
WhMeat - carne alb, Eggs - ou, Milk - lapte, Fish - pete, Cereal - cereale,
Starch - grsimi, Nuts - oleaginoase, Fr&Veg - fructe, vegetale.
a) s se realizeze o analiz factorial pentru a stabili numrul de clase n care pot
fi grupate cele 25 de ri
b) s se realizeze o clasificare a celor 25 de ri; s se studieze concordana cu
situaia observat la punctul a).
2) Datele acestei probleme sunt cele prelucrate i n lucrarea numrul 11,
www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Reamintim variabilele: Country
numele rii, Agr procentajul de muncitori din agrucultur, Min procentajul
de muncitori din minerit, Man procentajul de muncitori din industria
prelucrtoare, PS procentajul de muncitori din industria energetic, Con
procentajul de muncitori din construcii, SI procentajul de muncitori din
servicii, Fin procentajul de muncitori din finane, SPS procentajul de
muncitori din servicii sociale, TC procentajul de muncitori din transporturi i
comunicaii.
a) s se aplice un algoritm de clasificare ierarhic
b) s se aplice algoritmul k-means pentru k = 4; s se compare cu rezultatul
clasificrii realizate la a).