Documente Academic
Documente Profesional
Documente Cultură
De regul, n analiza pe care dorim s o facem att numrul indivizilor ct i cel al variabilelor fiind
mare suntem confruntai cu o analiz multivariat.
Dispunem ns de informaii asupra celor p variabile, informaii colectate de la n indivizi. Din punct
de vedere geometric, aceste observaii pot fi reprezentate prin n puncte n spaiul p-dimensional al
variabilelor.
Dac am analiza doar dou variabile, atunci configuraia celor n puncte ar fi uor de vizualizat plan, iar
dificultatea analizei s-ar reduce foarte mult. ns numrul variabilelor urmrite este de regul mare, iar
configuraia punctelor este dificil de imaginat.
Mai precizm faptul c ntr-o prim etap a modelrii toate cele p variabile sunt tratate ca variabile
input i nu am stabilit nici o variabil scop (output).
Prin urmare, sintetiznd cele afirmate anterior, un prim obiectiv n analiza realizat ar fi acela de a
reduce controlat dimensiunea matricei (reducnd numrul de linii sau/i de coloane) i de a gsi un
numr mai mic de variabile care s explice trsturile indivizilor.
n acelai timp, n unele aplicaii se dorete att asocierea unor scoruri indivizilor, aa nct s-i
putem ordona, ct i o clasificare a acestora n clase ct mai omogene.
Metode:
Metode descriptive au scopul de a sintetiza i structura date. Acestea presupun c toate
variabilele urmrite au acelai rol n explicarea fenomenului, neprecizndu-se iniial nici o
distincie ntre ele. Totui, vom presupune c ar exista factori ascuni (lateni) comuni tuturor
variabilelor, factori pe care ncercm s-i scoatem la iveal. Acesta cuprinde:
o Analiza componentelor principale
o Analiza factorial a corespondenelor
o Tipologia
o Analiza multidimensional a asemnrilor
Metode explicative care exploreaz relaiile ntre dou subansamble de variabi le, de explicat i
explicative; Dac n matricea de date putem identifica o variabil a crei evoluie depinde de
Analiza datelor sinteze ale studentului Pagina 1 din 19
celelalte, fie conform legitii fenomenului, fie ca o constatare a unei analize anterioare, atunci
aceasta va fi numit variabil dependent sau variabil rspuns, iar variabilele care o
influeneaz vor fi numite variabilele predictor sau variabile de influen. Evident, n aceste
situaii ne-ar interesa s cuantificm, printr-o expresie matematic, legtura/legturile dintre
variabila rspuns i variabilele predictor. Ele se caracterizeaz prin faptul c, pe baza unui set de
date de nvare (antrenament), este construit un model care va fi apoi aplicat pentru a previziona
comportamentul variabilei rspuns pentru diverse situaii noi, similare celor analizate. Fac parte:
o Analiza regresional;
o Analiza varianei
o Analiza discriminant
o Analiza mrimilor unite
Sintetiznd, putem afirma c este indicat a se aplica tehnicile descriptive, nesupervizate, dup etapa
primar de explorare a datelor matricei. Ele pot fi tehnici de analiz a componentelor principale, de
analiz a factorilor sau de analiz a clasificrii. Toate au ca scop reducerea controlat a
dimensionalitii matricei iniiale. Tehnicile explicative, supervizate, se aleg dup natura variabilei
rspuns i a variabilelor predictor.
Putem ntlni urmtoarele situaii:
I) Variabila rspuns este continu i toate variabilele predictor sunt de asemenea continue; pentru a
estima dependena dorit sefolosesc tehnici de regresie (simpl sau multipl);
II) Variabila rspuns este binar, iar predictorii sunt variabile continue. n acest caz se apeleaz la
regresia logit;
III) Variabila rspuns este nominal, iar variabilele predictor sunt continue. Se va apela, n general, la
tehnici de discriminare;
IV) Variabila rspuns este continu, dar variabilele predictor sunt de tip categorial; se vor aplica tehnici
de analiz a varianei;
V) Att variabila rspuns, ct i variabilele predictor sunt de tip categorial. Vom folosi tehnici de analiz
de tip conjoint.
- De a caracteriza unitile;
- De a spune ceea ce este specific fiecrui grup;
- De a caracteriza unitile n raport cu mai multe variabile: n funcie de variabile se
utilizeaz diferite tehnici.
Scopul analizei: rezumarea informaiei replasnd variabilele iniiale printr-un numr redus de noi
factori sau componente principale. Este utilizat pentru uurarea interpretrii (avem un numr restrns
de factori) i poate servi ca faz intermediar de calcul prealabil n utilizarea altor metode de anal iz
multidimensional. Studiul unui eantion poate fin considerat complet, de regul, doar dac au fost
msurate i evaluate mai multe variabile. La prima vedere, fiecare dintre variabilele msurate ar putea
prea de aceeai importan, ns innd seama de faptul c ntre unel e dintre acestea ar putea exista
legturi de dependen s -ar putea descoperi un numr mic de variabile independente ntre ele ce
explic suficient abaterile constante asupra unitilor. Deasemenea, gsirea spaiului unde vom avea
cea mai bun proiecie i reducerea dimensiunilor pe baza de algebr vectorial (fiecare variabil este
un vector).
Numrul de componente cum se face? Ne uitm la screen plot n cte segmente se mparte i la
total variance explain (ne uitm cte valori sunt mai mari dect 1 pe coloana intial engelvalue i
stabilim cte componente facem)
Analiza datelor sinteze ale studentului Pagina 3 din 19
Domenii de aplicare: n marketing, n medicin, studii psihologice, analiza firmelor, analiza
progresului tehnologic.
Are ca obiect descrierea sintetic a unui tabel n care unitile sunt caracterizate printr-o
multitudine de variabile cantitative.
- o reducere a informaiei , variabilele descriptive sunt regrupate n cadrul unor factori sintetici,
numii componente principale.
- Poziionarea unitilor prin raportarea la componentele principale ceea ce ne permite punerea n
eviden de tipuri de uniti.
Ca urmare, ACP const n rezumarea informaiei replasnd variabilele iniiale printr-un numr redus
de noi factori sau componente principale. Aceti factori sunt combinaii liniare de variabile iniiale F j=
p
AijXi
i 1
i sunt independeni.
- Structurarea variabilelor iniiale , rezultate dintr-o observare statistic ntr-un numr redus de
factori, astfel nct pierderea de informaie s fie minim.
- Selectarea dintr-un ansamblu de variabile pe cele mai importante, care intervin cel mult n
descrierea fenomenelor studiate.
- Este posibil ca factorii principali s poat fi folosii ca variabile de prelucrat n cazul altor metode,
ca de exemplu, n tipologie sau analiza regresional.
Exemplu: Un analist n afaceri este interesat s ordoneze un numr mare de fonduri mutuale asupra
crora are informaii privind evoluia lor n ultimii ani. Sunt cunoscute nivelele unor indicatori financiari
relevani, precum i o serie de rate (rapoarte) calculate pe baza acestora. Analistului i va veni foarte greu
s acorde scoruri fondurilor innd seam de un mare numr de indicatori. El va standardiza matricea
informaiilor sale i apoi va apela la tehnici ACP. Dac presupunem c primele dou componente
principale gsite vor acoperi 70% din informaia total, atunci analistul se va declara mulumit cu
acestea, iar calculul scorurilor i ordonarea fondurilor vor fi fcute n raport cu aceste componente.
ETEROGENE. ASTFEL, PRELUCRAREA DATELOR SUB FORM INIIAL N U SE RECOMAND, DIN ACEST
Interpretri:
# n tabelul descriptive statistics, analizm valoarea medie (n ordine descresctoare) astfel vedem
crei variabile i se acord o importan mai mare.
## n tabelul correlation matrix (este o matrice ptratic) observm dac exist corelaie ntre variabile i
unde este corelaia cea mai mare. Astfel, formulm ipoteza nul i alternativa ei:
!!! Pentru ca o matrice s fie de bun calitate este nevoie ca variabilele s fie corelate ntre ele
pentru a se obine uor reducerea dimensiunilor. Dac nu sunt corelate nu vom obine un rezultat
bun.
Corelate = grupate bine!
##### n tabelul communalities comunalitatea iniial a primei variabile este xxx.. comunalitatea
extras este X:::.
###### n tabelul total variance explained: lum fiecare component i observm suma ei i o mprim
la nr. de variabile i spunem c prima component furnizeaz a% din informaia total (a% l vedem
din coloana % of variance)
!!! Sunt attea component cte variabile sunt!
Suma variabilelor proprii furnizate de variabilele iniiale = suma variabilelor de pe diagonala matricei
noastre (urma matricei)
!!! Suma elementelor de pe diagonal este informaia total furnizat de variabilele iniiale.
Informaia respectiv se regsete diferit n noile componente.
### la rotated component matrix : pe baza matricei componentelor se poate observa c au fost reduse
la dimensiuni.
Trebuie s scriem ecuaia pentru fiecare component: prima var * indicele de pe prima component + a
doua variabil * indicele +i continum aa i pentru cea de -a doua component.
Scopul acestei analize este de a descrie legturile sau corespondenele dintre dou variabile sau dou
ansambluri de variabile, respectiv de a studia simultan liniile i coloanele unui tabel de contingen,
pentru a descrie structura liniilor n funcie de legtura lor cu coloanele sau invers, structura coloanelor n
funcie de legtura lor cu liniile tabelului analizat.
Analiza se aplic n general asupra variabilelor calitative, nominale, dar nu sunt excluse nici cele
ordinale.Punctul de pornire l reprezint tabelul de contingen, unde liniile i coloanele joac un rol
simetric. Se acord aceeai importan oricrei linii sau coloane, dac frecvenele absolute aferente sunt
diferite.
In cercetrile de marketing aceast tehnic este utilizat frecvent datorit urmatoarelor aspecte:
posibilitatea prelucrrii variabilelor calitative, deoarece se utilizeaz frecvenele absolute sau relative;
vizualizarea rezultatelor sub form de grafice, reprezentnd apropierile dintre liniile i coloanele unui
tabel de contingen; posibilitatea de a adauga variabile (stri) suplimentare dup stabilirea spaiului de
reprezentare, ceea ce va permite proiectarea unui numr suficient de variabile rezultate dintr-o anchet pe
un spaiu reprezentativ;
Din punct de vedere teoretic aceast metod este considerat ca o extensie a analizei componentelor
principale, dar ea poate constitui i o etap de trecere spre procedee mai generale de studiere a relaiilor
dintre variabilele calitative, cum sunt modelele logliniare.
Metoda este asemntoare cu analiza factorial a componentelor principale, dar intervin anumite
particulariti ce in de natura datelor, respectiv: analiza este simetric, cele dou ansambluri I (ansamblu
de profile al primei variabile) i J (ansamblu de profile al celei de-a doua variabil) joac roluri ce sunt
interschimbabile, cei doi nori de puncte vor fi studiai o singur dat (n loc de a se aplica o analiz n
componentele principale fiecrui nor de puncte n parte); proprietate specific AFC este aceea c factorii
unei analize se deduc uor din factorii obinui dintr-o alt analiz (aplicat asupra acelorai date),
utiliznd relaiile de tranziie(termen specific acestei analize).
- Calculul matricilor de varian i covarian pentru fiecare din cele dou tabele;
- Interpretarea rezultatelor, care const n verificarea calitii prelucrrii i n proiectarea simultan sau
separat a celor dou ansambluri de puncte I i J.
Calitate prelucrrii se verific n primul rnd prin procentul din variana explicit (aici cu semnificaie de
procent din relaiile dintre cele dou ansamble analizate) furnizat de fiecare ax i de cele reinute ca fiind
principale (acest procent trebuie s se apropie de 100%). Urmeaz verificarea calitii reprezentrii
fiecarei stri (modalitati) de variabile i a contribuiei lor la variana axelor reinute n analiz.
Sunt posibile trei tipuri de reprezentri: proiecia norului de profile linii prin raportare la axele
factoriale, ceea ce ne va permite s vedem care sunt strile variabilei Y ce sunt mai apropiate, respectiv au
profile aproape identice; proiecia norului de profile coloane prin raportare la axele factoriale, ceea ce
ne va permite s vedem care sunt strile variabilei X ce sunt mai apropiate, respectiv au profile aproape
identice; reprezentarea simultan a norului de profile linii i profile coloane pentru a aprecia apropierile
dintre linii si coloane, respectiv dintre strile celor doua variabile.
Aceast metod este frecvent utilizat n analiza datelor unui studiu de pia, unde intervin multe variabile
calitative. Ceea ce o recomand n utilizare sunt avantajele pe care le ofer, i anume:
- Prelucrarea oricrui tip de variabile;
- Vizualizarea rezultatelor sub forma unor grafice reprezentnd apropierile dintre strile a dou sau
mai multe variabile;
- Posibilitatea de adugare, dup calcularea spaiului de reprezentare, a variabilelor suplimentare,
ceea ce ne permite proiectarea tuturor variabilelor unei anchete pe acelai grafic.
!!!Foarte frecvent aceast analiz este folosit n rezolvarea problemelor de poziionare a mrcii.
ALGORITM:
Fie baza de date admitere.sav
Vizualizm baza de date i s fim ateni ca ea s fie complet!
Analyse - descriptive statistics crosstabs la rows alegem o variabil iar la column alt variabl
ordinal sau nominal.
- La statistics selectm chi-squares, contingency coefficient;
- bifm ok!
Formulm ipoteza nul c nu exist asociere ntre variabile cu alternativa c exist asociere ntre
variabile.
Ne uitm n tabelul chi square test la probabilitatea de la coef lui Pearson. Dac aceasta este mai mare
dect 0.5 respingem ipoteza nul i afimm c ntre variabile exist asociere.
Interpretare:
## n tabelul row profiles: ne uitm pe fiecare linie i analizm % din cele de pe linie sunt determinate de
cele de pe coloan.
### ne uitm la column profile: ne uitm pe fiecare linie i analizm % din cele de pe coloan sunt
determinate de cele de pe linie.
#### ne uitm la overview row points: - ne uitm (i stabilim) s vedem cte coordonate sunt pe axe;
stabilim variana crei axe este mai mare; - ne uitm i analizm pentru fiecare ax unde este variana cea
mai mare (analizm pe coloan); ne uitm pe linie s vedem unde sunt cele mai mici variane (n exemplu
era faptul c companiile naionale nu sunt reprezentate bine pe nici o ax).
#### row and column points: analizm pct de o culoare n funcie de alt culoare.
Analiza Cluster
Analiza Cluster se poate defini ca o clas de tehnici utilizate pentru a clasifica unitile n clase
(grupuri) relativ omogene. Astfel, unitile din interiorul unei clase trebuie s fie asemntoare
ntre ele, n timp ce unitile aparinnd unor clase diferite trebuie s fie ct mai diferite. Analiza
este utilizat pentru a identifica ntr-o mulime grupurile de elemente similare.
Prin clustering se ncearc obinerea unor grupri care sunt: semnificative (clusterele trebuie s surprind
natura structural a datelor) i utile (sumarizarea unui volum mare de date, furnizarea de explicaii) sau
ambele.
Aceast analiz este utilizat n marketing, informatic, biologie, tiine sociale, pshilogie, medicin.
- Metode iterative sau non-ierarhice cea mai cunoscut fiind metoda K-Means
- Metode ierarhice determin o descompunere ierarhizat a unei mulimi. Acestea pot fi
aglomerative (se unesc dou clustere) i divize (un cluster este mprit n dou).
Analiza cluster are propria metodologie de grupare, dar n acelai timp poate s apeleze i la alte metode,
ca de exemplu analiza componentelor principale, analiza varianei. Aceast metod, prin obiectivul su,
se aseamn cu alte metode de analiz a datelor, dar exist i diferene care justific folosirea acesteia
Pornim de la exemple: 1) vrem s tim cum anume se grupeaz oraele Romniei n funcie de cteva
variabile demografice: mortalitate infantil, natalitate, sperana de via;
Scop: n cadrul acesteia, gruparea ncepe prin gsirea celo mai apropiate perechi de obiecte (cazuri sau
variabile), n funcie de tipul unitii de msur folosit i le combin pentru a forma un cluster. Algoritmul
continu pas cu pas, unind perechi de obiecte, perechi de clustere, sau un obiect cu un cluster, pn cnd
toate datele sunt ntr-un cluster.
Metoda se numete ierarhizare deoarece odat ce cele dou obiecte unite ntr -un cluster rmn
mpreun pn la ultimul pas. Un cluster format ntr-un stadiu anterior al analizei conine clustere
dintr-un stadiu anterior, care conine clustere dintr-un stadiu anterior i tot aa.
- aglomerativ (se pornete de la n clase = cte cazuri avem i se ajunge la o clas ce le cuprinde pe
toate anterioare ei) i
- diviziv (se pornete de la o clas i se ajunge la n clase = cte cazuri avem cuprinse n clasa de
pornire).
Cnd utilizm o astfel de metod: avem un set de date i vrem s tim cum anume se grupeaz cazurile
sau variabilele.
ALGORITM:
Stabilim ce ne propunem;
Analyse clasify - hierarhical cluster - alegem variabilele cantitative label cases cod ;
- la statistics bifm agglomeration schedule i proximity;
- la plots bifm dendogen i bifm icicle =none
Interpretare:
### analizm aglomeration schedule - ofer informaii cu privire la obiecte sau cazuri (fapte), fiind
combinate la fiecare faz a procesului de grupare ierarhic.
Formularea problemei: ncercarea de realizare a unei clasificri poate fi formulat astfel: fiind
date n uniti pentru fiecare dispunnd de nregistrri a p variabile, trebuie s se constituie grupe
de uniti astfel nct unitile dintr-o grup s semene ntr ele, dar s fie diferite de la o grup la
alta, asemnarea unitilor fiind definit plecnd de la cele p variabile.
Alegerea variabilelor active. Ca atare cea mai mare importan n aceast etap trebuie acordat
alegerii variabilelor pe baza crora se va efectua clasificarea. Este de dorit ca setul de variabile
active selectat s descrie asemnarea dintre unitai, n termeni ce sunt relevani pentru problema
studiat. Se recomand utilizarea ca variabile active a celor numerice (scale sau de interval)
sau a variabilelor ordinale. n cazul n care suntem nevoii s folosim variabile nominale,
acestea n prealabil se transform n variabile binare (dummy).
Alegerea procedurii de clasificare. Cu alocare secvenial ; Cu alocare paralel ; Cu alocare
optimal. Metoda cea mai des utilizat este cea bazat pe alocarea optimal, care urmrete
minimizarea distanei medii n grupe. Tehnicile k-means (metode neierarhice) prezint avantajul
prelucrrii populaiilor de volume mari, cu un cost rezonabil. Cele mai multe dintre aceste metode
sunt fundamentate pe algoritmi de tipul urmtor: alegerea numrului de grupe; aplicarea
procedeului de realocare ; stabilirea regulilor de oprire a procedeului de calcul.
Stabilirea numrului de grupe. n cazul acestei tehnici numrul de grupe este fixat de ctre
analist de la nceputul analizei, existnd posibilitatea modificrii acestuia dup validarea i
Analyse clasify- k-means- selectm variabilele la number of cluster punem un nr dorit de noi
selectm din options anova table i cluster information for each one.
Interpretare :
# ne uitm la tabelul initial cluster centers ne uitm care variabil se motific in urma iteraiilor.
Caracterizm fiecare cluster (pe vertical)
### la cluster membership vedem unde este inclus fiecare observaie, crui cluster aparine fiecare
observaie.
!!! n cazul n care avem la un cluster un nr mic de observaii, refacem analiza alegnd un nr mai
mic de clustere.
Grupeaza observatiile n clusteri dup criteriul apropierii. Aceast procedur folosete gruparea
aglomerativ ierarhic n care cazurile individuale sunt combinate succesiv pentru a forma grupuri ale
cror centri sunt ndeprtai. Algoritmul este conceput s grupeze un numr mare de cazuri. Scaneaz
datele o dat pentru a identifica centrii i nc o dat pentru a stabili apartenena la cluster.
1) Preclusterizarea: se efectueaz analiza fiecrei instane n parte, iar pe baza criteriului distanei se
va decide dac va fi ncadrat n una din grupele deja formate sau se va crea un nou cluster; pentru
aceasta este nevoie de cluster feature tree (CF). Frunzele din arbore reprezint subclusterele finale,
iar nodurile servesc pentru clasificarea unei noi instane n subgrupa adecvat. Fiecare nod are o
anumit proprietate numit CLUSTER FEATURE, care cuprinde urmtoarele informaii: numrul
de instane; media i variana fiecrei variabile continue, respectiv categoria pentru fiecare
variabil ordinal.
Fiecare instan va parcurge n mod recursiv nodurile arborelui ncepnd de la cel rdcin pn ce va fi
clasificat ntr-unul din subclustere (nodurile frunz). Clasificarea se va realiza pe baza calculului
distanelor: dac instana se afl la o distan mai mic dect o distan -prag de unul din subclustere,
atunci aceasta se va repartiza la subclusterul respectiv; dac nu exist un subcluster n care instana poate
fi clasificat, atunci se va crea un nou nod frunz cu instana respectiv.
Dac nu exist suficient spaiu pentru a forma un nou nod frunz: instana respectiv se ncadreaz n cel
mai apropiat subcluster; subclusterul respectiv va fi divizat n alte dou grupe, pe principiul celor dou
cele mai ndeprtate instane.
Dac dimensiunea arborelui depete dimensiunea maxim permis: se va fixa o distan -prag mai mare
pentru ncadrarea n subclustere; arborele se reconstruiete - rezult c dimensiunea noului arbore va fi
mai redus, iar astfel se va permite introducerea unor noi noduri
2) Subclusterele rezultate la etapa 1 vor fi grupate utiliznd clusterizarea ierarhic. Vor fi excluse
subclusterele formate din puncte izolate. Numrul subgrupelor trebuie s fie suficient de mare
pentru a se obine rezultate de o acuratee bun i suficient de mic astfel nct s nu ncetineasc
procedura de grupare.
Analiza datelor sinteze ale studentului Pagina 14 din 19
ALGORITM
Interpretri:
# ne uitm n tabelul auto clustering la ultima coloan unde este valoarea maxim i la penultima
coloan unde sunt valorile maxime . Astfel, vedem nr. optim de grupe.
Refacem analiza
- Nu modificm nimic la setri, doar trecem la specify fixed nr optim de clustere
6. ANALIZA VARIANEI
Noiunea de dispersie sau varian a fost introdusa de statisticianul R. A. Fisher. Parametrul Dispersie
caracterizeaza de regula mpr tierea valorilor unei variabile aleatoare. Tot Fischer a folosit dispersia cu
scopul de a determina efectele unor factori, cantitativi sau calitativi, asupra unei variabile aleatoare.
Dac estimm dispersia variabilei aleatoare n dou moduri, i anume innd seama de influena factorului
i apoi nlturnd influen a factorului, prin compararea celor dou dispersii se pot obine informaii
referitoare la efectul factorului; daca prima dispersie este mai mare, atunci factorul exercit o influen
asupra variabilei aleatoare.
Analiza dispersionala sau analiza varian ei este o metod statistico-matematic de analiz calitativ, a
datelor de observaie , care depind de mai muli factori cu aciune concomitent cu scopul de a stabili
factorii eseniali i de a estima efectul lor.
n plus, faa de mijloacele de calcul a tendin ei centrale a rezultatelor experimentelor repetate, analiza
dispersional caracterizeaz mai ales variabilitatea acestora i factorii ce o determin .
Variabilitatea se poate datora existenei unor factori cu influene sistematice, a unor factori aleatori de
fluctuaie mai pronunta i, n final, factori locali, inevitabili, determinnd o fluctuaie mai mic, definit
ca fluctuaie experimental .
n principal, datele experimentale se grupeaz n func ie de diferite criterii i se urmresc efectele asupra
variabilitii n funcie de aceste criterii, efecte care se cuantific n raport cu variablitatea rezidual.
Analiza dispersionala este cunoscuta n aplica iile de biofarmacie si farmacocinetica sub denumirea
de ANOVA (de la Analysis of Variance).
Cea mai simpla analiza dispersionala, numita analiza dispersionala unidimensionala sau
unifactoriala (numita n literatura engleza si one-way ANOVA) sau experiment complet
aleator, experiment cu grupuri paralele, corespunde testului t de analiza a doua esantioane
independente si compara doua sau mai multe grupuri.
De exemplu, n pacienti sunt grupati n k scheme de tratament. Putem s comparm efectele a dou
medicamente administrate la mai multe grupuri de voluntari, la care se poate adauga i un grup placebo.
Voluntarii se distribuie aleator n toate grupurile. Dupa msurarea unui parametru dat, se testeaz ipoteza
nul c toate valorile parametrului testat sunt egale n populaia corespunzatoare diferitelor tratamente
testate, deci tratamentele sunt echivalente ntre ele.
n ipoteza c toate grupurile aparin aceleiai populaii, ideea testului este aceea ca variabilitatea n
interiorul grupurilor trebuie s fie de acela i ordin cu variabilitatea ntre mediile grupurilor.
n consecin, dispersia total, evaluat ca sum a ptratelor diferen elor ntre valorile individuale
i media ntregii populaii selectate SSt, este separat ntr-o parte datorit variaiei ntre grupuri
(within), sau variabilitii interioare i o parte datorit variabilitii dintre (between) grupuri:
SSt = SSw + SSb .
ALGORITM:
Analyse-general linear model univariate trecem la dependent punem variabila scale, iar la fix
factors punem variabilele nominale i ordinale.
- la model lsam aa cum este;
- la plots pe orizontal punem variabila ordinal, iar pe separate line punem variabila nominal i
d-mi add;
PENTRU C EXIST RISCUL UNEI REGRESII FALSE. SE REALIZEAZ NTRE DOU VARIABILE
SCALE!
Regresia este o unealt statistic aparent omniprezent, care apare n numeroase lucrri tiinifice, iar
analiza regresiei este o metod de msurare a legturii dintre dou sau mai multe fenomene.
Imaginai-v c vrei s tii care este conexiunea dintre suprafaa n metri ptrai a unei case i preul
acesteia. O regresie traseaz o astfel de legtur, n acest sens indicnd cu precizie un efect cauzal
mediu
Considerm c, ntr-un eantion de volum n s-au determinat perechile de valori (xi,yi), i=1,,n,
corespunztoare celor dou variabile pentru care dorim s studiem asocierea i relaia dintre ele.
O prim apreciere asupra distribuiei comune o vom avea dac realizm diagrama de mprtiere a
valorilor, de fapt reprezentarea ntr-un sistem de axe a punctelor avnd coordonatele x i y.
Analiza vizual a organizrii i formei norului de puncte obinut poate oferi indicii importante
asupra relaiei dintre variabile.
Datele de sondaj vor susine ipoteza asocierii ntre variabile dac forma norului de puncte se apropie de o
curb funcional. Astfel, se pot aprecia asocieri liniare, curbilinii etc. Dac n norul de puncte nu se
poate distinge o tendin, se va spune c variabilele nu sunt corelate. Pentru a sintetiza modul n care
schimbrile lui Y sunt asociate cu schimbrile lui X, metoda matematic utilizat este "metoda celor mai
mici ptrate" Linia estimat este "cea mai bun" n sensul c exprim cel mai central drum printre puncte:
linia pentru care suma ptratelor distanelor (pe vertical) dintre puncte i dreapt este minim. Distanele
sunt referite ca erori (reziduuri). Deci dreapta de regresie realizeaz valoarea minim a ptratelor erorilor,
n sensul c orice alt dreapt produce o sum de ptrate mai mare.
Diagrama de mprtiere (scatterplot dup denumirea utilizat n SPSS) presupune, uzual, c variabila
dependent este pe axa vertical (Oy) iar variabila independent este pe axa orizontal.
8. ANALIZA DISCRIMINANT
Ex: Scopul acestei metode este de a stabili pentru fiecare firm o mrime numit scor, care s permit
estimarea strii de faliment al firmei. n cele ce urmeaz va fi prezentat pe scurt aceast metod.
n cadrul acestei metode se utilizeaz variabile scale sau binare.
Analiza discriminant este o metoda ce face parte din grupa metodelor explicative de analiz a datelor.
Ea utilizeaz o variabil de explicat (Y) i mai multe variabile explicative (X1, X2,,Xp) cantitative sau
binare.
Analiza are ca principal avantaj ca nu lucreaza cu elemente medii, generatoare de erori. Tehnica de
baza a analizei este estimarea pozitiei unui element fata de o linie care separa cel mai bine doua clase de
populatii distincte
n analiza discriminant se disting dou aspecte: a) descriptiv: se caut combinaiile liniare de variabile
care permit mprirea cel mai bine posibil n cele k categorii i dau o reprezentare grafic (ca n
analizafactorial), care ine seama cel mai bine de aceast mprire. b) decizional: un nou individ apare,
pentru care se cunosc valorile predictorilor.
Cu ajutorul metodei se pot: face estimaii asupra apartenenei unor elemente la una sau mai multe
categorii; se poate testa dac grupurile dintr-un eantion apar ntr-o singur populaie sau n mai multe.
Scop identificarea funciilor (variabilelor latente) care permit predicia apartenenei de grup.
Este util: pentru a defini profilul unei tipologii (clasificri) func ie de un set de variabile cantitative,
regrupate n factori; pentru a permite atribuirea unor noi cazuri la o clasificare predeterminat careia i pot
fi asociate funcii de discriminare.
Principiile pe baza crora funcioneaz metoda sunt o combinatie ntre ANOVA , regresie multipl i
factorial.
Analiza discriminant are trei obiective, respectiv:
S determine variabilele explicative care contribuie cel mai mult la diferenierea claselor definite
de variabila de explicat, astfel se identific ponderea influenei variabilelor explicative n variaia
variabilei de explicat construind mai multe combinaii liniare, alegnd-o pe cea mai bun.
S se construiasc un spaiu discriminant . n cazul analizei discriminante simpl (Y are dou
stri) se determin o ax discriminant Z care explic apartenena unei uniti la o clas sau alta.
ALGORITM:
Analyse- clasify- discriminant grouping variable (trebuie s fie nominal) i cele independente
trebuie s fie scale.
- la define range trecem de la 0 la nr de stri ale variabilei respective.
- n statistics bifm means, anova, boc. Fisher, unstandardized, within groups correlation;
- n clasify vom bifa all groups egual, display summary table and repalce missing with mean.
- la save vom bifa tot.
-- -- -- FINAL -- -- --