Documente Academic
Documente Profesional
Documente Cultură
-normalitatea componentelor principale rezulta din faptul ca acestea sunt combinatii liniare de cele n var. originale care, prin
ipoteza, sunt variabile normale.
Conservarea variantei totale
-evidentiaza calitatea informationala pe care o au componentele principale de a reprezenta o reexprimare a variabilelor originale.
Dependenta de unitatile de masura-odata cu schimbarea unitatilor de masura ale var. originale se schimba atat componentele
principale, cat si variantele acestora.
22. Interpretati vectorii si valorile proprii ale matricii de covarianta
In ACP, coordonatele obiectelor in spatiul redus s.n scoruri principale ale obiectelor.
->mat scorurilor
Liniile matricii W reprezinta scorurile coresp noilor variabile. Scorurile principale sunt mai
potrivite pt a fi folosite in analize, fiind mai putin afectate de erori, in comparatie cu masuratorile
originale. Fiind mai robuste in raport cu perturbatiile induse de erori, sunt mai importante dpdv
informational decat var originale.
24. Ce este matricea factor (matricea de corelatie intre variabilele originale si componentele principale). Cum se
calculeaza si cum se interpreteaza elementele sale
Criteriul pantei- se reprezinta grafic cele n valori proprii intr-un grafic in care abscisa reprezinta
nr de ordine al valorii proprii. Se efectueaza o taietura in abscisa a.i la dreapta taieturii sa ramana
o dreapra; se alege ne de comp la care graficul se aplatizeaza.
Criteriul Kaiser-utilizat numai in situatia in care car originale sunt standardizate. Conform
acestuia, se aleg numai comp ale caror varianta>=1.
Criteriul procentului de acoperire->
Se mediaza (pe fiecare coloana) valorile proprii: Se reprezinta grafic atat valorile originale, cat si
mediile de la pasul anterior. Nr comp principale se identifica in pct de minim al primei scaderi
abrupte a graficului.
32. Definiti recunoasterea formelor si exemplificati cteva dintre aplicatiile acesteia n domeniul economico-financiar.
Forma/obiectul->entitate informationala individuala, caracterizata printr-un vector ndimensional, ale carui componente definesc valorile caracteristicilor acestuia si care face obiectul
de clasificare/predictie.
Clasa/grupa/clusterul->entitate inf distincta si cu semnificatie concreta, formata din totalitatea
obiectelor ale caror caracteristici sunt aproape identice, fiind semnificativ diferite de
caracteristicile obiectelor din alte clase.
Clasificatorul/criteriul de clasificare->multimea de reguli pe baza carora obiectele care apartin
multimii analizate sunt atribuite unor clase bine definite.
34. Formulati problema generala a clasificarii
PGC: Fiind data o multime de obiecte, sa se det criteriul/regula care sa descrie apartenenta
obiectelor la clasele sub forma carora se structureaza respectiva multime de obiecte; clasificare
(ne)controlata.
Dupa stabilirea criteriului de clasificare, se pot face predictii privind apartenenta la o anumita
clasa a noi obiecte; urmeaza testarea calitatii clasificatorului, utilizand matricea corectitudinii
clasificarii.
Thenica de clasificare in care gruparea formelor in clustere se face progresiv, fara a cunoaste
aprioric nr. de clase a.i obiectele sa prezinte cat mai multe similaritati in interiorul clasei si sa se
diferentieze cat mai mult de restul obiectelor clasificate in celelalte clase.
Clusterul=submultime formata din obiecte care au prop ca gradul de disimilaritate dintre oricare
2 obiecte din cluster este mai mic decat gradul de disimilaritate dintre orice obiect din cluster si
unul din afara sa; regiune a unui spatiu multidimensional, caract printr-o densitate relativ mare de
puncte si obiecte.
Rezultatele unei analize cluster: o solutie cluster sau o ierarhie (mai multe solutii cluster)-> pe
baza efectuarii unei taieturi in ierarhie, se poate alege configuratia obiectelor pe un anumit nr
de clustere.
Des intalnita in domeniul marketingului, in investigatiile de natura psihosociala sau in evaluarile
economico-sociale la nivel teritorial. MRK-> studierea comportamentului consumatorilor.
37. Definiti scopurile analizei cluster si descrieti tipul informatiilor utilizate n analiza cluster
Scopuri:
- Clsificarea unei multimi de obiecte
- Reducerea unor multimi de obiecte/variabile la un nr mai restrans de entitati
informationale=clase/clustere
- Clasificarea obiectelor, dar si a variabilelor care definesc obiectele
- Cautarea si identificarea de clase in cadrul unor multimi de obiecte/forme a.i elementele
din aceeasi clasa sa fie cat mai asemanatoare, iar cele din clase diferite sa fie cat mai
deosebite intre ele.
Tipuri de info:
Masurarea gradului de proximitate->indicatori de similaritate, ind de disimilaritate.
Similaritate mare=> obiecte mai apropiate; disimilaritate mare=> obiecte mai diferite,
distantate.
Informatiile utilizate in analiza cluster sunt reprezentate sub forma unor matrici simetrice
numite matrici de proximitate, de similaritate, de asociere, de incidenta, de disimilaritate sau
de distanta.->mat de proximitate contin indicatori de disimilaritate(distante) sau de
similaritate pt toate perechile posibile de obiecte/variabile. Baza inf pt det mat de prox = mat
de observatii->pot contine fie rez masuratorilor directe, fie rez obtinute in urma unor
De tip ierarhic ->nr de clustere nu este cunoscut aprioric->produc mai multe solutii cluster,
numite ierarhii cluster, care difera intre ele prin nr de clustere incluse si gradul de agregare al
clusterelor. -> algoritmi de agregare si alg de dezagregare.
De tip iterativ->produc o structura cluster formata dintr-o singura solutie cluster->include un
nr fixat de clustere, acesta fiind fixat aprioric.
Metode euristice->includ proceduri de clasificare dezvoltate pe baza unei
euristici=modalitate intuitiva de solutionare dedusa pe baza unor rationamente teoretice sau
pe baza unor obs statistice
Metode algoritmice->alg de solutionare a problemei(operatii, pasi, proceduri care det
obtinerea unui rezultat/solutie)
39. Definiti conceptul de distanta si descrieti cateva modalitati de evaluare a distantelor dintre forme
Diferentele de coordonate nu sunt amplificate printr-o ridicare la putere, deci dist Manhattan
este mai robusta in raport cu prezenta in date a valorilor aberante.
Distanta Mahalanobis->ia in considerare gradul de dispersare al multimii de obiecte si gradul
de corelare al respectivelor entitati inf.
42. Metode de evaluare a distantelor dintre clustere
Metoda celor mai apropiati vecini->distanta dintre 2 clustere este considerata a fi distanta
celor mai apropiate obiecte din clustere diferite.
Metoda celor mai departati vecini->distanta dintre cele mai indepartate obiecte apartinand
celor 2 clustere.
Metoda distantei medii intre perechi->distanta medie dintre toate perechile posibile de
obiecte care apartin celor 2 clustere(se evolueaza toate distantele Ti*Tj si se efectueaza
media lor)
-> met de clasificare ierarhica de tip ascendent, care comaseaza in fiecare etapa a
clasificarii acele 2 clustere pt care distanta dintre cei mai apropiati vecini este cea mai
mica; la fiecare etapa, nr de clustere va scadea cu o entitate.
45. Descrieti metoda agregarii complete de analiza cluster
->agregarea a 2 clustere se face pe baza distantei dintre cele mai indepartate obiecte
dintre clustere!cea mai mica distanta.
46. Descrieti metoda agregarii medii de analiza cluster
-> metoda de clasificare ierarhica de tip ascendent, care comaseaza in fiecare etapa a
clasificarii acele 2 clustere pt care distanta medie dintre toate perechile formate cu
obiecte din cele 2 clustere este cea mai mica, in comparatie cu alte perechi de clustere.
47. Descrieti metoda centroidului de analiza cluster