Sunteți pe pagina 1din 6

21.

Definiti si justificati 3 dintre proprietatile componentelor principale


Distribuirea dupa legea normala

-normalitatea componentelor principale rezulta din faptul ca acestea sunt combinatii liniare de cele n var. originale care, prin
ipoteza, sunt variabile normale.
Conservarea variantei totale

Conservarea variantei generalizate

-evidentiaza calitatea informationala pe care o au componentele principale de a reprezenta o reexprimare a variabilelor originale.
Dependenta de unitatile de masura-odata cu schimbarea unitatilor de masura ale var. originale se schimba atat componentele
principale, cat si variantele acestora.
22. Interpretati vectorii si valorile proprii ale matricii de covarianta

Valorile proprii=variantele corespunzatoare componentelor principale


23. Ce sunt scorurile principale si cum se determina acestea. De ce este necesara determinarea scorurilor principale

In ACP, coordonatele obiectelor in spatiul redus s.n scoruri principale ale obiectelor.
->mat scorurilor
Liniile matricii W reprezinta scorurile coresp noilor variabile. Scorurile principale sunt mai
potrivite pt a fi folosite in analize, fiind mai putin afectate de erori, in comparatie cu masuratorile
originale. Fiind mai robuste in raport cu perturbatiile induse de erori, sunt mai importante dpdv
informational decat var originale.
24. Ce este matricea factor (matricea de corelatie intre variabilele originale si componentele principale). Cum se
calculeaza si cum se interpreteaza elementele sale

- coef de corelatie dintre variabila standardizata Xi si comp principala


Wj.
Elementele s.n intensitatile factorilor->indicatori ai masurii in care variabilele originale
participa la formarea componentelor principale sau ai masurii in care comp principale
sintetizeaza informatia continuta in var originale.
Daca var sunt standardizate
In suma patratelor elementelor din fiecare coloana coincide cu varianta comp principale
asociata coloanei respective

26. Criterii de alegere a numarului de componente principale

Criteriul pantei- se reprezinta grafic cele n valori proprii intr-un grafic in care abscisa reprezinta
nr de ordine al valorii proprii. Se efectueaza o taietura in abscisa a.i la dreapta taieturii sa ramana
o dreapra; se alege ne de comp la care graficul se aplatizeaza.
Criteriul Kaiser-utilizat numai in situatia in care car originale sunt standardizate. Conform
acestuia, se aleg numai comp ale caror varianta>=1.
Criteriul procentului de acoperire->

Se aleg k comp principale atunci cand pk>0.78


Criteriul statistic->se genereaza un nr f mare de matrici Xtxn de observatie din repartitia normala
N(0,1). Se efectueaza cate o analiza a comp principale pe fiecare set de inf astfel generate si se
retin n valori proprii.

Se mediaza (pe fiecare coloana) valorile proprii: Se reprezinta grafic atat valorile originale, cat si
mediile de la pasul anterior. Nr comp principale se identifica in pct de minim al primei scaderi
abrupte a graficului.
32. Definiti recunoasterea formelor si exemplificati cteva dintre aplicatiile acesteia n domeniul economico-financiar.

Teoria recunoasterii formelor->totalitatea normelor, principiilor, metodelor si instrumentelor de


analiza si decizie utilizate in scopul de a identifica apartenenta unor forme sau obiecte la
anumite clase cu individualitate bine determinata.
Recunoasterea formelor cunoaste in prezent aplicatii a caror paleta se intinde de la cercetarea
antropologica si pana la proiectarea hardware si software; utilizarea larga in procesul de analiza a
datelor si in activitatea de predictie: identificarea unor caracteristici definitorii pt. diverse

categorii de fenomene, delimitarea functionala, ierarhizarea structurala sau sintetizarea


informationala a unor procese economico-sociale.
33. Definiti principalele concepte ale recunoasterii formelor

Forma/obiectul->entitate informationala individuala, caracterizata printr-un vector ndimensional, ale carui componente definesc valorile caracteristicilor acestuia si care face obiectul
de clasificare/predictie.
Clasa/grupa/clusterul->entitate inf distincta si cu semnificatie concreta, formata din totalitatea
obiectelor ale caror caracteristici sunt aproape identice, fiind semnificativ diferite de
caracteristicile obiectelor din alte clase.
Clasificatorul/criteriul de clasificare->multimea de reguli pe baza carora obiectele care apartin
multimii analizate sunt atribuite unor clase bine definite.
34. Formulati problema generala a clasificarii

PGC: Fiind data o multime de obiecte, sa se det criteriul/regula care sa descrie apartenenta
obiectelor la clasele sub forma carora se structureaza respectiva multime de obiecte; clasificare
(ne)controlata.
Dupa stabilirea criteriului de clasificare, se pot face predictii privind apartenenta la o anumita
clasa a noi obiecte; urmeaza testarea calitatii clasificatorului, utilizand matricea corectitudinii
clasificarii.

35. Definiti sistemele de recunoastere controlata si necontrolata

Necontrolata->nu se dispune de informatiile initiale referitoare la nr de clase si la apartenenta


formelor la anumite clase, construirea claselor facandu-se progresiv(pe masura cresterii nr de
forme analizate), nr de clase posibile fiind stabilit doar in faza finala a recunoasterii. Nu se
cunoaste apartenenta obiectelor la o clasa sau alta=>analiza cluster->tehnica de clasificare in care
gruparea formelor in clustere se face progresiv, fara a cunoaste aprioric nr de clase a.i obiectele
sa fie cat mai similare in interiorul clasei si sa se diferentieze cat mai mult de obiectele din
celelalte clase.
Controlata-> se pp. existenta apriorica a unui nr dat de clase si a unui set de
forme(prototipuri/referinte)- esantion de obiecte extrase din populatie=set de invatare- a caror
apartenenta la aceste clase este cunoscuta. Din aplicarea tehnicilor de clasificare controlata
rezulta un set de reguli si criterii de clasificare; in analiza discriminanta, clasificatorul este
reprezentat de functiile discriminant/fc de clasificare.
36. Ce este analiza cluster, care sunt conceptele fundamentale ale acesteia si care sunt domeniile utilizarii ei

Thenica de clasificare in care gruparea formelor in clustere se face progresiv, fara a cunoaste
aprioric nr. de clase a.i obiectele sa prezinte cat mai multe similaritati in interiorul clasei si sa se
diferentieze cat mai mult de restul obiectelor clasificate in celelalte clase.
Clusterul=submultime formata din obiecte care au prop ca gradul de disimilaritate dintre oricare
2 obiecte din cluster este mai mic decat gradul de disimilaritate dintre orice obiect din cluster si
unul din afara sa; regiune a unui spatiu multidimensional, caract printr-o densitate relativ mare de
puncte si obiecte.
Rezultatele unei analize cluster: o solutie cluster sau o ierarhie (mai multe solutii cluster)-> pe
baza efectuarii unei taieturi in ierarhie, se poate alege configuratia obiectelor pe un anumit nr
de clustere.
Des intalnita in domeniul marketingului, in investigatiile de natura psihosociala sau in evaluarile
economico-sociale la nivel teritorial. MRK-> studierea comportamentului consumatorilor.
37. Definiti scopurile analizei cluster si descrieti tipul informatiilor utilizate n analiza cluster

Scopuri:
- Clsificarea unei multimi de obiecte
- Reducerea unor multimi de obiecte/variabile la un nr mai restrans de entitati
informationale=clase/clustere
- Clasificarea obiectelor, dar si a variabilelor care definesc obiectele
- Cautarea si identificarea de clase in cadrul unor multimi de obiecte/forme a.i elementele
din aceeasi clasa sa fie cat mai asemanatoare, iar cele din clase diferite sa fie cat mai
deosebite intre ele.
Tipuri de info:
Masurarea gradului de proximitate->indicatori de similaritate, ind de disimilaritate.
Similaritate mare=> obiecte mai apropiate; disimilaritate mare=> obiecte mai diferite,
distantate.
Informatiile utilizate in analiza cluster sunt reprezentate sub forma unor matrici simetrice
numite matrici de proximitate, de similaritate, de asociere, de incidenta, de disimilaritate sau
de distanta.->mat de proximitate contin indicatori de disimilaritate(distante) sau de
similaritate pt toate perechile posibile de obiecte/variabile. Baza inf pt det mat de prox = mat
de observatii->pot contine fie rez masuratorilor directe, fie rez obtinute in urma unor

transformari specifice asupra variabilelor originale; categoria a doua: scorurile comp


principale/ a factorilor, obtinute prin efectuarea unei ACP sau a unei analize factoriale.
38. Definiti analiza cluster si aratati cum se clasifica metodele de analiza cluster

De tip ierarhic ->nr de clustere nu este cunoscut aprioric->produc mai multe solutii cluster,
numite ierarhii cluster, care difera intre ele prin nr de clustere incluse si gradul de agregare al
clusterelor. -> algoritmi de agregare si alg de dezagregare.
De tip iterativ->produc o structura cluster formata dintr-o singura solutie cluster->include un
nr fixat de clustere, acesta fiind fixat aprioric.
Metode euristice->includ proceduri de clasificare dezvoltate pe baza unei
euristici=modalitate intuitiva de solutionare dedusa pe baza unor rationamente teoretice sau
pe baza unor obs statistice
Metode algoritmice->alg de solutionare a problemei(operatii, pasi, proceduri care det
obtinerea unui rezultat/solutie)
39. Definiti conceptul de distanta si descrieti cateva modalitati de evaluare a distantelor dintre forme

Distanta-> gradul de departare dintre 2 obiecte(proximitatea dintre obiecte)


Distanta euclidiana-> masoara departarea dintre 2 obiecte sau variabile in linie dreapta
=norma de tip L2

Dezavantaje: unitatea de masura, amplificarea erorilor


Distanta Manhatan-> norma de tip L1; masurata de-a lungul laturilor unei retele rectangulare.

Diferentele de coordonate nu sunt amplificate printr-o ridicare la putere, deci dist Manhattan
este mai robusta in raport cu prezenta in date a valorilor aberante.
Distanta Mahalanobis->ia in considerare gradul de dispersare al multimii de obiecte si gradul
de corelare al respectivelor entitati inf.
42. Metode de evaluare a distantelor dintre clustere

Metoda celor mai apropiati vecini->distanta dintre 2 clustere este considerata a fi distanta
celor mai apropiate obiecte din clustere diferite.

Metoda celor mai departati vecini->distanta dintre cele mai indepartate obiecte apartinand
celor 2 clustere.

Metoda distantei medii intre perechi->distanta medie dintre toate perechile posibile de
obiecte care apartin celor 2 clustere(se evolueaza toate distantele Ti*Tj si se efectueaza
media lor)

Metoda centroidului->distanta intre centroizii celor 2 clustere. Centroidul=obiectul(real


sau abstract) ale carui caract au ca valori chiar mediile caract obiectelor din
cluster=centru de greutate.
Metoda Ward->presupune evaluarea distantei intre 2 clustere pe baza sporului de
variabilitate intraclasa antrenat de o virtuala comasare a clusterelor intr-unul singur; se
bazeaza pe maximizarea gradului de omogenitate a clusterelor->minimizarea variabilitatii
intracluster.
43. Descrieti analiza cluster de tip ierarhic si mentionati care sunt cele doua categorii de clasificare ierarhica

->bazata pe gruparea obiectelor pe baza de agregare succesiva(in clase din ce in ce mai


largi de obiecte) sau dezagregare succesiva(in clase din ce in ce mai mici). Ipoteza de
baza: in cadrul multimilor de obiecte analizate se diferentiaza o multitudine de structuri
de tip latent, caracterizate printr-o imbricare de natura arborescenta.
Solutiile cluster din arbore includ un nr de clustere diferit; o solutie cluster ce corespunde
unui nivel mai ridicat de agregare contine un nr de clustere mai mic cu 1 decat o solutie
cluster corespunzatoare primului nivel ierarhic inferior. Structura cluster cu cel mai inalt
nivel de agregare este formata dintr-un singur cluster, iar cea cu cel mai redus nivel este
formata dintr-un un nr de clustere egal cu nr obiectelor analizate(un cluster=un obiect)
44. Descrieti metoda agregarii simple de analiza cluster

-> met de clasificare ierarhica de tip ascendent, care comaseaza in fiecare etapa a
clasificarii acele 2 clustere pt care distanta dintre cei mai apropiati vecini este cea mai
mica; la fiecare etapa, nr de clustere va scadea cu o entitate.
45. Descrieti metoda agregarii complete de analiza cluster

->agregarea a 2 clustere se face pe baza distantei dintre cele mai indepartate obiecte
dintre clustere!cea mai mica distanta.
46. Descrieti metoda agregarii medii de analiza cluster

-> metoda de clasificare ierarhica de tip ascendent, care comaseaza in fiecare etapa a
clasificarii acele 2 clustere pt care distanta medie dintre toate perechile formate cu
obiecte din cele 2 clustere este cea mai mica, in comparatie cu alte perechi de clustere.
47. Descrieti metoda centroidului de analiza cluster

->metoda de clasificare ierarhica de tip ascendent, care comaseaza in fiecare etapa a


clasificarii acele 2 clustere pt care distanta dintre centroizii celor 2 clustere este cea mai
mica, in comparatie cu alte perechi de clustere.

S-ar putea să vă placă și