Sunteți pe pagina 1din 9

Subiecte

1. Definiti si caracterizati principalele concepte utilizate n analiza datelor (populatie,


esantion, observatie, variabile etc.)
1) Data
SCOP: defineste
intrarile oricarui process de analiza a datelor
materia prima supusa prelucrarii
iesirile, rezultatele si concluziile obtinute
Datele = semnale si mesaje provenite din realitatea inconjuratoare, pe baza carora
receptorul isi formeaza o anumita imagine despre respectiva realitate, poate obtine un
anumit grad de cunoastere a acelei realitati
Datele in AD = expresia cantitativa si calitativa ale unor fenomene si procese din
realitatea inconjuratoare
Clasificare:

cantitative
calitative
mixte

Pot fi exprimate sub forma cantitativa

2) Populatie (colectivitate generala) = multimea tuturor masuratorilor efective sau


conceptuale care prezinta interes pt cercetator sau experimentator.
SCOP: obiectul de studiu global al AD =>
se obtin estimatii pt o serie de marimi specifice aceleiasi populatii statistice,
se efectueaza predictii pt structurarea pe tipologii sau pt evolutia populatiei
statistice
Populatia statistica = totalitatea observatiilor posibile dintr-un studiu
Clasificare:
finita
infinita
3) Esantion (parte a unei populatii) = submultime de masuratori selectate dintr-o
populatie, o submultime a populatiei statistice supusa investigatiei stiintifice
SCOP: baza informationala utilizata in procesele de AD
4) Observatii = valoarea sau setul de valori inregistrate pt o anumita unitate elementara a
populatiei, la una sau mai multe caracteristici ale acesteia
(valori luate de variabilele supuse analizei)
SCOP: unitatea elementara de informatie utilizata in procesele de prelucrare
=> multimea observatiilor = baza informationala a AD esantion
5) Variabilele = abstractizari ale multimii de valori posibile pe care le poate inregistra o
caracteristica a unui anumit fenomen.
Unitatile supuse efectiv procesului de masurare si inregistrare sunt alese dupa criteria si
reguli precise, fundamentate riguros dpdv statistic-matematic. Valorile pe care le iau
caracteristicile unitatilor studiate prin intermediul acestui procedeu formeaza esantionul
de observatii.
2. Ce sunt variabilele si cum se clasifica acestea

Variabilele = abstractizari ale multimii de valori posibile pe care le poate inregistra o


caracteristica a unui anumit fenomen.

Clasificare dupa natura:


Calitative = difera prin tip, se refera la proprietati nenumerice ale
unitatilor elementare apartinand unei populatii si nu pot fi exprimate
numeric (ex: sexul, profesia)
Cantitative = difera prin marime, se refera la proprietati numerice ale
unitatilor elementare dintr-o populatie si sunt exprimate in unitati
numerice: de lungime, greutate, valorice etc (ex: pret, salariu mediu
lunar)
Clasificare dupa natura valorilor pe care le iau:
De tip discret (variabile categoriale)= pot lua o multime limitata, finita
de valori
De tip continuu = pot lua valori apartinand unui interval continuu
3. Ce este scala de masurare si care sunt principalele tipuri de scale de masurare utilizate n
analiza datelor
O scala reprezinta un etalon corespunzator, care stabileste modul dupa care sunt
atribuite valori variabilelor; a defini o scala de masurare este echivalent cu:
A stabili o multime de valori posibile ale variabilei, o multime numita si spatiu
de selectie
A preciza regulile dupa care sunt atribuite simboluri pt elementele unei realitati
date, adica a defini o structura a spatiului de selectie
Clasificare:
Scale de tip non-metric
Scala nominala
Scala ordinala
Scale de tip metric:
Scala interval
Scala raport
4. Definiti si caracterizati scala nominala si scala ordinala. Evidentiati operatiile posibile pe
aceste tipuri de scale.
Scala nominala = scala non-metrica, prin intermediul careia valorilor posibile ale
caracteristicilor masurate li se atribuie simboluri fara relevanta numerica, in functie de
natura acestor valori (ex: genul unei persoane)
Pt caracteristicile masurate pe scala nominala, poate fi calculate un nr limitat de
indicatori statistici, care reprezinta contorizari ale simbolurilor aparute pe scala
nominala. Indicatorii sunt: modulul si frecventa. Poate fi evidentiata si distributia de
frecventa.
Scala ordinala = scala non-metrica, prin intermediul careia valorilor posibile ale
caracteristicilor li se atribuie numere de ordine sau ranguri, in functie de pozitia
acestor valori intr-o ierarhie.(ex: nivelul studiilor)
Pt caracteristicile masurate pe scala ordinala, pot fi calculate o serie de indicatori statistici
cum ar fi: modulul, mediana, coeficientul de corelatie a rangurilor, frecventa. Se poate
evidentia si distributia de frecventa. (media si diferentele valorilor variabilelor ordinale
sunt nerelevante, nu au sens informational si nici sens logic)

5. Definiti si caracterizati scala interval si scala raport. Evidentiati operatiile posibile pe


aceste tipuri de scale
Scala interval = scala quasi-metrica, prin intermediul careia valorilor posibile ale
caracteristicilor masurate li se atribuie valori numerice, fara ca pt acest valori numerice
sa existe o origine prestabilita(ex: durata programului de lucru)
Pe langa operatiile premise pe primele doua scale, scala interval permite: calculul
mediei, calculul abaterii standard, calculul momentelor, calculul coeficientilor de
corelatie Pearson.
Scala raport = scala metrica, prin intermediul careia valorilor posibile pe care le pot lua
caracteristicile masurate li se atribuie numere definite in raport cu o origine
prestabilita. (ex: pretul)
Pentru aceasta scala sunt permise toate operatiile definite pentru variabilele numerice.
6. Care sunt principalele moduri de reprezentare (matriciala) a informatiilor n analiza
datelor. Definiti si exemplificati fiecare dintre aceste moduri
Exista 3 forme matriciale principale:
Matrici de observatii
Matrici sau tabele de contingenta
Matrici sau tabele de proximitate
Matrici de observatii (matrici de tip obiecte x caracteristici) = tablou rectangular in care
liniile(=observatii) reprezinta obiectele supuse masuratorilor, iar coloanele (=variabile)
reprezinta caracteristicile obiectelor.
(elementele tabloului reprezinta valori inregistrate in procesul de masurare(=scoruri) pt
caracteristicile obiectelor supuse masuratorilor)
Exemplificare:
Fie T = nr obiectelor supuse analizei si n=nr de caracteristici ale obiectelor => matricea de
observatii este:
Valoarea inregistrata
pentru ce-a de-a 2 (j)
caracteristica a obiectului
O coloana (j) reprezinta
1(i)
valorile inregistrate de
caracteristica j pe
multimea tuturor obiectelor
T
O linie(i) defineste un obiect Oi,
reprezinta valorile inregistrate
de obiectul i la cele n
caracteristici pe care le poseda
Matrici de contingenta (de tip modalitati x modalitati) = tablouri de dimensiune mxn,
folosite pt a reprezenta datele referitoare la frecventele relative sau absolute inregistrate pe o
multime de obiecte de valorile a 2 variabile de tip discret, prima variabila, notata cu u (valore
pe linie), avand m valori posibile, iar ce-a de-a doua variabila notata cu v (valore pe coloana),
avand n valori posibile.
Exemplificare: Un element xij = frecventa, relativa sau absoluta, a obiectelor pt care prima
variabila ia valoarea ui, iar ce-a de-a doua variabila ia valoarea vj. Elementul arata la cate
obiecte cele 2 variabile analizate au simultan valorile ui si vj.

Matrici de proximitate (de tip obiecte x obiecte) = matrici patratice de dimensiune nxn,
utilizate pt reprezentarea datelor cu privire la similaritatea sau nesimilaritatea unor obiecte.
Ordinul acestor matrici e determinat de nr obiectelor supuse studiului.
Exemplificare: Un element xij masoara gradul de proximitate dintre obiectul i si obiectul j
7. Definiti principalii indicatori (unidimensionali) cu ajutorul carora este sintetizata tendinta
centrala sau locatia sau pozitia (inclusiv relatii de calcul si proprietati). Aratati ca media
este o sinteza optimala pentru o multime de observatii
a) Media
b) Mediana
c) Modul
8. Definiti principalii indicatori (unidimensionali) cu ajutorul carora este sintetizata
variabilitatea (inclusiv relatii de calcul si proprietati).

9 Definiti varianta simpla, varianta totala si varianta generalizata. Deduceti si interpretati


varianta generalizata. Aratati ca varianta generalizata este egala cu determinatul matricii de
covarianta
10. Definiti principalii indicatori (unidimensionali) cu ajutorul carora sunt sintetizate legaturile
(inclusiv relatii de calcul si proprietati)
a. Covarianta = masura a variantei simultane a 2 variabile, fiind, in valoare
absoluta cu atat mai mare cu cat valorile absolute ale variatiilor celor 2 variabile
in jurul mediei sunt mai apropiate ca magnitudine, evidentiind o anumita
proportionalitate pe multimea subiectilor studiati. (= expresie numerica a
gradului de asociere a 2 caracteristici ca urmare a faptului ca, in toate cazurile in
care 2 variabile sunt semnificativ legate intre ele o varianta intr-un sens a uneia
dintre ele, va determina o variatie proportionala de acelasi sens (leg directa)
sau de sens contrar (leg inversa) a celeilalte variabile
Relatii de calcul:
In cazul a 2 variabile xi si xj se foloseste formula

In cazul in care cele 2 variabile coincid, adica xi=xj, covarianta coincide


cu varianta:

Proprietati:
Marime nescalata
Nu are o margine superioara (in valoare absoluta, covarianta are o
margine inferioara, reprezentata de valoarea 0 = lipsa asociere de tip
liniar)

11. Definii si interpretati corelatia si coeficientul de corelatie

12. Definiti datele de tip profil, de tip chronologic (serii de timp) si de tip panel. Exemplificati
fiecare dintre cele trei tipuri
Date de tip profil (= date de tip secventa/ sectiune)=informatii obtinute prin masuratori
de natura statica, efectuate asupra caracteristicilor unor unitati ale unei populatii, la acelasi
moment de timp.
Exemplificare: date referitoare la salariul individual dintr-o luna al lucratorilor unei firme.
Date de tip cronologic = informatii obtinute prin masuratori de natura dinamica, efectuate
asupra caracteristicilor unei unitati a unei populatii la momente sau intervale succesive de timp.
Exemplificare: date care se refera la evolutia in timp a starii unei gospodarii
Date de tip panel = informatii obtinute prin masuratori mixte (static + diamic), efectuate
asupra caracteristicilor acelorasi unitati ale unei populatii la momente sau in intervale
succesive de timp.
Exemplificare: bugetul de familie
13. Definiti datele de tip observational si de tip experimental. Exemplificati fiecare categorie
Date experimentale = informatii obtinute prin organizarea unor experimente controlate, in
care influentele factorilor asupra efectului sunt controlate in mod direct, prin fixarea unor
combinatii precise de influente.
Exemplificare: date caracteristice unor domenii de cercetare (in care se fac experimente)
domeniul stiintelor natural, date de laborator
Date non-experimentale (observationale) = informatii obtinute prin observarea libera a
miscarii fenomenelor si proceselor studiate, fara interventia directa a investigatorului asupra
conditiilor in care se desfasoara aceasta miscare.
Exemplificare: caracteristice domeniului economico-social, observarea atitudinii consumatorilor
cand apare un nou tip de produs pe raftul din supermarket.
14. Care sunt principalele tipuri de transformari preliminare ale datelor. Interpretati marimile
rezultate n urma acestor transformari si mentionati proprietatile acestora
o Operatia de centrare a datelor originale
Fie n variabile si T observatii => operatia de centrare a observatiilor variabilei xi
consta in calculul noilor observatii, adica al valorilor centrate, dupa relatia:
Media celei de-a i-a variabile
o Operatia de standardizare a datelor originale

15. Definti principalele tipuri de matrici utilizate n analiza datelor (produse-ncrucisate,


covarianta, corelatie). Evidentiati relatiile de legatura dintre aceste tipuri de matrici
o Matricea produselor incrucisate poate fi determinata atat pt variabilele originale, cat si
pt variabilele centrate si standardizate.
Matricea este produsul dintre transpusa matricii X si X.

o Matricea de covarianta
Daca nr de variabile analizate este n, covariantele dintre orice 2 variabile pot fi aranjate
sub forma unei matrici patrate si simetrice, de dim nxn, numita matrice de covarianta.

o Matricea de corelatie

16. Ce este analiza componentelor principale. Evidentiati cinci categorii de probleme care pot fi
solutionate cu ajutorul tehnicilor de analiza a componentelor principale
Analiza componentelor principale = tehnica de analiza multidimensionala care are ca scop
descompunerea variabilitatii totale din spatial cauzal initial sub forma unui nr redus de
componente si fara ca aceasta descompunere sa contina redundante informationale.
Analiza componentelor principale poate rezolva urmatoarele categorii de probleme:
- eliminarea redundantelor informationale;
- reducerea dimensionalitatii spatiului causal ;
- compresia si restaurarea datelor;
- simplificarea modelelor matematice;
- selectarea variabilelor de influenta;
17. Interpretati logica analizei componentelor principale (inclusiv din punct de vedere geometric)
n acest sens, vom considera contextul numeric oferit de exemplul urmtor, context care va servi
ca referin pentru multe din interpretrile i exemplificrile ulterioare.
Exemplu:
Vom considera cazul unui numr de 10 obiecte sau observaii, referitoare la dou
variabile, X1 i X2. Tabelul urmtor conine observaiile iniiale disponibile pentru cele dou
variabile, precum i valorile centrate ce corespund acestor observaii.

Valorile observaiilor iniiale i centrate


Observaia
O1
O2
O3
O4
O5
O6
O7
O8
O9
O10
Media
Variana

Valori iniiale
X1
7,0
5,0
10,0
2,0
5,0
6,0
7,0
9,0
7,0
6,0
6,4
4,933

Valori centrale

X2
10,0
11,0
15,0
5,0
10,0
13,0
12,0
11,0
8,0
10,0
10,5
7,389

0,6
-1,4
3,6
-4,4
-1,4
-0,4
0,6
2,6
0,6
-0,4
0
4,933

-0,5
0,5
4,5
-5,5
-0,5
2,5
1,5
0,5
-2,5
-0,5
0
7,389

Variana individual pentru fiecare din cele dou variabile este 4,933, respectiv 7,389, iar
variana total, corespunztoare celor dou variabile, X1 i X2 este 12,322:
S11 = 4,933;

S22 = 7,389;

VT = 12,322.

n aceste condiii, se poate spune c rolul informaional al celor dou variabile este
aproximativ acelai, c cele dou variabile au aproximativ aceeai contribuie la formarea
variabilitii totale ce caracterizeaz spaiul cauzal iniial. Prima variabil are o contribuie la
formarea varianei totale de 46,45%, iar cea de-a doua variabil contribuie cu 53,55% la
formarea varianei totale:
= 46,45%;

= 53,55%.

Pentru observaiile din tabelul anterior, matricea produselor ncruciate, matricea de


covarian i matricea de corelaie, corespunztoare celor dou variabile X1 i X2, sunt
urmtoarele:
C=

S=

R=

n cazul observaiilor centrale, matricea produselor ncruciate, matricea de covarian i


matricea de corelaie sunt urmtoarele:
C=

S=

R=

Dup cum se poate observa, n urma operaiei de centrare se modific doar matricea
produselor ncruciate, matricea de covarian i matricea de corelaie rmnnd neschimbate.
Matricea de corelaie evideniaz faptul c cele dou variabile sunt corelate, la nivelul unui
coeficient de corelaie de 0,736, adic:

r12 = r21 = 0,736


Avnd n vedere intensitatea relativ ridicat a legturii dintre cele dou variabile
originale, este de ateptat ca aceste variabile s poat fi sintetiyate prin intermediul unei singure
componente principale, n condiiile unei pierderi informaionale minime.
18. Definiti componentele principale si mentionati proprietatile acestora
Componentele principale sunt variabile vectoriale abstracte, definite sub forma unor
combinaii liniare de variabilele originale.
Proprietile componentelor principale sunt:
Sunt necorelate dou cte dou i suma ptratelor coeficienilor care definesc combinaia
liniar ce corespunde unei componente principale este egal cu unitatea;
Prima component principal este o combinaie liniar normalizat a crei varian este
maxim, cea de-a doua component principal este o combinaie liniar necorelat cu
prima component principal i care are o varian ct mai mare posibil, ns mai mic
dect cea a primei componente etc.
19. Formulati modelul matematic al analizei componentelor principale, definiti si interpretati
marimile definitorii ale acestuia
Consideram ca spatiul cauzal initial supus investigarii este determinat de un nr de n
variabile (=caracteristici ale obiectelor supuse analizei) explicative notate cu x1,x2xn.
(fiecare obiect este caracterizat de n variabile)
Activitatea de determinare a componentelor principale poate fi descries prin intermediul unei
transformari de tipul:
Spatii vectoriale reale, dim celui
Marimi definitorii:
de-al doilea este << decat dim
primului, k<n

20. Ilustrati modul de deducere a componentelor principale


21. Definiti si justificati 3 dintre proprietatile componentelor principale
o Varianta fiecarui componente principale este maxima si este egala cu o valoare proprie a
matricii de covarianta.
o Componentele principale sunt necorelate doua cate doua, aceasta proprietate este
echivalenta cu proprietatea de independenta in cazul in care componentele principale sunt
distribuite dupa legea de probabilitate normal
o
22. Interpretati vectorii si valorile proprii ale matricii de covarianta
23. Ce sunt scorurile principale si cum se determina acestea. De ce este necesara determinarea
scorurilor principale
24. Ce este matricea factor (matricea de corelatie intre variabilele originale si componentele
principale). Cum se calculeaza si cum se interpreteaza elementele sale

25. Detaliati modul n care pot fi interpretate componentele principale n termeni cu semnificatie
concreta. Exemplificati
26. Criterii de alegere a numarului de componente principale
27. Ce este analiza factoriala si ce tipuri de probleme pot fi rezolvate cu ajutorul acesteia
28. Structura generala a modelului de analiza factoriala
29. Definiti si interpretati descompunerea variabilitatii n contextul analizei factoriale
30. Ce sunt scorurile factor, cum se calculeaza si cum se interpreteaza acestea
31. Metode de estimarea modelului factorial
32. Definiti recunoasterea formelor si exemplificati cteva dintre aplicatiile acesteia n domeniul
economico-financiar.
33. Definiti principalele concepte ale recunoasterii formelor
34. Formulati problema generala a clasificarii
35. Definiti sistemele de recunoastere controlata si necontrolata
36. Ce este analiza cluster, care sunt conceptele fundamentale ale acesteia si care sunt domeniile
utilizarii ei
37. Definiti scopurile analizei cluster si descrieti tipul informatiilor utilizate n analiza cluster
38. Definiti analiza cluster si aratati cum se clasifica metodele de analiza cluster
39. Definiti conceptul de distanta si descrieti cateva modalitati de evaluare a distantelor dintre
forme
40. Formulati criteriul general al clasificarii si aratati cum se evalueaza variabilitatea inter si intra
cluster (cazul uni-dimens)
41. Formulati criteriul general al clasificarii si aratati cum se evalueaza variabilitatea inter si intra
cluster (cazul n-dimens)
42. Metode de evaluare a distantelor dintre clustere
43. Descrieti analiza cluster de tip ierarhic si mentionati care sunt cele doua categorii de
clasificare ierarhica
44. Descrieti metoda agregarii simple de analiza cluster
45. Descrieti metoda agregarii complete de analiza cluster
46. Descrieti metoda agregarii medii de analiza cluster
47. Descrieti metoda centroidului de analiza cluster
48. Decrieti metoda lui Ward de analiza cluster
49. Descrieti algoritmul k-means
50. Ce este dendrograma (arborele de clasificare ierarhica) si cum se construieste aceasta
51. Cum se alege numarul de clustere n cazul clasificarilor de tip ierarhic
52. Formulati problema generala a recunoasterii supervizate a formelor si mentionati cateva
domenii de utilizare
53. Definiti scopurile recunoasterii supervizate a formelor si descrieti tipul informatiilor utilizate
n recunoasterea supervizata
54. Ce sunt clasificatorii de tip liniar. Descrieti logica discriminarii liniare si spatiul discriminat
55. Definiti functiile discriminant liniare, variabilele discriminant si scorurile discriminant
56. Descrieti clasificatorul Bayesian si aratati cum poate fi utilizat acesta in predictia
apartenentei formelor
57. Descrieti forma clasificatorului Bayesian in cazul normalitatii si homoscedasticitatii claselor
58. Descrieti clasificatorul liniar Fisher si aratati cum poate fi utilizat acesta in predictia
apartenentei formelor
59. Descrieti clasificatorul Mahalanobis si aratati cum poate fi utilizat acesta in predictia
apartenentei formelor
60. Descrieti modul de stabilire a abilitatii predictive a unui clasificator si matricea corectitudinii
clasificarii

S-ar putea să vă placă și