Sunteți pe pagina 1din 21

Analiza statistic multidimensional

Curs 1, Octombrie 2014


Titular de curs: Conf.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com

I.

Prezentare curs

Coninutul cursului

I. Introducere: notiuni elementare, norul de indivizi i de variabile.

II. Analiza componentelor principale: Domenii de aplicare. Descrierea metodei. Interpretare


geometrica. Analiza norului de indivizi. Analiza norului de puncte variabile.

III. Analiza factoriala a corespondentelor multipla: Notiuni si definitii. Domenii de aplicare.


Descrierea metodei. Variabilele suplimentare. Interpretarea reprezentarilor simultane.

IV. Analiza cluster: Domenii de aplicare; Descrierea metodei de clasificare ierarhica.Interpretare


arborii de clasificare; Descrierea metodei de clasificare neierarhica.Interpretarea clusterilor;
Complementaritate cu metodele anterioare

V. Analiza canonica: Formularea problemei si notatii. Definirea variabilelor canonice. Interpretarea


rezultatelor ; Legatura cu analiza corespondentelor

VI. Analiza discriminanta si legatura cu alte metode: Descrierea metodei de analiza


discriminata. Interpretarea rezultatelor; Analiza discriminanta si analiza componentelor principale

VII. Modelul de regresie: Regresia multipla si legatura cu alte medote de analiza


multidimensionala; Regresia pentru date de tip panel

Bibliografie

Andrei T. (2003) - Statistica si Econometrie, Ed. Economica

Boboc C. (2007), Analiza statistica multidimensionala, Meteor Press

Saporta G., Stefanescu V.(1996), Analiza datelor & informatica, Ed. Economica, Bucuresti.

Spircu L., Spircu T., Calciu M.(1994), Analiza datelor de marketing, Ed. ALL, Bucuresti.

Bouroche JM, Saporta G. (1980), Lanalyse des donnes, Presses Universitaires de France, Paris

Lebart L., Morineau A., Piron M. (1997): Statistique exploratoire multidimensionnelle, Dunod

Structura notei finale

Examen scris: 60% din nota final

Proiect: 40% din nota final

2-3 membri n echip

De realizat o analiz multidimensional

Notare:

- 50% coninutul i forma lucrrii


- 50% prezentarea lucrrii
- ntre 10 i 15 de minute, n funcie de numrul de membri ai echipei
- comentarii i ntrebri: 5 minute

Noiuni introductive

Noiuni introductive
Variabile statistice - clasificare
1. dup modul de exprimare:

variabile calitative: exprimate prin cuvinte, cu care se precizeaz apartenena la o


categorie sau o modalitate a unei mulimi finite de observaii
variabile cantitative (numerice): exprimate prin numere, mulimea observaiilor
putnd fi infinit

2. dup cardinalul mulimii a observaiilor:

variabile binare (alternative): 10, da, nu etc


variabile discrete
variabile continue

3. dup coninutul variabilei:

variabile de timp (cronologice): exprimate prin funcii de timp


variabile de spaiu: exprimate prin funcii de spaiu
variabile atributive: sunt definite printr-o funcie atributiv

Noiuni introductive
Transformarea datelor

se realizeaz prin operaii de prelucrare primar asupra datelor primare: centrare i standardizare sau
logaritmare

Valori reale (xi), sunt mrimi concrete, pozitive, exprimate n uniti de msur specifice naturii fenomenului X.

Vectorul valorilor lui X poate fi definit prin 2 parametri:


n

Media arimetic (M(x)):

x
i 1

x
n

Abaterea medie ptratic:

xi* xi x

Valori centrate

Media: x
Dispersia:

x x2

x
M x
*
i

x
D x
2

*
i

*
i

x*

i 1

x unde:

x x

D 2 x

x
n

x2 D 2 x

i 1

dispersia

Noiuni introductive
Transformarea datelor

Valori centrate i normate:

Media:

x **

xi**

x
M x
**

xi x

xi x
1
x

**
i

Dispersia:

D 2 x **

Valori logaritmate:

Media:

Dispersia:

M (x )
**

n
2

**
i

x x
i 12
x x

x2
1
x2

ln( xi )

ln( xi ) M ln( xi )

ln( x

ln( xi )

ln( xi ) ln( xi ) n

D 2 ln( xi )
n

ln( xi ) n ln( MG( xi ))


x
ln i 1
( x )n
i

n

D 2 xi

Noiuni introductive
Msurarea intensitii legturii dintre variabilele cantitative

Coeficientul de corelaie liniar a lui Pearson

n xi y i x i y i
xi2

( x i ) n
2

y i2

( y i )

r=1 - exist o legtur perfect direct ntre x i y

r=-1 - exist o legtur perfect invers ntre x i y

r=0 - nu exist legtur ntre x i y

1,1

Testarea existenei legturii liniare ntre x i y

Ipotezele: H0: variabilele x i y nu sunt corelate

r n2
1 r

~ Tn 2

t t ;n 2 se respinge H0
t t ;n 2

se accept H0

HA: variabilele x i y sunt corelate

Noiuni introductive
Tipuri de date

a) date de tip profil

b) date de tip serii de timp (serii cronologice)

reprezint rezultatul unor msurtori efectuate la un anumit moment asupra uneia sau mai
multor variabile, pe mulimea unitilor populaiei
reprezint rezultate ale unor msurtori efectuate asupra caracteristicilor, unitilor
populaiei studiate, de-a lungul timpului, la momente succesive sau la anumite intervale de
timp

c) date de tip panel

sunt rezultate ale msurtorilor efectuate asupra caracteristicilor unor uniti individuale, att
de-a lungul unitilor individuale, ct i de-a lungul timpului

Definirea analizei statistice


multidimensionale

Necesitatea utilizrii metodelor de analiz


multidimensional

Datele sunt organizate de teme majore: clienii, produse, vanzari,

Subiect = fapte + dimensiuni

Colecteaz date relevante cu privire la un subiect

Sintetizeaz o vedere unic de evenimente care urmeaz s fie analizate

Exemplu: vnzri

Exemplu: vnzri (nr, produs, perioada, magazin)

Detalii pe diverse dimensiuni

Exemplu: Produse (IDprod, descriere, culoare, dimensiune, ...)


Magazine (IDMAG numele, oraul, ara dept,)
Perioade (IDper, an, trimestru, lun, zi)

Necesitatea utilizrii metodelor de analiz


multidimensional

Dimensiuni:

Indicatori:

Timp

Numr de uniti vndute

Geografie

CA

Produse

Cost

Clieni

Marj ..

Canalele de distribuie .....

Dimensiuni uniti

Timp

Geografie

Produse

Zi

Lun

Ora

Numr

Trimestru

Regiune

Tip

An

ar

Gam

Marc

Ce este analiza multidimensional?

Analiza statistic multidimensional urmrete utilizarea celor mai adecvate metode


statistico-matematice pentru:

Obinerea de reprezentri grafice sintetice

Reducerea dimensiunii pentru comprimarea sau rezumarea datelor

Cercetarea i reprezentarea tipologiilor de observaii

Estimaii i inferen statistic a datelor

Metode de analiz multidimensional

Metode de nvare nesupervizate:

Analiza n componente principale

Analiza de corespondene simpl i multipl

Analiza canonica

Analiza de clasificare

Metode de nvare supervizate i de previziune

Analiza discriminant

Regresia logistic

Regresia multipl

Analiza de regresie pentru date de tip panel

Modele cu ecuaii structurale

Datele i caracteristicile lor:


Tabelul de date
Utilizatorii metodelor
factoriale pleac de la un
tablou de msuri, pe coloane
figurnd variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt msurate
variabilele xj

valoarea variabilei j
pentru individul i

Vectorul linie

vector coloan

= 1 , ,
1
=

n puncte n Rp

p puncte n Rn

Datele si caracteristicile lor:


Matricea ponderilor; Centrul de greutate

Datele si caracteristicile lor:


Matricea dispersie covarian

Matricea dispersie-covarian:

= =

Matricea diagonal a inverselor abaterilor medii ptratice:


/
/ =

Notaii:

Matricea diagonal a inverselor dispersiilor:


/ =

unde

Tabelul datelor centrate i reduse

= /

cu

j xj
x
i
zji =
sj

Datele si caracteristicile lor:


Matricea de corelatie

R matricea care grupeaz toi coeficienii de corelaie liniar ntre p variabile luate
dou :cte dou se numete matricea de corelaie:

1
R=
1

12 1
1 = 1/ 1/ =ZDZ
1

Observatie: Matricea de corelatie R este matricea dispersie covarianta V pentru


date centrate si reduse

S-ar putea să vă placă și