Sunteți pe pagina 1din 38

Analiza statistică multidimensională

Analiza statistică
multidimensională
Curs 1 - Septembrie 2023

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională

I. Prezentare curs
Analiza statistică multidimensională
Conținutul cursului
• I. Introducere: notiuni elementare, norul de indivizi şi de variabile.

• II. Analiza cluster: Domenii de aplicare; Descrierea metodei de clsterizare


ierarhica.Interpretare arborii de clasificare; Descrierea metodei de clusterizare
neierarhica; Interpretarea clusterilor; Complementaritate cu metodele anterioare

• III. Analiza componentelor principale: Domenii de aplicare. Descrierea metodei.


Interpretare geometrica. Analiza norului de indivizi. Analiza norului de puncte variabile.

• IV. Analiza factoriala a corespondentelor multipla: Notiuni si definitii. Domenii de


aplicare. Descrierea metodei. Variabilele suplimentare. Interpretarea reprezentarilor
simultane.

• V. Analiza discriminanta si legatura cu alte metode: Descrierea metodei de analiza


discriminata. Interpretarea rezultatelor; Analiza discriminanta si analiza componentelor
principale

• VI. Modelul de regresie: Regresia multipla si legatura cu alte medote de analiza


multidimensionala; Regresia pentru date de tip panel
Analiza statistică multidimensională
Bibliografie
• Titluri bibliografice în română
• Andrei T. (2003) - Statistica si Econometrie, Ed. Economica
• Boboc C. (2007), Analiza statistica multidimensionala, Meteor Press
• Saporta G., Stefanescu V.(1996), Analiza datelor & informatica, Ed. Economica, Bucuresti.
• Spircu L., Spircu T., Calciu M.(1994), Analiza datelor de marketing, Ed. ALL, Bucuresti

• Titluri bibliografice în limbi străine


• Richard Johnson, Dean Wichern (2014) - Applied Multivariate Statistical Analysis (Classic Version), 6th Edition, Pearson Education Limited
• Theodore W. Anderson (2003) - An Introduction to Multivariate Statistical Analysis 3rd Edition, Whiley

• Bouroche J–M, Saporta G. (1980), “L’analyse des données”, Presses Universitaires de France, Paris

• Lebart L., Morineau A., Piron M. (1997): Statistique exploratoire multidimensionnelle, Dunod
Analiza statistică multidimensională
Structura notei finale
• Examen final scris: 60% din nota finală

• Prezență și activitate seminar: 15% din nota finală


• Evaluarea capacității de înțelegere și aplicare a tehnicilor de analiză a datelor specifice unei baze de date în SAS - testare seminar 10%
• Prezente – 5%

• Proiect: 25% din nota finală


• Evaluarea capacității de a parcurge corect o metodologie de analiză a datelor
• 2-3 membri în echipă
• De realizat o analiză in SAS pe o bază de date reală
• Veti fi evaluati pentru proiectul scris dar si pentru prezentarea acestuia
Analiza statistică multidimensională

Analiza multidimensională
Definire
Analiza statistică multidimensională

Ce este analiza statistică multidimensională?


• Este un proces de analiză a datelor care grupează datele în două sau mai multe categorii
• seturile de date bidimensionale sunt numite date panel

• Într-o întreprindere datele sunt organizate de teme majore: clienţi, produse, vanzari, …
• Subiect = fapte/măsurători + dimensiuni
• Colectează date relevante cu privire la un subiect
• Exemplu: vânzări
• Dacă vânzările sunt analizate într-o singură lună pentru un singur produs în toate magazinele din baza de date –
aceste date vor fi unidimensionale sau multidimensionale? Dar dacă sunt analizate pe mai multe luni?

• Sintetizează o vedere unică de evenimente care urmează să fie analizate


• Exemplu: vânzări (nr, produs, perioada, magazin)

• Detalii pe diverse dimensiuni


• Exemplu: Produse (IDprod, descriere, culoare, dimensiune, ...)
Magazine (IDMAG numele, oraşul, ţara dept,)
Perioade (IDper, an, trimestru, lună, zi)3
Analiza statistică multidimensională

Scopul analizei multidimensionale?


• Analiza statistică multidimensională urmărește utilizarea celor mai adecvate metode
statistico-matematice pentru:
• Obținerea de reprezentări grafice sintetice

• Reducerea dimensiunii pentru comprimarea sau rezumarea datelor

• Cercetarea și reprezentarea tipologiilor de observații

• Estimații și inferență statistică a datelor


Analiza statistică multidimensională

Metode de analiză multidimensională


• Metode descriptive (metode de învățare nesupervizată):
• Analiza în componente principale
• Analiza de corespondențe simplă și multiplă
• Analiza canonică
• Analiza cluster

• Metode de previziune (metode de învățare supervizată și de previziune)


• Analiza discriminantă
• Regresia logistică
• Regresia multiplă
• Analiza de regresie pentru date de tip panel
• Modele cu ecuații structurale
Analiza statistică multidimensională

Metodologia CRISP - Cross-industry standard process for Data Mining

Intelegerea
Businessului

Intelegerea
Implementare
Datelor

DATELE
Pregatirea
Evaluare Datelor

Modelare
Analiza statistică multidimensională

ÎNȚELEGEREA ȘI PREGĂTIREA
DATELOR
Analiza statistică multidimensională

Înțelegerea datelor
• Obiectivul principal
• Obțineți informații despre datele dvs.
• în ceea ce privește scopul proiectului
• în general

• Veți găsi răspunsuri la următoarele întrebări:


• De ce tipuri de variabile/atribute dispunem?
• Care este calitatea datelor?
• Vizualizarea datelor poate fi utilă?
• Variabilele sunt corelate?
• Ce putem spune despre outliers?
• Cum sunt tratate valorile lipsă?
Analiza statistică multidimensională

De ce tipuri de variabile/atribute dispunem?


• Calitative: exprimate prin cuvinte, cu care se precizează apartenenţa
la o categorie sau o modalitate a unei mulţimi finite de observaţii
• Nominale – valorile adesea sunt numite clase sau categorii (Sex:
masculin/feminin; Statut marital: căsătorit/necăsătorit)
• Ordinale – valorile pot fi ordonate (Studii: liceu, facultate/master/doctorat)

• Cantitative: exprimate prin numere


• Discrete: atunci când domeniul valorilor acesteia este o submulțime a
numerelor întregi
• Continue: atunci cînd domeniul valorilor este mulțimea numerelor reale sau
un interval
Analiza statistică multidimensională

Calitatea datelor
• Calitatea scăzută a datelor face imposibilă încrederea în rezultatele analizei:
”Garbage in, garbage out”
• Acuratețe: apropiere între valoarea din date și valoarea adevărată.
• Motivele acurateții reduse a atributelor numerice:
• măsurători zgomotoase
• precizie limitată
• măsurători greșite
• transpunere cifre (atunci când sunt introduse manual)
• Motivele preciziei reduse a atributelor categorice:
• intrări eronate
• greșeli de scriere
Analiza statistică multidimensională

Calitatea datelor
• Acuratețe sintactică: intrarea nu se află în domeniu.
• Exemple: masculin în gen, text în atribute numerice, ...

• Poate fi verificat destul de ușor.

• Acuratețe semantică: intrarea se află în domeniu, dar nu este corectă.


• Exemplu: John Smith este femeie

• Este nevoie de mai multe informații pentru a fi verificate (de exemplu, „reguli comerciale”).

• Completitudine: dacă o intrare nu este corectă, deși aparține domeniului atributului.


• Exemplu: lipsesc înregistrările complete, datele sunt părtinitoare (O bancă a respins clienții cu venituri mici.)

• Date neechilibrate: setul de date ar putea fi orientat extrem de mult către un tip de înregistrări.
• Exemplu: mărfurile defecte reprezintă o fracțiune foarte mică din toate.

• Actualitate: Datele disponibile sunt actualizate?


Analiza statistică multidimensională

Vizualizarea datelor
• Nu există nici un motiv pentru această descreștere bruscă • Valori lipsă ascunse: pot proveni de la blocarea sau
defectarea unui senzor
Analiza statistică multidimensională

Vizualizarea datelor
Diagrama prin coloane (BAR CHARTS) HISTOGRAMA

• Un mod simplu de reprezentare grafică a • Reprezentarea grafică a distribuției frecvențelor pentru o variabilă
numerică.
frecvențelor unei variabile categoriale
• Variabila numerică este discretizată într-un număr fix de intervale,
de obicei de lungime egală. Pentru fiecare interval, frecvența
(absolută) a valorilor care se încadrează în acesta este indicată de
înălțimea coloanei corespunzătoare.
Analiza statistică multidimensională
Vizualizarea datelor
• Alegerea numărului de intervale: Fie o distribuție bimodală reprezentată grafic prin 3 histograme,
prima cu 5, a doua cu 17 si ultima cu 200 intervale egale. Ce observați?

• O soluție de identificare a
numărului aproximativ de
intervale, este formula lui
Sturges, ce poate fi folosite
pentru distribuții
aproximativ normale și de
dimensiuni moderate.
Analiza statistică multidimensională

Vizualizarea datelor
• Box plots

1,5 interval interquatilic

Mediana 50%
Interval
din date
interquartilic

Outlier
Analiza statistică multidimensională

Detectarea outliers
• Un outlier este un punct ce diferă semnificativ de toate celelalte observații
• În cazul unei baze de date multidimensionale există
• Outlier singular:
• Pentru variabile/atribute categoriale: un outlier este o valoare care apare cu o frecvență foarte mică în
comparație cu frecvența tuturor celorlalte valori.
• Pentru variabile/atribute numerice: un outlier este o valoare care apare cu o frecvență foarte mică ce poate fi
identificată folosind
• Reprezentările grafice de tip boxplots
• Testele statistice:
• testul Grubb pentru variabile distribuite normal
• testul Walsh pentru variabile care nu sunt distribuite normal

• Outlier multidimensional:
• Detectare vizuală cu ajutorul Scatter plots îentru două variabile/attribute
• Reprezentările grafice obținute prin analiza în componente principale sau analiza de corespondențe multiple
• Analiza cluster: outliers vor fi acele puncte ce nu pot fi incluse în nici un cluster
Analiza statistică multidimensională

Valori lipsă
• În unele cazuri, valorile individuale ale variabilelor/atributelor pot lipsi.
• Cauzele apariției valorilor lipsă:
• senzori defecti
• atribut/variabilă irelevantă pentru obiectul corespunzător (De la ce vârstă fumați? pentru
nefumători; Sunteți însărcinată? Pentru bărbați)
• Valorile lipsă nu sunt indicate efectiv ca valori lipsă
• Cate țigări fumați pe zi? Pentru nefumători răspunsul va fi ”0” – acesta va trebui tratat ca
valoare lipsă
Analiza statistică multidimensională
Înlocuirea valorilor lipsă
• înlocuirea tuturor valorilor lipsă ale întrebării j cu media respondenţilor la această întrebare
~ 1
y jk =  yij , k  s − r j
r j ir j

• această metodă conduce la estimaţii cu o micşorare severă dar nereală a dispersiei şi deci a
exactităţii rezultatelor şi a preciziei

• înlocuirea tuturor valorilor lipsă ale întrebării j cu media respondenţilor la această întrebare pe
clase
• eşantionul este împărţit în mai multe clase în funcţie de o variabilă auxiliară
• pentru fiecare clasă se aplică prima metodă
• se va obţine un estimator cu o dispersie subevaluată
Analiza statistică multidimensională
Înlocuirea valorilor lipsă
• înlocuirea valorilor lipsă cu valori alese dintre răspunsurile respondenților asemănători
• în cazul în care unitatea k înregistrează o valoare lipsă pentru atributul/variabila j, se alege o unitate
numită donoare din mulţimea celor ce au înregistrată valoare pentru atributul/variabila j și care
înregistrează valori apropiate pentru celelalte atribute/variabile ale unității k

• înlocuirea valorilor lipsă cu valori alese din alte surse: valori înregistrate la momente anterioare

• înlocuirea valorilor lipsă cu ajutorul unui model de regresie


• se construieşte un model de regresie al variabilei j în funcţie de celelalte variabile
• se iau în considerare variabilele corespunzătoare atributelor/variabilelor fără valori lipsă pentru
unitatea k

• înlocuirea valorilor lipsă prin metode bazate pe arbori de clasificare, în cazul variabilelor
calitative sau arbori de regresie, în cazul variabilelor continue.
Analiza statistică multidimensională
Rafinarea datelor

• se realizează în general prin:


• recalcularea datelor după metodologii care au ieșire date comparabile;

• interpolare sau completarea datelor omise;

• extrapolarea: completarea datelor omise la capetele seriilor de timp;

• ajustarea datelor, netezirea datelor: pentru eliminarea perturbațiilor sau


zgomotelor (perturbațiile aleatoare sunt denumite și zgomote albe) și
obținerea datelor care exprimă tendința (trendul).

• transformarea datelor pentru obținerea comparabilității acestora și/sau pentru


reducerea variabilității
Analiza statistică multidimensională
Transformarea datelor
• se realizează prin operații de prelucrare primară asupra datelor primare: centrare și standardizare sau logaritmare

• Valori reale (xi), sunt mărimi concrete, pozitive, exprimate în unităţi de măsură specifice naturii fenomenului X. Vectorul valorilor lui X poate
fi definit prin 2 parametri:
n

• Media arimetică (M(x)):


x i
x= i =1

 (x − x )  (x )
n n n
2 2
i i −x
• Abaterea medie pătratică:  x =  x2 = i =1 unde:  x2 = D 2 ( x ) = i =1
= dispersia
n n

• Valori centrate xi* = xi − x

• Media: x *
= M (x ) =
* x *
i
=
 (x i −x )=0
i
n n
 (x )  (x − x )
2 2
*
− x*
• Dispersia: D (x ) = = = D 2 (x )
2 * i i

n n
Analiza statistică multidimensională
Transformarea datelor
xi − x
• Valori centrate şi normate - STANDARDIZATE: xi =
**

x
 xi − x 
   (x )
 1
 −x
• Media: x **
= M (x ) =
x **
**
i
=  x  = x
i

=0
n n n
2
 x − x
  i  12  (x )
2
−x
(x ) =  (x )2
• Dispersia:
**
− M (x ) **
 x  = x
i
 x2
= = 2 =1
2 ** i
D
n n n x

• Valori logaritmate: ln( xi )

• Media: ln( x ) = M (ln( x ) ) =


 ln( x i )
=
ln( xi ) 1
= ln( xi ) = ln( MG( xi ))
n
i i
n n
2
  
  x 
  ln i 1
2
 1
 
 i
 ln( x ) − ln(  i n 
x )   ( x )n  ?
  i 
• Dispersia: D 2 (ln( xi ) ) =   =   D 2 ( xi )
n n
Analiza statistică multidimensională
Analiza statistică multidimensională

Checklist pentru înțelegerea și pregătirea datelor


✓ Determină calitatea datelor. (de ex. precizie sintactică)

✓ Găsește și tratează valorile aberante – outliers (de exemplu, folosind tehnici de vizualizare) și

✓ Detectează, examinează și înlocuiește valorile lipsă (posibil ascunse de valorile implicite).

✓ Descoperă dependențele sau corelațiile așteptate dintre variabile/atribute.

✓ Verifică ipotezele specifice anumitor metode (de exemplu, dacă variabila/atributul urmează o
distribuție normală – este ipoteză pentru multe metode de analiză statistică)
Analiza statistică multidimensională

Noțiuni introductive
analiză factorială
Analiza statistică multidimensională

• prima referinţă la medotele de analiză factorială a făcut-o în anul 1901 Karl Pearson

• în anul 1933 a fost integrată statisticii matematice de către Harold Hotelling

• În ceea ce privește metodele și tehnicile de analiză de tip cluster: primele lucrări datează din 1963
Sokal și Sneath și în 1967 Lance și Williams. Preocupările au crescut exponențial și s-au
diversificat foarte mult.

• Au existat două școli: franceză și americană. Benzecri, Jambu, Lebart, Morineau, Saporta sunt
printrei cei mai cunoscuți autori francezi.

• a început să fie utilizată efectiv după dezvoltarea metodelor actuale de calcul cu ajutorul
calculatoarelor
Analiza statistică multidimensională

1. Datele și caracteristicile lor:

Configurarea norului
de punte în spaţiu

vizualizarea punctelor regruparea punctelor


în cel mai bun spaţiu în spaţiu
redus (ACP, ACM) (metode de clusterizare)
Analiza statistică multidimensională

1. Datele și caracteristicile lor:


Tabelul de date valoarea variabilei j
pentru individul i

Utilizatorii metodelor
factoriale pleacă de la un
Vectorul linie vector coloană
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj

n puncte în Rp p puncte în Rn
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza statistică multidimensională

2. Spațiul indivizilor
• Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu vectorial FRp denumit
spaţiul indivizilor.

• Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de greutate al norului

• Metrica folosită pentru definirea distanţei dintre doi indivizi este M = D1/s2 unde D1/s 2 este matricea
diagonală a inverselor dispersiilor

• Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor punctelor față de
centrul de greutate
Analiza statistică multidimensională

3. Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.

p1 0
  n
 p2 
D=
 
 pi = 1
 i=1
 
0 pn 
• Produsul scalar a două variabile xj și xk este:

care este covarianța sjk dintre cele două variabile, dacă acestea sunt centrate

• Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Unghiul dintre două variabile centrate este:

fiind coeficientul de corelație liniară

S-ar putea să vă placă și