Documente Academic
Documente Profesional
Documente Cultură
Analiza statistică
multidimensională
Curs 1 - Septembrie 2023
I. Prezentare curs
Analiza statistică multidimensională
Conținutul cursului
• I. Introducere: notiuni elementare, norul de indivizi şi de variabile.
• Bouroche J–M, Saporta G. (1980), “L’analyse des données”, Presses Universitaires de France, Paris
• Lebart L., Morineau A., Piron M. (1997): Statistique exploratoire multidimensionnelle, Dunod
Analiza statistică multidimensională
Structura notei finale
• Examen final scris: 60% din nota finală
Analiza multidimensională
Definire
Analiza statistică multidimensională
• Într-o întreprindere datele sunt organizate de teme majore: clienţi, produse, vanzari, …
• Subiect = fapte/măsurători + dimensiuni
• Colectează date relevante cu privire la un subiect
• Exemplu: vânzări
• Dacă vânzările sunt analizate într-o singură lună pentru un singur produs în toate magazinele din baza de date –
aceste date vor fi unidimensionale sau multidimensionale? Dar dacă sunt analizate pe mai multe luni?
Intelegerea
Businessului
Intelegerea
Implementare
Datelor
DATELE
Pregatirea
Evaluare Datelor
Modelare
Analiza statistică multidimensională
ÎNȚELEGEREA ȘI PREGĂTIREA
DATELOR
Analiza statistică multidimensională
Înțelegerea datelor
• Obiectivul principal
• Obțineți informații despre datele dvs.
• în ceea ce privește scopul proiectului
• în general
Calitatea datelor
• Calitatea scăzută a datelor face imposibilă încrederea în rezultatele analizei:
”Garbage in, garbage out”
• Acuratețe: apropiere între valoarea din date și valoarea adevărată.
• Motivele acurateții reduse a atributelor numerice:
• măsurători zgomotoase
• precizie limitată
• măsurători greșite
• transpunere cifre (atunci când sunt introduse manual)
• Motivele preciziei reduse a atributelor categorice:
• intrări eronate
• greșeli de scriere
Analiza statistică multidimensională
Calitatea datelor
• Acuratețe sintactică: intrarea nu se află în domeniu.
• Exemple: masculin în gen, text în atribute numerice, ...
• Este nevoie de mai multe informații pentru a fi verificate (de exemplu, „reguli comerciale”).
• Date neechilibrate: setul de date ar putea fi orientat extrem de mult către un tip de înregistrări.
• Exemplu: mărfurile defecte reprezintă o fracțiune foarte mică din toate.
Vizualizarea datelor
• Nu există nici un motiv pentru această descreștere bruscă • Valori lipsă ascunse: pot proveni de la blocarea sau
defectarea unui senzor
Analiza statistică multidimensională
Vizualizarea datelor
Diagrama prin coloane (BAR CHARTS) HISTOGRAMA
• Un mod simplu de reprezentare grafică a • Reprezentarea grafică a distribuției frecvențelor pentru o variabilă
numerică.
frecvențelor unei variabile categoriale
• Variabila numerică este discretizată într-un număr fix de intervale,
de obicei de lungime egală. Pentru fiecare interval, frecvența
(absolută) a valorilor care se încadrează în acesta este indicată de
înălțimea coloanei corespunzătoare.
Analiza statistică multidimensională
Vizualizarea datelor
• Alegerea numărului de intervale: Fie o distribuție bimodală reprezentată grafic prin 3 histograme,
prima cu 5, a doua cu 17 si ultima cu 200 intervale egale. Ce observați?
• O soluție de identificare a
numărului aproximativ de
intervale, este formula lui
Sturges, ce poate fi folosite
pentru distribuții
aproximativ normale și de
dimensiuni moderate.
Analiza statistică multidimensională
Vizualizarea datelor
• Box plots
Mediana 50%
Interval
din date
interquartilic
Outlier
Analiza statistică multidimensională
Detectarea outliers
• Un outlier este un punct ce diferă semnificativ de toate celelalte observații
• În cazul unei baze de date multidimensionale există
• Outlier singular:
• Pentru variabile/atribute categoriale: un outlier este o valoare care apare cu o frecvență foarte mică în
comparație cu frecvența tuturor celorlalte valori.
• Pentru variabile/atribute numerice: un outlier este o valoare care apare cu o frecvență foarte mică ce poate fi
identificată folosind
• Reprezentările grafice de tip boxplots
• Testele statistice:
• testul Grubb pentru variabile distribuite normal
• testul Walsh pentru variabile care nu sunt distribuite normal
• Outlier multidimensional:
• Detectare vizuală cu ajutorul Scatter plots îentru două variabile/attribute
• Reprezentările grafice obținute prin analiza în componente principale sau analiza de corespondențe multiple
• Analiza cluster: outliers vor fi acele puncte ce nu pot fi incluse în nici un cluster
Analiza statistică multidimensională
Valori lipsă
• În unele cazuri, valorile individuale ale variabilelor/atributelor pot lipsi.
• Cauzele apariției valorilor lipsă:
• senzori defecti
• atribut/variabilă irelevantă pentru obiectul corespunzător (De la ce vârstă fumați? pentru
nefumători; Sunteți însărcinată? Pentru bărbați)
• Valorile lipsă nu sunt indicate efectiv ca valori lipsă
• Cate țigări fumați pe zi? Pentru nefumători răspunsul va fi ”0” – acesta va trebui tratat ca
valoare lipsă
Analiza statistică multidimensională
Înlocuirea valorilor lipsă
• înlocuirea tuturor valorilor lipsă ale întrebării j cu media respondenţilor la această întrebare
~ 1
y jk = yij , k s − r j
r j ir j
• această metodă conduce la estimaţii cu o micşorare severă dar nereală a dispersiei şi deci a
exactităţii rezultatelor şi a preciziei
• înlocuirea tuturor valorilor lipsă ale întrebării j cu media respondenţilor la această întrebare pe
clase
• eşantionul este împărţit în mai multe clase în funcţie de o variabilă auxiliară
• pentru fiecare clasă se aplică prima metodă
• se va obţine un estimator cu o dispersie subevaluată
Analiza statistică multidimensională
Înlocuirea valorilor lipsă
• înlocuirea valorilor lipsă cu valori alese dintre răspunsurile respondenților asemănători
• în cazul în care unitatea k înregistrează o valoare lipsă pentru atributul/variabila j, se alege o unitate
numită donoare din mulţimea celor ce au înregistrată valoare pentru atributul/variabila j și care
înregistrează valori apropiate pentru celelalte atribute/variabile ale unității k
• înlocuirea valorilor lipsă cu valori alese din alte surse: valori înregistrate la momente anterioare
• înlocuirea valorilor lipsă prin metode bazate pe arbori de clasificare, în cazul variabilelor
calitative sau arbori de regresie, în cazul variabilelor continue.
Analiza statistică multidimensională
Rafinarea datelor
• Valori reale (xi), sunt mărimi concrete, pozitive, exprimate în unităţi de măsură specifice naturii fenomenului X. Vectorul valorilor lui X poate
fi definit prin 2 parametri:
n
(x − x ) (x )
n n n
2 2
i i −x
• Abaterea medie pătratică: x = x2 = i =1 unde: x2 = D 2 ( x ) = i =1
= dispersia
n n
• Media: x *
= M (x ) =
* x *
i
=
(x i −x )=0
i
n n
(x ) (x − x )
2 2
*
− x*
• Dispersia: D (x ) = = = D 2 (x )
2 * i i
n n
Analiza statistică multidimensională
Transformarea datelor
xi − x
• Valori centrate şi normate - STANDARDIZATE: xi =
**
x
xi − x
(x )
1
−x
• Media: x **
= M (x ) =
x **
**
i
= x = x
i
=0
n n n
2
x − x
i 12 (x )
2
−x
(x ) = (x )2
• Dispersia:
**
− M (x ) **
x = x
i
x2
= = 2 =1
2 ** i
D
n n n x
✓ Găsește și tratează valorile aberante – outliers (de exemplu, folosind tehnici de vizualizare) și
✓ Verifică ipotezele specifice anumitor metode (de exemplu, dacă variabila/atributul urmează o
distribuție normală – este ipoteză pentru multe metode de analiză statistică)
Analiza statistică multidimensională
Noțiuni introductive
analiză factorială
Analiza statistică multidimensională
• prima referinţă la medotele de analiză factorială a făcut-o în anul 1901 Karl Pearson
• În ceea ce privește metodele și tehnicile de analiză de tip cluster: primele lucrări datează din 1963
Sokal și Sneath și în 1967 Lance și Williams. Preocupările au crescut exponențial și s-au
diversificat foarte mult.
• Au existat două școli: franceză și americană. Benzecri, Jambu, Lebart, Morineau, Saporta sunt
printrei cei mai cunoscuți autori francezi.
• a început să fie utilizată efectiv după dezvoltarea metodelor actuale de calcul cu ajutorul
calculatoarelor
Analiza statistică multidimensională
Configurarea norului
de punte în spaţiu
Utilizatorii metodelor
factoriale pleacă de la un
Vectorul linie vector coloană
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj
n puncte în Rp p puncte în Rn
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza statistică multidimensională
2. Spațiul indivizilor
• Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu vectorial FRp denumit
spaţiul indivizilor.
• Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de greutate al norului
• Metrica folosită pentru definirea distanţei dintre doi indivizi este M = D1/s2 unde D1/s 2 este matricea
diagonală a inverselor dispersiilor
• Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor punctelor față de
centrul de greutate
Analiza statistică multidimensională
3. Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
n
p2
D=
pi = 1
i=1
0 pn
• Produsul scalar a două variabile xj și xk este:
care este covarianța sjk dintre cele două variabile, dacă acestea sunt centrate
• Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Unghiul dintre două variabile centrate este: