Documente Academic
Documente Profesional
Documente Cultură
În cadrul acestui set de date sunt descrise 85.855 de observații, acestea fiind
mostre preluate din baza de date de filme. Descrierea observațiilor se face cu
ajutorul a 14 variabile după cum urmează:
Metoda Ward
Prima metodă este folosită pentru a grupa filmele în trei clusteri diferiți.
Metoda are ca scop găsirea celor mai bune filme. Prin cele mai bune filme se
înțeleg acele filme care au media filmelor cea mai mare, cel mai ridicat numar
de voturi si cel mai mare numar de review-uri de la utilizatori.
Observăm că prima valoare de la Eigenvalue (0.01927103) este mai mare decat celelalte,drept
urmare avem corelație destul de puternică intre toate cele 3 variabile.
Din Cluster History observăm că primele filme, cele mai apropiate(asemanatoare) din
punctul de vedere al variabilelor studiate sunt The Devil`s Needle cu Sappho, urmate de The
Studio Murder Mystery împreună cu Vertigine. La baza arborelui avem 85.855.
În tabelul 2, observăm că la linia 85.843, adica la imparțirea în 85.843 de clusteri numai
avem filme asemanatoare, ci CL85844 (format din Tom Sawyer și The Silk Express) vor fi mai
asemănătoare cu Luci nel cuore decat Passione di principe cu Keep 'Em Rolling care se grupează la
pasul 85.842.
Tabelul 2
Sursă: Realizat de autor în SAS
Tabelul 3
Sursă: Realizat de autor în SAS
Din tabelul 3, uitându-ne la ultimele 5 linii din Cluster History, afirmăm că Semipartial R-
quare, pierderea de omogenitate care se produce prin gruparea CL8 cu CL14 este de 0.0374, fiind
foarte mică. Observăm totuși că aceasta valoare crește, pe ultima linie avand 0.3837 la gruparea CL2
cu CL6, aici se pierde astfel mai mult din omogenitate.
La imparțirea în 3 grupe observ că R-square este 0.604 (>0.5), drept urmare am diferențe mari
între clusteri și astfel decid că este cel mai bine să împarțim filmele în 3 clusteri.
În continuare, vom folosi metoda K-means Clustering pentru a determina care dintre
variabilele analizate incluse (media voturilor, număr voturi, review utilizatori) are cea mai mare influența
asupra grupelor.
Tabelul 4
Sursă: Realizat de autor în SAS
Din tabelul 4 Statistics for Variables reiese că variabila care influențează cel mai mult
gruparea pe clustere este REVIEW-URI DE LA UTILIZATORI, R-Square>0.7. Prin interpretarea R-
Square putem să măsurăm cât de diferite sunt cele 3 clustere analizate. În analiză întră și
variabila MEDIA VOTURILOR, deoarece R-Square>0.5, însă variabila NUMAR VOTURI nu va intra în
analiză deoarece R-Square=0,007909<0.5.
Tabelul 5
Sursă: Realizat de autor în SAS
● Filmele cu un număr mare de voturi, o medie mare și o notă mai mică din partea
utilizatorilor
● Filmele cu un număr mediu în ceea ce priveste media voturilor si numărul de voturi,
dar cea mai mare notă din partea utilizatorilor
● Filmele cu un număr scăzut de voturi și o medie mică, dar are o recenzie mai bună din
partea utilizatorilor decât prima categorie
Cea de-a doua metodă este folosită pentru a realiza din variabilele existente noi
componente ce vor fi utilizate pentru vizualizarea datelor într-un spațiu de dimensiune redusă.
Analiza în componente principale este utilizată pentru a găsi cel mai micnumăr de
componente ce sintetizează cea mai mare cantitate de informație.
Primul pas este standardizarea datelor, deoarece nu avem aceeași scală de măsurare
(unitate de măsură). Si vom lucra astfel cu noile variabile standardizate in Analiza
Componentelor Principale.
Tabelul 7
Sursă: Realizat de autor în SAS
Tabelul 8
Sursă: Realizat de autor în SAS
Pentru a decide dacă prin Analiza în Componente Principale vom obtine rezultatebune,
va fi analizat în primul rand tabelul corelațiilor, numărul 8.
Constatăm că, între variabilele analizate, slab corelate sunt, de exemplu variabilele
Review-uri de la utilizatori cu Durata sau Review-urile de la Critici cu Media Voturilor.
Mediu corelate sunt de exemplu, Durata cu Media Voturilor.
Tabelul 9
Sursă: Realizat de autor în SAS
De asemenea prima componentă explică 29% din variabilitate, a doua 22% și s.a.m.d.
Dacă am înlocui cele 5 variabile doar cu primele două, am păstra 51,91% din varibilitate. Dacă
ne dorim ca aceste rezultate sa le includem intr-o analiza de regresie, voi pastra 4 din 5
componente, deoarece astfel voi pastra peste 80% din informatie. Daca însă, vreau să îmi
formez o primă impresie, imi este de ajuns să merg doar cu primele 2 variabile, păstrând 51%
din informatie.
Tabelul 10
Sursă: Realizat de autor în SAS
Graficul 11
Sursă: Realizat de autor în SAS
Din graficul 11 putem deduce următoarele:
o Review-urile de la Critici determină ambele componente, având aproape de 0.6 pe
ambele axe.
o Review-urile de la utilizatori vor determina Componenta 2, având peste 0.6 pe axa Oyși
sub 0.4 pe axa Ox, deci nu vor determina Componenta 1.
o Numărul de voturi va determina Componenta 1, având aproape 0.8 pe axa Ox și nu va
determina Componenta 2, având valoarea aproape de 0 pe axa Oy.
o Durata și Media Voturilor sunt corelate între ele în sens pozitiv. Iar Review-urile de la
utilizatori si critici sunt invers corelate cu Durata și Media Voturilor.
Graficul 12
Sursă: Realizat de autor în SAS
Graficul 15
Sursă: Realizat de autor în SAS
Analiza discriminantă
În final, vom aplica metoda aleasă, „Stepwise”, pentru analiza discriminantă, ceea ce
înseamnă că toate variabilele sunt introduse în analiză, cele nesemnificative fiind eliminate,
iar nivelul de semnificație ales este de 0,05.
Tabelul 18
Sursă: Realizat de autor în SAS
Tabelul 19
Sursă: Realizat de autor în SAS
In Stepwise Selection Summary, tabelul 19, se regăsesc cele patru variabile, 3 dintre
ele fiind semnificative pentru analiza de față. Aceste variabile sunt enumerate în ordinea
importanței lor în cadrul modelului: review-uri de la critici, numar voturi , review-uri de la
utilizatori.
Tabelul 20
Sursă: Realizat de autor în SAS
În tabelul 20 putem observa privind frecvența absolută și cea relativă a celor două
categorii posibile din aceasta baza de date. Pentru varianta de răspuns „nepremiat”
(reprezentând „statusul nepremiat-filmul nu a fost premiat”), în setul de date, se regăsesc
42.658 de filme, procentual 49.68% din totalul filmelor analizate, iar pentru categoria “premiat”
(reprezentând „statusul premiat-filmul a fost premiat”), în setul de date, se regăsesc
43.197 de filme, procentual 50.31% din totalul filmelor.
Tabelul 21
Sursă: Realizat de autor în SAS
Din tabelul 21 se poate vedea cum influențează variabilele păstrate în analiză încadrarea unei
observații în categoriile “nepremiat ” si “premiat”. Variabilele ce influențează pozitiv această
încadrare sunt număr voturi si review-uri de la critici.
Tabelul 22
Sursă: Realizat de autor în SAS
Se extrag din tabelul 22 “Linear Discriminant Function for Status” ecuațiile pentru cele două
variante de răspuns, urmând ca observația să fie clasificată în functie de valoarea cea mai
mare ce reiese după calculul acestor ecuații.
Concluzii
Din metodele aplicate pe parcursul proiectului au fost extrase următoarele concluzii:
Din aplicarea Metodei Ward am observat că la imparțirea în 3 grupe R-square este 0.604
(>0.5), drept urmare am diferențe mari între clusteri și decid astfel că este cel mai bine să
împarțim filmele în 3 clusteri.