Sunteți pe pagina 1din 17

Academia de Studii Economice București

Facultatea de Cibernetică, Statistică și Informatică Economică

Analiza statistică multidimensională asupra filmelor de


pe IMDb

Profesor coordonator: Proiect realizat de:


Prof. Univ. Dr. Boboc Cristina-Rodica Florea Stefania -1094
Sandu Cosmin -1096
Oancea Erik -1096
Cuprins

1. Introducerea și descrierea datelor


2. Aplicarea metodelor pentru rezolvarea problematicilor enunţate
în introducere
3. Concluzii
Introducerea și descrierea datelor

Printre multe alte moduri placute de a ne petrece timpul liber se afla si


vizionarea filmelor de diferite genuri și categorii, iar din acest motiv, ne-am
propus să aflam care sunt factorii ce influențează alegerea unui film precum și
să descoperim noi filme pe care le putem urmări în viitor.

Astfel, scopul nostru este de a observa o diversitate de factori și


caracteristici a acestora pentru a realiza o analiză completă asupra tuturor
filmelor.

Proiectul realizat are ca temă analiza multidimensională a filmelor și


caracteristicilor acestora, de pe site-ul IMDb, repartizându-le în funcție de
review-uri, rating, durata, an etc. .

Obiectivele propuse sunt de a grupa eșantionul din baza de date de filme,


de a vizualiza datele într-un spațiu de dimensiune redusă, formând componente
noi și de a realiza un model de clasificare pentru unitățile din cadrul eșantionului.

Baza de date utilizată pentru realizarea acestei analize a fost preluat de pe


site-ul Kaggle.com, de la adresa:
https://www.kaggle.com/coad07/filmeimdb

În cadrul acestui set de date sunt descrise 85.855 de observații, acestea fiind
mostre preluate din baza de date de filme. Descrierea observațiilor se face cu
ajutorul a 14 variabile după cum urmează:

▪ Titlul filmului – titlul original al filmului


▪ Anul – Anul aparitiei
▪ Genul filmului – din ce categorie face parte filmul (Romantic, Drama,
Crima, ș.a.m.d.)
▪ Durata –durata în numărul de minute a filmului
▪ Țara de proveniență – țara în care a fost realizat filmul
▪ Limba – limba în care a fost creat
▪ Director – directorul acestuia
▪ Producția – compania de producție
▪ Media voturilor – Media voturilor oferite fiecărui film pe o scară de la 1la
10
▪ Număr voturi- Numărul de voturi primite pentru fiecare film
▪ Buget – suma necesară realizării filmului
▪ Review-uri de la Utilizatori – Numărul de review-uri primite din partea
utilizatorilor
▪ Review-uri de la Critici - Numărul de review-uri primite din partea
criticilor
▪ Status – Dacă filmul a fost premiat sau nu

Toate prelucrările prezentate sunt garantate cu o probabilitate de 95% și vor fi


realizate în programul SAS Studio.

Analiza multidimensională a filmelor de pe IMDb

Metoda Ward

Prima metodă este folosită pentru a grupa filmele în trei clusteri diferiți.
Metoda are ca scop găsirea celor mai bune filme. Prin cele mai bune filme se
înțeleg acele filme care au media filmelor cea mai mare, cel mai ridicat numar
de voturi si cel mai mare numar de review-uri de la utilizatori.

Construirea celor trei clusteri va fi realizată cu ajutorul a trei variabile


(media voturilor, numar voturi, review utilizatori), iar metoda folosită este
Metoda Ward.
Tabelul 1
Sursă: Realizat de autor în SAS

Observăm că prima valoare de la Eigenvalue (0.01927103) este mai mare decat celelalte,drept
urmare avem corelație destul de puternică intre toate cele 3 variabile.

Din Cluster History observăm că primele filme, cele mai apropiate(asemanatoare) din
punctul de vedere al variabilelor studiate sunt The Devil`s Needle cu Sappho, urmate de The
Studio Murder Mystery împreună cu Vertigine. La baza arborelui avem 85.855.
În tabelul 2, observăm că la linia 85.843, adica la imparțirea în 85.843 de clusteri numai
avem filme asemanatoare, ci CL85844 (format din Tom Sawyer și The Silk Express) vor fi mai
asemănătoare cu Luci nel cuore decat Passione di principe cu Keep 'Em Rolling care se grupează la
pasul 85.842.

Tabelul 2
Sursă: Realizat de autor în SAS

Tabelul 3
Sursă: Realizat de autor în SAS

Din tabelul 3, uitându-ne la ultimele 5 linii din Cluster History, afirmăm că Semipartial R-
quare, pierderea de omogenitate care se produce prin gruparea CL8 cu CL14 este de 0.0374, fiind
foarte mică. Observăm totuși că aceasta valoare crește, pe ultima linie avand 0.3837 la gruparea CL2
cu CL6, aici se pierde astfel mai mult din omogenitate.
La imparțirea în 3 grupe observ că R-square este 0.604 (>0.5), drept urmare am diferențe mari
între clusteri și astfel decid că este cel mai bine să împarțim filmele în 3 clusteri.

Metoda K-means Clustering

În continuare, vom folosi metoda K-means Clustering pentru a determina care dintre
variabilele analizate incluse (media voturilor, număr voturi, review utilizatori) are cea mai mare influența
asupra grupelor.

Tabelul 4
Sursă: Realizat de autor în SAS

Din tabelul 4 Statistics for Variables reiese că variabila care influențează cel mai mult
gruparea pe clustere este REVIEW-URI DE LA UTILIZATORI, R-Square>0.7. Prin interpretarea R-
Square putem să măsurăm cât de diferite sunt cele 3 clustere analizate. În analiză întră și
variabila MEDIA VOTURILOR, deoarece R-Square>0.5, însă variabila NUMAR VOTURI nu va intra în
analiză deoarece R-Square=0,007909<0.5.

Tabelul 5
Sursă: Realizat de autor în SAS

În tabelul 5 vom observa împărțirea observațiilor în fiecare dintre cele 3 clustere (


Clusterul 1-25937, Clusterul 2-52892, Clusterul 3-7026).
Tabelul 6
Sursă: Realizat de autor în SAS

În continuare, vom observa că în clusterul 2 se regăsesc filmele care au valori mai


mari pentru fiecare dintre variabilele care intră în analiză, exceptând Review-urile de la
utilizatori deoarece este o variabila mai mică decât în celelalte clustere. În clusterul 1 putem
afirma că se găsesc cele mai mici valori.

Astfel, putem concluziona că putem împărți filmele în 3 categorii și anume:

● Filmele cu un număr mare de voturi, o medie mare și o notă mai mică din partea
utilizatorilor
● Filmele cu un număr mediu în ceea ce priveste media voturilor si numărul de voturi,
dar cea mai mare notă din partea utilizatorilor
● Filmele cu un număr scăzut de voturi și o medie mică, dar are o recenzie mai bună din
partea utilizatorilor decât prima categorie

Analiza în componente principale

Cea de-a doua metodă este folosită pentru a realiza din variabilele existente noi
componente ce vor fi utilizate pentru vizualizarea datelor într-un spațiu de dimensiune redusă.
Analiza în componente principale este utilizată pentru a găsi cel mai micnumăr de
componente ce sintetizează cea mai mare cantitate de informație.

Primul pas este standardizarea datelor, deoarece nu avem aceeași scală de măsurare
(unitate de măsură). Si vom lucra astfel cu noile variabile standardizate in Analiza
Componentelor Principale.
Tabelul 7
Sursă: Realizat de autor în SAS

Tabelul 8
Sursă: Realizat de autor în SAS

Pentru a decide dacă prin Analiza în Componente Principale vom obtine rezultatebune,
va fi analizat în primul rand tabelul corelațiilor, numărul 8.

Constatăm că, între variabilele analizate, slab corelate sunt, de exemplu variabilele
Review-uri de la utilizatori cu Durata sau Review-urile de la Critici cu Media Voturilor.
Mediu corelate sunt de exemplu, Durata cu Media Voturilor.

Astfel, având în vedere că nu predomină variabilele cel putin mediu corelate, nu


putem reduce numărul de variabile prin metoda aleasă, însă Analiza Componentelor
Principale ne-a ajutat sa interpretăm legăturile dintre variabilele analizate.

Tabelul 9
Sursă: Realizat de autor în SAS

Din tabelul 9, se poate observa că primele doua componente au peste 1, respectiv


1.46819971 și 1.12710622, ceea ce înseamnă că prima componentă creată înlocuiește
aproximativ 1.48 variabile, următoarea 1.12, scăzând semnificativ pentru urmatoarele.

De asemenea prima componentă explică 29% din variabilitate, a doua 22% și s.a.m.d.
Dacă am înlocui cele 5 variabile doar cu primele două, am păstra 51,91% din varibilitate. Dacă
ne dorim ca aceste rezultate sa le includem intr-o analiza de regresie, voi pastra 4 din 5
componente, deoarece astfel voi pastra peste 80% din informatie. Daca însă, vreau să îmi
formez o primă impresie, imi este de ajuns să merg doar cu primele 2 variabile, păstrând 51%
din informatie.

Tabelul 10
Sursă: Realizat de autor în SAS

Tabelul 10 arată vectorii proprii construiți. Prin1,2,3,4,5 care sunt complet


independente între ele, vor descrie noile componente create. Prin1 va fi determinată de
Numărul de voturi, Media Voturilor, de Durată, de Review-urile de la Critici și în final de
Review-urile de la utilizatori. Prin2 va fi determinat în sens pozitiv de Review-urile de la
Utilizatori, iar în sens negativ de Media Voturilor.

Graficele aferente Component Pattern prezintă modul de formare al axelor și


variabilele ce au ajutat la formarea acestora, iar în graficele nori de puncte sunt reprezentate
într-un spațiu de dimensiune redusă, fiind utilizate primele două componente pentru a fi
realizată vizualizarea.

Graficul 11
Sursă: Realizat de autor în SAS
Din graficul 11 putem deduce următoarele:
o Review-urile de la Critici determină ambele componente, având aproape de 0.6 pe
ambele axe.
o Review-urile de la utilizatori vor determina Componenta 2, având peste 0.6 pe axa Oyși
sub 0.4 pe axa Ox, deci nu vor determina Componenta 1.
o Numărul de voturi va determina Componenta 1, având aproape 0.8 pe axa Ox și nu va
determina Componenta 2, având valoarea aproape de 0 pe axa Oy.
o Durata și Media Voturilor sunt corelate între ele în sens pozitiv. Iar Review-urile de la
utilizatori si critici sunt invers corelate cu Durata și Media Voturilor.

Graficul 12
Sursă: Realizat de autor în SAS

Din graficul 12 putem deduce următoarele:


o Indivizii observații 38.039 si 85.058 care pentru axa 2 a Componentei 2 sunt in partea
negativă vor avea valori foarte mici pentru variabila care îmi determină această axa 2,
respectiv Review-urile de la Critici și de la Utilizatori.
o Pe de altă parte, indivizii 82240 si 73866 sunt în partea pozitivă a axei Componentei 2,
drept urmare vor avea valori mari pentru Review-urile de la Critici si de la Utilizatori.
Graficul 13
Sursă: Realizat de autor în SAS

Din graficul 13 putem deduce următoarele:


o Review-urile de la Utilizatori determină Componenta 2, avand aproape de 0.6 pe axaOy,
dar nu va determina Componenta 1 avand sub 0.4 pe axa Ox.
o Durata si Numarul de Voturi sunt invers corelate.
o Media Voturilor va determina Componenta 1, avand peste 0,6 pe axa Ox, dar nu va
determina componenta 3 avand aproape de 0 pe axa Oy.
Graficul 14
Sursă: Realizat de autor în SAS

Din graficul 14 putem deduce următoarele:


o Indivizii din partea negativă a axei Oy pentru Componenta 3, precum 28454, 48079vor
avea valori foarte mici pentru variabilele care determină această axă, mai precis
pentru Review-urile de la Utilizatori.
o Pe de cealalta parte, aceiasi indivizi vor avea valori foarte mari pentru variabilele care
determină axa Ox pentru Componenta 1, mai exact pentru Numarul de Voturi.

Graficul 15
Sursă: Realizat de autor în SAS

Din graficul 15 putem deduce următoarele:


o Review-urile de la Critici determină Componenta 2, avand aproape de 0.6 pe axa Ox,dar
nu va determina Componenta 3 avand sub 0 pe axa Oy.
Graficul 16
Sursă: Realizat de autor în SAS

Din graficul 16 putem deduce următoarele:


o Indivizii din partea negativa a axei Oy pentru Componenta 3, precum 48079, 57470vor
avea valori foarte mici pentru variabilele care determina aceasta axa, mai precis
pentru Review-urile de la Utilizatori.
o Pe de cealaltă parte, aceiasi indivizi vor avea valori foarte mari pentru variabilele care
determină axa Ox pentru Componenta 2, mai exact pentru Review-urile de la Critici.
Graficul 17
Sursă: Realizat de autor în SAS

Din graficul 17 putem deduce următoarele:


• Indivizii care apar cu rosu inseamnă ca au valori pentru componenta 1, care descrie
Media voturilor. Componenta 2, data de review-urile din partea Criticilor se regăseșteîn
indivizii cu albastru deschis.

Analiza discriminantă

În final, vom aplica metoda aleasă, „Stepwise”, pentru analiza discriminantă, ceea ce
înseamnă că toate variabilele sunt introduse în analiză, cele nesemnificative fiind eliminate,
iar nivelul de semnificație ales este de 0,05.

Analiza discriminantă va fi utilizată pentru a îndeplini această cerință și va avea ca scop


realizarea unui model ce va încadra filmele în cele două categorii ale variabilei „Status”.
Variabila status arată dacă filmul este premiat/ nepremiat.

Tabelul 18
Sursă: Realizat de autor în SAS

În tabelul 18, se pot observa caracteristicile metodei de selecție a variabilelor. Metoda


aleasă este „Stepwise”, ceea ce înseamnă că toate variabilele sunt introduse în analiza, cele
nesemnificative fiind eliminate, iar nivelul de semnificație ales este de 0,05.

Tabelul 19
Sursă: Realizat de autor în SAS
In Stepwise Selection Summary, tabelul 19, se regăsesc cele patru variabile, 3 dintre
ele fiind semnificative pentru analiza de față. Aceste variabile sunt enumerate în ordinea
importanței lor în cadrul modelului: review-uri de la critici, numar voturi , review-uri de la
utilizatori.

Tabelul 20
Sursă: Realizat de autor în SAS

În tabelul 20 putem observa privind frecvența absolută și cea relativă a celor două
categorii posibile din aceasta baza de date. Pentru varianta de răspuns „nepremiat”
(reprezentând „statusul nepremiat-filmul nu a fost premiat”), în setul de date, se regăsesc
42.658 de filme, procentual 49.68% din totalul filmelor analizate, iar pentru categoria “premiat”
(reprezentând „statusul premiat-filmul a fost premiat”), în setul de date, se regăsesc
43.197 de filme, procentual 50.31% din totalul filmelor.

Tabelul 21
Sursă: Realizat de autor în SAS

Din tabelul 21 se poate vedea cum influențează variabilele păstrate în analiză încadrarea unei
observații în categoriile “nepremiat ” si “premiat”. Variabilele ce influențează pozitiv această
încadrare sunt număr voturi si review-uri de la critici.
Tabelul 22
Sursă: Realizat de autor în SAS

Se extrag din tabelul 22 “Linear Discriminant Function for Status” ecuațiile pentru cele două
variante de răspuns, urmând ca observația să fie clasificată în functie de valoarea cea mai
mare ce reiese după calculul acestor ecuații.

Fnepremiat=-0.03036+1.14091*numar voturi+0.00134*review-uri de la critici


Fpremiat=-0.19331+3.19146*numar voturi+0.00334*review-uri de la critici

Concluzii
Din metodele aplicate pe parcursul proiectului au fost extrase următoarele concluzii:

Din aplicarea Metodei Ward am observat că la imparțirea în 3 grupe R-square este 0.604
(>0.5), drept urmare am diferențe mari între clusteri și decid astfel că este cel mai bine să
împarțim filmele în 3 clusteri.

K-means Clustering ne arată că putem împărți filmele în 3 categorii și anume:


-Filmele cu un număr mare de voturi, o medie mare și o notă mai mică din partea
utilizatorilor
-Filmele cu un număr mediu în ceea ce priveste media voturilor si numărul de voturi, dar
cea mai mare notă din partea utilizatorilor
-Filmele cu un număr scăzut de voturi și o medie mică, dar are o recenzie mai bună din
partea utilizatorilor decât prima categorie

Analiza în componente principale a arătat faptul că prima componentă explică 29%


din variabilitate, a doua 22%. Dacă am înlocui cele 5 variabile doar cu primele două,am
păstra 51,91% din varibilitate. Dacă ne dorim ca aceste rezultate sa le includem intr-o
analiza de regresie, voi pastra 4 din 5 componente, deoarece astfel voi pastra
peste 80% din informatie. Daca însă, vreau să îmi formez o primă impresie, imi estede
ajuns să merg doar cu primele 2 variabile, păstrând 51% din informatie

Metoda aleasă, „Stepwise” pentru analiza discriminantă, ne-a prezentat faptul că


pentru varianta de răspuns „nepremiat” (reprezentând „statusul nepremiat-filmul nu a
fost premiat”), în setul de date, se regăsesc 42.658 de filme, procentual 49.68% din
totalul filmelor analizate, iar pentru categoria “premiat” (reprezentând „statusul
premiat-filmul a fost premiat”), în setul de date, se regăsesc 43.197 de filme,
procentual 50.31% din totalul filmelor.

Mulțumim pentru atenție!

S-ar putea să vă placă și