Sunteți pe pagina 1din 20

Data mining in

retele de
socializare
Student: Turcu Andreea-Ionela

Facultatea de automatica si calculatoare , Universiateta Politehnica din


Bucuresti
Data mining- ce inseamna si unde
poate fi folosit acest proces
• La baza procesului de ,,data mining” stau 3 lucruri
esentiale: datele, informatiile si cunostintele.
• Data -> fapte, evenimente adunate pentru a putea fi
analizate
• Informatii -> Asocieri, relatii si legaturi intre datele
colectate.
• Cunostinte -> Produsul observarii si procesarii
informatiilor acumulate, aduc posibilitatea crearii unor
predictii in diferite domenii.
• Toate datele sunt stocate pentru prelucrare intr-un set de
date.
• Din acest set, sunt filtrate si gasite doar informatiile
folositoare si care sunt necunoscute la momentul
procesarii.
• Rolul pe care il are procesul de ,,data mining” este de a
extrage informatii dintr-un set de date si ale transforma
intr-o versiune mai usor de inteles
• Dupa transformare, acestea vor putea fi analizate si
cercetate pentru a stabili relatii si posibile modele in
anumite domenii.
Retele de socializare – ce sunt si
unde sunt folosite
• Retea de socializare= o structura sociala intre indivizi,
persone fizice sau organizatii, conectate prin interese
comune si care interactioneaza intre ei, contribuind la
raspandirea informatiilor.
• Analiza pe o retea sociala este concentratata pe relatia
dintre indivizii care fac parte din retea. Ea mapeaza si
verifica relatiile pentru a identifica ce faciliteaza si ce
impiedica transmiterea de informatii, cine distribuie
informatii si prin ce tipuri de canale media.
Tipuri de retele de socializare
• Blog-uri
• Forum-uri
• Aplicatii de tip email sau chat
• Aplicatii hybrid ( au atat continut de tip blog, informatia
este transmisa de catre individ catre public, dar si de tip
chat, mesajele si informatiile sunt transmise in privat,
doar pentru un anumit set de utilizatori)
• Pagini de stiri
Tehnici de data mining
Cele mai folosite tehnici de data mining in retele sociale si
de socializare sunt:
• Graph mining
• Text mining
Graph mining
• Grafurile sunt structuri de date ce reprezinta legaturi intre entitati si se
intalnesc in toate tipurile de informatie.
• Comunitatile corespund unor grupuri de noduri.
• Nodurile tin sa aiba multe preferinte si interese comune cu nodurile din
aceeasi comunitate, dar foarte putine cu nodurile din alte comunitati.
• Intr-un graf sunt aduse informatiile folositoare extrase dintr-un set de
date
• Este util atat in intelegerea legaturilor intre date, cat si pentru
claritatea continutului
Definitie matematica si metode de
detectare a modelelor
• Un graf G = (V,E)
• V - multime de varfuri
• E - multime de arce (graf orientat) sau muchii (graf neorientat)
• muchie: (vi,vj), vi,vj ∈ V
• Un subgraf este un graf format dintr-o submultime de varfuri si
o submultime de muchii ale grafului initial
• Nodurile retelei sunt oameni sau grupuri.
• Legaturile sunt reprezentate de relatiile sau fluxurile de
informatii ce se stabilesc sau circula intre acestia.
• Doua noduri sunt conectate daca comunica regulat intre
ele sau interactioneaza intr-un anumit fel.
• Fiecare nod poate avea legaturi externe retelei
identificate si poate face parte dintr-o alta retea
• Nodurile care au mai multe legaturi sunt cele mai bine
conectate in retea si au cel mai mare continut de
informatii
Exemple
• Providerul de telefonie mobile
poate urmari istoriul
convorbirilor unui abonat
• Diferite interogari ale unei
retele de socializare
-> locuri dintr-o tara straina care
merita vizitate
-> restaurante, locuri apreciate
de cunoscuti
Algoritmul Apriori de cautare in graf
• Apriori este un algoritm clasic pentru invatarea regulilor de asociere.
• Este proiectat sa functioneze pe baze de date care contin tranzactii (de exemplu, colectii
de articole cumparate de clienti sau detalii despre frecventarea unui site web)
1.Gaseste toate secventele frecvente:
• Alege articolele frecvente din seturile de date:
• Articolele care se gasesc in baza de un numar de ori mai mare sau egal cu pragul
minim de suport.
• Gaseste secventele frecvente:
• Genereaza candidati din articolele frecvente .
• Triaza rezultatul pentru a descoperi secventele frecvente.
2.Genereaza reguli de asociere puternice intre secventele de date frecvente
• Reguli care corespund atat pagului minim de suport, cat si pe cel al increderii.
Text mining
• Este o tehnologie care extrage informatii utile din date de
tip text nestructurate.
• O retea de socializare contine foarte multa informatie in
noduri, in diferite forme( ex: postari, articole, mesaje)
• Procesul este format din doua parti: colectarea datelor si
modelarea acestora
Descrierea procesului
• Modulul de colectare al datelor, aduna in continuu
informatii neprelucrate din una sau mai multe platforme
online, intr-o daza de date. In functie de aplicatie, se
apeleaza un serviciu API cu anumiti parametrii
• Modelarea informatiei este importanta pentru definirea si
analizarea cerintelor, pentru a suporta procesul urmat de
aplicatie
Exemplu:

• Crawler web – parcurge structura


html a unei pagini web si aduce din
metadate anumite informatii de
care utilizatorul are nevoie, in cazul
acesta titlurile si informatiile unor
job-uri postate pe site-ul web al
unui angajator
Metode de text mining

Analiza clusterelor -> o analiza


automata a unei cantitati foarte mari de
date pentru a extrage date necunoscute
anterior despre tipare
-> imparte datele in grupuri (clustere)
pe baza similaritatilor si a relatiilor dintre
ele
Exemplu: cautarea utilizatorilor care au
preferinte comune si construirea sugestiilor
Detectia anomaliilor-> cautarea unor articole sau evenimente care nu apartin
unui tipar
-> complementara gruparii in clustere
-> folosita in principal pentru detectarea comportamentelor neobisnuite, pentru
securitate.

Exemplu:
• In cazul unei incercari de autentificare nereusita, se trimit informatii catre
utilizator cu privire la aceasta incercare care nu este considerata parte din tiparul
obisnuit.
Concluzii despre analiza informatiilor
din retele de socializare
• Retele de socializare sunt o mare si bogata sursa de date prin
milioanele de utilizatori si cantitatea de continut.
• Daca analiza este corecta, relatiile si fluxul de cunostinte in diferite
domenii pot fi monitorizate si evaluate pentru a obtine
performante.
 Creste eficienta canalelor de comunicatie
 Depisteaza scurgerile de informatii si blocajele
 Sporesc procesul de inovare si invatare
 Redefineste strategii de business
Va multumesc!

Intrebari?
Bibliografie
• https://www.slideshare.net/Krish_ver2/55-graph-mining
• https://www.slideshare.net/lmsasu/curs-7-data-mining
• http://staff.fmi.uvt.ro/~daniela.zaharie/dm2018/RO/Curs/c
urs1/dm2018_curs1.pdf
• https://www.slideshare.net/akash_mishra/data-mining-in-s
ocial-network

S-ar putea să vă placă și