Sunteți pe pagina 1din 35

Information Retrieval

căutarea (regăsirea) informației


поиск информации
IR: Implementarea
preprocesarea documentelor
1. Tokenization
împărțirea în cuvinte
Opriți-vă copiii până-n 12 ani
Opriți-vă , până-n - un cuvînt sau două?

 Rowan dă exemplu jocul Grand Theft Auto V 


impărțim Grand Theft Auto V în cuvinte?

Potrivit Ministerului Dezvoltării Regionale și


Construcțiilor, ...  - impărțim?

http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html
IR: Implementarea
preprocesarea documentelor
2. Normalizarea
convertăm tot textul in litere mici
Ce facem cu abrevieri?

Viorel Bostan este noul rector al UTM


viorel
bostan
utm
IR: Implementarea
preprocesarea documentelor
2. Normalizarea
ce facem cu diacritice?
Caut informația despre pește

caut
informatia
despre
peste

măi – mai, român – roman, în - in


IR: Implementarea
preprocesarea documentelor
2. Normalizarea
ce facem cu cifre?

U.S.,  3/12/91 
U.S.,  Mar. 12, 1991.
  Europa, 3 Dec 1991
IR: Implementarea
preprocesarea documentelor
2. Normalizarea
stemming

work
worked work
working
worker ???
IR: Implementarea
preprocesarea documentelor
2. Normalizarea
lemmatization

lucra lucrat
lucrai lucrată
lucram lucrate
lucrară lucrați lucra
lucrarăm lucrau
lucrarăți lucră
lucrași lucrăm
IR: Implementarea
ce facem cu ambiguitatea cuvintelor?

nouă

Lucrarea aceasta este nouă

Lucrarea aceasta este a noua

Lucrarea aceasta ne pare nouă comlicată


IR: Implementarea
ce facem cu ambiguitatea cuvintelor?

Exemplu din google translate:

Деталь оказалась браком

Piesa a devenit căsătorită


IR: Implementarea
ce facem cu ambiguitatea cuvintelor?
From Wikipedia, the free encyclopedia

Washington commonly refers to:

1. George Washington (1732–1799), first president of the United States


2. Washington (state), United States
3. Washington, D.C., the capital of the United States
4. Washington (name), including a list of people with the given name or
surname Washington

Washington may also refer to:

5. The Washington metropolitan area


6. A metonym for the Federal government of
the United States
IR: Implementarea
IR: stocarea datelor
IR: Implementarea
IR: stocarea datelor

• 2.7 Zetabytes of data exist in the digital universe today.


• Facebook stores, accesses, and analyzes 30+ Petabytes of user
generated data.
• 571 new websites are created every minute of the day.
• 2008 Google was processing 20,000 terabytes of data (20 petabytes) a
day.
• Decoding the human genome originally took 10 years to process; now
it can be achieved in one week. 

http://wikibon.org/blog/big-data-statistics/
IR: stocarea datelor
Inverted index (inverted file)
d1 d2 d3 d4 d5 d6 d7

Antony - > d1 d2 d6
Brutus - > d1 d2 d4
Caesar - > d1 d2 d4 d5 d6
Calpurnia - >
Cleopatra - >
mercy - >
worser - >
IR: stocarea datelor Document
Inverted index (inverted file) ID

d1 d2 d3 d4 d5 d6 d7

Antony - > d1 d2 d6
Brutus - > d1 d2 d4
Lexicon
Caesar - > d1 d2 d4 d5 d6 Inverted
Dictionar
Calpurnia - > index lists
Vocabular
Cleopatra - >
mercy - >
worser - >
IR: stocarea datelor
Inverted index (inverted file)

http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html
Search Engines Optimization
Optimizare pentru motoare de căutare
Поиско́вая оптимиза́ция

• Un proces de
favorizare a vizibilității
site-urilor web sau
paginilor web în
cadrul ordonării
rezultatelor căutării în
lista făcută de
motorul de căutare

http://tools.seobook.com/general/keyword-density/
Search Engines Optimization
Optimizare pentru motoare de căutare
Поиско́вая оптимиза́ция

Se spune că Google are


peste 300 de factori în
componența algoritmului
de afișare a rezultatelor
însă nici o companie ce
dezvoltă motoarele de
căutare nu dezvăluie
algoritmele sale de
indexare a paginilor web.
Search Engines Optimization
SEO
Optimizare pentru motoare de căutare
On-site SEO*
optimizarea elementelor paginilor - meta data, titlul paginii, contentului,
etc.

Off-site SEO*
optimizarea elementelor în afară paginilor – link-uri ce vin pe pagină,
social media, etc.

Google Webmaster Tools

http://www.webdesignstuff.co.uk/fc103 /
IR Theory and Practice
Text Retrieval Conferinte Content classification,
categorisation, clustering
TREC Web and Social Media
European Conference on IR
Blog and online-
Information Retrieval  community search,
ERIC User aspects
User modelling, user
studies, user interaction
IR system
architectures
Crawling and indexing
Compression,
optimisation
Content representation
and processing
Reasoning for IR
Opinion mining,
sentiment analysis,
Cross-language retrieval,
multilingual retrieval
Evaluation
Multimedia and cross-
IR: Evaluarea

Precision – Recall –
rata celor rata celor
relevante în cele selectate în cele
selectate relevante

F-measure = 2PR/(P+R)
Sentiment analysis
analiza sentimentelor
http://sentistrength.wlv.ac.uk/
Sentiment analysis
analiza sentimentelor
https://www.csc.ncsu.edu/faculty/healey/tweet_viz/tweet_app/
SMILE tool
• http://intime.dlsi.ua.es:8080/Smile/pages/
Sentiment analysis
analiza sentimentelor
http://blog.datumbox.com/how-to-build-your-own-twitter-sentiment-analysis-tool/
In order to build the Sentiment Analysis tool we will
need 2 things:
1) connect on Twitter and search for tweets that
contain a particular keyword.
2) evaluate the polarity (positive, negative or neutral)
of the tweets based on their words.
For the first task we will use the Twitter REST API 1.1v
and for the second the Datumbox API 1.0v.
You can find the complete PHP code of the 
Twitter Sentiment Analysis tool on Github.

In order to detect the Sentiment of the tweets we used our Machine Learning
framework to build a classifier capable of detecting Positive, Negative and
Neutral tweets. Our training set consisted of 1.2 million tweets evenly
distributed across the 3 categories.
Semantic search
Căutarea semantică are scopul să
îmbunătățească relevanța
rezultatelor prin înțelegerea
intenției utilizatorului și
semnificația contextuală a
termenilor întroduși analizînd
Pașii spre căutarea semantică apariția lor în spațiu de date
Sistemul semantic trebuie să poată: căutate.
1- procesa forme morfologice ale
cuvintelor
2- găsi sinonimele
3- generaliza
4- găsi conceptele similare
5- găsi cunoștințele corespunzătoare
6- procesa întrebări în limbaj natural
Graful de cunoștințe
Ontologii
Raţionament (inferența)
• Bărcile pot tranversa
mici curgeri de apă 
• Cayac este o barcă

• Cayac a tranversat o
curgere de apă

• Păsării pot zbura


• Pinguin poate zbura
• Pinguin este o pasăre
Multilingual search

S-ar putea să vă placă și