2 Evaluacion

Parte III
Evaluacin de sistemas de IR
Almacenamiento y recuperacin de
informacin en la Web
Evaluacin de la
recuperacin
Objetivo: evaluar la funcionalidad y eficiencia
de un sistema de IR
Medidas usuales de evaluacin:
Tiempo de respuesta
Espacio utilizado
Evaluacin de la eficiencia de recuperacin basada
en
Colecciones prueba (TIPSTER/TREC, CACM, CISI,)
Diferentes medidas de evaluacin
Recall y Precision
MAP, etc.
Medidas de evaluacin
recall y precision
El usuario desea realizar una solicitud de
informacin sobre una coleccin de docs
Sean
R: docs relevantes
A: docs respuesta
Coleccin
|R|
Ra
Recall=
R
|A|
Ra
Precision=
A
Ra Card ( A R )
Evolucin recuperacin precisin

Ejemplo
Suponemos las siguiente tabla de docs recuperados
orden
orden
d123
orden
d9
11
d38
Rq d 3 , d 56 , d129 documentos relevantes

--A d123 A 1
d84
d511
12
d48
Recall
0
0
0 Precision 0
3
1
---
d56
d129
13
d250
A d123 , d 84 A 2
Recall
4
5
d6
d8
9
10
d187
d25
14
15
d113
d3
0
0
0 Precision 0
3
2
--A d123 , d 84 , d 56 A 3
Recall
1
1
0,33% Precision 0,33%
3
3
Evolucin recuperacin precisin

Ejemplo
Doc
|A|
|Ra|
|R|
Recall
Precision
33,3
33,3
33,3
25
33,3
20
33,3
16,6
33,3
14,2
66,6
25
66,6
22,2
10
10
66,6
20
11
11
66,6
18,1
12
12
66,6
16,6
13
13
66,6
15,3
14
14
66,6
14,2
15
15
100
20
Evolucin recuperacin - precisin

Para la representacin de las curvas recallprecision generalmente se emplean 11 niveles
de recuperacin
120
100
Precision
80
60
40
20
0
0
20
40
60
80
Recall
100
120
Consideraciones generales sobre las

medidas r y P
En colecciones grandes no es posible
disponer de un conocimiento detallado de
los docs.
Considerar la combinacin de ambas
medidas (r y P).
Las medidas de r y P son para queries
procesadas en modo batch. Para sistemas
de IR interactivos son ms convenientes
medidas que cuantifiquen la bondad del
proceso.
Medida de Precisin
promedio
Desde el punto de vista de
las medidas de evaluacin,
los algoritmos de
recuperacin (search
engines) evalan diferentes
queries para evaluar su
eficacia.
Una forma habitual de
evaluar un algoritmo
consiste en promediar las
distintas precisiones
obtenidas para cada query
en cada nivel de
recuperacin.
1
P( r )
Nq
Nq
P (r)
i 1
P(r )
Precision media al nivel r de recuperacion
Pi (r )
Precision al nivel r para la i-esima q
Nq
N de qs utilizadas
Interpolacin de la Precisin
Promedio
Para representar la evolucin de la
precisin promedio se efecta una
interpolacin de las precisiones en
cada nivel de recuperacin
P( r ) max P( r )
rj r rj 1
rj 0,1, 2,K ,10
Interpolacin de la Precisin
Promedio
Ejemplo
Rq={d3,d56,d129}
Aq={d123,d84,d56,d6,d8,d9,d511,d129,d187,d25,d38,d48,d250,d113,d3}
R=33%, P=33%
R=66%, P=25%
R=100%, P=20%
P (rj ) max P (r )
r j r r j 1
rj 0,1, 2,K ,10

Ej r5 recall (50%)
120
100
Precision
80
60
40
33
33
33
20
33
25
25
25
20
20
20
20
0
0
20
40
60
80
100
Recall
Precision interpolada para 11 niveles de recall para Rq
120
Medida de Precisin Promedio

en n
Otra medida usual es el clculo de la
precisin promedio tras n documentos
relevantes recuperados (p. ej. 5, 10, 20, 30,
50, 100)
Se calcula la media de las precisiones
obtenidas hasta el nivel de corte
Este sistema favorece a los buscadores que
recuperan los documentos relevantes rpido
Ej: si al nivel 5 tenemos unas medidas de
precisin de 1, 0.66, 0.5, 0.4, 0.3
AvP@5 = (1+.66+.5+.4+.3)/5 = 0.572
Medida de R-Precision
La idea es generar un valor resumen del
ranking mediante la precisin en la
posicin R-sima del ranking, siendo R el n
total de docs relevantes para una query
Para Rq={d3, d5,d9,d25,d39,d44,d56,d71, d89,d123}
la 10-Precision es: 0.4 (4 docs relevantes en los 10
primeros)
Para Rq={d3,d56,d129}
la 3-Precision es: 0.33 (1 doc relevantes en los 3
primeros)
Es til para comprobar el comportamiento

de un algoritmo frente a cada tem
Histogramas de R-Precisin
RPA / B (i ) RPA (i ) RPB (i )
1.5
1
R -Precision A /B
Las medidas de R-Precisin

se pueden usar para
comparar el comportamiento
de dos algoritmos de forma
grfica a lo largo de
diferentes bsquedas.
Search Engines: A y B
Numero de queries: 10
0.5
0
-0.5
-1
-1.5
RPA / B (i ) 0 A f B
RPA / B (i ) 0 A B
RPA / B (i ) 0 A p B
Q uery N um baer
10
Comparacin de algoritmos
IR
100
90
80
Precision
70
60
50
40
30
20
10
0
0
20
40
60
80
100
120
Recall
Curvas recall-precision para dos search engines diferentes
Discounted Cumulative Gain

(DCG)
Medida de la efectividad de un buscador
Mide la ganancia de un documento basada en su
posicin en la lista de documentos de un ranking
Hiptesis
Los documentos ms relevantes son ms tiles si aparecen
en las primeras posiciones del ranking. Su relevancia se
debe penalizar proporcionalmente a su posicin con el
logaritmo de su posicin en el ranking
Los documentos ms relevantes son ms tiles que los
parcialmente relevantes y estos, a su vez, ms que los no
relevantes
Se basa en la medida CG (p posicin en el ranking -)
p
CG p reli
i 1
DCG (II)
DCG para una posicin p en el ranking
p
reli
DCG p rel1
i 2 log 2 i
2reli 1
DCG p
i 1 log 2 (1 i )
p
nDCG representa la medida DCG normalizada para consultas sucesivas.

Para poder calcularla se supone conocida la distribucin ideal, no siempre
posible.
nDCG p
DCG p
IDCG p
[0,1]
DCG (III)
Ejemplo:
Clculo de la DCG para p=6
Suponemos un usuario que
valora la lista de docs: D 1, D2,
D3, D4, D5, D6 que son el
resultado de una consulta q
Los documentos se valoran
en una escala 0 a 3
0: no relevante
1,2: en cierto grado
relevante
3: completamente relevante
Resultado:
3, 2, 3, 0, 1, 2
reli
Logi
reli/Lo
gi
---
---
1.59
1.887
2.32
0.431
2.59
0.772
CG6 reli 3 2 3 0 1 2 11
i 1
DCG (y IV)
6
DCG6 rel1
i2
reli
3 (2 1.887 0 0.431 0.772) 8.09
log 2 i
Supuesto un orden ideal (montono decreciente): 3,3,2,2,1,0

6
IDCG6 rel1
i2
reli
8.693
log 2 i
Ahora podemos calcular el nDCG para la consulta inicial
nDCG6
DCG6
8.09
0.9306
nDCG6 8.693
Medidas alternativas, I
Media armnica
Combina r y P
F=0 no se recuperan docs
relevantes
F=1 todos los docs
recuperados son relevantes
r y P altas F alta
F j =
F [0,1]
1
1
r(j) P(j)
r ( j ) recuperacion j-esimo doc
P j
F j
precision j-esimo doc

recuperacion j-esimo doc
Medidas alternativas, II
Medida E (de evaluacin)E j =1-
1+b 2
b2
1
r(j) P(j)
r ( j ) recuperacion j-esimo doc
Combina r y P
b=1 E(j)=1-F(j)
b>1
P j precision j-esimo doc
usuario interesado en P
F j recuperacion j-esimo doc
b<1
b
parametro definido por el usuario
usuario interesado en r
Medidas alternativas, III

(orientadas al usuario)
Pretenden tener en cuenta las diferencias existentes entre
usuarios interesados por un doc
Contexto
C: Coleccin de docs de referencia
I: Ejemplo de solicitud de info
R: Conjunto relevante de docs para I
A: Conjunto recuperado
U: Subconjunto de R conocido por el usuario
|U| = Card(U)
AU: docs conocidos por el usuario relevantes y recuperados

|Rk| = Card(AU)
|Ru|
n de docs relevantes desconocidos por el usuario que fueron
recuperados
Medidas alternativas, IV
|R|
|U|
|A|
|Rk|
|Ru|
Medidas alternativas, V
Alcance
Fraccin de los docs conocidos relevantes recuperados
RK
alcance=
U
Novedad
Fraccin de los docs desconocidos relevantes recuperados
novedad=
RU
RU RK
Medidas alternativas, VI
Recuperacin relativa
Cociente entre el n de docs relevantes encontrados y el
n de docs relevantes que el usuario esperaba encontrar
Si encuentra tantos como esperaba --> RR=1
Esfuerzo de recuperacin
Cociente entre el n de docs relevantes que el usuario
esperaba encontrar y el n de docs examinados con el fin
de cubrir el n anterior
Colecciones, I
TIPSTER/TREC
TREC Text Retrieval Conference (1990)
Dedicada a experimentacin con colecciones
grandes (1.000.000 docs)
Coleccin TREC: 6 CDs 1Gb cada uno
Docs de: WSJ, AP, FT, etc.
http://trec.nist.gov/
TREC, descripcin
Disk
1
4
5
6
Contents
Size (MB)
WSJ, 1987-1989
AP, 1989
ZIFF
FR, 1989
DOE
267
254
242
260
184
WSJ, 1990-1992
AP, 1988
ZIFF
FR, 1988
SJMN, 1991
AP, 1990
ZIFF
PAT, 1993
FT, 1991-1994
FR, 1994
CR, 1993
FBIS
LAT
FBIS
242
237
175
209
287
237
345
243
564
395
235
470
475
490
Number Docs Words/Doc

(median)
98,732
245
84,678
446
75,180
200
25,960
391
226,087
111
74,520
79,919
56,920
19,860
90,257
78,321
161,021
6,711
210,158
55,630
27,922
130,471
131,896
120,653
301
438
182
396
379
451
122
4,445
316
588
288
322
351
348
Words/Doc
(mean)
434.0
473.9
473.0
1315.9
120.4
508.4
468.7
451.9
1378.1
453.0
478.4
295.4
5391.0
412.7
644.7
1373.5
543.6
526.5
581.3
Colecciones, II
CACM
3204 artculos de Communications of the ACM (19581979)
Campos
Autores, fecha edicin, palabras clave (reducidas a su raz
gramatical) de ttulo y abstract, referencias entre
artculos, bibliografa, etc.
Incluye un conjunto de 52 solicitudes de informacin.

Ej: Qu artculos hay que traten de TSS (Time
Sharing System), sistema operativo de ordenadores
IBM
El n medio de docs relevantes para cada I es pequeo, en
torno a 15.
Colecciones, III
ISI (o CISI)
1460 docs escogidos del ISI (Institute of Scientific
Information)
Los docs escogidos se seleccionaron como los ms citados en
un estudio sobre citacin realizado por Small
Propsito general: facilitar la investigacin sobre similaridades
basadas en trminos y patrones de referencias cruzadas
Campos
Autores, palabras clave (reducidas a su raz gramatical) de ttulo y
abstract y n de cocitaciones para cada par de artculos
Incluye un conjunto de 35 solicitudes de informacin en LN y

qs booleanas y 41 slo en LN.
El n medio de docs relevantes para cada I es grande, en torno a
50.
Calidad de los resultados

Se pueden aplicar los criterios de medida de la
IR clsica a la web?
En IR clsica las medidas usadas son:
Precisin: % de pginas recuperadas que son
relevantes
Recuperacin: % de pginas relevantes que son
recuperadas
En web IR:
El trmino relevante se liga al de calidad
Una pgina es valorable si es una pgina de calidad
para el objeto de la bsqueda
Precisin: nmero de pginas valorables recuperadas

2 Evaluacion

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

2 Evaluacion

Încărcat de

Drepturi de autor:

Formate disponibile

Parte III

Evolucin recuperacin precisin

Rq d 3 , d 56 , d129 documentos relevantes

Evolucin recuperacin precisin

Evolucin recuperacin - precisin

Consideraciones generales sobre las

Precision media al nivel r de recuperacion

Precision al nivel r para la i-esima q

rj 0,1, 2,K ,10

rj 0,1, 2,K ,10

Precision interpolada para 11 niveles de recall para Rq

Medida de Precisin Promedio

Es til para comprobar el comportamiento

RPA / B (i ) RPA (i ) RPB (i )

Las medidas de R-Precisin

Curvas recall-precision para dos search engines diferentes

Discounted Cumulative Gain

nDCG representa la medida DCG normalizada para consultas sucesivas.

Supuesto un orden ideal (montono decreciente): 3,3,2,2,1,0

Ahora podemos calcular el nDCG para la consulta inicial

precision j-esimo doc

Medidas alternativas, III

AU: docs conocidos por el usuario relevantes y recuperados

Number Docs Words/Doc

Incluye un conjunto de 52 solicitudes de informacin.

Incluye un conjunto de 35 solicitudes de informacin en LN y

Calidad de los resultados

S-ar putea să vă placă și