Documente Academic
Documente Profesional
Documente Cultură
Metodologa para descubrir depredadores sexuales a partir del estudio de textos cortos
1. Introduccin 2. Trabajo en el rea 3. Deteccin de depredadores sexuales 1. Metodologa 2. Corpora 4. Experimentos iniciales 1. Clasificacin y agrupamiento 2. Caractersticas utilizadas 3. Resultados 5. Conclusiones
Motivacin y objetivos
Tarea Autorship Attribution en el marco de la Conferencia Internacional PAN 2012 Lab Uncovering Plagiarism, Authorship and Social Misuse
OBJETIVO: Desarrollar modelos para detectar a partir de conversaciones cortas la presencia de depredadores sexuales 3
1. Introduccin 2. Trabajo en el rea 3. Deteccin de depredadores sexuales 1. Metodologa 2. Corpora 4. Experimentos iniciales 1. Clasificacin y agrupamiento 2. Caractersticas utilizadas 3. Resultados 5. Conclusiones
Uso del sistema ChatCoder2.0 rboles de decisin y reglas de asociacin Etiquetamiento Manual
Rank 1 2 3 4
1. Introduccin 2. Trabajo en el rea 3. Deteccin de depredadores sexuales 1. Metodologa 2. Corpora 4. Experimentos iniciales 1. Clasificacin y agrupamiento 2. Caractersticas utilizadas 3. Resultados 5. Conclusiones
Qu es un depredador sexual?
Una persona o grupo de personas que explotan sin piedad a los dems (New Oxford American Dictionary). Se le conoce as a una persona condenada por un delito sexual contra un menor de edad, sin importar la naturaleza del crimen, y sin tener en cuenta el comportamiento en el pasado (Ley del
estado de Illinois, U.S.A).
Concepto s
Tipos
Aquellos que buscan un encuentro cara a cara con los nios. Aquellos que se contentan con obtener y comerciar imgenes de pornografa infantil.
Metodologa
Corpora
Conjunto de conversaciones Training Perverted Justice
Vocabulario Conversaciones de depredadores Conversaciones de no depredadores Usuarios por conversacin Conversaciones por usuario DATOS Training 317,455.00 2,353.00 64,884.00 2.28 1.62 481.00 97,807.00 17.24 568.30 108.85 Test 624,755.00 3,715.00 151,413.00 2.29 1.56 250.00 218,431.00 13.23 532.24 96.16
10
1. Introduccin 2. Trabajo en el rea 3. Deteccin de depredadores sexuales 1. Metodologa 2. Corpora 4. Experimentos iniciales 1. Clasificacin y agrupamiento 2. Caractersticas utilizadas 3. Resultados 5. Conclusiones
11
Clasificacin y Agrupamiento
rbol de decisin-Bosque Aleatorio Redes neuronales Nave Bayes Nave Bayes Multinomial Mquinas de soporte vectorial (SVM)
Clasificacin
Agrupamiento
12
Caractersticas utilizadas
Conjunto 1: Caractersticas lxicas
Palabras que inician con mayscula
URLs Emoticones Palabras con maysculas Palabras truncadas Contracciones Nmeros Conjunto 2: N-gramas de palabras Unigramas de palabras
;
, : . ! ? Total de signos Conjunto 3: N-gramas de caracteres Unigramas de caracteres
Bigramas de palabras
Trigramas de palabras Cuatrigramas de palabras Quintigramas de palabras
Bigramas de caracteres
Trigramas de caracteres Cuatrigramas de caracteres Quintigramas de caracteres
13
Caractersticas utilizadas
Conjunto 4: Uso de TreeTagger Conjunciones de coordinacin Palabras extranjeras Adjetivos comparativos Modales Nombres propios singulares Pronombres posesivos
Nmeros cardinales
Preposiciones Adjetivos superlativos Sustantivos singulares Nombres propios plurales Adverbios
Determinantes
Adjetivos Participios Sustantivos plurales Pronombres personales Adverbios comparativos Verbos en su forma base
Verbos en presente
Wh-determinadores wh-adverbios
14
Experimentos a realizar
Clasificacin con los 6 algoritmos supervisados utilizando los conjuntos de caractersticas por separado Clasificacin utilizando la unin de los conjuntos de caractersticas Reduccin del training resultados y clasificacin para comparacin de
15
Medidas de evaluacin
Relevant e Recuperada TP No relevante FP
No recuperada
FN
TN
16
0.335 6
0.3823
Conjunto 2 Bosque Aleatorio Redes Neuronales 463 322 1492 206 3252 149921 3393 151207 0.236 8
0.6098
0.124 6 0.086 6
0.1633 0.1517
Conjunto 3 rbol de decisin Redes Neuronales 155 366 97 230 3560 151316 3349 151183
0.6150
0.041 7
0.0781 0.1697
0.614 0
0.098 5
Conjunto 4
0.250
17
Unin de conjuntos
Clasificador TP FP FN TN P R F-score Conjuntos 2 y 3 rbol de decisin Redes Neuronales 418 306 243 62 3297 151170 0.632 3 0.1125
0.8315
0.1910 0.1498
3409 151382
0.082 3
Conjuntos 1, 2 y 3 Redes Neuronales Bosque Aleatorio 1014 1183 680 1262 2701 150733 2532 150151
0.5985
0.272 9 0.318 4
0.3749 0.3840
0.483 8
0.295 2
0.4090
18
Conjunto 1, 2 y 3
0.50
0.40
0.56
rbol de decisin
Bosque Aleatorio
Completo
Redes Neuronales
Reducido
19
Una
Dos
20
Agrupamiento
21
1. Introduccin 2. Trabajo en el rea 3. Deteccin de depredadores sexuales 1. Metodologa 2. Corpora 4. Experimentos iniciales 1. Clasificacin y agrupamiento 2. Caractersticas utilizadas 3. Resultados 5. Conclusiones
22
Anlisis del estado del arte sobre deteccin automtica de depredadores sexuales, atribucin de autora y anlisis de textos cortos. Anlisis de las propuestas presentadas en la conferencia PAN 2012. Preprocesamiento y anlisis del corpora existente. Creacin de diccionarios de trminos que se usan en chats, con su correspondiente significado. Extraccin de caractersticas del corpus disponible. Experimentos con clasificacin supervisada y no supervisada con las caractersticas extradas.
23
Cronograma de actividades
ACTIVIDAD SEP 2012 OCT NOV DIC ENE FEB 2013 MAR ABR MAY JUN JUL AGO
24
GRACIAS !
25