Sunteți pe pagina 1din 25

SEMINARIO:

Aplicaciones en Procesamiento de Lenguaje Natural

Metodologa para descubrir depredadores sexuales a partir del estudio de textos cortos

1. Introduccin 2. Trabajo en el rea 3. Deteccin de depredadores sexuales 1. Metodologa 2. Corpora 4. Experimentos iniciales 1. Clasificacin y agrupamiento 2. Caractersticas utilizadas 3. Resultados 5. Conclusiones

Motivacin y objetivos
Tarea Autorship Attribution en el marco de la Conferencia Internacional PAN 2012 Lab Uncovering Plagiarism, Authorship and Social Misuse

Desarrollo del internet

Masificacin de redes sociales (Texto cortos)

Propuestas indecorosas (Depredadores Sexuales)

OBJETIVO: Desarrollar modelos para detectar a partir de conversaciones cortas la presencia de depredadores sexuales 3

1. Introduccin 2. Trabajo en el rea 3. Deteccin de depredadores sexuales 1. Metodologa 2. Corpora 4. Experimentos iniciales 1. Clasificacin y agrupamiento 2. Caractersticas utilizadas 3. Resultados 5. Conclusiones

Propuestas PAN 2012


Filtrado de conversaciones Trigramas de palabras Dos clasificadores (por conversaciones y por usuarios) SVM y redes neuronales Sistema LIWC para extraccin de caractersticas Bigramas y trigramas (se eliminan los que tienen aparicin menor a 40) Mquinas de soporte vectorial

Bolsa de palabras con unigramas y bigramas Caractersticas lxicas y de comportamiento SVM

Uso del sistema ChatCoder2.0 rboles de decisin y reglas de asociacin Etiquetamiento Manual

PAN 2012 Lab Uncovering Plagiarism, Authorship and Social Misuse


Recuperad o 204 186 181 159 Relevante s 200 183 170 154 Precisio n 0.9804 0.9839 0.9392 0.9686

Participante villatorotello-run-2012-06152157g snider12-run-2012-06-16-0032 parapar12-run-2012-06-15-0959j morris12-run-2012-06-16-0752main

Recall 0.7874 0.7205 0.6693 0.6063

Rank 1 2 3 4

vilarino12-run-2012-06-14-2121b 5225 98 0.0188 0.3858 15

1. Introduccin 2. Trabajo en el rea 3. Deteccin de depredadores sexuales 1. Metodologa 2. Corpora 4. Experimentos iniciales 1. Clasificacin y agrupamiento 2. Caractersticas utilizadas 3. Resultados 5. Conclusiones

Qu es un depredador sexual?
Una persona o grupo de personas que explotan sin piedad a los dems (New Oxford American Dictionary). Se le conoce as a una persona condenada por un delito sexual contra un menor de edad, sin importar la naturaleza del crimen, y sin tener en cuenta el comportamiento en el pasado (Ley del
estado de Illinois, U.S.A).

Concepto s

Tipos

Aquellos que buscan un encuentro cara a cara con los nios. Aquellos que se contentan con obtener y comerciar imgenes de pornografa infantil.

Metodologa

Corpora
Conjunto de conversaciones Training Perverted Justice
Vocabulario Conversaciones de depredadores Conversaciones de no depredadores Usuarios por conversacin Conversaciones por usuario DATOS Training 317,455.00 2,353.00 64,884.00 2.28 1.62 481.00 97,807.00 17.24 568.30 108.85 Test 624,755.00 3,715.00 151,413.00 2.29 1.56 250.00 218,431.00 13.23 532.24 96.16

Training PAN 2012 Test Test PAN 2012

Depredadores No depredadores Lneas Longitud Palabras

10

1. Introduccin 2. Trabajo en el rea 3. Deteccin de depredadores sexuales 1. Metodologa 2. Corpora 4. Experimentos iniciales 1. Clasificacin y agrupamiento 2. Caractersticas utilizadas 3. Resultados 5. Conclusiones

11

Clasificacin y Agrupamiento
rbol de decisin-Bosque Aleatorio Redes neuronales Nave Bayes Nave Bayes Multinomial Mquinas de soporte vectorial (SVM)

Clasificacin

Agrupamiento

Nearest Neighbor (K-NN) Agrupamiento por densidad

12

Caractersticas utilizadas
Conjunto 1: Caractersticas lxicas
Palabras que inician con mayscula
URLs Emoticones Palabras con maysculas Palabras truncadas Contracciones Nmeros Conjunto 2: N-gramas de palabras Unigramas de palabras

;
, : . ! ? Total de signos Conjunto 3: N-gramas de caracteres Unigramas de caracteres

Bigramas de palabras
Trigramas de palabras Cuatrigramas de palabras Quintigramas de palabras

Bigramas de caracteres
Trigramas de caracteres Cuatrigramas de caracteres Quintigramas de caracteres

13

Caractersticas utilizadas
Conjunto 4: Uso de TreeTagger Conjunciones de coordinacin Palabras extranjeras Adjetivos comparativos Modales Nombres propios singulares Pronombres posesivos

Nmeros cardinales
Preposiciones Adjetivos superlativos Sustantivos singulares Nombres propios plurales Adverbios

Determinantes
Adjetivos Participios Sustantivos plurales Pronombres personales Adverbios comparativos Verbos en su forma base

Adverbios superlativos Verbos en pasado


Verbos ser en presente to

Smbolos Verbos en pasado participio


Verbos ser en 3ra persona Wh-pronombres posesivos

Verbos en presente
Wh-determinadores wh-adverbios

14

Experimentos a realizar
Clasificacin con los 6 algoritmos supervisados utilizando los conjuntos de caractersticas por separado Clasificacin utilizando la unin de los conjuntos de caractersticas Reduccin del training resultados y clasificacin para comparacin de

Experimentacin con cambio de parmetros para las redes neuronales


Agrupamiento utilizando k-nn y basado en densidad

15

Medidas de evaluacin
Relevant e Recuperada TP No relevante FP

No recuperada

FN

TN

Precision: Fraccin de los datos positivos que son relevantes.

Recall: Fraccin de los datos relevantes que son positivos.

F-Score: Media armnica entre estas dos medidas

16

Para los conjuntos por separado


Clasificador TP FP FN TN P R F-score Conjunto 1 Bosque Aleatorio 1247 1561 2468 149852
0.4440

0.335 6

0.3823

Conjunto 2 Bosque Aleatorio Redes Neuronales 463 322 1492 206 3252 149921 3393 151207 0.236 8
0.6098

0.124 6 0.086 6

0.1633 0.1517

Conjunto 3 rbol de decisin Redes Neuronales 155 366 97 230 3560 151316 3349 151183
0.6150

0.041 7

0.0781 0.1697

0.614 0

0.098 5

Conjunto 4
0.250

17

Unin de conjuntos
Clasificador TP FP FN TN P R F-score Conjuntos 2 y 3 rbol de decisin Redes Neuronales 418 306 243 62 3297 151170 0.632 3 0.1125
0.8315

0.1910 0.1498

3409 151382

0.082 3

Conjuntos 1, 2 y 3 Redes Neuronales Bosque Aleatorio 1014 1183 680 1262 2701 150733 2532 150151
0.5985

0.272 9 0.318 4

0.3749 0.3840

0.483 8

Conjuntos 1, 2, 3 y 4 Bosque Aleatorio 1097 551 2619 150862


0.6656

0.295 2

0.4090

18

Reduccin del Training


Conversaciones: Positivas: 921 Negativas: 11,842
0.36 0.22 Conjunto 2 y 3 0.83 0.63 0.62 rbol de decisin Bosque Aleatorio Completo Reducido Redes Neuronales

Conjunto 1, 2 y 3

0.74 0.60 0.48 0.42

0.50
0.40

0.56

Todos los conjuntos

0.67 0.55 0.34 0.36 0.26 0.18

rbol de decisin

Bosque Aleatorio
Completo

Redes Neuronales

Reducido rbol de decisin Bosque Aleatorio Completo Redes Neuronales

Reducido

19

Cambio de parmetros (Redes neuronales)


Pruebas para una y dos capas ocultas Para los conjuntos 1, 2 y 3 (24 atributos) 0.74 Neuronas= 0.70 a: (Atributos + clases)/2. t: Atributos + clases. i: Atributos. o: Clases. 0.75 0.65 0.54 0.61 0.66 0.59

Una

Dos

20

Agrupamiento

Para k-NN (k=2)

Para agrupamiento por densidad

21

1. Introduccin 2. Trabajo en el rea 3. Deteccin de depredadores sexuales 1. Metodologa 2. Corpora 4. Experimentos iniciales 1. Clasificacin y agrupamiento 2. Caractersticas utilizadas 3. Resultados 5. Conclusiones

22

En este periodo se logr

Anlisis del estado del arte sobre deteccin automtica de depredadores sexuales, atribucin de autora y anlisis de textos cortos. Anlisis de las propuestas presentadas en la conferencia PAN 2012. Preprocesamiento y anlisis del corpora existente. Creacin de diccionarios de trminos que se usan en chats, con su correspondiente significado. Extraccin de caractersticas del corpus disponible. Experimentos con clasificacin supervisada y no supervisada con las caractersticas extradas.

23

Cronograma de actividades
ACTIVIDAD SEP 2012 OCT NOV DIC ENE FEB 2013 MAR ABR MAY JUN JUL AGO

Anlisis manual del corpus PAN 2012 y Perverted Justice

Experimentos iniciales para tratar los dos corpus disponibles


Anlisis de propuestas presentadas en la Conferencia Internacional PAN 2012 Desarrollo de un recurso lxico para trminos sexuales Desarrollo de algoritmos para la extraccin de las caractersticas del corpus Desarrollo de modelos de categorizacin. Pruebas de los modelos usando los corpora del PAN 2012 y Perverted Justice Comparacin de los resultados obtenidos. Escritura del documento de tesis

24

GRACIAS !

25

S-ar putea să vă placă și