Sunteți pe pagina 1din 4

Universidad Catlica Boliviana La Paz

Maestra en Gestin de Sistemas de Informacin


Minera de Datos
Dra. Alicia Prez Abelleira

Proyecto Final: predecir enfermedades usando datos


genticos de microarrays
Esta gua ha sido adaptada del curso de Gregory Piatetsky-Shapiro disponible en KDnuggets.

Lea bien el enunciado antes de comenzar. En esta primera pgina est la tarea a realizar y la forma de
evaluarla. El resto son pistas y pasos a seguir. Ud. deber entregar un informe como se indica en esta
primera pgina.

Datos

Los datos genticos estn en el formato genes por filas, separados por comas. Tome el archivo
datos_proyecto_final.zip y extraiga tres archivos:

pp5i_train.gfila.csv (datos de entrenamiento, 1.7 MB)


pp5i_train_class.txt (clases de los datos de entrenamiento)
pp5i_test.gfila.csv (datos de prueba, 0.6MB)

Instrucciones

Datos de entrenamiento: archivo pp5i_train.gfila.csv, con 7070 genes (sin controles de Affy) para
69 muestras. En un archivo separado pp5i_train_class.txt estn las clases para cada muestra, en el
mismo orden que tienen las muestras en pp5i_train.gfila.csv. Hay 5 clases, con etiquetas EPD, JPA,
MED, MGL, RHB.

Datos de prueba: archivo pp5i_test.gfila.csv, con 23 muestras sin etiquetar y los mismos genes.
Puede asumir que tiene una distribucin de clases similar.

Tarea:
aprender el mejor modelo para los datos de entrenamiento
usarlo para predecir la etiqueta (clase) de cada muestra del conjunto de prueba.
Escribir un informe describiendo el trabajo realizado.

Mediante experimentos aleatorios se vio que pueden obtenerse 10-12 respuestas correctas (de las 23
muestras que hay en el conjunto de prueba) simplemente lanzando una moneda al aire (es decir,
cualquier modelo con una tasa de error mayor que 50% es realmente malo).

La nota final se obtendr combinando el esfuerzo (40%), la presentacin (30%), y la precisin del
modelo medida como 3*(Nmero de respuestas correctas - 11). La nota mxima es 106.

A continuacin se sugieren pasos para hacer este experimento, pero pueden ser modificados o
mejorados, siempre y cuando el resultado sea una prediccin para el conjunto de prueba y se
describan los resultados.
Pistas importantes

Asegrese de no usar el nmero de muestra como atributo predictor. Los datos de entrenamiento
estn ordenados por clase, por lo que el nmero de muestra puede parecer un buen predictor en los
datos de entrenamiento, pero no funcionar en los de prueba.

Una de las muestras de tipo MED ha sido etiquetada seguramente de forma errnea (por una
persona). Por tanto, al hacer validacin cruzada el mejor resultado que puede esperarse es un error
(en una muestra MED). Sin embargo, esto no debera afectar la prediccin en el conjunto de prueba
(donde todas las etiquetas, que ud no conoce, son correctas).

Puede terminar el proyecto con pasos sencillos, pero si utiliza pasos ms sofisticados seguramente
obtendr mayor precisin.

A continuacin se sugieren una serie de pasos como una manera de encontrar el mejor modelo, pero
puede modificarlos si lo desea y lo cree oportuno.

Paso 1. Limpieza y preparacin de los datos

Deber transponer los datos del conjunto de entrenamiento y asegurarse de que los nombres de los
atributos son asignados correctamente. A los datos debe aadirles las etiquetas de clase que estn en
el archivo pp5i_train_class.txt. Puede hacerlo con el operador Join de RapidMiner. Otros operadores
que tal vez le sean tiles son:

Rename by Example
Set Role
Guess types
Generate ID

Puede tener dificultades si ud guarda el conjunto de datos en un archivo y despus trata de leerlo en
el Paso 2. (Guardar el resultado del Paso 2 no ser problema porque el nmero de atributos queda
muy reducido). Una forma de evitar este problema es colocar el paso 2 en el mismo proceso del paso
1. Sugiero que coloque las etapas del Paso 1 en un SUBPROCESO (operador Subprocess) de
RapidMiner. Puede llamar al subproceso Lee conjunto de prueba.

Paso 2. Seleccionar los mejores genes por clase

Una forma sencilla de seleccionar los mejores genes por clase es dar pesos a los atributos (por
ejemplo, mediante el clculo de 2 como hizo en un prctico anterior).
Para cada valor de N=,4,6,8,10,12,15,20,25,30 seleccione los N mejores atributos. Guarde
cada resultado (los datos con solo esos N atributos ms la clase Class y el id SNO) en un
archivo pp5i_train.Nmejores.gfila.csv. Obviamente tendr un archivo para cada valor de N.
Tenga en cuenta que debe seleccionar los mismos N mejores atributos en el conjunto de
prueba para usarlo posteriormente. Sugiero que lo haga en este mismo paso generando los
correspondientes archivos pp5i_test.Nmejores.gfila.csv. (Recuerde cmo hizo esto mismo en
un prctico anterior.)

En este momento podra tener un proceso con este esquema, que aplicara para cada valor de
N:

2
Paso 3. Encontrar la combinacin de mejor clasificador/mejor conjunto de genes

Use los siguientes clasificadores de RapidMiner:

Naive Bayes
rboles de decisin (C4.5)
Vecino ms prximo KNN (para valores K=1,2, 3, 4)
Otro clasificador de RapidMiner a su eleccin - que pueda trabajar con datos multiclase.

a. Para cada clasificador, use los valores de parmetros por defecto, mida la precisin del clasificador
(accuracy) en el conjunto de entrenamiento con validacin cruzada usando los archivos generados
anteriormente con los N=2,4,6,8,10,12,15,20,25,30 primeros genes. Para KNN, vea la precisin para
K=1,2,3 y 4. Construya una tabla que muestre la precisin para cada algoritmo (filas de la tabla) y
conjunto de datos (columnas de la tabla).

Accuracy N=2 N=4 N=6 N=8


Arbol de decisin
Naive Bayes
KNN con K=1
KNN con K=2

b. Seleccione el modelo y conjunto de genes con el menor error por validacin cruzada.
Opcional: una vez que encuentre el conjunto de genes con el menor error por validacin cruzada,
puede modificar 1-2 parmetros relevantes del clasificador para ver si disminuye el error. Por
ejemplo, para los rboles de decisin puede variar la forma en que se hace la poda.

Paso 4. Generar predicciones para el conjunto de prueba

Ahora debera tener:

el mejor conjunto de entrenamiento (sea el archivo pp5i_train.Nmejores.gfila.csv, con 69


muestras, y siendo Nmejores el nmero de genes para el mejor N que encontr.
el conjunto de prueba correspondiente, pp5i_test.Nmejores.gfila.csv, con los mismos genes y
23 muestras de prueba.

El archivo de entrenamiento debe tener todos los valores de clase de las muestras, mientras que el de
prueba no los tiene.

3
a. Use el mejor conjunto de entrenamiento y el correspondiente de prueba para generar las
predicciones de la clase para el conjunto de prueba.

Algunos operadores que pueden resultarle tiles son Guess types, Set Role, y Apply Model.

En la perspectiva de resultados, en Data View puede ver el valor del atributo Class asignado
(predicho) a cada una de las 23 instancias por el modelo. Copie y pegue los resultados en una tabla
(debe tener 23 filas y 2 columnas: el nmero de muestra SON y el valor de Clase).

Paso 5. Escribir un informe describiendo su esfuerzo

Documente cada paso.


Para cada clasificador utilizado, descrbalo en un prrafo.
Muestre con un grfico la relacin entre la tasa de error y el nmero de genes.
Incluya la tabla con la precisin de cada uno de los clasificadores y cada conjunto de
atributos.
Indique qu clasificador y qu nmero de genes ha seleccionado.
Incluya la tabla con sus predicciones de Clase para los datos de prueba (23 instancias).

S-ar putea să vă placă și