Documente Academic
Documente Profesional
Documente Cultură
Lea bien el enunciado antes de comenzar. En esta primera pgina est la tarea a realizar y la forma de
evaluarla. El resto son pistas y pasos a seguir. Ud. deber entregar un informe como se indica en esta
primera pgina.
Datos
Los datos genticos estn en el formato genes por filas, separados por comas. Tome el archivo
datos_proyecto_final.zip y extraiga tres archivos:
Instrucciones
Datos de entrenamiento: archivo pp5i_train.gfila.csv, con 7070 genes (sin controles de Affy) para
69 muestras. En un archivo separado pp5i_train_class.txt estn las clases para cada muestra, en el
mismo orden que tienen las muestras en pp5i_train.gfila.csv. Hay 5 clases, con etiquetas EPD, JPA,
MED, MGL, RHB.
Datos de prueba: archivo pp5i_test.gfila.csv, con 23 muestras sin etiquetar y los mismos genes.
Puede asumir que tiene una distribucin de clases similar.
Tarea:
aprender el mejor modelo para los datos de entrenamiento
usarlo para predecir la etiqueta (clase) de cada muestra del conjunto de prueba.
Escribir un informe describiendo el trabajo realizado.
Mediante experimentos aleatorios se vio que pueden obtenerse 10-12 respuestas correctas (de las 23
muestras que hay en el conjunto de prueba) simplemente lanzando una moneda al aire (es decir,
cualquier modelo con una tasa de error mayor que 50% es realmente malo).
La nota final se obtendr combinando el esfuerzo (40%), la presentacin (30%), y la precisin del
modelo medida como 3*(Nmero de respuestas correctas - 11). La nota mxima es 106.
A continuacin se sugieren pasos para hacer este experimento, pero pueden ser modificados o
mejorados, siempre y cuando el resultado sea una prediccin para el conjunto de prueba y se
describan los resultados.
Pistas importantes
Asegrese de no usar el nmero de muestra como atributo predictor. Los datos de entrenamiento
estn ordenados por clase, por lo que el nmero de muestra puede parecer un buen predictor en los
datos de entrenamiento, pero no funcionar en los de prueba.
Una de las muestras de tipo MED ha sido etiquetada seguramente de forma errnea (por una
persona). Por tanto, al hacer validacin cruzada el mejor resultado que puede esperarse es un error
(en una muestra MED). Sin embargo, esto no debera afectar la prediccin en el conjunto de prueba
(donde todas las etiquetas, que ud no conoce, son correctas).
Puede terminar el proyecto con pasos sencillos, pero si utiliza pasos ms sofisticados seguramente
obtendr mayor precisin.
A continuacin se sugieren una serie de pasos como una manera de encontrar el mejor modelo, pero
puede modificarlos si lo desea y lo cree oportuno.
Deber transponer los datos del conjunto de entrenamiento y asegurarse de que los nombres de los
atributos son asignados correctamente. A los datos debe aadirles las etiquetas de clase que estn en
el archivo pp5i_train_class.txt. Puede hacerlo con el operador Join de RapidMiner. Otros operadores
que tal vez le sean tiles son:
Rename by Example
Set Role
Guess types
Generate ID
Puede tener dificultades si ud guarda el conjunto de datos en un archivo y despus trata de leerlo en
el Paso 2. (Guardar el resultado del Paso 2 no ser problema porque el nmero de atributos queda
muy reducido). Una forma de evitar este problema es colocar el paso 2 en el mismo proceso del paso
1. Sugiero que coloque las etapas del Paso 1 en un SUBPROCESO (operador Subprocess) de
RapidMiner. Puede llamar al subproceso Lee conjunto de prueba.
Una forma sencilla de seleccionar los mejores genes por clase es dar pesos a los atributos (por
ejemplo, mediante el clculo de 2 como hizo en un prctico anterior).
Para cada valor de N=,4,6,8,10,12,15,20,25,30 seleccione los N mejores atributos. Guarde
cada resultado (los datos con solo esos N atributos ms la clase Class y el id SNO) en un
archivo pp5i_train.Nmejores.gfila.csv. Obviamente tendr un archivo para cada valor de N.
Tenga en cuenta que debe seleccionar los mismos N mejores atributos en el conjunto de
prueba para usarlo posteriormente. Sugiero que lo haga en este mismo paso generando los
correspondientes archivos pp5i_test.Nmejores.gfila.csv. (Recuerde cmo hizo esto mismo en
un prctico anterior.)
En este momento podra tener un proceso con este esquema, que aplicara para cada valor de
N:
2
Paso 3. Encontrar la combinacin de mejor clasificador/mejor conjunto de genes
Naive Bayes
rboles de decisin (C4.5)
Vecino ms prximo KNN (para valores K=1,2, 3, 4)
Otro clasificador de RapidMiner a su eleccin - que pueda trabajar con datos multiclase.
a. Para cada clasificador, use los valores de parmetros por defecto, mida la precisin del clasificador
(accuracy) en el conjunto de entrenamiento con validacin cruzada usando los archivos generados
anteriormente con los N=2,4,6,8,10,12,15,20,25,30 primeros genes. Para KNN, vea la precisin para
K=1,2,3 y 4. Construya una tabla que muestre la precisin para cada algoritmo (filas de la tabla) y
conjunto de datos (columnas de la tabla).
b. Seleccione el modelo y conjunto de genes con el menor error por validacin cruzada.
Opcional: una vez que encuentre el conjunto de genes con el menor error por validacin cruzada,
puede modificar 1-2 parmetros relevantes del clasificador para ver si disminuye el error. Por
ejemplo, para los rboles de decisin puede variar la forma en que se hace la poda.
El archivo de entrenamiento debe tener todos los valores de clase de las muestras, mientras que el de
prueba no los tiene.
3
a. Use el mejor conjunto de entrenamiento y el correspondiente de prueba para generar las
predicciones de la clase para el conjunto de prueba.
Algunos operadores que pueden resultarle tiles son Guess types, Set Role, y Apply Model.
En la perspectiva de resultados, en Data View puede ver el valor del atributo Class asignado
(predicho) a cada una de las 23 instancias por el modelo. Copie y pegue los resultados en una tabla
(debe tener 23 filas y 2 columnas: el nmero de muestra SON y el valor de Clase).