Documente Academic
Documente Profesional
Documente Cultură
I) WEKA
Weka GUI: ventana para ambientes gráficos. En la parte inferior están estos tres botones:
- simple CLI: comando que permite directa ejecución de comandos Weka..
- Explorer: explorar datos con Weka.
- Experimenter: para realizar experimentos y conductas estadísticas (test) (existe un
tutorial específico para ello).
En cada tab cuando están activos se abrirán distintas pantallas donde se pueden realizar las
diferentes acciones.
La parte inferior de la ventana (from the log box downwords) se mantiene visible sin observar
en que selección se encuentra.
TIP
Haciendo click en botón derecho del Mouse, dentro del Status Box se genera un menú con
dos opciones:
- Available memory: despliega en el Log Box la cantidad de memoria disponible para
Weka.
- Run Garbage Collector: fuerza el colector de basura de JAVA para buscar la memoria
que no es usada para liberarla, permitiendo el uso de memoria para nuevas
operaciones (tasks)
Hay que destacar que el colector de basura, está corriendo constantemente igual como
“background task”.
WEKA STATUS ICON ( a la derecha del Status Box)
Bajo estas estadísticas existe una lista que muestra más información acerca de los valores
guardados en este atributo, que difieren dependiendo de su tipo.
Si el atributo es nominal, la lista consiste en cada valor posible para el atributo a lo largo del
número de instancias que tienen este valor.
Si el atributo es numérico, la lista muestra cuatro estadísticos que describen la distribución de
los valores en la data (min., máx., “mean”y desviación estándar)
Volviendo a la lista de atributos, para comenzar con todas los “tick boxes” están tickeados.
Pueden cambiarse on/off , haciendo click en ellos individualmente.
Los tres botones arriba pueden usarse para cambiar la selección también:
- All: todos los cuadros tickeados.
- None: ningún cuadro tickeado.
- Invert: los tickeados se vuelven no tickeados y viceversa.
NOTA: El “Attribute tick” es un filtro que es aplicado antes que cualquier otro filtro y a su
vez como cualquier filtro, cualquier cambio que se haga no tendrá efecto hasta que se haga
click en el botón “Apply Filters”.
En el botón del diálogo “Generic Object Editor” existen cuatro botones, los primeros dos,
OPEN… y SAVE…, permiten guardar las configuraciones de objetos para usos posteriores.
El botón CANCEL, termina la operación y vuelve atrás sin guardar ningún cambio.
Cuando se esté de acuerdo con todos los objetos y configuración elegida, clickear OK y
retornar a la ventana principal de EXPLORER.
APLICANDO FILTROS
El proceso general de configuración, es elegir el filtro deseado y sus opciones, luego hacer
click en el botón “Add” para sumarlo a la lista. Los filtros solo serán aplicados cuando se hace
click en el botón “Apply Filters” y serán aplicadas en el orden que aparezcan en la lista. Se
puede remover en cualquier filtro de la lista con el botón “Delete”.
El botón “Replace” en la parte superior de la sección de pre proceso reemplaza la “Base
Relation” con el “Current Working Relation”, haciendo los cambios permanentes ,al menos
hasta que un nuevo archivo es cargado.
Finalmente, el botón “SAVE”… en la parte superior derecha de la pantalla, guarda el
“Working Relation” en archivo de extención ARFF, dejándolo habilitado para usos futuros.
ATRIBUTOS DE CLASE
Los clasificadores en Weka, están diseñados para ser entrenados para predecir atributos de
clase simple, el cual es el objetivo de la predicción. Algunos clasificadores solo pueden
aprender clases nominales, otras solo numéricas (problemas de regresión), y otra, pueden
aprender ambas.
Por descarte, las clases serán el último atributo en las datos. Si se requiere entrenar un
clasificador para predecir un atributo diferente, hay que hacer click en el cuadro, bajo el
cuadro “Test options” para obtener una lista (drop down list) de atributos para elegir.
ENTRENAMIENTO DE CLASIFICADORES
Cuando los clasificadores, las opciones de prueba y las clases ya están configuradas, el
proceso de aprendizaje empieza haciendo click en el botón “Start”. Mientras el clasificador
está ocupado en entrenamiento, el pájaro se mueve. Se puede detener el entrenamiento en
cualquier momento con el botón “Stop”. Cuando el entrenamiento está completo, el área del
clasificador de salidas (Classifier output), a la derecha del “Display” está lleno de texto
describiendo el resultado del entrenamiento y de la prueba.
Una nueva entrada (lista de resultados) aparece en el cuadro “Result list”, miramos la lista
debajo con resultados, pero antes investigar el texto que está en la salida.
Las opciones son grilladas (greyed out) si no se aplica al set de resultados específicos.
V) CLUSTERING
SELECCIONANDO UN CLUSTER
Ya siendo familiares el proceso de selección y los objetos de configuración, haciendo click en
el “clustering scheme” listado en la caja “CLUSTERER” en la parte posterior de la ventana,
muestra un diálogo “generic object editor” por el cual se puede seleccionar un nuevo
“clustering scheme”.
IGNORANDO ATRIBUTOS
Algunos atributos deberán ser ignorados cundo se hace “clustering”. El botón “Ignore
attributes” genera una pequeña ventana que permite escoger los atributos a ignorar. Esto se
realiza haciendo click en los atributos, y si se quiere seleccionar un rango consecutivo, se hace
apretando continuamente la tecla “shift” y para atributos separados con la tecla “CTRL”. Para
cancelar se hace con el botón “Cancel”, para activar se hace a través del botón “select”. Así, la
próxima vez que se haga clustering, los atributos seleccionados serán ignorados.
APRENDIENDO CLUSTERS
La sección “cluster”, así como la sección “classify”, tienen botones Start/Stop, una área de
resultado de texto y una lista de resultados. Éstos se comportan igual que el contador de partes
de clasificación (classification counterparts). Haciendo click derecho en una entrada en la lista
de resultados, genera un menú similar, con la excepción que solo muestra una opción de
visualización: “VISUALIZE CLUSTER ASSIGMENT”.
OPCIONES (OPTIONS)
La caja “ATTRIBUTE SELECTIONS MODE” tiene dos opciones:
- Use full training set (worth of the attribute subset): el peor de los subconjuntos de
atributos es determinado usando el conjunto de entrenamiento de datos total (full set
of training data).
- Cross-validation: el peor de los subconjuntos de atributos está determinado por un
proceso de validación cruzada (cross-validation). Los compás “Fold” y “Seed”
especifica el número de registros (“Folds”) a usar y el “Random seed” organiza los
datos.
Al igual que “Classify” (sección 4) existe un cuadro drop down donde se pueden especificar
qué atributos tratar (which attribute to treat as the class).
CAMBIANDO LA VISUAL
Los puntos de las datos estarán ploteados en el área principal de la ventana. En la parte
superior hay dos botones de listas (drop down) para seleccionar los ejes del gráfico.
El de la izquierda, muestra los atributos del eje X, y el de la derecha el atributo del eje Y. En
el selector del eje X, existe una lista para seleccionar colores, esto permite cambiar el color de
los puntos basados en algún atributo seleccionado.
Bajo el área de graficado, existe una leyenda que describe qué significa cada color en la
gráfica. Si los valores son discretos, se pueden modificar los colores de cada uno haciendo
click en ellas, y haciendo una correcta selección en las ventanas emergentes.
A la derecha del área del gráfico existen una serie de “strips” horizontales, donde cada uno de
estos strips representa un atributo y los puntos muestran la distribución de los valores del
atributo. Estos valores están azarosamente “scattered” verticalmente, para ayudar a ver los
puntos de concentración. Se puede seleccionar qué ejes serán usados en el gráfico principal
haciendo click en las “strips”.Haciendo click izquierdo en los strip de atributos cambia el eje
X para ese atributo, y el eje Y, se cambia haciendo click derecho. Los ejes están marcados
con las letras X e Y para identificarlas.
Sobre los strips de atributos, se muestra un “slider” (barra de deslizamiento) llamado
“JITTER” que es un despliegue azaroso dado a todos los puntos de la gráfica.
Arrastrándolo (dragging) a la derecha aumenta el tamaño de “JITTER”, que es útil para
probar las concentraciones de los puntos. Sin JITTER millones de instancias no se verán
diferentes (en un mismo punto o como una sola instancia).
SELECCIONAN INSTANCIAS
Hay situaciones que es de ayuda seleccionar un subconjunto de datos al usar una herramienta
de visualización. Un caso especial de esto es el “User Classiffier”, que permite crear un
clasificador propio por medio de selecciones interactivas.
Bajo el botón selector del eje Y, existe un botón lista (drop down) para elegir un método de
selección. Un grupo de datos pueden seleccionarse de cuatro maneras:
1) Select instance: haciendo click en un punto individual genera una ventana que lista los
atributos. Si hay más de un punto en el mismo lugar, más de una lista aparecerá.
2) Rectangle: se puede crear un rectángulo arrastrando, así se seleccionan los puntos
dentro de él.
3) Poligon: se puede crear un polígono de cualquier forma, que selecciona los puntos
dentro de él. Haciendo click izquierdo para agregar vértices del polígono y click
derecho para completarlo. El polígono se cerrará por orden de generar los puntos.
4) Polyline: se pueden generar líneas que distinguen los puntos de un lado y del otro.
Haciendo click izquierdo para fijar las vértices de las líneas y click derecho para
terminar. En este caso las figuras son abiertas.
Cuando el área graficada fue seleccionada con reclangle, polygon o polyline se torna gris. En
este momento al hacer click en el botón “submit” remueve todas las instancias de la gráfica
excepto las que están grises (áreas de selección). Haciendo click en botón “clear” borra el área
de selección no afectando la gráfica.
Cuando cualquier punto ha sido removido de la gráfica el botón “submit” cambia a botón
“reset”. Este botón deja sin efecto los actos previos de remover, y retorna al gráfico original
con todos los puntos incluidos. Finalmente, haciendo click en el botón “save” permite guardar
las instancias visibles en un archivo nuevo de extención. ARFF.