Documente Academic
Documente Profesional
Documente Cultură
ACTIVIDAD #4 Y 5
ALUMNO:
ENTREGADO A:
FABIO MENDOZA
CUC
BARRANQUILLA
03/15/2019
Procesos en weka
Proceso de balanceo de datos: Balancear el conjunto de datos, quitar instancias consideradas
como ruido, eliminar traslape entre clases o buscar prototipos que representen el conjunto de datos
de una manera que sea fácil de procesar por métodos de clasificación o agrupamiento, para ello
hay una serie de algoritmos que nos permiten llevar a cabo dicho procedimiento, entre las cuales
podemos encontrar:
Discretizar los datos: En Weka podemos utilizar la opción “Discretize”, la cual discretiza un
conjunto de valores numéricos en rangos de datos. Como parámetros toma los índices de los
atributos discretizar (attribute índices) y el número de particiones en que queremos que divida los
datos (bins). Si queremos que las particiones las realice por la frecuencia de los datos y no por el
tamaño de estas tenemos la opción useEqualFrecuency. Si tenemos activa esta última opción
podemos variar el peso de las instancias para la definición de los intervalos con la opción
DesiredWeightOfInstancesPerInterval. Si, al contrario tenemos en cuenta el número de instancias
para la creación de intervalos podemos usar findNumBins que optimiza el procedimiento de
confección de los mismos.
Medidas de evaluación
VP (Verdaderos positivos): instancias correctamente reconocidas por el sistema.
FN (Falsos negativos): instancias que son positivas y que el sistema dice que no lo son.
FP (Falsos positivos): instancias que son negativas pero el sistema dice que no lo es.
Precisión: es la probabilidad de que una predicción efectivamente corresponda con su valor real.
La precisión, en cambio, mide el número de términos correctamente reconocidos respecto al total
de términos predichos, sean estos verdaderos o falsos términos. En este caso, la precisión está
midiendo la pureza o el grado en que son todos los que están.
precisión = VP/VP+FP
Podríamos definir la cobertura de otra manera distinta como, cobertura= |A| / |D|. Donde: |A|: es
la cantidad de instancias de un conjunto de entrenamiento D, que satisface la precondición |D|:
representa el número total del conjunto de entrenamiento.
La cobertura y la precisión mantienen una relación inversa, es decir cuando aumenta la cobertura
del modelo generado disminuye la precisión y viceversa cuando disminuye la cobertura aumenta
la precisión. De manera tal que se obtiene una cobertura total, a costo de una precisión nula.
exactitud(r)= |A Ω y| / |A|
Curva ROC: Se basa en dibujar el “true-positive rate” en el eje y y el “false positive rate” en el
eje x. Por ejemplo, dada la siguiente matriz de confusión:
Media Armónica: La media armónica resulta poco influida por la existencia de determinados
valores mucho más grandes que el conjunto de los otros, siendo en cambio sensible a valores
mucho más pequeños que el conjunto. La media armónica no está definida en el caso de que exista
algún valor nulo.
Los árboles de decisión, son representaciones gráficas y analíticas de datos introducidos por
medio de una base de datos ya establecida. Estos ayudan en la toma de decisiones, desde un punto
de vista probabilístico con el fin de elegir la opción más conveniente. Los árboles de decisión se
caracterizan por ser una técnica utilizada por la minería de datos, en donde se busca solucionar
problemas de predicción, clasificación y segmentación, una vez analizados todos los datos.
o Las etiquetas se encuentran en cada nodo y cada flecha y dan nombre a cada
acción.
Funcionamiento: En este árbol de decisión de la figura 1 podemos observar como hay cuatro
posibles soluciones finales. En él se cumplen las normas antes descritas (nodo inicial, una
única flecha por nodo y un único camino para llegar a cada nodo final) y tiene todos los
elementos antes descritos (nodos, vectores de números, flechas y etiquetas). La imagen
representa un árbol de decisión conformado por dos jugadores, en él se pueden observar las
opciones que El juego cuenta con dos jugadoras. La primera decisión la ha de tomar la
jugadora 1, quien debe decidir entre O1 y O2, en este punto será la jugadora 2 quien decida.
Si la Jugadora 1 ha elegido O1, tendrá que decidir entre A1 y R1, A1 le producirá una utilidad
de 2, y R1 de 0, a su vez A1 le reportará una utilidad de 8 a la jugadora 1 y R1 de 0. En
cambio, si la jugadora 1 elige O2, la jugadora 2 deberá elegir entre A2 y R2, la primera opción
le reportará una utilidad de 5 a ella y a la otra jugadora, R2 reportará una utilidad de 0 a las
dos. Con los adecuados métodos de inducción existentes se podría resolver este árbol de
decisión sin mucha complicación.
Árbol de decisión.
Redes Neuronales
Estas redes neuronales son modelos computacionales que se basan en un gran conjunto de
unidades simples interconectadas entre sí, de forma aproximada al comportamiento observado en
el funcionamiento de las neuronas de los cerebros biológicos como el de los seres humanos.
Las redes neuronales funcionan analizando uno o varios problemas de entrada por unidades
intercomunicadas, donde la información es evaluada contra informaciones anteriores; el resultado
positivo o negativo será la salida, que igualmente será almacenada para futuras evaluaciones. La
unidad fundamental de una red neuronal es el perceptrón, que es un elemento con varias entradas
de un determinado peso cada una. Si la suma de los pesos de esas entradas es mayor que un
determinado número, la salida del perceptrón es uno; caso contrario, la salida es cero. Estos
sistemas aprenden y se conforman a sí mismos en lugar de ser programados de forma explícita.
Asimismo, prevalecen en áreas donde la detección de soluciones son difíciles de expresar con la
programación convencional.
http://perso.wanadoo.es/alimanya/funcion.htm
https://www.uv.mx/aguerra/documents/2009-mpi-12.pdf
https://yorobot.co/que-son-y-como-funcionan-las-redes-neuronales-artificiales/
https://ml4a.github.io/ml4a/es/neural_networks/