Documente Academic
Documente Profesional
Documente Cultură
Aprendizaje supervisado
En los problemas de aprendizaje supervisado se ensea o entrena al algoritmo a partir de datos
que ya vienen etiquetados con la respuesta correcta. Cuanto mayor es el conjunto de datos ms
el algoritmo puede aprender sobre el tema. Una vez concludo el entrenamiento, se le brindan
nuevos datos, ya sin las etiquetas de las respuestas correctas, y el algoritmo de aprendizaje
utiliza la experiencia pasada que adquiri durante la etapa de entrenamiento para predecir un
resultado. Esto es similar al mtodo de aprendizaje que se utiliza en las escuelas, donde se nos
ensean problemas y las formas de resolverlos, para que luego podamos aplicar los mismos
mtodos en situaciones similares.
Aprendizaje no supervisado
En los problemas de aprendizaje no supervisado el algoritmo es entrenado usando un conjunto de
datos que no tiene ninguna etiqueta; en este caso, nunca se le dice al algoritmo lo que
representan los datos. La idea es que el algoritmo pueda encontrar por si solo patrones que
ayuden a entender el conjunto de datos. El aprendizaje no supervisado es similar al mtodo que
utilizamos para aprender a hablar cuando somos bebes, en un principio escuchamos hablar a
nuestros padres y no entendemos nada; pero a medida que vamos escuchando miles de
conversaciones, nuestro cerebro comenzar a formar un modelo sobre cmo funciona el
lenguaje y comenzaremos a reconocer patrones y a esperar ciertos sonidos.
El aprendizaje no supervisado puede ser usado en conjunto con la Inferencia bayesiana para
producir probabilidades condicionales (es decir, aprendizaje supervisado) para cualquiera de las
variables aleatorias dadas. El Santo Grial del aprendizaje no supervisado es la creacin de
un cdigo factorial de los datos, esto es, un cdigo con componentes estadsticamente
independientes. El aprendizaje supervisado normalmente funciona mucho mejor cuando los datos
iniciales son primero traducidos en un cdigo factorial.
Otra forma de aprendizaje no supervisado es la agrupacin (en ingls, clustering), el cual a veces
no es probabilstico.
tenemos que escoger los datos de entrenamiento (x1,y1)...(xn,yn) ,,, para estimar los parametros
, cada xi es un vector Es un vector de mediciones de caractersticas para el caso i-simo, el mas
popular metodo de estimacion es el de minimo cuadrados. en el que escojimos el coeficiente ,
Para minimizar la suma residual de cuadrados.
Lo que se hace es sustituir la expresin que de f(x) que depende de las s para minimizar la
ecuacin, lo que se hace es tratar de encontrar los mejores s para describir Y.
Los mtodos con penalizacin usuales son Ridge y Lasso, los dos agregan un parmetro que
implica el problema de tener un mtodo para definir el mejor valor para el modelo. Explico con
ejemplos que se hace para determinar el parmetro.
Para el modelo Ridge a la funcin de errores es como la de los mnimos cuadrados pero
agregando un trmino ms. La ecuacin es la siguiente:
Lamento poner las ecuaciones, pero creo que pese a que no se entienda la teora de manera total ,
al observando las diferencias en las ecuaciones se puede apreciar la diferencia en los mtodos. En
la primera grfica de la entrada no lo mencion, pero si se presiona sobre la imagen y se observa
con cuidado que tiene trazadas 3 rectas sobre los datos de color negro, estas tres rectas
corresponden a los 3 mtodos distintos.
Una visin o idea grfica de lo que pasa con el modelo o tcnica, es visto en la siguiente imagen.
Al final el objetivo de la regresin lineal es encontrar el plano que mejor satisface ciertas
condiciones para asegurar que predice o explica lo mejor posible los datos.
metodo de minimos cuadrados: nos permite minimizar una funcion de costo que esta expresada
como la diferencia al cuadrado de mis prediciones y de los valores reales (valor objetivo),
asumiendo que mis datos siguen un modelo lineal nos permite desarrollar una metodologia para
calcular los parametros que minimiza esa funcion de costo
Soluciona problemas de Regresion, porque los valores que tenemos no son discretos (clases) si no
que son valores numericos, que resto mi predicion con los valores de entrada,
Valor de y (valor predicho) y el valor real esta muy lejos, esto significa overfitting
Datos, decimos que es capaz de generalizar desde el conjunto de entrenamiento para el conjunto
de prueba (Generalization)
Label: etiqueta
feature: caracteristicas
Librerias Python
Matplotlib: Proporciona funciones para hacer visualizaciones como grficos de lneas, histogramas,
diagramas de dispersin
Pandas: Biblioteca para la discusin y anlisis de datos , Construido alrededor de una estructura de
datos llamada el DataFrame: Una tabla , Permite consultas tipo SQL y combinaciones de tablas,
cada columna puede tener un tipo separado , Permite ingerir datos de mltiples formatos de
archivo y bases de datos, como SQL, Excel y CSV
Ejemplo iris
- Anormalidades y peculiaridades
-K nearest neighbors!
La neurona biologica:
- Los elementos de proceso suman las entradas afectadas por las sinapsis
- Bajo una circunstancia apropiadas la neurona transmite una seal de salida
Los parmetros del modelo son desconocidos y las variables pueden provenir de diferentes
fuentes:
Entradas Cuantitativas
Transformaciones de insumos cuantitativos, tales como tronco, raz cuadrada o cuadrado;
Expansiones de base, que conducen a una representacin polinomial;
Interacciones entre variables
El mas popular metodo de estimacion es minimo cuadrados, en el que elegimos el coeficiente beta
para minimizar la suma residual de los cuadrados
clasificacin
SVM(Suport Vector Machine) : Una Mquina Vector de Soporte (SVM) es un algoritmo supervisado
de aprendizaje de mquina que puede ser empleado tanto para la clasificacin como para la
regresin
Un modelo SVM es una representacin de los ejemplos como puntos en el espacio, mapeados de
modo que los ejemplos de las categoras separadas se dividan por una brecha clara que es lo ms
amplia posible.
Support vectors: Los vectores de soporte son los puntos de datos ms cercanos al hiperplano, los
puntos de un conjunto de datos que, si se eliminan, alteran la posicin del hiperplano divisor
Qu es un hiperplano? Para una tarea de clasificacin con slo dos caractersticas (como la
imagen anterior), puede pensar en un hiperplano como una lnea que separa y clasifica
linealmente un conjunto de datos.
Intuitivamente, cuanto ms alejados del hiperplano nuestros puntos de datos se encuentran, ms
confiados estamos de que se han clasificado correctamente. Por lo tanto, queremos que nuestros
puntos de datos estn lo ms alejados posible del hiperplano, sin dejar de estar en el lado
correcto.
Caractersticas del proyecto en un espacio dimensional superior utilizando ncleos kernel trick
(transformaciones basadas en productos punto)
Pro y contra del SVM
pros
Exactitud
Funciona bien en conjuntos de datos ms pequeos
Puede ser ms eficiente porque utiliza un subconjunto de puntos de entrenamiento
contra
En las altas dimensiones, los modelos lineales para la clasificacin se vuelven muy potentes
Cuanto mayor sea el nmero de caractersticas, ms importante ser la proteccin contra
la overfitting becomes
Regresion Logistica:
Dgale al paciente que hay un 70% de probabilidad de que el tumor sea maligno
Lmite de decisin