Uwe Labo

*Machine Learning es una disciplina científica del ámbito de la Inteligencia Artificial que crea sistemas que aprenden
automáticamente. Aprender en este contexto quiere decir revisar datos y es capaz de predecir comportamientos futuros
en millones de datos. Automáticamente, también en este contexto, implica que estos sistemas se mejoran de forma
autónoma con el tiempo, sin intervención humana.
* son métodos adaptativos que pueden usarse para resolver problemas de búsqueda y optimización. Están basados en
el proceso genético de los organismos vivos.Por imitación de este proceso, los Algoritmos Genéticos son capaces de ir
creando soluciones para problemas del mundo real. La evolución de dichas soluciones hacia valores óptimos del
problema depende en buena medida de una adecuada codificación de las mismas.
Un algoritmo genético consiste en una función matemática o una rutina de software que toma como entradas a los
ejemplares y retorna como salidas cuáles de ellos deben generar descendencia para la nueva generación.
Una de sus características principales es la de ir perfeccionando su propia heurística en el proceso de ejecución, por lo
que no requiere largos períodos de entrenamiento especializado por parte del ser humano, principal defecto de otros
métodos para solucionar problemas, como los Sistemas Expertos.
*Un modelo de aprendizaje automático básicamente describe cómo se analizan y manipulan las entradas de acuerdo
con diversos conceptos matemáticos y teorías para lograr una determinada tarea.
*El análisis de cluster o clustering es la tarea de agrupar un conjunto de objetos de tal manera que los objetos en el
mismo grupo (llamado cluster ) sean más similares (en cierto sentido) entre sí que a los de otros grupos (clusters). Es
una tarea principal de la minería de datos exploratoria, y una técnica común para el análisis de datos estadísticos,
utilizada en muchos campos, incluido el aprendizaje automático, el reconocimiento de patrones, el análisis de imágenes,
la recuperación de información, la bioinformática, la compresión de datos y los gráficos de computadora.
El análisis de clústeres en sí no es un algoritmo específico, sino la tarea general a resolver. Se puede lograr mediante
varios algoritmos que difieren significativamente en su comprensión de lo que constituye un clúster y cómo encontrarlos
de manera eficiente. Las nociones populares de grupos incluyen grupos con pequeñas distancias entre los miembros del
grupo, áreas densas del espacio de datos, intervalos o distribuciones estadísticas particulares. Por lo tanto, el
agrupamiento puede formularse como un problema de optimización de objetivos múltiples. El algoritmo de agrupamiento
y la configuración de parámetros apropiados (incluidos los parámetros como la función de distancia). para usar, un umbral
de densidad o el número de agrupamientos esperados) dependen del conjunto de datos individuales y del uso previsto
de los resultados. El análisis de clústeres como tal no es una tarea automática, sino un proceso iterativo de
descubrimiento de conocimiento u optimización interactiva de múltiples objetivos que involucra prueba y fracaso. A
menudo es necesario modificar el preprocesamiento de datos y modelar los parámetros hasta que el resultado logre las
propiedades deseadas.
EJEMPLO:
En Kueski, por ejemplo, lo podemos usar para agrupar información como edad, género, ubicación y otras variables de
nuestros usuarios que nos ayudan a identificar cuál es el perfil de nuestros clientes y con lo cual podemos tener un mejor
entendimiento de sus necesidades.
*Es una tarea de clasificación consiste en, dado un individuo, saber a qué clase pertenece, basándonos en lo que hemos
“aprendido” de otros individuos.
*En el aprendizaje automático y las estadísticas, la clasificación es el problema de identificar a cuál de un conjunto de
categorías (subpoblaciones) pertenece una nueva observación, sobre la base de un conjunto de entrenamiento de datos
que contienen observaciones (o instancias) cuya categoría de miembros es conocida. Algunos ejemplos son asignar un
correo electrónico dado a la clase de "spam" o "no spam”, y asignar un diagnóstico a un paciente determinado según las
características observadas del paciente (sexo, presión arterial, presencia o ausencia de ciertos síntomas, etc.). La
clasificación es un ejemplo de reconocimiento de patrones.
En la terminología del aprendizaje automático, la clasificación se considera una instancia de aprendizaje supervisado, es
decir, el aprendizaje donde está disponible un conjunto de entrenamiento de observaciones correctamente identificadas.
El procedimiento no supervisado correspondiente se conoce como agrupación en clústeres, e implica agrupar los datos
en categorías según alguna medida de similitud o distancia inherente.
A menudo, las observaciones individuales se analizan en un conjunto de propiedades cuantificables, conocidas como
variables o características explicativas. Estas propiedades pueden ser categóricas (por ejemplo, "A", "B", "AB" u "O",
para el tipo de sangre), ordinales (por ejemplo, "grandes", "medianas" o "pequeñas"), valores enteros (por ejemplo, el
número de apariciones de una palabra en particular en un correo electrónico) o de valor real (por ejemplo, una medición
de la presión arterial).
Un algoritmo que implementa la clasificación, especialmente en una implementación concreta, se conoce como un
clasificador. El término "clasificador" a veces también se refiere a la función matemática, implementada por un algoritmo
de clasificación, que asigna datos de entrada a una categoría.
La terminología a través de los campos es bastante variada. En las estadísticas, donde la clasificación a menudo se
realiza con regresión logística o un procedimiento similar, las propiedades de las observaciones se denominan variables
explicativas (o variables independientes, regresores, etc.), y las categorías que deben predecirse se conocen como
resultados, que se consideran Serán posibles valores de la variable dependiente. En el aprendizaje automático, las
observaciones a menudo se conocen como casos, las variables explicativas se denominan características (agrupadas
en un vector de características), y las categorías posibles que se pueden predecir son clases. Otros campos pueden usar
una terminología diferente: por ejemplo, en ecología comunitaria, el término "clasificación" normalmente se refiere al
análisis de grupo, es decir, un tipo de aprendizaje no supervisado, en lugar del aprendizaje supervisado descrito en este
artículo.
EJEMPLO:
¿Qué clientes de Telefónica estarán interesados en esta oferta?
Basándonos en la información del histórico de clientes, resumida en una serie de variables como puede ser la edad,
estado civil, nivel de estudios, antigüedad como cliente etc., los algoritmos de clasificación construyen un modelo que
nos permite asignar, a un nuevo cliente la etiqueta más adecuada entre estas dos: “Estará interesado” o “No estará
interesado”. Los algoritmos de scoring son muy similares, pero más específicos. Nos dan la probabilidad de que un cliente
esté interesado o no.
*El aprendizaje en el árbol de decisión utiliza un árbol de decisión como modelo predictivo para pasar de observaciones
sobre un elemento (representado en las ramas) a conclusiones sobre el valor objetivo del elemento (representado en
las hojas). Es uno de los enfoques de modelado predictivo utilizados en estadísticas, minería de datos y aprendizaje
automático. Los modelos de árbol en los que la variable de destino puede tomar un conjunto discreto de valores se
denominan árboles de clasificación; en estas estructuras de árbol, las hojas representan etiquetas de clase y las ramas
representan conjunciones de características que conducen a esas etiquetas de clase. Árboles de decisión donde la
variable objetivo puede tomar valores continuos (típicamente números reales)) Se llaman árboles de regresión. En el
análisis de decisiones, se puede usar un árbol de decisiones para representar visual y explícitamente las decisiones y
la toma de decisiones. En la minería de datos, un árbol de decisión describe datos, pero el árbol de clasificación
resultante puede ser una entrada para la toma de decisiones.
Entre otros métodos de extracción de datos, los árboles de decisión tienen varias ventajas:
 Simple de entender e interpretar.

 Capaz de manejar datos tanto numéricos como categóricos .
 Requiere poca preparación de datos.
 Utiliza un modelo de caja blanca .
 Posible validar un modelo utilizando pruebas estadísticas.
 Enfoque no estadístico que no hace suposiciones de los datos de entrenamiento o los residuos
de predicción; Por ejemplo, no hay supuestos de distribución, independencia o variación
constante.
 Se desempeña bien con grandes conjuntos de datos.
 Refleja la toma de decisiones humanas más de cerca que otros enfoques. [17]
Esto podría ser útil
al modelar decisiones / comportamientos humanos.
Ejemplo
 30 estudiantes
 3 variables: Género (hombre/mujer), Clase (IX/X) y Altura (5 a 6 pies).
 15 estudiantes juegan cricket en su tiempo libre
 Crear un modelo para predecir quien jugará cricket
 Segregar estudiantes basados en todos los valores de las 3 variables e identificar aquella variable que
crea los conjuntos más homogéneos de estudiantes y que a su vez son heterogéneos entre ellos.
*REGRESIÓN
SIMPLE:
Regresión: las tareas de regresión se utilizan cuando lo que se quiere averiguar es un valor numérico
de una variable continua. Siguiendo con el ejemplo anterior, nos servirían para, basándonos en el
histórico de consumo de los clientes, parametrizado según las variables anteriores (u otras que defina
el Data Scientist), podamos responder a preguntas como ésta:
EJEMPLO:
¿Cuál va a ser el consumo en … (voz, datos, etc.) de este cliente en un mes?
COMPLEJO:
En el modelado estadístico, el análisis de regresión es un conjunto de procesos estadísticos para

estimar las relaciones entre las variables. Incluye muchas técnicas para modelar y analizar varias
variables, cuando el foco está en la relación entre una variable dependiente y una o más variables
independientes (o "predictores"). Más específicamente, el análisis de regresión nos ayuda a
comprender cómo cambia el valor típico de la variable dependiente (o "variable de criterio") cuando
varía una de las variables independientes, mientras que las otras variables independientes se
mantienen fijas.
Más comúnmente, el análisis de regresión estima la expectativa condicional de la variable

dependiente dadas las variables independientes, es decir, el valor promedio de la variable
dependiente cuando las variables independientes son fijas. Con menos frecuencia, el enfoque está en
un cuantil u otro parámetro de ubicación de la distribución condicional de la variable dependiente
dadas las variables independientes. En todos los casos, se debe estimar una función de las varia bles
independientes llamada función de regresión. En el análisis de regresión, también es de interés
caracterizar la variación de la variable dependiente en torno a la predicción de la función de regresión
utilizando una distribución de probabilidad. Un enfoque relacionado pero distinto es el Análisis de
condición necesaria (NCA), que estima el valor máximo (en lugar del promedio) de la variable
dependiente para un valor dado de la variable independiente (línea de techo en lugar de línea central)
para identificar qué valor de la variable independiente es necesario, pero no suficiente para un valor
dado de la variable dependiente.
El análisis de regresión se usa ampliamente para la predicción y el pronóstico, donde su uso tiene una
superposición sustancial con el campo del aprendizaje automático. El análisis de regresión también se
utiliza para comprender cuáles de las variables independientes están relacionadas con la variable
dependiente y para explorar las formas de estas relaciones. En circunstancias restringidas, el análisis
de regresión se puede utilizar para inferir relaciones causales entre las variables independientes y
dependientes. Sin embargo, esto puede llevar a ilusiones o relaciones falsas, por lo que se
recomienda precaución.
Se han desarrollado muchas técnicas para realizar análisis de regresión. Los métodos familiares,
como la regresión lineal y la regresión de mínimos cuadrados ordinarios, son paramétricos, ya que la
función de regresión se define en términos de un número finito de parámetros desconocidos que se
estiman a partir de los datos. La regresión no paramétrica se refiere a técnicas que permiten que la
función de regresión se encuentre en un conjunto específico de funciones, que pueden ser de
dimensión infinita.
El desempeño de los métodos de análisis de regresión en la práctica depende de la forma del proceso
de generación de datos y de cómo se relaciona con el enfoque de regresión que se está utilizando.
Como la forma real del proceso de generación de datos generalmente no se conoce, el análisis de
regresión a menudo depende en cierta medida de hacer suposiciones sobre este proceso. Estas
suposiciones a veces son verificables si hay disponible una cantidad suficiente de datos. Los modelos
de regresión para la predicción suelen ser útiles incluso cuando las suposiciones se violan
moderadamente, aunque es posible que no funcionen de manera óptima. Sin embargo, en muchas
aplicaciones, especialmente con pequeños efectos o preguntas de causalidad basadas en datos
observacionales, los métodos de regresión pueden dar resultados engañosos.
En un sentido más estrecho, la regresión puede referirse específicamente a la estimación de variables

de respuesta continua (dependientes), en oposición a las variables de respuesta discreta utilizadas en
la clasificación. El caso de una variable dependiente continua se puede referir más específicamente
como regresión métrica para distinguirla de los problemas relacionados.

Uwe Labo

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Uwe Labo

Încărcat de

Drepturi de autor:

Formate disponibile

*Machine Learning es una disciplina científica del ámbito de la Inteligencia Artificial que crea sistemas que aprenden

¿Qué clientes de Telefónica estarán interesados en esta oferta?

 Simple de entender e interpretar.

¿Cuál va a ser el consumo en … (voz, datos, etc.) de este cliente en un mes?

En el modelado estadístico, el análisis de regresión es un conjunto de procesos estadísticos para

Más comúnmente, el análisis de regresión estima la expectativa condicional de la variable

En un sentido más estrecho, la regresión puede referirse específicamente a la estimación de variables

S-ar putea să vă placă și