Documente Academic
Documente Profesional
Documente Cultură
1 CLUSTERING:
Hard Clustering: Los clusters NO se solapan, un elemento pertenece
a un cluster o a otro.
Soft Clustering: Los clusters se pueden solapar. Por lo tanto tendr
un 40% de conti que pertenezca a un cluster y 60% al otro.(por ej.)
Diferencias entre HARD Y SOFT ASIGMENT:
HARD:
- Se asigna cada muestra a un nico cluster
- Perjudicial para las muestras de las fronteras
- K-means
SOFT:
- Se asigna cada muestra a diferentes clsteres.
- La asignacin depender de la distancia a los vecinos..
- EM.
K-MEANS Hard Clustering
Asigna una muestra a aquel cluster con el centroide mas cercano.
Asigna cada muestra a un nico cluster, esto es PERJUDICIAL en las
muestras de las fronteras.
Estrategia: descenso coordinado
Algoritmo:
1. Inicializar k puntos aleatoriamente(centroides)
2. Asignar cada muestra a un centroide dependiendo de la
distancia.
3. Recalcular centroides: a la media de las muestras asignadas
4. Asignar y recalcular centroides, hasta cuando las
asignaciones no varian.
*Si un centroide en algn momento no tiene puntos, se puede
eliminar.
*K(centroides)<m(num. muestras)
*Aconsejable inicializar centroides en muestras aleatorias.
*Ejecutar k-means muchas veces y escoger la de coste minimo
PROBLEMA: Cuantos cluster escogemos??
1- El mas habitual A manija
2- Ejecutar con diferentes K
Funcion coste optimization objective
CONTENT-BASED:
- Recomendaciones automticas a partir de las valoraciones de
los usuarios de otros productos
- Cabe definir atributos para los productos
- No requiere informacin de otros usuarios
Ventajas:
- Porductos recomendados similares a los mas preferidos por el
usuario en el pasado.
- Preferencias de usuarios = caractersticas del producto
- Uso de palabras clave para representar contenido
Limitaciones:
- No todo contenido puede ser descrito con caractersticas
- No se tiene en cuenta el entorno social del usuario.
- Problema con usuarios sin historial o con millones de compras.
- No tiene en cuenta la similitud producto
COLLABORATIVE FILTERING:
- Recomendar productos a los usuarios con caractersticas
similares.
- No hace falta definir atributos para los productos
- Calulo de vecinos mas cercanos
Ventajas:
Los productos recomendados son los de aquellos usuarios con
votaciones similares.
Preferencias de usuario = votaciones producto
A mas usuarios, mas votaciones = mejores resultados.
Limitaciones
Usuarios diferentes votan en escalas diferentes.
Problemas con usuarios y productos nuevos.
Encontrar usuarios/grupos similares es complicado
COEFICIENTE DE APRENDIZAJE n:
Fijo: para evitar que oscile mucho 0.05<n<0.25
Variable: Disminuye a medida que disminuye el error
COEFICIENTE MOMENTUM u
Termino proporcional al cambio en el valor de los pesos desde la
ultima iteracin: la red evoluciona teniendo en cuenta el gradiente
anterior y actual.
pregunta de examen