Sunteți pe pagina 1din 7

TEMA: Método de asignación basado en la varianza

Método de Agregación
Definición:

Estos métodos buscan optimizar, en cada etapa, la dispersión de las clases de la partición
obtenida por agregación de dos objetos.

En lugar de reunir dos clases que presenten la menor «distancia» (según un criterio dado para
medir la semejanza entre clases), estas estrategias agregan dos clases de manera tal que la clase
resultante tenga la dispersión mínima con respecto a todas las clases que pudieran ser formadas
en una etapa del algoritmo de agregación.

Para aplicar este método, es necesario que la comparación entre los objetos a clasificar se evalúe
con una distancia (euclidiana, euclidiana reducida, del Chi2,...).

Ventajas de los métodos de agregación basados en la varianza:

 En cada etapa, se construye una partición del conjunto de elementos a clasificar


compuesta de clases homogéneas (clases a inercia intraclase mínima).

 Como el criterio de agregación es el crecimiento de la inercia intraclase, los niveles de


agregación pueden ser normados, es decir expresados –en cada etapa– en términos de
tasas de crecimiento que traducen la relación entre inercia intraclases e inercia total.

 La formación de clases bien diferenciadas es garantizada por el criterio de minimizar el


crecimiento de la inercia intraclases aumentando la inercia interclases.

Desventajas de esos métodos de agregación:

 Los nodos de la jerarquía representan un crecimiento de inercia proporcional al


cuadrado de las distancias... Los grupos de bajo nivel parecen mucho más homogéneos
y diferenciados entre ellos.

 Tendencia a producir grupos esféricos con masas equilibradas.

 Dificultad a detectar objetos aislados o grupos algo estirados.

Notación:
3

Teorema de Huygens:
4

La calidad global de una partición está ligada a la homogeneidad de las clases y a la


diferenciación entre las clases. Como la inercia I es constante...

Se trata entonces de minimizar la cantidad correspondiente a la suma de las inercias intraclases:

O bien, maximizar la cantidad correspondiente a la suma de las inercias interclases:

Desarrollo del algoritmo de agregación

 A partir de una distancia cuadrática d (x,y) entre objetos, se define las inercias
intraclases de todas las clases compuestas por agregación de dos clases de un solo
objeto.
 En la etapa inicial, la inercia intraclases es nula. La inercia interclases es igual a I.
 En la etapa final, la inercia interclases es nula. La inercia intra-clase es igual a I.
 En cada etapa, la inercia intraclases aumenta y la inercia interclases disminuye.
 En cada etapa, el algoritmo define una partición tal que la varianza intraclases sea
mínima y la varianza entre las clases sea máxima.
 Para que la inercia intraclases aumente lo menos posible en cada etapa, es necesario
minimizar la pérdida de inercia interclases que resulta de la agregación de dos
elementos...

Sean: {x}, de masa mx e {y}, de masa my, dos clases de una partición Ps en s clases.

Sea: {t}, de masa mt = mx + my, una clase de una partición Ps-1, en s-1 clases, resultante de la
agregación de {x} e {y}.

La inercia intraclase de la clase {t} está definida por:


5

Si los elementos de la clase son reemplazados por el baricentro de la misma...

La disminución de la inercia interclases, pasando de Ps a Ps-1 es de:

En (1), reemplazando Gt por su valor expresado en x e y...

Criterio de agregación:

En lugar de buscar los elementos más próximos (semejantes...)

Se busca en cada etapa los elementos que hagan mínimo el valor ∆s.

✔ En cada etapa la inercia interclases aumenta de la cantidad ∆s y la inercia intraclases


disminuye de la misma cantidad.

✔ ∆s es entonces un nuevo «índice de disimilaridad» empleado como «índice de nivel de


agregación».
6

Ejemplo:

1.

2.

3.

4.
7

5.

S-ar putea să vă placă și