Documente Academic
Documente Profesional
Documente Cultură
aplicados en Biología
Molecular
2
Indice
• Introducción
• Referencias 3
Introducción
Análisis Multivariante (multidimensional):
Análisis estadístico de datos que requiere la
medición simultánea de muchas variables.
Modelos de probabilidades:
• Distribución normal multivariante.
• Modelos ad hoc justificados por argumentos
lógicos y de sentido común.
4
La investigación científica es un
proceso iterativo de conocimiento:
Análisis de datos:
Diseño del experimento
nueva interpretación del
y colección de datos
fenómeno
Reducción o ampliación
del número de variables
5
Primer problema de clasificación:
- Difícil de clasificar las técnicas del Análisis
Multivariante: diferentes herramientas para resolver
distintas clases de problemas.
6
Algunos objetivos típicos:
• Reducción o simplificación estructural de los
datos (con pérdida mínima de información).
• Clasificación y agrupamientos.
• Representación gráfica.
8
Matrices:
p >= 1 variables o caracteres para n unidades
experimentales.
• Descripción de cálculos numéricos en términos
de operaciones con matrices (Álgebra Lineal).
V1 V2 V3 V4 V5
U1 x 1, 1 x 1, 2 x 1, 3 x 1, 4 x 1, 5
p=5
x
n=4 U2 2, 1 x 2, 2 x 2, 3 x 2, 4 x 2, 5
U3 x
3, 1 x 3, 2 x 3, 3 x 3, 4 x 3, 5
U4 x x x x x
4, 1 4, 2 4, 3 4, 4 4, 5
9
Extracción de la información
(Data Mining)
Búsqueda de patrones y estructuras no
aleatorias:
• correlación entre variables o similitud
entre sujetos determinadas por sus
perfiles (vectores)
• análisis de confirmación
10
Estadística descriptiva básica de una
muestra de tamaño n con p variables
cuantitativas
- Media: x = ( x1, x2, ... , xp )
xk = (1/n) Σi xik k = 1, 2, ..., p
- Varianza:
Sk2 = Skk = (1/n) Σi (xik – xik )2 k=1,2, ..., p
14
Limitaciones del concepto de covarianza y de
coeficiente de correlación:
• No es posible detectar relaciones no lineales entre las
variables
15
Técnicas gráficas
Gráfico de dispersión (scatterplot):
16
Gráfico de dispersión múltiple
17
Diagrama de cajas
18
Diagrama de Voronoi
19
Caras de Chernoff
20
Distancias
d(P,Q) >= 0
d(P,Q) > 0 si PQ
d(P,Q) = d(Q,P)
d(P,Q) d(P,R) + d(R,Q) (desigualdad triangular)
21
- Distancia euclídea: es la distancia geométrica usual en
espacios de dimensión p.
Si x = (x1, x2, ..., xn) e y = (y1, y2, ..., yn),
d(x, y) = (i (xi – yi)2)1/2
B1:
23
A menudo proporciona resultados parecidos a los de la
euclídea.
Distancia de Chebychev:
24
Distancia de potencias:
Disimilitud porcentual:
d(x, y) = (Número de xi yi)/p
B1:
27
Métodos de Clustering,
distancias y ordenación
28
- Se intenta determinar una estructura natural de división que
proporcione herramientas para
29
- Los conglomerados de objetos resultantes deben
mostrar un alto grado de homogeneidad interna y un alto
grado de heterogeneidad externa.
30
- El análisis Cluster encuentra
la solución más significativa posible.
31
Clustering
• Medidas de similitud
• Métodos jerárquicos
32
Medidas de similitud
-La representación gráfica de los datos está basada en
distancias (similitudes) y algoritmos que permiten dividir los
datos en grupos.
34
Objetos: Cuando no es posible representar los objetos por
medio de medidas p-dimensionales razonables, se comparan
pares de objetos simplemente en base a la presencia ó
ausencia de unas características: se utilizan valores 0-1
para las variables cualitativas (variables binarias):
Variables
p=5
1 2 3 4 5
Item i 1 0 0 1 1
Item k 1 1 0 1 0
0 –1 0 0 1
a = número de 1-1
b = número de 1-0 Item i
c = número de 0-1
d = número de 1-0 Total
1 0
1 a b a+b
Item k c+d
0 c d
En nuestro caso a = 2, b = c = d = 1
36
Se pueden definir varios coeficientes de similitud:
Item 1 2 3 4 5
1 1
2 1/6 1
3 4/6 3/6 1
4 4/6 3/6 2/6 1
5 0 5/6 2/6 2/6 1
38
- Si la matriz de similitud es definida no negativa y los
coeficientes de similitud están normalizados de forma
tal que los valores diagonales sii son iguales a 1, la
función
d(i, k) = (2(1–sik) )1/2
Var i
1 0 Total
1 a b a+b
Var k c+d
0 c d
43
Un resultado típico de este tipo de clustering es un árbol
jerárquico (dendrograma):
44
Métodos de encadenamiento (Linkage methods) :
• Encadenamiento simple
(single linkage): distancia 1 3
4 d(2,4)
mínima o vecino más 2 5
cercano.
• Encadenamiento
completo (complete 1 3 d(1,5)
linkage): distancia 4
2 5
máxima o vecino más
lejano.
• Encadenamiento medio
(average linkage): 1
4
3 d(i, k))/6
( ik
distancia media. 2 5 45
Algoritmo: n objetos
i) Empezar con n grupos de un solo elemento y una
matriz D = (d(i, j)) de distancias.
Encadenamiento simple
(35) 1 2 4
(single linkage): distancia
mínima o vecino más cercano
(i) D es nuestra matriz
(ii) 3 y 5 son los objetos más cercanos
(d(3,5)=2)
(iii) nuevo cluster (35) y nueva matriz D1
(iv) (35) y 1 son los grupos más cercanos
(d((35),1)=3)
47
(135) 2 4
(v) nuevo cluster (135) y nueva matriz D2
(vi) 2 y 4 son los grupos más cercanos
(d(2,4)=5)
(vii) nuevo cluster (24) y nueva matriz D3
(viii) (135) y (24) son los grupos más cercanos
(ix) nuevo cluster (12345)
(135) (24)
1
4
48
0 2 4 6
Encadenamiento completo (complete linkage): distancia
máxima o vecino más lejano, las matrices son
(35) 1 2 4
(35) (24) 1
(35) (124)
49
Encadenamiento completo
5
2 4 6 8 10 12
50
Observaciones sobre los Métodos Cluster
Jerárquicos
- Las fuentes de error y variación no se consideran con los
métodos jerárquicos.
51
- Sería conveniente usar varias distancias o similitudes con
los mismos objetos y observar si se mantienen los mismos
clusters o grupos. Así, se comprueba la existencia de
grupos naturales.
52
Métodos no Jerárquicos
- Se usan para agrupar objetos y no variables en un
conjunto de k clusters ya predeterminado.
IDEA BASICA
- Se parte de un conjunto inicial de clusters elegidos al
azar, que son los representantes de todos ellos; luego se
van cambiando de modo iterativo.
- Se usa el método de las k-medias (k-means). 53
Método de las k-medias
Método que permite asignar a cada observación el cluster
que se encuentra más próximo, en relación a un centroide
(media). Se puede resumir en los siguientes pasos:
NOTAS:
55
Ejemplo: supongamos dos variables x1 y x2, que
miden dos características y, por ejemplo, 4 objetos que
se denominan A, B, C, D.
Se tiene la siguiente tabla:
x1 x2
A 5 3
B –1 1
C 1 –2
D –3 –2
CLUSTER
57
- En el paso (ii), calculamos las distancias euclídeas de cada
observación al grupo de centroides y reasignamos cada una al
grupo más próximo. Si alguna observación se mueve de grupo,
hay que recalcular los centroides de los grupos. Así, las
distancias son:
d2(A, (AB)) = (5 – 2)2 + (3 – 2)2 = 10
CLUSTER
A 5 3
(BCD) –1 –1
59
- Nuevamente, se recalculan las distancias para cada
observación y se ve si se producen cambios con respecto
a los nuevos centroides.
- Se calculan las distancias euclídeas al cuadrado a los
centroides de los grupos.
CLUSTER A B C D
A 0 40 41 89
(BCD) 52 4 5 5
61
TABLAS DE ANALISIS DE LA VARIANZA
66
PROCEDIMIENTO BASICO
- Dados N objetos, existen M = N(N–1)/2 distancias (o
similitudes) entre pares de diferentes objetos. También se
pueden usar rangos ordenados.
67
- Buscamos una configuración de dimensión q tal que las
distancias entre los N objetos mantengan el orden
expresado en (*). Es decir, que suceda:
68
- Kruskal (1964) dio una medida de la adecuación de la
representación en q dimensiones a las similitudes originales;
dicha medida se denomina stress:
donde dij son las distancias entre los objetos y ĥij son
funciones monótonas de las distancias que se determinan de
modo que S sea mínimo.
69
- Se buscan representaciones geométricas en q dimensiones de
modo que el stress sea mínimo.
70
Observaciones:
71
- El MDS proporciona una descripción dimensional
cuantitativa de las variables, mientras que el Análisis de
Componentes Principales permite, además, una descripción de
los objetos o individuos en forma de sus puntuaciones
factoriales.
72
SOM (Self Organizing Maps)
- El método de las SOM (redes auto-organizativas) está
relacionado con el métodos de las k-means y ha sido
aplicado, por ejemplo, a datos sobre la expresión de
mRNA de ciclos celulares.
73
- Es un método más estructurado que el método de las k-
means, ya que los centroides son nodos de la retícula.
74
Un ejemplo de SOM
75
http://www.neuroinformatik.ruhr-unibochum.de/ini/VDM/research/contents.html
- La posición del nodo Nk en el paso i se denota con
fi(Nk).
77
Problemas:
78
Referencias Bibliográficas
• P. D’Haeseleer et al., Gene Network Inference: From Co-
Expression Clustering to Reverse Engineering, 2000,
Bioinformatics 16: 707-726
• B. S. Everitt and G. Dunn, Applied Multivariate Data Analysis,
Arnold, 2001
• Gower, J. C., Some Distances properties of Latent Root and
Vector Methods Used in Multivariate Analysis, 1966, Biometrika,
53, 325-338
• Gower, J. C., Multivariate Analysis and Multidimensional
Geometry, 1967, The Statistician, 17, 13-25
• J.A.Hartigan, Clustering Algorithms, 1975, John Wiley & Sons,
Inc.
• J.F.Hair Jr., R.E. Anderson, R.L. Tatham, W.C. Black,
Análisis multivariante, 5ª ed., 1999, Prentice Hall Iberia, S.R.L. 79
• R.A. Johnson, D.W. Wichern, Applied Multivariate Statistical
Analysis, 1998, Prentice-Hall, Inc.
• P. Tamayo et al., Interpretinmg Patterns of Genes Expression with
Self-Organizing Maps: Methods and Application to Hematopoietic
Differentiation, 1999, Proc Natl Acad Sci USA 96 2907
80
Enlaces
http://www.Statsoft.com/textbook/stathome.html
http://www.neuroinformatik.ruhr-unibochum.de/ini/VDM/research/contents.html
81