Sunteți pe pagina 1din 6

Instituto tecnolgico de saltillo.

Mayra Lizeth Cortes Vasquez.

Maestra en ingeniera industrial.

Tema: Distancia en estadstica


Multivariada.

Asignatura: Estadistica Multivariada.

Distancia Estadstica.
La nocin de distancia estadstica junto con sus propiedades constituyen una
importante herramienta, tanto en la estadstica matemtica como en el anlisis de
datos. En el primer caso porque mediante una distancia se pueden construir
contrastes de hiptesis, estudiar propiedades asintticas de estimadores,
comparar parmetros, etc. En el segundo caso, porque fa distancia es un
concepto muy intuitivo, que permite obtener representaciones geomtricas, fciles
de entender, ofreciendo al investigador una importante ayuda para interpretar la
estructura de los datos.
Consideramos dos clases de distancias estadsticas entre individuos y
poblaciones:
1.- Los n individuos de una poblacin quedan descritos por una Matriz de datos
X(n x p), donde p es el nmero de variables estadsticas (cuantitativas,
cualitativas, binarias o categricas. EI nmero n suele ser el tamao de una
muestra de la poblacin (ejemplo: n= 75 estudiantes universitarios}, pero puede
darse el caso de que Sl sea una poblacin finita de n elementos
2.- Los individuos de cada poblacin estn caracterizados por un vector aleatorio
X=(X,, ..., XP}, que sigue una distribucin de probabilidad . La distancia entre dos
individuos i,j, caracterizados por los puntos x;,xj de Rp, es una medida simtrica
no negativa. Anlogamente la distancia entre dos poblaciones ser una medida de
divergencia entre los parmetros que las caracterizan. Tambin puede ser
conveniente introducir una distancia entre un individuo i y las parmetros.
Se pueden definir tambin distancias no paramtricas que miden la divergencia
funcional entre funciones de densidad. En .algunos casos estn relacionadas con
medidas de entropa.
Entropa: mide la incertidumbre de una informacin. La entropa tambin se puede
considerar como la cantidad de informacin promedio que contienen los smbolos usados.

Distancias para variables cuantitativas


Sean xi=(xi1,...,xip) xj=(xj1,...,xjp) las observaciones de dos objetos o individuos i,j,
resultado de medir p variables X1,...,Xp sobre ellos.
La distancia eucldea

no es recomendable cuando las Xj son las variables originales porque:


no es invariante frente a cambios de escala de las variables,
presupone que las variables son incorrelacionadas y de varianza unidad.

La distancia de Minkowski

Presenta los mismos inconvenientes que E(E=m2)y,ademas, es difcilmente


euclidianizable (veremos este concepto mas adelante).
Casos particulares de la distancia de Minkowski son:
Distancia ciudad o de Manhattan (q=1)

Distancia dominante (q)

Distancias invariantes frente a cambios de escala:


Distancia de Canberra (modificacin de la distancia ciudad):

Distancia de Karl Pearson (modificacin de la distancia eucldea):

Donde S0=diag(S21,...,S2p) es la matriz diagonal que contiene las varianzas de


X1,...,Xp.
Esta expresin equivale a reescalar cada variable en unidades de desviacin
tpica. El peso que se atribuye a la diferencia entre individuos es mayor cuanto
menor es la dispersin en esa variable. Pero sigue suponiendo que las variables
estn incorrelacionadas.

Distancia de Mahalanobis:

Donde S es la matriz de covarianzas de la matriz de datos X.


Es adecuada como medida de discrepancia entre datos, porque
es invariante frente a transformaciones lineales no singulares de
las variables,
E=M cuando S=I, y K=M cuando S=diag(S21,...,S2p)
tiene en cuenta las correlaciones entre las variables. Por ejemplo, no
aumenta por el simple hecho de aumentar el nmero de variables
observadas, sino que solamente aumentara cuando las nuevas variables no
sean redundantes con respecto de la informacin aportada por las
anteriores.

Distancias para variables binaria


Sean X1,...,Xp p variables binarias con posibles valores{0,1}.
Existen muchsimos coeficientes de similaridad sij entre dos individuos i,j,
calculados a partir de las frecuencias: a= numero de variables con respuesta 1 en
ambos individuos, b=numero de variables con respuesta 0 en el individuo i y con
respuesta 1 en el individuo j, c=numero de variables con respuesta 1 en el
individuo i y con respuesta 0 en el individuo j, d =numero de variables con
respuesta 0 en ambos individuos. Obsrvese que a+b+c+d=p.
Algunos coeficientes de similaridad son:

Distancias para variables categricas.


Se mide una variable categrica nominal con k estados excluyentes sobre una
muestra de n=n1+...+ng individuos provenientes de g poblaciones diferentes. Se
desea obtener una medida de disimilaridad entre estas poblaciones.
En estas condiciones, el vector de frecuencias de cada poblacin n=(n1,...,nk),
para =1,...,g, tiene una distribucin conjunta multinomial con parmetros (n,p),
donde n=n1+...+nk y p=(p1,...,pk) es el vector de probabilidades de los k
estados en la poblacin (con p1+...+pk=1).

Dos medidas de disimilaridad para este tipo de variables son:


la distancia de Bhattacharyya, conocida en gentica como distancia de
Cavalli-Sforza:

y la distancia de Balakrishnan-Sanghvi:

S-ar putea să vă placă și