Sunteți pe pagina 1din 57

Inferencia Multivariada:

Conceptos Preliminares

Hugo Alberto Brango García

Universidad de Córdoba
Montería
Agosto de 2020
Introducción
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.

I El Análisis de datos multivariados proporciona al


investigador métodos para analizar esta clase de datos:
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.

I El Análisis de datos multivariados proporciona al


investigador métodos para analizar esta clase de datos:
I Métodos de reducción de datos
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.

I El Análisis de datos multivariados proporciona al


investigador métodos para analizar esta clase de datos:
I Métodos de reducción de datos
I Métodos de Ordenamiento y agrupación
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.

I El Análisis de datos multivariados proporciona al


investigador métodos para analizar esta clase de datos:
I Métodos de reducción de datos
I Métodos de Ordenamiento y agrupación
I Métodos para investigar las relaciones de dependencia entre
las variables
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.

I El Análisis de datos multivariados proporciona al


investigador métodos para analizar esta clase de datos:
I Métodos de reducción de datos
I Métodos de Ordenamiento y agrupación
I Métodos para investigar las relaciones de dependencia entre
las variables
I Métodos de predicción
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.

I El Análisis de datos multivariados proporciona al


investigador métodos para analizar esta clase de datos:
I Métodos de reducción de datos
I Métodos de Ordenamiento y agrupación
I Métodos para investigar las relaciones de dependencia entre
las variables
I Métodos de predicción
I Construcción y pruebas de hipótesis
Datos
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente

I Presentación de los datos: su objetivo es facilitar el análisis


Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente

I Presentación de los datos: su objetivo es facilitar el análisis


I Tablas
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente

I Presentación de los datos: su objetivo es facilitar el análisis


I Tablas
I Arreglos matriciales
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente

I Presentación de los datos: su objetivo es facilitar el análisis


I Tablas
I Arreglos matriciales
I Medidas resúmenes o descriptivas
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente

I Presentación de los datos: su objetivo es facilitar el análisis


I Tablas
I Arreglos matriciales
I Medidas resúmenes o descriptivas
I Grácos
Tablas

I Sea xjk el valor que toma la k−ésima variable sobre el


j−ésimo objeto (o unidad experimental)
Tablas

I Sea xjk el valor que toma la k−ésima variable sobre el


j−ésimo objeto (o unidad experimental)

I Si se toman n observaciones sobre p variables de interés, el


conjunto de datos puede ser presentado como
Tablas

I Sea xjk el valor que toma la k−ésima variable sobre el


j−ésimo objeto (o unidad experimental)

I Si se toman n observaciones sobre p variables de interés, el


conjunto de datos puede ser presentado como

Objeto Var 1 Var 2 . . . Var k ... Var p


1 x11 x12 ... x1k ... x1p
2 x21 x22 ... x2k ... x2p
.. .. .. .. ..
. . . . .
j xj1 xj2 ... xjk ... xjp
.. .. .. .. ..
. . . . .
n xn1 xn2 ... xnk ... xnp
Organización de datos
I Arreglos matriciales
Los datos también pueden ser presentados usando arreglos
matriciales:
Organización de datos
I Arreglos matriciales
Los datos también pueden ser presentados usando arreglos
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22 ··· x2k ··· x2p 
 .. .. .. .. 
 
 . . . . 
X=
 
x
 j1 x j2 ··· xjk ··· xjp 
 .. . .. .. 

 . .
. . . 
xn1 xn2 ··· xnk · · · xnp
Organización de datos
I Arreglos matriciales
Los datos también pueden ser presentados usando arreglos
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22 ··· x2k ··· x2p 
 .. .. .. .. 
 
 . . . . 
X=
 
x
 j1 x j2 ··· xjk ··· xjp 
 .. . .. .. 

 . .
. . . 
xn1 xn2 ··· xnk · · · xnp
En este arreglo matricial,
Organización de datos
I Arreglos matriciales
Los datos también pueden ser presentados usando arreglos
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22 ··· x2k ··· x2p 
 .. .. .. .. 
 
 . . . . 
X=
 
x
 j1 x j2 ··· xjk ··· xjp 
 .. . .. .. 

 . .
. . . 
xn1 xn2 ··· xnk · · · xnp
En este arreglo matricial,
I una columna representa la información de los n individuos
sobre una variable,
Organización de datos
I Arreglos matriciales
Los datos también pueden ser presentados usando arreglos
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22 ··· x2k ··· x2p 
 .. .. .. .. 
 
 . . . . 
X=
 
x
 j1 x j2 ··· xjk ··· xjp 
 .. . .. .. 

 . .
. . . 
xn1 xn2 ··· xnk · · · xnp
En este arreglo matricial,
I una columna representa la información de los n individuos
sobre una variable,
I una la representa la información de las p variables sobre
un individuo.
Organización de datos

I Estadísticas descriptivas:
Organización de datos

I Estadísticas descriptivas:
I Los conjuntos de datos generalmente son voluminosos.
Organización de datos

I Estadísticas descriptivas:
I Los conjuntos de datos generalmente son voluminosos.
I Esto es un serio obstáculo para extraer información
relevante visualmente.
Organización de datos

I Estadísticas descriptivas:
I Los conjuntos de datos generalmente son voluminosos.
I Esto es un serio obstáculo para extraer información
relevante visualmente.
I Mucha de la información contenida en X puede ser evaluada
por medio de medidas que describen cuantitativamente
ciertas características de los datos: localización, dispersión,
correlación, simetría, curtosis.
Estadísticas descriptivas

Sean n observaciones sobre p variables:


Estadísticas descriptivas

Sean n observaciones sobre p variables:


I Media muestral para la k−ésima variable
n
1X
xk = xjk k = 1, 2 . . . , p.
n
j=1
Estadísticas descriptivas

Sean n observaciones sobre p variables:


I Media muestral para la k−ésima variable
n
1X
xk = xjk k = 1, 2 . . . , p.
n
j=1

I Varianza muestral para la k−ésima variable


n
1X
Sk2 = (xjk − xk )2
n
j=1
Estadísticas descriptivas

Sean n observaciones sobre p variables:


I Media muestral para la k−ésima variable
n
1X
xk = xjk k = 1, 2 . . . , p.
n
j=1

I Varianza muestral para la k−ésima variable


n
1X
Sk2 = (xjk − xk )2
n
j=1

I Desviación estándar para la k−ésima variable


q
sk = s2k
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k -ésima variable se dene como
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k -ésima variable se dene como
n
1X
sik = (xji − xi ) (xjk − xk )
n
j=1
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k -ésima variable se dene como
n
1X
sik = (xji − xi ) (xjk − xk )
n
j=1

Interpretación:
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k -ésima variable se dene como
n
1X
sik = (xji − xi ) (xjk − xk )
n
j=1

Interpretación:
I sik > 0 indica una asociación lineal positiva entre las
variables xi y xk .
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k -ésima variable se dene como
n
1X
sik = (xji − xi ) (xjk − xk )
n
j=1

Interpretación:
I sik > 0 indica una asociación lineal positiva entre las
variables xi y xk .
I sik < 0 indica una asociación lineal negativa entre las
variables xi y xk .
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k -ésima variable se dene como
n
1X
sik = (xji − xi ) (xjk − xk )
n
j=1

Interpretación:
I sik > 0 indica una asociación lineal positiva entre las
variables xi y xk .
I sik < 0 indica una asociación lineal negativa entre las
variables xi y xk .
I sik = 0 indica que no hay asociación lineal entre las
variables xi y xk .
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Propiedades
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Propiedades

1. −1 ≤ rik ≤ 1
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Propiedades

1. −1 ≤ rik ≤ 1
2. Considere las versiones estandarizadas de las variables xi y
xk
xji − xi x − xk
zji = √ y zjk = jk
√ ,
sii skk
entonces rik es la covarianza muestral entre zik y zjk .
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Propiedades

1. −1 ≤ rik ≤ 1
2. Considere las versiones estandarizadas de las variables xi y
xk
xji − xi x − xk
zji = √ y zjk = jk
√ ,
sii skk
entonces rik es la covarianza muestral entre zik y zjk .
3. sik y rik solo informan sobre la existencia o no de una
asociación lineal.
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Propiedades

1. −1 ≤ rik ≤ 1
2. Considere las versiones estandarizadas de las variables xi y
xk
xji − xi x − xk
zji = √ y zjk = jk
√ ,
sii skk
entonces rik es la covarianza muestral entre zik y zjk .
3. sik y rik solo informan sobre la existencia o no de una
asociación lineal.
4. sik y rik son sensibles a la existencia de datos atípicos
(outliers).
Arreglos basados en estadísticas descriptivas
Arreglos basados en estadísticas descriptivas

I Vector de medias muestral:


 
x1
 x2 
x= . 
 
.
 . 
xp
Arreglos basados en estadísticas descriptivas

I Vector de medias muestral:


 
x1
 x2 
x= . 
 
.
 . 
xp

I Matriz de varianzas y covarianzas muéstrales:


 
s11 s12 . . . s1p
 s21 s22 . . . s2p 
S= . .. . . .
 
 .. . . ..


sp1 sp2 . . . spp
Sn es una matriz simétrica, es decir Sn = Stn
Arreglos basados en estadísticas descriptivas
Arreglos basados en estadísticas descriptivas

I Matriz de correlaciones muéstrales


 
1 r12 . . . r1p
 r21 1 . . . r2p 
R= . . . .
 
 .. .
. . .
. . 

rp1 rp2 . . . 1
Arreglos basados en estadísticas descriptivas

I Matriz de correlaciones muéstrales


 
1 r12 . . . r1p
 r21 1 . . . r2p 
R= . . . .
 
 .. .
. . .
. . 

rp1 rp2 . . . 1
R también es una matriz simétrica
Ejemplo 1

Suponga que se tienen los valores para p = 2 y n = 4

Variable 1 42 52 48 58
Variable 2 4 5 4 3

Encontrar los arreglos X, Sn y R.

Solución

Primero escribamos matricialmente el arreglo de los datos:


   
x11 x12 42 4
 x21 x22   52 5 
X=
 x31
= 
x32   48 4 
x41 x42 58 3
Ejemplo 1

Vector de medias: primero calculamos las medias para cada


variable
4
1
X 1
x1 = 4 xj1 = (42 + 52 + 48 + 58) = 50
4
j=1
4
1
X 1
x2 = 4 (4 + 5 + 4 + 3) = 4
xj2 =
4
j=1
   
x1 50
=⇒ x = =
x2 4
Ejemplo 1

Vector de medias: primero calculamos las medias para cada


variable
4
1
X 1
x1 = 4 xj1 = (42 + 52 + 48 + 58) = 50
4
j=1
4
1
X 1
x2 = 4 (4 + 5 + 4 + 3) = 4
xj2 =
4
j=1
   
x1 50
=⇒ x = =
x2 4
La matriz de varianzas y covarianzas viene dada por

 
s11 s21
S=
s12 s22
Ejemplo 1
n
1X
s11 = (xj1 − x1 )2
4
j=1
1h i
= (42 − 50)2 + (52 − 50)2 + (48 − 50)2 + (50 − 50)2 = 34
4
n
1X
s22 = (xj2 − x2 )2
4
j=1
1h i
= (4 − 4)2 + (5 − 4)2 + (4 − 4)2 + (3 − 4)2 = 0,5
4
n
1X
s12 = (xj1 − x1 ) (xj2 − x2 )
4
j=1
1
= [(42 − 50) (4 − 4) + (52 − 50)
4
+ (48 − 50) (4 − 4) + (50 − 50) (3 − 4)] = −1, 5
s21 = s12
Ejemplo 1

Entonces, la matriz de varianzas y covarianzas muestrales queda:


 
34 −1,5
Sn = .
−1,5 0,5

La matriz de correlación muestral es:


s12 −1, 5
r12 = √ √ =√ √ = −0,36
s11 s22 34 0,5
entonces,
 
1 −0,36
R= .
−0,36 1

S-ar putea să vă placă și