Clase1 Multivariado2018 - 30

¿Por qué el profesional necesita
saber del tema?

ANALSIS MULTIVARIADO
Clase 2
1. EL MÉTODO CIENTIFICO Y EL ANÁLISIS

ESTADÍSTICO MULTIVARIADO
2. ASIGNACIÓN DE PROYECTO
3. CONCEPTOS BÁSICOS DE ALGEBRA VECTORIAL Y
ETADÍSTICA
EL MÉTODO CIENTIFICO
Y
EL ANÁLISIS ESTADÍSTICO MULTIVARIADO
CIENCIA A .E. MULTIVARIADO
MÉTODO
MÉTODOD CIENTÍFICO MULTIVARIADOS
ETAPAS:
ETAPAS: • PLANIFICACIÓN DEL DISEÑO
OBSERVACIÓN DEL FENÓMENO •DISEÑO DEL INSTRUMNETO
FORMULACIÓN DE HIPÓTESIS • RECOLECCIÓN DE DATOS
•PROCESAMIENTO DE DATOS
VERIFICACIÓN DE HIPÓTESIS •PRESENTACIÓN DE INFORMACIÓN
ACEPTACIÓN O RECHAZO DE HIPÓTESIS •ANÁLISIS DE INFORMACIÓN
Ciencia METODOS
MULTIVARIADOS
PURAS MUESTRAS POBLACIONES

O FORMALES FÁCTICAS
ESTADÍSTICOS PARÁMETROS
Lógica Matemática Naturales Sociales
INTERACCIONES INFERENCIA ESTADÍSTICA
Tecnología Técnicas de apoyo
PRODUCTOS
Y
SERVICIOS
Las ciencias pura o básicas o formales estudian el mundo que nos rodea incluso a nosotros mismos sin ningún beneficio inmediato para el hombre. Se
investiga porque busca enriquecer el conocimiento. ciencia aplicada o fáctica trata de resolver problemas específicos o conjuntos de problemas,
o de crear productos
PLANIFICACIÓN DE LA INVESTIGACIÓN
Aspectos teóricos
Aspectos
PROBLEMA metodológicos
JUSTIFICACIÓN
OBJETIVOS
PROPÓSITOS Aspectos
MARCO Administrativos
TEÓRICO
TIPO DE ESTUDIO
RECURSOS:
POBLACIÓN Y MUESTRA
HUMANOS
PRESUPUESTO
CRONOGRAMA
HIPOTESIS
PLANES DE RECOLECCIÓN Y PLANES DE
TRAMIENTO PRESENTACIÓN Y
ANÁLISIS
RECOLECCIÓN
DE
DATOS
CONSIDERACIONES
ÉTICAS
MEDICIÓN PROCESO
VARIABLE SE DEFINE
NATURALEZA NATURALEZA FUENTES T. DE RECOP. INSTRUMENTOS

CUALITATIVA CUANTITATIVA
REGISTRO DE
sexo PRIMARIA SECUNDARIA CUESTIONARIO OBSERVACIONES
Discretos y
continuos
NIVEL
NOMINAL
MIXTA OBSERVACIÓN
NIVEL
ORDINAL ENTREVISTA
´Producción
Grados de estudio
NIVEL
INTERVALO
NIVEL
RAZÓN
Ingreso- incluye punto

Tipos de datos (variables)

Nominal
La categoría es descrita con un nombre
Cualitativos Ejemplo: Sexo, religión, etc
(Atributos)
Categorizaciones
no numéricas Ordinal
Las categorías son ordenadas
Ejemplo: Nivel de destreza, etc
Datos Discretos
Todos valores posibles que puede tomar la
variable son números enteros
Ejemplo: Número de unidades no conformes,
Cuantitativos número de accidentes, etc
Datos
numéricos Continuos
La variable puede tomar cualquier valor
Ejemplo: Tiempo, peso, distancia
MEDICIÓN ANALSIS MULTIVARIADO
• Implica comparar con un patrón o serie de características de
cualidades que presentan las personas u objetos o diversas
magnitudes asociadas con una escala numérica.
• Estas propiedades que toman distintos valores se llaman variables
• Términos importantes de la medición: Exactitud y precisión
INEXACTITUD
EXACTITUD
ERROR SISTEMATICO: sesgo
Proximidad de una medida a su verdadero valor
PRECISIÓN Puede existir precisión sin

Poca dispersión exactitud
Pero no a la inversa
ALTA DISPERSIÓN
ejemplos
Nivel nominal: la respuesta del pueblo fue: Nivel de intervalo:
Positiva________Negativa__________ Marque con una X la estatura de el individuo:
Estatura( metros) Marque con X

1-1,5
Nivel ordinal:
El estrato a que pertenece es: 1,51-1,80
Estrato Marque con X >1,80
1
2
Nivel de razón:¿Cuál fue el promedio ponderado de la
3 carrera?____4,5__
4
5
6
OPERACIONALIZACIÓN DE VARIABLES EN ESTUDIOS CUANTITATIVOS
Macro Variables Definición Naturaleza Nivel de Criterio de

variables medición clasificación
No de años cumplidos por el Cuantitativa Razón 25,, 26, 27, 28, 29
Edad entrevistado la fecha de continua
realización de la encuesta
Característica fenotípica que Cualitativa Nominal -Masculino
Características sexo diferencia al hombre de la mujer -Femenino
demográficas
Característica personal, que Cualitativa Nominal -Soltero
determina la capacidad, los -Casado
Est. civil
derechos y deberes del individuo -Viudo
-Unión libre
OPERACIONALIZACIÓN DE VARIABLES EN ESTUDIOS CUALITATIVOS
Utilizando el ejemplo de Tuescas: sobre “conocimientos, actitudes, y prácticas en la

alimentación de los pacientes hemodializados con insuficiencia renal crónica (IRC)
Macro Variables Definición

variables
• En la IRC, los riñones dejan de funcionar.
• Las funciones del Riñón son: producir la orina, f iltrar
Definición
la sangre, mantener el equilibrio de los minerales(
sodio, potasio, fosforo)
Conocimiento
• Al comienzo de la IRC se presenta inapetencia por
acumulación de toxinas en la sangre
Signos y síntomas
•Los niveles bajos de hemoglobina pueden producir
palidez, debilidad y cansancio
MÉTODOS Y TÉCNICAS DE RECOLECCIÓN DE DATOS
•Entrevista
•Observación
Cuantitativo Método
•Cuestionario
Método
•Grupos focales
•Técnica delphi
•Cualitativas •Método
•Historia de vida
• Estudio de casos
ETAPAS DEL DISEÑO DE UN FORMULARIO
TIPIO DE PREGUNTA:
DE REPUESTA LIBRE. DESCRIBE LA RESPUESTA
CERRADAS: DICOTÓMICA SI__NO__, ; 1____2___; V___F____
:
SOBRE ELECCIÓN DE PRODUCTOS:
a. PRODUCTO A
b. PRODUCTO B
c. PRODUCTO C
ESCALA DE LIKERT
SOBRE PROYECTOS
CARACTERÍSTICAS DEL DE PROYECTO A B C D E
EL PROYECTO CUMPLE CON LAS NORMAS
EL PROYECTO ESTA BIEN ELABORADO
EL PROYECTO ES MUY COSTOSOS
EL PROYECTO CUENTA CON EL PERSONAL ADECUADO
.
POBLACIÓN DE ESTUDIO
FINITO IINFINITO HIPOT’ETICO
MARCO TAMAÑO TECNICAS

DE
MUESTRAL MUESTRAL
MUESTREO
Población
diana No probabilístico
probabilístico
Población
accesible Calculo
según
Población estudio
elegible
Universo
muestra MUESTRA
Población Diana o de referencia

Marco muestral: Niveles de población
Población Diana Pregunta de investigación
Población accesible Viabilidad accesible
Población elegible Criterios de inclusión y exclusión
cálculo del tamaño muestral y tipo de

MUESTRA
muestreo
PROCESAMIENTO DE DATOS
revisión de datos obtenidos en la

recolección
Método manual Método

Sistematizado
Construcción
de tablas Construcción
maestras de base de
datos
SPSS,
STACGRAPHIC
S y Mat Lab
PRESENTACIÓN DE LA INFORMACIÓN
ESTUDIOS MULTIVARIADOS
Tablas Gráficos
• Tablas de Gráficos de Gráficos rotados

Univariada Bivariada
frecuencia sedimentación
Variables
cualitativas o
Presentación de Tablas de cuantitativas
una contingencia discontinuas
variable • Pie o pastel
Barras simples
Agrupamiento o De correspondencia
clúster de atributos
BIBLIOGRAFÍA RECOMENDADA
Arbuckle, J. L. (2010). IBM SPSS AMOS 19 User´s Guide. Chicago: Amos Development Corporation.
Bollen, K. A. (1989). Structural Equations with Latent Variables. New York: John Wiley & sons.
Bollen, K. A. y Long, J. S. (Ed.). (1993). Testing structural eqution models. Newbury Park, CA: Sage.
Byrne, B. M. (2001). St ructural Equation Modeling with AMOS. Basic Concepts, Applications and
Programming. Mahwah, NJ: Lawrence Erlbaum Associates, Pbs.
Dillon, W. R. y Goldstein, M. (1984). Multivariate Analysi s: Methods and Applicat ions. New York: John
Wiley & Sons.
Hai r, J. F. , Bl ack, W. C. , Babi n , B. J. , Anderson, R. E. , Tatham, R. L. (2009) - 7ª Ed. Multiva r i ate Dat a
Analysis. Pearson Prentice-Hall.
Hooper, D . , Coughl an, J . y Mul l e n , M.R. (2008): Structural Equation Mode l l i ng: Guidelines of
determining Model Fit. The Electronic Journal of Business Research Methods, 6 (1), 53-60.
Hoyl e, R. H. (ed) (1995). St ructural Equation Modeling: Concept s, Issues and Applicat ions. Thousand
Oaks, CA: Sage.
Jöreskog, K.G., Sörbom, D., 1982. Recent developments in structural equation modeling. Journal of
Marketing Research 19, 404–416.
Lévy Mangin, J. P (2006) (Di r. ): Modelización con Estructuras de Covarianzas en Ciencias Sociales,
Ed. Netbiblo, La Coruña
Long, J. S. (1983). Conf irmatory Factor Analysis: A Preface to LISREL. Sage Universi ty Paper Series on
Quantitative Applications in the Social Sciences, 007-033. Newbury Park, CA: Sage.
Long, J . S. (1990 ) . Covariance St r u c t u re Models: An introduct ion to LISREL. Sage Unive r s i ty Paper
Series on Quantitative Applications in the Social Sciences, 007-034. Newbury Park, CA: Sage.
van Eye, A. y Clogg, C. C. (Ed.) (1994). Latent Variables Analysis: Applications for Developmental
Conceptos previos
 Algebra vectorial y estadística multivariada
 Función normal multivariada
 Matriz de varianza- covarianza  xyy Matriz de correlación  xy
 Estrategia de toma de muestras
 Errores en la entrada de datos. Doble operador
Datos Outlier Multivariados y localización
Procedimientos gráficos ( Anfrews, caras de Chernoff
 Pruebas de normalidad
 Elaboración y validación de instrumento
Validez y confiabilidad
 Correlación de muestras
ALGEBRA VECTORIAL Y DISTRIBUCIÓN DE DENSIDAD MULTIVARIADA

BÁSICA
MATRICES Y VECTORES DE DATOS
X1 X2  Xp
x x12  x1 p  : Valores de la r-ésima unidad
I 1  11 
I 2  x 21 x 22  x 2 p  experimental en la j-ésima
X  I r  x r1 x r 2  x rp  variable respuesta
 
    p: Cantidad de variables
I n x 
x n 2  x np 
 n1 n p
n: Individuos o unidades
experimentales sobre la cual se
están midiendo las variables X
LENGUAJE SIMBÓLICO
MATRICES Y VECTORES DE DATOS
Los reglones de una matriz de datos se llaman
vectores de reglones, se simboliza por :
También se llama transpuesto del vector columna y
sus elementos son:
REGLÓN COLUMNA
x  [ xr1, xr 2, ..., xrp ]
'  x r1 
r
x 
 r1 
 . 
xr   
 . 
 . 
 
 xp 
LENGUAJE SIMBÓLICO
SUBÍNDICE DE LOS DATOS:
1) I, j, k,… se usan como subíndices para las variables respuesta
2) S, t,… se usan como subíndices de las unidades experimentales
Ejemplos ij : relación entre la i-ésima y la j-ésima variable
d rs :Denotaría la relación entre la r-ésima y la s-ésima unidad

experimental
f rj
: Denota la j-ésima variable de una r-ésima unidad
experimental
Alfabeto griego
Parámetro de regresión entre variables latentes endógenas

Par- que representa los coef- de regresión entre factores latentes exógenos y endógenos
Errores de medida asociados con x (variable observable que mide un factor independiente)
Errores de medida asociados con Y (variable observable que mide un factor dependiente)
Error estructural
variable latente endógena dependiente
Cargas factoriales
variable latente exógena independiente
Covarianza entre variables latientes exógenas
Covarianza entre errores estructurales

Función de densidad normal multivariada
1
  x   '  1  x   
f x  x;  ,   
1
e 2
para x  E p
2 
p 1
2
 2
 E p espacio vectorial p dimensional de números reales. Es decir,

E p  ( x1 , x 2 ,....., x j ) :   x j  , para j  1, 2,, p.
Propiedad de la distribución normal multivariada

 X1 
X 
El vector X    tiene una distribución normal multivariada si:
2
  
 
 X p 
 X1 
X  p

aX  a1 a2  a p     ai X i
2
   i 1
 tiene una distribución normal univariada
 
 X p 
para todo vector a .
Vectores de medias y matrices de varianza covarianza

La media de un vector X de variables aleatorias se denota por  , definido por:
 E ( X 1 )   1 
E( X )    
  E( X )   2 
  2
   
   
 E ( X p )  p 
Y la matriz de covarianza de X se denota por  , donde:

 11  12   1 p 
 
 21  22   2 p 
 
   
  Cov ( X )  E

 X    X    

 
 
 
 
 p1  p2   pp 
Con
 jj  Var ( X j )  E[ X j   j ] 2 , para j  1, 2,..., p, y
 ij  Cov( X i , X j )  E ( X i   i )( X j   j ) ' , para i  j  1, 2,..., p,
 
N
1
 ij  Cov( X i , X j )  E ( X i   i )( X j   j ) 
'
[ ( x ri  xi )( x rj  x j )
N  1 r 1
GRAFICOS DE DATOS MULTIVARIADOS
2 4 3
 
2 3 4
X  3 3 4
 
1 5 6
2 8 
 2
a) ¿Cuales son los valores de p, N,
b) Determinar x j  ,ij  ij y
c) Determinar x3 , x'  ii y
3
Correlación y matriz de correlación
 ij
El coeficiente de correlación entre X i y X j se denota por  ij : ij 
 ii jj
La matriz de correlación para un vector aleatorio X se denota por  :
Utilice cualquier método para hallar la matriz de correlación con base a la matriz de varianza covarianza
ESTRATEGIA DE TOMA DE MUESTRAS

1. Cuestionario vía virtual
2. Contratar encuestadores y entrenarlos
3. El mismo investigador mediante
entrevista, cuestionario y observación
ERRORES DE ENTRADA
1. Digitación sin seguimiento.
Doble operador
Programas de comparación de archivos
2. Datos mal tomados por falta de entrenamiento o
seguimiento
Localización y tratamiento de datos outlier
1. Rutinas de detección de datos oulier

2. Gráficos de chernoff
3. El mismo investigador mediante
entrevista, cuestionario y observación
Caras de Chernoff
´Chernoff (1973) sugirió usar caras para representar datos

multidimencionales.
Recomendó Asociar r características faciales diferentes con
variables diferentes
Prototipo de graficas con datos outlier

Caras de Chernoff
´Chernoff (1973) sugirió usar caras para representar datos

multidimencionales.
Recomendó Asociar r características faciales diferentes con
variables diferentes
Tller 1. Determinación de datos oputlier
Metodología: Tomado como base la base de datos 1

determine editarlos en stactgraphics
2. Active: Graficar- visualización multivariante-grafico matriz
3. Graficar- visualización multivariante- caras de chernoff
4. Detectar datos outlier
TODAS LAS OBSERVACIONES
COMPORTAMIENTOS OUTLIERS
Clase 3
ANLIS DE DATOS MEDIANTE SPSS
MANEJO BÁSICO MATLAB ANÁLISIS ESTADÍSTICO MULTIVARIADO
VALIDEZ Y FIABILIDAD DEL INSTRUMENTO
ANÁLISIS DESCRIPTIVO ( MEDIA DESVIACIÓN, ASIMETRÍA Y CURTOSIS
CORRELACIÓN DE MUESTRAS E INTERVALOS DE CONFIANZA PARA
CORRELACIÓN
METODO GRAFICO
INTERVALOS DE CONFIANZA DE FISHER
INTERVALOS DE CONFIANZA DE RUBEN
EIGEVALORES Y EIGENVECTORES
TALLER
1. Tomar la base de datos taller 1 y analice el comportamiento de los datos mediante caras de
chernoff . Utilice stacgraphics
2. Tomado como base la base 1 del taller 1 desarrolle los
siguiente puntos:
• Almacene X en Y, halle matrices de varianza covarianza (MC), inversa de la MC (MI)
• Almacene en DP elementos de la diagonal principal de MC
• Almacene en DS elementos de la diagonal secundaria de MC
• Otras actividades de aprendizaje del paquete PLOT,…
Elaboración y validación de instrumento
Validez y fiabilidad
Validez: determinar si el instrumento mide lo que se pretende medir

Tipos de validez:
De contenido: Se dice que una prueba o test cumple con las condiciones de validez de
contenido si constituye una muestra adecuada y representativa de los contenidos y
alcance del constructo o dimensión a evaluar. prueba de educación con una fuerte
validez de contenido incluirá los temas realmente enseñados a los estudiantes
Validez predictiva: se refiere al grado de eficacia con que se puede predecir o
pronosticar una variable de interés (criterio) a partir de las puntuaciones en un test.
Validez de constructo: hace referencia a la recogida de evidencias empíricas que
garanticen la existencia de un constructo en las condiciones exigibles a cualquier
modelo o teoría científica
Validez factorial y validez discrimínate, que se vera en cuando se vean estas
técnicas
Elaboración y validación de instrumento
Validez y fiabilidad
Fiabilidad: (también llamada técnicamente confiabilidad) es una
propiedad psicométrica que hace referencia a la ausencia de errores de medida, o lo
que es lo mismo, al grado de consistencia y estabilidad de las puntuaciones obtenidas a
lo largo de sucesivos procesos de medición con un mismo instrumento
FIABILIDAD DE ESCALA. ALPHA DE CRONBACH
Junto al análisis descriptivo es útil y necesario hacer hincapié en la fiabilidad de los datos, para
cuyo estudio se analiza el estadístico alpha de Cronbach. Este estadístico supone un modelo de
consistencia interna que estima el límite inferior del coeficiente de fiabilidad basándose en la
varianza o en el promedio de las correlaciones entre los ítems, y cuyo cálculo viene determinado
por la siguiente expresión:
Alfa de Cronbach
a) Mediante la varianza de los items b) Mediante la matriz de correlación
n  Vi  nr
 1   
n 1  Vt  1  r (n  1)
 : Alfa de cronbach  : Alfa de cronbach
n : Númer de items n : Númer de items
Vi : Varianza de cada var iable r : Pr omedio de la correlación lineal
Vi : Varianza del total de cada uno de los items
Este calculo lo puede hacer con SPSS. se espera que este índice >= 0,7
Se puede alminar variables con estimaciones bajas y calcular el índice a ver si mejora o empeora
TRANFORMACIÓN DE LA ESCALA CUANDO CRONBACH
DA NEGATIVO. con varoianza
En una escala Likert hay reactivos positivos y reactivos negativos:
Ejemplo reactivo Positivo: cuanta confianza te inspira la persona que te ha atendido
Ejemplo de reactivo Negativo: Cuanto te molesto tener que esperar o el tiempo invertido en la sala de espera de la EPS
Si el índice de cronbach es negativo se procede así: ( v2 y v3 son de reacción negativa)
transformación-calcular suma=v1+v2..+np-acepta y se saca la correlación incluyendo la suma y aparece correlación negativa, buscar la
variable que con suma da negativo y proceda:
Hallamos alfa de cronbach. Si da menos de 0,7 convertimos las preguntas de reacción negativa en positiva
1. Para invertirlo se copia en nueva columna v2i con los valores de v2 y lo ordenamos de mayor a menor
2. Invertimos los valores así: 1 es 5; 2 es 4 ;3 es 3; 4 es 2; 5 es 1
3. Hallamos nuevamente alfa de cronbach. Si da menos de 0,7 se repite con v3i copiando el contenido de v3
4. Hallamos el alpha de cronbach solo con las variables incluyendo las invertidas Desarrolle el siguiente ejemplo
ID V1 V2 V3 V4 V5
1 1 4 4 1 3
2 5 3 2 2 3
3 4 1 1 3 3
4 2 5 2 3 3
5 3 3 1 4 3
6 1 2 5 2 3
7 4 1 1 5 3
8 1 2 3 3 3
9 2 5 2 3 3
10 2 4 4 1 3
TRANFORMACIÓN DE LA ESCALA CUANDO CRONBACH
DA NEGATIVO
En una escala Likert hay reactivos positivos y reactivos negativos:
Ejemplo reactivo Positivo: cuanta confianza te inspira la persona que te ha atendido
Ejemplo de reactivo Negativo: Cuanto te molesto tener que esperar o el tiempo invertido en la sala de espera de la EPS
Si el índice de cronbach es negativo se procede así:
transformación-calcular suma=v1+v2..+np-acepta y se saca la correlación incluyendo la suma y aparece correlación negativa, buscar la
variable que con suma da negativo y proceda:
1. Para invertirlo se copia en nueva columna y nuevamente halla correlación y colocamos V3i y lo ordenamos: ordenamos la
columna suma
2. Invertimos los valores así: 1 es 5; 2 es 4 ;3 es 3; 4 es 2; 5 es 1
3. Hallamos nuevamente la suma cambiando la variable V3 por V3i y ordenamos la v3i
4. Hallamos correlación incluyendo la nueva suma
5. Repetimos el procesos hasta que todas las correlaciones sean positivas
6. Hallamos el alpha de cronbach solo con las variables incluyendo las invertidas Desarrolle el siguiente ejemplo
ID V1 V2 V3 V4 V5
1 1 4 4 1 3
2 5 3 2 2 3
3 4 1 1 3 3
4 2 5 2 3 3
5 3 3 1 4 3
6 1 2 5 2 3
7 4 1 1 5 3
8 1 2 3 3 3
9 2 5 2 3 3
10 2 4 4 1 3
ANALIS DESCRIPTIVO: MEDIAS, DESVIACIÓN Y
COEFICIENTES DE ASIMETRÍA
A la vista de los valores de los estadísticos de la tabla anterior, se entiende que

existe normalidad univariada de los datos: asimetría menor que 3 y curtosis menor que 8
es buena, por tanto no hay problema de normalidad
ECUACIONES
Asimetría y curtosis ESTRUCTURALES
ASIMERTRÍA
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno
de los valores, ( X ) la media de la muestra y (ni) la frecuencia de cada valor.
Los resultados de esta
ecuación se interpretan:
(g1 = 0): Se acepta que la distribución es Simétrica a los dos lados de la media.
(g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden
a reunir más en la parte izquierda que en la derecha de la media.
(g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden
a reunir más en la parte derecha de la media.
CURTOSIS
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores,
( Xla media de la muestra y (ni) la frecuencia de cada valor.
Los resultados de esta fórmula
se interpretan:
(g2 = 0) la distribución es Mesocúrtica:
(g2 > 0) la distribución es Leptocúrtica
(g2 < 0) la distribución es Platicúrtica
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 =

±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal.
COFICEINTEB DE CORRALCION DE PEARSON
Si se percibe diversas correlaciones diferentes de cero

es síntoma de que puede aplicar las técnicas de
ANÁLISIS MULTIVARIADO
INTERVALO DE LA CORREALCÓN
Objetivo:
Correlación de muestras
Pruebas estadísticas e intervalos de confianza
Intervalos de confianza para  por el método gráfico
Intervalos de confianza para  por la aproximación de
FISHER
Intervalos de confianza para  por aproximación de
Rubén
CORRELACIONES DE MUESTRA
Suponga que el investigador le dicen que la correlación muestral
fue de: 0,90 y en otro caso 0,30
• Correlaciones cercanas a cero no existe relación entre par de
variables.
• Los intervalos de confianza son importantes por que dan
información confiable en cuanto al tamaño numérico real de un
coeficiente de correlación de la población.
NOTA ACLARATORIA
¿Es lo mismo decir que dos variables están correlacionadas cuando

creen que están relacionadas y que dos variables no están
correlacionadas cuando creen que no están relacionadas ?
Haga la explicación a partir de las siguientes ecuaciones:
X2 = −2𝑋12 +3 para x1=[-4,4]

X2 = 2𝑋12 +3 para X1=[1,2…,9]
Gráfica de dispersión de dos variables que no están correlacionadas, pero si
relacionadas
Relacion entre X1 y X2 Relación entre X1 y X2
30 120
25 100
20 80
X2
X2
15 60
10 40
5 20
0 0
-6 -4 -2 0 2 4 6 0 2 4 6 8 10
X1 X1
¿SON SUFICIENTEMENTE GRANDES LAS CORRELACIONES COMO PARA
SER UTILES?
Lo que en realidad se necesita saber, en las situaciones de la vida reales cuales

correlaciones son suficientemente grandes como para tener alguna importancia
practica.
En ambiente controlado (laboratorio) 0,9 son acostumbradas.
Datos de poblaciones en las que el investigador tiene muy poco control,
correlaciones mayores que 0.7 sean difíciles de obtener,
0,6 pueden considerarse bastante grandes.
Para datos que se reúnen provenientes de personas, correlaciones cuyos valores
absolutos sean mayores que 0.5 y hasta 0,4 tan grandes como para identificar
relaciones importantes entre parejas de variables.
Tamaño de la muestra
Las muestras deben ser mayor que 12

Valores de correlaciones diferentes Ncr
NCr =p (p-1)/2
ejemplo: si p= 20, entonces se pueden calcular 190 correlaciones
Cuando cree que todas las variables son independientes, se esperar

que de 5% a 10% de las correlaciones por pares sean
significativamente diferentes de cero tan solo por azar.
David (1954) demostró como calcular el intervalo de confianza de una
población cuando se tiene la correlación de la muestra
Intervalos de Confianza por el método de las gráficas
Uso de la curvas de confianza

 Localizar la correlación observada de la muestra sobre el
eje horizontal.
 Trazar una recta vertidas sobre la gráfica en este lugar.
 Localizar la intersección de esta recta con las curvas
correspondientes al tamaño N de la muestra.
 Localizar las ordenadas (puntos sobre el eje vertical) de
estos puntos de intersección.
 El par de ordenas hallado forma el intervalo de confianza
para
Ejemplo:
Para una: N = 25 y r = 0.7
N = 25 y r = 0.7
Ejemplo 1
Hallar el intervalo de confianza del 95%
para una N = 6 y r = 0.8
El nivel de confianza para es:
-0.02 <  < 0.95
Aunque la correlación de la muestra de 0.8 parece ser grande,

no es significativamente diferente de cero, porque el intervalo
de confianza incluye al mismo.
Ejemplo 2
Para una N = 25 y r = 0.7
El nivel de confianza para r es 95%
0.41 <  < 0.85
La correlación de la muestra de 0.7 es

significativamente diferente de cero, porque el intervalo
de confianza no lo incluye.

Intervalos de confianza por la aproximación de Fisher (Dallas 2000)
Fisher, demostró que, cuando se toman muestras de

tamaño mayor que 25 de una distribución normal
Bivariada con correlación , la tangente hiperbólica
inversa de la correlación de la muestra tiene poco mas
o menos una distribución normal con media igual a la
tangente hiperbólica inversa de  (U=tanhinv(r)) y
varianza 1/(N-3).
En particular un intervalo de confianza del (1-) 100%

para  se expresa por
tanh[tanhinv(r) -z a/2 N  3]    tanh[tanhinv(r)+z a/2 N  3] (2, 2)

Ejemplo: Con el fin de ilustrar el uso de esta formula,
suponga que N-25 y r=0.7.
Entonces tanhinv(0.7)=0.8673. Por consiguiente, el punto extremo izquierdo de un

intervalo de confianza de 95% es mas o menos.
tanh[0.8673-1.96/221/2]=tanh[0.8673-0.4179]=tanh[0.4494]=0.421
y el punto extremo derecho es alrededor de
tanh[0.8673+1.96/221/2]=tanh[0.8673+0.4179]=tanh[1.2852]=0.858
Como consecuencia, un intervalo de confianza de 95% para  es

0.42<  <0.86
Intervalos de confianza por la aproximación de Ruben
Sean, como antes, N el tamaño de la muestra y r la correlación observada de la

misma. Sea u el punto critico superior /2 de la distribución normal estandar. A
continuación, considere r*=r/(1-r2)1/2,
a=2N-3-u2,
b=r*[(2N-3)(2N-6)]1/2 y
c=(2N-5-u2)r*2-2u2.
A continuación, suponga que y1 y y2 son las raíces de la ecuación cuadrática:

ay2-2by+c = 0
y1/(1+y 12 )1/2 <=  <= y2/(1+y 22 )1/2

Minería de datos
La minería de datos busca determinar el comportamiento de
los datos antes de ser utilizados en algún procedimiento
de análisis estadístico multivariado.
Ayudan al investigador a:
Localizar y e identificar anormalidades que podrían existir en

los datos.
Verificar las hipótesis que pueden requerirse para que sean
validados
Procedimientos
Estadísticos
Gráficos
Diagrama de Caja y Bigotes
Permite encontrar valores óptimos
np
i
100
i:posición n: Tamaño de la muestra porcentaje del cuartil
Si es impar el valor se el de la posición n redondeado
Si es par el valor se estima como: (Vn+Vn+1)/2
ESTADÍSTICA APLICADA
Ejemplo
Utilice el resumen de cinco números para estudiar la forma de la

distribución de los siguientes datos
2, 210 2,255 2, 350 2, 380 2, 380 2, 390 2, 420 2, 440 2, 450 2, 550
2, 630 2, 825
Dato menor:2210; Q1 = (2, 350 + 2, 380)/2 = 2, 365 (12/4) ( Posición 3 y 4 por ser par)
Mediana: Q2=(2390+2420)/2=2405; Q3 = (2, 450 + 2, 550)/2 = 2, 500. Dato mayor:2825
Especio intercuartil: RI=Q3-Q1=2500-2365=135

Vigote izquierdo: Q1- 1,5xRi = 2365-1,5x135= 2162,5
Vigote derecho: Q3+1,5xRI= 2500+1,5x135= 2702,5
Todo valor que está más alejado del 1,5RI, tanto del Q1 como del Q3, se dice que es atípico.
Un valor atípico es extremo si está a mas allá de 3RI Del cuartil Q1 o Q3·
¿SON SUFICIENTEMENTE GRANDES LAS CORRELACIONES COMO PARA
SER UTILES?
Lo que en realidad se necesita saber, en las situaciones de la vida reales cuales

correlaciones son suficientemente grandes como para tener alguna importancia
practica.
En ambiente controlado (laboratorio) 0,9 son acostumbradas.
Datos de poblaciones en las que el investigador tiene muy poco control,
correlaciones mayores que 0.7 sean difíciles de obtener,
0,6 pueden considerarse bastante grandes.
Para datos que se reúnen provenientes de personas, correlaciones cuyos valores
absolutos sean mayores que 0.5 y hasta 0,4 tan grandes como para identificar
relaciones importantes entre parejas de variables.
Tamaño de la muestra
Las muestras deben ser mayor que 12

Valores de correlaciones diferentes Ncr
NCr =p (p-1)/2
ejemplo: si p= 20, entonces se pueden calcular 190 correlaciones
Cuando cree que todas las variables son independientes, se esperar

que de 5% a 10% de las correlaciones por pares sean
significativamente diferentes de cero tan solo por azar.
David (1954) demostró como calcular el intervalo de confianza de una
población cuando se tiene la correlación de la muestra
Intervalos de Confianza por el método de las gráficas
Uso de la curvas de confianza

 Localizar la correlación observada de la muestra sobre el
eje horizontal.
 Trazar una recta vertidas sobre la gráfica en este lugar.
 Localizar la intersección de esta recta con las curvas
correspondientes al tamaño N de la muestra.
 Localizar las ordenadas (puntos sobre el eje vertical) de
estos puntos de intersección.
 El par de ordenas hallado forma el intervalo de confianza
para
Ejemplo:
Para una: N = 25 y r = 0.7
N = 25 y r = 0.7
Ejemplo 1
Hallar el intervalo de confianza del 95%
para una N = 6 y r = 0.8
El nivel de confianza para es:
-0.02 <  < 0.95
Aunque la correlación de la muestra de 0.8 parece ser grande,

no es significativamente diferente de cero, porque el intervalo
de confianza incluye al mismo.
Ejemplo 2
Para una N = 25 y r = 0.7
El nivel de confianza para r es 95%
0.41 <  < 0.85
La correlación de la muestra de 0.7 es

significativamente diferente de cero, porque el intervalo
de confianza no lo incluye.

Intervalos de confianza por la aproximación de Fisher
Fisher, demostró que, cuando se toman muestras de

tamaño mayor que 25 de una distribución normal
Bivariada con correlación , la tangente hiperbólica
inversa de la correlación de la muestra tiene poco mas
o menos una distribución normal con media igual a la
tangente hiperbólica inversa de  (U=tanhinv(r)) y
varianza 1/(N-3).
En particular un intervalo de confianza del (1-) 100%

para  se expresa por
tanh[tanhinv(r) -z a/2 N  3]    tanh[tanhinv(r)+z a/2 N  3] (2, 2)

Ejemplo: Con el fin de ilustrar el uso de esta formula,
suponga que N-25 y r=0.7.
Entonces tanhinv(0.7)=0.8673. Por consiguiente, el punto extremo izquierdo de un

intervalo de confianza de 95% es mas o menos.
tanh[0.8673-1.96/221/2]=tanh[0.8673-0.4179]=tanh[0.4494]=0.421
y el punto extremo derecho es alrededor de
tanh[0.8673+1.96/221/2]=tanh[0.8673+0.4179]=tanh[1.2852]=0.858
Como consecuencia, un intervalo de confianza de 95% para  es

0.42<  <0.86
Intervalos de confianza por la aproximación de Ruben
Sean, como antes, N el tamaño de la muestra y r la correlación observada de la

misma. Sea u el punto critico superior /2 de la distribución normal estandar. A
continuación, considere r*=r/(1-r2)1/2,
a=2N-3-u2,
b=r*[(2N-3)(2N-6)]1/2 y
c=(2N-5-u2)r*2-2u2.
A continuación, suponga que y1 y y2 son las raíces de la ecuación cuadrática:

ay2-2by+c = 0
y1/(1+y 12 )1/2 <=  <= y2/(1+y 22 )1/2

Minería de datos
La minería de datos busca determinar el comportamiento de
los datos antes de ser utilizados en algún procedimiento
de análisis estadístico multivariado.
Ayudan al investigador a:
Localizar y e identificar anormalidades que podrían existir en

los datos.
Verificar las hipótesis que pueden requerirse para que sean
validados
Procedimientos
Estadísticos
Gráficos
Diagrama de Caja y Bigotes
Permite encontrar valores óptimos
np
i
100
i:posición n: Tamaño de la muestra porcentaje del cuartil
Si es impar el valor se el de la posición n redondeado
Si es par el valor se estima como: (Vn+Vn+1)/2
Ejemplo
Utilice el resumen de cinco números para estudiar la forma de la

distribución de los siguientes datos
2, 210 2,255 2, 350 2, 380 2, 380 2, 390 2, 420 2, 440 2, 450 2, 550
2, 630 2, 825
Dato menor:2210; Q1 = (2, 350 + 2, 380)/2 = 2, 365 (12/4) ( Posición 3 y 4 por ser par)
Mediana: Q2=(2390+2420)/2=2405; Q3 = (2, 450 + 2, 550)/2 = 2, 500. Dato mayor:2825
Especio intercuartil: RI=Q3-Q1=2500-2365=135

Vigote izquierdo: Q1- 1,5xRi = 2365-1,5x135= 2162,5
Vigote derecho: Q3+1,5xRI= 2500+1,5x135= 2702,5
Todo valor que está más alejado del 1,5RI, tanto del Q1 como del Q3, se dice que es atípico.
Un valor atípico es extremo si está a mas allá de 3RI Del cuartil Q1 o Q3·

Clase1 Multivariado2018 - 30

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Clase1 Multivariado2018 - 30

Încărcat de

Drepturi de autor:

Formate disponibile

¿Por qué el profesional necesita

saber del tema?

1. EL MÉTODO CIENTIFICO Y EL ANÁLISIS

CIENCIA A .E. MULTIVARIADO

PURAS MUESTRAS POBLACIONES

Lógica Matemática Naturales Sociales

INTERACCIONES INFERENCIA ESTADÍSTICA

Tecnología Técnicas de apoyo

NATURALEZA NATURALEZA FUENTES T. DE RECOP. INSTRUMENTOS

Ingreso- incluye punto

Tipos de datos (variables)

PRECISIÓN Puede existir precisión sin

Estatura( metros) Marque con X

OPERACIONALIZACIÓN DE VARIABLES EN ESTUDIOS CUANTITATIVOS

Macro Variables Definición Naturaleza Nivel de Criterio de

Utilizando el ejemplo de Tuescas: sobre “conocimientos, actitudes, y prácticas en la

Macro Variables Definición

MARCO TAMAÑO TECNICAS

Población Diana o de referencia

Marco muestral: Niveles de población

Población Diana Pregunta de investigación

Población accesible Viabilidad accesible

Población elegible Criterios de inclusión y exclusión

cálculo del tamaño muestral y tipo de

revisión de datos obtenidos en la

Método manual Método

• Tablas de Gráficos de Gráficos rotados

ALGEBRA VECTORIAL Y DISTRIBUCIÓN DE DENSIDAD MULTIVARIADA

MATRICES Y VECTORES DE DATOS

Ejemplos ij : relación entre la i-ésima y la j-ésima variable

d rs :Denotaría la relación entre la r-ésima y la s-ésima unidad

Parámetro de regresión entre variables latentes endógenas

variable latente exógena independiente

Covarianza entre variables latientes exógenas

Covarianza entre errores estructurales

 E p espacio vectorial p dimensional de números reales. Es decir,

Propiedad de la distribución normal multivariada

Vectores de medias y matrices de varianza covarianza

Y la matriz de covarianza de X se denota por  , donde:

ESTRATEGIA DE TOMA DE MUESTRAS

Localización y tratamiento de datos outlier

1. Rutinas de detección de datos oulier

´Chernoff (1973) sugirió usar caras para representar datos

Prototipo de graficas con datos outlier

´Chernoff (1973) sugirió usar caras para representar datos

Tller 1. Determinación de datos oputlier

Metodología: Tomado como base la base de datos 1

TODAS LAS OBSERVACIONES

Validez: determinar si el instrumento mide lo que se pretende medir

A la vista de los valores de los estadísticos de la tabla anterior, se entiende que

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 =

Si se percibe diversas correlaciones diferentes de cero

¿Es lo mismo decir que dos variables están correlacionadas cuando

Haga la explicación a partir de las siguientes ecuaciones:

X2 = −2𝑋12 +3 para x1=[-4,4]

Relacion entre X1 y X2 Relación entre X1 y X2

Lo que en realidad se necesita saber, en las situaciones de la vida reales cuales

Las muestras deben ser mayor que 12

ejemplo: si p= 20, entonces se pueden calcular 190 correlaciones

Cuando cree que todas las variables son independientes, se esperar

Uso de la curvas de confianza

Aunque la correlación de la muestra de 0.8 parece ser grande,

0.41 <  < 0.85