Sunteți pe pagina 1din 74

¿Por qué el profesional necesita

saber del tema?


ANALSIS MULTIVARIADO

Clase 2

1. EL MÉTODO CIENTIFICO Y EL ANÁLISIS


ESTADÍSTICO MULTIVARIADO
2. ASIGNACIÓN DE PROYECTO
3. CONCEPTOS BÁSICOS DE ALGEBRA VECTORIAL Y
ETADÍSTICA
ANALSIS MULTIVARIADO

EL MÉTODO CIENTIFICO
Y
EL ANÁLISIS ESTADÍSTICO MULTIVARIADO

CIENCIA A .E. MULTIVARIADO

MÉTODO
MÉTODOD CIENTÍFICO MULTIVARIADOS

ETAPAS:
ETAPAS: • PLANIFICACIÓN DEL DISEÑO
OBSERVACIÓN DEL FENÓMENO •DISEÑO DEL INSTRUMNETO
FORMULACIÓN DE HIPÓTESIS • RECOLECCIÓN DE DATOS
•PROCESAMIENTO DE DATOS
VERIFICACIÓN DE HIPÓTESIS •PRESENTACIÓN DE INFORMACIÓN
ACEPTACIÓN O RECHAZO DE HIPÓTESIS •ANÁLISIS DE INFORMACIÓN
ANALSIS MULTIVARIADO

Ciencia METODOS
MULTIVARIADOS

PURAS MUESTRAS POBLACIONES


O FORMALES FÁCTICAS

ESTADÍSTICOS PARÁMETROS

Lógica Matemática Naturales Sociales

INTERACCIONES INFERENCIA ESTADÍSTICA

Tecnología Técnicas de apoyo

PRODUCTOS
Y
SERVICIOS

Las ciencias pura o básicas o formales estudian el mundo que nos rodea incluso a nosotros mismos sin ningún beneficio inmediato para el hombre. Se
investiga porque busca enriquecer el conocimiento. ciencia aplicada o fáctica trata de resolver problemas específicos o conjuntos de problemas,
o de crear productos
ANALSIS MULTIVARIADO

PLANIFICACIÓN DE LA INVESTIGACIÓN

Aspectos teóricos

Aspectos
PROBLEMA metodológicos
JUSTIFICACIÓN

OBJETIVOS
PROPÓSITOS Aspectos
MARCO Administrativos
TEÓRICO

TIPO DE ESTUDIO

RECURSOS:
POBLACIÓN Y MUESTRA
HUMANOS
PRESUPUESTO
CRONOGRAMA
HIPOTESIS
PLANES DE RECOLECCIÓN Y PLANES DE
TRAMIENTO PRESENTACIÓN Y
ANÁLISIS
ANALSIS MULTIVARIADO
RECOLECCIÓN
DE
DATOS
CONSIDERACIONES
ÉTICAS

MEDICIÓN PROCESO

VARIABLE SE DEFINE

NATURALEZA NATURALEZA FUENTES T. DE RECOP. INSTRUMENTOS


CUALITATIVA CUANTITATIVA

REGISTRO DE
sexo PRIMARIA SECUNDARIA CUESTIONARIO OBSERVACIONES
Discretos y
continuos
NIVEL
NOMINAL
MIXTA OBSERVACIÓN

NIVEL
ORDINAL ENTREVISTA
´Producción
Grados de estudio
NIVEL
INTERVALO

NIVEL
RAZÓN

Ingreso- incluye punto


ANALSIS MULTIVARIADO

Tipos de datos (variables)


Nominal
La categoría es descrita con un nombre
Cualitativos Ejemplo: Sexo, religión, etc
(Atributos)
Categorizaciones
no numéricas Ordinal
Las categorías son ordenadas
Ejemplo: Nivel de destreza, etc

Datos Discretos
Todos valores posibles que puede tomar la
variable son números enteros
Ejemplo: Número de unidades no conformes,
Cuantitativos número de accidentes, etc
Datos
numéricos Continuos
La variable puede tomar cualquier valor
Ejemplo: Tiempo, peso, distancia
MEDICIÓN ANALSIS MULTIVARIADO
• Implica comparar con un patrón o serie de características de
cualidades que presentan las personas u objetos o diversas
magnitudes asociadas con una escala numérica.
• Estas propiedades que toman distintos valores se llaman variables
• Términos importantes de la medición: Exactitud y precisión

INEXACTITUD
EXACTITUD
ERROR SISTEMATICO: sesgo
Proximidad de una medida a su verdadero valor

PRECISIÓN Puede existir precisión sin


Poca dispersión exactitud
Pero no a la inversa

ALTA DISPERSIÓN
ANALSIS MULTIVARIADO
ejemplos
Nivel nominal: la respuesta del pueblo fue: Nivel de intervalo:
Positiva________Negativa__________ Marque con una X la estatura de el individuo:

Estatura( metros) Marque con X


1-1,5
Nivel ordinal:
El estrato a que pertenece es: 1,51-1,80
Estrato Marque con X >1,80
1
2
Nivel de razón:¿Cuál fue el promedio ponderado de la
3 carrera?____4,5__

4
5
6
ANALSIS MULTIVARIADO

OPERACIONALIZACIÓN DE VARIABLES EN ESTUDIOS CUANTITATIVOS

Macro Variables Definición Naturaleza Nivel de Criterio de


variables medición clasificación
No de años cumplidos por el Cuantitativa Razón 25,, 26, 27, 28, 29
Edad entrevistado la fecha de continua
realización de la encuesta
Característica fenotípica que Cualitativa Nominal -Masculino
Características sexo diferencia al hombre de la mujer -Femenino
demográficas
Característica personal, que Cualitativa Nominal -Soltero
determina la capacidad, los -Casado
Est. civil
derechos y deberes del individuo -Viudo
-Unión libre
ANALSIS MULTIVARIADO
OPERACIONALIZACIÓN DE VARIABLES EN ESTUDIOS CUALITATIVOS

Utilizando el ejemplo de Tuescas: sobre “conocimientos, actitudes, y prácticas en la


alimentación de los pacientes hemodializados con insuficiencia renal crónica (IRC)

Macro Variables Definición


variables
• En la IRC, los riñones dejan de funcionar.
• Las funciones del Riñón son: producir la orina, f iltrar
Definición
la sangre, mantener el equilibrio de los minerales(
sodio, potasio, fosforo)
Conocimiento
• Al comienzo de la IRC se presenta inapetencia por
acumulación de toxinas en la sangre
Signos y síntomas
•Los niveles bajos de hemoglobina pueden producir
palidez, debilidad y cansancio
ANALSIS MULTIVARIADO
MÉTODOS Y TÉCNICAS DE RECOLECCIÓN DE DATOS

•Entrevista
•Observación
Cuantitativo Método
•Cuestionario

Método

•Grupos focales
•Técnica delphi
•Cualitativas •Método
•Historia de vida
• Estudio de casos
ANALSIS MULTIVARIADO
ETAPAS DEL DISEÑO DE UN FORMULARIO

TIPIO DE PREGUNTA:
DE REPUESTA LIBRE. DESCRIBE LA RESPUESTA
CERRADAS: DICOTÓMICA SI__NO__, ; 1____2___; V___F____

:
SOBRE ELECCIÓN DE PRODUCTOS:

a. PRODUCTO A
b. PRODUCTO B
c. PRODUCTO C
ESCALA DE LIKERT
SOBRE PROYECTOS
CARACTERÍSTICAS DEL DE PROYECTO A B C D E
EL PROYECTO CUMPLE CON LAS NORMAS
EL PROYECTO ESTA BIEN ELABORADO
EL PROYECTO ES MUY COSTOSOS
EL PROYECTO CUENTA CON EL PERSONAL ADECUADO

.
ANALSIS MULTIVARIADO
POBLACIÓN DE ESTUDIO
FINITO IINFINITO HIPOT’ETICO

MARCO TAMAÑO TECNICAS


DE
MUESTRAL MUESTRAL
MUESTREO

Población
diana No probabilístico
probabilístico
Población
accesible Calculo
según
Población estudio
elegible
Universo
muestra MUESTRA

Población Diana o de referencia


ANALSIS MULTIVARIADO

Marco muestral: Niveles de población

Población Diana Pregunta de investigación

Población accesible Viabilidad accesible

Población elegible Criterios de inclusión y exclusión

cálculo del tamaño muestral y tipo de


MUESTRA
muestreo
ANALSIS MULTIVARIADO
PROCESAMIENTO DE DATOS

revisión de datos obtenidos en la


recolección

Método manual Método


Sistematizado
Construcción
de tablas Construcción
maestras de base de
datos

SPSS,
STACGRAPHIC
S y Mat Lab
ANALSIS MULTIVARIADO
PRESENTACIÓN DE LA INFORMACIÓN

ESTUDIOS MULTIVARIADOS

Tablas Gráficos

• Tablas de Gráficos de Gráficos rotados


Univariada Bivariada
frecuencia sedimentación
Variables
cualitativas o
Presentación de Tablas de cuantitativas
una contingencia discontinuas
variable • Pie o pastel
Barras simples

Agrupamiento o De correspondencia
clúster de atributos
ANALSIS MULTIVARIADO
BIBLIOGRAFÍA RECOMENDADA
Arbuckle, J. L. (2010). IBM SPSS AMOS 19 User´s Guide. Chicago: Amos Development Corporation.
Bollen, K. A. (1989). Structural Equations with Latent Variables. New York: John Wiley & sons.
Bollen, K. A. y Long, J. S. (Ed.). (1993). Testing structural eqution models. Newbury Park, CA: Sage.
Byrne, B. M. (2001). St ructural Equation Modeling with AMOS. Basic Concepts, Applications and
Programming. Mahwah, NJ: Lawrence Erlbaum Associates, Pbs.
Dillon, W. R. y Goldstein, M. (1984). Multivariate Analysi s: Methods and Applicat ions. New York: John
Wiley & Sons.
Hai r, J. F. , Bl ack, W. C. , Babi n , B. J. , Anderson, R. E. , Tatham, R. L. (2009) - 7ª Ed. Multiva r i ate Dat a
Analysis. Pearson Prentice-Hall.
Hooper, D . , Coughl an, J . y Mul l e n , M.R. (2008): Structural Equation Mode l l i ng: Guidelines of
determining Model Fit. The Electronic Journal of Business Research Methods, 6 (1), 53-60.
Hoyl e, R. H. (ed) (1995). St ructural Equation Modeling: Concept s, Issues and Applicat ions. Thousand
Oaks, CA: Sage.
Jöreskog, K.G., Sörbom, D., 1982. Recent developments in structural equation modeling. Journal of
Marketing Research 19, 404–416.
Lévy Mangin, J. P (2006) (Di r. ): Modelización con Estructuras de Covarianzas en Ciencias Sociales,
Ed. Netbiblo, La Coruña
Long, J. S. (1983). Conf irmatory Factor Analysis: A Preface to LISREL. Sage Universi ty Paper Series on
Quantitative Applications in the Social Sciences, 007-033. Newbury Park, CA: Sage.
Long, J . S. (1990 ) . Covariance St r u c t u re Models: An introduct ion to LISREL. Sage Unive r s i ty Paper
Series on Quantitative Applications in the Social Sciences, 007-034. Newbury Park, CA: Sage.
van Eye, A. y Clogg, C. C. (Ed.) (1994). Latent Variables Analysis: Applications for Developmental
ANALSIS MULTIVARIADO
Conceptos previos
 Algebra vectorial y estadística multivariada
 Función normal multivariada
 Matriz de varianza- covarianza  xyy Matriz de correlación  xy
 Estrategia de toma de muestras
 Errores en la entrada de datos. Doble operador
Datos Outlier Multivariados y localización
Procedimientos gráficos ( Anfrews, caras de Chernoff
 Pruebas de normalidad
 Elaboración y validación de instrumento
Validez y confiabilidad
 Correlación de muestras
ANALSIS MULTIVARIADO

ALGEBRA VECTORIAL Y DISTRIBUCIÓN DE DENSIDAD MULTIVARIADA


BÁSICA

MATRICES Y VECTORES DE DATOS

X1 X2  Xp
x x12  x1 p  : Valores de la r-ésima unidad
I 1  11 
I 2  x 21 x 22  x 2 p  experimental en la j-ésima
X  I r  x r1 x r 2  x rp  variable respuesta
 
    p: Cantidad de variables
I n x 
x n 2  x np 
 n1 n p
n: Individuos o unidades
experimentales sobre la cual se
están midiendo las variables X
ANALSIS MULTIVARIADO

LENGUAJE SIMBÓLICO
MATRICES Y VECTORES DE DATOS
Los reglones de una matriz de datos se llaman
vectores de reglones, se simboliza por :
También se llama transpuesto del vector columna y
sus elementos son:

REGLÓN COLUMNA
x  [ xr1, xr 2, ..., xrp ]
'  x r1 
r
x 
 r1 
 . 
xr   
 . 
 . 
 
 xp 
ANALSIS MULTIVARIADO

LENGUAJE SIMBÓLICO
SUBÍNDICE DE LOS DATOS:
1) I, j, k,… se usan como subíndices para las variables respuesta
2) S, t,… se usan como subíndices de las unidades experimentales

Ejemplos ij : relación entre la i-ésima y la j-ésima variable

d rs :Denotaría la relación entre la r-ésima y la s-ésima unidad


experimental
f rj
: Denota la j-ésima variable de una r-ésima unidad
experimental
ANALSIS MULTIVARIADO

Alfabeto griego

Parámetro de regresión entre variables latentes endógenas


Par- que representa los coef- de regresión entre factores latentes exógenos y endógenos
Errores de medida asociados con x (variable observable que mide un factor independiente)
Errores de medida asociados con Y (variable observable que mide un factor dependiente)

Error estructural
variable latente endógena dependiente

Cargas factoriales

variable latente exógena independiente

Covarianza entre variables latientes exógenas

Covarianza entre errores estructurales


ANALSIS MULTIVARIADO
Función de densidad normal multivariada

1
  x   '  1  x   
f x  x;  ,   
1
e 2
para x  E p
2 
p 1
2
 2

 E p espacio vectorial p dimensional de números reales. Es decir,


E p  ( x1 , x 2 ,....., x j ) :   x j  , para j  1, 2,, p.

Propiedad de la distribución normal multivariada


 X1 
X 
El vector X    tiene una distribución normal multivariada si:
2

  
 
 X p 

 X1 
X  p

aX  a1 a2  a p     ai X i
2

   i 1
 tiene una distribución normal univariada
 
 X p 
para todo vector a .
ANALSIS MULTIVARIADO

Vectores de medias y matrices de varianza covarianza


La media de un vector X de variables aleatorias se denota por  , definido por:
 E ( X 1 )   1 
E( X )    
  E( X )   2 
  2

   
   
 E ( X p )  p 

Y la matriz de covarianza de X se denota por  , donde:


ANALSIS MULTIVARIADO

 11  12   1 p 
 
 21  22   2 p 
 
   
  Cov ( X )  E

 X    X    

 
 
 
 
 p1  p2   pp 
Con
 jj  Var ( X j )  E[ X j   j ] 2 , para j  1, 2,..., p, y
 ij  Cov( X i , X j )  E ( X i   i )( X j   j ) ' , para i  j  1, 2,..., p,

 
N
1
 ij  Cov( X i , X j )  E ( X i   i )( X j   j ) 
'
[ ( x ri  xi )( x rj  x j )
N  1 r 1
ANALSIS MULTIVARIADO
GRAFICOS DE DATOS MULTIVARIADOS

2 4 3
 
2 3 4
X  3 3 4
 
1 5 6
2 8 
 2
a) ¿Cuales son los valores de p, N,
b) Determinar x j  ,ij  ij y

c) Determinar x3 , x'  ii y
3
Correlación y matriz de correlación
 ij
El coeficiente de correlación entre X i y X j se denota por  ij : ij 
 ii jj
La matriz de correlación para un vector aleatorio X se denota por  :
Utilice cualquier método para hallar la matriz de correlación con base a la matriz de varianza covarianza
ANALSIS MULTIVARIADO

ESTRATEGIA DE TOMA DE MUESTRAS


1. Cuestionario vía virtual
2. Contratar encuestadores y entrenarlos
3. El mismo investigador mediante
entrevista, cuestionario y observación
ERRORES DE ENTRADA
1. Digitación sin seguimiento.
Doble operador
Programas de comparación de archivos
2. Datos mal tomados por falta de entrenamiento o
seguimiento
ANALSIS MULTIVARIADO

Localización y tratamiento de datos outlier

1. Rutinas de detección de datos oulier


2. Gráficos de chernoff
3. El mismo investigador mediante
entrevista, cuestionario y observación
ANALSIS MULTIVARIADO

Caras de Chernoff

´Chernoff (1973) sugirió usar caras para representar datos


multidimencionales.
Recomendó Asociar r características faciales diferentes con
variables diferentes

Prototipo de graficas con datos outlier


ANALSIS MULTIVARIADO

Caras de Chernoff

´Chernoff (1973) sugirió usar caras para representar datos


multidimencionales.
Recomendó Asociar r características faciales diferentes con
variables diferentes
ANALSIS MULTIVARIADO

Tller 1. Determinación de datos oputlier

Metodología: Tomado como base la base de datos 1


determine editarlos en stactgraphics
2. Active: Graficar- visualización multivariante-grafico matriz
3. Graficar- visualización multivariante- caras de chernoff
4. Detectar datos outlier
ANALSIS MULTIVARIADO
ANALSIS MULTIVARIADO

TODAS LAS OBSERVACIONES

COMPORTAMIENTOS OUTLIERS
ANALSIS MULTIVARIADO

Clase 3
ANLIS DE DATOS MEDIANTE SPSS
MANEJO BÁSICO MATLAB ANÁLISIS ESTADÍSTICO MULTIVARIADO
VALIDEZ Y FIABILIDAD DEL INSTRUMENTO
ANÁLISIS DESCRIPTIVO ( MEDIA DESVIACIÓN, ASIMETRÍA Y CURTOSIS
CORRELACIÓN DE MUESTRAS E INTERVALOS DE CONFIANZA PARA
CORRELACIÓN
METODO GRAFICO
INTERVALOS DE CONFIANZA DE FISHER
INTERVALOS DE CONFIANZA DE RUBEN
EIGEVALORES Y EIGENVECTORES
TALLER

1. Tomar la base de datos taller 1 y analice el comportamiento de los datos mediante caras de
chernoff . Utilice stacgraphics
2. Tomado como base la base 1 del taller 1 desarrolle los
siguiente puntos:
• Almacene X en Y, halle matrices de varianza covarianza (MC), inversa de la MC (MI)
• Almacene en DP elementos de la diagonal principal de MC
• Almacene en DS elementos de la diagonal secundaria de MC
• Otras actividades de aprendizaje del paquete PLOT,…
Elaboración y validación de instrumento
Validez y fiabilidad

Validez: determinar si el instrumento mide lo que se pretende medir


Tipos de validez:
De contenido: Se dice que una prueba o test cumple con las condiciones de validez de
contenido si constituye una muestra adecuada y representativa de los contenidos y
alcance del constructo o dimensión a evaluar. prueba de educación con una fuerte
validez de contenido incluirá los temas realmente enseñados a los estudiantes
Validez predictiva: se refiere al grado de eficacia con que se puede predecir o
pronosticar una variable de interés (criterio) a partir de las puntuaciones en un test.
Validez de constructo: hace referencia a la recogida de evidencias empíricas que
garanticen la existencia de un constructo en las condiciones exigibles a cualquier
modelo o teoría científica
Validez factorial y validez discrimínate, que se vera en cuando se vean estas
técnicas
Elaboración y validación de instrumento
Validez y fiabilidad
Fiabilidad: (también llamada técnicamente confiabilidad) es una
propiedad psicométrica que hace referencia a la ausencia de errores de medida, o lo
que es lo mismo, al grado de consistencia y estabilidad de las puntuaciones obtenidas a
lo largo de sucesivos procesos de medición con un mismo instrumento
FIABILIDAD DE ESCALA. ALPHA DE CRONBACH
Junto al análisis descriptivo es útil y necesario hacer hincapié en la fiabilidad de los datos, para
cuyo estudio se analiza el estadístico alpha de Cronbach. Este estadístico supone un modelo de
consistencia interna que estima el límite inferior del coeficiente de fiabilidad basándose en la
varianza o en el promedio de las correlaciones entre los ítems, y cuyo cálculo viene determinado
por la siguiente expresión:

Alfa de Cronbach
a) Mediante la varianza de los items b) Mediante la matriz de correlación

n  Vi  nr
 1   
n 1  Vt  1  r (n  1)
 : Alfa de cronbach  : Alfa de cronbach
n : Númer de items n : Númer de items
Vi : Varianza de cada var iable r : Pr omedio de la correlación lineal
Vi : Varianza del total de cada uno de los items

Este calculo lo puede hacer con SPSS. se espera que este índice >= 0,7
Se puede alminar variables con estimaciones bajas y calcular el índice a ver si mejora o empeora
TRANFORMACIÓN DE LA ESCALA CUANDO CRONBACH
DA NEGATIVO. con varoianza
En una escala Likert hay reactivos positivos y reactivos negativos:
Ejemplo reactivo Positivo: cuanta confianza te inspira la persona que te ha atendido
Ejemplo de reactivo Negativo: Cuanto te molesto tener que esperar o el tiempo invertido en la sala de espera de la EPS
Si el índice de cronbach es negativo se procede así: ( v2 y v3 son de reacción negativa)
transformación-calcular suma=v1+v2..+np-acepta y se saca la correlación incluyendo la suma y aparece correlación negativa, buscar la
variable que con suma da negativo y proceda:
Hallamos alfa de cronbach. Si da menos de 0,7 convertimos las preguntas de reacción negativa en positiva
1. Para invertirlo se copia en nueva columna v2i con los valores de v2 y lo ordenamos de mayor a menor
2. Invertimos los valores así: 1 es 5; 2 es 4 ;3 es 3; 4 es 2; 5 es 1
3. Hallamos nuevamente alfa de cronbach. Si da menos de 0,7 se repite con v3i copiando el contenido de v3

4. Hallamos el alpha de cronbach solo con las variables incluyendo las invertidas Desarrolle el siguiente ejemplo

ID V1 V2 V3 V4 V5
1 1 4 4 1 3
2 5 3 2 2 3
3 4 1 1 3 3
4 2 5 2 3 3
5 3 3 1 4 3
6 1 2 5 2 3
7 4 1 1 5 3
8 1 2 3 3 3
9 2 5 2 3 3
10 2 4 4 1 3
TRANFORMACIÓN DE LA ESCALA CUANDO CRONBACH
DA NEGATIVO
En una escala Likert hay reactivos positivos y reactivos negativos:
Ejemplo reactivo Positivo: cuanta confianza te inspira la persona que te ha atendido
Ejemplo de reactivo Negativo: Cuanto te molesto tener que esperar o el tiempo invertido en la sala de espera de la EPS
Si el índice de cronbach es negativo se procede así:
transformación-calcular suma=v1+v2..+np-acepta y se saca la correlación incluyendo la suma y aparece correlación negativa, buscar la
variable que con suma da negativo y proceda:
1. Para invertirlo se copia en nueva columna y nuevamente halla correlación y colocamos V3i y lo ordenamos: ordenamos la
columna suma
2. Invertimos los valores así: 1 es 5; 2 es 4 ;3 es 3; 4 es 2; 5 es 1
3. Hallamos nuevamente la suma cambiando la variable V3 por V3i y ordenamos la v3i
4. Hallamos correlación incluyendo la nueva suma
5. Repetimos el procesos hasta que todas las correlaciones sean positivas

6. Hallamos el alpha de cronbach solo con las variables incluyendo las invertidas Desarrolle el siguiente ejemplo

ID V1 V2 V3 V4 V5
1 1 4 4 1 3
2 5 3 2 2 3
3 4 1 1 3 3
4 2 5 2 3 3
5 3 3 1 4 3
6 1 2 5 2 3
7 4 1 1 5 3
8 1 2 3 3 3
9 2 5 2 3 3
10 2 4 4 1 3
ANALIS DESCRIPTIVO: MEDIAS, DESVIACIÓN Y
COEFICIENTES DE ASIMETRÍA

A la vista de los valores de los estadísticos de la tabla anterior, se entiende que


existe normalidad univariada de los datos: asimetría menor que 3 y curtosis menor que 8
es buena, por tanto no hay problema de normalidad
ECUACIONES
Asimetría y curtosis ESTRUCTURALES
ASIMERTRÍA
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno
de los valores, ( X ) la media de la muestra y (ni) la frecuencia de cada valor.
Los resultados de esta
ecuación se interpretan:
(g1 = 0): Se acepta que la distribución es Simétrica a los dos lados de la media.
(g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden
a reunir más en la parte izquierda que en la derecha de la media.
(g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden
a reunir más en la parte derecha de la media.

CURTOSIS

Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores,
( Xla media de la muestra y (ni) la frecuencia de cada valor.
Los resultados de esta fórmula
se interpretan:
(g2 = 0) la distribución es Mesocúrtica:
(g2 > 0) la distribución es Leptocúrtica
(g2 < 0) la distribución es Platicúrtica

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 =


±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal.
COFICEINTEB DE CORRALCION DE PEARSON

Si se percibe diversas correlaciones diferentes de cero


es síntoma de que puede aplicar las técnicas de
ANÁLISIS MULTIVARIADO
INTERVALO DE LA CORREALCÓN
Objetivo:
Correlación de muestras
Pruebas estadísticas e intervalos de confianza
Intervalos de confianza para  por el método gráfico
Intervalos de confianza para  por la aproximación de
FISHER
Intervalos de confianza para  por aproximación de
Rubén
CORRELACIONES DE MUESTRA
Suponga que el investigador le dicen que la correlación muestral
fue de: 0,90 y en otro caso 0,30
• Correlaciones cercanas a cero no existe relación entre par de
variables.
• Los intervalos de confianza son importantes por que dan
información confiable en cuanto al tamaño numérico real de un
coeficiente de correlación de la población.
NOTA ACLARATORIA

¿Es lo mismo decir que dos variables están correlacionadas cuando


creen que están relacionadas y que dos variables no están
correlacionadas cuando creen que no están relacionadas ?

Haga la explicación a partir de las siguientes ecuaciones:

X2 = −2𝑋12 +3 para x1=[-4,4]


X2 = 2𝑋12 +3 para X1=[1,2…,9]
Gráfica de dispersión de dos variables que no están correlacionadas, pero si
relacionadas

Relacion entre X1 y X2 Relación entre X1 y X2

30 120
25 100
20 80
X2

X2
15 60
10 40
5 20
0 0
-6 -4 -2 0 2 4 6 0 2 4 6 8 10
X1 X1
¿SON SUFICIENTEMENTE GRANDES LAS CORRELACIONES COMO PARA
SER UTILES?

Lo que en realidad se necesita saber, en las situaciones de la vida reales cuales


correlaciones son suficientemente grandes como para tener alguna importancia
practica.
En ambiente controlado (laboratorio) 0,9 son acostumbradas.
Datos de poblaciones en las que el investigador tiene muy poco control,
correlaciones mayores que 0.7 sean difíciles de obtener,
0,6 pueden considerarse bastante grandes.
Para datos que se reúnen provenientes de personas, correlaciones cuyos valores
absolutos sean mayores que 0.5 y hasta 0,4 tan grandes como para identificar
relaciones importantes entre parejas de variables.
Tamaño de la muestra

Las muestras deben ser mayor que 12


Valores de correlaciones diferentes Ncr
NCr =p (p-1)/2

ejemplo: si p= 20, entonces se pueden calcular 190 correlaciones

Cuando cree que todas las variables son independientes, se esperar


que de 5% a 10% de las correlaciones por pares sean
significativamente diferentes de cero tan solo por azar.
David (1954) demostró como calcular el intervalo de confianza de una
población cuando se tiene la correlación de la muestra
Intervalos de Confianza por el método de las gráficas

Uso de la curvas de confianza


 Localizar la correlación observada de la muestra sobre el
eje horizontal.
 Trazar una recta vertidas sobre la gráfica en este lugar.
 Localizar la intersección de esta recta con las curvas
correspondientes al tamaño N de la muestra.
 Localizar las ordenadas (puntos sobre el eje vertical) de
estos puntos de intersección.
 El par de ordenas hallado forma el intervalo de confianza
para
Ejemplo:
Para una: N = 25 y r = 0.7
N = 25 y r = 0.7
Ejemplo 1
Hallar el intervalo de confianza del 95%
para una N = 6 y r = 0.8
El nivel de confianza para es:
-0.02 <  < 0.95

Aunque la correlación de la muestra de 0.8 parece ser grande,


no es significativamente diferente de cero, porque el intervalo
de confianza incluye al mismo.
Ejemplo 2
Para una N = 25 y r = 0.7
El nivel de confianza para r es 95%

0.41 <  < 0.85

La correlación de la muestra de 0.7 es


significativamente diferente de cero, porque el intervalo
de confianza no lo incluye.

Intervalos de confianza por la aproximación de Fisher (Dallas 2000)

Fisher, demostró que, cuando se toman muestras de


tamaño mayor que 25 de una distribución normal
Bivariada con correlación , la tangente hiperbólica
inversa de la correlación de la muestra tiene poco mas
o menos una distribución normal con media igual a la
tangente hiperbólica inversa de  (U=tanhinv(r)) y
varianza 1/(N-3).

En particular un intervalo de confianza del (1-) 100%


para  se expresa por

tanh[tanhinv(r) -z a/2 N  3]    tanh[tanhinv(r)+z a/2 N  3] (2, 2)


Ejemplo: Con el fin de ilustrar el uso de esta formula,
suponga que N-25 y r=0.7.

Entonces tanhinv(0.7)=0.8673. Por consiguiente, el punto extremo izquierdo de un


intervalo de confianza de 95% es mas o menos.

tanh[0.8673-1.96/221/2]=tanh[0.8673-0.4179]=tanh[0.4494]=0.421

y el punto extremo derecho es alrededor de

tanh[0.8673+1.96/221/2]=tanh[0.8673+0.4179]=tanh[1.2852]=0.858

Como consecuencia, un intervalo de confianza de 95% para  es


0.42<  <0.86
Intervalos de confianza por la aproximación de Ruben

Sean, como antes, N el tamaño de la muestra y r la correlación observada de la


misma. Sea u el punto critico superior /2 de la distribución normal estandar. A
continuación, considere r*=r/(1-r2)1/2,
a=2N-3-u2,
b=r*[(2N-3)(2N-6)]1/2 y
c=(2N-5-u2)r*2-2u2.

A continuación, suponga que y1 y y2 son las raíces de la ecuación cuadrática:


ay2-2by+c = 0

y1/(1+y 12 )1/2 <=  <= y2/(1+y 22 )1/2


Minería de datos
La minería de datos busca determinar el comportamiento de
los datos antes de ser utilizados en algún procedimiento
de análisis estadístico multivariado.

Ayudan al investigador a:

Localizar y e identificar anormalidades que podrían existir en


los datos.
Verificar las hipótesis que pueden requerirse para que sean
validados
Procedimientos
Estadísticos
Gráficos
Diagrama de Caja y Bigotes
Permite encontrar valores óptimos
np
i
100
i:posición n: Tamaño de la muestra porcentaje del cuartil
Si es impar el valor se el de la posición n redondeado
Si es par el valor se estima como: (Vn+Vn+1)/2
ESTADÍSTICA APLICADA

Ejemplo

Utilice el resumen de cinco números para estudiar la forma de la


distribución de los siguientes datos

2, 210 2,255 2, 350 2, 380 2, 380 2, 390 2, 420 2, 440 2, 450 2, 550
2, 630 2, 825

Dato menor:2210; Q1 = (2, 350 + 2, 380)/2 = 2, 365 (12/4) ( Posición 3 y 4 por ser par)
Mediana: Q2=(2390+2420)/2=2405; Q3 = (2, 450 + 2, 550)/2 = 2, 500. Dato mayor:2825
ESTADÍSTICA APLICADA

Especio intercuartil: RI=Q3-Q1=2500-2365=135


Vigote izquierdo: Q1- 1,5xRi = 2365-1,5x135= 2162,5
Vigote derecho: Q3+1,5xRI= 2500+1,5x135= 2702,5

Todo valor que está más alejado del 1,5RI, tanto del Q1 como del Q3, se dice que es atípico.

Un valor atípico es extremo si está a mas allá de 3RI Del cuartil Q1 o Q3·
¿SON SUFICIENTEMENTE GRANDES LAS CORRELACIONES COMO PARA
SER UTILES?

Lo que en realidad se necesita saber, en las situaciones de la vida reales cuales


correlaciones son suficientemente grandes como para tener alguna importancia
practica.
En ambiente controlado (laboratorio) 0,9 son acostumbradas.
Datos de poblaciones en las que el investigador tiene muy poco control,
correlaciones mayores que 0.7 sean difíciles de obtener,
0,6 pueden considerarse bastante grandes.
Para datos que se reúnen provenientes de personas, correlaciones cuyos valores
absolutos sean mayores que 0.5 y hasta 0,4 tan grandes como para identificar
relaciones importantes entre parejas de variables.
Tamaño de la muestra

Las muestras deben ser mayor que 12


Valores de correlaciones diferentes Ncr
NCr =p (p-1)/2

ejemplo: si p= 20, entonces se pueden calcular 190 correlaciones

Cuando cree que todas las variables son independientes, se esperar


que de 5% a 10% de las correlaciones por pares sean
significativamente diferentes de cero tan solo por azar.
David (1954) demostró como calcular el intervalo de confianza de una
población cuando se tiene la correlación de la muestra
Intervalos de Confianza por el método de las gráficas

Uso de la curvas de confianza


 Localizar la correlación observada de la muestra sobre el
eje horizontal.
 Trazar una recta vertidas sobre la gráfica en este lugar.
 Localizar la intersección de esta recta con las curvas
correspondientes al tamaño N de la muestra.
 Localizar las ordenadas (puntos sobre el eje vertical) de
estos puntos de intersección.
 El par de ordenas hallado forma el intervalo de confianza
para
Ejemplo:
Para una: N = 25 y r = 0.7
N = 25 y r = 0.7
Ejemplo 1
Hallar el intervalo de confianza del 95%
para una N = 6 y r = 0.8
El nivel de confianza para es:
-0.02 <  < 0.95

Aunque la correlación de la muestra de 0.8 parece ser grande,


no es significativamente diferente de cero, porque el intervalo
de confianza incluye al mismo.
Ejemplo 2
Para una N = 25 y r = 0.7
El nivel de confianza para r es 95%

0.41 <  < 0.85

La correlación de la muestra de 0.7 es


significativamente diferente de cero, porque el intervalo
de confianza no lo incluye.

Intervalos de confianza por la aproximación de Fisher

Fisher, demostró que, cuando se toman muestras de


tamaño mayor que 25 de una distribución normal
Bivariada con correlación , la tangente hiperbólica
inversa de la correlación de la muestra tiene poco mas
o menos una distribución normal con media igual a la
tangente hiperbólica inversa de  (U=tanhinv(r)) y
varianza 1/(N-3).

En particular un intervalo de confianza del (1-) 100%


para  se expresa por

tanh[tanhinv(r) -z a/2 N  3]    tanh[tanhinv(r)+z a/2 N  3] (2, 2)


Ejemplo: Con el fin de ilustrar el uso de esta formula,
suponga que N-25 y r=0.7.

Entonces tanhinv(0.7)=0.8673. Por consiguiente, el punto extremo izquierdo de un


intervalo de confianza de 95% es mas o menos.

tanh[0.8673-1.96/221/2]=tanh[0.8673-0.4179]=tanh[0.4494]=0.421

y el punto extremo derecho es alrededor de

tanh[0.8673+1.96/221/2]=tanh[0.8673+0.4179]=tanh[1.2852]=0.858

Como consecuencia, un intervalo de confianza de 95% para  es


0.42<  <0.86
Intervalos de confianza por la aproximación de Ruben

Sean, como antes, N el tamaño de la muestra y r la correlación observada de la


misma. Sea u el punto critico superior /2 de la distribución normal estandar. A
continuación, considere r*=r/(1-r2)1/2,
a=2N-3-u2,
b=r*[(2N-3)(2N-6)]1/2 y
c=(2N-5-u2)r*2-2u2.

A continuación, suponga que y1 y y2 son las raíces de la ecuación cuadrática:


ay2-2by+c = 0

y1/(1+y 12 )1/2 <=  <= y2/(1+y 22 )1/2


Minería de datos
La minería de datos busca determinar el comportamiento de
los datos antes de ser utilizados en algún procedimiento
de análisis estadístico multivariado.

Ayudan al investigador a:

Localizar y e identificar anormalidades que podrían existir en


los datos.
Verificar las hipótesis que pueden requerirse para que sean
validados
Procedimientos
Estadísticos
Gráficos
Diagrama de Caja y Bigotes
Permite encontrar valores óptimos
np
i
100
i:posición n: Tamaño de la muestra porcentaje del cuartil
Si es impar el valor se el de la posición n redondeado
Si es par el valor se estima como: (Vn+Vn+1)/2
ESTADÍSTICA APLICADA

Ejemplo

Utilice el resumen de cinco números para estudiar la forma de la


distribución de los siguientes datos

2, 210 2,255 2, 350 2, 380 2, 380 2, 390 2, 420 2, 440 2, 450 2, 550
2, 630 2, 825

Dato menor:2210; Q1 = (2, 350 + 2, 380)/2 = 2, 365 (12/4) ( Posición 3 y 4 por ser par)
Mediana: Q2=(2390+2420)/2=2405; Q3 = (2, 450 + 2, 550)/2 = 2, 500. Dato mayor:2825
ESTADÍSTICA APLICADA

Especio intercuartil: RI=Q3-Q1=2500-2365=135


Vigote izquierdo: Q1- 1,5xRi = 2365-1,5x135= 2162,5
Vigote derecho: Q3+1,5xRI= 2500+1,5x135= 2702,5

Todo valor que está más alejado del 1,5RI, tanto del Q1 como del Q3, se dice que es atípico.

Un valor atípico es extremo si está a mas allá de 3RI Del cuartil Q1 o Q3·

S-ar putea să vă placă și