Sunteți pe pagina 1din 25

Introducción al curso

Análisis Multivariante

M. Mercedes Suárez Rancel 1


CAP I 2
CAP I 3
La revista Fortune (n.6, 1996):

“ El informe Education Industry Report de St. Cloud, Minnesota, presentó un índice de


utilidades de 15 cías. que están buscando, de manera agresiva, empleados que puedan
menejar datos y aplicar el pensamiento analítico y estadístico básico a problemas
empresariales comunes.
Se comparó el Índice de Evaluación de Alerta en el Manejo de Datos (DMAA) con
el Índice de la Asociación Nacional de Cotizaciones Automatizadas de Agentes de Bolsa
(NASDAQ). Los resultados son evidentes. Los rendimientos de las empresas que contratan
gente que posee conocimientos básicos en estadística sobrepasan los de empresas que no lo
hacen. Existe un reconocimiento, por parte de un número creciente de negocios, de la
necesidad que tienen los gerentes efectivos de tener conocimientos estadísticos....”
35
30
25
20
NASDAQ
15 DMAA
10
5
0
1993 1994 1995 1996

CAP I 4
EL MÉTODO ESTADÍSTICO

La Estadística Fenómeno Científico Variabilidad

Resultados

Seguridad
Desconocimiento de los Métodos Estadísticos
+
Publicación Científica Análisis de Significación
=

Investigadores Estadísticos

CAP I 5
FASES DE TODO DISEÑO DE EXPERIMENTOS
1. ¿QUÉ QUEREMOS ESTUDIAR? ¿CUÁL ES EL OBJETIVO DEL ESTUDIO

✓ Contrastar una hipótesis (La mejora de un paciente tras la administración de un fármaco)


✓ Modelo de Dependencia, (La relación exitente entre ambas variables)
✓ Determinar factores (qué variables pueden influir realmente en la mejora de un paciente)
✓ Clasificar una especie en subgrupos
........

2. ESTUDIO DE LOS ANTCEDENTES

✓ Bibliografía sobre el tema a estudiar.


✓ Experimentos Previos
✓ Propiedades del entorno donde prevalece la enfermedad
✓ Información sobre los pacientes

3. ¿QUÉ TIPO DE DATOS QUEREMOS RECOGER?

✓ Propiedades de los pacientes a considerar

4. MODELO ESTADÍSTICO A UTILIZAR

✓ Cluster, Regresión Lineal….

5. ESTUDIO PILOTO

✓ Permite un adiestramiento de los investigadores


✓ Prevención de problemas posteriores
✓ Diagnóstico de hipótesis
✓ Mejorar la determinación de los objetivos

6. TAMAÑO Y FORMA DE LA MUESTRA

✓ Definición de la Población en estudio y la unidad biológica


✓ El tamaño y forma de la muestra depende del Objetivo a Analizar (estratificado, sistemático…)

7. ANÁLISIS

✓ Recogen Datos y se realliza una Estadística Descriptiva


✓ Realizan los Contrastes
✓ Obtención de Resultados (Paquetes Estadísticos)
✓ Interpretación de Resultados CAP I 6
........
LA ESTADÍSTICA Y EL MÉTODO CIENTÍFICO

Estimación de los Parámetros


Teoría de la Estimacón
Problema Real
Contrastes de Simplificación
Teoría de Pruebas de Hipótesis
Planteamiento Medios
Definición de Objetivos
Medios
Crítica y Diagnóstico
Evaluación del Modelo
Compatibilidad Modelo-Datos
Modelo Estadístico Interpretación de Resultados
Formalización Matemática
Recogida de Datos
Teoría de la Teoría del Muestreo
Diseño de Experimentos
Probabilidad

¿Correcto?

Recogida de Datos
Teoría del Muestreo SI NO
Diseño de Experimentos

Conocimiento Científico Reformulación del Modelo


(Utilización) (Ir a Planteamiento)
Resumen de Datos Decisiones
Estadística Descriptiva Previsiones

CAP I 7
CAP I 8
CAP I 9
Técnicas de Variable Variables
Dependencia Dependiente Independientes Descripción
Relación existente entre la calidad
Regresión Lineal Múltiple Métrica Métricas del agua y los porcentajes de terreno
agrícola, forestal e industrial.
Cálculo de la probabilidad de la
Regresión Logística No Métrica Métricas presencia (ausencia) de una
(tipo Y=1 o enfermedad en una especie en
Y=0) función de la altitud y temperatura a
la que se encuentre.
Proporciona reglas de clasificación
Análisis Discriminante No Métrica Métricas de nuevos individuos a grupos ya
establecidos. Cómo establecer una
regla de decisión entre SETOSA,
VIRGÍNICA Y VERSICOLOR, en
función de la longitud del sépalo y el
pétalo

MANOVA Métrica(s) No Métricas Predicción de la Abundancia (kgs)


de una especie marina yen función
de la isla en la que se encuentra

CORRELACIÓN Métricas Métricas Relación entre la contaminación y


CANÓNICA abundancia de una especie
relacionado con los mts2 de terreno
forestal y mts2 de terreno industrial

ANCOVA Métrica Métricas y No Predicción de la Abundancia (kgs)


Métricas de una especie marina en función de
la isla en la que se encuentra y el
índice de contaminación .
Técnicas de Inter Forma Tipo de
dependencia Grupos de… Variables Objetivo
construir combinaciones lineales de
Componentes Principales Variables Métricas las variables iniciales que expliquen
y Análisis Factorial la mayor parte de la información
contenida en esas variables./
establecer qué causas latentes
(factores) causan la
correlación entre las variables
observadas.
A diferencia del factorial que agrupa
Análisis Cluster o Observaciones Métricas y/o no variables, pretende agrupar
Conglomerados (casos) Métricas observaciones.
Idem Componentes Principales
Análisis de Variables No Métricas
Correspondencia
MANOVA, ANOSIM (Estadística no paramétrica) Y
PERMANOVA (Manova Bootstrap)

Tipo de Variable Distancia o Desgloza la


Respuesta Medida de varianza para
Similaridad diseños
complejos
MANOVA Múltiples Métricas Distancia SI
Euclídea

ANOSIM No tiene Utiliza cualquier NO


(TEST NO restricciones medida de
PARAMÉTRIC similaridad
OS)
PERMANOVA No tiene Utiliza cualquier SI
restricciones medida de
similaridad
Introducción

13
VISIÓN GENERAL DEL ANÁLISIS MULTIVARIANTE

Multidimensional
Scaling
Análisis de
Corresponde
Modelos
Log-lineales
Métodos de
Interdependen
Análisis
Cluster
Análisis
Factorial

CAP I
Componentes
MÉTODOS
Principales
MULTIVARIA
NTES
Análisis
Logit
Análisis
Canónico
Métodos de
Manova
Dependencia
Análisis
Discriminante
Regresión
Múltiple
Introducción

La Estadística es la Ciencia de la

• Sistematización, recogida, ordenación y


presentación de los datos referentes a un fenómeno
que presenta variabilidad o incertidumbre para su
estudio metódico, con objeto de

• deducir las leyes que rigen esos fenómenos,

• y poder de esa forma hacer previsiones sobre los


mismos, tomar decisiones u obtener conclusiones.

CAP I 14
Método científico y estadística

Plantear Diseñar
hipótesis experimento

Obtener Recoger datos


conclusiones y analizarlos

CAP I 15
Introducción

EL MÉTODO ESTADÍSTICO

La Estadística Fenómeno Científico Variabilidad

Resultados

Seguridad
Desconocimiento de los Métodos Estadísticos
+
Publicación Científica Análisis de Significación
=

Investigadores Estadísticos
Población y muestra

• Población (‘population’) es el conjunto sobre el que


estamos interesados en obtener conclusiones (hacer
inferencia).
– Normalmente es demasiado grande para poder
abarcarlo.

• Muestra (‘sample’) es un subconjunto suyo al que


tenemos acceso y sobre el que realmente hacemos las
observaciones (mediciones)
– Debería ser “representativo”
– Esta formado por miembros “seleccionados” de la
población (erizos, unidades experimentales).
Variables
• Una variable es una característica observable que varía entre los
diferentes individuos de una población. La información que disponemos
de cada individuo es resumida en variables.

• En los individuos de la población española, de


uno a otro es variable:

– Sexo de la especie
• {Hembra, Macho}  Var. Cualitativa
– Su nivel de contaminación en el lago
• {bajo, medio, alto}  Var. Ordinal
– El número de crías
• {0,1,2,3,...}  Var. Numérica discreta
– Altura de la cría
• {1’62 ; 1’74; ...}  Var. Numérica continua
Tipos de variables
• Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un
número (no se pueden hacer operaciones algebraicas con ellos)

– Nominales: Si sus valores no se pueden ordenar


• Sexo, Grupo Sanguíneo

– Ordinales: Si sus valores se pueden ordenar


• Mejoría a un tratamiento, Grado de contaminación

• Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas
con ellos)

– Discretas: Si toma valores enteros


• Número de crías,…

– Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


• Altura, edad, presión
Tablas de frecuencia
• Exponen la información recogida en la muestra, de forma que no se pierda nada de
información (o poca).

– Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad

– Frecuencias relativas (porcentajes): Idem, pero dividido por el total

– Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas


• Muy útiles para calcular cuantiles (ver más adelante)
– ¿Qué porcentaje de individuos tiene menos de 3 crías? Sol: 83,8
– ¿Entre 4 y 6 crías? Soluc 1ª: 8,4%+3,6%+1,6%= 13,6%. Soluc 2ª: 97,3% - 83,8% = 13,5%

Sexo deencuestado
Sexo del la especie Número
Número de hijos
de Crías
Porcentaje Porcentaje Porcentaje
Frecuencia Porcentaje válido Frecuencia Porcentaje válido acumulado
Válidos Hombre 636 41,9 41,9 Válidos 0 419 27,6 27,8 27,8
Mujer 881 58,1 58,1 1 255 16,8 16,9 44,7
Total 1517 100,0 100,0 2 375 24,7 24,9 69,5
3 215 14,2 14,2 83,8
4 127 8,4 8,4 92,2
5 54 3,6 3,6 95,8
6 24 1,6 1,6 97,3
7 23 1,5 1,5 98,9
Ocho o más 17 1,1 1,1 100,0
Total 1509 99,5 100,0
Perdidos No contesta 8 ,5
Total 1517 100,0
2. Introducción

Polígono de frecuencias

• Cada uno de los anteriores diagramas tiene su


correspondiente polígono de frecuencias.
2. Introducción

Parámetros y estadísticos
• Parámetro: Es una cantidad numérica calculada
sobre una población

– La altura media de los individuos de una especie


en un país

– La idea es resumir toda la información que hay en


la población en unos pocos números (parámetros).

• Estadístico: Ídem (cambiar población por


muestra)

– La altura media de los individuos de una especie


en una muestra.
• Somos una muestra (¿representativa?) de la población.

– Si un estadístico se usa para aproximar un parámetro


también se le suele llamar estimador.
2. Introducción

Un brevísimo resumen sobre estadísticos


• Posición
– Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
• Centralización
– Indican valores con respecto a los que los datos parecen
agruparse.
• Media, mediana y moda
• Dispersión
– Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
• Forma
– Asimetría
– Apuntamiento o curtosis
2. Introducción

Ejercicio: descriptiva con SPSS 28%


Descriptivos para Número de hijos n=419
25%

Estadístico Error típ. n=375


Media 1,90 ,045 25%

Intervalo de Límite
1,81 17%
confianza para la inferior
20%
media al 95% Límite n=255 14%

superior 1,99

Porcentaje
n=215
15%
8%
Media recortada al 5%
1,75 n=127
10%
4%
Mediana 2,00 n=54 2% 2% 1%
5%
Varianza 3,114 n=24 n=23 n=17

Desv. típ. 1,765


Mínimo 0 0 1 2 3 4 5 6 7 Ocho o más
Máximo 8
Número de hijos
Rango 8
• Está sombreado lo que sabemos interpretar hasta ahora.
Amplitud intercuartil Verifica que comprendes todo. ¿Qué unidades tiene cada
3,00 estadístico? ¿Variabilidad relativa?

Asimetría 1,034 ,063 • Calcula los estadísticos que puedas basándote sólo en el
gráfico de barras.
Curtosis 1,060 ,126
¿Qué hemos visto?
• Definición de estadística
• Población
• Muestra
• Variables
– Cualitativas
– Numéricas
• Presentación ordenada de datos
– Tablas de frecuencias
• absolutas
• relativas
• acumuladas
– Representaciones gráficas
• Cualitativas
• Numéricas
– Diferenciales
– Integrales
• Parámetros
• Estadísticos y estimadores
• Clasificación
– Posición (cuantiles, percentiles,...)
• Diagramas de cajas
– Medidas de centralización: Media, mediana y moda
• Diferenciar sus propiedades.
– Medidas de dispersión
• con unidades: rango, rango intercuartílico, varianza, desv. típica
• sin unidades: coeficiente de variación
– ¿Qué usamos para comparar dispersión de dos poblaciones?
– Asimetría
• positiva
• negativa
– ¿Podemos observar asimetría sin mirar la gráfica?
– ¿Cómo son más fáciles de tratar los datos?
– Medidas de apuntamiento (curtosis)
• ¿Cómo son más fáciles de tratar los datos?

S-ar putea să vă placă și