Sunteți pe pagina 1din 410

UNIVERSIDAD CATÓLICA DE CUENCA

• FACULTAD DE MEDICINA

• CARRERA MEDICINA

Mayo, 2017
Unidad de Aprendizaje: Introducción a la Estadística

Título del material: Estadística: Antecedentes

Por: Stefano Torracchi C. Ph.D.


1
Objetivos
1. Interiorizar la relevancia de la estadifica en la vida profesional y
académica.
2. Obtención e interpretación de los diferentes estadísticos
descriptivos
3. Manejo básico de Excel, SPSS y R

Mayo, 2017
4. Simular un trabajo de investigación empleando todas las técnicas
de estadística descriptiva univariante y bivariante

2
Definición
Estudio que reúne, clasifica y recuenta todos los
hechos que tienen una determinada característica en
común, para poder llegar a conclusiones a partir de los
datos numéricos extraídos.

Mayo, 2017
3
Estadística
• La ciencia que tiene
por objeto el estudio
cuantitativo de los
colectivos.
• Expresión
cuantitativa del

Mayo, 2017
conocimiento
dispuesta en forma
adecuada para el
escrutinio y análisis.

• La ciencia que tiene por objeto aplicar las leyes de la cantidad a


4
los hechos sociales para medir su intensidad, deducir las leyes que
los rigen y hacer su predicción próxima
Utilidad de la Estadística
• Los datos estadísticos y las
conclusiones obtenidas
aplicando metodología
estadística ejercen una
profunda influencia en casi
todos los campos de la

Mayo, 2017
actividad humana.

• El estudio de la Estadística y el
modo de pensamiento que se
genera a partir del mismo,
capacita a la persona para
evaluar objetiva y
5
efectivamente si la información
que recibe es relevante y
adecuada.
Línea Del Tiempo Antecedentes
Antes de Cristo
3050 3000 2000 1000 540

Mayo, 2017
Egipto : hay datos sobre China: existen registros Israel antiguo: el rey David Grecia: censos
población y riqueza (según Babilonia : hay registros de numéricos de bienestar ordena un censo para periódicos para
Heredoto) para construir las datos comerciales y material. conocer el numero de fines tributarios,
agrícolas. habitantes. sociales y
pirámides de Egipto militares.

6
Línea Del Tiempo Antecedentes
Después de Cristo
1086 1501-1576, 1650 1657 1662
1564-1642

Mayo, 2017
Inglaterra.- censo Se enriquece la Se considera inicios de la Dentro de los orígenes Se considera como
encargado por estadística con Girolamo probabilidad con la de esta ciencia de iniciador de estadística a
Guillermo I El Cardano (Físico italiano) correspondencia que teorías de probabilidad John Graunt por sus
Conquistador y Galileo Galilei (Físico y mantuvo Pascal con entra Christian trabajos de demografía
Astrónomo) Fermat.. Huygens (Geómetra,,
físico y astrónomo) con
un corto articulo.

Estos periodos abordan


problemas de estadística
Inferencial.
7
Fue el primero en cuantificar los
patrones de nacimientos, muerte y

Mayo, 2017
ocurrencia de enfermedad,
notando disparidades entre
hombres-mujeres, alta mortalidad
infantil, diferencias urbanas-
rurales, y variaciones estacionales.

8
Línea Del Tiempo Antecedentes
Después
Después de
de Cristo
Cristo
1654-1705
1654-1705 Siglo XVII a XIX 1718-1730 1760 1764

Mayo, 2017
Jacob Bernoulli es La estadistica se Godofredo Achewall acuña la Thomas Bayes publica
Abraham De Moivre
considerado como iniciador propaga a traves de palabra ESTADISTICA, del “Ensayo sobre la
hizo la 1ra formulación
de la teoría de probabilidad , varias disiplinas: italiano STATISTA (estadista) resolución de un
de la “Ley de
introduce la 1ra “Ley de los astronomia, geodesia, del latin STATUS (estado o problema de doctrina del
probabilidad normal”
grandes números” psicologia, biologia y situación). azar” grava su nombre en
ciencias sociales la Inferencia Bayesiana

9
Teorema de los grandes
números
Soporte matemático a la idea de que el promedio de una
muestra al azar de una población de gran tamaño tenderá a estar
cerca de la media de la población completa.

Mayo, 2017
10
Teorema del límite central

Demuestra que en condiciones muy generales, la


suma de muchas variables aleatorias independientes
se aproxima bien a una distribución normal

Mayo, 2017
11
Línea Del Tiempo Antecedentes
Siglo XVII y XVIII
1773-1855 1774-1781 1801-1887 1805 1835

Mayo, 2017
Pierre Simón Laplace Gustav Fechner Adrian Marie Legendre Adolphe Quetelet
Karl Gauss (matemático, (Matemático francés) (Psicólogo Alemán) (Matemático y (Matemático,
astrónomo y físico alemán) formulo la “Ley de Derivo la estadística Estadístico Francés) meteorólogo,
contribuyo al “Método de los probabilidad normal” hacia la Psicología crea un sistema que astrónomo,
mínimos cuadrados ” y Experimental. involucra el método de estadístico y
desemboco en la “Ley de mínimos cuadrados, sociólogo) es llamado
probabilidad normal” como “Método de padre de la
estimación de Estadística Moderna
parámetros.”

12
Mayo, 2017
13
Línea Del Tiempo Antecedentes
Siglo XVIII
1837 1850-1909 1880

Mayo, 2017
Simeón Denis Poisson Hermann Ebbinghaus Willhelm Lexis (Economista y Se crea una revolución Estadística proporcionando una
(Matemático y Físico); (Psicólogo Alemán): aplico el Estadístico Alemán) metodología empírica que sustituye a la experimentación
publico “La distribución de diseño experimental al contribuyo a la estadística controlada. Algunas personalidades importantes son:
poisson” y “ley de los estudio de la memoria. social estudiando datos como •Francis Galton: fue pionero en el tema de la regresión
grandes números de series de tiempo. lineal simple, y por la correlación. Investigo la distribución
Bernoulli” normal Bivariada.
•Francis Edgeworth: aporto la aproximación de Edgeworth
y desarrollo una versión del Teorema de limite central

14
Línea Del Tiempo Antecedentes
FINALES SIGLO XVIII Y COMIENZO SIGLO XIX
1892 1906 1934 1892-1962

Ronald Fisher (Biólogo, genetista y

Mayo, 2017
Jerzy Neyman (Polonia, matemático y estadístico ingles)
estadístico).- Desarrollo el muestro de Desarrollo técnicas claves para la
poblaciones finitas y la estimación por experimentación:;
intervalo. Estableció que la selección • El diseño experimental en bloques .
Karl Person.(Inglaterra).- A.L. Bowley (Inglaterra. aleatoria es la base de una teoría científica • La aleotorizacion.
Introdujo la distribución matemático y economista) que permite predecir la validez de las • El diseño Factorial.
Gamma. Desarrollo el Aplica la teoría de Inferencia estimaciones muéstrales y dejo establecida • El análisis de varianza.
estadístico Ji - Cuadrado a las encuestas por una filosofía sobre la eficiencia de la • Teoría de estimación eficiente,
muestreo. estrategia muestral. basada en la Función de
Verosimilitud.

15
Línea Del Tiempo Antecedentes
Siglo XIX
1933 1936 1876-1937

Mayo, 2017
George Snedecor
William Cochran Harold Hotelling
(Matemático E.U.A) fue uno Ego Pearson William Gosset:
(Matemático Escocia) (Economista y
de los pioneros de presento una Desarrollo el Test T,
hizo contribuciones al estadístico E:U.A). Es
estadística al constituirse en teoría de cómo basado en la distribución
diseño de conocido en Estadística
fundador de laboratorio de probar hipótesis. de probabilidad de T
experimentos y la por sus trabajos en
estadística de IOWA STATE STUDENT, introducida
teoría de muestreo. Análisis Multivariante,
UNIVERSITY. por el.
en particular por la
distribución de
probabilidad T-
Cuadrada de Hotelling,
una generalización de la
T de Student.

16
Línea Del Tiempo Antecedentes
Siglo XIX

Mayo, 2017
Charles Spearman L.L. Thurstone: Defendió la
(Psicólogo Inglaterra) Se le explicación de la inteligencia
Frank Wilcoxon (Químico y considera el primer como conjunto de siete Abraham Wald.- Desarrolló la Teoría de
estadístico E.U.A) psicometrista sistemático. capacidades o factores, Muestreo Secuencial y la Teoría
Contribuyó a la Estadística Fue pionero en el desarrollo también identificables Estadística de Decisiones. También en
No-Paramétrica, en particular del método del Análisis mediante el análisis otros campos, como Máxima
es suyo el test basado en Multivariante denominado factorial. Verosimilitud Asintótica, Estadística
rangos de Wilcoxon. Análisis Factorial. No-Paramétrica, Análisis Discriminante,
Control de calidad, Modelos Lineales
con Error en las Variables, entre otros.

17
Línea Del Tiempo Antecedentes
Siglo XIX al día de hoy.
1953, 1960

Calyampudi Radhakrishna Rao

Mayo, 2017
Estadístico Indio. Hizo contribuciones
Andrey Kolmogorov George Box
en las áreas de Teoría de
Matemático, físico y probabilista Ruso, Químico, matemático, estadístico ingles. Estimación, Inferencia, Modelos
Planteó los fundamentos de la teoría Acuño el término Robustez para designar Lineales, Análisis Multivariante, entre
otras.
axiomática de la probabilidad.. Hizo procedimientos estadísticos que dan
contribuciones cruciales a la Teoría resultados aceptables cuando no se Es conocido especialmente por la
Cota de Crámer-Rao y el Teorema
Algorítmica de la Aleatoriedad, a la Mecánica cumplen totalmente los supuestos en que
de Rao-Blackwell.
Estadística, a los Procesos Estocásticos, a la se basan
Teoría de la Información.

18
Computadoras y software
estadísticos

Mayo, 2017
19
La estadística se divide en dos grandes
áreas:
• Estadística descriptiva: Se
dedica a la descripción,
visualización y resumen de
datos originados a partir de
los fenómenos de estudio.
Los datos pueden ser

Mayo, 2017
resumidos numérica o
gráficamente.

• Estadística inferencial: Se
dedica a la generación de los
modelos, inferencias y
predicciones asociadas a los
fenómenos en cuestión
teniendo en cuenta la 20
aleatoriedad de las
observaciones.
Estadística descriptiva

Mayo, 2017
21
Un brevísimo resumen sobre
estadísticos univariantes
• Centralización
• Indican valores con respecto a los que los datos parecen agruparse.
• Media, mediana y moda
• Posición
• Dividen un conjunto ordenado de datos en grupos con la misma

Mayo, 2017
cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
• Dispersión
• Indican la mayor o menor concentración de los datos con respecto a
las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
• Forma
22
• Asimetría
• Apuntamiento o curtosis
Un brevísimo resumen sobre
estadísticos univariantes

Mayo, 2017
23
Estadísticas univariantes y Bivariantes.

24
UNIVERSIDAD CATÓLICA DE CUENCA

FACULTAD DE MEDICINA

CARRERA MEDICINA

Mayo, 2017
Unidad de Aprendizaje: Metodología y Filosofía de la Ciencia

Título del material: Método Científico: una Introducción

Por: Stefano Torracchi C. Ph.D.


25
Metodología y Filosofía de la
Ciencia.

Objetivo de la Unidad de Aprendizaje:

Mayo, 2017
El alumno conocerá los elementos básicos para elaborar el
diseño de investigación de un tema científico específico,
basándose en resultados de investigación y datos obtenidos.

26
Unidad I. Filosofía de la Ciencia

1.1 Ramas de la Ciencia

Mayo, 2017
1.2 Filosofía de la Ciencia

27
Objetivo de la Unidad I

Analizar de forma general la Filosofía de la Ciencia

Mayo, 2017
y los paradigmas científicos de la estadística
dentro de las ramas biológicas y biomédicas.

28
Contenido temático
• Ciencia
• ¿Qué debemos entender de un científico?
• ¿Qué es ciencia?
• Ramas de la ciencia
• Características de la ciencia factual
• Diferencia entre ciencia y sentido común

Mayo, 2017
• Métodos del conocimiento
• Objetivo de la ciencia
• Investigación científica

• Filosofía
• Definición y surgimiento
• Características de la filosofía
• Métodos filosóficos
• Disciplinas filosóficas 29
• Filosofía de la Ciencia
CIENCIA

Mayo, 2017
1.1 Ramas de la Ciencia

30
¿Qué debemos entender acerca
de un científico?
• Hablan de variables dependientes
e independientes (X; Y). Ejemplo:
Ingreso del consumidor (X) y
Consumo individual (Y).

Mayo, 2017
• Aleatorizan sus procedimientos
experimentales.
31
• La forma en la que se aproximan a
los problemas (sociales) debe ser
entendida con claridad.
Ciencia
“Es un conocimiento racional, sistemático, exacto, verificable y falible”
(Bunge, 2014, p. 9)

Racional: constituida por conceptos, juicios y raciocinios y no por sensaciones.

Sistemático: es un sistema de ideas conectadas lógicamente entre si.

Mayo, 2017
Exacto: sus resultados son claros y contrarios a la vaguedad y superficialidad.

Verificable: las suposiciones deber ser puestas a prueba.

Falible: se puede refutar.

32
Ramas de la ciencia (Bunge, 2014)

CARACTERÍSTICA FORMAL FACTUAL

SINÓNIMO Ideal. Ciencia Empírica.


Sí es objetiva: concuerda
Racional, sistemática,
RASGOS con su objeto. Busca la
verificable. No es objetiva.

Mayo, 2017
verdad fáctica.
Entes ideales. Solo existen Hechos, sucesos,
¿QUÉ ESTUDIA?
en la mente humana. procesos, etc.
Verifican, confirman o
FIN Demuestran, prueban.
refutan hipótesis.
Relaciones entre signos,
ENUNCIADOS Símbolos interpretados.
símbolos vacíos.
Emplean la
CONFIRMACIÓN DE
A través de la Lógica. experimentación,
CONJETURAS
observación. 33
Lógica

Formal

Ciencia Matemática

Natural (Física,
Química, Biología)

Mayo, 2017
Bio-social
Factual (Antropología,
Demografía, Psicología
Social)

Social (Sociología,
Economía, Ciencia
Política)

34
Fuente: Bunge, M. (2004). La Investigación científica. México: Siglo XXI.
Características de la ciencia
fáctica
1.- El conocimiento científico es fáctico: parte de los hechos.
2.- El conocimiento científico trasciende los hechos: descarta
hechos, produce nuevos hechos y los explica.

Mayo, 2017
35
3.- La ciencia es analítica: 4.- La investigación científica
aborda problemas concretos, es especializada: una de sus
uno por uno, y trata de características es la
descomponerlo todo en especialización.
elementos.

Químico

Mayo, 2017
Físico

Médicos 36
5.- El conocimiento científico es claro y preciso: sus resultados
son claros.
6.- El conocimiento científico es comunicable: es expresable y
público.
7.- El conocimiento científico es verificable: empirismo.

Mayo, 2017
Se prueba la hipótesis germinación de
37
semillas y crecimiento de plantas
Publicación en revistas científicas
8.- La investigación científica es metódica: es planeada.

Mayo, 2017
9.- El conocimiento científico es sistemático: es un sistema
de ideas conectadas lógicamente entre sí.

38
10.- El conocimiento científico es general: ubica los hechos
singulares en pautas generales.
11.- El conocimiento científico es legal: busca leyes y las aplica.
12.- La ciencia es explicativa: intenta explicar los hechos en
términos de leyes.

Mayo, 2017
39
Es una ley de física y a su vez reconoce la generalidad
13.- El conocimiento científico es predictivo: imagina cómo pudo
haber sido el pasado y cómo podrá ser el futuro.
14.- La ciencia es abierta: no reconoce barreras al conocimiento.
15.- La ciencia es útil: busca la verdad, provee de herramientas
para el bien y para el mal.
Conocimiento del universo y su predicción con
base en las leyes

Mayo, 2017
El funcionamiento de un submarino: para
investigar formas de vida en el fondo del mar o
para trasportar objetos ilegales.
40
Diferencia entre ciencia y
sentido común (Kerlinger y Lee, 2002)

1)
2)
Estructuras
Hipótesis
teóricas
La persona común

Mayo, 2017
Los científicos
emplea teoría de prueban hipótesis
forma vaga. de forma
sistemática.

El científico,
construye La persona común
estructuras selecciona
teóricas, las evalúa evidencia para
y las somete a una probar hipótesis.
prueba empírica. 41
4) Relación
3) Control entre
fenómenos
El científico
El científico persigue las
descarta variables relaciones de
que son “posibles” forma sistemática
causas de las que (X y Y)
son las “causas”

Mayo, 2017
La persona común
emplea el sentido
La gente común común para
rara vez se explicar la relación
preocupa por de fenómenos
controlar sus (nube obscura, va
explicaciones. llover)
42
5) Explicación
El científico descarta
explicaciones
“metafísicas” (no se
puede probar)
Científico

Mayo, 2017
La gente común
emplea la
“metafísica”: la gente
es pobre porque así
lo decidió Dios.

43
Sentido común
Métodos del conocimiento

• De acuerdo a Kerlinger y Lee (2002) existen cuatro métodos


del conocimiento:

• 1.- Método de la tenacidad

Mayo, 2017
• 2.- Método de la autoridad
• 3.- Método a priori
• 4.- Método de la ciencia

44
Método de la tenacidad
• La gente sostiene firmemente
la verdad con base en sus
creencias. La repetición de
verdades sustentan su
validez.

Mayo, 2017
Método de la autoridad

• Si una idea cuenta con el


peso de la tradición y la
sanción pública para
45
apoyarla, entonces es así.
Método de la
intuición o a priori
• Si algo es patente para
muchas personas, lo

Mayo, 2017
es para el individuo.

Método de la
ciencia
• Es autocorrectivo y
objetivo. 46
Objetivo de la ciencia
Objetivo Teoría

• El objetivo básico de la ciencia es la teoría. Su fin básico

Mayo, 2017
es explicar los fenómenos naturales. Tales explicaciones
se llaman teorías.
Teoría: conocer el
Objetivo de la comportamiento
Ciencia Biomédica de una
enfermedad
(ejemplo)
47
• De acuerdo a Creswell (2009) la teoría es un conjunto de
constructos (variables) interrelacionados en forma de
proposiciones o hipótesis que especifican la relación entre
variables.
• ¿Por qué una variable X (independiente) se relaciona con una
variable Y (dependiente)? La teoría podría explicar la relación
o predicción para esta pregunta.
X Y

Mayo, 2017
No. de pacientes con Mayor incidencia del
Paludismo mosquitos A. aegypti
Ejemplo

¿Una mayor incidencia del Mosquito A. aegypti incide en el aumento 48


de pacientes con paludismo?
La explicación la da la teoría, el objetivo de la ciencia.
Investigación científica
“…conjunto de procesos sistemáticos y empíricos que se
aplican al estudio de un fenómeno” (Hernández, Fernández-
Collado y Baptista: 2006: 22)

Mayo, 2017
La investigación científica arranca con la percepción de que el acervo de
conocimiento disponible es insuficiente para mejorar determinados
49
problemas
a) Investigación de calidad

• Se basa en el trabajo de otros.


• Se puede repetir.
• Se puede generalizar a otras situaciones.
• Se basa en algún razonamiento lógico.

Mayo, 2017
• Se puede hacer.
• Genera nuevas preguntas.
• Es incremental.
• Es una actividad apolítica.

50
b) Proceso de investigación
Hacer la pregunta

Hacer nuevas Identificar factores


preguntas importantes

Mayo, 2017
Reconsiderar la Formular una
teoría hipótesis

Trabajar con la Recopilar información


hipótesis pertinente

51
Probar la hipótesis Salkind, 1999
FILOSOFÍA

Mayo, 2017
1.2 Filosofía de la Ciencia

52
Definición y surgimiento
• Philos (amigo, amante)
• Sophia (sabiduría)
• “Amar el saber”

Mayo, 2017
• Los inicios de la filosofía
de occidente se ubican en
Grecia: se realizaba una
reflexión racional, una
explicación de la
naturaleza, la realidad y el
hombre.
53
• No existe una definición única. Para fines de la clase, filosofía
es:

“Actividad racional de reflexión sobre todos aquellos aspectos


considerados fundamentales en distintos ámbitos de la vida
humana, profundizando hasta los cimientos o bases sobre los
cuales se edifica el conocimiento” (Camacho, López y Mendoza,
2009, p. 13).

Mayo, 2017
54
Características de la Filosofía
(Camacho, López y Mendoza, 2009)

Asombro

Formas de
Duda
expresión

Mayo, 2017
Amor a la
Reflexión
sabiduría

Visión
Pregunta
totalizadora 55
Objeto de la Filosofía

Mayo, 2017
Conocimiento
de la realidad

Va más allá de los hechos que constituyen los datos de la experiencia

Dentro de la filosofía existen diferentes métodos que permiten conocer


la realidad: Socrático, Cartesiano, Fenomenológico, Hermenéutico y
56
Dialéctico como ejemplos.
Métodos filosóficos (Camacho, López y Mendoza,
2009)

• Socrático: es aquél que emplea la “mayéutica” o bien el arte de


dar a luz o parir el conocimiento basado en el diálogo.

Mayo, 2017
Con preguntas
Sócrates (diálogo)
Sócrates dirige Platón
“Partera”
“a punto de dar a luz
el parto
(conocimiento)”
(conocimiento)
de Platón. 57
Cartesiano (René Descartes)
De René Descartes, funciona a través de la duda metódica.
Siempre hay que dudar. Su método:

1.- Debilitar la vieja ciencia

Mayo, 2017
2.- Buscar lo que es perdurable.

Principios:
1.- Nada es verdadero
2.- Se debe analizar
3.- Se incrementa el conocimiento
por el pensamiento ordenado
58
4.- No se debe omitir nada
Fenomenológico (Edmund
Husserl)
• Es la descripción de lo que aparece en la conciencia, el
fenómeno o la apariencia.

Tratar de

Mayo, 2017
Lema:
describir el
“Volver a las
sentido de las
cosas
cosas
mismas”
viviéndolas

Pasos:
1.- Reducción: poner un paréntesis y tener una actitud natural.
2.- Resultado: residuo fenomenológico. 59
Hermenéutico (Friedrich
Ernst)
• Es el arte de interpretación de un texto, más que su
descripción.

Mayo, 2017
60
Método Dialéctico (Georg
Friedrich Hegel)
• Se basa en el supuesto de que tanto la realidad como el
pensamiento se manifiestan según el principio de la dialéctica,
transcurriendo por tres estadios o momentos sucesivos.

Mayo, 2017
Síntesis
Antítesis
Tesis

61
Como lo explicamos.

Mayo, 2017
62
Disciplinas filosóficas
Algunos
ejemplos Ontología (Estudio del ser)

Gnoseología (Estudia la naturaleza, el


Filosofía de la Ciencia

origen y el alcance del conocimiento)

Mayo, 2017
Epistemología (El objeto de estudio
es el conocimiento)

Lógica (estudia los principios de


demostración y la inferencia válida
63
Filosofía de la ciencia
• Está relacionada con la tarea de los filósofos por
formular metodologías o lógicas de
descubrimiento, es decir, reglas para evaluar las
teorías ya existentes y articuladas (Verdugo,

Mayo, 2017
1996).

• Filosofía de la Ciencias Biológicas y/o


Biomédicas: se relaciona con temas
conceptuales, metodológicos y éticos que surgen
64
de estas disciplinas. Se debe evaluar el
andamiaje teórico de las mismas.
Resumen
A lo largo de los temas expuestos se ha aprendido lo siguiente:
1.- La ciencia es el conocimiento racional, sistemático, exacto,
verificable y falible. Cuenta con dos grandes ramas: la Ciencia
Formal y la Ciencia Factual. De la Ciencia Factual se desprenden
las Ciencias Sociales en las que se puede ubicar a la Economía.

Mayo, 2017
2.- La Filosofía, amor al saber, está relacionada con el
descubrimiento de la verdad de todo lo que le rodea al hombre.
Dentro de la Filosofía se pueden ubicar algunas disciplinas
filosóficas como la Filosofía de la Ciencia. La Filosofía de la
Ciencia evalúa las teorías.
3.- La Filosofía de la Economía evalúa el andamiaje teórico de la
Ciencia Económica. 65
Fuentes de información
Bunge, M. (2004). La Investigación científica. México: Siglo XXI.
Bunge, M. (2014). La ciencia, su método y su filosofía. México: Nueva
Imagen.
Camacho, M.G.; López, M.I. y Mendoza, B. (2009). Filosofía. México:
Progreso.

Mayo, 2017
Creswell, J.W. (2009). Research design. Qualitative, Quantitative, and
Mixed Methods Approaches. USA: SAGE.
Hernández, R.; Fernández-Collado, C. y Baptista, P. (2006).
Metodología de la investigación. México: McGraw Hill.
Kerlinger, F.N. y Lee, H. (2002). Investigación del comportamiento.
México: McGraw-Hill.
Salkind, N. (1999). Métodos de investigación. México: Prentice Hall.
Verdugo, C. (1996). La filosofía de la ciencia de Popper. En Estudios 66

Públicos, 62, p. 181-195.


Mayo, 2017
67
Mayo, 2017
68
Mayo, 2017
69
TÍTULO DE LA INVESTIGACIÓN
• Un buen título debe ser corto, preciso y conciso.
• Debe dejar claro al lector (revisor) los objetivos y variables
centrales del estudio.
• Si es posible y no lo prolonga, en el título se podría anticipar el

Mayo, 2017
diseño.
• Es importante explicitar la población o universo que será
investigado.

70
Resumen de la investigación
200 palabras

Mayo, 2017
71
PLANTEAMIENTO DEL
PROBLEMA
• Se constituye en la justificación científica del estudio, es decir,
lo que fundamenta la necesidad de realizar una investigación
para generar conocimientos que brinden un aporte al
conocimiento existente.

Mayo, 2017
• Los vacíos de conocimiento existente sobre el problema y/o la
controversia existente y la evidencia no conclusiva
• Es en este punto donde el investigador delimita el objeto de
estudio y da a conocer las interrogantes o las grandes
preguntas que orientan la investigación
Argumento convincente

72
Justificación del problema
• ¿Cómo se relaciona la investigación con las prioridades de la
región y del país?
• ¿Qué conocimiento e información se obtendrá?
• ¿Cuál es la finalidad que se persigue con el conocimiento que

Mayo, 2017
brindará el estudio?
• ¿Cómo se diseminarán los resultados?
• ¿ se utilizarán los resultados y quiénes serán los beneficiarios?

73
FUNDAMENTO TEÓRICO
(Background)
• Se deriva del planteamiento del problema (presentación de
evidencia empírica y pregunta central) y es la argumentación y
demostración de que la "pregunta" tiene fundamento (piso),
derivando en probable(s) respuesta(s) y/o hipótesis de

Mayo, 2017
trabajo.
• Sustenta la pregunta central del estudio, expone el
razonamiento y argumentos del investigador hacia la
búsqueda de la evidencia que le dé respuesta a la pregunta
y/o hipótesis.
• Requiere igualmente, una exhaustiva revisión de la
bibliografía.
74
OBJETIVOS DE LA
INVESTIGACIÓN
Objetivo general:
• Debe explicitar lo que se espera lograr con el estudio en
términos de conocimiento.
• Debe dar una noción clara de lo que se pretende describir,

Mayo, 2017
determinar, identificar, comparar y verificar.
Objetivos específicos:
• Son la descomposición y secuencia lógica del objetivo general.
• Son un anticipo del diseño de la investigación.

75
Metodología y Análisis

Mayo, 2017
76
Definición operacional de las
variables
• Las variables deben tener una expresión operacional; es decir,
que el investigador deje claro al lector qué está entendiendo
por cada variable

Mayo, 2017
• De qué tipo de variable se trata y cuál sería la manera de
resumir sus valores (cuantitativos o cualitativos)

77
Tipo de estudio y diseño
general
• El investigador debe enunciar con claridad el tipo de estudio
que realizará y una explicación detallada de su diseño.
• Estratégicas y los mecanismos que va a poner en práctica para

Mayo, 2017
reducir o suprimir las amenazas a la validez de los resultados,
o sea, los llamados factores confusores.

78
Universo de estudio,
selección y tamaño de
muestra, unidad de análisis
y observación

Mayo, 2017
• En este acápite, el investigador debe enunciar y describir el
universo del estudio y todo lo relativo a los procedimientos y
técnicas para la selección y tamaño de muestra (en caso de
que no aplique se debe explicar el por qué)
• En este punto se debe también señalar, los criterios de
inclusión y exclusión de los sujetos o unidades de observación

79
Criterios de inclusión y
exclusión
• Tener por lo menos claro y argumentarlo, por que se incluyen
o se excluyen ciertas variables que podrían ser necesarias
dentro del proceso de su investigación

Mayo, 2017
80
Intervención propuesta
• Se debe asegurar que la descripción de la intervención
responde a tres preguntas fundamentales:
• ¿Quién será el responsable de la intervención?
• ¿Dónde tendrá lugar?
• ¿Qué actividades se van a realizar y en qué nivel de frecuencia e

Mayo, 2017
intensidad?

81
Procedimientos para la recolección de
información, instrumentos a utilizar y
métodos para el control y calidad de
los datos
• Encuesta a población, entrevistas a profundidad, observación no-
practicante, dinámica de grupos focales, análisis de contenido, etc.

Mayo, 2017
• Cómo y cuándo los aplicará y los instrumentos que utilizará para
recopilar la información
• los procedimientos que utilizará para controlar los factores que
amenazan la validez y confiabilidad de los resultados
• En el caso de requerirse el uso de datos secundarios, el
investigador describirá las fuentes, su contenido y la calidad de los
datos que piensa utilizar
82
Se deben anexar al protocolo, los instrumentos que serán utilizados
Procedimientos para garantizar
aspectos éticos en las
investigaciones con sujetos
humanos

Mayo, 2017
• Indicar cómo será mantenida la confidencialidad de la
información de los participantes en el estudio.

83
Métodos de investigación y
análisis de datos.
• Métodos y modelos de análisis de los datos según tipo de
variables
• Programas a utilizar para análisis de datos

Mayo, 2017
84
Referencias bibliográficas
Normas APA

Mayo, 2017
85
Mayo, 2017
86
Población y Muestra

Las estadísticas de por sí no tienen sentido si no se


consideran o se relacionan dentro del contexto con
que se trabajan. Por lo tanto es necesario entender

Mayo, 2017
los conceptos de población y de muestra para lograr
comprender mejor su significado en la investigación
educativa o social que se lleva a cabo.

87
Población y Muestra
Proceso Estadístico

Población

Mayo, 2017
Muestreo

Inferencia
Estadística

88

Muestra
Población y Muestra
Población: Definición
Es el conjunto total de individuos, objetos o medidas
que poseen algunas características comunes

Mayo, 2017
observables en un lugar y en un momento
determinado.
Cuando se vaya a llevar a cabo alguna investigación
debe de tenerse en cuenta algunas características
esenciales al seleccionarse la población bajo estudio.
89
Población y Muestra
Población: Características
Es el conjunto total de individuos, objetos o medidas
que poseen algunas características comunes

Mayo, 2017
observables en un lugar y en un momento
determinado.
Cuando se vaya a llevar a cabo alguna investigación
debe de tenerse en cuenta algunas características
esenciales al seleccionarse la población bajo estudio.
90
Población y Muestra
Población: Características
Homogeneidad - que todos los miembros de la
población tengan las mismas características según las
variables que se vayan a considerar en el estudio o

Mayo, 2017
investigación.

Tiempo - se refiere al período de tiempo donde se


ubicaría la población de interés. Determinar si el
estudio es del momento presente o si se va a estudiar
a una población de cinco años atrás o si se van a 91
entrevistar personas de diferentes generaciones.
Población y Muestra
Población: Características
Espacio - se refiere al lugar donde se ubica la
población de interés. Un estudio no puede ser muy
abarcador y por falta de tiempo y recursos hay que

Mayo, 2017
limitarlo a un área o comunidad en específico.

Cantidad - se refiere al tamaño de la población. El


tamaño de la población es sumamente importante
porque ello determina o afecta al tamaño de la
muestra que se vaya a seleccionar, además que la falta
92
de recursos y tiempo también nos limita la extensión
de la población que se vaya a investigar.
Población y Muestra
Muestra: Concepto
La muestra es un subconjunto fielmente representativo
de la población.

Mayo, 2017
Hay diferentes tipos de muestreo. El tipo de muestra
que se seleccione dependerá de la calidad y cuán
representativo se quiera sea el estudio de la población.

93
Población y Muestra
Muestra: Tipos
ALEATORIA - Cuando se selecciona al azar y cada
miembro tiene igual oportunidad de ser incluido.
Es preferible usar, métodos computacionales para

Mayo, 2017
discriminar cualquier efecto sobre la toma de la
muestra.

Ejm. en Excel
=ALEATORIO.ENTRE(1,45)
94
Población y Muestra
Muestra: Tipos
ESTRATIFICADA - cuando se subdivide en estratos o
subgrupos según las variables o características que se
pretenden investigar. Cada estrato debe corresponder

Mayo, 2017
proporcionalmente a la población..

95
Población y Muestra
Muestra: Tipos
SISTEMÁTICA - cuando se establece un patrón o criterio
al seleccionar la muestra. Ejemplo: se entrevistará una
familia por cada diez que se detecten.

Mayo, 2017
96
Población y Muestra
Muestreo:
El muestreo es indispensable para el investigador ya
que es imposible entrevistar a todos los miembros de
una población debido a problemas de tiempo,

Mayo, 2017
recursos y esfuerzo. Al seleccionar una muestra lo que
se hace es estudiar una parte o un subconjunto de la
población, pero que la misma sea lo suficientemente
representativa de ésta para que luego pueda
generalizarse con seguridad de ellas a la población.

97
Población y Muestra
Investigación: Tipos.
En la investigación experimental, por su naturaleza y
por la necesidad de tener control sobre las variables,
se recomienda muestras pequeñas que suelen ser de

Mayo, 2017
por lo menos 30 sujetos.

En la investigación descriptiva se emplean muestras


grandes y algunas veces se recomienda seleccionar de
un 10 a un 20 por ciento de la población accesible.
98
Población y Muestra
Muestreo: Importancia
Las razones para estudiar muestras en lugar de
poblaciones y/o universos son diversas y entre ellas
podemos señalar

Mayo, 2017
Ahorrar tiempo. Estudiar a menos individuos es
evidente que lleva menos tiempo.

Como consecuencia del punto anterior ahorraremos


costes.
99
Población y Muestra
Muestreo: Importancia
Estudiar la totalidad de los pacientes o personas con
una característica determinada en muchas ocasiones
puede ser una tarea inaccesible o imposible de realizar.

Mayo, 2017
Aumentar la calidad del estudio. Al disponer de más
tiempo y recursos, las observaciones y mediciones
realizadas a un reducido número de individuos pueden
ser más exactas y plurales que si las tuviésemos que
realizar a una población. 100
Población y Muestra
Muestreo: Importancia
La selección de muestras específicas nos permitirá
reducir la heterogeneidad de una población al indicar
los criterios de inclusión y/o exclusión.

Mayo, 2017
101
Bioestadística
Muestreo

102
• Parte de los conceptos de la teoría del muestreo han sido
discutidos con anterioridad. Aquí los repasaremos y ampliaremos.
Por ejemplo, hemos mencionado que las poblaciones están
formadas por individuos, pero sería mejor denominarlas unidades
de muestreo o unidades de estudio:
• Personas, células, familias, hospitales, países…

• La población ideal que se pretende estudiar se denomina


población objetivo.
• No es fácil estudiarla por completo. Aproximamos mediante
muestras que den idealmente la misma probabilidad a cada
individuo de ser elegido.
• Tampoco es fácil elegir muestras de la población objetivo:
• Si llamamos por teléfono excluimos a los que no tienen.
• Si elegimos indiv. en la calle, olvidamos los que están trabajando...

• El grupo que en realidad podemos estudiar (v.g. los que tienen


teléfono) se denomina población de estudio.
103

Bioestadística. UTPL. Tema 6: Muestreo


Fuentes de sesgo
• Las poblaciones objetivo y de estudio pueden diferir en
cuanto a las variables que estudiamos.
• El nivel económico en la población de estudio es mayor
que en la objetivo,...
• Los individuos que se eligen en la calle pueden ser de
mayor edad (mayor frecuencia de jubilados p.ej.)…
• En este caso, diremos que las muestras que se elijan estarán
sesgadas. Al tipo de sesgo debido a diferencias sistemáticas entre
población objetivo y población de estudio se denomina sesgo de
selección.
• Hay otras fuentes de error/sesgo
• No respuesta a encuestas embarazosas
• Consumo de drogas, violencia doméstica, prácticas poco
éticas,…
• Mentir en las preguntas “delicadas”.

• Para evitar este tipo de sesgo se utilizan la técnica de


respuesta aleatorizada. 104
Técnicas de respuesta aleatorizada
• Reducen la motivación para mentir (o no responder) a
las encuestas.
• ¿Si digo la verdad, se me verá el plumero…?

• ¿Cómo se hace?
Pídele que lance una moneda antes de responder y…
• Si sale cara que diga la “opción compremetida”
• (no tiene por qué avergonzarse, la culpa es de la moneda)
• Si sale cruz que diga la verdad
• (no tiene por qué avergonzarse, el encuestador no sabe si
ha salido cara o cruz)

• Aunque no podamos saber cuál es la verdad en cada


individuo, podemos hacernos una idea porcentual
sobre la población, viendo en cuánto se alejan las 105

respuestas del 50%.


Ejemplo: ¿Ha tomado drogas alguna vez?
Sin respuesta 100% No Insinceros!!
aleatorizada

Con respuesa
aleatorizada Diferencia entre los que han dicho sí y los que
40% No debían hacerlo por que así lo indicaba la moneda
60% Sí
0,6  0,5
¡No son mitad y mitad! p 
*
 0,2  20%
El porcentaje estimado de ind. que tomó drogas 1  0,5 106
es:
Los que deben decir la verdad
Técnicas de muestreo
• Cuando elegimos individuo de una población de
estudio para formar muestras podemos encontrarnos
en las siguientes situaciones:
• Muestreos probabilistas
• Conocemos la probabilidad de que un individuo sea elegido
para la muestra.
• Interesantes para usar estadística matemática con ellos.
• Muestreos no probabilistas
• No se conoce la probabilidad.
• Son muestreos que seguramente esconden sesgos.
• En principio no se pueden extrapolar los resultados a la
población.
• A pesar de ello una buena parte de los estudios que se publican
usan esta técnica. ¡Buff!
• En adelante vamos a tratar exclusivamente con
muestreos con la menor posibilidad de sesgo
(probabilistas): aleatorio simple, sistemático,
estratificado y por grupos. 107
Estimación
• Un estimador es una cantidad numérica calculada sobre
una muestra y que esperamos que sea una buena
aproximación de cierta cantidad con el mismo significado
en la población (parámetro).

• En realidad ya hemos trabajado con estimadores cada


vez que hacíamos una práctica con muestras extraídas de
una población y suponíamos que las medias, etc… eran
próximas de las de la población.

• Para la media de una población:


• “El mejor” es la media de la muestra.

• Para la frecuencia relativa de una modalidad de una variable:


• “El mejor” es la frecuencia relativa en la muestra. 108
¿Es útil conocer la distribución de un estimador?
• Es la clave para hacer inferencia. Ilustrémoslo con un ejemplo que ya
tratamos en el tema anterior (teorema del límite central).

• Si de una variable conocemos μ y σ, sabemos que para muestras


“grandes”, la media muestral es:
• aproximadamente normal,

• con la misma media y, EE 
• desviación típica mucho menor (error estándar) n

• Es decir si por ejemplo μ=60 y σ=5, y obtenemos muestras de tamaño


n=100,
• La desv. típica de la media muestral (error estándar) es EE=5/raiz(100)=0,5
• como la media muestral es aproximadamente normal, el 95% de los estudios
con muestras ofrecerían estimaciones entre 60±1
• Dicho de otra manera, al hacer un estudio tenemos una confianza del 95% de 109

que la verdadera media esté a una distancia de ±1.


• Ejemplo: Una muestra de n=100 individuos de una
población tiene media de peso 60 kg y desviación 5kg.

• Dichas cantidades pueden considerarse como aproximaciones


(estimaciones puntuales)
• 60 kg estima a μ
• 5 kg estima a σ
• 5/raiz(n)= 0,5 estima el error estándar (típico) EE
• Estas son las llamadas estimaciones puntuales: un número concreto
calculado sobre una muestra es aproximación de un parámetro.

• Una estimación por intervalo de confianza es una que ofrece


un intervalo como respuesta. Además podemos asignarle una
probabilidad aproximada que mida nuestra confianza en la
respuesta:

• Hay una confianza del 68% de que μ esté en 60±0,5 110


• Hay una confianza del 95% de que μ esté en 60±1.
Estimación puntual y por intervalos
• Se denomina estimación puntual de un parámetro al ofrecido por el
estimador sobre una muestra.

• Se denomina estimación confidencial o intervalo de confianza para un


nivel de confianza 1-α dado, a un intervalo que ha sido construido de tal
manera que con frecuencia 1-α realmente contiene al parámetro.

• Obsérvese que la probabilidad de error (no contener al parámetro) es


α.
• En el siguiente tema se llamará prob. de error de tipo I o nivel de
significación.
• Valores típicos: α=0,10 ; 0,05 ; 0,01

• En general el tamaño del intervalo disminuye con el tamaño muestral


y aumenta con 1-α.

• En todo intervalo de confianza hay una noticia buena y otra mala:


• La buena: hemos usado una técnica que en % alto de casos acierta. 111
• La mala: no sabemos si ha acertado en nuestro caso.
Aplicación • Al final del tema 2
dejamos sin interpretar
De scriptivos para Núme ro de hijos parte de los resultados
que obteníamos con SPSS.
Estadístico Error típ.
Media 1,90 ,045
Intervalo de Límite
1,81
• ¿Sabrías interpretar lo
confianza para la inferior que falta por sombrear?
media al 95% Límite
superior 1,99
• ¿Puedes dar un intervalo
Media recortada al 5% de confianza para la
1,75 media al 68% de
confianza?
Mediana 2,00
Varianza 3,114
Des v. típ. 1,765 • Observa la asimetría.
Mínimo 0 ¿Crees probable que la
Máximo 8 asimetría en la población
Rango 8 pueda ser cero ya que la
Amplitud interc uartil obtenida en la muestra es
3,00 aprox. 1?
112
Asimetría 1,034 ,063
Curtosis 1,060 ,126
Bioestadística. UTPL.
Premisas para el calculo de la
muestra
• El tamaño de la muestra debe ser lo suficientemente grande
para evitar dos fuentes de error:
• Error tipo I o α: Afirmar que la exposición esta asociada con
la enfermedad, cuando en realidad no lo está
• Error tipo II o β: afirmar que la exposición no esta asociada
con la enfermedad cuando en realidad lo está
Se debe tener en cuenta
que en algunas
circunstancias los
aspectos de validez de la
muestra son más
importantes que la misma 113
representatividad
114
115
116
117
118
119
120
Cálculo del tamaño muestral en
estudios de casos y controles

La seguridad con la que se desea trabajar (α), o riesgo


de cometer un error de tipo I. Generalmente se trabaja
con una seguridad del 95% (α = 0,05)

121
P1: La frecuencia de la exposición entre los casos
P2: La frecuencia de la exposición entre los controles

122
El poder estadístico (1-β) que se quiere para el estudio,
o riesgo de cometer un error de tipo II.
Es habitual tomar β = 0,2, es decir, un poder del 80%.

123
124
Muestreo en estudios estadísticos
Definiciones:
• Universo (U): Conjunto de elementos susceptible de ser estudiados.
Individuos, aldeas, pueblos, acontecimientos (nacimientos, fallecimientos, …)
Precisión en la definición
• Unidades muestrales (UM): Elementos que componen el Universo.
Individuos, aldeas, pueblos, manzanas, hogares, …
Un mismo U puede descomponerse en distintos tipos de UM.
• Muestra (m): Subconjunto de UE extraídas del U. .
Los resultados de la muestra se van a “extrapolar” (estimación)

Mayo, 2017
Universo (U)

Unidades
muestrales

125

Unidades
Muestra (n) Muestrales seleccionadas
Representatividad en estudios estadísticos

m = Imagen reducida pero “fiel” del U

Características a evaluar

Mayo, 2017
Grupos de estudio “sobre-representados”

Ponderación en la estimación
126
Muestreo Aleatorio Simple (MAS) (Azar Simple):
Extraer m de tamaño n donde cada UM tiene la misma probabilidad
de ser extraída. Puede realizarse con o sin reposición.

Los pasos a seguir son:


• Listar todos los elementos
• Calcular el tamaño muestral necesario
• Listado de números aleatorios
• Extraer las unidades muestrales del universo
poblacional.

Mayo, 2017
Ventajas:
• Sencillez.
• Se basa en métodos probabilísticos
• Sirve de base para otros métodos más complejos.
Inconvenientes:
•Todas las unidades poblacionales han de ser listadas.
• No unifica las distintas características de los elementos.
•Algún grupo poblacional puede no ser representado 127
Muestreo Aleatorio Sistemático (MAST)
(Azar Sistemático):

Los pasos a seguir son:


Listar todos los elementos
Calcular el tamaño muestral necesario
Seleccionar una primera unidad, calculando N/n=CE (coeficiente de
Elevación)
Seleccionar el resto de unidades a partir de la 1º sumando el CE

Mayo, 2017
correlativamente.
CE = N (población y/o universo) n (el tamaño de la muestra).
Ventajas:
Las mismas que en MAS
Inconvenientes:
Una cierta ordenación puede dar lugar a un sesgo.
El CE puede no ser entero.
La sustitución de las unidades vacías produce otro CE y este a su vez 128
puede producir un nuevo sesgo.
Muestreo Estratificado:
Se eligen unas características de la población diana y se realizan
subgrupos de la misma a partir de éstos, intentando que sea un fiel
reflejo del universo muestral.

Estrato: Subconjunto de la población agrupado por una o más


características.

Mayo, 2017
Ventajas:
Consigue una mayor precisión que el MAS y el MAST.
Se puede obtener información de cada estrato.
Es más beneficioso logística y administrativamente hablando.

Inconvenientes:
Es más complejo que el MAS.
129
Es más costoso económicamente y de recursos utilizados.
Muestreo Aleatorio Estratificado (MAE):

En este proceso se divide la población en estratos o subconjuntos


disjuntos y exhaustivos para la posterior extracción de una MAS en
cada uno de ellos, con el objeto de conseguir una representación de
cada uno de ellos. Se debe conseguir una homogeneidad
intra-strato y heterogeneidad inter-estrato.

Podemos elegir dos tipos de reparto al realizar los estratos:

Mayo, 2017
Simple.- Cada estrato contiene el mismo número de unidades
muestrales.

nmuestral
ne  L = nº de estratos
L
Proporcional.- Cada estrato es proporcional en la muestra a la
proporción que le corresponde en la población de interes.
130
Ne
ne   nmuestra
N población
Ejemplo de muestreo aleatorio estratificado
N=600 n=60 L=nº de estratos=3

Camas/Hospitales Ne Simple Proporcional


60/3=20
>1000 50 20 5 (50/600)x60
1000-500 200 20 20 (200/600)x60
<500 350 20 35 (350/600)x60

Mayo, 2017
N=600 n=60 n=60

nmuestral
Simple ne   60  20
L 3

Ne
Proporcional ne   nmuestra 131
N población
Muestreo por Conglomerados:

Se utiliza cuando no se pueden listar los elementos de la


población objetivo, entonces definimos unidades más
complejas, que denominamos conglomerados, que reúnan en sí
misma un conjunto amplio de unidades “elementales”.

Muestreo Polietápico: Se realiza en 2 o más etapas.

Mayo, 2017
Los pasos a seguir son:
Identificar los conglomerados a estudiar
Seleccionar al azar a los conglomerados
Seleccionar unidades muestreales en cada conglomerado.

132
Ejemplo:
Para realizar un estudio epidemiológico, se desea diseñar una muestra
estratificada en función de tres factores de riesgo. Siendo la población total de
1.000.000 de habitantes:

Hábitat:
Rural-300.000 h.
Urbana-700.000 h.
Sexo: En el medio rural el % de varones es del 40% y en el urbano
de 55%.

Mayo, 2017
Edad: Se estratifica en 3 categorías, siendo su distribución igual en
varones que en mujeres y en cada uno de los hábitat
<20 años-30%
20-50 años-50%
>50 años-20%.

El grupo con menor muestra debe tener un mínimo de 48 individuos.


133
Diseñar el árbol de estratificación y el valor mínimo de
muestra necesario.
Población (1.000.000)
0,3 0,7

Rural (300.000) Urbano (700.000)

0,4 (0,12) 0,6 (0,18) 0,55 (0,385) 0,45 (0,315)

120.000 180.000 385.000 315.000

Hombres Mujeres Hombres Mujeres

Mayo, 2017
Población Total 1000000
<20 20-50 >50 <20 20-50 >50 <20 20-50 >50 <20 20-50 >50
0,3 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2
Población Rural 300000
36.000 60.000 24.000 54.000 90.000 36.000 115.500 192.500 77.000 94.500 157.500 63.000

Población Urbana 700000

Rural
0,036 el0,06 40%
0,024 0,054 (0.40)
0,09 0,036* 300000
0,115 = 120.000
0,192 0,077 0,094 0,157 0,063
120 48 108 180 231 385 154 189 126
72
Urbano el 55% (0.55)72 * 700000 = 385.000 315
134
Mujeres: se obtiene de la diferencia entre los valores obtenidos
Del total hombres menos el total rural
Población (1.000.000)
0,3 0,7

Rural (300.000) Urbano (700.000)

0,4 (0,12) 0,6 (0,18) 0,55 (0,385) 0,45 (0,315)

120.000 180.000 385.000 315.000

Hombres Mujeres Hombres Mujeres

<20 20-50 >50 <20 20-50 >50 <20 20-50 >50 <20 20-50 >50
30 (0,3) 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2
36.000 60.000 24.000 54.000 90.000 36.000 115.500 192.500 77.000 94.500 157.500 63.000

3 Categorías con igual distribución


20 – 30
<0,036 0,06 30%0,024 (0.3)
0,054 0,09 120000
0,036 0,115* 0.3
0,192= 36000
0,077 0,094 0,157 0,063
7220 – 50120 50 % 108
48 (0.5) 180 180000
72 231 * 0.5 154
385= 90000 189 315 126
135
> 50 20 % (0.2) 385000 * 0.2 = 77000
Estos valores se multiplican por cada uno de los valores de la
población de hombres y mujeres por cada hábitat.
Población (1.000.000)
0,3 0,7

Rural (300.000) Urbano (700.000)

0,4 (0,12) 0,6 (0,18) 0,55 (0,385) 0,45 (0,315)

120.000 180.000 385.000 315.000

Hombres Mujeres Hombres Mujeres

<20 20-50 >50 <20 20-50 >50 <20 20-50 >50 <20 20-50 >50
0,3 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2 0,3 0,5 0,2
36.000 60.000 24.000 54.000 90.000 36.000 115.500 192.500 77.000 94.500 157.500 63.000

0,036 0,06 0,024 0,054 0,09 0,036 0,115 0,192 0,077 0,094 0,157 0,063
72 120 48 108 180 72 231 385 154 189 315 126
136
El grupo con menor muestra debe tener un mínimo de 48
individuos. Se divide el valor mas bajo para 48, da 500.
Dividimos el resto para 500 y tenemos las muestras para C/u.
Ejercicio 1.

Se desea determinar la mortalidad por cierta cardiopatía en una


población de 2.000.000 de habitantes.
Para ello diseñamos un estudio cuyo muestreo será
estratificado teniendo en cuenta diversos factores que nos
distribuyen a la población en Alto y Bajo Riesgo, y sabiendo
que el sexo y la edad influyen en esa enfermedad.

Teniendo en cuenta que en la Población total, tenemos 200.000

Mayo, 2017
personas en el grupo definido como de Alto Riesgo, que en
este grupo el porcentaje de varones es del 55% mientras que
en el grupo de bajo riesgo es del 50% y que en los varones
tenemos un 20% menores de 10 años, un 60% entre 10 y 50
años y un 20% mayores de 50, mientras que en las mujeres
este porcentaje es de 40, 40 y 20% respectivamente para cada
grupo de edad.

Realizar el árbol de estratificación y el número de muestra 137


necesario en cada uno de ellos sabiendo que en total
necesitamos 2.000 personas.
0,20 <10 0,011 – 22
Ejercicio 1. 0,60
Varones 10-50 0,033 – 66
0,55
0,20 >50 0,011 – 22
Alto Riesgo
0,4 <10 0,018 – 36
0,45
0,4
0,1 Mujeres 10-50 0,018 – 36

0,2 0,009 – 18
>50
Muestra
0,20 <10 0,09 – 180
(2000)
0,60 10-50 0,27 – 540
Varones
0,9 0,5
0,20 >50 0,09 – 180
Bajo Riesgo
0,4 <10 0,18 – 360
0,5
0,4 138
Mujeres 10-50 0,18 – 360

0,2 >50 0,09 – 180


Mayo, 2017
139
Variabilidad

El concepto fundamental
de la estadística es la

Mayo, 2017
variabilidad y El dato es
la materia prima

140
Variabilidad
• Variabilidad es la
propiedad de aquello
que es variable.
• Este adjetivo, que

Mayo, 2017
procede del vocablo
latino variabĭlis, refiere
a lo que varía, cambia o
se modifica.
Lo que no se puede medir no existe físicamente 141
Variabilidad
CUANTITATIVA CUALITATIVA

Mayo, 2017
142
Variable
• Una variable es un aspecto o
dimensión de un fenómeno que tiene
como característica la capacidad de
asumir distintos valores, ya sea
cuantitativa o cualitativamente.
• Es la relación causa-efecto que se da

Mayo, 2017
entre uno o más fenómenos
estudiados.

• En toda variable el factor que asume esta condición


debe ser determinado mediante observaciones y estar
en condiciones de medirse para enunciar que de una
entidad de observación a otra el factor varía, y por tanto 143
cumple con su característica.
Variables
• Característica de interés que tiene un valor diferente
para distintos sujetos u objetos.

• Una Variable es cualquier cosa que puede medirse y


que se observa que varia.

Mayo, 2017
• La información recabada durante una investigación
proviene de observaciones individuales y esta se ha
de resumir de alguna manera que pueda utilizarse.

144
Variables y Conceptos
• El término «variable», en su significado más general, se
utiliza para designar cualquier característica de la realidad
que pueda ser determinada por observación y que pueda
mostrar diferentes valores de una unidad de observación a
otra.

Mayo, 2017
• las variables existen en el mundo real, mientras que
los conceptos, en cierto modo, existen como parte
de nuestro lenguaje y de nuestra manera de
conocer ese mundo real.
• La ciencia construye conceptos: identificando las
variables que poseen
145
Variables
• Nominal → clasifica
• Dicotómica o Binaria
Cualitativa
Según la • Policotómica
medición • Ordinal → Jerarquiza
• Discreta → Cuenta

Mayo, 2017
Cuantitativa
• Continua → Mide
X, predictora, exposición, controlada.
Según su Independiente
influencia
Dependiente Y, desenlace, resultado, Respuesta.
Latente Opuesto a variable observada

Lo que no se puede medir no existe físicamente


146
Variables
• Nominal → clasifica
• Dicotómica o Binaria
Cualitativa
Según la • Policotómica
medición • Ordinal → Jerarquiza
• Discreta → Cuenta

Mayo, 2017
Cuantitativa
• Continua → Mide
X, predictora, exposición, controlada.
Según su Independiente
influencia
Dependiente Y, desenlace, resultado, Respuesta.
Latente Opuesto a variable observada

Lo que no se puede medir no existe físicamente


147
Variables Cualitativas
• Características o cualidades que no pueden ser
medidas con números

• Se les debe asignar un “código numérico” que

Mayo, 2017
viene a ser una traducción para el análisis

• Se clasifican en:
• Nominal
• Ordinal
148
Variables Cualitativas
Categóricas nominales
• Son datos clasificados únicamente por su nombre.
• Los posibles valores son excluyentes
• No tiene en cuenta el orden, la jerarquía o la magnitud
del dato

Mayo, 2017
• No son datos numéricos (aunque se les codifique
asignándole un número)
• Solo permite operaciones de igualdad o desigualdad
• Se clasifican en:
• Dicotómicas y/o Binaria (Hombre, Mujer)
149
• Policotómicas (Mestizo, Blanco, Afroamericano)
Ejemplo de variables cualitativas
Categóricas o Nominales
Dicotómicas (Binarias) Policotómicas
Muerte Grupo Sanguíneo: A, B, AB, O
Enfermedad Raza: Blanca, negra……

Mayo, 2017
Sexo? Religión: católica, musulmana……
Antecedente: IAM, EPOC……. Estado civil
Efectos adversos Ciudad de nacimiento: Cuenca, Quito..

150
Variables Cualitativas
Ordinales
• En la escala existe cierto orden o jerarquía entre las
categorías.
• Los intervalos entre las categorías no necesariamente

Mayo, 2017
son iguales

151
Los intervalos no son necesariamente iguales

Puesto Tiempo
1 9.69

Mayo, 2017
2 10,09
3 10,10
5 10,11
6 10,35
7 10,50
8 12,50

152
Variables
• Nominal → clasifica
• Dicotómica o Binaria
Cualitativa
Según la • Policotómica
medición • Ordinal → Jerarquiza
• Discreta → Cuenta

Mayo, 2017
Cuantitativa
• Continua → Mide
X, predictora, exposición, controlada.
Según su Independiente
influencia
Dependiente Y, desenlace, resultado, Respuesta.
Latente Opuesto a variable observada

Lo que no se puede medir no existe físicamente


153
Variables Cuantitativas
• Son aquellas que pueden medirse, cuantificarse o expresarse
numéricamente.
• El numero utilizado para codificar equivale con exactitud al
dato
• Pueden ser de dos tipos:

Mayo, 2017
• Continuas
• Discretas

154
Variables Cuantitativas
Discretas
• Representan datos con un orden o
magnitud asignado, pero se registra
en números enteros.
• Sus valores son finitos

Mayo, 2017
• No admiten valores intermedios en
un rango. toman solamente valores
enteros.

155
Ejemplo de variables cuantitativas
discretas
Número de hijos, abortos, partos
Personas
Numero de habitaciones en un hotel
Carros, casas, zapatos,
Arboles, frutas,
Mesas, sillas

Mayo, 2017
Votos

156
Variables Cuantitativas
Continuas
• Son datos capaces de tomar cualquier valor en una
escala determinada
• Puede tomar valores decimales

Mayo, 2017
157
Ejemplo de variables
cuantitativas continuas
Peso
Talla
Dinero
Edad
Tiempo

Mayo, 2017
158
Variables cuantitativas continuas y
discretas
Escala de Intervalo Escala de razón
• Establecemos un orden dentro de sus • Admite el cero absoluto
valores. • Permiten el nivel más alto de
• La distancia entre los números de su medición
escala es igual.
• El cero es arbitrario, no indica la

Mayo, 2017
ausencia de atributo

159
Categorización de una variable cuantitativa
Consiste en transformar una variable cuantitativa (discreta o
continua) a una cualitativa (nominal u ordinal)

Edad Edad Edad


Cuantitativa Cualitativa ordinal Dicotómica ordinal
Continua - razón

Mayo, 2017
80 Anciano Anciano
55 adulto Adulto
25 Joven Adulto
22 Joven Adulto
90 Anciano Anciano
87 Anciano Anciano
45 adulto adulto
160
Categorización de una variable cuantitativa
Consiste en transformar una variable cuantitativa (discreta o
continua) a una cualitativa (nominal u ordinal)

Edad Edad Edad


Cuantitativa Cualitativa ordinal Dicotómica ordinal
Continua - razón

Mayo, 2017
80 Anciano Anciano
55 adulto Adulto
25 Joven Adulto
22 Joven Adulto
90 Anciano Anciano
87 Anciano Anciano
45 adulto adulto
161
Variables
• Nominal → clasifica
• Dicotómica o Binaria
Cualitativa
Según la • Policotómica
medición • Ordinal → Jerarquiza
• Discreta → Cuenta

Mayo, 2017
Cuantitativa
• Continua → Mide
X, predictora, exposición, controlada.
Según su Independiente
influencia
Dependiente Y, desenlace, resultado, Respuesta.
Latente Opuesto a variable observada

Lo que no se puede medir no existe físicamente


162
Variables y su localización

Mayo, 2017
Abscisas
163
Abscisas
Ordenadas
Variable independiente o explicativa

• Los cambios en los valores de este tipo de variables determinan cambios


en los valores de otra (variable dependiente).

INDEPENDIENTE MODIFICA DEPENDIENTE

Mayo, 2017
• Son aquella característica o propiedad que se supone ser la causa del
fenómeno estudiado.
• Se representa en el eje de abscisas (eje de X)
EJEMPLOS
“Si al aumentar los años de educación, correlativamente aumentan sus
ingresos”.
• Años de educación
“El embarazo precoz incide en la habilidad para aprender a leer en el niño” 164

• Embarazo precoz
Variables dependientes
• Una variable dependiente es aquella cuyos valores dependen de los que
tomen otra variable.
• La variable dependiente en una función se suele representar en el eje de las
ordenadas (y)
• Son las variables de respuesta que se observan en el estudio que podrían
estar influidas por los valores de las variables independientes.

EJEMPLOS
“Si al aumentar los años de educación, correlativamente aumentan sus
ingresos”.
• Años de educación →→ Aumento de ingresos
“El embarazo precoz incide en la habilidad para aprender a leer en el niño”
• Embarazo precoz →→ Menor habilidad para leer

165
Correlaciones

166

X
Variables
• Nominal → clasifica
• Dicotómica o Binaria
Cualitativa
Según la • Policotómica
medición • Ordinal → Jerarquiza
• Discreta → Cuenta

Mayo, 2017
Cuantitativa
• Continua → Mide
X, predictora, exposición, controlada.
Según su Independiente
influencia
Dependiente Y, desenlace, resultado, Respuesta.
Latente Opuesto a variable observada

Lo que no se puede medir no existe físicamente


167
Variable Latente
Una variable manifiesta se registra a
simple vista; su presencia únicamente
requiere la observación o detección
directa. Mientras que la variable latente
son construcciones teóricas que deben
ser inferidas a partir de indicadores o
variables manifiestas.

Mayo, 2017
• En salud es frecuente que se utilicen
variables que no se observan
directamente, como, por ejemplo, la
calidad de vida, la satisfacción usuaria,
o la competencia cultural.

Son inferidas a través de un modelo matemático a partir de otras 168


variables que se observan (ÍNDICES)
Variable Latente
En salud es frecuente que se utilicen variables que no se observan
directamente, como, por ejemplo, la calidad de vida, la satisfacción
usuaria, o la competencia cultural.

Son inferidas a través de un modelo matemático a partir


de otras variables que se observan (ÍNDICES)

Mayo, 2017
169
Mayo, 2017
170
MÉTODOS, TÉCNICAS DE RECOLECCION DE
DATOS E INSTRUMENTOS DE MEDICION
• Un buen instrumento determina
en gran parte la calidad de la
información, siendo ésta la
base para las etapas
subsiguientes (resultados y
conclusiones).

Mayo, 2017
• Para la elección y desarrollo del
instrumento de medición se
debe tomar en cuenta el
objetivo de la investigación.
171
• Primero se debe definir el tipo de información requerida
(cuantitativa, cualitativa o ambas).

• Método

Mayo, 2017
• Instrumento

172
• Fuente
• Representa la estrategia concreta
e integral de trabajo para el
análisis de un problema
coherente con la definición
teórica del mismo y con los
objetivos de la investigación.

Mayo, 2017
• Observación

• Entrevista

• Encuesta 173
INSTRUMENTOS DE MEDICION

• Instrumento: mecanismo para


recolectar y registrar la información;

• formularios

Mayo, 2017
• pruebas
• Test
• Escalas de opinión
• Listas de chequeo.

• Puede usarse varias métodos e


instrumentos 174
MÉTODOS, TÉCNICAS DE RECOLECCION DE
DATOS E INSTRUMENTOS DE MEDICION

Fuentes Primarias: Se obtiene información por contacto


directo con el sujeto de estudio; por medio de
observación, cuestionarios, entrevistas, etc.

Fuentes Secundarias: Información obtenida desde

Mayo, 2017
documentos; historia clínica, ficha académica, estadísticas,
datos epidemiológicos, Censo, encuestas nacionales, etc.

175
175
• Primero se debe definir el tipo de información requerida
(cuantitativa, cualitativa o ambas).

• Método

Mayo, 2017
• Instrumento

• Fuente 176
Teorema de los grandes números
Soporte matemático a la idea de que el promedio
de una muestra al azar de una población de gran
tamaño tenderá a estar cerca de la media de la
población completa.

Mayo, 2017
177
Teorema del límite central
Demuestra que en condiciones muy generales, la
suma de muchas variables aleatorias independientes
se aproxima bien a una distribución normal

Mayo, 2017
178
•Fin del primer

Mayo, 2017
bloque
179
Bioestadística

Junio, 2017
180
¿Para qué sirve la estadística?
• La Ciencia se ocupa en general de fenómenos observables

• La Ciencia se desarrolla observando hechos, formulando


leyes que los explican y realizando experimentos para validar
o rechazar dichas leyes

• Los modelos que crea la ciencia son de tipo determinista o

Junio, 2017
aleatorio (estocástico)

• La Estadística se utiliza como tecnología al servicio de las


ciencias donde la variabilidad y la incertidumbre forman
parte de su naturaleza

• “La Bioestadística [...] enseña y ayuda a investigar en todas


las áreas de las Ciencias de la Vida donde la variablidad no 181
es la excepción sino la regla”
Carrasco de la Peña (1982)
Definición
La Estadística es la Ciencia de la

• Sistematización, recogida, ordenación y


presentación de los datos referentes a un fenómeno
que presenta variabilidad o incertidumbre para su
estudio metódico, con objeto de

Junio, 2017
• deducir las leyes que rigen esos fenómenos,

• y poder de esa forma hacer previsiones sobre los


mismos, tomar decisiones u obtener conclusiones.
182
Pasos en un estudio estadístico
• Plantear hipótesis sobre una población
• Los fumadores tienen “más bajas” laborales
que los no fumadores
• ¿En qué sentido? ¿Mayor número? ¿Tiempo
medio?

• Decidir qué datos recoger (diseño de experimentos)


• Qué individuos pertenecerán al estudio (muestras)
• Fumadores y no fumadores en edad laboral.
• Criterios de exclusión ¿Cómo se eligen?
¿Descartamos los que padecen enfermedades
crónicas?

• Qué datos recoger de los mismos (variables) No tienen que


entenderlo
• Número de bajas (aún)
• Tiempo de duración de cada baja 183

• ¿Sexo? ¿Sector laboral? ¿Otros factores?


Pasos en un estudio estadístico
• Recoger los datos (muestreo)
• ¿Estratificado? ¿Sistemáticamente? ¿Por
conglomerados?

• Describir (resumir) los datos obtenidos


• tiempo medio de baja en fumadores y no
(estadísticos)
• % de bajas por fumadores y sexo (frecuencias),
gráficos,...

• Realizar una inferencia sobre la población


• Los fumadores están de baja al menos 10
días/año más de media que los no fumadores.

• Cuantificar la confianza en la inferencia 184


184

• Nivel de confianza del 95%


Método científico y estadística

Plantear Diseñar
hipótesis experimento

Recoger
Obtener
datos
conclusiones
y analizarlos 185
Población y muestra
• Población es el conjunto sobre el que
estamos interesados en obtener
conclusiones (hacer inferencia).
• Normalmente es demasiado grande
para poder abarcarlo.

• Muestra es un subconjunto suyo al que


tenemos acceso y sobre el que realmente
hacemos las observaciones (mediciones)
• Debería ser “representativo”
• Esta formado por miembros
“seleccionados” de la población 186
(individuos, unidades experimentales).
Variables
• Una variable es una característica
observable que varía entre los diferentes
individuos de una población. La
información que disponemos de cada
individuo es resumida en variables.

Junio, 2017
• En los individuos de una población cualquiera, de uno a otro es
variable:

• El grupo sanguíneo
• {A, B, AB, O}  Var. Cualitativa
• Su nivel de felicidad “declarado”
• {Deprimido, Ni fu ni fa, Muy Feliz}  Var. Ordinal
• El número de hijos
• {0,1,2,3,...}  Var. Numérica discreta 187
• La altura
• {1’62 ; 1’74; ...}  Var. Numérica continua
Tipos de variables
• Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un
número (no se pueden hacer operaciones algebraicas con ellos)

• Nominales: Si sus valores no se pueden ordenar


• Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)

• Ordinales: Si sus valores se pueden ordenar


• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor

Junio, 2017
• Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones
algebraicas con ellos)

• Discretas: Si toma valores enteros


• Número de hijos, Número de cigarrillos, Num. de “cumpleaños”

• Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


• Altura, Presión intraocular, Dosis de medicamento administrado, edad
188
• Es buena idea codificar las
variables como números
para poder procesarlas con
facilidad en un ordenador.
• Es conveniente asignar
“etiquetas” a los valores de
las variables para recordar
qué significan los códigos
numéricos.
• Sexo (Cualit: Códigos
arbitrarios)
• 1 = Hombre
• 2 = Mujer
• Raza (Cualit: Códigos
arbitrarios)
• 1 = Blanca
• 2 = Negra,...
189
• Felicidad Ordinal:
Respetar un orden al
codificar.
• 1 = Muy feliz
• 2 = Bastante feliz
• 3 = No demasiado feliz
• Se pueden asignar códigos
a respuestas especiales
como
• 0 = No sabe
• 99 = No contesta...
• Estas situaciones deberán
ser tenidas en cuentas en el
análisis. Datos perdidos
(‘missing data’)

190
• Aunque se codifiquen como números, debemos recordar siempre el
verdadero tipo de las variables y su significado cuando vayamos a usar
programas de cálculo estadístico.
• No todo está permitido con cualquier tipo de variable.

191
• Los posibles valores de una variable suelen denominarse modalidades.

• Las modalidades pueden agruparse en clases (intervalos)


• Edades:
• Menos de 20 años, de 20 a 50 años, más de 50 años
• Hijos:
• Menos de 3 hijos, De 3 a 5, 6 o más hijos

• Las modalidades/clases deben forman un sistema exhaustivo y


excluyente
• Exhaustivo: No podemos olvidar ningún posible valor de la variable
• Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?
• Bien: ¿Cuál es su grupo sanguíneo?
• Excluyente: Nadie puede presentar dos valores
simultáneos de la variable
• Estudio sobre el ocio
• Mal: De los siguientes, qué le gusta: (deporte, cine)
• Bien: Le gusta el deporte: (Sí, No)
• Bien: Le gusta el cine: (Sí, No)
192
• Mal: Cuántos hijos tiene: (Ninguno, Menos de 5, Más de 2)
Presentación ordenada de datos
7
6

Género Frec. 5
4
Hombre 4 3
2

1
Mujer 6 0
Hombre Mujer

• Las tablas de frecuencias y las representaciones gráficas


son dos maneras equivalentes de presentar la
información. Las dos exponen ordenadamente la
información recogida en una muestra. 193
Tablas de frecuencia
• Exponen la información recogida en la muestra, de forma que no se pierda
nada de información (o poca).

• Frecuencias absolutas: Contabilizan el número de individuos de cada


modalidad

• Frecuencias relativas (porcentajes): Idem, pero dividido por el total

• Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y


numéricas
• Muy útiles para calcular cuantiles (ver más adelante)
• ¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8
• ¿Entre 4 y 6 hijos? Soluc 1ª: 8,4%+3,6%+1,6%= 13,6%. Soluc 2ª:
97,3% - 83,8% = 13,5%
Se xo de l encuestado

Porcentaje
Frecuencia Porcentaje válido
Válidos Hombre 636 41,9 41,9 194
Mujer 881 58,1 58,1
Total 1517 100,0 100,0
Tablas de frecuencia
Nivel de felicidad

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Muy feliz 467 30,8 31,1 31,1
Bastante feliz 872 57,5 58,0 89,0
No demasiado feliz 165 10,9 11,0 100,0
Total 1504 99,1 100,0
Perdidos No contesta 13 ,9
Total 1517 100,0

Número de hijos

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 0 419 27,6 27,8 27,8
1 255 16,8 16,9 44,7
2 375 24,7 24,9 69,5
3 215 14,2 14,2 83,8
4 127 8,4 8,4 92,2
5 54 3,6 3,6 95,8
6 24 1,6 1,6 97,3
7 23 1,5 1,5 98,9 195
Oc ho o más 17 1,1 1,1 100,0
Total 1509 99,5 100,0
Perdidos No contesta 8 ,5
Total 1517 100,0
Como hacer un tabla de Frecuencia

n=20
=9

Tema 1: Introdución
9 n K  1  3.322(log 20)
A A  1,8
5
Como hacer un tabla de Frecuencia

n=20
=9
=5

Tema 1: Introdución
= 1,8
Como hacer un tabla de Frecuencia

n=20
R=9 […Se pone el número
K=5 (…No, se pone el número

A = 1,8

Tema 1: Introdución
1. Tomar el valor menor 13
2. Verificar amplitud 2
[ 13 - 15 ) 14 4 0.2 4
3. Ver intervalos 5
4. Poner marca de clase x [ 15 - 17 ) 16 9 0.45 13
5. f Intervalos abiertos […) [17 - 19 ) 18 3 0.15 16
6. Buscar valores X Rango 19
[ 19 - 21 ) 20 3 0.15
7. Frec Rel (fr) f/n = 4/20
8. Frec acumulada F [ 21 - 23 ) 22 1 0.05 20
n=20 1
Datos desordenados y ordenados en tablas

• Variable: Género Género Frec. Frec. relat.

• Modalidades: porcentaje
Hombre 4 4/10=0,4=40%
• H = Hombre
Mujer 6 6/10=0,6=60%
• M = Mujer

Junio, 2017
10 = tamaño
muestral

• Muestra:

MHHMMHMMMH

• equivale a 199

HHHH MMMMMM
Ejemplo
• ¿Cuántos individuos tienen Número de hijos
menos de 2 hijos?
• frec. indiv. sin hijos Porcent. Porcent.
+ Frec. (válido) acum.
0 419 27,8 27,8
frec. indiv. con 1 hijo
= 419 + 255 1 255 16,9 44,7
= 674 individuos 2 375 24,9 69,5 ≥50%
3 215 14,2 83,8
4 127 8,4 92,2
• ¿Qué porcentaje de 5 54 3,6 95,8
individuos tiene 6 hijos o
6 24 1,6 97,3
menos?
7 23 1,5 98,9
• 97,3% Oc ho+ 17 1,1 100,0
Total 1509 100,0
• ¿Qué cantidad de hijos es tal
que al menos el 50% de la
200
200
población tiene una cantidad
inferior o igual?
• 2 hijos
Gráficos para variables. cualitativas

• Diagramas de barras
• Alturas proporcionales a las
frecuencias (abs. o rel.)
• Se pueden aplicar también a variables
discretas

• Diagramas de sectores (tartas, polares)


• No usarlo con variables ordinales.
• El área de cada sector es proporcional
a su frecuencia (abs. o rel.)

201
Gráficos para v. cualitativas

• Pictogramas
• Fáciles de entender.
• El área de cada modalidad
debe ser proporcional a la
frecuencia.

202
202
Gráficos diferenciales para variables numéricas
419
400 375

• Son diferentes en función de que las


variables sean discretas o continuas. 300

255

Recuento
Valen con frec. absolutas o relativas. 200
215

127

100

• Diagramas barras para v. discretas 54


24 23 17

• Se deja un hueco entre barras 0 1 2 3 4 5 6 7 Ocho o más

Número de hijos
para indicar los valores que no
son posibles
250

• Histogramas para v. continuas 200

• El área que hay bajo el


Recuento
150

histograma entre dos puntos


cualesquiera indica la cantidad
100

203
(porcentaje o frecuencia) de 50

individuos en el intervalo. 20 40 60 80

Edad del encuestado


Diagramas integrales
• Cada uno de los anteriores diagramas tiene su
correspondiente diagrama integral. Se realizan a partir de las
frecuencias acumuladas. Indican, para cada valor de la
variable, la cantidad (frecuencia) de individuos que poseen
un valor inferior o igual al mismo.

204
¿Qué hemos visto?
• Definición de estadística
• Población
• Muestra
• Variables
• Cualitativas
• Numéricas
• Presentación ordenada de datos
• Tablas de frecuencias
• absolutas
• relativas
• acumuladas
• Representaciones gráficas
• Cualitativas
• Numéricas
• Diferenciales 205
• Integrales
Bioestadística
Estadísticos

206
Parámetros y estadísticos
• Parámetro: Es una cantidad numérica
calculada sobre una población

• La altura media de los individuos de un


país

• La idea es resumir toda la información


que hay en la población en unos pocos
números (parámetros).

207
Parámetros y estadísticos
• Estadístico: Ídem (cambiar población por
muestra)

• La altura media de los que estamos en


este aula.
• Somos una muestra
(¿representativa?) de la población.

• Si un estadístico se usa para aproximar


un parámetro también se le suele llamar
estimador.
Normalmente nos interesa conocer un parámetro,
pero por la dificultad que conlleva estudiar a *TODA*
la población, calculamos un estimador sobre una
muestra y “confiamos” en que sean próximos. Más 208
208
adelante veremos como elegir muestras para que el
error sea “confiablemente” pequeño.
209
Un brevísimo resumen sobre estadísticos
• Posición
• Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
• Centralización
• Indican valores con respecto a los que los datos
parecen agruparse.
• Media, mediana y moda
• Dispersión
• Indican la mayor o menor concentración de los
datos con respecto a las medidas de centralización.
• Desviación típica, coeficiente de variación,
rango, varianza
210
• Forma
• Asimetría
• Apuntamiento o curtosis
Estadísticos de posición
• Se define el cuantil de orden a como un valor de la
variable por debajo del cual se encuentra una
frecuencia acumulada a.

• Casos particulares son los percentiles, cuartiles,


deciles, quintiles,...

211
Estadísticos de posición
• Percentil de orden k = cuantil de orden k/100
• La mediana es el percentil 50
• El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%

• Cuartiles: Dividen a la muestra en 4 grupos con


frecuencias similares.
• Primer cuartil = Percentil 25 = Cuantil 0,25
• Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
• Tercer cuartil = Percentil 75 = cuantil 0,75

212
Cálculo Cuartiles datos sin agrupar.

Octubre, 2015
• 1. Ordenar de menor a mayor n = 20
• 2. Seleccionar Cuartil 1 y 2
• 3. Ver n
Kn1.20
• 4. Calcular posición   5
4 4
Q1 = 35 Kn 2.20
Q2 = 38   10
4 4
Cálculo deciles datos sin agrupar.

Octubre, 2015
• 1. Ordenar de menor a mayor n = 20
• 2. Seleccionar decil 6 y 5
• 3. Ver n
Kn 6.20
• 4. Calcular posición   12
10 10
D6 = 40 Kn 5.20
D5 = 38   10
10 10
Cálculo Cuartiles datos agrupados.
 Kn 1 
 4  Fi 
QK  Li  A  1 
Número de cuartil a  (F i  Fi 
𝑄𝐾 calcularse 1,2,3,4  

Junio, 2017
Q

𝐿𝑖 Paso 1: Calcular posición


A 180
Q3 
3.60 Q3 
Posición: valor del 4
Kn cuartil por el No. De 4
datos
Q3  45
𝐹𝑖 −1
𝐹𝑖
Cálculo cuartiles ..Q..
EDAD f (abs) F (acumu)
30 - 35 3 3 Q3  45
35 - 40 7 10
• Buscarlo dentro de la F
40 - 45
45 - 50
12
23 . 22
45
(frecuencia acumulada)

Junio, 2017
50 - 55 14 59
Si lo localizamos dentro
55 - 60 1 60
de la F, directamente
60 tomamos el Ls (límite
superior) del intervalo
(50) y decimos que
Q3 = 50
Cálculo cuartiles ..Q..
 Kn 1 
 4  Fi 
QK  Li  A  1 
Número de cuartil a  (F i  Fi 
𝑄𝐾 calcularse 1,2,3,4  

Junio, 2017
𝐿𝑖
A
Posición: valor del
Kn cuartil por el No. De
datos

𝐹𝑖 −1
𝐹𝑖
Cálculo Deciles ..D..
EDAD f (abs) F (acumu)
30 - 35 3 3 • 1) Medidas de
35 - 40 7 10 posición. Primero
40 - 45 12 22 encontrar la
posición. D1, D2,
45 - 50 23 45

Junio, 2017
D3, D4……., D10
50 - 55 14 59
55 - 60 1 60
60
 Kn 1 
 10 Fi 
DK  Li  A  1 
 (F i  Fi 
 
Cálculo Deciles ..D..
Número de decil a
𝑫𝐾 calcularse 1,2,3.., 10
Kn

2.60

120
 12
10 10 10
𝐿𝑖
D2  12
A
La posición del segundo decil es 12.

Junio, 2017
Posición: valor del
Kn decil por el No. de
Ir a la tabla y buscar en la
datos frecuencia acumulada el valor que
sea o que contenga al No. 12
𝐹𝑖 −1
𝐹𝑖
Cálculo Deciles ..D.. Número de decil a
𝑫𝐾 calcularse 1,2,3..,
EDAD f (abs) F (acumu) 10
30 - 35 3 3
.
Limite inferior del
35 - 40 7 10 𝐿𝑖 valor que contenga
40 - 45 12 22 al valor de la
posición 40
45 - 50 23 45

Junio, 2017
Amplitud. Se
50 - 55 14 59 A calcula con la resta
55 - 60 1 60 de Ls – Li = 5
Posición: valor del
60 Kn decil por el No. de
 Kn 1 
datos

 10  Fi  𝐹𝑖 −1 Frec Acu anterior

DK  Li  A  1 
del valor de
posición 10
 (F i  Fi  Frec Acu posterior
𝐹𝑖
  del valor de
posición 22
Cálculo deciles
 Kn 1 
 10  Fi   12  10 
DK  Li  A   D  40  5  
 22  10 
1 2
 (F i  Fi 
 

Junio, 2017
 2  2
D2  40  5   D2  40  5  
 12   12 

D2  40  0.83 D2  40.83
Cálculo percentiles

Tema 1: Introdución
Cálculo percentiles

Tema 1: Introdución
Ejemplos
• El 5% de los recién nacidos tiene un peso demasiado bajo.
¿Qué peso se considera “demasiado bajo”?
• Percentil 5 o cuantil 0,05
Percentil 5 del peso
25
20
frecuencia

15
10
5
0

224
1 2 3 4 5

Peso al nacer (Kg) de 100 niños


Ejemplos
¿Qué peso es superado sólo por el 25% de los individuos?
• Percentil 75 o tercer cuartil
Percentil 75 del peso
30
25
20
frecuencia

15
10
5
0

50 55 60 65 70 75 80 85
225
Peso (Kg) de 100 deportistas
Ejemplos
• El colesterol se distribuye simétricamente en la población.
Supongamos que se consideran patológicos los valores extremos. El
90% de los individuos son normales ¿Entre qué valores se encuentran
los individuos normales?
Percentiles 5 y 95
20
15
frecuencia

10
5
0

226

180 200 220 240 260

Colesterol en 100 personas


Ejemplos
• ¿Entre qué valores se encuentran la mitad de los
individuos “más normales” de una población?
• Entre el cuartil 1º y 3º
Percentiles 25 y 75
20
15
frecuencia

10
5

227
0

150 160 170 180 190

Altura (cm) en 100 varones


Diagramas de Tukey Diagrama de cajas de Tukey: Resumen en 5 números

0.08
• Resumen con 5 números:

0.06
• Valor Mínimo, cuartiles (1, 2

densidad
y 3) y V. máximo.

0.04
• Suelen dar una buena idea

0.02
Mín. P25 P50 P75 Máx.
de la distribución.

0.00
• La zona central, ‘caja’, 40 45 50 55 60 65

contiene al 50% central de Velocidad (Km/h) de 200 vehículos en ciudad

las observaciones.
• Su tamaño se llama ‘rango
intercuartílico’ (R.I.) 0.04 Diagrama de cajas de Tukey: Resumen en 5 números

• Es costumbre que ‘los


bigotes’, no lleguen hasta los
0.03
densidad

extremos, sino hasta las


0.02

observaciones que se
separan de la caja en no más P25 P50 P75
0.01

Mín. Máx.

de 1,5 R.I.
0.00

• Más allá de esa distancia se


228
80 90 100 110 120 130 140
consideran anómalas, y así Velocidad (Km/h) de 200 vehículos en autovía
se marcan.
Estadísticos

Ejemplo Número de años de escolarización


N

Media
Válidos
Perdidos
1508
0
12,90
Número de años de escolariz ación Mediana 12,00
Moda 12
Porcentaje Percentiles 10 9,00
Frecuenc ia Porcentaje acumulado 20 11,00
3 5 ,3 ,3 25 12,00
30 12,00
4 5 ,3 ,7
40 12,00
5 6 ,4 1,1 50 12,00
6 12 ,8 1,9 60 13,00
7 25 1,7 3,5 70 14,00
8 68 4,5 8,0 75 15,00
80 16,00
9 56 3,7 11,7
90 16,00
10 73 4,8 16,6
11 85 5,6 22,2 ≥20%?
12 461 30,6 52,8
13 130 8,6 61,4
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,9 90,7 ≥ 90%?
17 43 2,9 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1508 100,0 229
Estadísticos de centralización
Añaden unos cuantos casos particulares a las medidas
de posición. En este caso son medidas que buscan
posiciones (valores) con respecto a los cuales los
datos muestran tendencia a agruparse.

• Media (‘mean’) Es la media aritmética (promedio) de


los valores de una variable. Suma de los valores
dividido por el tamaño muestral.
• Media de 2,2,3,7 es (2+2+3+7)/4=3,5
• Conveniente cuando los datos se concentran
simétricamente con respecto a ese valor. Muy
sensible a valores extremos.
• Centro de gravedad de los datos

230
Estadísticos de centralización
• Mediana (‘median’) Es un valor que divide a las
observaciones en dos grupos con el mismo
número de individuos (percentil 50). Si el número
de datos es par, se elige la media de los dos datos
centrales.

• Mediana de 1,2,4,5,6,6,8 es 5
• Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
• Es conveniente cuando los datos son
asimétricos. No es sensible a valores extremos.
• Mediana de 1,2,4,5,6,6,800 es 5. ¡La media
es 117,7!

• Moda (‘mode’) Es el/los valor/es donde la 231


distribución de frecuencia alcanza un máximo.
Altura mediana

232
Algunas fórmulas
• Datos sin agrupar: x1, x2, ..., xn
• Media
x

xi
i
n
• Datos organizados en tabla
• si está en intervalos usar como xi las marcas de
clase. Si no ignorar la columna de intervalos.

Variable • frec. frec. ac.

x

L0 – L1 X1 n1 N1
i fi
L1 – L2 X2 n2 N2 X
...
N
233
Lk-1 – Lk Xk nk Nk

n
Ejemplo con variable en intervalos
Peso Marca d frec Fr.
Clase acum
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100– 130 115 3 58

234
Ejemplo con variable en intervalos
En el histograma se identifica
“unidad de área” con “individuo”.

Para calcular la media es necesario


elegir un punto representante del
intervalo: La marca de clase.

La media se desplaza hacia los


valores extremos. No coincide con
la mediana. Es un punto donde el
histograma “estaría en equilibrio”
si tuviese masa.

235
Ejemplo Media
Peso M. Fr. Abs Fr. ഥ
𝑿 Promedio ?
Clase (ni o fi) Ac
(xi) (F) Marca de 40+50/2
𝒙𝒊 Clase
50+60/2
40 – 50 45 5 5 etc.
50 – 60 55 10 15 Frecuencia No. de
60 – 70 65 21 36
𝒏𝒊 Absoluta
datos
por
70 - 80 75 11 47 rango
80 - 90 85 5 52 Frecuencia Suma
𝒏 de cada
90 - 100 95 3 55 acumulada Fr. Ac
100 – 130 115 3 58 total por
cada
n = 58 Rango

x
 xn i i i

45  5  55 10    115 3
 69,3
236

n 58
Otra forma de Calcular la Media Ar.
Peso M. Clase (xi) Fr. Abs (ni o fi) Fr. Ac (F) xi*fi
40 – 50 45 5 5 225
50 – 60 55 10 15 550
60 – 70 65 21 36 1365
70 - 80 75 11 47 825
80 - 90 85 5 52 425
90 - 100 95 3 55 285
100 – 130 115 3 58 345
N = 58 4020

x i fi
4020 237
X  X  X  X  69.3
N 58
Otra forma de Calcular, otro ejemplo.
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336

x i fi
336
X  X X  X  16,8
N 20
238
Algunas fórmulas
• Datos sin agrupar: x1, x2, ..., xn
• Mediana
Impar • Mediana de 1,2,4,5,6,6,8 es 5
Par • Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
• Datos organizados en tabla
• si está en intervalos usar como xi las marcas de
clase. Si no ignorar la columna de intervalos.
Variable frec. frec. ac.

L0 – L1 N 1 
 2 F 
X1 n1 N1

L1 – L2 X2 n2 N2
Me  Li    .ai
...  fi 
Lk-1 – Lk Xk nk Nk
  239

n
Explicación Formula Mediana
Me Mediana ?
Li Límite inferior de donde esta Me 15-20
Li= 15
noN Total de la muestra Número total
de datos
Fi-1 Frecuencia acumulada de la clase
anterior a Me
fi Frecuencia absoluta de la clase
donde esta Me
𝐀 𝐨 𝒂𝒊 Ancho de clase. Resta de Límite Ls-Li 15 -17 = 2
superior y L. inferior donde esta
Me 240
Ojo recordar siempre que f es frecuencia
absoluta y F es frecuencia acumulada
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336

N 1 
 2  F 
Me  Li    .ai
 fi 
  241
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
De ser impar + 1 y para 2
N 1 28
impar  27 + 1 =
2 2
Valor más cercano al N/2
N 20
par   par   10 Buscarlo en F (Frec Abso. Acu.)
2 2
OJO Si el valor encontrado coincide con el que tenemos en la tabla entonces 242
tomamos directamente el límite superior del mismo y encontramos nuestra
Mediana. Me = Ls
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336

N 1   20 
 2 F   2 4
Me  Li    .ai Me  15    .2
 fi   9 
   
ai = Ls - Li
ai = 17 - 15 243

ai = 2
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336

 20 
 2 4  10  4 
Me  15    .2 Me  15    .2
 9   9 
 
244
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336

6 6 2
Me  15    .2 Me  15  *
9 9 1
245
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336

6 6 2
Me  15    .2 Me  15  *
9 9 1
246
Mediana
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336

12
Me  15  Me  15  1.33
9
Me  16.33 247

OJO La Mediana deberá estar siempre dentro


del rango en donde se determino el N/2
Estadísticos de centralización
• Moda (‘mode’) Es el/los valor/es donde la
distribución de frecuencia alcanza un máximo.
• Datos sin agrupar: el valor que más se repite dentro
del set de datos.
• 17,15,16,15,15,12,13,15, 12,13,15,15,15,15,16,17
• Moda 15
Variable frec. frec. ac. Datos organizados en
tablas
L0 – L1 X1 n1 N1 Si está en intervalos usar
como xi las marcas de
L1 – L2 X2 n2 N2
clase. Si no ignorar la
... columna de intervalos.
Lk-1 – Lk Xk nk Nk 248

n
Moda Datos Organizados en
Tablas
1
fi  fi
Mo  Li  1 1
.ai
( fi  fi )  ( fi  fi )
Explicación Formula Moda
Mo Moda ?
Li Límite inferior de donde esta Mo 15-20
Li= 15
fi Valor más alto dentro del
contenido de fi
fi - 1 Valor del dato inmediatamente
superior al dato fi
fi + 1 Valor del dato inmediatamente
inferior al dato fi
𝐀 𝐨 𝒂𝒊 Ancho de clase. Resta de Límite Ls-Li 15 -17 = 2
superior y L. inferior donde esta
Mo 250
Ojo recordar siempre que f es freccuencia
absoluta y F es frecuencia acumulada
Moda Datos Organizados en
Tablas
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336
1
fi  fi
Mo  Li  1 1
.a
( fi  fi )  ( fi  fi )
i

Moda: valor que más se repite, aquí buscamos el valor


mayor de los contenidos por fi: es el 9
Moda Datos Organizados en
Tablas
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336

1
fi  fi
Mo  Li  1 1
.a
( fi  fi )  ( fi  fi )
i

ai = Ls –Li 17 - 15
ai = 2
Moda Datos Organizados en
Tablas
EDADES
Limite inferior Limite superior Xi fi F Xi*fi
13 15 14 4 4 56
15 17 16 9 13 144
17 19 18 3 16 54
19 21 20 3 19 60
21 23 22 1 20 22
20 336

94
Mo  15  .2
(9  4)  (9  3)
Moda Datos Organizados en
Tablas
94
Mo  15  .2
(9  4)  (9  3)

5
Mo  15  .2
56
Moda Datos Organizados en
Tablas
5 5
Mo  15  .2 Mo  15  .2
56 11
5 2 10
Mo  15  . Mo  15 
11 1 11
Mo  15  0.91 Mo  15.91
OJO La MODA deberá estar, también siempre
dentro del rango en donde se determino el N/2
Resultados
Media 16.80
Mediana 16.33
Moda 15.91
Variabilidad o dispersión
• Los estudiantes de Bioestadística reciben diferentes
calificaciones en la asignatura (variabilidad). ¿A qué
puede deberse?

• Diferencias individuales en el conocimiento de la


materia.

• ¿Podría haber otras razones (fuentes de


variabilidad)?

257
Variabilidad o dispersión
• Por ejemplo supongamos que todos los alumnos
poseen el mismo nivel de conocimiento. ¿Las notas
serían las mismas en todos? Seguramente No.

• Dormir poco el día del examen.


• Diferencias individuales en la habilidad para
hacer un examen.

• El examen no es una medida perfecta del


conocimiento.
• Variabilidad por error de medida.

• En alguna pregunta difícil, se duda entre varias


opciones, y al azar se elige la mala 258

• Variabilidad por azar, aleatoriedad.


Medidas de dispersión
Miden el grado de dispersión (variabilidad) de los datos,
independientemente de su causa.

• Amplitud o Rango (‘range’):


Diferencia entre observaciónes extremas.
• 2,1,4,3,8,4. El rango es 8-1=7
• Es muy sensible a los valores extremos.

259
Medidas de dispersión
• Rango intercuartílico (‘interquartile
range’):
• Es la distancia entre primer y
tercer cuartil.
• Rango intercuartílico = P75 - P25

0.05
Mín. P25 P50 P75 Máx.

• Parecida al rango, pero eliminando

0.04
las observaciones más extremas
inferiores y superiores.

0.03
25% 25% 25% 25%

0.02
• No es tan sensible a valores
Rango intercuartílico
extremos.
0.01
0.00 Rango

150 160 170 180 190 260


Medidas de dispersión
Varianza S2 (‘Variance’): Mide el promedio de las desviaciones
(al cuadrado) de las observaciones con respecto a la media.
1
S   ( xi  x ) 2
2

n i
Es sensible a valores extremos (alejados de la media).

• Sus unidades son el cuadrado de las de la variable.

• La expresión es fea, pero de gran belleza ‘natural’


(físicamente). Contiene la información geométrica
relevante en muchas situaciones donde la energía interna
de un sistema depende de la posición de sus partículas.
261
Varianza, datos no agrupados
• Población • Muestra
n n

(X i  X) 2
(X i  X) 2

 
2 i 1
S 
2 i 1

Tema 1: Introdución
N n 1

 2
S 2

• Varianza
Varianza, datos no agrupados
• Edades: 5, 6, 6, 7, 8

 i
( X  X ) 2

2  i 1

Tema 1: Introdución
N
• 1 Sacar promedio
n

X i
32
X i 1
X X  6, 4
N 5
Varianza, datos no agrupados
• Edades: 5, 6, 6, 7, 8
(5  6.4) 2  (6  6.4) 2  (6  6.4) 2  (7  6.4) 2  (8  6.4) 2
2 
5
(1, 4) 2  (0, 4) 2  (0, 4) 2  (1.4) 2  (2.4) 2
2 

Tema 1: Introdución
5
1,96  0,16  0,16  0,36  2,56
2 
5
5, 2
2   2  1, 04
5
S S
Desviación típica (‘standard
deviation’) 2
Es la raíz cuadrada de la varianza
50
• Tiene las misma dimensionalidad
(unidades) que la variable. Versión
‘estética’ de la varianza. 40

• Cierta distribución que veremos más 30


adelante (normal o gaussiana)
quedará completamente
determinada por la media y la 20

desviación típica.
10
Desv. típ. = 568,43
• A una distancia de una desv. Media = 2023

típica de la media hay ‘más de la 0 N = 407,00

1.

2.

2.

3.
1.

2.
mitad’. 50

90

30

50

90

30
70

10
0

0
0

0
Peso recién nacidos en partos gemelares
• A una distancia de dos desv. típica 265
de la media las tendremos casi
todas.
Desviación típica (standard)
  1, 04
2

  1, 04
  1, 01

Tema 1: Introdución
Dispersión en distribuciones
‘normales’
0.05

0.05
0.04

0.04
0.03

0.03
0.02

0.02
0.01

0.01
x s x 2s
68.5 % 95 %
0.00

0.00
150 160 170 180 190 150 160 170 180 190

• Centrado en la media y a una desv. típica de distancia hay


aproximadamente el 68% de las observaciones.
267
• A dos desviaciones típicas tenemos el 95% (aprox.)
• Datos ‘casi normales’. Eje ‘x’ medido en desviaciones
típicas…
• ¿Encuentras relación entre rango intercuartílico y
desviación típica?
• ¿Y entre los ‘bigotes’ y dos desviaciones típicas? ¿Podrías
caracterizar las observaciones anómalas?
0.3

0.3
densidad

densidad
0.2

0.2
0.1

0.1
x s x 2s x s x 2s
66 % 95 % 71 % 94 %
0.0

-3 -2 -1 0 1 2 3 0.0 -3 -2 -1 0 1 2 3
0.4

0.3
0.3
densidad

densidad

0.2
0.2

0.1
0.1

x s x s x 2s
x 2s
68 % 94 % 70 % 94 %
268
0.0

0.0

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Coeficiente de variación
S
CV 
Es la razón entre la desviación típica y la media. x
• Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”

• También se la denomina variabilidad relativa.

• Es frecuente mostrarla en porcentajes


• Si la media es 80 y la desviación típica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)

269
Coeficiente de variación
S
CV 
x
• Es una cantidad adimensional. Interesante para comparar la
variabilidad de diferentes variables.
• Si el peso tiene CV=30% y la altura tiene CV=10%, los
individuos presentan más dispersión en peso que en altura.

• No debe usarse cuando la variable presenta valores negativos


o donde el valor 0 sea una cantidad fijada arbitrariamente
• Por ejemplo 0ºC ≠ 0ºF

• Los ingenieros electrónicos hablan de la razón ‘señal/ruido’


(su inverso). 270
Coeficiente de variación
S
CV 
X
1, 01
CV 
6, 4
CV  0.16

Tema 1: Introdución
CV  16%
Varianza para datos agrupados

Tema 1: Introdución
Varianza para datos agrupados

Tema 1: Introdución
n
Encontrar n n
Marca de clase por frecuencia (x . f)  x.f 1560
Calcular X = 26 X i 1 X X  26
n 60
Varianza para datos agrupados

Tema 1: Introdución
X = 26 n
Encontrar ( X  X )  (12.5  26)  182.25
2 2
Varianza para datos agrupados

Tema 1: Introdución
X = 26 n
Encontrar ( X  X )2 . f  (182, 25).5  911.25
Varianza para datos agrupados
n

 ( X  X ) 2
.f
3265
 
2 i 1
 
2
  54, 41
2

n 60

Tema 1: Introdución
Desviación estándar
  54, 41    7,37 años

Coeficiente de variación
C.V .  0, 28.100
 7,37
C.V .  .100  C.V .  .100 C.V .  28%
X 26
Asimetría o Sesgo
• Una distribución es simétrica si la mitad izquierda de su
distribución es la imagen especular de su mitad derecha.

• En las distribuciones simétricas media y mediana coinciden. Si


sólo hay una moda también coincide

• La asimetría es positiva o negativa en función de a qué lado se


encuentra la cola de la distribución.

277
Asimetría o Sesgo
• La media tiende a desplazarse hacia las valores extremos
(colas).

• Las discrepancias entre las medidas de centralización son


indicación de asimetría.

278
278
Estadísticos para detectar asimetría

• Hay diferentes estadísticos que sirven para detectar asimetría.


• Basado en diferencia entre estadísticos de tendencia central.
• Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.
• Basados en desviaciones con signo al cubo con respecto a la media.
• Los calculados con ordenador. Es pesado de hacer a mano.

• En función del signo del estadístico diremos que la asimetría es


positiva o negativa.
• Distribución simétrica  asimetría nula.

0.20
0.5
0.20

0.4

0.15
0.15

0.3

0.10
0.10

0.2

0.05
0.05

0.1

x s x s x s
279
66 % 78 %
78 %
0.00

0.00
0.0

8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14

x x x
Estadísticos para detectar asimetría

280
Estadísticos para detectar asimetría

281
Estadísticos para detectar asimetría

282
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribución con respecto a la distribución normal o gaussiana. Es
adimensional.

Platicúrtica (aplanada): curtosis < 0


Mesocúrtica (como la normal): curtosis = 0
Leptocúrtica (apuntada): curtosis > 0

283
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribución con respecto a la distribución normal o gaussiana. Es
adimensional.

Platicúrtica (aplanada): curtosis < 0


En el curso serán de especial
Mesocúrtica (como la normal): curtosis = 0 interés las mesocúrticas y
simétricas (parecidas a la
Leptocúrtica (apuntada): curtosis > 0 normal).
Aplanada Apuntada como la normal Apuntada
2.0

0.8
0.3
1.5

0.6
0.2
1.0

0.4
0.1
0.5

0.2
x s
x s x s
68 %
57 % 82 %
0.0

0.0
0.0

0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 -2 -1 0 1


284
2
Ejercicio: descriptiva con SPSS
28%
De scriptivos para Núme ro de hijos n=419
25%

Estadístico Error típ. n=375


Media 1,90 ,045 25%

Intervalo de Límite
1,81 17%
confianza para la inferior
20%
media al 95% Límite n=255 14%

Porce ntaje
superior 1,99 n=215
15%
8%
Media recortada al 5%
1,75 n=127
10%
4%
Mediana 2,00 n=54 2% 2% 1%
5%
Varianza 3,114 n=24 n=23 n=17

Des v. típ. 1,765


Mínimo 0 0 1 2 3 4 5 6 7 Ocho o más
Máximo 8
Número de hijos
Rango 8
Amplitud interc uartil • Está sombreado lo que sabemos
3,00 interpretar hasta ahora. Verifica que
comprendes todo. ¿Qué unidades tiene
Asimetría 1,034 ,063
cada estadístico? ¿Variabilidad relativa? 285
Curtosis 1,060 ,126
• Calcula los estadísticos que puedas
basándote sólo en el gráfico de barras.
¿Qué hemos visto?
• Parámetros
• Estadísticos y estimadores
• Clasificación
• Posición (cuantiles, percentiles,...)
• Diagramas de cajas
• Medidas de centralización: Media, mediana y moda
• Diferenciar sus propiedades.
• Medidas de dispersión
• con unidades: rango, rango intercuartílico, varianza, desv. típica
• sin unidades: coeficiente de variación
• ¿Qué usamos para comparar dispersión de dos poblaciones?
• Asimetría
• positiva
• negativa
• ¿Podemos observar asimetría sin mirar la gráfica?
• ¿Cómo me gustan los datos?
• Medidas de apuntamiento (curtosis)
286
• ¿Cómo me gustan los datos?
Bioestadística
Estadística descriptiva bivariante y
regresión lineal.

Bioestadística. UTPL
Relaciones entre variables y
regresión
• El término regresión fue introducido por
Galton en su libro “Natural inheritance”
(1889) refiriéndose a la “ley de la regresión
universal”:

• “Cada peculiaridad en un hombre es

Tema 3: Estadística bivariante


compartida por sus descendientes, pero
Francis Galton
en media, en un grado menor.” •Primo de Darwin
• Regresión a la media •Estadístico y
aventurero
• Su trabajo se centraba en la descripción de •Fundador (con
los rasgos físicos de los descendientes (una otros) de
variable) a partir de los de sus padres (otra la estadística
moderna
variable). para explicar las
teorías 288
de Darwin.
Relaciones entre variables y
regresión
Pearson (un amigo suyo) realizó un estudio
con más de 1000 registros de grupos
familiares observando una relación del tipo:
Altura del hijo = 85cm + 0,5 altura del padre
(aprox.)

Tema 3: Estadística bivariante


Conclusión: los padres muy altos tienen
tendencia a tener hijos que heredan parte
de esta altura, aunque tienen tendencia a
acercarse (regresar) a la media. Lo mismo
puede decirse de los padres muy bajos.

• Hoy en día el sentido de regresión es el de


predicción de una medida basándonos en el 289
conocimiento de otra.
Qué vamos a estudiar
• En este capítulo vamos a tratar diferentes formas de describir
la relación entre dos variables cuando estas son numéricas.
• Estudiar si hay relación entre la altura y el peso.

Bioestadística. UTPL
• Haremos mención de pasada a otros casos:
• Alguna de las variables es ordinal.
• Estudiar la relación entre el sobrepeso y el dolor de

Tema 3: Estadística bivariante


espalda (ordinal)
• Hay más de dos variables relacionadas.
• ¿Conocer el peso de una persona conociendo su altura y
contorno de cintura?
• El estudio conjunto de dos variables cualitativas lo aplazamos
hasta que veamos contrastes de hipótesis (X2).
• ¿Hay relación entre fumar y padecer enfermedad de
pulmón? 290
Estudio conjunto de dos variables
• A la derecha tenemos una posible manera de recoger
los datos obtenido observando dos variables en varios
individuos de una muestra.
Altura Peso
• En cada fila tenemos los datos de un individuo en cm. en Kg.
162 61

• Cada columna representa los valores que toma una 154 60


variable sobre los mismos. 180 78
158 62
• Las individuos no se muestran en ningún orden 171 66
particular. 169 60
166 54
• Dichas observaciones pueden ser representadas en un 176 84
diagrama de dispersión (‘scatterplot’). En ellos, cada 163 68
individuos es un punto cuyas coordenadas son los
valores de las variables. ... ...

• Nuestro objetivo será intentar reconocer a partir del 291


mismo si hay relación entre las variables, de qué tipo, y
si es posible predecir el valor de una de ellas en función
de la otra.
Diagramas de dispersión o nube de puntos

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama


de dispersión.

100
90
80 Pesa 76 kg.

70
60

Mide 187 cm.


50 Pesa 50 kg.

40 Mide 161 cm.


30
140 150 160 170 180 190 200 292
Relación entre variables.

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama


de dispersión.

100
90
80
70
60
50
40
30
140 150 160 170 180 190 200 293
Predicción de una variable en
función de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.

100
90
80
70
10 kg.
60
50
40 10 cm.
30
140 150 160 170 180 190 200 294
Relación directa e inversa
330 100

Incorrelación 90 Fuerte relación


280
80 directa.
230
70
180
60
130
50
80 40
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Para valores de X por encima de la


•Para los valores de X mayores que la
media tenemos valores de Y por
media le corresponden valores de Y
encima y por debajo en proporciones
mayores también.
similares. Incorrelación.
•Para los valores de X menores que la
80 media le corresponden valores de Y
70 Cierta relación menores también.
60 inversa
50
40 •Esto se llama relación directa.
30
20 Para los valores de X mayores que la 295
10 media le corresponden valores de Y
0
140 150 160 170 180 190 200
menores. Esto es relación inversa o
decreciente.
¿Cuándo es bueno un modelo de regresión?
r= 0.415 • Lo adecuado del modelo depende
de la relación entre:
420

r^2 = 0.172
• la dispersión marginal de Y
400

• La dispersión de Y condicionada
aX
380
y

360

• Es decir, fijando valores de X,


vemos cómo se distribuye Y
340
320

• La distribución de Y, para valores


150 160 170 180 190
fijados de X, se denomina
r= 0.984
distribución condicionada.
390

r^2 = 0.969
• La distribución de Y,
380

independientemente del valor de


X, se denomina distribución
marginal.
370
y

• Si la dispersión se reduce
360

notablemente, el modelo de 296


regresión será adecuado.
350

150 160 170 180 190


Covarianza de dos variables X e Y
• La covarianza entre dos variables, Sxy, nos indica si la
posible relación entre dos variables es directa o
inversa.
• Directa: Sxy >0 1
• Inversa: Sxy <0 S xy   ( xi  x )( yi  y )
• Incorreladas: Sxy =0 n i
• El signo de la covarianza nos dice si el aspecto de la
nube de puntos es creciente o no, pero no nos dice
nada sobre el grado de relación entre las variables.

297
Coef. de correlación lineal de
Pearson
• La coeficiente de correlación lineal de Pearson de
dos variables, r, nos indica si los puntos tienen una
tendencia a disponerse alineadamente (excluyendo
rectas horizontales y verticales).

• tiene el mismo signo que Sxy por tanto de su signo


obtenemos el que la posible relación sea directa o
inversa.
S xy
• r es útil para determinar si hay relación lineal entre
dos variables, pero no servirá para otro tipo de r
relaciones (cuadrática, logarítmica,...) SxS y
298
Propiedades de r
• Es adimensional
• Sólo toma valores en [-1,1]
• Las variables son incorreladas  r=0
• Relación lineal perfecta entre dos variables  r=+1 o r=-1
• Excluimos los casos de puntos alineados horiz. o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal.
• Siempre que no existan observaciones anómalas.
Relación Variables Relación directa
inversa perfecta incorreladas casi perfecta

-1 0 +1 299
Entrenando el ojo: correlaciones
positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,8 40 r=0,99 300
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo: correlaciones
negativas
90 80
80 70

Bioestadística. UTPL
70 60
60 50
50
40
40
30
30
20 20
r=-0,5 r=-0,7

Tema 3: Estadística bivariante


10 10
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Animación: Evolución de r y
diagrama de dispersión

302
Preguntas frecuentes
• ¿Si r=0 eso quiere decir que no las variables son independientes?
• En la práctica, casi siempre sí, pero no tiene
por qué ser cierto en todos los casos.
• Lo contrario si es cierto: Independencia
implica incorrelación.

• Me ha salido r=1,2 ¿la relación es “superlineal”[sic]?


• ¿Superqué? Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y
+1.

• ¿A partir de qué valores se considera que hay “buena relación lineal”?


• Imposible dar un valor concreto (mirad los gráficos anteriores). Para este curso
digamos que si |r|>0,7 hay buena relación lineal y que si |r|>0,4 hay cierta
relación (por decir algo... la cosa es un poco más complicada… observaciones
atípicas, homogeneidad de varianzas...)

303
Otros coeficientes de correlación
• Cuando las variables en vez de ser numéricas son
ordinales, es posible preguntarse sobre si hay algún
tipo de correlación entre ellas.

• Disponemos para estos casos de dos estadísticos,


aunque no los usaremos en clase:
• ρ (‘ro’) de Spearman Maurice George Kendall
• τ (‘tau’) de Kendall

• No tenéis que estudiar nada sobre ellos en este curso.


Recordad sólo que son estadísticos análogos a r y que
los encontrareis en publicaciones donde las variables
no puedan considerarse numéricas.

Charles Edward Spearman 304


Regresión

Tema 3: Estadística bivariante


• El análisis de regresión sirve para predecir una
medida en función de otra medida (o varias).
• Y = Variable dependiente
• predicha
• explicada

305
• X = Variable independiente
• predictora
• explicativa
• ¿Es posible descubrir una relación?
• Y = f(X) + error
• f es una función de un tipo determinado
• el error es aleatorio, pequeño, y no depende de X 305
Regresión
• El ejemplo del estudio de la altura en grupos familiares
de Pearson es del tipo que desarrollaremos en el resto
del tema.

• Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

• Si el padre mide 200cm ¿cuánto mide el hijo?


• Se espera (predice) 85 + 0,5x200=185 cm.
• Alto, pero no tanto como el padre. Regresa a la media.

• Si el padre mide 120cm ¿cuánto mide el hijo?


• Se espera (predice) 85 + 0,5x120=145 cm.
• Bajo, pero no tanto como el padre. Regresa a la media.

• Es decir, nos interesaremos por modelos de regresión 306


lineal simple.
Modelo de regresión lineal simple
• En el modelo de regresión lineal simple, dado dos
variables
• Y (dependiente)
• X (independiente, explicativa, predictora)

• buscamos encontrar una función de X muy simple


(lineal) que nos permita aproximar Y mediante
• Ŷ = b0 + b1X
• b0 (ordenada en el origen, constante)
• b1 (pendiente de la recta)

• Y e Ŷ rara vez coincidirán por muy bueno que sea el


modelo de regresión. A la cantidad
307
• e=Y-Ŷ se le denomina residuo o error residual.
• En el ejemplo de Pearson y las alturas, él encontró:
• Ŷ = b0 + b1X
• b0=85 cm (No interpretar como altura de un hijo cuyo padre mide 0
cm ¡Extrapolación salvaje!
• b1=0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)

180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
308
• La relación entre las variables no es exacta. Es natural
preguntarse entonces:
• Cuál es la mejor recta que sirve para predecir los valores de Y en
función de los de X
• Qué error cometemos con dicha aproximación (residual).

180
150 b1=0,5

120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
309
• El modelo lineal de regresión se construye utilizando la técnica de
estimación mínimo cuadrática:
• Buscar b0, b1 de tal manera que se minimice la cantidad
• Σi ei2

• Se comprueba que para lograr dicho resultado basta con elegir:

SY
b1  r b0  y  b1 x
SX
• Se obtiene además unas ventajas “de regalo”
• El error residual medio es nulo
• La varianza del error residual es mínima para dicha estimación.

• Traducido: En término medio no nos equivocamos. Cualquier otra


estimación que no cometa error en término medio, si es de tipo lineal,
será peor por presentar mayor variabilidad con respecto al error
medio (que es cero). 310
Animación: Residuos del modelo de regresión

311
• Que el error medio de las Cometió un
error de -30 en
predicciones sea nulo no quiere su última
decir que las predicciones sean predicción

buenas.

• Hay que encontrar un medio de


expresar la bondad del ajuste
(bondad de la predicción)

No importa. Con los dos


últimos clientes me
equivoqué en +10 y +20.
En término medio el error
es cero.
312
¿Cómo medir la bondad de una
regresión?
Imaginemos un diagrama de dispersión, y vamos
a tratar de comprender en primer lugar qué es
el error residual, su relación con la varianza de Y,
y de ahí, cómo medir la bondad de un ajuste.

313
Interpretación de la variabilidad
en Y
En primer lugar olvidemos que existe la Y
variable X. Veamos cuál es la
variabilidad en el eje Y.

La franja sombreada indica la zona


donde varían los valores de Y.

Proyección sobre el eje Y = olvidar X

314
Interpretación del residuo
Fijémonos ahora en los errores de predicción
(líneas verticales). Los proyectamos sobre el eje Y
Y.

Se observa que los errores de predicción,


residuos, están menos dispersos que la
variable Y original.

Cuanto menos dispersos sean los residuos,


mejor será la bondad del ajuste.

315
2
S
Bondad de un ajuste R  1
2 e
2
Resumiendo: S Y
• La dispersión del error residual será Y
una fracción de la dispersión original
de Y
•Cuanto menor sea la dispersión del
error residual
mejor será el ajuste de regresión.

Eso hace que definamos como medida de


bondad de un ajuste de regresión,
o coeficiente de determinación a:

S  S
2
e
2
Y 316
Animación: Descomposición de la varianza

317
Resumen sobre bondad de un ajuste
• La bondad de un ajuste de un modelo de regresión se mide usando el
coeficiente de determinación R2

• R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]


• Para el alumno astuto: ¿por qué?

• Cuando un ajuste es bueno, R2 será cercano a uno.


• ¿por qué?

• Cuando un ajuste es malo R2 será cercano a cero.


• ¿por qué?

• A R2 también se le denomina porcentaje de variabilidad explicado por el


modelo de regresión.
• ¿por qué? Difícil.

• R2 puede ser pesado de calcular en modelos de regresión general, pero


en el modelo lineal simple, la expresión es de lo más sencilla: R2=r2 318
• ¿Es coherente lo dicho entonces sobre los valores de R2?
Otros modelos de regresión
• Se pueden considerar otros ¿recta o parábola?
tipos de modelos, en función
del aspecto que presente el
diagrama de dispersión
(regresión no lineal)

• Incluso se puede considerar 140 150 160 170 180 190 200

el que una variable dependa


de varias (regresión ¿recta o cúbica?
múltiple).

319
140 150 160 170 180 190 200
Modelos de análisis de regresión
1 variable explicativa
Modelos de 2+ variables explicativas
regresión

Simple Múltiple

Lineal No lineal Lineal No lineal

En clase sólo tratamos el modelo de regresión lineal simple.


En todos los demás la bondad del ajuste se mide usando R2

No ajustaremos modelos a mano. Usaremos para ello SPSS. 320


Ejemplo con SPSS
• A continuación vamos a analizar un ejemplo realizado con
datos simulados, de lo que podría parecer el estudio sobre
alturas de hijos y padres, realizado con SPSS.

• Suponemos que hemos recogido la altura de 60 varones,


junto a las de su padre.

• El estudio descriptivo univariante de ambas variables por


separado no revela nada sobre una posible relación.
16 12

14
10

12

8
10

8 6

6
4

Desv. típ. = 8,64 2 Desv. típ. = 5,30


2
Media = 173,3 Media = 170,8
0 N = 59,00 0 N = 59,00 321
155,0 165,0 175,0 185,0 195,0 160,0 165,0 170,0 175,0 180,0
160,0 170,0 180,0 190,0 162,5 167,5 172,5 177,5 182,5

Altura del Padre Altura del hijo


• En el diagrama de dispersión se aprecie una clara relación lineal directa.
• ¿Aprecias regresión a la media en el sentido de Galton en la gráfica?
• La tabla de correlaciones nos muestra que r=0,759 190

• ¿Por qué se ven algunos r=1?


180

• El modelo de regresión lineal simple es


• Altura hijo = b0 + b1 Altura del padre 170

• b0=89,985

Altura del hijo


160

• b1=0,466
• ¿Aprecias regresión a la media? 150
150 160 170 180 190 200

• La bondad del ajuste es de R2=0,577= 57,7% Altura del Padre

• ¿Eso significa que el 57% de las predicciones del modelo son correctas?
• ¿Cómo lo interpretas?

Correlaciones Coeficie ntesa

Altura del Coeficientes no


Altura del hijo Padre estandarizados
Correlación de Pears on Altura del hijo 1,000 ,759
Modelo B Error típ.
Altura del Padre ,759 1,000 1 (Constante) 89,985 9,180
Re sume n de l modelo Altura del Padre ,466 ,053
a. Variable dependiente: Altura del hijo
322
R c uadrado Error típ. de la
Modelo R R c uadrado corregida estimación
1 a
,759 ,577 ,569 3,480
a. Variables predictoras: (Constante), Altura del Padre
¿Qué hemos visto?
• Relación entre variables
• Diagrama de dispersión
• Covarianza
• Relación directa, inversa e incorrelación
• Correlación lineal
• Relación directa, inversa e incorrelación
• grado de relación lineal entre variables
• Regresión, predicción
• Variable dependiente
• Variable(s) independientes
• Modelo lineal de regresión
• Ordenada en el origen
• Pendiente
• Residuo, error
• Bondad del ajuste, coef. determinación
• En el modelo lineal simple: r2 323
Bioestadística
Probabilidad (recordatorio)

324
• ¿Cuál es la probabilidad de aprobar Bioestadística?

• ¿Cuál es la probabilidad de no encontrarme un atasco en la


Gran Colombia cuando voy a clase?

• Todos los días nos hacemos preguntas sobre probabilidad e


incluso los que hayáis visto poco de la materia en cursos
anteriores, tenéis una idea intuitiva lo suficientemente correcta
para lo que necesitamos de ella en este curso.

• En este tema vamos a:


• Recordar qué entendemos por probabilidad.
• Recordar algunas reglas de cálculo.
• Ver cómo aparecen las probabilidades en CC. Salud.
• Aplicarlo a algunos conceptos nuevos de interés en CC.
Salud. 325
• Pruebas diagnósticas.
Nociones de probabilidad
• Frecuentista (objetiva): Probabilidad de un suceso es la
frecuencia relativa (%) de veces que ocurriría el suceso
al realizar un experimento repetidas veces.
CLASIFICACION OMS
CLASIFICACION OMS

Frecuenc ia Porcentaje NORMAL


Válidos NORMAL 469 46,9%
OSTEOPENIA
OSTEOPENIA 467 46,7%
OSTEOPOROSIS 64 6,4% OSTEOPOROSIS

Total 1000 100,0


0 10 20 30 40 50
Porcentaje

• Subjetiva (bayesiana): Grado de certeza que se posee sobre un


suceso. Es personal.

En ambos tipos de definiciones aparece el concepto de suceso.


Vamos a recordar qué son y algunas operaciones que se 326
pueden realizar con sucesos.
Sucesos E espacio muestral
• Cuando se realiza un experimento aleatorio diversos
resultados son posibles. El conjunto de todos los
resultados posibles se llama espacio muestral (E).

• Se llama suceso a un subconjunto de dichos resultados.


• Se llama suceso contrario (complementario) de un
suceso A, A’, al formado por los elementos que no están E espacio muestral
en A
• Se llama suceso unión de A y B, AUB, al formado por los A
resultados experimentales que están en A o en B
(incluyendo los que están en ambos. A’
• Se llama suceso intersección de A y B, A∩B o
simplemente AB, al formado por los elementos que
están en A y B
E espacio muestral

E espacio muestral E espacio muestral A

A A B 327
B B
UNIÓN INTERS.
Definición de probabilidad
• Se llama probabilidad a cualquier función, P, que
asigna a cada suceso A un valor numérico P(A),
verificando las siguientes reglas (axiomas)
E espacio muestral
• P(E)=1 100%

E espacio muestral

• 0≤P(A) ≤1 A
• P(AUB)=P(A)+P(B) si A∩B=Ø B

• Ø es el conjunto vacío.

• Podéis imaginar la probabilidad de un subconjunto 328


como el tamaño relativo con respecto al total
(suceso seguro)
Probabilidad condicionada
• Se llama probabilidad de A condicionada a B, o
probabilidad de A sabiendo que pasa B:
E espacio muestral

P( A  B)
P( A | B)  A
P( B) B

 Error frecuentíiiiiiisimo:
 No confundáis probabilidad condicionada con
intersección.
 En ambos medimos efectivamente la intersección,
pero… 329

 En P(A∩B) con respecto a P(E)=1


 En P(A|B) con respecto a P(B)
Intuir la probabilidad condicionada
A A

B
B

P(A) = 0,25 P(A) = 0,25


P(B) = 0,10 P(B) = 0,10
P(A∩B) = 0,10 P(A∩B) = 0,08

¿Probabilidad de A sabiendo que ha pasado B? 330

P(A|B)=1 P(A|B)=0,8
Intuir la probabilidad
condicionada
A A

B
B

P(A) = 0,25 P(A) = 0,25


P(B) = 0,10 P(B) = 0,10
P(A∩B) = 0,005 P(A∩B) = 0
¿Probabilidad de A sabiendo que ha pasado B? 331
P(A|B)=0,05 P(A|B)=0
Algunas reglas de cálculo prácticas
• Cualquier problema de probabilidad puede resolverse
en teoría mediante aplicación de los axiomas. Sin
embargo, es más cómodo conocer algunas reglas de
cálculo:

• P(A’) = 1 - P(A)

• P(AUB) = P(A) + P(B) - P(AB)

• P(AB) = P(A) P(B|A)


= P(B) P(A|B)

• Prob. de que pasen A y B es la prob. de A y que también 332


pase B sabiendo que pasó A.
Independencia de sucesos
• Dos sucesos son independientes si el que
ocurra uno, no añade información sobre el
otro.

• A es independiente de B

 P(A|B) = P(A)

 P(AB) = P(A) P(B)

333
Ejemplo (I)
Rec uento
MENOPAUSIA
NO SI Total
CLASIFICACION NORMAL 189 280 469
OMS OSTEOPENIA 108 359 467
OSTEOPOROSIS 6 58 64
Total 303 697 1000

• Se ha repetido en 1000 ocasiones el experimento


de elegir a una mujer de una población muy
grande. El resultado está en la tabla.
• ¿Cuál es la probabilidad de que una mujer tenga
osteoporosis?
• P(Osteoporosis)=64/1000=0,064=6,4%
• Noción frecuentista de probabilidad 334
Ejemplo (II) Rec uento
MENOPAUSIA
NO SI Total
CLASIFICACION NORMAL 189 280 469
OMS OSTEOPENIA 108 359 467
OSTEOPOROSIS 6 58 64
Total 303 697 1000

• ¿Probabilidad de tener osteopenia u osteoporosis?


• P(OsteopeniaUOsteoporosis)=467/1000+64/1000=0,531
• Son sucesos disjuntos
• Osteopenia ∩ Osteoporosis=Ø

• ¿Probabilidad de tener osteoporosis o menopausia?


• P(OsteoporosisUMenopausia)=64/1000+697/1000-
58/1000=0,703
• No son sucesos disjuntos

• ¿Probabilidad de una mujer normal? (entiéndase…)


• P(Normal)=469/1000=0,469 335
• P(Normal)=1-P(Normal’)=1-P(OsteopeniaUOsteoporosis) =1-
0,531=0,469
Rec uento
MENOPAUSIA
NO SI Total
CLASIFICACION NORMAL 189 280 469
OMS OSTEOPENIA 108 359 467
OSTEOPOROSIS 6 58 64
Total 303 697 1000

• Si es menopáusica… ¿probabilidad de osteoporosis?


• P(Osteoporosis|Menopausia)=58/697=0,098

• ¿Probabilidad de menopausia y osteoporosis?


• P(Menop ∩ Osteoporosis) = 58/1000=0,058

• Otra forma:

P ( Menop Osteoporosis )  P ( Menop )  P (Osteoporosis | Menop) 

697 58 336
   58 /1000  0, 058
1000 697
Ejemplo (IV)
Rec uento
MENOPAUSIA
NO SI Total
CLASIFICACION NORMAL 189 280 469
OMS OSTEOPENIA 108 359 467
OSTEOPOROSIS 6 58 64
Total 303 697 1000

• ¿Son independientes menopausia y osteoporosis?


• Una forma de hacerlo
• P(Osteoporosis)=64/1000=0,064
• P(Osteoporosis|Menopausia)=58/697=0,098
• La probabilidad de tener osteoporosis es mayor si ha pasado la
menopausia. Añade información extra. ¡No son independientes!

• ¿Otra forma?
• P(Menop ∩ Osteoporosis) = 58/1000 = 0,058
• P(Menop) P(Osteoporosis)= (697/1000) x (64/1000) = 0,045 337
• La probabilidad de la intersección no es el producto de probabilidades.
No son independientes.
Sistema exhaustivo y excluyente
de sucesos Son una colección de sucesos
A1 A2
A1, A2, A3, A4…

Tales que la unión de todos ellos forman


el espacio muestral, y sus intersecciones
son disjuntas.

¿Recordáis cómo formar intervalos en tablas


de frecuencias?

A1
A3 A4

A2
Suceso
seguro
A3
338

A4
Divide y vencerás
Todo suceso B, puede ser descompuesto en
componentes de dicho sistema.
A1 A2

B = (B∩A1) U (B∩A2 ) U ( B∩A3 ) U ( B∩A4 )

B A1 B

A2 B
Suceso
A3 A4 seguro
A3 B

A4 B
339
Nos permite descomponer el problema B en
subproblemas más simples
Teorema de la probabilidad total
Si conocemos la probabilidad de B en cada uno
A1 A2 de los componentes de un sistema exhaustivo y
excluyente de sucesos, entonces…

… podemos calcular la probabilidad de B.


P(B|A1)
A1 B
B P(A1)
P(B|A2)
A2 B
Suceso P(A2)
seguro P(B|A3)
A3 A4 P(A3) A3 B

P(A4) P(B|A4)
A4 B

P(B) = P(B∩A1) + P(B∩A2 ) + P( B∩A3 ) + P( B∩A4 )

=P(A1) P(B|A1) + P(A2) P(B|A2)+ … 340


Ejemplo (I): En este aula el 70% de los alumnos son
mujeres. De ellas el 10% son fumadoras. De los
hombres, son fumadores el 20%.
T. Prob. Total.
Fuma
Hombres y mujeres forman un sist. Exh. Excl. de sucesos 0,1

• ¿Qué porcentaje de fumadores hay? Mujer


0,9
• P(F) = P(M∩F) + P(H∩F) 0,7
No fuma
= P(M)P(F|M) + P(H)P(F|H)
Estudiante
=0,7 x 0,1 + 0,3 x 0,2
0,3 0,2
Fuma
= 0,13 =13% Hombre

0,8
•Los caminos a través de nodos representan No fuma 341
intersecciones.

•Las bifurcaciones representan uniones disjuntas.


Teorema de Bayes
Si conocemos la probabilidad de B en
cada uno de los componentes de un
A1 A2 sistema exhaustivo y excluyente de
sucesos, entonces…

…si ocurre B, podemos calcular la


probabilidad (a posteriori) de ocurrencia
de cada Ai.
B

P(B Ai)
P(Ai | B) 
A3 A4 P(B)
donde P(B) se puede calcular usando el teorema de la probabilidad
total:

P(B)=P(B∩A1) + P(B∩A2 ) + P( B∩A3 ) + ( B∩A4 ) 342

=P(B|A1) P(A1) + P(B|A2) P(A2) + …


Ejemplo (II): En este aula el 70% de los alumnos son mujeres. De ellas el 10%
son fumadoras. De los varones, son fumadores el 20%.

• ¿Qué porcentaje de fumadores hay?


• P(F) = =0,7 x 0,1 + 0,3 x 0,2 = 0,13 Fuma
0,1
• (Resuelto antes)

0,7 Mujer
Se elije a un individuo al 0,9
No fuma
azar y es… fumador
¿Probabilidad de que sea Estudiante
un hombre? 0,2
0,3 Fuma
Hombre
P( H  F ) P( H )  P( F | H )
P( H | F )   
P( F ) P( F ) 0,8
0,3  0,2 No fuma
  0,46 343
0,13
Ejemplo de prueba diagnósticas:
Diabetes
• Los carbohidratos ingeridos terminan como glucosa en la sangre. El exceso se
transforma en glucógeno y se almacena en hígado y músculos. Este se
transforma entre comidas de nuevo en glucosa según necesidades.

• La principal hormona que regula su concentración es la insulina. La diabetes


provoca su deficiencia o bien la insensibilidad del organismo a su presencia.
Es una enfermedad muy común que afecta al 2% de la población
(prevalencia)

• Una prueba común para diagnosticar la diabetes, consiste en medir el nivel


de glucosa. En individuos sanos suele variar entre 64 y 110mg/dL.
• El cambio de color de un indicador al contacto con la orina suele usarse como indicador
(resultado del test positivo)

• Valores por encima de 110 mg/dL se asocian con un posible estado pre-
diabético.
• Pero no es seguro. Otras causas podrían ser: hipertiroidismo, cancer de páncreas,
pancreatitis, atracón reciente de comida… 344
• Supongamos que los enfermos de diabetes, tienen un valor medio de
126mg/dL.
Funcionamiento de la prueba diagnóstica de
glucemia
• Valor límite: 110mg/dL
• Superior: test
positivo.
• Inferior: test
negativo.

• Probabilidad de
acierto:
• Para enfermos
• Verdadero positivo
(sensibilidad)
• Para sanos
• Verdadero
negativo
(especificidad)

• Probabilidad de error
• Para enfermos
• Falso –
• Para sanos 345
• Falso +
¿Cómo definir el punto de corte de la prueba
diagnóstica?

No es simple. No es posible aumentar sensibilidad y especificidad al 346


mismo tiempo. Hay que elegir una solución de compromiso: Aceptable
sensibilidad y especificidad.
Una prueba diagnóstica ayuda a mejorar una estimación de la
probabilidad de que un individuo presente una enfermedad.

• En pricipio tenemos una idea subjetiva de P(Enfermo). Nos


ayudamos de…
• Incidencia: Porcentaje de nuevos casos de la enfermedad en la población.
• Prevalencia: Porcentaje de la población que presenta una enfermedad.

• Para confirmar la sospecha, usamos una prueba diagnóstica.


Ha sido evaluada con anterioridad sobre dos grupos de
individuos: sanos y enfermos. Así de modo frecuentista se ha
estimado:
• P(+ | Enfermo)= Sensibilidad (verdaderos +)= Tasa de acierto sobre
enfermos.
• P(- | Sano) = Especificidad (verdaderos -)= Tasa de acierto sobre sanos.

• A partir de lo anterior y usando el teorema de Bayes, podemos


calcular las probabilidades a posteriori (en función de los
resultados del test): Índices predictivos
• P(Enfermo | +) = Índice predictivo positivo 347
• P(Sano | -) = Índice predictivo negativo
Pruebas diagnósticas:
aplicación T. Bayes.
Sensibilidad,
T+
verdaderos +
P. a priori de enfermedad:
incid., preval., intuición,…
Enfermo

Falsos - T-
Individuo

Falsos +
T+
Sano

Especificidad, T-
Verdaderos - 348
Ejemplo: Índices predictivos
Individuo
• La diabetes afecta al 2% de
los individuos.
0,98 0,02

• La presencia de glucosuria se
usa como indicador de
diabetes.

• Su sensibilidad es de 0,945.

• La especificidad de 0,977. 0,977 0,023


0,055 0,945

• Calcular los índices


predictivos. T+
T- T+ T-

P( Sano T ) P ( Enf  T )
P( Sano | T )  P ( Enf | T ) 
P( Sano T )  P( Enf  T ) P( Enf  T )  P ( Sano T  ) 349
0,98  0,977 0,02  0,945
  0,999   0,456
0,98  0,977  0,02  0,055 0,02  0,945  0,98  0,023
Observaciones
-¿Qué probabilidad
tengo de estar
enfermo?
• En el ejemplo anterior, al llegar un
individuo a la consulta tenemos una idea - En principio un 2%. Le
a priori sobre la probabilidad de que haremos unas pruebas.
tenga una enfermedad.

• A continuación se le pasa una prueba


diagnóstica que nos aportará nueva
información: Presenta glucosuria o no.

• En función del resultado tenemos una


nueva idea (a posteriori) sobre la
- Presenta glucosuria.
probabilidad de que esté enfermo.
La probabilidad ahora
• Nuestra opinión a priori ha sido es del 45,6%.
modificada por el resultado de un
experimento.
350
¿Qué hemos visto?
• Álgebra de sucesos
• Unión, intersección, complemento

Bioestadística. UTPL.
• Probabilidad
• Nociones
• Frecuentista
• Subjetiva o Bayesiana
• Axiomas

Tema 4: Probabilidad
• Probabilidad condicionada
• Reglas de cálculo
• Complementario, Unión, Intersección
• Independencia de sucesos
• Sistema exhaustivo y excluyente de sucesos
• Teorema probabilidad total.
• Teorema de Bayes
• Pruebas diagnósticas
• A priori: Incidencia, prevalencia. 351
• Eficacia de la prueba: Sensibilidad, especificidad.
• A posteriori: Índices predictivos.
Bioestadística
Modelos probabilísticos

352
Variable aleatoria
• El resultado de un experimento aleatorio puede ser
descrito en ocasiones como una cantidad numérica.

• En estos casos aparece la noción de variable aleatoria


• Función que asigna a cada suceso un número.

• Las variables aleatorias pueden ser discretas o continuas


(como en el primer tema del curso).

• En las siguientes transparencias vamos a recordar


conceptos de temas anteriores, junto con su nueva
designación. Los nombres son nuevos. Los conceptos 353
no.
Bioestadística. UTPL
Función de probabilidad (V. Discretas)

• Asigna a cada posible valor de


una variable discreta su 40%

probabilidad. 35%

30%
• Recuerda los conceptos de 25%
frecuencia relativa y diagrama de 20%
barras. 15%

• Ejemplo 10%

5%

• Número de caras al lanzar 3 0%


0 1 2 3
monedas.

354
Función de densidad (V. Continuas)

• Definición
• Es una función no negativa de integral 1.
• Piénsalo como la generalización del
histograma con frecuencias relativas para
variables continuas.

• ¿Para qué lo voy a usar?


• Nunca lo vas a usar directamente.
• Sus valores no representan probabilidades.

355
¿Para qué sirve la f. densidad?
• Muchos procesos aleatorios vienen descritos por variables de forma
que son conocidas las probabilidades en intervalos.

• La integral definida de la función de densidad en dichos intervalos


coincide con la probabilidad de los mismos.

• Es decir, identificamos la probabilidad de un intervalo con el área bajo


la función de densidad.

356
Función de distribución

• Es la función que asocia a cada valor de una


variable, la probabilidad acumulada
de los valores inferiores o iguales.

• Piénsalo como la generalización de las


frecuencias acumuladas. Diagrama integral.

• A los valores extremadamente bajos les


corresponden valores de la función de
distribución cercanos a cero.

• A los valores extremadamente altos les


corresponden valores de la función de
distribución cercanos a uno.
357

• Lo encontraremos en los artículos y aplicaciones


en forma de “p-valor”, significación,…
¿Para qué sirve la f. distribución?
• Contrastar lo anómalo de una observación concreta.

• Sé que una persona de altura 210cm es “anómala” porque la


función de distribución en 210 es muy alta.
• Sé que una persona adulta que mida menos de 140cm es
“anómala” porque la función de distribución es muy baja para
140cm.

• Sé que una persona que mida 170cm no posee una altura nada
extraña pues su función de distribución es aproximadamente
0,5.
• Relaciónalo con la idea de cuantil.

• En otro contexto (contrastes de hipótesis) podremos observar unos


resultados experimentales y contrastar lo “anómalos” que son en
conjunto con respecto a una hipótesis de terminada.
• Intenta comprender la explicación de clase si puedes. Si no, ignora
esto de momento. Revisita este punto cuando hayamos visto el 358
tema de contrastes de hipótesis.
Valor esperado y varianza de una v.a. X

• Valor esperado
• Se representa mediante E[X] ó μ
• Es el equivalente a la media
• Más detalles: Ver libro.

• Varianza
• Se representa mediante VAR[X] o σ2
• Es el equivalente a la varianza
• Se llama desviación típica a σ
• Más detalles: Ver diapos anteriores

359
Algunos modelos de v.a.
• Hay v.a. que aparecen con frecuencia en las Ciencias de la
Salud.
• Experimentos dicotómicos.
• Bernoulli

• Contar éxitos en experimentos dicotómicos repetidos:


• Binomial
• Poisson (sucesos raros)

• Y en otras muchas ocasiones…


• Distribución normal (gaussiana, campana,…)

• El resto del tema está dedicado a estudiar estas distribuciones


especiales.
360
Distribución de Bernoulli
• Tenemos un experimento de Bernoulli si al realizar un
experimentos sólo son posibles dos resultados:
• X=1 (éxito, con probabilidad p)
• X=0 (fracaso, con probabilidad q=1-p)

• Lanzar una moneda y que salga cara.


• p=1/2
• Elegir una persona de la población y que esté enfermo.
• p=1/1000 = prevalencia de la enfermedad
• Aplicar un tratamiento a un enfermo y que éste se cure.
• p=95%, probabilidad de que el individuo se cure

• Como se aprecia, en experimentos donde el resultado es


dicotómico, la variable queda perfectamente
determinada conociendo el parámetro p.
361
Ejemplo de distribución de Bernoulli.
• Se ha observado estudiando 2000 accidentes de
tráfico con impacto frontal y cuyos conductores no
tenían cinturón de seguridad, que 300 individuos
quedaron con secuelas. Describa el experimento
usando conceptos de v.a.

• Solución.
• La noc. frecuentista de prob. nos permite aproximar
la probabilidad de tener secuelas mediante
300/2000=0,15=15%

• X=“tener secuelas tras accidente sin cinturón” es


variable de Bernoulli
• X=1 tiene probabilidad p ≈ 0,15
• X=0 tiene probabilidad q ≈ 0,85 362
Ejemplo de distribución de Bernoulli.
• Se ha observado estudiando 2000 accidentes de
tráfico con impacto frontal y cuyos conductores sí
tenían cinturón de seguridad, que 10 individuos
quedaron con secuelas. Describa el experimento
usando conceptos de v.a.

• Solución.
• La noc. frecuentista de prob. nos permite aproximar
la probabilidad de quedar con secuelas por
10/2000=0,005=0,5%

• X=“tener secuelas tras accidente usando cinturón” es


variable de Bernoulli
• X=1 tiene probabilidad p ≈ 0,005
• X=0 tiene probabilidad q ≈ 0,995 363
Observación
• En los dos ejemplos anteriores hemos visto cómo enunciar los
resultados de un experimento en forma de estimación de parámetros
en distribuciones de Bernoulli.
• Sin cinturón: p ≈ 15%
• Con cinturón: p ≈ 0,5%

• En realidad no sabemos en este punto si ambas cantidades son muy


diferentes o aproximadamente iguales, pues en otros estudios sobre
accidentes, las cantidades de individuos con secuelas hubieran sido
con seguridad diferentes.

• Para decidir si entre ambas cantidades existen diferencias


estadísticamente significativas necesitamos introducir conceptos de
estadística inferencial (extrapolar resultados de una muestra a toda la
población).

• Es muy pronto para resolver esta cuestión ahora. Esperemos a las


pruebas de X2. 364
Distribución binomial

• Función de probabilidad
 n  k nk
P[ X  k ]    p q , 0  k  n
k 
• Problemas de cálculo si n es grande y/o p cercano a 0 o 1.

• Media: μ =n p

• Varianza: σ2 = n p q

365
Distribución Binomial
• Si se repite un número fijo de veces, n, un experimento de Bernoulli
con parámetro p, el número de éxitos sigue una distribución
binomial de parámetros (n,p).
Lanzar una moneda 10 veces y contar las caras.
• Bin(n=10,p=1/2)

Lanzar una moneda 100 veces y contar las caras.


• Bin(n=100,p=1/2)
• Difícil hacer cálculos con esas cantidades. El modelo
normal será más adecuado.

El número de personas que enfermará (en una población


de 500.000 personas) de una enfermedad que desarrolla
una de cada 2000 personas.
• Bin(n=500.000, p=1/2000)
• Difícil hacer cálculos con esas cantidades. El modelo 366
de Poisson será más adecuado.
“Parecidos razonables”

• Aún no conocen la
distribución normal, ni de
Poisson.

• De cualquier forma aca tienen


la comparación entre valores
de p no muy extremos y una
normal de misma media y
desviación típica, para
tamaños de n grandes (n>30).

• Cuando p es muy pequeño es


mejor usar la aproximación
del modelo de Poisson. 367
Distribución de Poisson
• También se denomina de sucesos raros.
• Se obtiene como aproximación de una
distribución binomial con la misma media, para
‘n grande’ (n>30) y ‘p pequeño’ (p<0,1).
• Queda caracterizada por un único parámetro μ
(que es a su vez su media y varianza.)
• Función de probabilidad:


k
P[ X  k ]  e , k  0,1,2,...
k! 368
Ejemplos de variables de Poisson

• El número de individuos que será atendido un día


cualquiera en el servicio de urgencias del hospital
clínico universitario.
• En una ciudad (digamos Cuenca) hay 500.000
habitantes (n grande)
• La probabilidad de que cualquier persona tenga un
accidente es pequeña, pero no nula. Supongamos
que es 1/10.000
• Bin(n=500.000,p=1/10.000) ≈ Poisson(μ=np=50)

369
Ejemplos de variables de Poisson
• Sospechamos que diferentes hospitales pueden tener
servicios de traumatología de diferente “calidad” (algunos
presentan pocos, pero creemos que aún demasiados,
enfermos con secuelas tras la intervención). Es dificil
compararlos pues cada hospital atiende poblaciones de
tamaños diferentes (ciudades, pueblos,…)

• Tenemos en cada hospital n, nº de pacientes atendidos o nº


individuos de la población que cubre el hospital.
• Tenemos p pequeño calculado como frecuencia relativa de
secuelas con respecto al total de pacientes que trata el
hospital, o el tamaño de la población,…
• Se puede modelar mediante Poisson(μ=np)

370
Distribución normal o de Gauss

• Aparece de manera natural:


• Errores de medida.
• Distancia de frenado.
• Altura, peso, propensión al crimen…
• Distribuciones binomiales con n grande (n>30) y ‘p
ni pequeño’ (np>5) ‘ni grande’ (nq>5).

• Está caracterizada por dos parámetros: La


media, μ, y la desviación típica, σ.
2
1  x 
1   
2  
• Su función de densidad es: f ( x)  e
371

 2
N(μ, σ): Interpretación
geométrica
• Se puede interpretar
la media como un
factor de traslación.

• Y la desviación típica
como un factor de
escala, grado de
dispersión,…

372
N(μ, σ): Interpretación probabilista

• Entre la media y una


desviación típica
tenemos siempre la
misma probabilidad:
aprox. 68%

• Entre la media y dos


desviaciones típicas
aprox. 95%
373
Algunas características
• La función de densidad es simétrica, mesocúrtica y
unimodal.
• Media, mediana y moda coinciden.

• Los puntos de inflexión de la fun. de densidad están a


distancia σ de μ.

• Si tomamos intervalos centrados en μ, y cuyos extremos


están…
• a distancia σ,  tenemos probabilidad 68%
• a distancia 2 σ,  tenemos probabilidad 95%
• a distancia 2’5 σ  tenemos probabilidad 99%

374
Algunas características

• No es posible calcular la probabilidad de un intervalo


simplemente usando la primitiva de la función de densidad, ya
que no tiene primitiva expresable en términos de funciones
‘comunes’.

• Todas las distribuciones normales N(μ, σ), pueden ponerse


mediante una traslación μ, y un cambio de escala σ, como
N(0,1). Esta distribución especial se llama normal tipificada.
• Justifica la técnica de tipificación, cuando intentamos
comparar individuos diferentes obtenidos de sendas
poblaciones normales.

375
Tipificación
• Dada una variable de media μ y desviación típica σ, se
denomina valor tipificado,z, de una observación x, a la distancia
(con signo) con respecto a la media, medido en desviaciones
típicas, es decir
x
z

• En el caso de variable X normal, la interpretación es clara:
Asigna a todo valor de N(μ, σ), un valor de N(0,1) que deja
exáctamente la misma probabilidad por debajo.

• Nos permite así comparar entre dos valores de dos


distribuciones normales diferentes, para saber cuál de los dos
es más extremo.
376
¿Por qué es importante la distribución normal?

• Las propiedades que tiene la distribución normal son


interesantes, pero todavía no hemos hablado de por qué
es una distribución especialmente importante.

• La razón es que aunque una v.a. no posea distribución


normal, ciertos estadísticos/estimadores calculados sobre
muestras elegidas al azar sí que poseen una distribución
normal.

• Es decir, tengan las distribución que tengan nuestros


datos, los ‘objetos’ que resumen la información de una
muestra, posiblemente tengan distribución normal (o
asociada).
377
Veamos aparecer la distribución normal
• Como ilustración
mostramos una variable
que presenta valores
distribuidos más o menos
uniformemente sobre el
intervalo 150-190.

• Como es de esperar la
media es cercana a 170. El
histograma no se parece
en nada a una
distribución normal con la
misma media y desviación
típica.
378
• A continuación elegimos Muestra
aleatoriamente grupos de 10
observaciones de las anteriores y 1ª 2ª 3ª
calculamos el promedio. 185 190 179
174 169 163
• Para cada grupo de 10 obtenemos 167 170 167
entonces una nueva medición, que
vamos a llamar promedio muestral. 160 159 152
172 179 178

• Observa que las nuevas cantidades 183 175 183


están más o menos cerca de la media 188 159 155
de la variable original. 178 152 165
152 185 185
• Repitamos el proceso un número 175 152 152
elevado de veces. En la siguiente
transparencia estudiamos la
distribución de la nueva variable.
173 169 168 379

• La distribución de los promedios
muestrales sí que tiene distribución
aproximadamente normal.

• La media de esta nueva variable


(promedio muestral) es muy parecida a la
de la variable original.

• Las observaciones de la nueva variable


están menos dispersas. Observa el rango.
Pero no sólo eso. La desviación típica es
aproximadamente ‘raiz de 10’ veces más
pequeña. Llamamos error estándar a la
desviación típica de esta nueva variable.

• Nada de lo anterior es casualidad.

380
Teorema central del límite
• Dada una v.a. cualquiera, si extraemos muestras de
tamaño n, y calculamos los promedios muestrales, entonces:

• dichos promedios tienen distribución aproximadamente normal;

• La media de los promedios muestrales es la misma que la de la


variable original.

• La desviación típica de los promedios disminuye en un factor


“raíz de n” (error estándar).

• Las aproximaciones anteriores se hacen exactas cuando n tiende


a infinito.

• Este teorema justifica la importancia de la distribución normal.

• Sea lo que sea lo que midamos, cuando se promedie sobre una


muestra grande (n>30) nos va a aparecer de manera natural la
distribución normal. 381
Distribuciones asociadas a la normal
• Cuando queramos hacer inferencia estadística hemos visto que la
distribución normal aparece de forma casi inevitable.

• Dependiendo del problema, podemos encontrar otras (asociadas):


• X2 (chi cuadrado)
• t- student
• F-Snedecor

• Estas distribuciones resultan directamente de operar con distribuciones


normales. Típicamente aparecen como distribuciones de ciertos
estadísticos.

• Veamos algunas propiedades que tienen (superficialmente). Para más


detalles consultad el manual.

• Sobre todo nos interesa saber qué valores de dichas distribuciones son
“atípicos”.
• Significación, p-valores,…
382
Chi cuadrado
• Tiene un sólo parámetro denominado
grados de libertad.

• La función de densidad es asimétrica


positiva. Sólo tienen densidad los
valores positivos.

• La función de densidad se hace más


simétrica incluso casi gausiana cuando
aumenta el número de grados de
libertad.

• Normalmente consideraremos
anómalos aquellos valores de la
variable de la “cola de la derecha”.

383
T de student
• Tiene un parámetro denominado
grados de libertad.

• Cuando aumentan los grados de


libertad, más se acerca a N(0,1).

• Es simétrica con respecto al cero.

• Se consideran valores anómalos los


que se alejan de cero (positivos o
negativos).
384
F de Snedecor

• Tiene dos parámetros


denominados grados de
libertad.

• Sólo toma valores positivos.


Es asimétrica.

• Normalmente se consideran
valores anómalos los de la
cola de la derecha.
385
¿Qué hemos visto?
• En v.a. hay conceptos equivalentes a los de temas anteriores
• Función de probabilidad  Frec. Relativa.
• Función de densidad  histograma
• Función de distribución  diagr. Integral.
• Valor esperado  media, …
• Hay modelos de v.a. de especial importancia:
• Bernoulli
• Binomial
• Poisson
• Normal
• Propiedades geométricas
• Tipificación
• Aparece tanto en problemas con variables cualitativas (dicotómicas,
Bernoulli) como numéricas
• Distribuciones asociadas
• T-student
• X2 386
• F de Snedecor
Bioestadística
T Stutent

387
INVESTIGACION EN APS
Procesamiento y análisis
Selección de la prueba estadística para
observaciones independientes
Variable de resultado
Nominal Categórica Cuantitativa Cuantitativa normal
(>2
Ordinal Cuantitativa
discreta No-normal
categorías)
X2 o de X2 tendencia Mann- Mann-Whitney
Nominal X2 o Mann-
Z-test y T-test
Fisher Whitney o log-rank (a)
Whitney
Categórica
X2 X2
Kruskal- Kruskal- Kruskal- Análisis de la
(>2
categorías) Wallis Wallis (b) Wallis (b) varianza (ANOVA)
X2 de
(b) (c)
Ordinal (e) Rangos Rangos de Rangos de Rangos de
Variable (categorías tendencia o de Spearman Spearman Spearman o
de ordenadas) Mann – Spearman
Whitney regresión lineal (d)
entrada
Cuantitativa Regresión (e) (e) Rangos de Rangos de Rangos de Spearman o
Discreto Logística Spearman Spearman regresión lineal (d)
Ploteo de
(e) (e) (e) Ploteo de datos, Pearson
Cuantitativa Regresión datos, Pearson
o Rangos de Spearman y
no-normal Logística o rangos de
Spearman regresión lineal
Cuantitativa Regresión (e) (e) (e) Regresión Pearson y regresión388
normal Logística lineal (d) lineal
Similitudes y diferencias entre Z-test
y T-test

• Una primera similitud muy evidente es que los dos test se


refieren al parámetro μ de una distribución Normal. Como es
sabido, la diferencia se encuentra en que en el Z-test se
supone que la σ poblacional es conocida, mientas que en el T-
test es desconocida:

389
• Vemos que ambas fórmulas difieren, tan sólo, en que en el
estadístico del Z-test aparece en el denominador la desviación
típica poblacional (conocida), mientras que en el T-test tenemos un
estimador insesgado de dicho parámetro. Sin embargo, conviene
no olvidar que las distribuciones de referencia de ambos
estadísticos no son las mismas:

390
Generalidades
• Para un tamaño muestral grande, es de esperar que ambos
valores sean muy similares. Por tanto, los
estadísticos Zexp y Texp también lo serán.
• En síntesis, el Z-test o el T-test para la media de una normal
presentan diversas similitudes que pueden resumirse
indicando que cuanto mayor sea el tamaño muestral más se
parecerán los valores del estadístico de contraste,
su distribución y el p-valor.

391
Supuestos del modelo t de Student para
dos muestras independientes.

• Nivel de medida de las variables: métricas, es decir, intervalo o


razón.
• Distribución: normal o aproximadamente normal.
• Varianzas poblacionales: desconocidas, supuestamente iguales
o sin supuesto de igualdad.
• Observaciones: aleatorias e independientes.
• Hipótesis que se somete a prueba: la diferencia entre las dos
medias toma un determinado valor, generalmente cero.

392
393
Test de normalidad
- Test de Kolmogoroff-Smirnoff-Lilliefors (test más potente para
muestra > 30 casos).
- Test de Shapiro-Wilk (la prueba más potente para muestra < 30
casos).
- Test de D’Agostino.
- Test de Anderson-Darling.
- Test chi-cuadrado de bondad de ajuste.
- Test de Contraste de asimetría: Sirve para contrastar la
hipótesis de que el coeficiente de
asimetría de Fisher  es cero. Propiedad que verifica la
distribución normal ( = 10). 1

- Test de Curtosis: Contraste de apuntamiento, sirve para


contrastar la hipótesis de que el coeficiente  curtosis de
Fisher (coeficiente de apuntamiento) es cero. Propiedad que
verifica la distribución normal ( = 0).
- Test de Jarque-Bera. 394
Primer paso para realizar una T-Student es comprobar la
hipótesis de normalidad:
H0: Muestras son normales
H1: Muestras no son normales

395
396
397
Gl = (nA.-1) + (nB-1) = (75-1) + (75-1) = 148

398
N1 = 75
Ṧ1 = 88,671
X1= 32,76
N2 = 75
S2 = 73,278
X2 = 31,213 399
400
Decisión sobre el estadístico obtenido en
función de la región donde se encuentra.
• Dado que T = 1,0585 y que es mayor que -1,976 y menor que
1,976 se encuentra dentro de la región de aceptación de la
hipótesis nula, aceptamos la hipótesis nula .
• Por tanto, y dado que la hipótesis nula establecía que la
diferencia de medias era igual a 0, podemos concluir que no
existe evidencia en contra de que las medias de las dos
muestras sean iguales, o lo que es lo mismo, no se han
encontrado diferencias estadísticamente significativas.

401
402
403
404
Bioestadística
Xi Cuadrado

405
Pregunta
• Tengo un grupo de estudiantes, me interesa saber si
la frecuencia de habito tabáquico es igual entre
hombres y mujeres:

• Hipótesis nula H0: no existe diferencia entre sexos en


términos de tabaquismo
• Hipótesis alternativa H1: existe diferencia entre hombres
y mujeres tabaquismo
Hipótesis nula, hipótesis alternativa y grado de
significancia estadística
El sexo se relaciona con la frecuencia de tabaquismo
El problema consiste en saber si esta diferencia se debe o no al azar.

Para abordar este problema se considera 2 hipótesis:


1. Hipótesis Nula (H0)= no existe diferencia entre el sexo y la
frecuencia de tabaquismo
2. Hipótesis alternativa (H1). si existe diferencia entre el sexo y la
frecuencia de tabaquismo
Estas 2 hipótesis son mutuamente excluyentes, de modo que
solo hay dos decisiones posibles:
Rechaza H0 → Acepta H1
No rechaza H0 → No puede aceptar H1
De tal forma:
• p < 0,05 → Diferencia real, poca probabilidad de que se
deba al azar.
Aceptó H1 – Rechazó H0
Estadísticamente significativo.

• P > 0,05 → no existe suficiente diferencia como para


sostener que, la diferencia puede deberse al azar.
No se rechaza H0 – No Acepto H1
INVESTIGACION EN APS
Procesamiento y análisis
Selección de la prueba estadística para
observaciones independientes
Variable de resultado
Nominal Categórica Cuantitativa Cuantitativa normal
(>2
Ordinal Cuantitativa
discreta No-normal
categorías)
X2 o de X2 tendencia Mann- Mann-Whitney
Nominal X2 o Mann-
Prueba t de student
Fisher Whitney o log-rank (a)
Whitney
Categórica
X2 X2
Kruskal- Kruskal- Kruskal- Análisis de la
(>2
categorías) Wallis Wallis (b) Wallis (b) varianza (ANOVA)
X2 de
(b) (c)
Ordinal (e) Rangos Rangos de Rangos de Rangos de
Variable (categorías tendencia o de Spearman Spearman Spearman o
de ordenadas) Mann – Spearman
Whitney regresión lineal (d)
entrada
Cuantitativa Regresión (e) (e) Rangos de Rangos de Rangos de Spearman o
Discreto Logística Spearman Spearman regresión lineal (d)
Ploteo de
(e) (e) (e) Ploteo de datos, Pearson
Cuantitativa Regresión datos, Pearson
o Rangos de Spearman y
no-normal Logística o rangos de
Spearman regresión lineal
Cuantitativa Regresión (e) (e) Regresión Pearson y regresión
(e)
normal Logística lineal (d) lineal
INVESTIGACION EN APS
Procesamiento y análisis
Selección de la prueba estadística para
observaciones independientes
Variable de resultado
Nominal Categórica Cuantitativa Cuantitativa normal
(>2
Ordinal Cuantitativa
discreta No-normal
categorías)
X2 o de X2 tendencia Mann- Mann-Whitney
Nominal X2 o Mann-
Prueba t de student
Fisher Whitney o log-rank (a)
Whitney
Categórica
X2 X2
Kruskal- Kruskal- Kruskal- Análisis de la
(>2
categorías) Wallis Wallis (b) Wallis (b) varianza (ANOVA)
X2 de
(b) (c)
Ordinal (e) Rangos Rangos de Rangos de Rangos de
Variable (categorías tendencia o de Spearman Spearman Spearman o
de ordenadas) Mann – Spearman
Whitney regresión lineal (d)
entrada
Cuantitativa Regresión (e) (e) Rangos de Rangos de Rangos de Spearman o
Discreto Logística Spearman Spearman regresión lineal (d)
Ploteo de
(e) (e) (e) Ploteo de datos, Pearson
Cuantitativa Regresión datos, Pearson
o Rangos de Spearman y
no-normal Logística o rangos de
Spearman regresión lineal
Cuantitativa Regresión (e) (e) Regresión Pearson y regresión
(e)
normal Logística lineal (d) lineal

S-ar putea să vă placă și