Documente Academic
Documente Profesional
Documente Cultură
ESTADÍSTICA
DESCRIPTIVA
BIOESTADISTICA
ARTURO VALENZUELA
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
CONCEPTOS BASICOS.
Estadística:
Es una rama de la matemática que comprende Métodos y Técnicas que se emplean en la recolección,
ordenamiento, resumen, análisis, interpretación y comunicación de conjuntos de datos.
Población:
Es un conjunto cuyos elementos poseen alguna característica común que se quiere estudiar. Las
poblaciones pueden ser finitas o infinitas.
Muestra:
Es un subconjunto de la población, que debe ser representativa y aleatoria.
Variables Cualitativas
Son aquellas variables que se refieren a un atributo (no son medibles), por ejemplo: sexo,
nacionalidad, profesión, etc.
Variables Cuantitativas
Son aquellas variables en que cada observación es resultado de una medición o un conteo y por lo
tanto tiene un valor expresado por un número real, por ejemplo: peso, temperatura, número de
personas en una sala, etc.
Discretas: Son resultado de un conteo, por lo tanto, toman sólo valores enteros, por
ejemplo: número de hijos, número de departamentos en un edificio, etc.
Continuas: Son resultado de una medición, por lo tanto, son susceptibles de tomar cualquier
valor, por ejemplo: el peso, la estatura, etc.
Curso de Bioestadística 2
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Frecuencia (f): Número de veces que se repite un dato (también se le denomina frecuencia absoluta).
Frecuencia Acumulada (F): Es la que se obtiene sumando ordenadamente las frecuencias absolutas
hasta la que ocupa la última posición.
Frecuencia Relativa (h): Es el cuociente entre la frecuencia absoluta de uno de los valores de la
variable y el total de datos, expresada en tanto por ciento.
clase x f F h H
Dato 1 MC1 Frecuencia 1 fac 1 fr 1 frac 1
Dato 2 MC2 Frecuencia 2 fac 2 fr 2 frac 2
Dato 3 MC3 Frecuencia 3 fac 3 fr 3 frac 3
: : : : : :
Dato n MCn Frecuencia n fac n fr n frac n
A menudo, una representación gráfica de una distribución de frecuencias nos da una mejor idea de un
estudio estadístico que un cuadro con números. Existen distintos tipos de gráficos en los que
podemos presentar nuestros datos, algunos de los más utilizados son
GRÁFICO DE BARRAS
Utilizado en variables de tipo cualitativa y cuantitativa discreta, este gráfico consiste en una serie de
barras que indican a los datos, cuyas alturas representan la frecuencia absoluta de estos.
Gráfico de Barras
X F
Dato 1 A A
Dato 2 B
Frecuencia (f)
C fig. 1
Dato 3 C D
Dato 4 D B
Dato 5 E
Curso de Bioestadística 3
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
GRÁFICO CIRCULAR
Al igual que el gráfico de barras, el gráfico circular es utilizado en variables de tipo cualitativa y
cuantitativa discreta. El gráfico consiste en un círculo dividido en secciones proporcionales al tamaño
de la muestra y la frecuencia de los datos.
Gráfico Circular
X f h% Dato 5
Dato 1 a a% Dato 4 Dato 1
Dato 2 b b%
Dato 3 c c%
Dato 4 d d% Dato 3 Dato 2
Dato 5 e e% fig. 2
f x° Dato 5
=
total 360° Dato 1
Dato 4
f h
=
total 100%
Dato 3 Dato 2
HISTOGRAMA
c fig. 3
Intervalo 2 Clase 2 b a
Intervalo 3 Clase 3 c
Intervalo 4 Clase 4 d
1 2 3 4
Intervalos
f fr
=
total 100%
Curso de Bioestadística 4
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
POLÍGONO DE FRECUENCIAS
Al igual que el histograma, este gráfico se utiliza en datos agrupados en intervalos. Para
confeccionarlo, debemos unir con una recta a los puntos donde se intersectan la clase y la frecuencia
de los intervalos. Para “anclar” el polígono al eje horizontal, debemos agregar un intervalo de
frecuencia cero, antes del primer y después del último intervalo.
Polígono de frecuencias
Frecuencia (f)
6
X C f
a5
Intervalo 1 Clase 1 a c4
Intervalo 2 Clase 2 b d3
fig. 4
Intervalo 3 Clase 3 c b2
Intervalo 4 Clase 4 d 1
0
Clase (c)
Clase Clase 1 Clase 2 Clase 3 Clase 4 Clase
El diagrama de caja es una representación gráfica basada en cuartiles, que ayuda a ilustrar una
muestra de datos. Para elaborar este gráfico, sólo se necesitan cinco datos: el valor mínimo, el primer
cuartil, la mediana, el tercer cuartil y el valor máximo de la muestra.
TIPOS DE MUESTRA
Valor Q1 Q2 Q3 Valor
mínimo máximo
Curso de Bioestadística 5
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Cuando se tiene un grupo de observaciones, se desea describirlo a través de un sólo número. Para tal
fin, una de las propiedades más sobresalientes de la distribución de datos es su tendencia a
acumularse hacia el centro de la misma. Esta característica se denomina tendencia central. Las
medidas de tendencia central más usuales son: la media aritmética, la mediana y la moda.
MODA (mo)
La moda de un conjunto de datos numéricos es el valor que más se repite, es decir, el que tiene el
mayor número de frecuencias absolutas. La moda puede ser no única e inclusive no existir.
Si no hay un dato que tenga mayor frecuencia que otro se dice que la distribución de frecuencias es
AMODAL.
Si existe un solo dato que tenga mayor frecuencia la distribución de frecuencia es UNIMODAL. De
existir dos (o más) datos que tienen la misma frecuencia, siendo esta la mayor, se dice que la muestra
es BIMODAL (O POLIMODAL).
La moda es una medida de tendencia central muy importante, porque permite planificar, organizar y
producir para satisfacer las necesidades de la mayoría.
Ejemplo 1. Ejemplo 3.
Obtener la moda de los siguientes datos:
-3, 3, -2, 0, 3, -1, -2, 4, 5, -2, 0, 1. En una tienda, 18 empleados presentan la
siguiente información:
Solución.
Ordenando de forma ascendente:
-3, -2, -2, -2, -1, 0, 0, 1, 3, 3, 4, 5.
Ejemplo 2.
Obtener la moda de los siguientes datos:
6, 2, -1, -5, 3, -3, -2, 5, 0, -4, 4, 1.
¿Cuál es la moda de las horas laboradas por los
empleados?
Solución.
Ordenando de forma ascendente:
Solución.
-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5, 6.
Hay dos valores con frecuencia 5. Entonces, se
concluye que hay más de una moda. La mayor
Ningún valor se repite es, decir su moda
frecuencia son 8 y 9 horas diarias de trabajo.
no existe.
Curso de Bioestadística 6
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
MEDIANA (me)
La mediana es el punto central de una serie de datos ordenados de forma ascendente o descendente.
De acuerdo al número de casos o datos, hay dos formas para calcular la mediana:
Ejemplo 1. Ejemplo 2.
Obtener la mediana de los siguientes datos: Obtener la mediana de los siguientes datos:
4, 7, 1, 9, 2, 5, 6. -3, 5, 18, 4, 11, -6, 9, 10, -1, 2.
Solución. Solución.
Ordenando de forma ascendente: Ordenando de forma ascendente:
1, 2, 4, 5, 6, 7, 9. -6, -3, -1, 2, 4, 5, 9, 10, 11, 18.
El valor que queda al centro es el 5, porque hay Los valores centrales son 4 y 5. Su mediana es:
tres datos antes y tres datos después de él, me = 4,5
entonces la mediana es: me = 5. En este caso, la mediana de este conjunto no
pertenece al conjunto de datos.
Curso de Bioestadística 7
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
MEDIA ARITMÉTICA ( )
La media aritmética de n valores, es igual a la suma de todos ellos dividida entre n. Se denota por .
Esto es:
n
xi
x1 x2 x3 ... xn
x i 1
n n
Cuando los datos tienen más de una frecuencia, para obtener la media aritmética se agrega otra
columna a la tabla estadística con el producto de las observaciones y sus frecuencias. Es decir, si se
cuenta con una distribución de datos entonces se aplica la fórmula:
n
xi fi
x1 · f1 x 2 · f2 x3 · f3 ... xn · fn i 1
x
f1 f2 f3 ... fn n
1. Es una medida totalmente numérica o sea sólo puede calcularse en datos de características
cuantitativas.
2. En su cálculo se toman en cuenta todos los valores de la variable.
3. Es lógica desde el punto de vista algebraico.
4. La media aritmética es altamente afectada por valores extremos.
5. No puede ser calculada en distribuciones de frecuencia que tengan clases abiertas.
6. La media aritmética es única, o sea, un conjunto de datos numéricos tiene una y sólo una media
aritmética.
Ejemplo 1.
Con los datos: 10, 8, 6, 15, 10, 5, hallar la media aritmética.
Solución:
10 8 6 15 10 5 54
x 9
6 6
Ejemplo 2.
Mediante la siguiente distribución de frecuencias que
muestra las estaturas en metros de los alumnos de un
curso, hallar la media aritmética.
99,61
x 1,66
60
Curso de Bioestadística 8
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
MEDIA PONDERADA ( x p )
La media ponderada de un conjunto de valores de una variable x a los que se han asignado,
respectivamente, una ponderación se calcula mediante la fórmula:
Los valores p1 , p2 , p3 ,… pn indican la importancia que se quiere dar a cada uno de los valores que
toma la variable x .
Ejemplo 1.
Un profesor decide que la calificación final de un alumno constará del 60% del promedio de los
exámenes, el 30% de promedio de tareas y el 10% de participación en clase a lo largo del año escolar.
Si un alumno tiene 5.3 de promedio de exámenes, 7.1 de tareas y 7.8 promedio de participaciones.
¿Cuál será su calificación final?
Solución.
Si el profesor sólo tomara en cuenta los exámenes, el alumno no aprobaría. Sin embargo al darle
importancia a las tareas y a su participación en clase, esto hace que al final consiga aprobar con la
media ponderada.
Su característica principal es que su resultado depende de la importancia o “peso” de cada uno de los
valores asignado por quien efectúa el cálculo.
Ejemplo 2.
Si el quinto medio Z tiene 25 alumnos y obtiene un promedio de 4,9 en la prueba de estadística, y el
quinto medio W tiene 38 alumnos y obtiene un promedio 4,3 en la misma prueba. ¿Cuál fue el
promedio de todos los alumnos que rindieron la prueba?
n x n· x
Z 25 4,9 122,5
W 38 4,3 163,4
122,5 163,4
xp 4,538
25 38
Curso de Bioestadística 9
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Los fractiles dividen a una muestra ordenada en forma creciente o decreciente, en la forma más
igualitaria posible. Los principales fractiles son: los cuartiles y los percentiles.
Estas medidas dividen a la población en partes iguales y sirven para clasificar a un individuo dentro de
una determinada muestra o población (mismo concepto que la mediana)
Para determinar el valor de la mediana en el caso de tener representada los valores de la variable en
intervalos hay que partir de una hipótesis: “la variable evoluciona de manera continua y uniforme
dentro del propio intervalo”.
La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la
suma de las frecuencias absolutas.
Ejemplo
Calcular la mediana de una distribución estadística que viene dada por la siguiente tabla:
fi Fi
[60, 63) 5 5
[63, 66) 18 23
[66, 69) 42 65
[69, 72) 27 92
[72, 75) 8 100
100
N/2 = 100/2 = 50
Clase de la mediana: [66, 69)
50 23
Me 66 3 67,93
42
Curso de Bioestadística 10
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
CUARTILES (Q):
Los cuartiles dividen a la muestra en cuatro partes. Q1, Q2 y Q3 determinan los valores
correspondientes al 25%, 50% y 75% de los datos, respectivamente.
Dicho de otra forma es una medida de localización que divide a la población en cuatro partes iguales.
Q1: Valor de la distribución que deja el 75% de los valores por encima.
Q2: Valor de la variable que deja el 50% de los valores de la variable por encima (coincide con la Me).
Q3: Valor de la variable que deja el 25% de los valores de la variable por encima.
Ejemplo 2.
Número par de datos: 2, 5, 3, 4, 6, 7, 1, 9
Ejemplo 3.
Calcular los cuartiles de la distribución de la tabla:
3N 3 65
Cálculo del primer cuartil 48,75
4 4
1N 1 65 48,75 48
16,25 Q3 90 10 90,75
4 4 10
16,25 8
Q1 60 10 68,25
10
DECILES (D)
k N
Fi 1
Dk Li 10 ai , con : k 1,2,3,...,9
fi
Donde:
Li es el límite inferior de la clase donde se encuentra el decil.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase del decil.
fi es la frecuencia de la clase del decil.
ai es la amplitud de la clase.
Curso de Bioestadística 12
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Ejemplo 1.
Calcular los deciles de la distribución de la tabla:
Cálculo del quinto decil
Clase fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63 Cálculo del sexto decil
[110, 120) 2 65
Total 65
Curso de Bioestadística 13
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
PERCENTILES (P):
Los percentiles dividen a la muestra en cien partes. El percentil de orden K se denota por PK, y es la
observación cuya frecuencia absoluta acumulada alcanza el valor igual al K% de las observaciones.
Dicho de otra forma es una medida de localización que divide a la población en cien partes iguales.
El primer percentil supera al uno por ciento de los valores y es superado por el noventa y nueve por
ciento restantes. Pk = Percentil k-ésimo es aquel valor que deja a su izquierda el K*1% de la
distribución.
Ejemplo 1.
Calcular el percentil 35 y 60 de la distribución de la tabla:
Percentil 35
Clase fi Fi
[50, 60) 8 8 35 N 35 65
[60, 70) 10 18 22,75
[70, 80) 16 34
100 100
[80, 90) 14 48 22,75 18
P35 70 10 72,97
[90, 100) 10 58 16
[100, 110) 5 63
[110, 120) 2 65 Percentil 60
Total 65
60 N 60 65
39
100 100
39 34
P60 80 10 83,57
14
Curso de Bioestadística 14
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
DISTRIBUCIONES BIDIMENSIONALES
La mayoría de los fenómenos que se estudian en cualquier disciplina están determinados por la
observación de distintas variables relativas a dicho fenómeno. Es decir, si queremos estudiar las
características de un producto y compararlo con los de la competencia normalmente se recogerá
información sobre distintos atributos del producto como por ejemplo tamaño, color, precio, unidades
vendidas, etc. Es decir, todas estas características son variables referentes a nuestro producto y por
tanto tendremos distribuciones que no serán unidimensionales. En concreto vamos a analizar las
distribuciones bidimensionales que consiste en el estudio de dos características a la vez en una
muestra.
Los dos caracteres observados no tienen por qué ser de la misma clase, así nos podemos encontrar
con las siguientes situaciones:
Otro factor a tener en cuenta es que el número de modalidades distintas que adopta el carácter X no
tiene por qué ser el mismo que el que adopta el carácter Y:
TABULACIÓN CRUZADA
Curso de Bioestadística 15
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
En este tipo de representación también podemos representar las frecuencias relativas. Basta con
dividir las frecuencias conjuntas entre el número total de observaciones:
Una tabla de doble entrada también se puede expresar como una tabla simple o marginal, de forma
que siempre es posible pasar de una a otra según convenga.
DISTRIBUCIONES MARGINALES
Si en una tabla de doble entrada utilizamos solamente los valores correspondientes a X, sin que para
nada intervengan los valores de la variable y, esta distribución se denomina distribución marginal de
la variable X.
Análogamente cuando tomamos los valores de la variable y sin tener en cuenta los valores de la
variable x estamos ante la distribución marginal de y.
De las frecuencias absolutas marginales se obtienen las frecuencias relativas marginales. Y de igual
forma podemos obtener las medias, varianzas y desviaciones típicas marginales.
Curso de Bioestadística 16
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Medias marginales
Varianzas marginales
Curso de Bioestadística 17
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
DISTRIBUCIONES CONDICIONADAS
Dependiendo del tipo de variables con el que estemos construyendo la tabla hablamos de tablas de
contingencia o tablas de correlación:
Curso de Bioestadística 18
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
MEDIDAS DE DISPERSIÓN
La dispersión mide que tan alejados están un conjunto de valores respecto a su media aritmética. Así,
cuanto menos disperso sea el conjunto, más cerca del valor medio se encontrarán sus valores.
Se llaman medidas de dispersión aquellas que permiten retratar la distancia de los valores de la
variable a un cierto valor central, o que permiten identificar la concentración de los datos en un cierto
sector del recorrido de la variable. Se trata de coeficientes para variables cuantitativas.
RANGO
El rango de una distribución es la diferencia entre el valor máximo (M) y el valor mínimo (m) de la
variable estadística. Para su cálculo, basta con ordenar los valores de menor a mayor (de m a M).
Ejemplo 1.
Si se conoce que el valor promedio de días de espera para obtener una licencia de manejo, es de 5
días en la oficina A, y de 7 días en la oficina B, con esta única información no es posible hacer una
elección adecuada. Sin embargo, si se sabe que en la oficina A, el número mínimo de días de espera es
de 3 y el máximo de 15, mientras que en la oficina B, los valores son 3 y 8 días respectivamente, se
podrá tomar una decisión más adecuada para acudir a obtener la licencia, gracias a esta información
adicional.
RANGO INTERCUARTILICO
El rango intercuartílico es la diferencia entre el tercer y primer cuartil de la variable. En ese intervalo
se incluyen, por tanto, el 50% de las observaciones situadas en la zona central de la distribución:
Curso de Bioestadística 19
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
VARIANZA (VAR(x))
La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la media
aritmética. Cuanto mayor sea la varianza mayor dispersión existirá y por tanto, menor
representatividad tendrá la media aritmética. La varianza se expresa en las mismas unidades que la
variable analizada, pero elevadas al cuadrado.
La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar y está dada
por: var( x ) s2x
n
n
xi x
2
xi 2
2
2
Para datos no agrupados: s x i 1
; o de otra forma: var( x ) i 1
x
n n
n
n
xi x
2
fi xi 2 fi
2
2
Para datos agrupados: s x i 1
; o de otra forma: var( x ) i 1
x
n n
Ejemplo 1.
Hallar la desviación estándar y la varianza de la siguiente serie de datos: 10, 18, 15, 12, 3, 6, 5, 7
Solución.
76
x 9,5
8
Var(x)=23,75
Curso de Bioestadística 20
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
La desviación estándar o desviación típica se define como la raíz cuadrada de los cuadrados de las
desviaciones de los valores de la variable respecto a su media. Corresponde a la raíz cuadrada de la
varianza, esto es: sx var( x )
n 2
xi x
Para datos no agrupados se expresa como: sx i 1
n
La desviación estándar es una medida estadística de la dispersión de un grupo o población. Una gran
desviación estándar indica que la población está muy dispersa respecto de la media. Una desviación
estándar pequeña indica que la población está muy compacta alrededor de la media.
Para el caso de datos agrupados, la desviación estándar se calcula por medio de:
n 2
xi x fi
sx i 1
n
Ejemplo 1.
Solución.
Calculando los puntos medios de cada
clase y obteniendo f·x:
La media de x es:
1015,5
x 26,038
39
1707,42
s 43,78 6,616
x 39
Curso de Bioestadística 21
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las
mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación de Pearson que
se define como el cuociente entre la desviación estándar y el valor absoluto de la media aritmética:
Este coeficiente, representa el porcentaje que la desviación estándar contiene a la media aritmética y
por lo tanto cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media.
Conocer el valor de la varianza de una distribución no nos permite decir de manera inmediata si ésta
es más o menos dispersa, ya que su valor depende de la unidad de medida de la variable. Se suele
utilizar una referencia en relación a la cual se realiza la comparación.
(1) Cuando se quieren comparar distribuciones de variables con diferentes unidades de medida, ya
que la dispersión será igual a un tanto por ciento de la media de la variable, sin importar en que
unidad se mide ésta.
(2) Cuando se comparan distribuciones que, aun teniendo igual unidad de medida, toman valores muy
distintos. Por ejemplo, si se quieren comparar las rentas de dos regiones, una muy rica y otra muy
pobre, podría no ser adecuado comparar directamente las varianzas. La región con renta media alta
tenderá a presentar una varianza más alta, por el hecho de jugar con cifras absolutas mayores que la
región con rentas bajas. Una manera de relativizar este efecto es el empleo del coeficiente de
variación.
Ejemplo 1.
Hallar el coeficiente de variación del ejemplo anterior.
Solución.
6,616
CV 0,254
26,038
Se suele expresar en porcentajes, para su comparacion. Por lo que la muestra tiene un tanto por
ciento de variacion, para el ejemplo:
CV = 25, 4%
Curso de Bioestadística 22
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
n n 2
xi fi xi x fi
sx
x i 1
; var( x ) i 1
; sx var( x ) s2x ; CV
n n x
media 1,357
varianza 1,515
desviación 1,231
CV 0,907
n n
xi fi xi2 fi
2 sx
x i 1
; var( x ) i 1
x ; sx var( x ) s2x ; CV
n n x
media 1,357
varianza 1,515
desviación 1,231
CV 0,907
Curso de Bioestadística 23
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Y el coeficiente de variación:
Curso de Bioestadística 24
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Hasta ahora se han estudiado los índices y representaciones de una sola variable por individuo. Son
del tipo distribución unidimensional.
Cuando sobre una población se estudian simultáneamente los valores de dos variables estadísticas, el
conjunto de los pares de valores correspondientes a cada individuo se denomina distribución
bidimensional.
DIAGRAMAS DE DISPERSIÓN
Ejemplo 1.
La siguiente tabla muestra los datos correspondientes a un conjunto de diez pares de observaciones
de estaturas de padres e hijos:
Curso de Bioestadística 25
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Cuando se estudia la relación entre dos variables, una puede considerarse causa y la otra resultado o
efecto de la primera, siendo ésta una decisión teórica. Se conoce como variable exógena, o variable
independiente a la que causa el efecto y variable endógena, o variable dependiente a la que lo recibe.
Por supuesto que diferentes conjuntos de datos ofrecerán diagramas diferentes. Sin embargo, se
pueden considerar cuatros tipos de diagramas de dispersión, que son los más típicos:
1. Relación tal que al aumentar los valores de la variable independiente aumenta (en promedio) el
valor de la variable dependiente. Cuando esto ocurre hay una relación lineal positiva.
2. Relación tal que al aumentar los valores de la variable independiente se reduce (en promedio) el
valor de la variable dependiente. Cuando esto ocurre hay una relación lineal negativa.
3. No hay relación entre ambas variables. Esto significa que las variables son independientes.
4. Relación entre ambas, pero no lineal.
COVARIANZA (COV(x,y))
La covarianza es una medida de la asociación lineal entre dos variables que resume la información
existente en un gráfico de dispersión. Es un indicador de si los valores están relacionados entre sí, se
simboliza por COV(x,y) se calcula por medio de:
n n
xi x yi y xi yi
xy
i 1
; O por la expresión: cov( x , y ) i 1
x y
n n
Características de la covarianza:
Esta medida, refleja la relación lineal que existe entre dos variables.
El resultado numérico fluctúa entre los rangos de .
Al no tener unos límites establecidos no puede determinarse el grado de relación lineal que existe
entre las dos variables, sólo es posible ver la tendencia.
Una covarianza positiva significa que existe una relación lineal positiva entre las dos variables. Es
decir, los valores bajos de la variable x se asocian con los valores bajos de la variable y , mientras
los valores altos de x se asocian con los valores altos de la variable y .
Una covarianza de negativa significa que existe una relación lineal inversa (negativa) entre las dos
variables. Lo que significa que los valores bajos en x se asocian con los valores altos en y , mientras
los valores altos en x se asocian con los valores bajos en y .
Una covarianza de cero se interpreta como la no existencia de una relación lineal entre las dos
variables estudiadas.
Curso de Bioestadística 26
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Ejemplo 1.
Solución.
Por lo tanto:
Como la covarianza es positiva significa que existe una relación lineal positiva entre las dos variables.
Es decir, a valores grandes de x (estaturas de los padres) se asocian valores altos de y (estaturas de los
hijos).
Curso de Bioestadística 27
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
CORRELACIÓN (r)
Es frecuente que se estudie sobre una misma población los valores de dos variables estadísticas
distintas, con el fin de ver si existe alguna relación entre ellas, es decir, si los cambios en una de ellas
influyen en los valores de la otra. Si ocurre esto se dice que las variables están correlacionadas o bien
que hay correlación entre ellas.
Ejemplo 1.
Los pares de valores { (2,2), (4,2), (5,5) …. , (8,7), (9,10) }, forman la distribución bidimensional en la
que hay cierta tendencia a que cuanto mejor es la calificación en Matemáticas, mejor es la de Física.
La correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se
considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas
varían sistemáticamente con respecto a los valores homónimos de la otra: si se tienen dos variables
(x,y) existe correlación si al aumentar los valores de x lo hacen también los de y, y viceversa. La
correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad
La relación entre dos variables cuantitativas queda representada mediante la línea de mejor ajuste,
trazada a partir de la nube de puntos. Los tres principales componentes elementales de una línea de
ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:
Curso de Bioestadística 28
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
1. La fuerza mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y
alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de
puntos tiene una tendencia elíptica o circular, la relación es débil.
2. El sentido mide la variación de los valores de y con respecto a x : si al crecer los valores de x lo
hacen los de y , la relación es positiva; si al crecer los valores de x disminuyen los de y , la relación
es negativa.
3. La forma establece el tipo de línea que define el mejor ajuste: la línea recta, cuadrática,
polinomial, etc.
n
xi yi
i 1
x y
cov( x , y ) n
r
sx s y n
2
n
2
; o por:
xi yi
2 2
i 1
x i 1
y
n n
Este coeficiente de correlación lineal divide la covarianza por el producto de las desviaciones estándar
de ambas variables. A diferencia de la covarianza, el coeficiente de correlación de Pearson es
independiente de la escala de medida de las variables.
Si r = 0, no existe ninguna correlación. El índice indica, por lo tanto, una independencia total
entre las dos variables, es decir, que la variación de una de ellas no influye en absoluto en el
valor que pueda tomar la otra.
Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre
las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también
lo hace en idéntica proporción. Si 0 < r < 1, existe una correlación positiva.
Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre
las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en
idéntica proporción. Si -1 < r < 0, existe una correlación negativa.
Curso de Bioestadística 29
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Gráficamente es:
Según hemos visto, el coeficiente de correlación lineal puede interpretarse como una medida de la
bondad del ajuste del modelo lineal, concretamente, un valor del coeficiente igual a 1 o -1 indica
dependencia lineal exacta, en cuyo caso el ajuste es perfecto. No obstante, para cuantificar la bondad
del ajuste de un modelo, lineal o no, se utiliza una medida que se denomina coeficiente de
determinación R2, que es la proporción de variabilidad de la variable Y que queda explicada por el
modelo, cuya expresión en el modelo de regresión lineal coincide con el cuadrado del coeficiente de
correlación lineal de Pearson:
El coeficiente de determinación toma valores entre 0 y 1, y cuanto más se aproxime a 1 mejor será el
ajuste y por lo tanto mayor la fiabilidad de las predicciones que con él realicemos.
Curso de Bioestadística 30
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
En múltiples ocasiones se requiere analizar la relación entre dos variables cuantitativas. Los dos
objetivos fundamentales de este análisis son:
1. Determinar si dichas variables están asociadas y en qué sentido se da dicha asociación (es decir, si
los valores de una de las variables tienden a aumentar o disminuir al aumentar los valores de la otra).
2. Estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra.
cov( x , y )
b ; o por la expresión:
var( x )
a es el valor que toma y cuando la variable independiente x vale cero. Es el punto donde la recta
cruza el eje vertical, llamado ordenada al origen de la recta. Se calcula como la media de la
variable y , menos la media de la variable x multiplicada por el parámetro b que se ha calculado:
Curso de Bioestadística 31
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Ejemplo 1.
Obtener la correlación y graficar la recta de regresión que existe entre la estatura y el peso de 10
jugadores de un equipo fútbol americano de la UNAM.
Curso de Bioestadística 32
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Calculando la covarianza:
Su gráfica es:
Curso de Bioestadística 33
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
n n
xi xi2 sx
2 sx var( x ) s2x C .V ( x )
x i 1
var( x ) i 1
x x
n n
n n
yi yi2 sy
2 sy var( y ) s2y C .V ( y )
y i 1
var( y ) i 1
y y
n n
n
xi yi cov( x , y )
r R2 r2
cov( x , y ) i 1
x y sx s y
n
cov( x , y )
b a y b x Modelo regresión lineal : y a b x
var( x )
Curso de Bioestadística 34
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
Ejemplo 2.
INTELIGENCIA VS RENDIMIENTO
2 2
i xi yi xi yi xi·yi
1 105 4 11025 16 420
2 116 8 13456 64 928
3 103 2 10609 4 206
4 124 7 15376 49 868
5 137 9 18769 81 1233
6 126 9 15876 81 1134
7 112 3 12544 9 336
8 129 10 16641 100 1290
9 118 7 13924 49 826
10 105 6 11025 36 630
suma 1175 65 139245 489 7871
Curso de Bioestadística 35
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E
De donde:
b =0,197
a = -16,702
Y= - 16,702 + 0,197·X
Inteligencia xi Rendimiento yi
media 117,5 media 6,5
varianza 118,25 varianza 6,65
desviación 10,874 desviación 2,579
CV 0,093 CV 0,397
Curso de Bioestadística 36