Sunteți pe pagina 1din 36

Universidad La República

Escuela de Enfermería y Salud Pública

ESTADÍSTICA
DESCRIPTIVA

BIOESTADISTICA

ARTURO VALENZUELA
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

CONCEPTOS BASICOS.

Estadística:
Es una rama de la matemática que comprende Métodos y Técnicas que se emplean en la recolección,
ordenamiento, resumen, análisis, interpretación y comunicación de conjuntos de datos.

Población:
Es un conjunto cuyos elementos poseen alguna característica común que se quiere estudiar. Las
poblaciones pueden ser finitas o infinitas.

Muestra:
Es un subconjunto de la población, que debe ser representativa y aleatoria.

Variables Cualitativas
Son aquellas variables que se refieren a un atributo (no son medibles), por ejemplo: sexo,
nacionalidad, profesión, etc.

Variables Cuantitativas
Son aquellas variables en que cada observación es resultado de una medición o un conteo y por lo
tanto tiene un valor expresado por un número real, por ejemplo: peso, temperatura, número de
personas en una sala, etc.

Las variables cuantitativas pueden ser de 2 tipos:

 Discretas: Son resultado de un conteo, por lo tanto, toman sólo valores enteros, por
ejemplo: número de hijos, número de departamentos en un edificio, etc.

 Continuas: Son resultado de una medición, por lo tanto, son susceptibles de tomar cualquier
valor, por ejemplo: el peso, la estatura, etc.

Curso de Bioestadística 2
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

TABLA DE DISTRIBUCIÓN DE FRECUENCIAS

Dato (x): Información que se está estudiando en la estadística.

Marca de clase (x): Se define como el promedio de los extremos de un intervalo.

Frecuencia (f): Número de veces que se repite un dato (también se le denomina frecuencia absoluta).

Frecuencia Acumulada (F): Es la que se obtiene sumando ordenadamente las frecuencias absolutas
hasta la que ocupa la última posición.

Frecuencia Relativa (h): Es el cuociente entre la frecuencia absoluta de uno de los valores de la
variable y el total de datos, expresada en tanto por ciento.

Frecuencia Relativa Acumulada (H): Es la que se obtiene sumando ordenadamente la frecuencia


relativa hasta la que ocupa la última posición.

clase x f F h H
Dato 1 MC1 Frecuencia 1 fac 1 fr 1 frac 1
Dato 2 MC2 Frecuencia 2 fac 2 fr 2 frac 2
Dato 3 MC3 Frecuencia 3 fac 3 fr 3 frac 3
: : : : : :
Dato n MCn Frecuencia n fac n fr n frac n

REPRESENTACIÓN GRÁFICA E INTERPRETACIÓN DE GRÁFICOS

A menudo, una representación gráfica de una distribución de frecuencias nos da una mejor idea de un
estudio estadístico que un cuadro con números. Existen distintos tipos de gráficos en los que
podemos presentar nuestros datos, algunos de los más utilizados son

GRÁFICO DE BARRAS

Utilizado en variables de tipo cualitativa y cuantitativa discreta, este gráfico consiste en una serie de
barras que indican a los datos, cuyas alturas representan la frecuencia absoluta de estos.
Gráfico de Barras
X F
Dato 1 A A
Dato 2 B
Frecuencia (f)

C fig. 1
Dato 3 C D
Dato 4 D B
Dato 5 E

Dato 1 Dato 2 Dato 3 Dato 4 Dato 5 Dato (x)

Curso de Bioestadística 3
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

GRÁFICO CIRCULAR

Al igual que el gráfico de barras, el gráfico circular es utilizado en variables de tipo cualitativa y
cuantitativa discreta. El gráfico consiste en un círculo dividido en secciones proporcionales al tamaño
de la muestra y la frecuencia de los datos.
Gráfico Circular

X f h% Dato 5
Dato 1 a a% Dato 4 Dato 1

Dato 2 b b%
Dato 3 c c%
Dato 4 d d% Dato 3 Dato 2
Dato 5 e e% fig. 2

f x° Dato 5
=
total 360° Dato 1
Dato 4

f h
=
total 100%

Dato 3 Dato 2

HISTOGRAMA

Se utiliza para representar a los datos agrupados en intervalos. El histograma se elabora


representando a los datos en el eje horizontal y a las frecuencias en el eje vertical, y trazando barras
cuyas bases equivalgan a los intervalos de clase y cuyas alturas correspondan a las frecuencias de
clase.
d
x MC f b
Intervalo 1 Clase 1 a
Frecuencia

c fig. 3
Intervalo 2 Clase 2 b a
Intervalo 3 Clase 3 c
Intervalo 4 Clase 4 d
1 2 3 4
Intervalos

f fr
=
total 100%

Curso de Bioestadística 4
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

POLÍGONO DE FRECUENCIAS

Al igual que el histograma, este gráfico se utiliza en datos agrupados en intervalos. Para
confeccionarlo, debemos unir con una recta a los puntos donde se intersectan la clase y la frecuencia
de los intervalos. Para “anclar” el polígono al eje horizontal, debemos agregar un intervalo de
frecuencia cero, antes del primer y después del último intervalo.
Polígono de frecuencias
Frecuencia (f)
6
X C f
a5
Intervalo 1 Clase 1 a c4
Intervalo 2 Clase 2 b d3
fig. 4
Intervalo 3 Clase 3 c b2
Intervalo 4 Clase 4 d 1
0
Clase (c)
Clase Clase 1 Clase 2 Clase 3 Clase 4 Clase

GRÁFICO DE CAJA Y BIGOTES

El diagrama de caja es una representación gráfica basada en cuartiles, que ayuda a ilustrar una
muestra de datos. Para elaborar este gráfico, sólo se necesitan cinco datos: el valor mínimo, el primer
cuartil, la mediana, el tercer cuartil y el valor máximo de la muestra.

TIPOS DE MUESTRA

Muestra Simétrica: Muestra Negativamente Asimétrica:


Los valores intercuartílicos están igualmente Los valores más pequeños se encuentran más
dispersos. dispersos que los más grandes.

Valor Q1 Q2 Q3 Valor Valor Q1 Q2 Q3 Valor


mínimo máximo mínimo máximo

Muestra Positivamente Asimétrica:


Los valores más grandes se encuentran más
dispersos que los más pequeños.

Valor Q1 Q2 Q3 Valor
mínimo máximo

Curso de Bioestadística 5
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

MEDIDAS DE TENDENCIA CENTRAL

Cuando se tiene un grupo de observaciones, se desea describirlo a través de un sólo número. Para tal
fin, una de las propiedades más sobresalientes de la distribución de datos es su tendencia a
acumularse hacia el centro de la misma. Esta característica se denomina tendencia central. Las
medidas de tendencia central más usuales son: la media aritmética, la mediana y la moda.

MODA (mo)

La moda de un conjunto de datos numéricos es el valor que más se repite, es decir, el que tiene el
mayor número de frecuencias absolutas. La moda puede ser no única e inclusive no existir.

Si no hay un dato que tenga mayor frecuencia que otro se dice que la distribución de frecuencias es
AMODAL.

Si existe un solo dato que tenga mayor frecuencia la distribución de frecuencia es UNIMODAL. De
existir dos (o más) datos que tienen la misma frecuencia, siendo esta la mayor, se dice que la muestra
es BIMODAL (O POLIMODAL).

La moda es una medida de tendencia central muy importante, porque permite planificar, organizar y
producir para satisfacer las necesidades de la mayoría.

Ejemplo 1. Ejemplo 3.
Obtener la moda de los siguientes datos:
-3, 3, -2, 0, 3, -1, -2, 4, 5, -2, 0, 1. En una tienda, 18 empleados presentan la
siguiente información:
Solución.
Ordenando de forma ascendente:
-3, -2, -2, -2, -1, 0, 0, 1, 3, 3, 4, 5.

El valor que más se repite es el -2, por lo tanto


ese valor es su moda.

Ejemplo 2.
Obtener la moda de los siguientes datos:
6, 2, -1, -5, 3, -3, -2, 5, 0, -4, 4, 1.
¿Cuál es la moda de las horas laboradas por los
empleados?
Solución.
Ordenando de forma ascendente:
Solución.
-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5, 6.
Hay dos valores con frecuencia 5. Entonces, se
concluye que hay más de una moda. La mayor
Ningún valor se repite es, decir su moda
frecuencia son 8 y 9 horas diarias de trabajo.
no existe.

Curso de Bioestadística 6
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Las características de la moda son:

1. En su cálculo no se incluyen todos los valores de la variable.


2. El valor de la moda puede ser afectado grandemente por el método de designación de los
intervalos de clases.
3. No está definida algebraicamente.
4. Puede ser calculada en distribuciones de frecuencia que tengan clases abiertas.
5. No es afectada por valores extremos.

MEDIANA (me)

La mediana es el punto central de una serie de datos ordenados de forma ascendente o descendente.

De acuerdo al número de casos o datos, hay dos formas para calcular la mediana:

1) Número de datos impar: 2) Número de datos par:


La mediana es el valor que queda justo al En este caso se busca la media aritmética entre
centro. los dos valores centrales.

Ejemplo 1. Ejemplo 2.
Obtener la mediana de los siguientes datos: Obtener la mediana de los siguientes datos:
4, 7, 1, 9, 2, 5, 6. -3, 5, 18, 4, 11, -6, 9, 10, -1, 2.

Solución. Solución.
Ordenando de forma ascendente: Ordenando de forma ascendente:
1, 2, 4, 5, 6, 7, 9. -6, -3, -1, 2, 4, 5, 9, 10, 11, 18.

El valor que queda al centro es el 5, porque hay Los valores centrales son 4 y 5. Su mediana es:
tres datos antes y tres datos después de él, me = 4,5
entonces la mediana es: me = 5. En este caso, la mediana de este conjunto no
pertenece al conjunto de datos.

Las características de la mediana son:

1. En su cálculo no se incluyen todos los valores de la variable.


2. La Mediana no es afectada por valores extremos.
3. Puede ser calculada en distribuciones de frecuencia con clases abiertas.
4. No es lógica desde el punto de vista algebraico.

Curso de Bioestadística 7
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

MEDIA ARITMÉTICA ( )

La media aritmética de n valores, es igual a la suma de todos ellos dividida entre n. Se denota por .
Esto es:
n
 xi
x1  x2  x3  ...  xn
x  i 1
n n
Cuando los datos tienen más de una frecuencia, para obtener la media aritmética se agrega otra
columna a la tabla estadística con el producto de las observaciones y sus frecuencias. Es decir, si se
cuenta con una distribución de datos entonces se aplica la fórmula:
n
xi fi
x1 · f1 x 2 · f2 x3 · f3 ... xn · fn i 1
x
f1 f2 f3 ... fn n

Las características de la media aritmética son:

1. Es una medida totalmente numérica o sea sólo puede calcularse en datos de características
cuantitativas.
2. En su cálculo se toman en cuenta todos los valores de la variable.
3. Es lógica desde el punto de vista algebraico.
4. La media aritmética es altamente afectada por valores extremos.
5. No puede ser calculada en distribuciones de frecuencia que tengan clases abiertas.
6. La media aritmética es única, o sea, un conjunto de datos numéricos tiene una y sólo una media
aritmética.

Ejemplo 1.
Con los datos: 10, 8, 6, 15, 10, 5, hallar la media aritmética.

Solución:

10 8 6 15 10 5 54
x 9
6 6

Ejemplo 2.
Mediante la siguiente distribución de frecuencias que
muestra las estaturas en metros de los alumnos de un
curso, hallar la media aritmética.

Solución. Construyendo una tabla:

99,61
x 1,66
60

Curso de Bioestadística 8
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

MEDIA PONDERADA ( x p )

La media ponderada de un conjunto de valores de una variable x a los que se han asignado,
respectivamente, una ponderación se calcula mediante la fórmula:

Los valores p1 , p2 , p3 ,… pn indican la importancia que se quiere dar a cada uno de los valores que
toma la variable x .

Ejemplo 1.
Un profesor decide que la calificación final de un alumno constará del 60% del promedio de los
exámenes, el 30% de promedio de tareas y el 10% de participación en clase a lo largo del año escolar.
Si un alumno tiene 5.3 de promedio de exámenes, 7.1 de tareas y 7.8 promedio de participaciones.
¿Cuál será su calificación final?

Solución.

Si el profesor sólo tomara en cuenta los exámenes, el alumno no aprobaría. Sin embargo al darle
importancia a las tareas y a su participación en clase, esto hace que al final consiga aprobar con la
media ponderada.

Su característica principal es que su resultado depende de la importancia o “peso” de cada uno de los
valores asignado por quien efectúa el cálculo.

Ejemplo 2.
Si el quinto medio Z tiene 25 alumnos y obtiene un promedio de 4,9 en la prueba de estadística, y el
quinto medio W tiene 38 alumnos y obtiene un promedio 4,3 en la misma prueba. ¿Cuál fue el
promedio de todos los alumnos que rindieron la prueba?

n x n· x
Z 25 4,9 122,5
W 38 4,3 163,4

122,5 163,4
xp 4,538
25 38

Curso de Bioestadística 9
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

MEDIDAS DE POSICIÓN (FRACTILES)

Los fractiles dividen a una muestra ordenada en forma creciente o decreciente, en la forma más
igualitaria posible. Los principales fractiles son: los cuartiles y los percentiles.

Estas medidas dividen a la población en partes iguales y sirven para clasificar a un individuo dentro de
una determinada muestra o población (mismo concepto que la mediana)

MEDIANA EN DATOS AGRUPADOS.

Para determinar el valor de la mediana en el caso de tener representada los valores de la variable en
intervalos hay que partir de una hipótesis: “la variable evoluciona de manera continua y uniforme
dentro del propio intervalo”.
La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la
suma de las frecuencias absolutas.

Es decir tenemos que buscar el intervalo en el que se encuentre .

Li es el límite inferior de la clase donde se encuentra la mediana.


N/2 es la semisuma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
La mediana es independiente de las amplitudes de los intervalos.

Ejemplo
Calcular la mediana de una distribución estadística que viene dada por la siguiente tabla:

fi Fi
[60, 63) 5 5
[63, 66) 18 23
[66, 69) 42 65
[69, 72) 27 92
[72, 75) 8 100
100
N/2 = 100/2 = 50
Clase de la mediana: [66, 69)

50 23
Me 66 3 67,93
42

Curso de Bioestadística 10
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

CUARTILES (Q):

Los cuartiles dividen a la muestra en cuatro partes. Q1, Q2 y Q3 determinan los valores
correspondientes al 25%, 50% y 75% de los datos, respectivamente.

Dicho de otra forma es una medida de localización que divide a la población en cuatro partes iguales.
Q1: Valor de la distribución que deja el 75% de los valores por encima.
Q2: Valor de la variable que deja el 50% de los valores de la variable por encima (coincide con la Me).
Q3: Valor de la variable que deja el 25% de los valores de la variable por encima.

Cálculo de los cuartiles para datos no agrupados.

1º Ordenamos los datos de menor a mayor.


k N
2º Buscamos el lugar que ocupa cada cuartil mediante la expresión . , con : k 1,2,3
4
Ejemplo 1.
Número impar de datos: 2, 5, 3, 6, 7, 4, 9

Ejemplo 2.
Número par de datos: 2, 5, 3, 4, 6, 7, 1, 9

Cálculo de los cuartiles para datos agrupados


k N
En primer lugar buscamos la clase donde se encuentra , con : k 1,2,3 , en la tabla de las
4
frecuencias acumuladas. Luego aplicamos la fórmula:
k N
Fi 1
Qk Li 4 ai , con : k 1,2,3
fi
Donde:
Li es el límite inferior de la clase donde se encuentra el cuartil.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase del cuartil.
fi es la frecuencia de la clase del cuartil.
ai es la amplitud de la clase.
Curso de Bioestadística 11
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Ejemplo 3.
Calcular los cuartiles de la distribución de la tabla:

Cálculo del segundo cuartil


Clase fi Fi
[50, 60) 8 8
2N 65
[60, 70) 10 18 32,5
[70, 80) 16 34 4 2
[80, 90) 14 48 32,5 18
[90, 100) 10 58 Q2 70 10 79,0625
[100, 110) 5 63 16
[110, 120) 2 65
Total 65 Cálculo del tercer cuartil

3N 3 65
Cálculo del primer cuartil 48,75
4 4
1N 1 65 48,75 48
16,25 Q3 90 10 90,75
4 4 10
16,25 8
Q1 60 10 68,25
10
DECILES (D)

Medidas de localización que divide a la población en diez partes iguales


dk = Decil k-simo es aquel valor de la variable que deja a su izquierda el k·10 % de la distribución.

Cálculo de los deciles


k N
En primer lugar buscamos la clase donde se encuentra , con : k 1,2,3,...,9 , en la tabla
10
de las frecuencias acumuladas. Luego aplicamos la fórmula:

k N
Fi 1
Dk Li 10 ai , con : k 1,2,3,...,9
fi
Donde:
Li es el límite inferior de la clase donde se encuentra el decil.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase del decil.
fi es la frecuencia de la clase del decil.
ai es la amplitud de la clase.

Curso de Bioestadística 12
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Ejemplo 1.
Calcular los deciles de la distribución de la tabla:
Cálculo del quinto decil
Clase fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63 Cálculo del sexto decil
[110, 120) 2 65
Total 65

Cálculo del primer decil

Cálculo del séptimo decil

Cálculo del segundo decil

Cálculo del octavo decil

Cálculo del tercer decil

Cálculo del noveno decil

Cálculo del cuarto decil

Curso de Bioestadística 13
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

PERCENTILES (P):

Los percentiles dividen a la muestra en cien partes. El percentil de orden K se denota por PK, y es la
observación cuya frecuencia absoluta acumulada alcanza el valor igual al K% de las observaciones.

Dicho de otra forma es una medida de localización que divide a la población en cien partes iguales.
El primer percentil supera al uno por ciento de los valores y es superado por el noventa y nueve por
ciento restantes. Pk = Percentil k-ésimo es aquel valor que deja a su izquierda el K*1% de la
distribución.

Cálculo de los percentiles


k N
En primer lugar buscamos la clase donde se encuentra , con : k 1,2,3,...,99 , en la tabla
100
de las frecuencias acumuladas. Luego aplicamos la fórmula:
k N
Fi 1
Pk Li 100 ai , con : k 1,2,3,...,99
fi
Donde:
Li es el límite inferior de la clase donde se encuentra el percentil.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase del percentil.
fi es la frecuencia de la clase del percentil.
ai es la amplitud de la clase.

Ejemplo 1.
Calcular el percentil 35 y 60 de la distribución de la tabla:
Percentil 35
Clase fi Fi
[50, 60) 8 8 35 N 35 65
[60, 70) 10 18 22,75
[70, 80) 16 34
100 100
[80, 90) 14 48 22,75 18
P35 70 10 72,97
[90, 100) 10 58 16
[100, 110) 5 63
[110, 120) 2 65 Percentil 60
Total 65
60 N 60 65
39
100 100
39 34
P60 80 10 83,57
14

Curso de Bioestadística 14
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

DISTRIBUCIONES BIDIMENSIONALES

La mayoría de los fenómenos que se estudian en cualquier disciplina están determinados por la
observación de distintas variables relativas a dicho fenómeno. Es decir, si queremos estudiar las
características de un producto y compararlo con los de la competencia normalmente se recogerá
información sobre distintos atributos del producto como por ejemplo tamaño, color, precio, unidades
vendidas, etc. Es decir, todas estas características son variables referentes a nuestro producto y por
tanto tendremos distribuciones que no serán unidimensionales. En concreto vamos a analizar las
distribuciones bidimensionales que consiste en el estudio de dos características a la vez en una
muestra.

Los dos caracteres observados no tienen por qué ser de la misma clase, así nos podemos encontrar
con las siguientes situaciones:

Tipos variables ( X, Y ) Ejemplo


Sexo y clase social
Número de hermanos y número de hijos.
Peso y altura
Pulsaciones y temperatura cuerpo

Otro factor a tener en cuenta es que el número de modalidades distintas que adopta el carácter X no
tiene por qué ser el mismo que el que adopta el carácter Y:

TABULACIÓN CRUZADA

En el caso de distribuciones bidimensionales a la hora de organizar los datos y observar la relación


entre dos variables se utilizan las tablas de doble entrada.

Estas tablas tienen la siguiente estructura:

nij : Frecuencia conjunta


Número de veces que aparece el valor Xi
con Yj
ni.: Frecuencia marginal de la variable X
n.j: Frecuencia marginal de la variable y
N: Suma del total de las observaciones
(xi yj nij): Distribución conjunta
(xi ni.): Distribución marginal de X
(yj nj.): Distribución marginal de y

Curso de Bioestadística 15
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

En este tipo de representación también podemos representar las frecuencias relativas. Basta con
dividir las frecuencias conjuntas entre el número total de observaciones:

La suma de las frecuencias absolutas es igual al número de pares observados


(N):

La suma de las frecuencias relativas es igual a la unidad:

Una tabla de doble entrada también se puede expresar como una tabla simple o marginal, de forma
que siempre es posible pasar de una a otra según convenga.

DISTRIBUCIONES MARGINALES

Si en una tabla de doble entrada utilizamos solamente los valores correspondientes a X, sin que para
nada intervengan los valores de la variable y, esta distribución se denomina distribución marginal de
la variable X.

Análogamente cuando tomamos los valores de la variable y sin tener en cuenta los valores de la
variable x estamos ante la distribución marginal de y.

De las frecuencias absolutas marginales se obtienen las frecuencias relativas marginales. Y de igual
forma podemos obtener las medias, varianzas y desviaciones típicas marginales.

Frecuencias absolutas marginales

Curso de Bioestadística 16
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Frecuencias relativas marginales

Medias marginales

Varianzas marginales

Desviaciones típicas marginales

Curso de Bioestadística 17
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

DISTRIBUCIONES CONDICIONADAS

En ocasiones podemos necesitar condicionar los valores de la variable Y a un determinado valor de X


o viceversa. Estas distribuciones así obtenidas se denominan: distribución de la variable Y
condicionada a X=xi o distribución de la variable X condicionada a Y=y j

Dependiendo del tipo de variables con el que estemos construyendo la tabla hablamos de tablas de
contingencia o tablas de correlación:

Curso de Bioestadística 18
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

MEDIDAS DE DISPERSIÓN

La dispersión mide que tan alejados están un conjunto de valores respecto a su media aritmética. Así,
cuanto menos disperso sea el conjunto, más cerca del valor medio se encontrarán sus valores.

Se llaman medidas de dispersión aquellas que permiten retratar la distancia de los valores de la
variable a un cierto valor central, o que permiten identificar la concentración de los datos en un cierto
sector del recorrido de la variable. Se trata de coeficientes para variables cuantitativas.

RANGO

El rango de una distribución es la diferencia entre el valor máximo (M) y el valor mínimo (m) de la
variable estadística. Para su cálculo, basta con ordenar los valores de menor a mayor (de m a M).

Ejemplo 1.

Si se conoce que el valor promedio de días de espera para obtener una licencia de manejo, es de 5
días en la oficina A, y de 7 días en la oficina B, con esta única información no es posible hacer una
elección adecuada. Sin embargo, si se sabe que en la oficina A, el número mínimo de días de espera es
de 3 y el máximo de 15, mientras que en la oficina B, los valores son 3 y 8 días respectivamente, se
podrá tomar una decisión más adecuada para acudir a obtener la licencia, gracias a esta información
adicional.

Características del rango:

1. A medida que el rango es menor, el grado de representatividad de los valores centrales se


incrementa.
2. A medida que el rango es mayor, la distribución está menos concentrada o más dispersa.
3. Su cálculo es extremadamente sencillo.
4. Tiene gran aplicación en procesos de control de calidad.
5. Tiene el inconveniente de que sólo depende de los valores extremos. De esta forma basta que uno
de ellos se separe mucho para que el recorrido se vea sensiblemente afectado.

RANGO INTERCUARTILICO

El rango intercuartílico es la diferencia entre el tercer y primer cuartil de la variable. En ese intervalo
se incluyen, por tanto, el 50% de las observaciones situadas en la zona central de la distribución:

Curso de Bioestadística 19
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

VARIANZA (VAR(x))

La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la media
aritmética. Cuanto mayor sea la varianza mayor dispersión existirá y por tanto, menor
representatividad tendrá la media aritmética. La varianza se expresa en las mismas unidades que la
variable analizada, pero elevadas al cuadrado.

La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar y está dada
por: var( x ) s2x
n
n
xi x
2
xi 2
2
2
Para datos no agrupados: s x i 1
; o de otra forma: var( x ) i 1
x
n n
n
n
xi x
2
fi xi 2 fi
2
2
Para datos agrupados: s x i 1
; o de otra forma: var( x ) i 1
x
n n
Ejemplo 1.
Hallar la desviación estándar y la varianza de la siguiente serie de datos: 10, 18, 15, 12, 3, 6, 5, 7

Solución.

Primero debemos calcular la media de los datos

76
x 9,5
8

Luego debemos calcular su distancia con la media

Por último aplicamos la formula

Var(x)=23,75

Curso de Bioestadística 20
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

DESVIACION ESTÁNDAR (SX)

La desviación estándar o desviación típica se define como la raíz cuadrada de los cuadrados de las
desviaciones de los valores de la variable respecto a su media. Corresponde a la raíz cuadrada de la
varianza, esto es: sx var( x )
n 2
xi x
Para datos no agrupados se expresa como: sx i 1
n
La desviación estándar es una medida estadística de la dispersión de un grupo o población. Una gran
desviación estándar indica que la población está muy dispersa respecto de la media. Una desviación
estándar pequeña indica que la población está muy compacta alrededor de la media.

Para el caso de datos agrupados, la desviación estándar se calcula por medio de:
n 2
xi x fi
sx i 1
n
Ejemplo 1.

Hallar la desviación estándar para la siguiente distribución de frecuencias.

Solución.
Calculando los puntos medios de cada
clase y obteniendo f·x:

La media de x es:

1015,5
x 26,038
39

Y ahora calculando las variaciones:

Aplicando la fórmula obtenemos:

1707,42
s 43,78 6,616
x 39

Curso de Bioestadística 21
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

COEFICIENTE DE VARIACIÓN (CV)

Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las
mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación de Pearson que
se define como el cuociente entre la desviación estándar y el valor absoluto de la media aritmética:

Este coeficiente, representa el porcentaje que la desviación estándar contiene a la media aritmética y
por lo tanto cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media.

Como medidas de dispersión la desviación estándar (o la varianza) muestran su utilidad


especialmente cuando se emplean de manera comparativa.

Conocer el valor de la varianza de una distribución no nos permite decir de manera inmediata si ésta
es más o menos dispersa, ya que su valor depende de la unidad de medida de la variable. Se suele
utilizar una referencia en relación a la cual se realiza la comparación.

El coeficiente de variación facilita la discusión de la importancia de la dispersión de una variable.


Resulta de especial interés en dos circunstancias:

(1) Cuando se quieren comparar distribuciones de variables con diferentes unidades de medida, ya
que la dispersión será igual a un tanto por ciento de la media de la variable, sin importar en que
unidad se mide ésta.

(2) Cuando se comparan distribuciones que, aun teniendo igual unidad de medida, toman valores muy
distintos. Por ejemplo, si se quieren comparar las rentas de dos regiones, una muy rica y otra muy
pobre, podría no ser adecuado comparar directamente las varianzas. La región con renta media alta
tenderá a presentar una varianza más alta, por el hecho de jugar con cifras absolutas mayores que la
región con rentas bajas. Una manera de relativizar este efecto es el empleo del coeficiente de
variación.

Ejemplo 1.
Hallar el coeficiente de variación del ejemplo anterior.

Solución.
6,616
CV 0,254
26,038

Se suele expresar en porcentajes, para su comparacion. Por lo que la muestra tiene un tanto por
ciento de variacion, para el ejemplo:

CV = 25, 4%

Curso de Bioestadística 22
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Ejemplo 2. Para datos agrupados


Método 1: utilizando las fórmulas originales

xi fi xi · fi xi- x (xi- x )2 (xi- x )2 · fi


0 4 0 -1,357 1,841 7,364
1 5 5 -0,357 0,127 0,635
2 2 4 0,643 0,413 0,826
3 2 6 1,643 2,699 5,398
4 1 4 2,643 6,985 6,985
suma 14 19 3,215 12,065 21,208

n n 2
xi fi xi x fi
sx
x i 1
; var( x ) i 1
; sx var( x ) s2x ; CV
n n x

media 1,357
varianza 1,515
desviación 1,231
CV 0,907

Método 2: utilizando fórmulas modificadas

xi fi xi · fi xi2 xi2 ·fi


0 4 0 0 0
1 5 5 1 5
2 2 4 4 8
3 2 6 9 18
4 1 4 16 16
suma 14 19 30 47

n n
xi fi xi2 fi
2 sx
x i 1
; var( x ) i 1
x ; sx var( x ) s2x ; CV
n n x

media 1,357
varianza 1,515
desviación 1,231
CV 0,907

Curso de Bioestadística 23
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Ejemplo 3. Para datos no agrupados


Con los siguientes datos: {9, 23, 25, 28, 32, 47, 50}
Calcularemos las diversas medidas de dispersión:

La desviación estándar será, por tanto:

Y el coeficiente de variación:

Ejemplo 4. Para datos no agrupados

Curso de Bioestadística 24
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

ANÁLISIS DESCRIPTIVO DE DATOS BIVARIADOS.

Hasta ahora se han estudiado los índices y representaciones de una sola variable por individuo. Son
del tipo distribución unidimensional.

Cuando sobre una población se estudian simultáneamente los valores de dos variables estadísticas, el
conjunto de los pares de valores correspondientes a cada individuo se denomina distribución
bidimensional.

DIAGRAMAS DE DISPERSIÓN

La distribución conjunta de dos variables puede expresarse gráficamente mediante un diagrama de


dispersión: en un plano se representa cada elemento observado haciendo que sus coordenadas sobre
los ejes cartesianos sean los valores que toman las dos variables para esa observación.

Ejemplo 1.

La siguiente tabla muestra los datos correspondientes a un conjunto de diez pares de observaciones
de estaturas de padres e hijos:

El diagrama de dispersión de ese grupo de datos es:

Curso de Bioestadística 25
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Se representa la variable dependiente en el eje de las ordenadas y la independiente en el eje de las


abscisas.

Cuando se estudia la relación entre dos variables, una puede considerarse causa y la otra resultado o
efecto de la primera, siendo ésta una decisión teórica. Se conoce como variable exógena, o variable
independiente a la que causa el efecto y variable endógena, o variable dependiente a la que lo recibe.

Por supuesto que diferentes conjuntos de datos ofrecerán diagramas diferentes. Sin embargo, se
pueden considerar cuatros tipos de diagramas de dispersión, que son los más típicos:

1. Relación tal que al aumentar los valores de la variable independiente aumenta (en promedio) el
valor de la variable dependiente. Cuando esto ocurre hay una relación lineal positiva.
2. Relación tal que al aumentar los valores de la variable independiente se reduce (en promedio) el
valor de la variable dependiente. Cuando esto ocurre hay una relación lineal negativa.
3. No hay relación entre ambas variables. Esto significa que las variables son independientes.
4. Relación entre ambas, pero no lineal.

COVARIANZA (COV(x,y))

La covarianza es una medida de la asociación lineal entre dos variables que resume la información
existente en un gráfico de dispersión. Es un indicador de si los valores están relacionados entre sí, se
simboliza por COV(x,y) se calcula por medio de:

n n
xi x yi y xi yi
xy
i 1
; O por la expresión: cov( x , y ) i 1
x y
n n

Características de la covarianza:

 Esta medida, refleja la relación lineal que existe entre dos variables.
 El resultado numérico fluctúa entre los rangos de .
 Al no tener unos límites establecidos no puede determinarse el grado de relación lineal que existe
entre las dos variables, sólo es posible ver la tendencia.
 Una covarianza positiva significa que existe una relación lineal positiva entre las dos variables. Es
decir, los valores bajos de la variable x se asocian con los valores bajos de la variable y , mientras
los valores altos de x se asocian con los valores altos de la variable y .
 Una covarianza de negativa significa que existe una relación lineal inversa (negativa) entre las dos
variables. Lo que significa que los valores bajos en x se asocian con los valores altos en y , mientras
los valores altos en x se asocian con los valores bajos en y .
 Una covarianza de cero se interpreta como la no existencia de una relación lineal entre las dos
variables estudiadas.

Curso de Bioestadística 26
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Ejemplo 1.

Dada la tabla de estaturas de 10 padres y 10 hijos, calcular su covarianza e interpretarla.

Solución.

La estatura media para los padres es:

La estatura media para los hijos es:

Por lo tanto:

Por último aplicando la formula tenemos:

Como la covarianza es positiva significa que existe una relación lineal positiva entre las dos variables.
Es decir, a valores grandes de x (estaturas de los padres) se asocian valores altos de y (estaturas de los
hijos).

Curso de Bioestadística 27
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

CORRELACIÓN (r)

Es frecuente que se estudie sobre una misma población los valores de dos variables estadísticas
distintas, con el fin de ver si existe alguna relación entre ellas, es decir, si los cambios en una de ellas
influyen en los valores de la otra. Si ocurre esto se dice que las variables están correlacionadas o bien
que hay correlación entre ellas.

Ejemplo 1.

Las calificaciones de 10 alumnos en Matemáticas y Física vienen dadas en la siguiente tabla:

Los pares de valores { (2,2), (4,2), (5,5) …. , (8,7), (9,10) }, forman la distribución bidimensional en la
que hay cierta tendencia a que cuanto mejor es la calificación en Matemáticas, mejor es la de Física.

Representando los pares de valores en el plano cartesiano se obtiene su diagrama de dispersión:

Cuando se puede apreciar si los puntos se


distribuyen alrededor de una recta entonces se
dice que hay correlación lineal.

Una correlación lineal fuerte es cuando la nube


(conjunto de puntos) se parece mucho a una
recta y será cada vez más débil (o menos fuerte)
cuando la nube vaya diseminándose con
respecto a la recta.

En el ejemplo se aprecia que la correlación es


bastante fuerte, ya que si se traza una recta, ésta
se ubica muy próxima a los puntos de la nube.

La correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se
considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas
varían sistemáticamente con respecto a los valores homónimos de la otra: si se tienen dos variables
(x,y) existe correlación si al aumentar los valores de x lo hacen también los de y, y viceversa. La
correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad

La relación entre dos variables cuantitativas queda representada mediante la línea de mejor ajuste,
trazada a partir de la nube de puntos. Los tres principales componentes elementales de una línea de
ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:

Curso de Bioestadística 28
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

1. La fuerza mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y
alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de
puntos tiene una tendencia elíptica o circular, la relación es débil.

2. El sentido mide la variación de los valores de y con respecto a x : si al crecer los valores de x lo
hacen los de y , la relación es positiva; si al crecer los valores de x disminuyen los de y , la relación
es negativa.

3. La forma establece el tipo de línea que define el mejor ajuste: la línea recta, cuadrática,
polinomial, etc.

La apreciación visual de la existencia de correlación no es suficiente. Así que se define como


coeficiente de correlación de Pearson al índice estadístico que mide la relación lineal entre dos
variables cuantitativas. Se denota por r y se puede expresar como:

n
xi yi
i 1
x y
cov( x , y ) n
r
sx s y n
2
n
2
; o por:
xi yi
2 2
i 1
x i 1
y
n n

Este coeficiente de correlación lineal divide la covarianza por el producto de las desviaciones estándar
de ambas variables. A diferencia de la covarianza, el coeficiente de correlación de Pearson es
independiente de la escala de medida de las variables.

El valor del índice de correlación varía en el intervalo [-1, 1].

Se interpreta de la siguiente forma:

 Si r = 0, no existe ninguna correlación. El índice indica, por lo tanto, una independencia total
entre las dos variables, es decir, que la variación de una de ellas no influye en absoluto en el
valor que pueda tomar la otra.

 Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre
las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también
lo hace en idéntica proporción. Si 0 < r < 1, existe una correlación positiva.

 Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre
las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en
idéntica proporción. Si -1 < r < 0, existe una correlación negativa.

Curso de Bioestadística 29
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Gráficamente es:

EL COEFICIENTE DE DETERMINACIÓN (R2)

Según hemos visto, el coeficiente de correlación lineal puede interpretarse como una medida de la
bondad del ajuste del modelo lineal, concretamente, un valor del coeficiente igual a 1 o -1 indica
dependencia lineal exacta, en cuyo caso el ajuste es perfecto. No obstante, para cuantificar la bondad
del ajuste de un modelo, lineal o no, se utiliza una medida que se denomina coeficiente de
determinación R2, que es la proporción de variabilidad de la variable Y que queda explicada por el
modelo, cuya expresión en el modelo de regresión lineal coincide con el cuadrado del coeficiente de
correlación lineal de Pearson:

El coeficiente de determinación toma valores entre 0 y 1, y cuanto más se aproxime a 1 mejor será el
ajuste y por lo tanto mayor la fiabilidad de las predicciones que con él realicemos.

Curso de Bioestadística 30
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

REGRESIÓN LINEAL POR COVARIANZA

En múltiples ocasiones se requiere analizar la relación entre dos variables cuantitativas. Los dos
objetivos fundamentales de este análisis son:

1. Determinar si dichas variables están asociadas y en qué sentido se da dicha asociación (es decir, si
los valores de una de las variables tienden a aumentar o disminuir al aumentar los valores de la otra).
2. Estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra.

La forma correcta de abordar el primer problema es recurriendo a coeficientes de correlación. Sin


embargo, el estudio de la correlación es insuficiente para obtener una respuesta a la segunda
pregunta, ya que se limita a indicar la fuerza de la asociación mediante un único número, tratando las
variables de modo simétrico, mientras que lo que se busca es modelar dicha relación y usar una de las
variables para explicar la otra. Para tal propósito se recurrirá a la técnica de regresión.

La regresión lineal permite definir la recta que mejor se


ajusta a esta nube de puntos. Gráficamente:

La recta está definida por la siguiente expresión donde y es


la variable dependiente y x es la variable independiente:

Sus coeficientes representan:

 b determina la pendiente de la recta, es decir, su grado de inclinación. Se calcula como la


covarianza de las dos variables, dividida por la varianza de la variable x :

cov( x , y )
b ; o por la expresión:
var( x )

 a es el valor que toma y cuando la variable independiente x vale cero. Es el punto donde la recta
cruza el eje vertical, llamado ordenada al origen de la recta. Se calcula como la media de la
variable y , menos la media de la variable x multiplicada por el parámetro b que se ha calculado:

Curso de Bioestadística 31
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Ejemplo 1.
Obtener la correlación y graficar la recta de regresión que existe entre la estatura y el peso de 10
jugadores de un equipo fútbol americano de la UNAM.

Solución. UTILIZANDO METODO LARGO


Considerando que la estatura es la variable x, y que el peso es la variable y se tiene:

La estatura media es:

El peso medio es:

Calculando la desviación estándar de las estaturas:

Calculando la desviación estándar de los pesos:

Curso de Bioestadística 32
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Calculando la covarianza:

Por lo tanto el coeficiente de correlación entre las dos variables es:

Ahora podemos encontrar el modelo de regresión lineal para los datos:

Por lo que la recta de regresión lineal es:

Su gráfica es:

Nótese como la gráfica es


congruente con el coeficiente de
correlación r = 0.8203.

Muestra una pendiente positiva y se


ajusta a una recta lo que ratifica
que a mayor estatura de los
jugadores, mayor es su peso.

Curso de Bioestadística 33
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

UTILIZANDO METODO CORTO


Lo anterior se puede resolver utilizando la siguiente tabla obteniendo todos los parámetros.

JUGADORES EQUIPO DE FUTBOL AMERICANO UNAM


2 2
i xi yi xi yi xi·yi
1 1,72 74 2,96 5476 127,28
2 1,79 81 3,20 6561 144,99
3 1,78 76 3,17 5776 135,28
4 1,75 77 3,06 5929 134,75
5 1,80 87 3,24 7569 156,6
6 1,79 86 3,20 7396 153,94
7 1,81 92 3,28 8464 166,52
8 1,70 67 2,89 4489 113,9
9 1,68 76 2,82 5776 127,68
10 1,73 74 2,99 5476 128,02
suma 17,55 790 30,82 62912 1388,96

Estatura (m) xi Peso (Kg) yi


media 1,755 media 79
varianza 0,002 varianza 50,2
desviación 0,043 desviación 7,085
CV 0,025 CV 0,09

covarianza 0,251 b 134,58


correlación 0,82 a -157,2
determinación 0,673

Utilizando las formulas

n n
xi xi2 sx
2 sx var( x ) s2x C .V ( x )
x i 1
var( x ) i 1
x x
n n
n n
yi yi2 sy
2 sy var( y ) s2y C .V ( y )
y i 1
var( y ) i 1
y y
n n
n
xi yi cov( x , y )
r R2 r2
cov( x , y ) i 1
x y sx s y
n
cov( x , y )
b a y b x Modelo regresión lineal : y a b x
var( x )

Curso de Bioestadística 34
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

Ejemplo 2.

Tengamos las siguientes puntuaciones en las variables X (inteligencia) e Y (rendimiento académico),


Calcular el coeficiente de correlación de Pearson:

Antes de calcular el coeficiente de correlación de Pearson hemos de comprobar si existe una


tendencia lineal en la relación, recurriremos a procedimientos gráficos, que en una primera instancia,
pueden resultar suficientes:

Se observa la existencia de una cierta tendencia lineal en la relación. Podemos, en consecuencia,


proceder a calcular el coeficiente de correlación de Pearson.

Configuremos la siguiente tabla:

INTELIGENCIA VS RENDIMIENTO
2 2
i xi yi xi yi xi·yi
1 105 4 11025 16 420
2 116 8 13456 64 928
3 103 2 10609 4 206
4 124 7 15376 49 868
5 137 9 18769 81 1233
6 126 9 15876 81 1134
7 112 3 12544 9 336
8 129 10 16641 100 1290
9 118 7 13924 49 826
10 105 6 11025 36 630
suma 1175 65 139245 489 7871

Curso de Bioestadística 35
Universidad La República Escuela de Enfermería y Salud Pública Arturo Valenzuela E

De donde:

b =0,197

a = -16,702

Y= - 16,702 + 0,197·X

Inteligencia xi Rendimiento yi
media 117,5 media 6,5
varianza 118,25 varianza 6,65
desviación 10,874 desviación 2,579
CV 0,093 CV 0,397

covarianza 23,35 b 0,197


correlación 0,833 a -16,701
determinación 0,693

Curso de Bioestadística 36

S-ar putea să vă placă și