Sunteți pe pagina 1din 10

Estadstica Aplicada 2009

Introducci
on
La estadstica proporciona una herramienta indispensable para el manejo e interpretacion de
bases de datos en general. Sus aplicaciones pueden apreciarse en cualquier rama del quehacer
humano, desde las ciencias llamadas exactas a las sociales.
Esta rama de la matem
atica surge como necesidad de contar los bienes del estado (de ah su
nombre). Actualmente, vemos la estadstica aplicada en encuestas de opinion, control de calidad,
investigaci
on operativa, bioestadstica, investigaci
on de mercado, etc.
La estadstica inferencial por otra parte, brinda al tecnico herramientas confiables para la toma
de decisiones en escenarios inciertos. A partir de las tecnicas inferenciales es posible tomar decisiones racionales sobre situaciones futuras bas
andose en datos muestrales.
Pretendemos que en esta materia se puedan adquirir los conocimientos necesarios para lograr
una buena interpretaci
on de la literatura medica, que publican los diferentes laboratorios y dar
los primeros pasos en el uso y manejos de datos numericos y gr
aficos.

1.
1.1.

Algunos conceptos b
asicos
Introducci
on hist
orica

La palabra estadstica se origina, en las tecnicas de recoleccion, organizacion, conservaci


on,
y tratamiento de los datos propios de un estado, con que los antiguos gobernantes controlaban
a sus s
ubditos y dominios econ
omicos. Estas tecnicas evolucionaron a la par del desarrollo de
las matem
aticas, utilizando sus herramientas en el proceso del an
alisis e interpretacion de la
informaci
on.
Para mediados del siglo xvii en Europa, los juegos de azar eran frecuentes, aunque sin ma re
quien era un empedernido jugador
yores restricciones legales. El Caballero frances De Me
consult
o al famoso matem
atico y fil
osofo Blaise Pascal (16231662) para que le ayudara a
ganar en un juego de dados, quien, interesado en el tema, sostuvo una correspondencia epistolar
con el tmido Pierre de Fermat (16011665), abogado aficionado a las matem
aticas, dando
origen a la teora de la probabilidad, la cual ha venido desarrollando y constituyendose en la
base primordial de la estadstica.
En nuestros das, son de uso cotidiano las diferentes tecnicas estadsticas que partiendo de
observaciones muestrales o hist
oricas, crean modelos l
ogico-matem
aticos que pronostican un
determinado fen
omeno con cierto grado de certidumbre medible.
El avance tecnol
ogico en la informatica ha contribuido enormemente al desarrollo de la estadstica, sobre todo en la manipulaci
on de la informaci
on, pues en el mercado existen paquetes
estadsticos de excelente calidad, como SAS, SPSS, SCA, STATGRAPHICS, . . . , permitiendo
el manejo de grandes vol
umenes de informaci
on y de variables.
La estadstica hace inferencias sobre una poblacion, partiendo de una muestra representativa de ella. Es a partir del proceso del dise
no y toma de la muestra desde donde comienzan a
definirse las bondades y confiabilidad de nuestras aseveraciones, hechas, preferentemente, con el
menor costo posible pero sin sacrificar la confiabilidad en las conclusiones.

Estadstica Aplicada 2009

En las u
ltimas decadas la estadstica ha alcanzado un alto grado de desarrollo, hasta el
punto de incursionar en la totalidad de las ciencias; incluso en la ling
ustica se aplican tecnicas
estadsticas para esclarecer la paternidad de un escrito o los caracteres m
as relevantes de un
idioma.

1.2.

Primeras definiciones

Cuando coloquialmente se habla de estadstica, se suele pensar en una relaci


on de datos
numericos presentada de forma ordenada y sistem
atica. Esta idea es la consecuencia del concepto popular que existe sobre el termino y que cada vez est
a m
as extendido debido a la influencia
de nuestro entorno, ya que hoy da es casi imposible que cualquier medio de difusi
on, periodico,
radio, televisi
on, etc, no nos aborde diariamente con cualquier tipo de informaci
on estadstica
sobre accidentes de trafico, ndices de crecimiento de poblacion, turismo, tendencias polticas, etc.
Solo cuando nos adentramos en un mundo m
as especfico como es el campo de la investigaci
on de las Ciencias Sociales: Medicina, Biologa, Psicologa, . . .
empezamos a percibir que la Estadstica no s
olo es algo m
as, sino que se convierte en la u
nica
herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en
cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrnseca, no
puedan ser abordadas desde la perspectiva de las leyes determistas. Podramos, desde un punto
de vista m
as amplio, definir la estadstica como la ciencia que estudia c
omo debe emplearse la
informaci
on y c
omo dar una gua de accion en situaciones practicas que entra
nan incertidumbre.
Estadstica
La Estadstica es la ciencia que se ocupa de los metodos y procedimientos para recolectar, clasificar y resumir datos, as como de realizar inferencias a partir de ellos, y extraer
conclusiones, con la finalidad de ayudar a la toma de decisiones.
De esta definicion se desprenden dos grandes ramas. Una de ellas es la encargada de la resumen y clasificaci
on de datos y la otra de derivar conclusiones a partir de ellos. La primera se
conoce como Estadstica descriptiva, y podramos definirla de la siguiente manera.
Estadstica Descriptiva
Es la rama de la Estadstica que se encarga de la recoleccion, clasificaci
on y descripcion
de datos, para su interpretaci
on y posterior an
alisis utilizando metodos numericos y gr
aficos.
La segunda rama fundamental de la estadstica es la llamada Estadstica inferencial.
Estadstica Inferencial
Es la rama de la Estadstica que apoy
andose en el c
alculo de probabilidades y a partir de datos muestrales, permite extraer conclusiones poblacionales con un cierto grado de
confianza.
Estas dos ramas no son independientes; por el contrario, son complementarias y entre las dos
permitir
an predecir una posible realidad futura, con el fin de que quien tenga poder de decisi
on,
pueda decidir con cierto grado de certidumbre.
La estadstica inferencial permite a partir de muestras extraer conclusiones sobre toda la
poblacion. Las palabras muestra y poblacion, son muy importantes en estadstica y conviene
2

Estadstica Aplicada 2009

precisar un poco esos conceptos.


Otro concepto muy importante dentro de la Estadstica lo constituyen las llamadas variables estadsticas. En este curso utilizaremos un concepto menos general que el propuesto por la
teora. Concretamente, tenemos la siguiente definicion.
Variable estadstica
Una variable estadstica es un atributo o caracterstica que puede variar de un individuo
bajo estudio a otro.
Las variables ser
an clasificadas en cualitativas o cuantitativas; y dentro de las cuantitativas
en discretas o continuas, atendiendo a las siguientes definiciones.
Variable cualitativa
Una variable cualitativa es aquella que hace referencia a un atributo o cualidad cuyo
registro no es numerico; o de serlo, no tiene sentido comparativo sino distintivo.
Son ejemplos de variables cualitativas la compa
na de celular suscripta, el sexo de un bebe o
la enfermedad de una persona.
Variable cuantitativa
Una variable cuantitativa es aquella que hace referencia a un atributo o cualidad cuyo
registro es numerico. Si adem
as los diferentes valores de la variable se obtienen por un proceso
de medici
on se dir
a continua, y si se obtienen por un proceso de conteo se dir
a discreta.
Son ejemplos de variables cuantitativas el gasto en comida (continua), el promedio de edad
en una ciudad de m
as de 150000 habitantes (continua), la cantidad de alumnas mujeres en una
escuela p
ublica (discreta).
Los individuos bajo estudio conforman lo que entenderemos por poblacion. Damos a continuaci
on una definicion.
Poblaci
on
Entenderemos por poblacion la mayor colecci
on de elementos por los cuales se tiene cierto
interes en un instante particular, teniendo en cuenta una o varias variables estadsticas.
Una muestra, se obtiene a partir de una poblacion y debe cumplir algunos requisitos fundamentales. B
asicamente una muestra debe ser representativa de la poblacion bajo estudio. La
forma de extraer muestras es un tema muy delicado dentro de la estadstica; en principio debe
intervenir el azar en alg
un momento del muestreo, pero deben tenerse en cuenta varias caractersticas propias del problema y la poblacion bajo estudio.
Muestra
Una muestra es un subconjunto de la poblacion que conserva las caractersticas y particularidades determinadas por las variables estadsticas bajo estudio.
La elecci
on de una muestra por parte del investigador es casi una obligaci
on. Existen muchas
razones por las que no es conveniente o imposible trabajar con poblaciones y es necesario hacerlo
con muestras. Enunciamos a continuaci
on algunos impedimentos:
1. La poblaci
on bajo estudio es inabarcable. Podra ocurrir que la poblacion que forme parte
de nuestro estudio sea tan grande que por cuestiones econ
omicas o de tiempo sea imposible
3

Estadstica Aplicada 2009

encuestar o entrevistar a todos los individuos que la componen.


2. La obtenci
on de datos es costosa. Este es el caso en que el factor econ
omico condiciona la
cantidad de datos que podemos obtener.
3. La destrucci
on del objeto bajo estudio. Este es el caso que se presenta cuando a cada
individuo de la poblacion que encuestamos lo destruimos en el proceso de la encuesta.
Por ejemplo, para determinar el nivel de droga que contiene un medicamento se somete a
la gragea a algunos procesos qumicos que la vuelven toxica. En este caso, el laboratorio
no puede tomar toda la poblacion para controlar la calidad de su medicamento, porque
perdera la producci
on completamente.

1.3.

Ejercicios

1. Clasificar las siguientes variables estadsticas en cualitativas o cuantitativas. En el caso de


ser cuantitativas, indicar si la variable es discreta o continua.
a) N
umero de das completos de internaci
on.
b) Grupo sanguneo.
c) Cantidad de hijos por familia.
d ) Estaci
on del a
no en que se manifiesta determinada enfermedad.
e) Concentraci
on de calcio.
f ) Edad al ingresar a la universidad.
g) A
nos de educaci
on completados.
h) Color de ojos.
i ) Profesiones de una comunidad universitaria.
j ) Respuesta a un cuestionario de actitudes, cuyas posibilidades son: en desacuerdo, de
acuerdo, muy de acuerdo.
k ) Tiempo que se tarda en terminar una tarea.
l ) Puntaje en un test de lectura.
m) Peso de los chanchitos al comenzar un experimento con vitamina B.
n) Cantidad de arrestos que ha cometido un delincuente.
n
) Proporci
on de protenas en la alimentaci
on de una persona.
o) Religion de una persona.
p) Presi
on arterial de una persona de 60 a
nos.
q) Cantidad de acciones vendidas en un da deteminado en la BCR.
r ) Temperaturas de Rosario seg
un el registrio anual del SMN.
s) Escala de sueldos nominales del personal de una Facultad de la UNR.
t) Serie de n
umeros de una ruleta.
u) N
umero de personas que se atienden en un periodo de 5 minutos en la ventanilla de
un banco.
v ) Cantidad de llamadas que se reciben por hora en un central de emergencia.

Estadstica Aplicada 2009

w ) N
umero de autos que llegan a una estacion de servicios en un periodo de una hora
para cargar combustible.
x ) Cantidad de combustible en litros que carga un auto.
y) Distancia recorrida por un auto con un litro de nafta.

Estadstica Aplicada 2009

2.

Tablas de distribuci
on de frecuencias

2.1.

Tablas de distribuci
on de frecuencias para datos simples

La primera tarea que normalmente se realiza una vez que se han recolectado datos es poder
organizarlos en tablas. Esto nos permitir
a tener una visi
on global pero todava primitiva de los
datos recolectados. De todas maneras, en general son de gran utilidad porque se pueden extraer
algunas conclusiones y descripciones primarias. Veremos a continuaci
on una tabla particular,
llamada tabla de distribuci
on de frecuencias.
Tabla de distribuci
on de frecuencias
Es una tabla que basicamente presenta dos columnas: en la primera se consigna el nombre
de la variable y los diferentes valores obtenidos en la recoleccion de datos, y en la segunda
columna se indica la cantidad de veces que cada valor de la variable ha aparecido en los
datos recolectados.
Ejemplo 1
Se encuestaron a quince ingresantes a la carrera de Agente de Propaganda Medica y entre
las preguntas se obtuvo que las edades de los encuestados fueron
18
20
20

17
20
18

18
18
17

19
19
17

21
22
22

Tenemos entonces, que la tabla de distribuci


on de frecuencias es en este caso
Edad
17
18
19
20
21
22
Total

fa
3
4
2
3
1
2
15

En realidad, las tablas de distribuci


on de frecuencias que confeccionaremos en este curso
contendr
an cuatro columnas (ademas de la correspondiente a los valores de la variable), que
llamaremos: frecuencia absoluta, frecuencia relativa porcentual, frecuencia absoluta acumulada
y frecuencia relativa acumuada porcentual. Veamos de que se trata cada una de ellas.
Definiciones
Frecuencia absoluta (fa ) La frecuencia absoluta, que simbolizaremos fa indica el n
umero
de veces que se repite un determinado valor de la variable.
Frecuencia relativa porcentual (fr %) La frecuencia relativa porcentual, que simbolizaremos fa % indica el porcentaje que representa del total la frecuencia absoluta de cada
valor de la variable.
Frecuencia absoluta acumulada (Fa ) La frecuencia absoluta acumulada, que simbolizaremos Fa se obtiene acumulado los valores de la frecuencia absoluta.
6

Estadstica Aplicada 2009

Frecuencia relativa porcentual acumulada (Fr %) La frecuencia relativa porcentual acumulada, que simbolizaremos Fr % se obtiene acumulado los valores de la frecuencia
relativa porcentual.
Veamos ahora un ejemplo.
Ejemplo 2
Para los datos del ejemplo 1 tenemos
Edad
17
18
19
20
21
22
Total

fa
3
4
2
3
1
2
15

fr %
20.0
27.0
13.0
20.0
7.0
13.0
100.0

Fa
3
7
9
12
13
15

Fr %
20.0
47.0
60.0
80.0
87.0
100.0

Veamos ahora c
omo interpretar los resultados obtenidos
Ejemplo 3
Siguiendo con el ejemplo de las edades, interpretaremos la tercer lnea:
Dos estudiantes tienen 19 a
nos, lo que representa un 13.0 % del total de estudiantes
encuestados.
Nueve estudiantes tienen 19 a
nos como m
aximo, lo que representa un 60.0 % del total
de estudiantes encuestados.

2.2.

Tabla de distribuci
on de frecuencias para datos agrupados

Ocurre generalmente que los datos est


an atomizados y una tabla como las de la secci
on
anterior no sirve para poder ordenar los datos eficientemente. Interesa entonces, poder conocer
alg
un criterio que permita tabular los datos con la menor perdida de precisi
on posible.
La idea es agrupar los datos muestrales en lo que llamaremos intervalos de clase. Estos intervalos ser
an contiguos y no tendr
an intersecci
on, de modo tal que cada valor en el conjunto de
observaciones estar
a incluido en uno y s
olo uno de los intervalos.
La pregunta que intersa ahora es cu
antos. Es decir, cu
antos intervalos de clase debo hacer
para una muestra particular? Muy pocos no es conveniente porque pierdo informaci
on, tampoco
conviene demasiados porque la informaci
on quedara tan dispersa que tampoco sera u
til. El
n
umero de intervalos y su amplitud de los intervalos los fija el investigador de acuerdo con el
conocimiento que posea de la poblacion, la necesidad de hacer comparaci
on con otras investigaciones y la presentaci
on de la informaci
on. En terminos generales, es usual que el n
umero
de intervalos no sea inferior a 5 ni superior a 15. Existe una gran cantidad de reglas empricas
para determinar el n
umero de intervalos a utilizar. Nosotros utilizaremos intervalos que tengan
siempre la misma amplitud, aunque existen estudios en donde este no es el caso. En cuanto a
la cantidad de intervalos, son conocidas varias reglas. Una fue proporcionada por Sturges1 . La
1

H. A. Sturges (1926): The Choise of a Class Interval. Journal of the American Statistical Association.

Estadstica Aplicada 2009

regla sugiere que la cantidad de intervalos de clase sea aproximadamente


k = 1 + 3,322 log10 n,
donde n es el tama
no de la muestra y k la cantidad de intervalos. Otra regla menos precisa pero
que ser
a la que utilizaremos en este curso consiste en aproximar la cantidad de intervalos seg
un
la formula

k = n,
donde n es el tama
no de la muestra y k la cantidad de intervalos.
Una vez que se decidio sobre la cantidad de intervalos debemos construir la tabla de distribuci
on de frecuencias Cuando no se tiene experiencia en el manejo de la informaci
on es
aconsejable seguir los pasos que se dan a continuaci
on:
1. Determinar los datos de mayor y menor valor X(n) y X(1) .
2. Calcular el numero R = X(n) X(1) . Notar que este n
umero es siempre no negativo. M
as
adelante la daremos el nombre de rango y estudiaremos algunas propiedades.
3. Determinar el n
umero de intervalos k seg
un las reglas vistas.
4. La amplitud de clase A, de cada intervalo ser
a A = R/k. Debe tenerse presente que k es
un n
umero natural.
Veamos un primer ejemplo en donde seguimos fielmente las reglas anteriores.
Ejemplo 4
Una droguera lleva registros de los kilos de acido fosforico H3 P O4 vendidos por da durante
45 das
104,8
104,8
107,2
104,0
103,0

101,7
102,9
105,9
102,2
102,0

100,6
103,4
104,5
101,3
103,0

104,8
105,5
102,0
103,5
100,8

102,7
101,1
101,0
104,7
105,0

103,1
105,5
104,5
103,0
102,0

105,2
102,2
101,1
102,0
104,2

103,4
101,9
104,4
103,0
103,0

106,5
106,3
106,0
104,0
102,0

Si quisieramos utilizar una tabla de distrubici


on de frecuencias sin agrupar datos, necesitaramos casi 40 lneas, la mayora de ellas con frecuencia unitaria. Se hace necesario entonces
agrupar los datos en intervalos o clases que hagan m
as compacta, manejable y presentable
la informaci
on.
En este caso es n = 45 y entonces resulta, seg
un la regla de la raz cuadrada

k 45 6,71,
mientras que la regla de Sturges resulta
k 1 + 3,322 log10 15 6,49.
Nos parece apropiado elegir 8 intervalos de clase. Recordar que las reglas anteriores s
olo nos
proveen de una gua para la elecci
on de la cantidad de intervalos. No estamos redondeando!
8

Estadstica Aplicada 2009

Es entonces k = 8.
Por otra parte, X(n) = 107,2 y X(1) = 100,8, luego R = 107,2 100,8 = 6,4.
Finalmente, la amplitud de clase A es A = 6,4/8 = 0,8. La tabla resulta entonces
H2 P O4 (en kg)
[100,8 101,6)
[101,6 102,4)
[102,4 103,2)
[103,2 104,0)
[104,0 104,8)
[104,8 105,6)
[105,6 106,4)
[106,4 107,2]
Total

fa
7
8
8
3
7
7
3
2
45

fr %
16.0
18.0
18.0
7.0
16.0
16.0
7.0
6.0
100.0

Fa
7
15
23
26
33
40
43
45

Fr %
16.0
34.0
52.0
55.0
71.0
87.0
94.0
100.0

Como es usual en la notaci


on por intervalos, [0, 1) debe interpretarse que 0 pertenece al
conjunto mientras que 1 no.
Veamos ahora un ejemplo en donde no seguimos al pie de la letra las recomendaciones anteriores, pero igualmente podemos construir correctamente la tabla de distribuci
on de frecuencias.
Ejemplo 5
Los siguientes datos corresponden a quince mediciones reiteradas del contenido de plomo (en
ppm de Pb) en una muestra de sangre.
0.752
0.753
0.754

0.756
0.758
0.751

0.752
0.752
0.753

0.751
0.755
0.756

0.760
0.753
0.754

En este caso es n = 15 y entonces resulta, seg


un la regla de la raz cuadrada

k 15 3,87,
mientras que la regla de Sturges resulta
k 1 + 3,322 log10 15 4,90.
Nos parece aproxiado elegir 4 intervalos de clase. Es entonces k = 4.
Por otra parte, X(n) = 0,760 y X(1) = 0,751, luego R = 0,760 0,751 = 0,009.
Finalmente, la amplitud de clase A es A = 0,009/4 = 0,00225. Esta amplitud no es real,
porque no tenemos un instrumento de medici
on que pueda tener una precisi
on de 105 .
Luego, construimos la tabla de la siguiente manera.
Contenido de Pb (en ppm)
0.750 0.752
0.753 0.755
0.756 0.758
0.759 0.761
Total

fa
5
6
3
1
15

fr %
33.0
40.0
20.0
7.0
100.0

Fa
5
11
14
15

Fr %
33.0
73.0
93.0
100.0

Estadstica Aplicada 2009

De estos dos ejemplos, interesa que quede la idea de que no existen reglas fijas para la
construcci
on de las tablas de distribuci
on de frecuencias, sino sugerencias que hasta cierto punto
deben ser tenidas en cuenta. La ejercitaci
on permitir
a desarrollar un criterio razonable para la
construcci
on de tablas.

2.3.

Ejercicios

1. Los siguientes datos corresponden a los pesos en gramos de 30 comprimidos elegidos al


azar de entre la producci
on diaria de un laboratorio. Los datos fueron obtenidos por el
departamento de control de calidad del laboratorio.
1.78
1.75
1.68

1.64
1.63
1.69

1.86
1.50
1.65

1.73
1.64
1.72

1.55
1.94
1.72

1.66
1.56
1.65

1.82
1.76
1.70

1.77
1.68
1.68

1.67
1.63
1.67

1.69
1.79
1.75

Realizar una tabla de distribuci


on de frecuencias e interpreta los resultados.
2. Los siguientes datos son los niveles de glucosa en la sagre extrada a 50 ni
nos en ayunas.
56
60
65
73
66

61
57
72
74
61

57
61
65
68
69

77
57
71
59
76

62
67
68
59
72

75
62
73
69
57

63
69
65
55
75

55
67
62
67
68

64
68
75
68
73

60
65
67
73
65

Realizar una tabla de distribuci


on de frecuencias e interpreta los resultados.
3. En el siguiente conjunto de datos, se proporcionan los pesos (redondeados a libras) de
ni
nos nacidos en cierto intervalo de tiempo:
4
10
7
5

8
8
6
10

4
5
8
8

6
9
8
9

8
6
9
7

6
3
11
5

7
7
8
6

7
6
7
5

7
4
10
6

8
7
8
4

10
6
5
7

9
9
7
6

7
7
7
4

6
4
6
6

a) Clasificar la variable en estudio.


b) Construir una tabla de distribuci
on de frecuencias de estos pesos.
4. Completar la siguiente tabla de distribuci
on de frecuencias correspondiente a la edad de
los habitantes de una comunidad en el interior de la provincia de Santa Fe registrada en
Enero de 2009, sabiendo que el rango de edades es de 40 a
nos.
Edades
[10; 20)
[20; 30)
[30; 40)
[40; 50]
TOTAL

fa
5

fr %

Fa

Fr %

20
90
50

a) Que porcentaje de personas tiene como m


aximo 40 a
nos?
b) Que cantidad de personas tiene m
as de 20 a
nos?
c) Que porcentaje de personas tiene m
as de 20 a
nos pero menos de 40 a
nos?

10

S-ar putea să vă placă și