Documente Academic
Documente Profesional
Documente Cultură
PROBABILIDAD Y ESTADSTICA
UNIDAD 1: ESTADSTICA DESCRIPTIVA
Autores:
Lic. Andrea lvarez
Lic Luis Alberto Garaventa
Mg. Mara Cristina Kanobel
Ao 2014
Como toda disciplina cientfica la Estadstica tiene un lenguaje que le es propio. En el texto que
sigue encontrarn los conceptos bsicos de estadstica que necesitan para afrontar el estudio
de la materia.
Esperamos que al finalizar la lectura del siguiente texto puedan diferenciar los conceptos
poblacin de muestra, variable cualitativa de variable cuantitativa y censo de muestreo
QU ES LA ESTADSTICA?
La Estadstica es una ciencia que se ocupa de recolectar, organizar, y analizar
informacin sobre un grupo de datos de forma tal que podamos obtener
conclusiones vlidas sobre ellos.
Podemos clasificar la Estadstica en dos ramas:
POBLACIN y MUESTRA
Uno de los objetivos de la investigacin estadstica es explorar las caractersticas
de una poblacin de utilizando slo unas pocas observaciones. Por ejemplo: frente
a una eleccin, si queremos pronosticar sus resultados, encuestamos a un grupo
reducido de votantes (ya que encuestar a todos sera un proceso engorroso y muy caro). Es
decir que, mediante el grupo que encuestamos estamos analizando el comportamiento de
todos los votantes en las urnas.
Se denomina POBLACIN al conjunto de elementos de un grupo en estudio
Una poblacin puede ser finita o infinita. Si podemos listar a los miembros de una poblacin,
entonces la poblacin es finita. En caso contrario decimos que es infinita.
Una MUESTRA es el conjunto de elementos que componen una parte
representativa de la poblacin de estudio
Los trminos poblacin y muestra son relativos. Por ejemplo, todos los habitantes de
Crdoba constituyen una poblacin respecto de Crdoba. En cambio, son una muestra cuando
la poblacin en estudio son los habitantes de la Argentina.
Para obtener conclusiones sobre una poblacin infinita o cuando el estudio de una poblacin
finita es costoso, es conveniente trabajar con muestras.
VARIABLES ESTADSTICAS
La caracterstica que estudiamos de una poblacin es lo que denominamos
VARIABLE.
PARMETRO Y ESTADSTICO
Se denomina parmetro a toda medida que describe una caracterstica de una
poblacin.
Un estadstico es toda medida que describe una caracterstica de una muestra
Un parmetro es un nmero fijo que resume informacin sobre la poblacin en cambio, el
estadstico depende de la muestra seleccionada.
MATRICES DE DATOS
Cuando se relevan varias caractersticas de una poblacin, los datos se
organizan en una matriz llamada matriz de datos.
En una matriz de datos consignamos las unidades de observacin en las filas y
las variables en las columnas como en el ejemplo que sigue:
Sexo
F
M
F
M
M
Categora
J
SS
SS
J
S
Antigedad
1
10
5
5
25
Titulo
E
I
A
M
I
Salario
$8000
$25000
$20000
$9000
$5000
fr
f
n
f % fr . 100
F1 f1
Fi Fi 1 f i i 1
En resumen, es posible organizar la informacin:
Siempre que sea posible, agrupamos los datos en tablas simples, que son aquellas que toman
un solo valor por categora, en caso contrario, debemos utilizar tablas agrupadas por intervalos,
en las cuales cada categora se representa con un intervalo numrico.
Por ejemplo
a) Cantidad de hijos por familia. (Tabla simple)
X
Frecuencia
0
8
1
12
2
20
3
5
4
4
5
1
[10; 11)
15
[11; 12)
18
LABORATORIO DE INFORMTICA
Analizaremos con un ejemplo cmo construir tablas de frecuencias.
Tabla de frecuencias para variable discreta
Para construir la tabla iremos siguiendo el procedimiento frente a la computadora, a partir del
siguiente ejemplo:
Una revista de la construccin realiz un relevamiento por encuesta para observar los hbitos de
las familias que construyeron una casa nueva en el ltimo ao. Al grupo de encuestados se les
consult cuntos presupuestos, adems del de el estudio contratado, solicitaron antes de cerrar el
contrato.
Las respuestas se volcaron en una matriz de datos
1
4
2
2
2
3
5
3
5
0
5
0
3
6
0
2
6
1
6
7
3
3
3
5
2
5
3
5
2
4
Es posible resumir la informacin anterior en una tabla de frecuencias. Para ello sigan los pasos
detallados en la siguiente imagen:
un
Luego de aceptar necesitamos copiar la frmula en toda la tabla de frecuencias. Para ello:
GRFICOS ESTADSTICOS
Una forma de describir la informacin recolectada es mediante grficos
estadsticos. Entre los ms usuales encontramos los siguientes:
fem enino
m asculino
70%
Grfico circular:
Se puede aplicar para todo tipo de
variables y permite ver la distribucion de
los datos en relacin proporcional al rea
que ocupa cada sector. Una restriccin
para el uso de este tipo de grfico es
que las categoras de la variable deben
ser excluyentes.
58
60
Grficos de columnas
Se utilizan para diversos tipos de presentaciones.
Cuando la variable representada es cualitativa, se
pueden utilizar barras horizontales (esto permite una
mejor lectura de las categoras), cuando los datos
estn agrupados en intervalos se suelen utilizar
histogramas que son grficos de columnas una a
continuacin de la otra
50
43
40
23
20
20
0
2 am b
3 am b
4 am b
duplex
otros
Aos
Cantidad de
unidades
80
400
300
325
Grficos de lneas
350
200
350
198
225
100
0
2000
2001
2002
2003
2004
Aos
centradas
deciles
No centradas
cuartiles
mo xk
Veamos los siguientes ejemplos:
a) En la muestra
25
36
25
36
29
25
15
f
5
10
15
15
Las modas son 3 y 4 porque corresponden a los valores de la variable que tienen mayor
frecuencia.
En ese caso decimos que la muestra es bimodal (tiene dos modas)
LABORATORIO DE INFORMTICA
Usando el asistente de frmulas, seleccionaremos la funcin estadstica
MODA, en el cuadro de dilogo se propone ingresar Nmero1.
All deben ingresar el rango de celdas que contienen los datos, o ingresar uno
por uno los datos llevando el cursor al rengln siguiente.
En la siguiente imagen se explica el procedimiento:
10
Si el total n de datos es impar, entonces la mediana es el valor central. Esto es,el dato
n 1
1 simo
Por ejemplo:
Para los datos de la muestra
2 2 4 4 4 7 7 7 9 10 10
n 11
n 1
1 6 la mediana es el 6dato
2
me 7
2 2 4 4 4 7 7 7 9 10 10
50%
50%
me
Significa que los datos que forman la primera mitad (50% de los ms chicos), no superan 7 y
los datos que forman la segunda mitad (50% de los ms grandes) no son superados por 7.
n
simo y
2
n
1 simo
2
Por ejemplo, si los datos de la muestra son:
Entonces ser:
n 10
2 2 4 4 4 7 7 9 10 10
11
n
n
5 y 1 6 la mediana es el promedio entre el 5 dato y el 6dato
2
2
47
me
5,5
2
2 2 4 4 4 7 7 9 10 10
50%
50%
Me =5,5
Esto significa que los datos que forman la primera mitad (50% de los ms chicos), no superan
5,5 y los datos que forman la segunda mitad (50% de los ms grandes) no son superados por
5,5.
LABORATORIO DE INFORMTICA
En el asistente de frmulas, usaremos la funcin estadstica es MEDIANA, en
el cuadro de dilogo se propone ingresar Nmero1. All deben Ingresar el
rango de celdas que contienen los datos, o ingresar uno por uno los datos
llevando el cursor al rengln siguiente
x
i 1
siendo xi un dato
12
x
i 1
. fi
Por ejemplo
a) el promedio de los siguientes nmeros: 7, 9, 12, 16 es x
7 9 12 16
4
0;10
10;20
20;30
30;40
40;50
f
20
15
10
25
5
En este caso decimos que el intervalo modal es 30;40 o bien, que aproximamos la moda
en 35.
En distribuciones representadas mediante histogramas la mediana es el valor que divide al
grfico en dos partes de igual rea
60
50
40
30
20
10
0
Me
Los percentiles de una distribucin (ordenada de menor a mayor) son los
valores que la dividen en cien partes iguales.
Pk es
P15
15% de los datos ms chicos y es superado por el 85% de los datos ms grandes.
Observacin: la mediana es el percentil 50 (me= P50 )
Entre los percentiles se destacan los deciles y los cuartiles:
13
D1 P10
D2 P20
...................
D9 P90
Los cuartiles de una distribucin (ordenada de menor a mayor) son los
valores que la dividen en cuatro partes iguales.
Q1 P25
Q2 P50 me
Q3 P75
Veamos los siguientes ejemplos:
a) En la siguiente tabla de frecuencias, X representa la cantidad de hijos de un grupo de
personas.
x
0
1
2
3
4
f
4
7
4
3
2
F
4
11
15
18
20
n 20
n
5 cada una de las cuatro partes tendr 5 datos
4
0
Q4 4
Q1 1
Q2 1
Q3 2,5
14
Q4 4
75
%
1 1 2 3 3 4 4 5 5 5
5 6
40%
P40
8 9
10 11 12
Q3
El percentil 40 ( P40 ) es el valor que deja a la izquierda el 40% de los valores. El 40% de 25 es
10 por lo tanto el Percentil es 5.
El tercer cuartil Q3 es equivalente al Percentil 75, por lo tanto, el 75% de 25 es 18,75. Por lo
que aproximaremos como Q3 al valor que se encuentra en la posicin 19 que es 8.
Simblicamente escribiremos P40 5 y Q3 8
Las tcnicas para calcular percentiles y cuartiles son varias, y las diversas bibliografas proponen
frmulas distintas de clculo para aproximarlos.
Nosotros trabajaremos con el concepto y aplicando la proporcionalidad directa aproximaremos
los percentiles o, en la mayora de los casos, recurriremos a la planilla de clculo.
LABORATORIO DE INFORMTICA
Usando el asistente de frmulas, la funcin estadstica es PERCENTIL, en el
cuadro de dilogo se propone ingresar Nmero1. All deben Ingresar el rango
de celdas que contienen los datos, o ingresar uno por uno los datos llevando el
cursor al rengln siguiente.
P40
15
venden el mismo tipo de ropa. A simple vista pareciera que ambas tiendas tienen la misma
poltica salarial, pero veamos el detalle:
Local A
Local B
Laura
Ins
Pedro
Susana
$
Emiliano
En el caso A los tres sueldos estn prximos a la recta promedio. En el caso B no lo estn. Con
lo que se hace evidente que la media por s sola no es una buena sntesis de las caractersticas
de la muestra.
Se hace necesario buscar un valor para medir esa dispersin ya que en este caso es muy
evidente que no son iguales pero hay casos en los que se hace muy difcil ver cul es la
muestra en la que los datos estn ms dispersos.
Una forma de aproximar a esta medida podra ser promediar las diferencias entre cada valor y
el promedio:
Lo calculamos para el local A
Pero
da cero siempre.
Una manera de evitar esto es elevar al cuadrado las diferencias para evitar que al sumar los
opuestos se cancelen y la suma de cero.
A la medida que se calcula de esta forma se la llama Varianza muestral y se la simboliza con
S2
S2
El inconveniente con el uso de la varianza es que queda expresada en unidades cuadradas. Por
ejemplo para el caso del local A la varianza da 6666,67 pesos al cuadrado.
Para evitar esto y trabajar con una medida que est expresada en la misma unidad de medida
que la media definimos el desvo estndar que es la raz cuadrada de la varianza.
MEDIDAS DE DISPERSIN
Para describir y resumir el comportamiento de un conjunto de datos se hace
necesario, no slo conocer las medidas de posicin que los caracterizan, sino
tambin otras medidas que sintetizan cmo se distribuyen dichos datos alrededor
del promedio. Para ello recurrimos a las llamadas medidas de variabilidad o dispersin:
16
s2
i 1
x 2
Si los datos estn organizados segn una tabla de frecuencias, la varianza es el promedio
ponderado de los cuadrados de los desvos de los valores de la variable respecto de la media
aritmtica, siendo la frecuencia absoluta ( f ) la que proporciona el peso a cada valor.
Su frmula es la siguiente:
k
s2
x
i 1
x 2 f i
n
Es decir:
s s2
Es una especie de desvo promedio; representa de alguna forma a todos los
desvos sin contemplar su signo.
LABORATORIO DE INFORMTICA
Usando el asistente de frmulas, la funcin estadstica para el desvo
estndar es DESVEST en el cuadro de dilogo se propone ingresar Nmero1.
All deben Ingresar el rango de celdas que contienen los datos, o ingresar uno
por uno los datos llevando el cursor al rengln siguiente
17
c.v.%
s
. 100
x
El coeficiente de variacin es una medida que relaciona la media y el desvo de una muestra y
permite comparar muestras en funcin de la homogeneidad. Dadas dos muestras ser ms
homognea aquella que tenga el menor coeficiente de variacin.
Media acotada
Respecto del coeficiente de variacin hay una cuestin que se hace muy importante
para tener en cuenta: cuando una muestra tiene una gran dispersin, la media no
es una medida adecuada como sntesis de informacin de la muestra y se deben
recurrir a otras medidas como la mediana o la moda para representarla.
Otra estrategia cuando las muestras no son pequeas cuando se observa una gran dispersin
relativa, es trabajar con los valores centrales y para ello se usa la MEDIA ACOTADA.
158
170
195
165
172
185
192
195
1500
el promedio nos da x 80% =179 que es un valor comprendido en el rango que determina la
mayor cantidad de datos de la muestra
LABORATORIO DE INFORMTICA
Usando el asistente de frmulas, la funcin estadstica para la media acotada
es MEDIA.ACOTADA. En el cuadro de dilogo se propone ingresar matriz. All
se ingresa el rango de celdas que contienen los datos, y en otro rengln se les
solicitar el porcentaje. En este punto deben consignar el porcentaje de datos que, en total,
quitarn de la muestra para recalcular. Por ejemplo para tomar un 80% de los datos centrales
(en el ejemplo que se ve en la pantalla para excluir al 1 y al 150) se debe poner 0,20 que
representa el porcentaje que se excluye de la muestra.
Se llama marca de clase al punto medio del intervalo de clase. A este valor
se lo designa como xi
18