Documente Academic
Documente Profesional
Documente Cultură
DIDACTICA ESTADSTICA I
Dr. Claudio Gutirrez P.
Ingeniero Civil Industrial Marcelo Seplveda M.
Orientacin del Texto.
Este material ha sido preparado para que sea complemento al trabajo desarrollado en la
asignatura Estadstica I, y los cuadernos complementarios tecnolgicos.
IDEAS FUNDAMENTALES:
Aplicar la Estadstica que constituye un instrumento metodolgico bsico para la investigacin
experimental, el mundo empresarial, poltico y profesional.
Usar el computador, como un recurso imprescindible al analizar datos.
Realizar por los estudiantes un anlisis comprensible de los conceptos y tcnicas estadsticas.
Captulo I
1.1.Qu es la estadstica?
En lenguaje comn se llama estadstica a colecciones de datos, presentados generalmente en
formas de tablas y grficos. Es as como se habla de estadsticas de uso y cobertura del suelo,
estadsticas del sector pesquero, del mercado del trabajo, del comercio exterior, de inmigracin,
de seguridad y defensa, de produccin, de turismo.
Sin embargo hay quienes prefieren no encasillarla como una rama o ciencia y la definen como un
arte o un mtodo.
Tcnica
Es un estudio
cuantitativo
Estudia
fenmenos
de masa o
colectivo
Yale y
Kendal
Ciencia
Trata de la
recoleccin,
clasificacin y
presentacin
de hechos
Enciclopedia
Barda
Rama de las
Matemticas
Garzo y
Garca
Ciencia
Sote
Conjunto de
Mtodos
Se ocupa de la
recoleccin,
clasificacin e
interpretacin
de datos
Estudia la
interpretacin
de datos
Trata de la
recoleccin,
presentacin y
agrupacin de
los datos
Incluye la
recopilacin,
presentacin y
caracterizaci
n de la
informacin
Da sentido a
los datos
Ayuda en la
toma de
decisiones en
condiciones de
incertidumbre
Berenson
y Levine
Hildebran
d y Ott
Harnett y
Murphy
Arte y
Ciencia
Conjunto
de
Mtodos
Cabra
Canavos
Triola
Conjunto
de
Mtodos
Lind,
Marchal y
Wathen
Ciencia
Gorgas,
Cardiel y
Zamorano
Ciencia
estudia el
comportamient
o de los
fenmenos
llamados de
colectivo
estudio de los
fenmenos
aleatorios
Previsiones de
cara al futuro, lo
que implica un
ambiente de
incertidumbre
Para planear
estudios y
experimento
s
Llega a
conclusiones
basadas en los
datos
Propicia la
toma de
decisiones
ms eficaz
obtencin de
conclusiones
basadas en datos
experimentales
Es una apreciacin
numrica base de
la
explicacin, descri
pcin y
comparacin de los
fenmenos
As como del
anlisis,
interpretacin,
proyeccin e
inferencia de datos
Ayuda tanto en el
anlisis de datos
como en el proceso
de toma de
decisiones
Datos numricos
Palabras clave:
Datos, mtodos, informacin, fenmenos, toma de decisiones, anlisis, recoleccin, clasificacin,
presentacin, interpretacin, incertidumbre
Divisin de la Estadstica:
Estadstica Descriptiva. Es una serie de mtodos para organizar, resumir y
presentar datos de manera informativa. Nieves y Domnguez, 2010
Mucha de la informacin generada a partir de los datos estadsticos generados
en la industria y los negocios es de naturaleza descriptiva. Constituye la base
de cualquier anlisis cuantitativo de datos.
Estadstica Inferencial. Mtodos que se emplean para determinar una
propiedad de una poblacin con base en la informacin de una muestra de
ellas. Lind, Marchal y Wathen, 2012
1.2. Conceptos bsicos.
Unidad de anlisis-Poblacin-Muestra-Censo
Unidad de anlisis, se les denomina tambin casos o elementos, el inters se
centra en sobre qu o quines se recolectarn los datos, es decir, en los
partcipes, individuos, objetos sucesos de estudio, lo que depender del diseo
de la investigacin y de los alcances de la investigacin.
En nuestro cuaderno de trabajo tecnolgico 1, se puede apreciar que la unidad
de anlisis o sea sobre quien se recolectarn los datos, (a quien se aplicar la
encuesta) lo constituyen los estudiantes de la carrera IA.
Datos.
Son hechos, informaciones y cifras que se recogen, analizan y
resumen para su presentacin e interpretacin. Para la recoleccin de los datos
se requiere de los llamados niveles de medicin. La escala de medicin
determina la cantidad de informacin contenida en el dato e indica la manera
ms apropiada de resumir y de analizar estadsticamente estos. El nivel de
medicin de los datos rige los clculos que se llevan a cabo con el fin de
resumir y presentarles. Tambin determina las pruebas estadsticas que se
deben realizar.
Los datos se pueden generar de distintas maneras: Tomando una muestra,
diseando un experimento, realizando un Censo.
La recopilacin de datos puede ser generada por el propio investigador en cuyo
caso la fuente de datos se denomina primaria o por terceros que
correspondera a una fuente de datos secundaria.
De la recopilacin de datos pueden observarse muchas caractersticas
diferentes para un mismo individuo. Estas caractersticas, dependiendo del tipo
de los valores que originan, pueden medirse con cuatro tipos distintos de
escalas de medida.
Clasificacin de los datos a travs de escalas de medicin
Existen cuatro niveles de medicin: nominal, ordinal, de intervalo y de razn.
La medicin ms baja, o ms primaria, corresponde al nivel nominal. La ms
alta, o el nivel que proporciona la mayor informacin relacionada con la
observacin, es la medicin de razn.
Datos de nivel nominal. En este caso las observaciones acerca de una variable
cualitativa se pueden clasificar y contar. No se puede realizar entre ellas
operaciones aritmticas, ni establecer relaciones de orden. Ejemplos: Grupo
sanguneo, profesiones, genero.
Datos de nivel ordinal. Las clasificaciones de los datos se encuentran
representadas por conjuntos de etiquetas o nombres (alto, medio, bajo), las
cuales tienen valores relativos, las categoras obtenidas pueden ser ordenadas.
Ejemplos: Grado de educacin de un grupo de personas, grado de mejora de
un paciente.
Las variables cuantitativas pueden estar medidas en escala de intervalos o en
escala de razn.
La escala de Intervalos representa un nivel superior de medicin que la escala
de medicin ordinal.
Es posible comparar intervalos de valores debido a que a lo largo de toda la
escala, dos valores adyacentes representan siempre la misma diferencia de
magnitud. Es decir la diferencia entre valores constituye una magnitud
constante Una particularidad de esta escala es que el valor cero es arbitrario.
Adems de clasificar y ordenar a los individuos, cuantifica la diferencia entre
dos clases, puede indicar cuanto ms significa una categora que otra. Es
Despus que los datos fueron cargados en la base de datos, se procede a su "tabulacin" es
decir a ubicarlos en cuadros o tablas con la finalidad de ordenarlos y analizarlos.
Tabla de distribucin de frecuencias.
Tablas estadsticas que agrupan diversos valores de una variable, simplificando
los datos. Vergara y Quesada, 2012.
Una tabla de distribucin de frecuencia es un resumen tabular de datos que
muestra el nmero (frecuencia) de elementos en cada una de las diferentes
clases disyuntas (que no se sobreponen). Anderson, Sweeney, Williams, 2008
Es un procedimiento estadstico que tiene por finalidad organizar y resumir un
conjunto de datos.
Organizacin de datos cualitativos
La empresa LM realiz una encuesta sobre el grado de aceptacin de un nuevo
producto por sus clientes. Para esto solicit a 30 clientes que valoraran el
nuevo producto empleando la siguiente escala.
1: Muy Malo 2: Malo
3: Regular
4: Bueno
5: Muy Bueno
10
4
5
5
4
5
5
4
3
4
3
3
4
2
5
2
4
5
3
5
2
Grado de Aceptacin
Frecuencia Absoluta:
ni
Frecuencia Relativa:
hi
Muy Malo
Malo
Regular
Bueno
Muy Bueno
Total
3
7
9
11
30
3/30
7/30
9/30
11/30
1
11
G r a d o d e a c e p t a c i n d e l n u e vo p r o d u c t o
11
12
10
9
7
8
6
N de Clientes
4
2
0
10%
37%
23%
30%
Muy Malo
Malo
Bueno
Muy Bueno
Regular
12
Carrera
N de Estudiantes
1180
371
457
1180
371
457
13
1
2
3
4
5
7
8
10
2
3
3
5
3
2
1
1
20
0,1
0,15
0,15
0,25
0,15
0,1
0,05
0,05
1
2
5
8
13
16
18
19
20
20
18
15
12
7
4
2
1
0,1
0,25
0,4
0,65
0,8
0,9
0,95
1
1
0,9
0,75
0,6
0,35
0,2
0,1
0.05
Frecuencias Acumulativas
Frecuencia Absoluta acumulada ascendente:
Algunas veces de una variable estadstica, es interesante conocer el nmero de
valores que son menores que uno dado, estas se obtienen sumando a la
frecuencia absoluta de un valor todas las anteriores, de igual modo se obtienen
las frecuencias relativas acumuladas.
Frecuencia Absoluta acumulada descendente:
Otras veces queremos determinar el nmero de valores de la variable que son
mayores que uno dado, estas se obtienen sumando a la frecuencia absoluta
del ltimo valor que toma la variable las
Inmediatamente anteriores.
14
5
N ee Integrantes del Grupo Familiar
2
0
Frecuencia de la caracterstica
15
1,72
1,7
1,53
1,73
1,63
1,68
1,85
1,5
1,6
1,69
1,61
1,72
1,69
1,76
1,6
1,7
1,53
1,67
1,67
1,75
1,66
1,73
1,69
1,6
1,53
1,56
1,59
1,56
1,64
Ci =anc h o delintervalo
Para lograr un manejo cmodo de la amplitud, ampliaremos el valor Mximo en
una unidad.
Ci =
RV 0,36
=
=0,6
m
6
X i1
Xi
Xi
1,5
1,56
1,53
1,5
6
1,6
2
1,6
8
1,7
1,62
1,59
1,68
ni
5
30
0,1
7
0,23
12
25
1,65
0,17
17
18
1,74
1,71
10
0,33
27
13
1,8
1,77
0,07
29
0,1
7
0,4
0
0,5
7
0,9
0
0,9
1,00
0,83
0,60
0,43
0,10
16
4
1,8
7
1,86
1,83
0,03
30
1,0
0
0,03
10
8
6
N de estudiantes
7
5
4
2
2
1
Estatura en metros
17
N de Estudiantes
12
10
8
6
4
2
0
Estatura en metros
35
30
25
20
15
10
5 5
0
27 29 30
12
17
N de estudiantes
Estatura en metros
CAPITULO III
Descripcin de datos.
18
xi
x =
xi ni
x =
19
( x i x ) ni =0
i=n
b xi ni
i=1
b x i ni
=
i=1
=b x
x+ y=x + y
i=n
(b+ x i )n i
i=1
nb+ xi ni
=
i=1
=b+ x
Caractersticas:
1. Todo conjunto de datos cuantitativos tiene una media.
2. Todos los valores se encuentran incluidos en el clculo de la
media.
3. La media es nica para un conjunto de datos.
4. La media aritmtica es sensible a valores extremos.
Mediana.
La Mediana se suele definir como el valor ms intermedio una vez que los
datos han sido ordenados en forma creciente. Se suele denotar por Me
Para hallar la mediana de una distribucin de datos no agrupados debemos:
1. Ordenar las observaciones en orden ascendente.
2. Si el nmero de observaciones n es impar, Me es la observacin central
de la lista ordenada. Me se halla contando (n+1)/2 observaciones desde el
comienzo de la lista.
3. Si el nmero de observaciones n es par, Me es la media de las dos
observaciones centrales de la lista ordenada.
20
n
N i 1
2
'
Med=Y i 1 +C i
ni
Y 'i1
al intervalo mediano
En una tabla de frecuencias, una marca de clase no puede ser calculada para
una clase abierta.
Aunque la media aritmtica es la medida de localizacin central ms
empleada, en algunas situaciones se prefiere la mediana.
La Moda.
Se define como aquel valor del conjunto de datos que se presenta con mayor
frecuencia. Esto quiere decir que si elegimos aleatoriamente un dato de un
conjunto, el valor con mayor probabilidad de ser seleccionado es la moda. La
moda se simbolizar por Mo.
Hay situaciones en que la frecuencia mayor se presenta con dos o ms valores
distintos. Cuando esto ocurre hay ms de una moda.
Si los datos contienen ms de una moda se dice que los datos son bimodales.
Si contienen ms de dos modas, son multimodales. En los casos multimodales
casi nunca se da la moda, porque dar tres o ms modas no resulta de mucha
ayuda para describir la localizacin de los datos.
La moda para datos no agrupados, se obtiene por simple observacin.
21
Mo=Y 'i1+ Ci
ni+1
ni +1+ ni1
Ejercicios Resueltos:
1. En los siguientes casos, identifique: Poblacin y Variable. Clasifique la
variable:
a) En la empresa Alfa se desea estudiar el nmero de horas no trabajadas por
sus empleados.
b) En una fbrica se desea medir el tiempo que cada trabajador demora en
armar cierto producto.
c) En una empresa de seguros se desea estudiar el monto de las primas
contratadas por los clientes.
d) En la Municipalidad de Santiago se estudia las marcas de automviles que
tienen su patente obtenida en dicha Municipalidad.
e) En un Instituto Profesional se estudia las carreras que los alumnos siguen.
f) En una cooperativa se desea estudiar el nivel de educacin que tienen sus
socios.
Caso
a)
b)
c)
d)
e)
f)
Poblacin
Empleados de la
empresa Alfa
Trabajadores de
una fbrica
Clientes en una
empresa de
seguros
Autos con
patentes de la
Municipalidad de
Santiago
Alumnos de un
Instituto
Profesional
Socios de una
Cooperativa
Variable
N de horas no
trabajadas
Tiempo que se
demora en el
armado de cierto
producto
Monto de las
primas
contratadas
Marcas de
automvil
Clasificacin
Cuantitativa
Discreta
Cuantitativa
Continua
Carreras que se
imparten
Cualitativa
Nominal
Nivel de
educacin
Cualitativa
Ordinal
Cuantitativa
Continua
Cualitativa
Nominal
22
2.
Una empresa ha clasificado sus operaciones segn el riesgo de
accidente que tendran sus empleados. Una muestra aleatoria de 30
operaciones entreg los siguientes resultados:
P S A S A S M S S A P P S S M P P M M S M P A A A M M M A S
El cdigo utilizado para el riesgo de accidente es:
S = Sin riesgo; P = Pequeo riesgo; M = Mediano riesgo y A = Alto riesgo.
a) Construya la tabla de distribucin de frecuencias y determine e intrprete:
2, h3, 4, h1, 3 y H3
Riesgo de
Accidente
N de
operaciones
Ni
hi
Hi
9
6
9
15
0,30
0,20
0,30
0,50
23
0,27
0,77
7
30
30
0,23
1
( ni )
Sin Riesgo
Pequeo
Riesgo
Mediano
Riesgo
Alto Riesgo
Total
2=6
6 de las operaciones en estudio presentan pequeo riesgo de accidente.
h3=0,27
27 % de las operaciones en estudio presentan riesgo mediano de accidente.
4=7
7 de las operaciones en estudio presentan alto riesgo de accidente.
h1=0,3
30 % de las operaciones en estudio no presentan riesgo de accidente.
3 =23
23 de las operaciones en estudio tienen a lo ms mediano riesgo de
accidente.
H3 =0,77
77 % de las operaciones en estudio tienen a lo ms mediano riesgo de
accidente.
b) Construya un grfico circular y un grfico de barras.
SOLUCIN: Grfico Circular
23
Mediano Riesgo
Riesgo
Pequeo Riesgo
Sin Riesgo
9
0
10
N de operaciones
24
RV =VMaxVMin
RV =6216=46 aos
2 Hallar el nmero de clases o intervalos m
m= n= 42= 6,48 6
Ci
Ci =
RV 46
=
m
6
xi
N de Personas ni N i
20
28
36
44
52
60
11
13
7
3
2
6
42
11
24
31
34
36
42
hi
Hi
0,26
0,31
0,17
0,07
0,05
0,14
1
20
28
36
44
52
Edad en aos
Fuente:
60
0,26
0,57
0,74
0,81
0,86
1
25
14
11
12
10
N de personas 6
3
4
2
0
12 20 28 36 44 52 60 68
Edades en aos
Fuente
Fuente:
4. El siguiente cuadro de frecuencias resume los sueldos mensuales (en
miles de $) de los trabajadores de una empresa
Sueldo
mensual
200-240
240-280
280-320
320-360
360-400
400-440
440-480
480-520
ni
32
20
28
48
32
16
20
4
Ni
26
ni
200240
240280
280320
320360
360400
400440
440480
480520
32
Ni
hi
Hi
32
0,16
0,16
200
52
0,10
0,26
168
0,84
80
0,14
0,40
148
0,74
128
0,24
0,64
120
0,6
160
0,16
0,80
72
0,36
176
0,08
0,88
40
0,2
196
0,10
0,98
24
0,12
200
0,02
1,00
1,00
0,02
20
28
48
32
16
20
4
200
n
N i1
2
Med=
Y i1+ Ci
ni
Med=320+40
n/2=100
200
80
2
=336,7 miles de pesos
48
370=360+40
j
200128
100
32
0,25*32=2j-128
8+128=2j
136/2=j
J=68%
27
40%
30%
p35 p75
(30/100)200=60
p30= 280+40
p30= 280+40
30
20052
100
28
( 6052
28 )
p30= 280+40
( 288 )
p70 = 360+40
( 140128
)
32
p70= 360+40
( 1232 )
ni
200240
240280
280320
320360
32
Xi
Xi*ni
220
7040
260
5200
300
8400
340
16320
20
28
48
28
360400
400440
440480
480520
32
380
12160
420
6720
460
9200
500
2000
67040
16
20
4
200
67040
X =
=335,2 miles de pesos
200
e) Qu % de trabajadores gana el sueldo promedio o menos?
j
20080
335,2=320+40 100
48
2 j80
15,2/40=
48
0,38*48=2j-80
18,24+80=2j
98,24/2=j
J=49,12%
f) Construya el histograma de la distribucin de sueldos
Histograma que representa la distribucin de sueldos mensuales de los
trabajadores de la empresa xxxx, en el perodo xxx
60
48
50
40
32
28
30
20
10
0
20
32
16
20
29
96
171
202
178
157
185
90
116
141
149
206
95
163
108
119
147
102
153
197
127
82
172
111
148
213
130
165
175
123
128
144
168
109
167
206
175
130
143
187
166
139
149
150
154
114
135
191
137
129
158
a.Yi1 N i hi n i Yi Yi
82
101
120
139
158
177
196
b)
101
120
139
158
177
196
215
91,5
110,5
129,5
148,5
167,5
186,5
205,5
4
7
8
12
10
4
5
n=50
0,08
0,14
0,16
0,24
0,20
0,08
0,10
4
11
19
31
41
45
50
1,00
30
Fuente: ccccc
Fuente: CCCC
c)
jn
Ni
p j Yi1 Ci 100
ni
j 50
100 11
135 120 19
31
15 * 8 j
11
19
2
(6,32 11) * 2 j
j 34,64
Un 34,64 % de los Departamentos. tienen costos menores de 135 dlares.
N de
coches Yi ni
23
12
7
10
3
2
1
58
Ni
23
24
21
40
15
16
15
154
23
35
42
52
55
57
58
X 2,66 das
b. Cuntos das como mximo permanecen en el taller el 75% de los
automviles, que menos permanecen en el taller?
3
* 58 0,75 * 58 43,5
4
Q3 4 das
c. Calcula e interpreta la Mediana de los das de permanencia de los
vehculos a reparar.
N /2 =29
Me=2 das
El 50% del total de automviles permanecen 2 o menos das en el taller de
reparacin.
7.- La Subsecretara de Transporte realiz un estudio para medir, en horario
punta, el tiempo de recorrido de los buses de la Lnea E-205 del Transantiago.
Los resultados obtenidos en una muestra aleatoria de 95 de dichos buses, se
resumen en el siguiente grfico :
32
17
20
23
26
29
32
35
---
5
12
18
20
23
12
5
95
5
17
35
55
78
90
95
----
Pk M X Y
Con :
Luego :
=== K = 83,337263
Luego, la proporcin pedida est dada por :
33
Como:
Conclusin: por lo tanto, la proporcin de buses que supera los 30,7926
minutos provocando atochamiento en los paraderos es: 16,66%,
(aproximadamente 16 buses)
8.- El bajo promedio y la gran dispersin del monto de las ventas, determin
la realizacin de un curso de tcnicas de venta para los vendedores de la
seccin Electrnica de una Multitienda.
A continuacin se resume la informacin del monto de las ventas (en diez
Miles de $), correspondiente al mes previo al desarrollo del curso.
Seccin
Electrni
ca
Venta
Promedio
610
Desviacin Estndar de
las Ventas
384
Nmero
vendedores
18
Los montos de las ventas realizadas por stos vendedores (en diez
Miles de $) el mes siguiente a la finalizacin del curso, fueron los que a
continuacin se indican:
Ventas
Seccin Electrnica
( Diez miles $ )
N de Vendedores
yi
y i ni
400 - 500
450
900
500 - 600
550
1650
600 - 700
650
2600
700 - 800
750
5250
800 - 900
850
y i2 ni
405000
907500
1690000
3937500
TOTAL
18
1700
1445000
12100
8385000
a) Con la realizacin del curso, la Multitienda esperaba disminuir en a lo
menos un 50 %
la dispersin relativa del monto de las ventas en dicha seccin. Determine si el
curso satisfizo stas expectativas y si adems se
lograron superar las
deficiencias que determinaron su realizacin.
de
34
M X 672,2222 ; S X 118,1127 ;
S 0,07 V 35
(Diez miles $)
35
Medidas de dispersin
Son estadsticos que nos proporcionan una medida del mayor o menor
agrupamiento de los datos respecto a los valores de tendencia central. Todos
son valores mayores o iguales a cero siendo esto ltimo ausencia total de
dispersin.
Estas nos indicarn la variabilidad de los datos en torno a su valor promedio, es
decir si se encuentran muy o poco esparcidos en torno a su centro. Se pueden
definir entonces, diversas medidas de desviacin o dispersin, siendo stas
fundamentales para la descripcin estadstica de la muestra. Las medidas de
dispersin son estadsticos que nos proporcionan una medida del mayor o
menor agrupamiento de los datos respecto a los valores de tendencia central.
Existen varias medidas de dispersin (o variacin); las ms usadas son el rango, el rango
intercuartil y la desviacin estndar.
Recorrido intercuartlico.
A partir de los cuartiles se pueden definir algunos ndices de dispersin. El ms
usado es la diferencia entre el tercer y el primer cuartil, Q3 - Q1, llamado
recorrido intercuartlico.
36
Esta medida que no se ve afectada por los valores extremos contiene el 50%
de los datos, dejando a la izquierda el 25% inferior de estos y a la derecha el
25% superior de las observaciones. Se representa por:
Q=Q 3Q1
S 2=
( x ix )2ni
1
En forma simplificada:
n
S=
x i2ni
1
- x 2
S=
x i2ni
1
x 2
Algunas veces la desviacin estndar de una muestra de datos se define usando como el
denominador, en las ecuaciones (n 1) en lugar de n. Esto se debe a que el valor que as se
obtiene es una mejor aproximacin a la desviacin estndar de la poblacin de la que se ha
tomado la muestra. Con valores grandes de n (n > 30), prcticamente no hay diferencia entre las
dos definiciones.
37
CV
s
* 100
x
SA
30.000 $
100 %=
100 %=20 %
x A
150.000
SB
12.000
=
100 %=
100 %=33 %
x B
36.000
38
N Pila
x =
1
1
2
3
4
5
6
7
Duraci
n (en
Horas)
342
426
317
545
264
451
1049
8
9
10
11
12
13
TOTAL
631
512
266
492
562
298
6155
2
116964
181476
100489
297025
69696
203401
110040
1
398161
262144
70756
242064
315844
88804
344722
5
X i 6155
=
=473,46 hrs .
n
13
2
x
S =
x 2
1
1
3447225 ( x ) =
13
2
S x = 41.005,33=202,50 hrs
202,50
CV =
100=42,77
473,46
39
La desviacin tpica es
cual nos indica que
muy alta en los datos
coeficiente
de
% podemos indicar
el tamao de la media
variable tambin es
refleja
una
gran
datos recopilados en
.
No es aconsejable
anuncie que sus pilas
264
266
298
317
342
426
451
492
512
545
562
631
1049
1
2
3
4
5
6
7
8
9
10
11
12
13
de 202,50 horas, lo
existe una dispersin
y
al
tener
un
variacin de un 42,77
que la relacin entre
y la variabilidad de la
muy alta, lo cual
heterogeneidad de los
la muestra.
que el fabricante
duran 400 horas.
Seccin
Ventas
Sueldo
Trabajado (en M$)
r
1
330
2
260
Xi
108900
67600
Seccin
Produccin
Trabajador Sueldo (en M$)
Yi2
1
2
240
260
57600
67600
40
3
4
5
6
7
8
9
10
TOTAL
350
400
265
200
450
300
500
250
3305
122500
160000
70225
40000
202500
90000
250000
62500
1174225
3
4
5
6
7
8
9
10
TOTAL
300
250
265
200
400
250
300
200
2665
90000
62500
70225
40000
160000
62500
90000
40000
740425
10
X =
xi
1
3305
=330,5 M $
10
n10
y =
Yi
1
2665
=266,5 M $
10
S 2x =
x 2i
1
( x ) =
1.174 .225
2
( 330,5 ) =8.192,5 M $
10
S x = 8.192,5 =90,51M$
CV x =
90,51
100=27,39
330,5
n
2
y
S =
y 2i
1
- ( y )2 =
740.425
2
(266,5 ) =3.020,25M$
10
S x = 3.020,25 =54,96M$
CV y =
54,96
100=20,62
266,5
41
x =
1000
=250
4
5000
Y =
=1250
4
Empres
aA
1r
accionista
2
accionista
3r
accionista
4
accionista
Empresa
B
Miles de Bolvares
Miles de Bolvares
( X i 2)
( Y i2 )
100
1200
10000
1440000
500
1300
250000
1690000
300
1400
90000
1960000
100
1000
1100
5000
10000
360000
1210000
6300000
2
x
S =
x 2i
1
( x )
360000
(250 )2=9000062500=27500
4
2
B
S =
Y 2i
1
( y )
6.300 .000
- ( 1250 )2 =1.575.000-1.562.500=12500
4
42
165,83
100=66,33
250
111,8
CV B=
100= 8,94 %El reparto es ms equitativo en la Empresa B.
1250
CV A=
Distribuciones Bidimensionales
Diremos que tenemos una muestra estadstica bidimensional cuando sobre
cada elemento de la muestra se realiza la observacin simultnea de dos
Variables.
Es muy frecuente que nos interese realizar el anlisis en ms de slo una
variable. Por ejemplo, una compaa aseguradora de autos podra estar
interesada en el nmero de vehculos propiedad de un tenedor de plizas, as
como en el nmero de quienes conducen un vehculo en la familia. Un
economista podra necesitar medir la cantidad gastada por semana en
comestibles en una familia, y tambin el nmero de personas de esa familia.
Un agente de ventas de bienes races podra medir el precio de venta de una
propiedad residencial y la superficie en pies cuadrados de la sala.
Cuando dos variables se miden en una sola unidad experimental, los datos
resultantes se denominan datos bivariados. Cmo se deben presentar estos
datos? No slo son importantes ambas variables cuando se estudian por
separado, sino que el experimentador tambin puede explorar la relacin entre
las dos variables. Los mtodos para graficar datos bivariados, ya sean
cualitativos o cuantitativos, permiten estudiar las dos variables juntas. Al igual
que con datos univariados, se usan diferentes grficas segn el tipo de
variables que se midan.
Tenemos en este caso una variable estadstica bidimensional, representada por
la pareja de smbolos (x, y) y que en general, para una muestra de n
elementos, podr tomar los valores (x1, y1), (x2, y2), ... , (xN, yN). Las
variables x e y no tienen por qu ser del mismo tipo, pudiendo ser cada uno de
ellas de tipo cuantitativo o cualitativo.
Adems en el caso de ser ambas variables cuantitativas cada una de ellas
podr ser continua o discreta.
Distribuciones de frecuencias de una variable bidimensional
De la misma manera que el anlisis de la distribucin de frecuencias de una
variable unidimensional constituye un primer paso para la descripcin
estadstica de la muestra, el estudio de la distribucin de frecuencias de una
variable bidimensional es de gran utilidad
43
x i Y j y 1
x1
n11
x2
x3
n31
y2
y3
n13
Yj
ni .
hi .
n22
n33
.
.
.
xi
n. j
h. j
nij = n i . n. j =n
Tipos de Distribuciones.
Cuando se estudian conjuntamente dos variables, se originan tres tipos de
distribuciones:
Distribuciones Conjuntas, Distribuciones Marginales y Distribuciones
Condicionales.
a. Distribuciones Conjuntas.
La frecuencia relativa conjunta, del par (xi, yj) es el cociente entre la frecuencia
absoluta conjunta y el nmero total de observaciones: hij
b. Distribuciones Marginales.
Cuando trabajamos con ms de una variable y queremos analizar las
distribuciones de frecuencias de cada una de las variables unidimensionales de
manera independiente, se originan las distribuciones marginales.
44
Xi
x1
x2
x3
ni .
n1.
n2.
n3
hi .
Xi
Ni.
Hi.
Ni.
Hi.
H. j
N. j
H. j
.
n
Y j
y1
y .2
y3
n. j
n.1
n.2
n.3
h. j
Yj
N. j
.
n
c.
d. Distribuciones Condicionales.
Consideremos a los n.j individuos de la poblacin que representan la modalidad
yj de la variable Y, y obsrvese la columna j-esima de la tabla. Sus n.j
elementos constituyen una poblacin, que es un subconjunto de la poblacin
total. Sobre este subconjunto se define la distribucin de X condicionada por yj,
que se representa por X / yj; su frecuencia absoluta se representa por ni / j, y
su frecuencia relativa por hi / j, para i = 1, 2, 3,,
Siendo hi / j=
nij
. El
n. j
s xy =
xy
45
ni .
nij n n . j
=
; i , j
n
n
Ejercicios
1.-
46
20,30
74
7
3
84
30,40
40,50
50,60
82
78
72
6
5
6
2
2
1
90
85
79
Xi
ni .
X ini .
X 2i ni .
0
0
0
313
1
29
29
29
2
18
36
9
47
65
351
[ 60,70 ]
ni .
7
5
1
13
313
29
9
351
A partir de estos
datos, se le pide que
determine para este
conjunto de
conductores:
a) Las medias y
varianzas de las
distribuciones
marginales.
Distribucin marginal de la variable Nmero de accidentes.
47
=0,13 accidentes
351
2
s =0,190,018=0,172
s=0,41
x =
Yj
n. j
y jn. j
y 2jn . j
25
35
45
55
65
84
90
85
79
13
351
2100
3150
3825
4345
845
14265
52500
110250
172125
238975
54925
628775
x =
2 628775
x i =
=1791,38
351
2
S =1791,381651,69=139,69
14265
=40,64 aos
351
47
S=11,82aos
b) El nmero medio de accidentes que tienen los conductores con edades
comprendidas entre los 40 y los 50 aos.
Xi
n.3
x in.3
0
1
2
78
5
2
85
0
5
4
9
x =
9
=0,1 accidentes
85
y
- X
Cov ( x , y )= XY
Y =5,3
X
Cov ( x , y )= XY
y =5,6-5,3=0,3
X
Relacin positiva
d) Qu edad tendra como mucho un conductor con un solo accidente para
encontrarse en el grupo del 20 % de los ms jvenes?
2030
3040
4050
5060
6070
n2.
N 2.
13
18
24
29
29
0,229N i1
ni
5,80
+ 10
7
+ 8,3 =28,3 aos
P20=Y i1 + Ci
P20=20
P20=20
Probabilidades
48
para hacerlo, al tomar una decisin se decide sobre situaciones que debern ocurrir en un futuro
cercano o no tan prximo, pero existe riesgo de que la decisin a tomar pueda no ser la correcta.
Esta medida del riesgo podra asociarse a una probabilidad o posibilidad de que las cosas no
salieran como estaba esperado, sino que por imponderables o tal vez futuras situaciones no
previstas puedan hacer fracasar las decisiones. Por otro lado el conocer las probabilidades de que
ocurran las cosas, ayuda a tomar una mejor decisin debido a que ayudan a confiar en la decisin
a tomar conociendo que si situaciones similares han ocurrido en el pasado, es probable que
puedan continuar en el futuro.
49
Ocurrir
0.25
0.50
0.75
1.00
50
51
Ejemplo tirar un dado el espacio muestral de este es S = {1, 2, 3, 4, 5, 6} con seis posibles
resultados, por ello las probabilidades sern de 1/6 para cada uno. Ejemplo:
P(1) = 1/6 ; P(2) = 1/6 ; P(3) = 1/6 ; P(4) = 1/6 ; P(5) = 1/6 ; P(6) = 1/6
Originalmente el mtodo clsico se desarroll para analizar problemas concernientes con juegos
de azar, en los que a menudo es posible suponer resultados con igual probabilidad. Sin embargo
estas suposiciones no se cumplen siempre, por lo que se requieren mtodos alternativos para
determinacin de probabilidades.
52
Mtodo subjetivo
Probabilidad de un evento en particular que asigna un individuo a partir de
cualquier informacin que encuentre disponible.
Los mtodos clsicos y de frecuencia relativa, no pueden aplicarse en todas las situaciones en las
que se desea asignar probabilidades, en algunos casos los resultados no tienen igual probabilidad
de ocurrencia, en otros no hay informacin de frecuencias relativas.
En el mtodo subjetivo, podremos utilizar cualquier dato disponible, adems de nuestra
experiencia e intuicin, Sin embargo una vez considerada toda la informacin disponible,
debemos especificar un valor de probabilidad que exprese nuestro grado de creencia de que
ocurra un resultado experimental.
Reglas de la adicin.
Regla general de la adicin.
Los resultados de un experimento pueden no ser mutuamente excluyentes.
P(A o B) = P(A) + P (B) P(A y B)
En el caso de la expresin P(A o B), la palabra o sugiere que puede ocurrir A o
puede ocurrir B. Esto tambin incluye la posibilidad de que A y B ocurran.
Cuando dos eventos ocurren al mismo tiempo, la probabilidad se denomina
probabilidad conjunta.
Regla especial de la adicin
53
P( A/ B)=
P (A B)
P( B)
si P( B)> 0
P( A B)=P( A) P(B / A)
Regla especial de la multiplicacin
La regla especial de la multiplicacin requiere que dos eventos, A y B, sean
independientes, y lo son
si el hecho de que uno ocurra no altera la probabilidad de que el otro suceda.
Independencia de sucesos si un evento ocurre, no tiene ningn efecto sobre la
probabilidad de que otro
evento acontezca.
A1 , A2, , Ak
constituyendo una
S (la unin de todos ellos tales la unin de estos sucesos es el suceso S, o sea
son sucesos exhaustivos
y adems son mutuamente excluyentes. Es decir
A 1 A 2=
Supongamos ahora un Evento B que est relacionado con todas las particiones
del espacio muestral E.
aA A
A2
ByA1
A1
54
ByA
2
ByA3
A3
Ai
P( B)=P( Ai ) P( B / A i)
i=k
P ( B )=
i=1
P( Ai/ B)=
P( A i) P( B/ A i )
P (B)
Ejercicios
En la tabla siguiente se muestran algunas caractersticas de los 10.000
solicitantes de prstamos de una importante Institucin Financiera.
Grado de
Tipo
Riesgo
de prstamo
Personal (P)
Hipotecario
(H)
Total
Riesgo Bajo
(B)
Riesgo
Mediano (M)
Riesgo Alto
(A)
Total
2250
750
4000
1200
1200
600
7450
2250
3000
5200
1800
10000
0,225
0,075
0,400
0,120
0,120
0,060
Total
0,745
0,225
55
Total
0,300
0,520
0,180
P ( M ) =0,52
b) Qu probabilidad existe de que se trate de una transaccin de
Riesgo Alto (A) si el tipo de prstamo se sabe es de Tipo Hipotecario
(H)?
P( A/ H )=
P ( A H)
P( H )
P( A/ H )=0,060 /0,225=0,267
c) Qu probabilidad hay de que la cuenta escogida sea un Prstamo
Personal (P)?
P ( P )=0,745
d) Qu probabilidad existe que la cuenta escogida sea un Prstamo
Hipotecario (H) si fue catalogado de Riesgo Mediano (M)?
P( H / M )=0,120/0,520=0,231
e) Sea A el evento el solicitante de prstamo fue clasificado de Alto
Riesgo (A) y B el evento que l solicit un prstamo de Tipo Personal
(P). Son independientes los eventos A y B?
P ( A B ) =P ( A )P ( B )
0,120 0.134
Los eventos no son independientes.
f)
56
57
p ( D )=
p ( ND )=
P(CX)=
2
5
3
5
1
3
p ( D )=
p (CY )=
1
3
p ( ND )=
p (CZ )=
1
6
5
6
1
3
p ( D )=
3
8
p ( ND )=
5
8
1
3
3
1
=
5
5
Si nuestro inters se concentra en elegir al azar una bombilla ND. Como hay
tres caminos independientes que nos llevan a una bombilla no defectuosa,
la suma de las probabilidades de estos caminos nos da la probabilidad
requerida.
1
1
1
3
5
5
3
3
3
247
p ( ND )=
+
+
=
0,686
5
6
8
360
LEY DE PROBABILIDAD TOTAL
B
A1
58
A3
A2
B=S B
A
( 1 B) ( A 2 B ) ( A 3 B ) ( A k B)
B=
A
( 1 B) p ( A 2 B ) p ( A 3 B ) p( A k B)
p ( B )= p
Como se trata de la unin de eventos mutuamente excluyentes, entonces la
probabilidad de la unin es igual a la suma de las probabilidades, segn el
axioma aditivo de probabilidad, as:
A
( 1 B)+ p ( A 2 B )+ p ( A 3 B ) + + p( Ak B)
p ( B )= p
Aplicando la Ley multiplicativa de probabilidad para eventos dependientes:
A
A2
B / A2
A3
B / A3
( 1)p ( B / A 1 ) + p
p ( B )= p
59
p ( A i )p( B/ Ai )=
i=1
p( Ai/ B)=
p( Ai)p( B/ Ai )
p( Ai/ B)=
p ( Ai )p( B/ Ai)
p( A 1)p (B / A 1)+ p( A 2)p (B / A 2)+ p( A 3)p (B / A 3)++ p ( A k )p( B/ Ak )
i=1, 2,3, , k
Ejemplo:
Para la elaboracin de sus productos, una empresa adquiere el 30 % , 50 % y 20
% de la materia prima a sus proveedores A , B y C respectivamente. Si la
empresa adquiere la materia prima al proveedor A, la probabilidad que la reciba
con retraso, es del 80 %, probabilidades que para los proveedores B y C, son
del 10 % y 40 % respectivamente.
Si la empresa solicita un pedido de materia prima y lo recibe con retraso, Cul
es la probabilidad que haya hecho el pedido a su proveedor C ?