Sunteți pe pagina 1din 76

TECSUP - PFR

Estadstica y Probabilidades

UNIDAD I

ESTADSTICA
1.

INTRODUCCIN
El uso de los mtodos estadsticos para analizar datos se ha convertido en una
prctica comn en todas las disciplinas cientficas. Este material de ayuda
pretende introducir mtodos que utilizan los estudiantes en sus carreras de
formacin tecnolgica.
La exposicin matemtica es relativamente modesta. El uso sustancial del
clculo se hace slo en el captulo de probabilidades. No se utiliza lgebra
matricial en absoluto. Por lo tanto, casi toda la exposicin deber ser accesible
para aquellos estudiantes cuyo conocimiento en matemtica es bsico.
La unidad 1 se inicia con algunos conceptos y terminologa bsicos (poblacin,
muestra, estadstica descriptiva e inferencial, variables y tipos) y contina con la
elaboracin de tablas de frecuencia para variables cualitativas y cuantitativas y
grficos importantes. La unidad 2 corresponde a las medidas resumen de
posicin y de dispersin. La unidad 3 se estudia el anlisis de dos variables:
cualitativas vs cualitativas, cualitativas vs cuantitativas y cuantitativas vs
cuantitativas, adems de grficos importantes. En la unidad 4 se ofrece el
desarrollo un tanto tradicional de la probabilidad, la probabilidad condicional, la
probabilidad total y el teorema de Bayes.
1.1 POBLACIN Y MUESTRA
A fin de entender cmo se puede aplicar los mtodos estadsticos, se debe
distinguir entre poblacin y muestra. Una poblacin o universo es cualquier
coleccin finita o infinita de individuos o elementos, para cada uno de los
cuales se tiene que contar o medir una o varias caractersticas. Los
elementos son los objetos que poseen la informacin que busca el
investigador y acerca del cual deben hacerse las inferencias. Entre posibles
elementos se tiene: una sustancia, un compuesto, un mineral, etc.
Aunque existe la libertad de llamar poblacin a un grupo cualquiera de
elementos definidos en el tiempo y el espacio, en la prctica depende del
contexto en el cual se observarn los elementos. Suponga, por ejemplo, el
nmero de total de compuestos que pueden elaborarse con 5 sustancias,
puede considerarse como una poblacin.
Una muestra es un subconjunto de elementos de la poblacin que puede
servir de base para generalizaciones vlidas En trabajos qumicos, se
toman muestras de un material, se ensayan y se hacen deducciones para
la totalidad de dicho material, a partir de los resultados obtenidos. La
muestra no es exactamente la poblacin, sino que se supone que la

Estadstica y Probabilidades

TECSUP - PFR

representa, y la validez de cualquier conclusin obtenida de ella depende


de la verdadera representatividad que tenga.
La muestra debera ser seleccionada en forma aleatoria, es decir, ca- da
elemento tiene una probabilidad conocida y no nula de seleccin. No
siempre es posible obtener una muestra aleatoria. Esto es especialmente
cierto cuando el estadstico puede confiar en su propio juicio o
conveniencia al seleccionar los elementos de la muestra. Con la
aleatoriedad se per- sigue que la muestra sea representativa de la
poblacin, para que concentre todas las caractersticas y particularidades
de inters. Sin embargo, la aleatoriedad no garantiza necesariamente la
representatividad.
Los factores que determinan la seleccin de muestras son: costo, tiempo y
la imposibilidad prctica (o destruccin de la unidad de estudio). En tanto,
el tamao de la muestra queda determinado por la variabilidad de la
poblacin, el nivel de confianza y el error mximo permisible. Cuando los
elementos de una poblacin tienen cierto grado de heterogeneidad entre
ellos, el tamao de la muestra tiende a ser grande. Cabe destacar, que es
completamente errneo asegurar que la muestra depende del tamao de la
poblacin.
Cuando se hace una investigacin con todos los elementos de la poblacin,
se llama censo o enumeracin total. En tanto, cuando se elabora con base
en una muestra, se le denomina estudio por muestreo. En la mayora de los
casos los qumicos no estn interesados en los datos de enumeracin total
(o censo) sino en datos muestrales.
1.2 ESTADSTICA
Disciplina que nos proporciona un conjunto de mtodos y procedimientos
que nos permitan recopilar, clasificar, presentar y describir datos en forma
adecuada para tomar decisiones frente a la incertidumbre o predecir o
afirmar algo acerca de la poblacin a partir de los datos extrados de la
misma.
Esta definicin nos permite distinguir la Estadstica Descriptiva de la
Inferencial.
La estadstica descriptiva se puede definir como los mtodos
estadsticos que pretenden describir las caractersticas ms importantes de
un conjunto de datos, sea que provenga de una muestra o de una
poblacin. Utiliza tcnicas estadsticas, como la representacin grfica,
cuadros estadsticos, medidas de posicin y de variabilidad.
Uno de los propsitos fundamentales de los mtodos estadsticos es
utilizar estadsticos muestrales para estimar los parmetros de la
poblacin. A este proceso de utilizar los estadsticos muestrales para llegar

TECSUP - PFR

Estadstica y Probabilidades

a conclusiones acerca de los verdaderos parmetros de la poblacin, se le


llama inferencia estadstica.
La estadstica inferencial generaliza los resultados observados en una
muestra a toda la poblacin bajo estudio, por medio del planteamiento y
pruebas de hiptesis y clculo de intervalos de confianza; se aplica a
problemas como estimar, mediante pruebas, el rendimiento promedio de
un proceso qumico, verificar las especificaciones de produccin a partir de
mediciones efectuadas sobre muestras o predecir los residuos de cloro en
una piscina basndose en una muestra de datos tomados en ciertos
periodos de tiempo.
1.3

CICLO METODOLGICO DE UN TRABAJO ESTADSTICO


Cuando no sea posible obtener una informacin completa de la poblacin,
se extraen muestras representativas de dicha poblacin mediante las
tcnicas de muestreo, y en base al estudio o informacin obtenidas de los
datos muestrales se afirma algo acerca de la poblacin total o se toman
decisiones generales confiables con ayuda de la Estadstica Inferencial.
Este ciclo se cumple en la mayora de las veces del quehacer estadstico

Figura 1
Ciclo metodolgico de un trabajo estadstico

Estadstica y Probabilidades

TECSUP - PFR

1.4 VARIABLES
Se dice que algo vara si puede tomar por lo menos dos valores, grados o
formas o, incluso, cuando una caracterstica puede estar presente o
ausente en una situacin especfica.
Dicho esto, podramos estar de acuerdo en que nociones como sexo,
nmero de hijos por familia, color de automvil, nmero de huelgas
anuales, nivel de estudios, etc., son variables, ya que son caractersticas
que admiten por lo menos dos valores, grados o formas dentro de un
universo determinado.
No obstante, al empezar a familiarizarse con este tema, se suele confundir
la caracterstica que admite variaciones con el universo o con los elementos
del mismo. Comprese la lista del prrafo anterior con esta otra: persona,
vivienda, lmpara, automvil. Estos trminos se refieren a objetos y no a
caractersticas de objetos; por lo tanto, no son variables. Variables seran
las caractersticas que quisiramos indagar de esos objetos. Por ejemplo,
de un universo formado por personas podramos conocer su edad, lugar de
nacimiento, nivel de escolaridad, clase social a que pertenecen, etc. Estas
peculiaridades son variables. Tambin son variables, de un universo
formado por automviles, su marca, modelo, color, potencia, etc., ya que
son caractersticas que van cambiando de auto en auto.
Otra confusin frecuente se da con los datos estadsticos. Consideremos
estos ejemplos: "nmero de huelgas" y "produccin de azcar". Si decimos
que el nmero de huelgas en una regin y en un periodo determinados es
A, estamos aportando informacin global del fenmeno, que es un dato
estadstico, no una variable. El nmero de huelgas se convierte en variable
si se estudia, digamos, en un periodo determinado y en diferentes
regiones, o en una sola regin y en diferentes periodos (anualmente,
sexenalmente, etc.). Lo mismo pasa si afirmamos que la produccin de
azcar en el ingenio X es B toneladas: se trata de un dato estadstico, no
de una variable. La produccin de azcar se convertir en variable cuando
se indague en diferentes fbricas y en un mismo momento o en una misma
fbrica y en distintos momentos.
Ahora bien, toda variable tiene dos niveles: uno conceptual o terico y otro
operacional o de medicin. Si nos preguntaran qu se entiende por
alcoholismo, por ejemplo, podramos decir que se trata de una enfermedad
progresiva y mortal, exclusiva de los seres humanos, que consiste en la
ingestin de bebidas alcohlicas. De ser ms o menos correcta esta
definicin, estaramos en el nivel estrictamente conceptual o terico, que
no permite efectuar ninguna medicin. Si, en cambio, a partir de este
concepto definimos al alcoholismo como el grado de dependencia de los
seres humanos respecto a la ingestin de bebidas alcohlicas, habremos
pasado del nivel conceptual a otro donde es posible medir, pues en una
poblacin dada encontraramos desde el que no ha bebido jams una gota
de alcohol, el abstemio, hasta el que no puede dejar de beber.

TECSUP - PFR

Estadstica y Probabilidades

La correspondencia entre el nivel terico y el operacional de una


variable se consigue mediante un procedimiento llamado medicin, que
no debe entenderse como un procedimiento arbitrario de asignacin de
nmeros u otros smbolos a las observaciones: esta asignacin se efecta
en concordancia con un conjunto de procedimientos admisibles para la
variable conceptual que s est manejando.
A nivel operacional o de medicin, variable es un conjunto de nmeros u
otros smbolo; asignados a las observaciones, que sirven para clasificarlas
con respecto a una variable conceptual Sin embargo, no ahondaremos en
esta cuestin; ser suficiente, por ahora, que sepamos identificar variables,
ya que del tipo a que pertenezcan depender el procedimiento estadstico
con que se le trate.
Tipos de variables
Segn su naturaleza las variables pueden clasificarse en:
a) Variables cuantitativas, son aquellas que consisten de nmeros que
representan conteos o mediciones. Las variables cuantitativas pueden
ser: Discreta, corresponde al conteo o numeracin de sucesos.
Ejemplos: nmero de computadores en un aula, nmero de artculos
defectuosos en un embarque, nmero de hijos por familia, etc.
Continua, corresponde a mediciones y por tanto sus valores estn
comprendidos en un intervalo ya que entre dos valores existen infinitos
valores intermedios.
Ejemplos: contenido neto en gramos en una lata de caf, dimetro de
un tornillo, ingreso familiar, etc.
b) Variables cualitativas se dividen en diferentes categoras que se
distinguen por alguna caracterstica no numrica. Ejemplos: genero,
nivel socio econmico, grado de instruccin, etc.
Observacin: Los datos pueden estar codificados numricamente,
sin que ello signifique que sea una variable cuantitativa.
Ejemplo. Clasifica las siguientes variables:

Marca de detergente que una ama de casa usa.


El grado de instruccin.
Nmero de artculos defectuosos producidos por una mquina en
un periodo de dos horas.
La longitud de 1000 tornillos con arandela y tuerca.

Segn la funcin que cumplen en el estudio:


Una distincin de particular importancia es aquella entre variables
dependientes e independientes. Los trminos dependiente e

Estadstica y Probabilidades

TECSUP - PFR

independiente se utilizan para


causalidad entre dos variables.

representar

una

relacin

de

El problema de la determinacin de causalidad (cules variables son


dependientes y cules independientes?) es uno de los problemas ms
serios que enfrenta la estadstica. El anlisis emprico o estadstico slo
puede decirnos si dos variables parecen estar relacionadas, pero no
puede decirnos: (a) si de hecho existe una relacin de dependencia y
(b) cul es la direccin de dicha relacin (cul es la causa y cul el
efecto o la variable causada). Necesitamos una teora para dar
plausibilidad a una relacin emprica.
Independiente (X):
Una variable independiente es aquella cuyo valor no depende del de
otra variable. La variable independiente se representa en el eje de
abscisas. Son las que el investigador escoge para establecer
agrupaciones en el estudio, clasificando intrnsecamente a los casos del
mismo.
Es aquella caracterstica o propiedad que se supone ser la causa del
fenmeno estudiado. En investigacin experimental se llama as a la
variable que el investigador manipula.
Dependiente (Y):
Una variable dependiente es aquella cuyos valores dependen de los
que tomen otra variable. La variable dependiente en una funcin se
suele representar por y. La variable dependiente se representa en el
eje ordenadas. Son las variables de respuesta que se observan en el
estudio y que podran estar influidas por los valores de las variables
independientes.
Hayman (1974: 69) la define como propiedad o caracterstica que se
trata de cambiar mediante la manipulacin de la variable
independiente.
La variable dependiente es el factor que es observado y medido para
determinar el efecto de la variable independiente.
Considere la siguiente cuestin: Es el aumento del ingreso per cpita
de un pas que causa mejoras en el nivel de educacin o la mejora en
el nivel de educacin que causa mejoras en el ingreso per cpita? O
tal vez un tercer factor es la causa de ambos? Cultura? Este complejo
y viejo debate no se puede resolver slo sobre la base del anlisis
estadstico, aunque la estadstica es un importante instrumento en
nuestros continuos esfuerzos por dilucidar estas cuestiones. El debate
mencionado ha persistido por dcadas, adems, porque muchas de las
teoras que han sido propuestas para explicar la relacin entre
educacin y desarrollo econmico no pueden ser refutadas slo sobre
la base del anlisis emprico.

TECSUP - PFR

Estadstica y Probabilidades

ESCALAS DE MEDICIN
La medicin de una variable consiste en asignar un valor a la caracterstica o
propiedad observada. Por ejemplo, si la caracterstica observada es el gnero
de las personas, al clasificar a una persona como de sexo femenino le
estamos asignando un valor, estamos haciendo una medicin de la
caracterstica.
El proceso de medicin utiliza diversas escalas: Nominal, Ordinal, Intervalo y
Razn.
Escala Nominal: Slo permite asignar un nombre, etiqueta o valor al
elemento sometido a medicin. Los nmeros que se puedan asignar a las
propiedades observadas en los elementos se utilizan slo como etiquetas con
la finalidad de clasificarlos. Con esta escala no tiene sentido realizar
operaciones aritmticas.
Por ejemplo:
Gnero (femenino, masculino), nacionalidad (peruano, colombiano, etc.),
marcas de gaseosa preferida (fanta, coca cola, pepsi etc.).
Escala Ordinal: Adems de asignar un nombre, etiqueta o valor, esta escala
permite establecer un orden entre los elementos sometidos a medicin. Con
esta escala solo se puede establecer una relacin de orden. Los nmeros que
se asignen a las propiedades deben respetar el orden de la caracterstica que se
mide.
Cada categora puede ser comparada con otra en relacin de mayor que o
menor que.
Por ejemplo:
Grado de satisfaccin (alto, medio, bajo), estado de salud (bueno, regular,
malo), grado de instruccin (primaria, secundaria, superior).
Escala de Intervalo: Adems de asignar un nombre o etiqueta y establecer
un orden entre los elementos, esta escala permite calcular diferencias entre los
nmeros asignados a las mediciones (el intervalo entre observaciones que se
expresa en trminos de una unidad fija de medida).
Los datos de intervalo siempre son numricos.
En esta escala el cero es relativo, es decir, no indica la ausencia de la
caracterstica medida.
Por ejemplo:
Temperatura (se puede medir en grado Celsius o grado Fahrenheit), ao
calendario (el ao puede referirse al calendario gregoriano o calendario chino),
en el caso de la escala de intervalos podemos asignar el cero a cualquier valor
posible (el cero es arbitrario).

Estadstica y Probabilidades

TECSUP - PFR

Escala de Razn: Una variable est medida en escala de razn si los datos
tienen todas las propiedades de los datos de intervalo y el cociente de los dos
valores es significativa. La escala de medicin de razn tiene las propiedades de
la escala de intervalo con la propiedad adicional de tener un punto de partida
natural o cero (cero absoluto), que indica que ausencia de la variable (no existe
nada para una variable).
Para esta escala de medicin, es posible establecer una relacin de
proporcionalidad entre sus distintos valores, es decir el cociente de los valores
es significativo.
Por ejemplo:
Costo de un automvil, nmero de aprobados, nmero de artculos
defectuosos.
2.

ESTADSTICA DESCRIPTIVA
La estadstica descriptiva se ocupa de la recopilacin, clasificacin, presentacin y
descripcin de los datos.
2.1 RECOPILACIN
Los datos pueden recopilarse de dos maneras fundamentales:
a) Si se consideran todos los elementos de la poblacin y se registran
sus caractersticas se denomina censo.
b) Si se seleccionan algunos elementos de la poblacin, pero no todos,
se denomina muestra y la informacin obtenida por este
procedimiento se llama por muestreo; si la recopilacin de los
elementos muestrales se efecta al azar se dice que el muestreo es
aleatorio y la muestra se denomina muestra aleatoria.
Un ejemplo de una recopilacin completa o censo es el Censo Poblacional
del Per realizado en el ao 1993.
2.2 CLASIFICACIN
Los datos obtenidos por observacin o medicin suelen ser registrados en
el orden en que se recopilan. Para facilitar su interpretacin y el anlisis
correspondiente deben ser clasificados y esto equivale a que los datos
deben ser organizados de alguna manera sistemtica o particionado en
clases bien definidas y una manera sencilla de hacerlo es ordenar los
datos segn su magnitud o agruparlos de acuerdo a sus caractersticas.

TECSUP - PFR

Estadstica y Probabilidades

2.3 PRESENTACIN DE DATOS


Una vez recolectados los datos y optado por su posible clasificacin es
necesario presentarlos en forma tal que se facilite su comprensin y su
posterior anlisis. Para ello se ordenan en cuadros numricos llamados
TABLAS (Tablas de frecuencias) y luego se presentan mediante GRFICAS
(de barras, sectores circulares, histograma, polgono de frecuencias, ojiva,
pictograma, etc.)

3.

ELABORACIN DE TABLAS SEGN LAS NORMAS APA


Cualquier forma de presentacin empleada en el trabajo tendr que ser
denominada Tabla o Figura. Segn las normas APA, generalmente las tablas
exhiben valores numricos exactos y los datos estn dispuestos de forma
organizada en lneas y columnas, facilitando su comparacin" (APA, 2001, p.
133). Ya las figuras son cualquier tipo de ilustracin que no sea tabla. Una
figura puede ser un cuadro, un grfico, una fotografa, un dibujo u otra forma de
representacin (APA, 2001, p. 149).
Ttulo de la tabla
El ttulo de la tabla debe ser breve, claro y explicativo. Debe ser puesto arriba de
la tabla, en el margen superior izquierdo, debajo de la palabra Tabla (con la
inicial en mayscula) y acompaado del nmero con que la designa (las tablas
deben ser enumeradas con nmeros arbigos secuencialmente dentro del texto y
en su totalidad). Ej.: Tabla 1, Tabla 2, Tabla 3, etc.
Citar tablas en el cuerpo del texto
Al citar tablas en el cuerpo del texto, escriba apenas el nmero correspondiente a
la tabla, por ejemplo: Tabla 1, Tabla 2, Tabla 3, etc. (la palabra Tabla tendr que
ser presentada con la inicial mayscula)
Nunca escriba "tabla abajo/arriba o tabla de la pgina xx, pues la numeracin de
las pginas del trabajo puede ser alterada.
Cuerpo de la fuente de la tabla
Times New Roman, tamao 10.
Fuente de las notas de la tabla
Times New Roman, tamao 9.
Notas de la tabla
Las tablas presentan tres tipos de notas: notas generales, notas especficas y
notas de probabilidad. Las notas son tiles para eliminar la repeticin en el
cuerpo de una tabla (APA, 2001, p. 147). Ellas son presentadas en el margen
izquierdo (sin sangra) debajo de la tabla (entre la tabla y la nota hay que inserir
dos espacios). Y deben ser ordenadas en esta secuencia: nota general, nota
especfica y nota de probabilidad, y cada tipo de nota debe ser puesta en una
lnea nueva.

Estadstica y Probabilidades

TECSUP - PFR

Notas generales: Una nota general cualifica, explica u ofrece informaciones


relacionadas a la tabla como un todo y finaliza con una explicacin de
abreviaturas, smbolos y afines (APA, 2001, p. 145).
Nota especfica se refiere a una columna, lnea o tem especfico y debe ser
indicada por letra minscula sobrescrita (a, b, c).
Nota de probabilidad indica los resultados de pruebas significativos y se
indican con asterisco sobrescrito (*).

Tabla N 1

Tabla N 2

4.

TABLA DE FRECUENCIAS PARA VARIABLES CUALITITATIVAS


Se deber representar en la tabla los diferentes valores que asume la variable
cualitativa y en la columna de las frecuencias absolutas simples la cantidad de
veces con las que aparece esta categora de la variable. Si la variable cualitativa
est medida en escala ordinal, tendr sentido mostrar las frecuencias

10

TECSUP - PFR

Estadstica y Probabilidades

acumuladas absolutas o relativas. Si la medicin est hecha en escala nominal


slo deber mostrarse las frecuencias absolutas simples y/o relativas.
Por ejemplo:
Tabla N 3
Calidad en el servicio en el servicio de atencin al cliente.

Opinin
Deficiente
Bueno
Excelente
Otros
Total

Frecuencia
20
35
65
40
160

Frecuencia relativa
20/160 = 0.1250
35/160 = 0.2188
0.4063
0.2500
1

Porcentaje
0.125*100 = 12.50 %
21.88 %
40.63 %
25.00 %

Fuente: Sabadini, (2013)

5.

ELABORACIN DE FIGURAS SEGN LAS NORMAS APA


Segn la APA, una figura es cualquier tipo de ilustracin que no sea tabla. Una
figura puede ser un cuadro, un grfico, una fotografa, un dibujo u otra forma de
representacin (APA, 2001, p. 149).
Tanto para las figuras como para las tablas el interlineados que se utiliza es
sencillo (1,0) o de uno punto cinco (1,5). Esto en el contenido de las tablas y
figuras como en las notas de las tablas, ttulo de tablas o figuras y leyendas.
Segn sea el caso.
Ttulo de la figura
El ttulo explica la figura de forma concisa, pero de forma discursiva. Debe ser
puesto debajo de la figura, con nmeros arbigos secuencialmente dentro del
texto como un todo, precedido por la palabra Figura (con la inicial en
mayscula). Ej.: Figura 1, Figura 2, Figura 3, etc.
Cualquier otra informacin necesaria para elucidar la figura (como la unidad de
medida, smbolos, escalas y abreviaturas) que no estn incluidas en la leyenda,
tendrn que ser colocadas luego del ttulo.
Cuerpo de la fuente de la figura
Times New Roman, tamao 10.
Leyenda
Se trata de la explicacin de los smbolos empleados en la figura y debe ser
puesto dentro de los lmites de la figura.
Citar figuras en el cuerpo del texto
Al citar figuras en el cuerpo del texto, escriba apenas el nmero correspondiente
a la figura, por ejemplo: Figura 1, Figura 2, Figura 3, etc. (la palabra Figura
tendr que ser presentada con la inicial mayscula)
Nunca escriba "figura abajo/arriba o figura de la pgina xx, pues la numeracin
de las pginas del trabajo puede ser alterada.

11

Estadstica y Probabilidades

TECSUP - PFR

Figuras reproducidas de otra fuente


Las figuras reproducidas de otra fuente deben presentar, debajo de la figura, la
referencia del autor original, aunque se trate de una adaptacin.
Ejemplos
Nota Fuente: Sabadini, A. A. Z. P., Sampaio, M. I. C., & Koller, S. H. (2009).
Publicar en psicologa: un enfoque para a revista cientfica (p.175). So Paulo:
Associao Brasileira de Editores Cientficos de Psicologa/Instituto de Psicologa
da Universidade de So Paulo.
Nota Fuente: Adaptado de Sabadini, A. A. Z. P., Sampaio, M. I. C., & Koller, S. H.
(2009). Publicar en psicologa: un enfoque para a revista cientfica (p. 176). So
Paulo: Associao Brasileira de Editores Cientficos de Psicologa/Instituto de
Psicologa da Universidade de So Paulo.

6.

REPRESENTACIN GRFICA DE VARIABLES CUALITATIVAS


6.1

DIAGRAMA DE BARRAS
Un diagrama de barras es una grfica para representar un conjunto de
datos cualitativos que se han resumido en una distribucin de frecuencias
absolutas, relativas o porcentuales. En uno de los ejes de la grfica, por lo
general el eje horizontal, se colocan las categoras de la variable y en el
otro eje de la grfica (por lo general el eje vertical) se pueden usar las
frecuencias absolutas, relativas o porcentuales. Luego, se construye una
barra de ancho fijo en cada categora y cuya altura corresponda a la
frecuencia utilizada en el grfico. Las barras deben estar separadas para
enfatizar el hecho que las categoras no se superponen.
Ejemplo:

Grfica 1. Rentabilidad por AFP del Sistema Privado de Pensiones


Fuente: Sabadini, (2013)

6.2

DIAGRAMA CIRCULAR
El diagrama circular, tambin llamado diagrama de pie, es otra forma de
representar la distribucin de frecuencias relativas o porcentuales. Para su

12

TECSUP - PFR

Estadstica y Probabilidades

construccin primero se traza un crculo y luego se divide en sectores


circulares de forma proporcional a la frecuencia relativa de cada categora.
Puesto que todo el crculo representa un ngulo de 360 en total cada
sector es el porcentaje correspondiente de dicho total, es decir, el ngulo
del sector que le corresponde a cada categora se obtiene multiplicando
360 por la respectiva frecuencia relativa.
Ejemplo:

Figura 2. Distribucin de la poblacin segn lugar de residencia


Fuente: Revista Per Econmico, (2004)

6.3

TABLAS DE FRECUENCIA PARA VARIABLES CUANTITATIVAS


Haremos algunas definiciones en base a un ejemplo: Clasificar los
siguientes datos recopilados del nmero de cabezas de ganado vacuno que
posee cada una de las 40 familias de las comunidades campesinas de la
Sierra Central del Per, tomados al azar.
1
4
0
5

2
3
0
4

3
5
9
8

5
12
0
11

1
10
1
0

0
4
3
1

8
3
13
3

1
0
1
8

2
10
3
0

Alcance (A): es el intervalo definido por los datos de mayor y menor


valor.
En el ejemplo:

0
3
4
6

A 0; 13

Intervalos de clase ( Ii ) y Lmites de clase ( Li ): clasificar los


datos en k grupos equivale a particionar el alcance A en k clases o k
y determinar cuntos datos
intervalos Ii ,donde: i=1, 2, ...,k
pertenecen a cada uno.

I i Li , Li 1 , i=1, 2, ...,k
Los intervalos semi-abiertos por la derecha Ii se denominan intervalos
de clase.

13

Estadstica y Probabilidades

TECSUP - PFR

Los Li , i=1, 2, ...,k+1 se denominan los lmites de clase.


El valor entero de k, fundamentalmente, depende del estadstico y/o
investigador, pero es recomendable utilizar la regla de Sturges para
determinar un valor aproximado de k:

k 1 3,3logn
Donde n es el nmero total de datos disponibles.
La frmula es un poco conservadora y nos da un nmero de intervalos
un poco menor del que se utiliza en la prctica. Cuando el nmero de
datos es menor que 100, el nmero de intervalos se debe tomar menor
que 10. Para un nmero de datos bastante grande, el nmero de
intervalos es mayor que 10, la prctica aconseja los siguientes lmites:
5 k 15 .
En el ejemplo:
k = 1 + 3,3 log(40) = 6,286
Luego k podr tomar valores enteros: 5, 6 o 7
Tomemos:

k=7.

Ancho de Clase ( Wi ): es la longitud de un intervalo de clase.

Wi l ( I i ) Li 1 Li
Para conseguir anchos de clase iguales (W ), como es deseable; se usa
la siguiente relacin:

l ( A)
, donde l ( A) es la longitud del alcance.
k

En el ejemplo:
W

13
1,857
7

tomamos W = 2

Frecuencia Absoluta (ni ): una vez decidido el valor de k y calculado


el ancho de clase. Mediante la tabulacin se determina el nmero de
datos contenidos en cada clase y este nmero entero se denomina
frecuencia absoluta( ni )

ni : frecuencia absoluta de i sima clase .

14

TECSUP - PFR

Estadstica y Probabilidades

Distribucin de Frecuencias Absolutas:


Tabla N 4

Cabezas de ganado

Tabulacin

N de familias por
clases

Intervalos de clase o
clases: Ii
[0; 2>

Frecuencias Absolutas:

[2; 4>

[4; 6>

[6; 8>

[8; 10>

[10; 12>

[12; 14>

TOTAL

40

En el ejemplo: n = 40

ni

14

,k=7

Se verifica que:

i
14
1
k
ni n1 n2 n3 n4 n5 n6 n7 14 9 7 1 4 3 2 40 n
i 1

n3= 3, se lee: la frecuencia absoluta de la tercera clase es


Los intervalos de clase son:
I1 0; 2 , I2 2; 4 , I3 4; 6 , I4 6;8 , I5 8;10 , I6 10;12 , I7 12;14

Los lmites de clase son:


L1 0, L2 2, L3 4, L 4 6, L5 8, L6 10, L7 12, L8 14

15

Estadstica y Probabilidades

TECSUP - PFR

Tabla N 5

Cabezas
de ganado

N de
familias

Marcas
de clase

Frecuencias
relativas

Frecuencias
relativas
acumuladas

Frecuencias
absolutas
acumuladas

Frecuencias
relativas
porcentuales

Frecuencias
relativas
acumuladas
porcentuales

Clases

ni

xi

hi

Hi

Ni

100hi%

100Hi%

[0; 2>

14

0,350

0,35

14

35

35

[2; 4>

0,225

0,575

23

22,5

57,5

[4; 6>

0,175

0,750

30

17,5

75

[6; 8>

0,025

0,775

31

2,5

77,5

[8; 10>

0,100

0,875

35

10

87,5

[10; 12>

11

0,075

0,950

38

7,5

95

[12; 14>

13

0,050

40

100

TOTALES

40

100

Sigamos con las definiciones, observando la tabla N2:


Marcas de Clase ( xi ): son los puntos medios de los intervalos de
clase.

xi

Li Li 1
2

i = 1, 2, ....., k

L L2 0 2
x1 1

1
2
2

L L3 2 4
x2 2

3
2
2

......

x3 = 5, se lee: la marca de clase del tercer intervalo de clase es 5


n
Frecuencias Relativas ( hi ): se define: hi i ; i = 1, 2, ....., k
n
n
14
h1 1
0,350
n
40
n
9
h2 2
0, 225
n
40

; .....

Se verifica que:
0 hi 1
k
hi h1 h2 h3 h4 h5 h6 h7 0,350 0,225 0,175 0,025 0,100 0,075 0,050 1
i 1

16

TECSUP - PFR

Estadstica y Probabilidades

h3= 0,175, se lee: la frecuencia relativa de la tercera clase es 0,175

Frecuencia Relativa Porcentual (100 hi%)


Nos permite contestar preguntas del siguiente tipo: Qu porcentaje
de familias, de las 40 bajo estudio, tienen 4 5 cabezas de ganado?
Respuesta: 17,5 %
Frecuencia Absoluta Acumulada ( Ni ):
Se define:
Ni = n1 + n2 + .... + ni

i = 1, 2, ....., k

En el ejemplo:
N1 n1 14
N2 n1 n2 14 9 23
N3 30,.... N7 40

Se verifica:
0 Ni 40
Nk N7 40

N 4 31, se lee: la frecuencia absoluta acumulada hasta la cuarta


clase es 31
Frecuencia Relativa Acumulada ( Hi ):
Se define:

H i h1 h2 ... hi

Hi

H1 h1 0,350
H2 h1 h2 0,575
H3 0,750,..... H7 1

Se verifica:
0 Hi 1

17

Ni
; i 1, 2, ... , k
n

Estadstica y Probabilidades

TECSUP - PFR

Hk H7 1

H 2 0,575, se lee: la frecuencia relativa acumulada hasta la


2da.clase es 0,575
Frecuencia Relativa Acumulada Porcentual (100 Hi%):
Nos permite contestar preguntas del siguiente tipo: Qu porcentaje
de familias, de las 40 bajo estudio tienen menos de 8 cabezas de
ganado?
Respuesta: 77,5 %
Grficas
Las distribuciones de frecuencias pueden ser representadas grficamente
mediante:
a) Histogramas
Son grficas de barras o rectngulos cuyas bases representan los
intervalos de clase y las alturas las frecuencias absolutas o relativas.

Ii

vs. ni

Ii

vs. hi

b) Polgonos de frecuencias

(Fig. 3)

,n

,h

i
i
i
i
Son polgonos construidos uniendo los puntos
mediante segmentos de recta, o uniendo los puntos medios de los
techos de los rectngulos del histograma. (Fig. N 3)

ni

ni

Histograma

15

15

Figura 3

10

10

10

12

14

Polgono de Frecuencias

Ii

18

Figura 4

10

12

14

Ii

TECSUP - PFR

Estadstica y Probabilidades

c) Diagramas escalonados o funciones escalonadas


Son grficas de barras o rectngulos cuyas bases representan los
intervalos de clase y las alturas las frecuencias absolutas o relativas
acumuladas.

Ii

vs. Ni

Ii

vs. H i

(Fig. 5)

d) Ojivas
Son poligonales asociadas a distribuciones de frecuencias absolutas o
relativas acumuladas construidas como aparece en la Figura 5.

Ojiva

Ni
Funcin Escalonada

Ni

40

40

30
30

20
20

10

10

10

12

14

Ii

Figura 5

Figura 6

19

10

12

14

Ii

Estadstica y Probabilidades

7.

TECSUP - PFR

PROBLEMAS PROPUESTOS
1.

En un artculo se report las siguientes observaciones, listadas en orden


creciente sobre la duracin de brocas (nmero de agujeros que una broca
fresa antes de que se rompa) cuando se fresaron agujeros en una cierta
aleacin de latn.
31
68
91
123
248

36
71
93
136
263

39
74
96
139
289

44
76
99
141
322

47
78
101
148
388

5
7
10
15
51

14
61
84
105
168

a.

Por qu una distribucin de frecuencia no puede estar basada en los


intervalos de clase 0-50, 50-100, 100-150 y as sucesivamente?
Construya una distribucin de frecuencia e histograma de los datos con los
lmites de clase 0, 50, 100, . . . y luego comente sobre las caractersticas
interesantes.
Construya una distribucin de frecuencia e histograma de los logaritmos
naturales de las observaciones de duracin y comente sobre
caractersticas interesantes.
Qu proporcin de las observaciones de duracin en esta muestra son
menores que 100? Qu proporcin de las observaciones son de por lo
menos 200?

b.
c.
d.

20
65
85
112
184

23
67
89
118
206

11
59
81
105
161

2.

Un diagrama de Pareto es una variacin de un histograma de datos


categricos producidos por un estudio de control de calidad. Cada categora
representa un tipo diferente de no conformidad del producto o problema de
produccin. Las categoras se ordenaron de modo que la categora con la
frecuencia ms grande aparezca a la extrema izquierda, luego la categora
con la segunda frecuencia ms grande, y as sucesivamente. Suponga que se
obtiene la siguiente informacin sobre no conformidades en paquetes de
circuito: componentes averiados, 126; componentes incorrectos, 210;
soldadura insuficiente, 67; soldadura excesiva, 54; componente faltan- te,
131. Construya un diagrama de Pareto.

3.

Los accidentes en una planta de papas fritas se clasifican de acuerdo con la


parte del cuerpo lesionada.
Dedos: 17
Brazos: 2

Ojos: 5
Piernas: 1

Trace un diagrama de barras


4.

Los siguientes datos constituyen las vidas tiles en horas de una muestra
aleatoria de 60 bombillas de luz de 100 watts:
807
660
881

811
753
872

620
1050
869

650
918
841

815
850
863

20

725
876
842

743
1027
851

703
889
837

844
878
822

907
890
811

TECSUP - PFR

Estadstica y Probabilidades

766
1056
832

5.

787
1076
863

923
958
852

792
970
788

799
765
968

816
740
678

758
891
865

817
1075
759

753
1074
923

a)

Constryase una distribucin de frecuencias con anchos de clases


iguales

b)

Trcese el polgono de frecuencias sobre un Histograma de intervalos de


clases vs. frecuencias relativas.

c)

Trcese la ojiva asociada a la funcin escalonada representando


intervalos de clases vs. frecuencias absolutas acumuladas.

La siguiente tabla muestra la distribucin de los empleados de una compaa


aseguradora por sueldos mensuales en nuevos soles (ao 2001)
Clases
menos de 450
450 a menos de 900
900 a menos de 1350
1350 a menos de 1800
1800 a menos de 2500
2500 a menos de 4250
4250 a ms
TOTAL

a)

937
896
817

Frecuencias
32
47
75
89
126
38
10
417

Qu porcentaje de empleados ganan sueldos mensuales inferiores a 900


nuevos soles?. Qu porcentaje ganan 2500 nuevos soles o ms?

b) Qu porcentaje de empleados ganan entre 1350 y 4250 nuevos soles?


c)

Determinar los anchos y las marcas de clase.

Nota. Se averigu que el mximo haber percibido en la compaa es de 5500


nuevos soles. Si no se tiene ninguna informacin se asume un mximo
valor de acuerdo al problema en cuestin; as como se supondr cero,
como el haber mnimo.
6.

Para un estudio sobre resistencia de un metal, se han realizado cien


experiencias de rotura frente a la carga de un hilo del mismo grosor, y han
sido anotados los pesos lmites en cada caso.

21

Estadstica y Probabilidades

TECSUP - PFR

Cargas de rotura de un hilo en gramos


711
915
853
789
941

862
873
700
790
909

851
926
885
753
784

912
864
857
910
882

922
800
844
847
859

791
931
907
784
903

825
722
917
936
925

935
774
786
706
704

895
903
820
758
792

758
925
930
887
888

890
763
892
914
889

925
805
893
794
791

895
796
915
931
782

768
759
890
701
713

869
916
888
772
724

892
853
865
935
868

895
789
909
887
842

912
943
931
880
892

850
712
710
933
905

920
764
798
905
792

a)

Reagrupar estos datos en 7 intervalos de clase de igual longitud.

b) Trcese el histograma y el polgono de frecuencias.


c)

Trcese la ojiva correspondiente, y conteste:

Qu porcentaje presentan una carga no menor de 770 gramos?


Qu porcentaje presentan una carga entre 800 y 900 gramos?
7.

8.

Las distribuciones cualitativas o por categoras se suelen presentar en


diagramas de sectores en la que un crculo aparece dividido en sectores
proporcionales en su abertura a las frecuencias de las categoras que
representan:
a)

Construir un diagrama de sectores para trasmitir la informacin de que


(segn las cifras ms recientes disponibles) en el Per el nmero total
de botellas de vino consumidas provienen el 69% de ICA, el 18% de
otras partes del pas, el 5% se importan de Francia y el resto de otros
pases.

b)

Dibujar un diagrama de sectores para mostrar que en un hospital de


una gran ciudad la distribucin de su presupuesto es como sigue: 73%
de sueldos, honorarios profesionales mdicos y bonificaciones a los
empleados; 13% en suministros y equipo mdico y quirrgico; 8% en
mantenimiento, alimentacin y energa y el 6% en gastos
administrativos.

En 1972, la poblacin activa de Francia estaba compuesta de:

11,1% de agricultores,
10,6% de patronos,
16,5% de ejecutivos,
16,7% de empleados,
38,6% de obreros,
6,5% de personal de servicios y otras categoras.

22

TECSUP - PFR

Estadstica y Probabilidades

Representar esta distribucin mediante el grfico que parezca ms


adecuado.
9.

Las prdidas en una fbrica de papel (en miles de dlares) debidas a


rasgaduras pueden dividirse segn el producto:
Papel higinico: 132
Servilletas: 43

Toallas desechables: 85
Otros: 12 productos

a)

Trace un diagrama en barras.

b)

Qu porcentaje de las prdidas ocurre en la elaboracin de papel


higinico?.

c)

Qu porcentaje de las prdidas ocurre en la elaboracin de papel


higinico o toallas desechables?

10. Los pesos de ciertos especimenes minerales, dados en la dcima ms


cercana de una onza, se agrupan en una tabla con los intervalos: 10,5
11,4; 11,5 12,4; 12,5 13,4; y 13,5 14,4 onzas.
a)
b)

Determine las marcas de clase.


Es posible determinar a partir de los datos agrupados cuntos
especimenes minerales pesan?:

Menos de 11, 5 onzas.


Ms de 11,5 onzas.
Al menos 12,4 onzas.
Cuando mucho 12,4 onzas.
De 11,5 a 13,5 onzas?

11. Los siguientes datos son las velocidades (en km/h) de 80 carros que pasaron
por un punto de control de velocidad:
60
40
49
102
70
25
120
60

30
54
49
60
60
70
45
70

31
38
85
80
31
108
39
100

60
35
83
35
65
26
83
55

45
27
30
28
34
24
65
50

20
45
40
60
73
27
72
63

34
40
46
82
68
40
46
64

29
55
105
72
81
75
62
65

35
45
29
63
65
43
43
61

20
60
38
36
80
85
63
69

Clasifique estos datos convenientemente y:


a) Muestre el histograma y el polgono de frecuencias correspondiente.

23

Estadstica y Probabilidades

TECSUP - PFR

b) Disee la funcin escalonada y la ojiva respectiva.


c) Los carros con velocidades mayores a 80 km/h, son multados por
exceso de velocidad. Qu porcentaje sern multados?
d) Los carros con velocidades entre 45 y 70 km/h, van a ser
considerados en premios organizados por una compaa. Qu
porcentaje sern premiados?
12. El grfico muestra el impuesto mensual (en soles) que debe pagar una
persona, segn su sueldo mensual (en soles):
IMPUESTO
900

360

120

1000

2200

3400

4000

SUELDO

Cunto de impuesto mensual paga una persona que gana s/.1500? Cunto
gana una persona que paga mensualmente s/.300 de impuesto?
13. La siguiente tabla de frecuencias muestra los haberes mensuales de 200
obreros de cierta fbrica, en nuevos soles (ao2000)
Haberes mensuales

Nmero de obreros

Menores a 500

500 , 700
700 , 900
900 , 1100
1100 ,1300
1300 ,1500
1500 ,1700

60
40
48
24
14
8

ms de 1700

TOTAL

200

24

TECSUP - PFR

Estadstica y Probabilidades

Con referencia a esta tabla, contestar:


a)

Qu porcentaje de obreros tienen haberes inferiores a s/.1000


mensuales?

b)

Qu porcentaje de obreros tienen haberes superiores a s/.1100


mensuales?

c)

Qu porcentaje de obreros tienen haberes entre 1000 a 1500 soles


mensuales?

d)

Graficar el histograma, el polgono de frecuencias y la ojiva


correspondientes.

25

Estadstica y Probabilidades

TECSUP - PFR

ANOTACIONES:

26

TECSUP - PFR

Estadstica y Probabilidades

UNIDAD II

MEDIDAS RESUMEN
En esta etapa nos ocuparemos del clculo y estudio de los estadgrafos.

Tabla N 1

Estadgrafos.- Son nmeros que describen alguna caracterstica de la muestra y se


obtienen a partir de los datos muestrales o experimentales. Existen bsicamente dos
tipos de estadgrafos:
a)

Estadgrafos de Posicin: Localizan el centro de la distribucin de frecuencias.


Se denominan tambin medidas de tendencia central o de localizacin. Ejemplos:
media, mediana, moda, cuartiles, deciles, etc.

b)

Estadgrafos de Dispersin: Nos indican como estn dispersos los datos con
respecto a algn estadgrafo de posicin. Miden el grado de variabilidad de los
datos alrededor de alguna medida de tendencia central, por esta razn, se les
denomina tambin estadgrafos de variabilidad. Ejemplos: rango, la desviacin
media, varianza, desviacin tpica, coeficiente de variacin, rango intercuartlico,
etc.

1.

MEDIA ( x )
Llamada tambin media aritmtica o promedio aritmtico es un estadgrafo que
localiza el centro de la distribucin en base a su centro de gravedad y se
obtiene a partir de las siguientes frmulas.

27

Estadstica y probabilidades

TECSUP - PFR

Para datos no clasificados:


Sean x1 , x2 ,..., xn las variables matemticas que representan los

datos

muestrales, entonces:

x
i 1

Para datos clasificados:


k

xn

i i

i 1

x xi hi

i 1

Donde:

k : nmero de clases

x1 , x2 ,..., xk : marcas de clase

n: nmero total de datos n1 , n2 ,..., nk : frecuencias absolutas

h1 , h2 ,..., hk : frecuencias relativas.

Media Ponderada:
k

x P
i 1
k

i i

P
i 1

Siendo

pesos

P1 , P2 ,..., Pk

asociados

las

variables

x1 , x2 ,..., xk

respectivamente.

Media global:
Si una muestra de tamao n se particiona en k submuestras y x1 , x 2 ,..., x k
son

las

medias

de

las

submuestras

de

tamaos

n1 , n 2 ,..., n k

respectivamente.
k

Entonces:
particionada.

i 1

ni xi
n

se denomina la media global de la muestra

Ejemplos:

28

TECSUP - PFR

Estadstica y Probabilidades

Media de datos no clasificados:

x1 9 ,

x2 5 ,

x3 3 ,

x4 10 ,

x5 8

5
xi
x x2 x3 x 4 x5 9 5 3 10 8
x i 1 1

7
5
5
5

Media de datos clasificados:


Halle la velocidad media de los 30 carros que pasaron por un punto de
control de velocidad, del problema 2.
Use las frmulas que incluyen frecuencias absolutas y relativas.
Tabla N 2

Intervalos
de clase
[10, 26

ni

[26, 42

12

[42, 58

[58, 74

[74, 90

[90, 106

Total

30

xini
1356
i
x 1

45, 2
n
30

x xihi 45,15
i 1

Media ponderada:
Tabla N 3

Notas

Pesos

xi

Pi

xi Pi

05
13

1
3

5
39

44

Ex. Parcial
Ex. Final

k
xiPi
44
x i 1

11
k
4
Pi
i 1

29

Estadstica y probabilidades

TECSUP - PFR

Media Global:
Si una muestra de tamao 60 se divide en 5 sub-muestras de tamaos 8, 18,
12, 9, 13 con medias 15, 14, 12, 8,11 respectivamente. Entonces, la media
global ser:
xini
8 * 15 18 * 14 12 * 12 9 * 8 13 * 11 731
i
x 1

12,18
n
60
60

2.

MEDIANA

(Xm)

La mediana es un valor que divide a un conjunto de observaciones ordenadas en


forma ascendente o descendente en dos grupos de igual nmero de
observaciones.

Para datos no clasificados:


Sean x1 , x 2 ,..., x n los datos muestrales tales que x1 x 2 ... x n . Entonces:

Xm

x n 1

; si n es impar

1
( xn xn 2 )
2 2
2

; si n es par

En palabras: una vez ordenados los datos en orden creciente (o decreciente)


de sus magnitudes:
Si n es impar, la mediana es el valor del dato que equidista de los extremos.
Si n es par, la mediana es el promedio aritmtico de dos datos consecutivos
equidistantes de los extremos.
Ejemplos:
Hallar la mediana de los siguientes conjuntos de datos:
{ 10, 9, 3, 6, 14 }
Previamente ordenamos los datos:
x1 3

x2 6

x3 9

x 4 10

x5 14

como n es impar ( n = 5 )

X m x 5 1 x3 9
2

30

TECSUP - PFR

Estadstica y Probabilidades

{ 5, 10, 29, 43, 21, 17 }


Previamente ordenados los datos:
x1 5

x 2 10

x3 17

x 4 21 x5 29

x 6 43

como n es par ( n = 6 ) Xm 19

Para datos clasificados:


Est dada por la frmula:

N m 1

X m Lm Wm 2
nm

donde:

Lm

: Lmite inferior de la clase mediana (*)

: Nmero total de datos

N m 1 : Frecuencia absoluta acumulada hasta la clase inmediata


m 1

anterior a la clase mediana

N m 1 ni
i 1

nm

: Frecuencia absoluta de la clase mediana.

Wm

: Ancho de clase de la clase mediana:

Wm Lm 1 Lm

2.1 CLASE MEDIANA


Es el intervalo de clase que contiene el dato que ocupa la posicin media o
central. Se identifica observando las frecuencias acumuladas absolutas o
relativas y es aquella que hasta ese nivel acumul la mitad del nmero

n
total de datos ( 2 0,5) o super por primera vez a la mitad.
Clase mediana=

[ Lm , Lm 1 ;

X m [ Lm , Lm 1

Ejemplo:

31

Estadstica y probabilidades

TECSUP - PFR

Tabla N 4

Velocidades en
Km/h
[10, 26
[26, 42
[42, 58
[58, 74
[74, 90
[90, 106
Total

ni

Ni

Hi

4
12
7
4
2
1
30

4
16
23
27
29
30

0,133
0,533
0,766
0,899
0,966
1

n 30

15
2
2

La frecuencia absoluta acumulada correspondiente a la segunda clase (N2


= 16), supera por primera vez a 15; o la frecuencia relativa acumulada a la
segunda clase (H2 = 0,533), supera por primera vez a 0,5.
Luego la clase mediana es [26;42>.

Lm 26

n = 12

Wm 16
nm 12
N m 1 4
30

2 4
Xm 26 16
40, 67
12

Ni
30
25
20
15
10
5

10

26

32

42

58

74

90

106

Ii

TECSUP - PFR

Estadstica y Probabilidades

2.2 MEDIANA COMO UNA MEDIDA DE TENDENCIA CENTRAL MS


REPRESENTATIVA
La media es un estadgrafo bastante sensible a los valores extremos y
como medida del centro de gravedad de la distribucin tiende a inclinarse
a los datos de mayor valor. Si existen valores extremos que difieren
considerablemente del resto no localiza como se debe el centro de la
distribucin. En tanto que la mediana por no ser sensible a los valores
extremos y localizar el centro de la distribucin en base a la posicin
central que ocupa resulta siendo mejor que la media o ms representativa
en el sentido que localiza mejor el centro de la distribucin; pero, en
general, la media es ms representativa que la mediana, como estadgrafo
de localizacin:
Ejemplo:
Un empleador dice que el promedio mensual de salario pagado a los
ingenieros de su firma es de 3 500, esto sugiere que esta firma paga bien.
Sin embargo, un examen posterior indica que se trata de una pequea
compaa que emplea 5 jvenes ingenieros con 1 000 soles de haber
mensuales c/u y la renta del ingeniero Jefe es de 16 000 soles mensuales.
Ud. puede seguir afirmando que la firma paga bien?. No.
Halle la mediana y compare, cul de los estadgrafos es ms
representativo?

X 3500;
x1 1000,

x2 1000,

x3 1000,

x 4 1000,

x5 1000,

x 6 16 000

X m = 1000
En este caso, la mediana es la ms representativa en el sentido que localiza
mejor que la media el centro de los datos bajo consideracin.
Existe un valor extremo bastante discrepante o exagerado ( x6 16 000).
2.3 USOS DE LA MEDIA ARITMTICA

La media de la muestra se usa cuando se necesita una medida de


tendencia central que no vare mucho entre una y otra muestra
extrada de la misma poblacin, esta es la razn para preferirla
cuando se desea la mxima confiabilidad en la estimacin de la
media poblacional.

Tambin se usa la media cuando la distribucin de frecuencias de los


datos es simtrica o tiene poca asimetra.

Se calcula la media cuando en un estudio tambin se debe calcular la


varianza o la desviacin estndar.
33

Estadstica y probabilidades

TECSUP - PFR

2.4 USOS DE LA MEDIANA

3.

Se prefiere a la mediana como medida de concentracin, cuando en


los datos existen valores extremos muy grandes o muy pequeos, o
sea, valores muy altos o muy bajos que obligan a la media aritmtica a
desplazarse a la derecha o izquierda del punto medio de la
distribucin. En cambio la Mediana siempre seala al punto que divide
a los datos en dos partes iguales: 50% a un lado y 50% al otro, sin
importar donde se halle ese punto.

Cuando simplemente necesitamos conocer si los datos que nos


interesan estn dentro de la mitad superior o inferior de la distribucin
de los datos y no tiene importancia saber particularmente su
alejamiento con respecto al centro de la distribucin.

MODA ( M o )
La moda es un valor de la variable que tiene la ms alta frecuencia, esto es, es el
valor ms frecuente de la distribucin.
Si la distribucin de frecuencias tiene un solo mximo (mximo absoluto), se dice
que la distribucin es unimodal; en cambio si tiene ms de un mximo (mximos
relativos), se dice que la distribucin es multimodal.
Si todas las frecuencias son iguales se dice que la distribucin no tiene moda y se
trata de una distribucin uniforme.
a)

Para datos no clasificados

Determinar la moda del siguiente conjunto de datos:


2, 2, 3, 4, 5, 5, 6, 7, 7, 7, 9, 9, 12.
La moda es el nmero 7 porque es el dato ms repetido (3 veces).
Esta distribucin se llama unimodal porque slo posee una moda.

El siguiente conjunto de datos no tiene moda.


15, 19, 20, 35, 47, 58, 63.
Porque ninguno de ellos est repetido

La siguiente distribucin es bimodal es decir, tiene dos modas:


8, 9, 9, 13, 13, 13, 18, 20, 24,24,24, 33, 59, 78, 78.
Mo = 13 y tambin Mo = 24

34

TECSUP - PFR

Estadstica y Probabilidades

La siguiente distribucin es trimodal:


4, 8, 8, 8, 8, 15, 15, 15, 20, 20, 21, 21, 21, 21,32, 40, 40,40, 40, 80, 80,
90.
Mo = 8, Mo = 21, Mo = 40 Tiene tres modas.

b) Para datos clasificados

1
M o Li Wi
1 2

I i [ Li , Li 1 : clase modal, es aquella que tiene la frecuencia mxima


Li : lmite inferior de la clase modal.
Wi : ancho de la clase modal
1 ni ni 1 : exceso de la frecuencia modal sobre la frecuencia de la clase
contigua inferior.
2 ni ni 1 : exceso de la frecuencia modal sobre la frecuencia de la clase
contigua superior.
Ejemplo:
Determinar la moda de la siguiente distribucin de frecuencias:
Tabla N 5

Ii

ni

[12,5

20,5

[20,5

28,5

[28,5 36,5

22

[36,5 44,5

26

[44,5 52,5

20

[52,5 60,5

12

[60,5 68,5

[68,5

76,5

TOTALES

La clase modal ser: I = [36,5; 44,5


Adems es una distribucin unimodal.

35

Estadstica y probabilidades

TECSUP - PFR

1 =

26 -22 = 4

2 =

26 -20 = 6

1
4
Mo 36,5 W
36,5 8
39,7

4 6
1
2
ni

Ii

4.

CUARTILES (QI)
Son medidas de posicin que dividen en cuatro partes iguales al conjunto de
valores ordenados en una distribucin de frecuencias. Estas medidas son: el
primer Cuartil Q1, el segundo Cuartil Q2 y el tercer Cuartil Q3
25%

Q1

Q2

25%

Q3
75%

Las frmulas para calcular los cuartiles se derivan de la frmula utilizada para
calcular la mediana y los pasos para el clculo son los mismos:
Para el primer cuartil: Para el tercer cuartil:

N i 1

Q1 Li Wi 4
ni

3n

N i 1

Q3 Li Wi 4
ni

Ejemplo
A partir de la siguiente tabla determinar el 25% inferior y el 25% superior.

36

TECSUP - PFR

Estadstica y Probabilidades

Tabla N 6

Altura en pulgadas

ni

Ni

Hi

[60, 63

0,05

[63, 66

18

23

0,23

[66, 69

42

65

0,65

[69, 72

27

92

0,92

[72, 75

100

TOTALES

Para determinar el 25% inferior debemos calcular el primer cuartil.


Para determinar el 25% superior debemos calcular el tercer cuartil
Clculo de Q1 :
n 100

25 . Luego tomamos la clase: I = [66; 69


4
4

Luego:
100

4 23
Q1 66 3
66,14
42

Clculo de Q3 :
3n 3x100

75 . Luego tomamos la clase: I = [69; 72


4
4

Luego:
3x100

4 65
Q3 69 3
70,11
27

5.

DECILES ( DI )
Son medidas de posicin que dividen en 10 puntos iguales al conjunto de los
valores ordenados de una distribucin de frecuencias. Estas medidas son: el
primer decil D1, el segundo decil D2 y as sucesivamente hasta el noveno decil D9.
El primer decil distribuye al lado izquierdo el 10% de los datos y al otro lado el
90%, es decir, ocupa la posicin n/10.
En igual forma para los dems deciles hasta el noveno decil 9n/10 que deja a la
izquierda el 90% de los datos y a la derecha el 10%.

37

Estadstica y probabilidades

TECSUP - PFR

30%

D1

D2

D3

D4

D5

10%

D6

D7

D8

D9

90%

Entre cada dos deciles consecutivos debe encontrarse comprendido el 10%


del nmero de datos.
La frmula para calcular deciles es:

rn

N i 1

Dr Li Wi 10

ni

Donde:
Dr = el decil buscado.
Li = lmite inferior del intervalo donde se halla el decil buscado
r = indica el decil. Por ejemplo si queremos el tercer decil r = 3.

rn
indica la situacin del decil, es decir, la clase donde est el decil
10
Los dems signos: n , Ni-1 , Wi , ni tienen los mismos significados que para
el caso de la mediana.
Ejemplo
Se presenta la distribucin de frecuencias de los puntajes obtenidos por 250
alumnos en una prueba de rendimiento de Fsica. Determinar qu puntajes
deben tener los que se hallen en el 20% inferior y cules puntajes los que
se encuentren en el dcimo superior.

38

TECSUP - PFR

Estadstica y Probabilidades

Tabla N 7

Intervalos

40; 45
45; 50
50; 55
55; 60
60; 65
65; 70
70; 75
75; 80
80; 85
85; 90
Totales

ni

Ni

10

14

18

32

25

57

46

103

53

156

37

193

29

222

18

240

10

250

250

Primero debemos determinar el segundo decil a fin de determinar el 20%


inferior.
Clculo de D2:
2n 2x250

50 ; Luego el segundo decil est en la clase: I = [55, 60


10
10
50 32
Por frmula:
D 55 5
58, 6
25

Para hallar los que se encuentran en el dcimo superior calculamos el


noveno decil.
Clculo de D9:
9n 9x250

225 ; Luego el noveno decil est en la clase: I = 80; 85


10
10
225 222
Por frmula:
D 80 5
80,83
18

CARACTERSTICAS DE DISPERSIN
Las dos siguientes series de datos:

39

Estadstica y probabilidades

TECSUP - PFR

Tienen la misma media aritmtica y la misma mediana (100). Sin embargo


difieren profundamente. Lo que las hace diferentes es lo que, en estadstica,
se llama dispersin; la segunda serie es mucho ms dispersa que la primera.
Es pues importante resumir una serie estadstica no slo por caractersticas
de tendencia central, sino por caractersticas de dispersin. Veremos de dos
tipos: las ligadas a la media: desviacin tpica; las ligadas a la mediana:
intervalo intercuartlico, intervalo interdeclico.
6.

MEDIDAS DE DISPERSIN

Varianza ( S x2 V( x ) )
Se define:

V( x )

n
2
( xi x)
i 1

2
n
Sx k
( xi x) 2 ni
i 1

, datos no clasifcados

, datos clasificados

Se interpreta como la media aritmtica de los cuadrados de las desviaciones


de las xi con respecto a x .
A menudo el clculo de la varianza es muy laborioso, sobre todo si la media
no es entera, para facilitar los clculos podemos usar una segunda forma:
k

V( x )

n x

2
i i

i 1

x ; datos clasificados

Desviacin Tpica

S x

S x V( x )
Una idea sencilla del significado de la desviacin tpica se obtiene cuando se
comparan dos series de la misma naturaleza: la que posee una desviacin
tpica ms alta es la ms dispersa.

Coeficiente de variacin (C.V.)

C.V .

Sx
x

40

TECSUP - PFR

Estadstica y Probabilidades

Generalmente se expresa en porcentajes. Es til para la comparacin en


trminos relativos del grado de concentracin en torno a la media de dos
distribuciones distintas.

Rango o extensin (e)


Indica la extensin del intervalo en donde se halla toda la poblacin
estudiada.
e = Lk L1 =l(A)
Por ejemplo de la Tabla N8, tenemos e = 90 - 40 = 50

Rango interdeclico = D9 D1
Rango intercuartlico = Q3 Q1
Por ejemplo, a partir de la tabla N8, tenemos:
Rango intercuartil = 74,26 60.97 = 13,99
Rango interdeclico = 80,83 53,06 = 27,77
7.

GRFICAS DE CAJA
Los histogramas transmiten impresiones un tanto generales sobre un conjunto
de datos, mientras que un resumen nico tal como la media o la desviacin
estndar se enfoca en slo un aspecto de los datos. En aos recientes, se ha
utilizado con xito un resumen grfico llamado grfica de caja para describir
varias de las caractersticas ms prominentes de un conjunto de datos. Estas
caractersticas incluyen 1) el centro, 2) la dispersin, 3) el grado y naturaleza de
cualquier alejamiento de la simetra y 4) la identificacin de las observaciones
extremas o apartadas inusualmente alejadas del cuerpo principal de los datos.
Como incluso un solo valor extremo puede afectar drsticamente los valores de x y s, una grfica de caja est basada en medidas resistentes a la presencia de
unos cuantos valores apartados, la mediana y una medida de variabilidad
llamada dispersin de los cuartos.
Se ordenan las observaciones de la ms pequea a la ms grande y se separa la
mitad ms pequea de la ms grande; se incluye la mediana Xm en ambas
mitades si n es impar. En tal caso el cuarto inferior es la mediana de la mitad
ms pequea y el cuarto superior es la mediana de la mitad ms grande. Una
medida de dispersin que es resistente a los valores apartados es la dispersin
de los cuartos fs o tambin conocido como rango intercuartilico, dada por:
fs = cuarto superior cuarto inferior

41

Estadstica y probabilidades

TECSUP - PFR

Ejemplo
Se utiliz ultrasonido para reunir los datos de corrosin adjuntos de la placa de
piso de un tanque elevado utilizado para almacenar petrleo crudo (Statistical
Analysis of UT Corro- sion Data from Floor Plates of a Crude Oil Aboveground
Storage Tank, Materials Eval; 1994: 846-849); cada observacin es la
profundidad de picadura ms grande en la placa, ex- presada en milsimas de
pulgada.
40 52 55 60 70 75 85 85 90 90 92 94 94 95 98 100 115 125 125
El resumen de cinco nmeros es como sigue:
xi ms pequea = 40
xi ms grande = 125
cuarto inferior = 72.5
cuarto superior = 96.5
Mediana = Xm = 90
La figura muestra la grfica de caja resultante. El lado derecho de la caja est
mucho ms cerca a la mediana que el izquierdo, lo que indica una asimetra
sustancial en la mitad derecha de los datos. El ancho de la caja (fs) tambin es
razonablemente grande con respecto al rango de datos (distancia entre las
puntas de los bigotes).

Figura 1. Grfica de caja de los datos de corrosin

8.

ASIMETRA
Es la deformacin horizontal de las curvas de frecuencias.
Cuando la curva est inclinada o alargada hacia la derecha se denomina
asimetra a la derecha o asimetra positiva (Fig.2). Observamos que la media
aritmtica queda hacia el lado ms largo (el derecho) y que x X m M o .
Cuando la curva est inclinada o alargada al lado izquierdo se denomina
asimetra a la izquierda o negativa (Fig.3). Notamos que la media aritmtica est
del lado ms largo (el izquierdo) y que x X m M o .

42

TECSUP - PFR

Estadstica y Probabilidades

En la Fig. 4 observamos que la curva est igualmente inclinada a los dos lados
por eso se llama curva simtrica. En este caso: x X m M o

Fig. 1

Fig. 2

Mo Md x

Fig. 3

x Md Mo

x
Md
Mo

Primer coeficiente de Asimetra de Pearson

AS1

Media Moda
desviacin estndar

AS1

x Mo
Sx

Notar que el valor del Primer coeficiente de Asimetra de Pearson nos indica el
tipo de asimetra que tendr la curva.
Ejemplo:
Considerando la tabla del Problema 1, calcular: la varianza, la desviacin tpica,
el coeficiente de variacin, el rango, el rango intercuartil, el rango interdeclico y
con ayuda del primer coeficiente de Pearson indicar que tipo de asimetra
presenta a la curva.
Tabla N 9

Ii

10; 26
26; 42
42; 58
58; 74
74; 90
90;106
Total

ni

xi

xi X 2 ni

xi.ni

ni xi2

18

2959,36

72

1296

12

34

1505,28

408

13872

50

161,28

350

17500

66

1730,56

264

17424

82

2708,48

164

13448

98

2787,84

98

9604

11852,8

1356

73144

30

43

Estadstica y probabilidades

V(x)

TECSUP - PFR

11852,8
395,09
30

Sx

V(x)

395,09 19,88

19,88
C.V.

0, 44
45, 2
X
e l(A) 105 10 95

30

4 4
Q1 26 16
30, 67
12

90

4 16
Q3 42 16
56,86
7

RIQ Q3 Q1 56,86 30,67 26,19

30

10 0
D1 10 16
22
4

270

10 23
D9 58 16
74
4

RID D9 D1 74 22 52

AS1

1356
45, 2
30

8
M0 26 16
35,85
8 5

Sx

AS1

73144
45, 22 395,09
30

X Mo
Sx
45, 2 35,85
0, 47
19,88

44

TECSUP - PFR

Estadstica y Probabilidades

Asimetra a la derecha o positiva.


9.

VALORES APARTADOS O ANMALOS


Grficas de caja que muestran valores apartados
Una grfica de caja puede ser embellecida para indicar explcitamente la
presencia de valores apartados. Muchos procedimientos inferenciales se basan
en la suposicin de que la distribucin de la poblacin es normal (un cierto tipo
de curva en forma de campana). Incluso
DEFINICIN
Cualquier observacin a ms de 1.5 fs del cuarto ms cercano es un valor
apartado (o atpico). Un valor apartado es extremo si se encuentra a ms de
3fs del cuarto ms cercano y moderado de lo contrario.
Un solo valor apartado extremo que aparezca en la muestra advierte al
investigador que tales procedimientos pueden ser no confiables y la presencia de
varios valores apartados transmite el mismo mensaje.
Modifquese ahora la construccin previa de una grfica de caja trazando un
bigote que sale de cada extremo de la caja hacia las observaciones ms
pequeas y ms grandes que no son valores apartados. Cada valor apartado
moderado est representado por un crculo cerrado y cada valor apartado
extremo por uno abierto. Algunos programas de computadora estadsticos no
distinguen entre valores apartados moderados y extremos.
Ejemplo
Los efectos de descargas parciales en la degradacin de materiales para
cavidades aislantes tienen implicaciones importantes en relacin con las
duraciones de componentes de alto voltaje. Considrese la siguiente muestra de
n = 25 anchos de pulso de descargas lentas en una cavidad cilndrica de
polietileno. (Estos datos son consistentes con un histograma de 250
observaciones en el artculo Assessment of Dielectric Degradation by Ultrawideband PD Detection, IEEE Trans. on Dielectrics and Elec. Insul., 1995: 744-760.)
El autor del artculo seala el impacto de una amplia variedad de herramientas
estadsticas en la interpretacin de datos de descarga.
5.3
94.3
101.4

8.2
13.8 74.1 85.3
94.8 94.9 95.5 95.8
103.7 106.0 113.5

88.0
95.9

90.2
96.6

91.5
96.7

92.4
98.1

Las cantidades pertinentes son:


x = 94.8

cuarto inferior = 90.2

cuarto superior = 96.7

fs = 6.5

1.5fs = 9.75

3fs = 19.50

45

92.9 93.6
99.0

Estadstica y probabilidades

TECSUP - PFR

Por lo tanto, cualquier observacin menor que 90.2 - 9.75 = 80.45 o mayor
que 96.7 + 9.75 = 106.45 es un valor apartado. Hay un valor apartado en el
extremo superior de la muestra y cuatro en el extremo inferior. Debido a que
90.2 - 19.5 = 70.7, las tres observaciones 5.3, 8.2 y 13.8 son valores
apartados extremos; los otros dos son moderados. Los bigotes se extienden
a 85.3 y 106.0, las observaciones ms extremas que no son valores
apartados. La grfica de caja resultante aparece en la figura. Existe una gran
cantidad de asimetra negativa en la mitad media de la muestra as como
tambin en toda la muestra.

Grfica 2. Grfica de caja de los datos de ancho de pulso que


muestra valores apartados

10. PROBLEMAS PROPUESTOS


1.

Los siguientes datos son los tiempos de ignicin de ciertos materiales


expuestos al fuego, dados a la ms cercana centsima de segundo:
2,58

5,50

6,75

2,65

7,60

6,25

3,78

4,90

5,21

2,51

6,20
3,87
1,52
1,38

5,92
6,90
4,56
2,46

5,84
4,72
8,80
7,40

7,86
9,45
4,71
6,25

8,79
7,41
5,92
9,65

4,79
2,45
5,33
8,64

3,90
3,24
3,10
6,43

3,75
5,15
6,77
5,62

3,49
3,81
9,20
1,20

4,04
2,50
6,43
1,58

a)
b)
c)
2.

Construya una distribucin de frecuencias utilizando un intervalo de


clase de 2 minutos.
Represente la distribucin de frecuencias por medio de un polgono de
frecuencias.
Calcule la mediana mediante un mtodo grfico.

Se le pide a un analista experimentado la evaluacin de dos mtodos


diferentes para la determinacin de trazas de plomo en cido actico glacial,
y se le entrega una muestra que contiene precisamente 1.282 ppm. de Pb,
por litro (dato des- conocido por el analista). Se realizaron cinco
determinaciones mediante cada mtodo, que dieron los siguientes resultados
para la concentracin del plomo, en partes por milln (ppm):

46

TECSUP - PFR

Estadstica y Probabilidades

Mtodo A:
Mtodo B:

1,34
1,30

1,33
1,26

1,32
1,30

1,34
1,33

1,31
1,24

Compare ambos mtodos.


3.

En un laboratorio se prepar una serie de compuestos que contienen las


siguientes masas de nitrgeno y oxgeno (en gramos):

Compuesto
A
B
C
D
E
F
G

a)
b)
c)
4.

N2
16,8
17,1
33,6
25,4
27,9
14,3
35,2

O2
19,2
39,0
57,3
28,2
26,1
45,8
53,5

Calcule e interprete la masa de nitrgeno promedio de los compuestos.


Calcule e interprete la mediana de la masa de oxgeno de los
compuestos.
Cul elemento de los compuestos presenta una menor variabilidad
relativa? Justifique la respuesta.

Si el salario promedio semanal de n obreros es de 150 soles y cada obrero


recibe un aumento general de 7,5 soles semanales y una bonificacin
semanal del 1,5% del salario incrementado.
Cul es el salario promedio actual semanal de los obreros?

5.

En una fbrica trabajan 20 mujeres y 45 hombres, el salario promedio


semanal de las mujeres es de 100 soles y el de los hombres 120 soles.
Cul es el promedio del salario semanal de todos los trabajadores de la
fbrica?

6.

Para los siguientes datos:


55.31

81.47

64.90

70.88

86.02

77.25

76.76

84.21

84.92

90.23

78.01

88.05

73.37

87.09

57.41

85.43

74.76

86.51

86.37

76.15

88.64

84.71

66.05

83.91

a)

Calcular la mediana antes de clasificar los datos.

47

56.02

Estadstica y probabilidades

b)
7.

TECSUP - PFR

Agrupar los datos en una tabla de frecuencias cuyas marcas de clase


sean: 60, 70, etc. y calcular la desviacin tpica y la mediana.

El salario medio semanal pagado a los trabajadores de una compaa es de


300 soles. Los salarios medios semanales pagados a hombres y mujeres de
la compaa son 315 y 240 soles respectivamente. Determinar el porcentaje
de hombres y mujeres que trabajan en la compaa.
Un estudio final realizado determin que existen 800 trabajadores, Cuntos
son hombres?

8.

Sea la siguiente distribucin de lados X en mm medidos en 10 piezas: 1,20


2,40 6,00 7,20 12,00 13,20 16,80 21,60 22,80 y 25,20 mm.
a)
b)

9.

Determinar la media x y la desviacin tpica Sx de la variable X.


Tras emplear el cambio de variable Y 5 X 54 / 6 determinar la media
y y la desviacin tpica Sy de la nueva variable Y.

Los siguientes datos son las temperaturas registradas en grados Farenheit:


415

510

460

475

420

490

480

450

435

485

470

465

500

455

435

Encontrar x y Sx a partir de los datos.


10. La siguiente tabla muestra la distribucin de salarios de 150 trabajadores de
TECSUP durante el mes de Abril del ao 2001.
Haberes

Nmero de
trabajadores
15

600 , 900
900 , 1400
1400 , 1700
1700 , 2100
2100 , 2400

24
29
38
24

2400 , 2600

20

Tabla N 8

Por incremento del costo de vida se plantean dos alternativas de aumento


para el mes siguiente. La primera propuesta consiste en un aumento general
de 350 soles mensuales.
La segunda propuesta consiste en un aumento del 30% de los salarios de
Abril a los trabajadores que ganan menos de 2100 soles y del 5% a los

48

TECSUP - PFR

Estadstica y Probabilidades

trabajadores que ganan ms de 2100 soles y un aumento adicional de 100


soles para todos los trabajadores.
a)

Cul de las propuestas convendra a los trabajadores?

b)

Para los trabajadores que ganan menos de 2100 soles Qu propuesta


les convendra?

11. El ingreso per cpita anual de un pas es de 9000 dlares. El sector obrero
1
que constituye el 60% de la poblacin percibe 5 del ingreso total. Calcular
el ingreso per cpita del sector no obrero.
12. La distribucin siguiente corresponde a las lecturas con un contador Geiger
del nmero de partculas emitidas por una sustancia radiactiva en 100
intervalos sucesivos de 40 segundos:
Nmero de partculas

Frecuencia

5-9
10-14
15-19
20-24
25-29
30-34
35-39
a)
b)
c)
d)
e)

1
10
37
36
13
2
1

Calcule la frecuencia absoluta acumulada a menos de y la frecuencia


relativa a ms de. Interprete el valor de la tercera clase de ambas
frecuencias acumuladas.
Represente grficamente la distribucin de frecuencias por medio de un
histograma.
Calcule e interprete: el promedio aritmtico, la moda y la mediana.
Calcule la desviacin estndar y el coeficiente de variacin.
Calcule e interprete el percentil 75%.

13. El artculo (A Thin-Film Oxygen Uptake Test for the Evaluation of


Automotive Crankcase Lubricants, Lubric. Engr.,1984: 75-83) report los
siguientes datos sobre tiempo de induccin de oxidacin (min) de varios
aceites comerciales:
87 103 130 160 180 195 132 145 211 105 145
153 152 138
87
99
93 119 129
a.
b.

Calcule la varianza muestral y la desviacin estndar.


Si las observaciones se volvieran a expresar en horas, cules seran
los valores resultantes de la varianza de la muestra y la desviacin
estndar muestral?

49

Estadstica y probabilidades

TECSUP - PFR

14. Se seleccion una muestra de 20 botellas de vidrio de un tipo particular y se


determin la resistencia a la presin inter- na de cada botella. Considere la
siguiente informacin parcial sobre la muestra:
mediana = 202.2

cuarto inferior = 196.0

cuarto superior = 216.8

Las tres observaciones ms pequeas 125.8 188.1 193.7


Las tres observaciones ms grandes
a.

221.3 230.5 250.2

Hay valores apartados en la muestra? Algunos valores apartados


extremos?
b. Construya una grfica de caja que muestre valores apartados y comente
sobre cualesquiera caractersticas interesantes.

50

TECSUP PFR

Estadstica y Probabilidades

UNIDAD III

ANLISIS DE DATOS BIVARIADOS


Hemos estudiado ahora datos provenientes de una sola variable, sin embargo con
frecuencia es necesario analizar respecto a la relacin entre dos variables. La relacin
entre dos variables puede darse de la siguiente manera:
1. Cualitativa vs cualitativa
2. Cualitativa vs cuantitativa
3. Cuantitativa vs cuantitativa
Para el segundo caso cualitativa vs cuantitativa puede trabajarse la variable
cuantitativa con sus datos originales o puede elaborarse intervalos y analizarlo como el
primer caso cualitativa vs cualitativa. Para el tercer caso puede utilizarse el anlisis
de correlacin, regresin o puede categorizarse (convertirlo en una variable cualitativa
o formar intervalos) la variable y trabajarlo como el primer o segundo caso.
1.

CUALITATIVA VS CUALITATIVA
Supongamos que se toma una muestra de tamao n de una poblacin que se
est investigando.
Sean X e Y las variables a estudiar, tal que los datos obtenidos son:
( X1,Y1 ),( X2,Y2), .,( Xn,Yn).
Distribucin conjunta y marginal
La tabla de frecuencia que agrupa a esta informacin se conoce tabla de
contingencia. Por ejemplo, para el caso de dos variables cualitativas con dos
modalidades o categoras, la tabla sera:
Y
Categora 1 Categora 2
Categora 1
Categora 2
Total

Celda
f12
Celda
f22
Total
marginal
f.2

Celda
f11
Celda
f21
Total
marginal
f.1

51

Total
Total marginal
f1.
Total marginal
f2.
Total de
individuos
n

Estadstica y Probabilidades

TECSUP PFR

Distribucin Marginal
Cuando slo interesa conocer la frecuencia de ocurrencia de cada una de las
variables por separado se habla de Frecuencia Marginal de la variable
Por ejemplo:

Hbitos de Fumar
SI
NO

SEXO

Total

VARON
MUJER

DISTRIBUCION
CONJUNTA

DISTRIBUCION
MARGINAL

Total

DISTRIBUCION
MARGINAL

Tamao
de
muestra

Cuntas variables tenemos?


..
Cules son?
..
Ejemplo 1:
Frecuencia absoluta: conjunta y marginal
SEXO
VARON
MUJER
Total

SI

Hbitos de Fumar
NO

Total

800

1200

2000

1000

2000

3000

1800

3200

5000

52

TECSUP PFR

Estadstica y Probabilidades

Frecuencia relativa: conjunta y marginal


Categora
variable Y

Categora
variable Y

To
tal

Categora
variable X

f11

f12

Total
marginal

Categora
variable X

f21

X/Y

Total

f22

Total
marginal

Total
marginal

f.1/n

f.2/n

f1./n

Total
marginal

f2./n

Total de
individuos

n/n

HbitosdeFumar
SI
NO
0.16
0.24
0.20
0.40
0.36
0.64

SEXO
VARON
MUJER
Total

Total
0.40
0.60
1

Frecuencia Condicional
Cuando se pregunta por la frecuencia relativa de una de las variables, digamos
X, restringida a los elementos observados de una clase dada de la otra; esto es,
estudiar el comportamiento de una variable dado un valor fijo de la otra.
Y

2.

Categora
variable Y

Categora
variable Y

Categora 1

f1 / f.1

f12/f.2

Categora 2

f21/f.1

f22/f.2

Total

ANLISIS DE UNA VARIABLE CUALITATIVA VS CUANTITATIVA


Al estudiar los mtodos de anlisis de datos cuantitativos, primero se trataron
problemas que implican una sola muestra de nmeros. En problemas de una
muestra, los datos se componan de observaciones sobre respuestas de
individuos u objetos experimentales seleccionados de una sola poblacin.

53

Estadstica y Probabilidades

TECSUP PFR

El anlisis de una variable cualitativa vs una cuantitativa, se refiere al anlisis de


datos muestreados de ms de dos poblaciones (grupos) numricas o de datos
de experimentos en los cuales se utilizaron ms de dos tratamientos. La
caracterstica que diferencia los grupos o poblaciones una de otra se llama
factor (variable cualitativa) en estudio y los distintos tratamientos o poblaciones
se conocen como niveles del factor (categoras de la variable cualitativa).
Ejemplos de tales situaciones incluyen los siguientes:
1.

Un experimento para estudiar los efectos de cinco marcas diferentes de


gasolina con respecto a la eficiencia de operacin de un motor automotriz
(mpg).

2.

Un experimento para estudiar los efectos de la presencia de cuatro


soluciones azucaradas diferentes (glucosa, sucrosa, fructosa y una mezcla
de las tres) en cuanto a crecimiento de bacterias.

3.

Un experimento para investigar si la concentracin de madera dura en la


pulpa (%) afecta la resistencia a la tensin de bolsas hechas de la pulpa.

4.

Un experimento para decidir si la densidad de color de un espcimen de tela


depende de la cantidad de tinte utilizado.

En el caso 1) el factor de inters (variable cualitativa) es la marca de la gasolina


y existen cinco niveles diferentes del factor. En 2) el factor es el azcar con
cuatro niveles (o cinco, si se utiliza una solucin de control que no contenga
azcar). Tanto en 1) como en 2), el factor es de naturaleza cualitativa y los
niveles corresponden a posibles categoras del factor. En 3) y 4), los factores
son concentracin de madera dura y cantidad de tinte, respectivamente; estos
dos factores son de naturaleza cuantitativa, por lo que los niveles identifican
diferentes ajustes del factor. Cuando el factor de inters es cuantitativo, tambin
se pueden utilizar tcnicas estadsticas de anlisis de regresin (ver anlisis de
dos variables cuantitativas).

3.

ANLISIS DE DOS VARIABLES CUANTITATIVAS


Regresin lineal simple y correlacin
En muchos trabajos es necesario, a menudo, determinar el efecto que una
variable ejerce sobre otra. As, por ejemplo, se desea comprobar si una reaccin
colorimtrica sigue la ley de Beer-Lambert, medir la velocidad de una reaccin
qumica o conocer la validez de nuevo mtodo en relacin con una serie de
normas conocidas. Un experimento de laboratorio es una medida del efecto de
una variable sobre la otra; con base a una cantidad de muestra, se efecta la
reaccin y posteriormente, se cuantifica la respuesta.
Al estudiar el comportamiento conjunto de dos variables es ver si estn
relacionadas, en lugar de utilizar una para predecir el valor de la otra.

54

TECSUP PFR

Estadstica y Probabilidades

Iniciaremos con el desarrollo del coeficiente de correlacin muestral r como una


medida de qu tan fuerte es la relacin entre dos variables x y y en un muestra.

Coeficientes de correlacin r
Existen diversos coeficientes que miden el grado de correlacin, adaptados a la
naturaleza de los datos. El ms conocido es el coeficiente de correlacin de
Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la
covarianza de dos variables entre el producto de sus desviaciones estndar.
r = cos

Propiedades de r
Las propiedades ms importantes de r son las siguientes:
1.
2.
3.
4.
5.

El valor de r no depende de cul de las dos variables estudiadas es x


y cual es y.
El valor de r es independiente de las unidades en las cuales x y y
estn medidas.
-1 < r < 1
r = 1 si y slo si todos los pares (xi, yi) quedan en una lnea recta con
pendiente positiva y r = -1 si y slo si los pares (xi, yi) quedan en una lnea
recta con pendiente negativa.
El cuadrado del coeficiente de correlacin muestral da el valor del
coeficiente de determinacin que resultara de ajustar el modelo de
regresin lineal simple, en smbolos (r)2 = r2.

La propiedad 3 dice que el valor mximo de r, correspondiente al grado ms


grande posible de relacin positiva, es r = 1, mientras que la relacin ms
negativa est identifica- da con r = -1. De acuerdo con la propiedad 4, las

55

Estadstica y Probabilidades

TECSUP PFR

correlaciones positivas y negativas ms grandes se obtienen slo cuando todos


los puntos quedan a lo largo de una lnea recta. Cualquier otra configuracin de
puntos, aun cuando la configuracin sugiere una relacin determinstica entre las
variables, dar un valor r menor que 1 en magnitud absoluta. Por consiguiente, r
mide el grado de relacin lineal entre las variables. Un valor de r cercano a 0 no
es evidencia de la falta de una fuerte relacin, sino slo de la ausencia de una
relacin lineal, de modo que tal valor de r debe ser interpretado con precaucin.
La siguiente figura ilustra varias configuraciones de puntos asociadas con valores
diferentes de r.

Una pregunta planteada es cundo existe correlacin fuerte entre las variables
y cundo es dbil? Una regla emprica notable es decir que la correlacin es
dbil si 0 < r< 0.5, fuerte si 0.8 < r< 1, y moderada de lo contrario. Puede
sorprender que r = 0.5 se considere dbil, pero r2 = 0.25 implica que en una
regresin de y en x (modelo: y = mx + b), solo 25% de la variacin de y
observada sera explicada por el modelo.
4.

REGRESIN
La regresin es una tcnica estadstica para estudiar la naturaleza de la relacin
entre dos o ms variables. Aunque puede utilizarse en esto las ecuaciones no
lineales, la presenta unidad se limitar a la explicacin de las ecuaciones de
regresin del tipo lineal (lnea recta).
Un caso prctico de anlisis es construir las curvas de calibracin utilizadas en
los mtodos fotomtricos: hay que proceder a la medicin de la respuesta de un
aparato en relacin con cantidades variables del constituyente a estudiar. En
anlisis gravimtrico, puede presentarse la necesidad de relacionar el peso de
precipitado con la temperatura, el pH, el contenido en electrolito inerte o con
otras variables.

56

TECSUP PFR

Estadstica y Probabilidades

Los objetivos de la regresin son mostrar la forma como la variable independiente (X) se relaciona con la variable dependiente (Y), hacer pronsticos
sobre los valores de la variable dependiente, con base en el conocimiento de los
valores de la variable independiente.
5.

PROBLEMAS PROPUESTOS
1.

2.

Numerosos factores contribuyen al funcionamiento suave de un motor


elctrico (Increasing Market Share Through Improved Product and Process
Design: An Experimental Approach, Quality Engineering, 1991: 361-369). En
particular, es deseable mantener el ruido del motor y vibraciones a un
mnimo. Para estudiar el efecto que la marca de los cojinetes tiene en la
vibracin del motor, se examinaron cinco marcas diferentes de cojinetes
instalando cada tipo de cojinete en muestras aleatorias distintas de seis
motores. Se registr la cantidad de vibracin del motor (medida en micrones)
cuando cada uno de los 30 motores estaba funcionando. Los datos de este
estudio se dan a continuacin. Realice un anlisis de comparaciones
mltiples, es decir, entre todos los grupos.
Marca 1 13.1

15.0

14.0

14.4

14.0

11.6

Marca 2 16.3

15.7

17.2

14.9

14.4

17.2

Marca 3 13.7

13.9

12.4

13.8

14.9

13.3

Marca 4 15.7

13.7

14.4

16.0

13.9

14.7

Marca 5 13.5

13.4

13.2

12.7

13.4

12.3

Un fabricante sospecha que el contenido de nitrgeno en un producto vara


de un lote a otro. Selecciona una muestra aleatoria de cuatro lotes y realiza
cinco determinaciones del contenido de nitrgeno en cada lote. Existe una
diferencia en el contenido de nitrgeno de un lote a otro?
Lote

3.

Observaciones

26,15

26,25

26,39

26,18

26,20

24,95

25,01

24,89

24,85

25,13

25,00

25,36

25,20

25,09

25,12

26,81

26,75

26,15

26,50

26,70

El Turbine Oil Oxidation Test (TOST) y el Rotating Bomb Oxidation Test


(RBOT) son dos procedimientos diferentes de evaluar la estabilidad ante la
oxidacin de aceites para turbina de vapor. El artculo Dependence of
Oxidation Stability of Steam Turbine Oil on Base Oil Composition (J. of the
Society of Tribologists and Lubrication Engrs., octubre de 1997: 19-24)
report las observaciones adjuntas sobre x = tiempo para realizar TOST (h)
y y = tiempo para realizar RBOT (min) con 12 especmenes de aceite.

57

Estadstica y Probabilidades

TECSUP PFR

TOST
RBOT

4200
370

3600
340

3750
375

3675
310

4050
350

TOST
RBOT

4870
400

4500
375

3450
285

2700
225

3750
345

2770
200
3300
285

a. Calcule e interprete el valor del coeficiente de correlacin muestral (como


lo hicieron los autores del artculo).
b. Cmo se vera afectado el valor de r si se hubiera hecho x = tiempo para
realizar RBOT y y = tiempo para realizar TOST?
c. Cmo se vera afectado el valor de r si el tiempo para realizar RBOT
estuviera expresado en horas?
d. Construya grficas de probabilidad normal y comente.
e. Interprete los coeficientes del modelo de regresin lineal y el R2.

4. Los datos siguientes se refieren a los das desde la inoculacin(X) y al


crecimiento de una colonia de bacterias (Y) en un cultivo.
X
Y
a)
b)
c)
5.

3
115

6
147

9
239

12
356

15
579

18
864

Calcule el coeficiente de correlacin


Calcule e interprete el coeficiente de determinacin
Interprete la constante de regresin en trminos del problema

La tenacidad y fibrosidad de los esprragos son determinantes importantes


de su calidad. ste fue el enfoque de un estudio reportado en Post-Harvest
Glyphosphate Application Reduces Toughening, Fiber Content, and
Lignification of Stored Asparagus Spears (J. of the Amer. Soc. of
Horticultural Science, 1988: 569-572). El artculo report los datos adjuntos
(tomados de una grfica) sobre x = fuerza cortante (kg) y y = porcentaje de
peso de fibra en seco.
X : 46

48

55

57

60

72

81

85

94

Y:

2.18 2.10 2.13 2.28 2.34 2.53 2.28 2.62 2.63

X:

109

Y:

2.50 2.66 2.79 2.80 3.01 2.98 3.34 3.49 3.26

a.

Calcule el valor del coeficiente de correlacin muestral. Basado en este


valor, cmo describira la naturaleza de la relacin entre las dos
variables?
Si un primer espcimen tiene un valor ms grande de fuerza cortante
que un segundo espcimen, qu tiende a ser cierto del porcentaje de
peso de fibra en seco para los dos especmenes?
Si la fuerza cortante se expresa en libras, qu le pasa al valor de r? Por
qu?

b.
c.

121

132

137

148

58

149

184

185 187

TECSUP PFR

Estadstica y Probabilidades

d. Si el modelo de regresin lineal simple fuera ajustado a estos datos, qu


proporcin de la variacin observada en porcentaje de peso de fibra en
seco podra ser explicada por la relacin de modelo?
6.

Los datos adjuntos sobre x = tasa de consumo de diesel medida por el


mtodo pesaje de drenaje y y = tasa medida por el mtodo de trazado de
intervalo de confianza, ambos en g/h, se tomaron de una grfica incluida en
el artculo A New Measurement Method of Diesel Engine Oil Consumption
Rate (J. Society Auto Engr., 1985: 28-33).
x :
y :

4 5
8 11 12 16 17 20 22 28 30 31 39
5 7 10 10 14 15 13 25 20 24 31 28 39

a. Suponiendo que x y y estn relacionadas por el modelo de regresin lineal


simple, realice una prueba para decidir si es factible que en promedio el
cambio de la tasa medida por el mtodo de trazado de intervalo de confianza sea idntico al cambio de la tasa medido mediante el mtodo de
pesaje de drenaje.
b. Calcule e interprete el valor del coeficiente de correlacin muestral.

7. Los siguientes datos corresponden al tiempo de secado (en horas) de


cierto barniz y la cantidad de un aditivo (en gramos) con el que se
intenta reducir el tiempo de secado:
Aditivo
Tiempo
a)
b)
c)
8.

1,5
4

2
6

2,5
8

3
9

3,5
11

Construya el diagrama de dispersin.


Calcule el coeficiente de correlacin.
Estime el tiempo de secado del barniz cuando se han utilizado 4 gramos
del aditivo.

Los resultados de varias determinaciones de cobre en un mineral son los que


siguen (en % Cu). El primer grupo de determinaciones fue realizado por el
analista A, el segundo por el analista B. Comparar las precisiones de los dos
analistas.
A 6,2 5,7
B 5,6 5,9

9.

1
2

6,5
5,6

6,0
5,8

6,3
6,0

5,8
5,5

5,7
5,7

6,0
5,5

6,0

5,8

En la ciudad de Lima se ha incrementado durante los ltimos cinco aos el


nmero de restaurantes de comida rpida. Debido a esto los expertos la
empresa de investigacin de mercado Consultores-ECE se pregunta. La
preferencia de un cliente por la comida rpida tiene que ver la edad?. La
empresa eligi una muestra aleatoria de 500 clientes de comida rpida
mayores de 16 aos y se les pregunt su restaurante favorito, obtenindose
los siguientes datos:

59

Estadstica y Probabilidades

Grupo de
edad
16 - 21
21 - 30
30 - 49
50 a ms

TECSUP PFR

Restaurant
McDonalds Burger-King
34
10
42
19
52
28
25
7

Kentuky
75
89
54
21

Otro
6
10
18
10

Cules sern las conclusiones que llegarn los expertos de la empresa


Consultores-ECE?
10. Los resultados de un experimento para evaluar el efecto del petrleo crudo
en parsitos de peces se describen en el artculo Effects of Crude Oils on
the Gastrointestinal Parasites of Two Species of Marine Fish (J. Wildlife
Diseases,
1983:
253-258).
Se
compararon
tres
tratamientos
(correspondientes a poblaciones del procedimiento descrito):
1) sin contaminacin, 2) contaminacin por petrleo de 1 ao de
antigedad, y 3) contaminacin por petrleo nuevo. Para cada condicin de
tratamiento se tom una muestra de peces, y cada uno de stos se clasific
como con parsitos o sin parsitos. Se da informacin compatible con la del
artculo. La informacin indica que los tres tratamientos difieren con
respecto a la verdadera proporcin de peces con parsitos o sin parsitos?
Tratamiento
Control
Petrleo viejo
Petrleo nuevo

Con parsitos Sin parsitos


30
16
16

3
8
16

11. Una compaa empaca un producto particular en latas de tres tamaos


diferentes, cada uno con una lnea de produccin distinta. La mayor parte
de las latas se apegan a especificaciones, pero un ingeniero de control de
calidad ha identificado las siguientes razones de no cumplimiento de
especificaciones:
1.
2.
3.
4.
5.

Defecto en lata
Grieta en lata
Ubicacin incorrecta de arillo
Arillo faltante
Otras

Se selecciona una muestra de unidades fuera de especificacin de cada una


de las tres lneas de produccin, y cada unidad se clasifica segn la razn
por la que estn fuera de especificacin; dio por resultado la siguiente
informacin de tabla de contingencia: existe alguna relacin entre la lnea
de produccin y las razones por las que las latas no cumplan las
especificaciones?

60

TECSUP PFR

Estadstica y Probabilidades

61

Estadstica y Probabilidades

TECSUP PFR

ANOTACIONES:

62

TECSUP - PFR

Estadstica y Probabilidades

UNIDAD IV

PROBABILIDAD
El trmino probabilidad se refiere al estudio de azar y la incertidumbre en cualquier
situacin en la cual varios posibles sucesos pueden ocurrir; la disciplina de la
probabilidad proporciona mtodos de cuantificar las oportunidades y probabilidades
asociadas con varios sucesos. El lenguaje de probabilidad se utiliza constantemente
de manera informal tanto en el contexto escrito como en el hablado. Algunos ejemplos
incluyen enunciados tales como es probable que el ndice Dow-Jones se incremente al
final del ao, existen 50-50 probabilidades de que la persona con posesin de su
cargo busque la reeleccin, probablemente se ofrecer por lo menos una seccin del
curso el prximo ao, las probabilidades favorecen la rpida solucin de la huelga y
se espera que se vendan por lo menos 20 000 boletos para el concierto. En esta
unidad, se introducen algunos conceptos de probabilidad, se indica cmo pueden ser
interpretadas las probabilidades y se demuestra cmo pueden ser aplicadas las reglas
de probabilidad para calcular las probabilidades de muchos eventos interesantes. La
metodologa de probabilidad permite entonces expresar en lenguaje preciso
enunciados informales como los antes expresados.
1.

EXPERIENCIA ALEATORIA Y ESPACIO MUESTRAL


Un experimento es cualquier accin o proceso cuyo resultado est sujeto a la
incertidumbre. Aunque la palabra experimento en general sugiere una situacin
de prueba cuidadosamente controlada en un laboratorio, se le utiliza aqu en un
sentido mucho ms amplio. Por lo tanto, experimentos que pueden ser de inters
incluyen lanzar al aire una moneda una vez o varias veces, seleccionar una carta
o cartas de un mazo, pesar una hogaza de pan, el tiempo de recorrido de la casa
al trabajo en una maana particular, obtener tipos de sangre de un grupo de
individuos o medir las resistencias a la compresin de diferentes vigas de acero.
El espacio muestral de un experimento denotado por S o por , es el conjunto
de todos los posibles resultados de dicho experimento.
Ejemplos:
Si se examinan tres fusibles en secuencia y se anota el resultado de cada
examen, entonces un resultado del experimento es cualquier secuencia de letras
N y D de longitud 3, por lo tanto
= {NNN, NND, NDN, NDD, DNN, DND, DDN, DDD}
Dos gasolineras estn localizadas en cierta interseccin. Cada una dispone de 6
bombas de gasolina. Considrese el experimento en el cual se determina el
nmero de bombas en uso a una hora particular del da en cada una de las
gasolineras. Un resultado experimental especifica cuntas bombas estn en uso
en la primera gasolinera y cuntas estn en uso en la segunda. Un posible
resultado es (2, 2), otro es (4, 1) y otro ms es (1, 4). Los 49 resultados en S se
63

Estadstica y Probabilidades

TECSUP PFR

muestran en la tabla adjunta. El espacio muestral del experimento en el cual un


dado de 6 lados es lanzado dos veces se obtiene eliminando la fila 0 y la columna
0 de la tabla y se obtienen 36 resultados.

2.

SUCESOS O EVENTOS
En el estudio de la probabilidad, interesan no slo los resultados individuales de
sino tambin varias recopilaciones de resultados de .
Un evento es cualquier recopilacin (subconjunto) de resultados contenidos en el
espacio muestral . Un evento es simple si consiste en exactamente un
resultado y compuesto si consiste en ms de un resultado.
Podemos combinar sucesos para formar nuevos sucesos, utilizando las diferentes
operaciones con conjuntos:
A B es el suceso que ocurre si y slo si A o B o ambos ocurren;
A B es el suceso que ocurre si y slo si A y B ocurren simultneamente.

A , (Complemento de A contrario de A), es el suceso que ocurre si y slo si


A no ocurre.

2.1 SUCESOS O EVENTOS INCOMPATIBLES


Dos sucesos que no puedan ocurrir simultneamente, reciben el nombre de
sucesos incompatibles; para que dos sucesos sean incompatibles, deben
carecer de elementos comunes.
Por ejemplo, en el caso de la ruleta anterior, son incompatibles los sucesos
elementales.
El contrario de {1 , 3 } es {2, 4, 5}, para la ruleta del ejemplo anterior.
Desde luego, dos sucesos contrarios deben ser incompatibles, pero no
basta con ello; adems, la unin de ambos debe dar el espacio muestral.
Ejemplo:
64

TECSUP - PFR

Estadstica y Probabilidades

Lncese un dado y obsrvese el nmero que aparece en la cara superior.


Entonces el espacio muestral es:

= {1, 2, 3, 4, 5, 6}
Sea A el suceso de salir un nmero par, B de salir impar y C de salir primo;
A = {2, 4, 6},

B = {1, 3, 5},

C = {2, 3, 5}

Entonces:
A C = {2, 3, 4, 5, 6}
B C ={3, 5}

C = {1, 4, 6}
3.

APLICACIN FRECUENCIAL
Tres caras de un cubo se han pintado de color azul, dos de color rojo, y se ha
dejado una de color blanco.
Si vamos lanzando el cubo y anotando el color de la cara sobre la que queda
apoyado, cuntas veces saldr cada color? Cul ser su frecuencia relativa?
Es razonable pensar que, ya que la mitad de las caras son de color azul, este
color aparecer la mitad de las veces que se tire el cubo; la frecuencia relativa
del color azul tender a 1/2 si repetimos las tiradas muchas veces.
Anlogamente, una tercera parte de las veces saldr de color rojo, y una sexta
parte el color blanco; la frecuencia relativa del color rojo tender a 1/3, y la del
blanco a 1/6 si los lanzamientos se repiten muchas veces.
De este modo, asignando a cada color un nmero que exprese la frecuencia
relativa esperada para dicho color, tendremos la siguiente aplicacin:
Azul
Rojo
Blanco

1/2
1/3
1/6

Observa que la frecuencia relativa esperada para cada color es un nmero


positivo menor que uno, y que la suma de todas es igual a uno.

65

Estadstica y Probabilidades

4.

TECSUP PFR

PROBABILIDAD
Consideremos la experiencia aleatoria que consiste en lanzar el cubo anterior y
anotar el color de la cara sobre la que queda apoyado, el conjunto de resultados
posibles o espacio muestral de la experiencia es:

{azul, rojo, blanco}


Recuerda que un suceso de esta experiencia es un subconjunto del espacio
muestral. Ahora queremos precisar, con nmeros adecuados, el mayor o menor
grado de confianza que nos merece cada suceso; y este nmero lo obtendremos
a partir de las frecuencias relativas a las que parecen tender cada uno de los
resultados.
La aplicacin que obtengamos recibir el nombre de probabilidad definida en el
espacio muestral .
El criterio a seguir ser el de asignar a cada suceso el nmero obtenido como
suma de las frecuencias relativas esperadas de cada uno de sus resultados.
Con ello, la probabilidad del suceso imposible (conjunto vaco) ser 0, la
probabilidad de un suceso elemental ser la frecuencia relativa a la que tienda
su nico resultado; y a los dems sucesos, les corresponder la suma de las
probabilidades de los sucesos elementales que lo componen.

{azul}

{azul,rojo} .

1
. .
2

1 1

2 3

{azul,rojo,blanco}

{rojo}

{azul,blanco} .

1 1

2 6

1
.
3

1
6
1 1
{rojo,blanco}
3 6
{blanco}

1 1 1

2 3 6

Observa que, para disponer de un probabilidad definida en un espacio muestral,


basta conocer las probabilidades de los suceso elementales.
La terna formada por el conjunto , el conjunto S de sus sucesos y la
probabilidad p, recibe el nombre de espacio de probabilidad.
AXIOMAS DE PROBABILIDAD
Aparecen para esta aplicacin tres propiedades esenciales:
a) 0 p( A) 1 , para cualquier suceso A.
b) p() 1
c) Si A y B son dos sucesos incompatibles: p( A B ) p( A) p( B)

66

TECSUP - PFR

Estadstica y Probabilidades

Las tres propiedades se toman como axiomas para definir una probabilidad en un
espacio muestral finito . Toda aplicacin entre el conjunto de los sucesos de
una experiencia aleatoria y los nmeros reales, con estas tres caractersticas,
reciben el nombre de probabilidad definida en el espacio muestral
correspondiente.
Teorema 1: dado un suceso A, entonces: p ( A) 1 p( A)
Teorema 2: dados dos sucesos A y B, entonces: p( A B) p( A) p( A B )
Teorema 3: dados dos sucesos A y B, entonces:

p ( A B) p ( A) p( B) p( A B)
4.1 PROBABILIDAD UNIFORME
En algunas experiencias aleatorias, todos los resultados tienen la misma
frecuencia relativa esperada, el mismo peso; entonces, los sucesos
elementales son equiprobables y la probabilidad se llama probabilidad
uniforme.
Por ejemplo, si tiramos un dado, cada resultado posible tiene el mismo
peso, 1/6
En general, si el espacio muestral tiene n elementos, la probabilidad
uniforme de cualquier suceso elemental ser 1/n y la probabilidad de un
suceso que conste de m resultados, ser m/n
En este caso de sucesos elementales equiprobables, puede indicarse una
expresin sencilla par el clculo de la probabilidad de un suceso cualquiera.
Si llamamos casos favorables a los elementos de dicho suceso, se tendr:

probabilidad del suceso

casos favorables
casos totales

Ejemplo
Calcula la probabilidad de sacar un as de una baraja, en una sola
extraccin.
Resolucin.
Puesto que en la baraja hay 4 ases (de oros, de copas, de espadas y de
bastos) y un total de 52 cartas ser:

4
52

Tener en cuenta que se trata de probabilidad uniforme

67

Estadstica y Probabilidades

TECSUP PFR

4.2 PROBABILIDAD DE EXPERIENCIAS COMPUESTAS


Efectuemos la siguiente experiencia compuesta:

Lanzar una moneda


Hacer girar una ruleta.
Representemos el lanzamiento de moneda y el giro de ruleta por separado,
mediante unos diagramas circulares en los que se ha sealado tantas zonas
como resultados posibles, escribiendo en cada zona la frecuencia relativa
esperada para el resultado correspondiente.
cara
1/2

c
1/3

cruz
1/2

b
1/6

a
1/2

Cules son los resultados posibles en la experiencia compuesta?.


Utilicemos un diagrama de rbol:
1/2

a
cara

1/2
c

1/3
= { (cara, a); (cara, b); (cara, c);
1/2

a
cruz

(cruz, a); (cruz, b); (cruz, c) }

1/2

1/6

1/6
1/3

Nuestro objetivo es definir una probabilidad en el conjunto , para lo que


necesitamos hallar la probabilidad de cada suceso elemental.
Fijmonos, por ejemplo, en el resultado (cara, c). Si repetimos muchas
veces la doble prueba, saldr cara aproximadamente la mitad de los casos;
y en esta doble prueba, al jugar a la ruleta saldrn las zonas a,b,c cada una
con la frecuencia relativa indicada en el grfico.
En particular, la zona c saldr la tercera parte de esta mitad del total; ello
supone pues, la sexta parte del total.
De ah que se asigna al par (cara, c) el nmero: 1/6.

68

TECSUP - PFR

Estadstica y Probabilidades

4.3 PROBABILIDAD CONDICIONAL


DEFINICIN
Para dos eventos cualesquiera A y B con P(B) > 0, la probabilidad
condicional de A dado que B ha ocurrido est definida por:

Las probabilidades asignadas a varios eventos dependen de lo que se sabe


sobre la situacin experimental cuando se hace la asignacin. Subsiguiente
a la asignacin inicial puede llegar a estar disponible informacin parcial
pertinente al resultado del experimento. Tal informacin puede hacer que
se revisen algunas de las asignaciones de probabilidad. Para un evento
particular A, se ha utilizado P(A) para representar la probabilidad asignada
a A; ahora se considera P(A) como la probabilidad original no condicional
del evento A.
En esta seccin, se examina cmo afecta la informacin de que un evento
B ha ocurrido a la probabilidad asignada a A. Por ejemplo, A podra
referirse a un individuo que sufre una enfermedad particular en la
presencia de ciertos sntomas. Si se realiza un examen de sangre en el
individuo y el resultado es negativo (B = examen de sangre negativo),
entonces la probabilidad de que tenga la enfermedad cambiar (deber
reducirse, pero no a cero, puesto que los exmenes de sangre no son
infalibles). Se utilizar la notacin P(A | B) para representar la probabilidad
condicional de A dado que el evento B haya ocurrido. B es el evento
condicionante.
Por ejemplo, considrese el evento A en que un estudiante seleccionado al
azar en su universidad obtuvo todas las clases deseadas durante el ciclo
de inscripciones del semestre anterior. Presumiblemente P(A) no es muy
grande. Sin embargo, supngase que el estudiante seleccionado es un
atleta con prioridad de inscripcin especial (el evento B). Entonces P(A | B)
deber ser sustancialmente ms grande que P(A), aunque quiz an no
cerca de 1.
Ejemplo
En una planta se ensamblan componentes complejos en dos lneas de
ensamble diferentes, A y A'. La lnea A utiliza equipo ms viejo que A', por
lo que es un poco ms lenta y menos confiable. Suponga que en un da
dado la lnea A ensambla 8 componentes, de los cuales 2 han sido
identificados como defectuosos (B) y 6 como no defectuosos (B'), mientras
que A' ha producido 1 componente defectuoso y 9 no defectuosos. Esta
informacin se re sume en la tabla adjunta:

69

Estadstica y Probabilidades

TECSUP PFR

No obstante, si el componente seleccionado resulta defectuoso, entonces


el evento B ha ocurrido, por lo que el componente debe haber sido 1 de
los 3 de la columna B de la tabla. como estos 3 componentes son
igualmente probables entre ellos mismos una vez que B ha ocurrido,
No obstante, si el componente seleccionado resulta defectuoso, entonces
el evento B ha ocurrido, por lo que el componente debe haber sido 1 de
los 3 de la columna B de la tabla. Como estos 3 componentes son
igualmente probables entre ellos mismos una vez que B ha ocurrido,
La probabilidad condicional est expresada como una razn de
probabilidades incondicionales. El numerador es la probabilidad de la
interseccin de los dos eventos, en tanto que el denominador es la
probabilidad del evento condicionante B. Un diagrama de Venn ilustra esta
relacin.

Dado que B ha ocurrido, el espacio muestral pertinente ya no es S pero


consta de resultados en B; A ha ocurrido si y slo si uno de los resultados
en la interseccin ocurri, as que la probabilidad condicional de A dado B
es proporcional a P(A n B). Se utiliza la constante de proporcionalidad
1/P(B) para garantizar que la probabilidad P(B | B) del nuevo espacio
muestral B sea igual a 1.
4.4 PROBABILIDAD TOTAL Y TEOREMA DE BAYES
El clculo de una probabilidad posterior P(Aj | B) a partir de probabilidades
previas dadas P(Ai) y probabilidades condicionales P(B | Ai) ocupa una
posicin central en la probabilidad elemental. La regla general de dichos
clculos, los que en realidad son una aplicacin sim- ple de la regla de
multiplicacin, se remonta al reverendo Thomas Bayes, quien vivi en el
siglo XVIII. Para formularla primero se requiere otro resultado. Recurdese
que los eventos A1, . . . , Ak son mutuamente excluyentes si ninguno de
los dos tiene resultados comunes.

70

TECSUP - PFR

5.

Estadstica y Probabilidades

LEY DE LA PROBABILIDAD TOTAL


Sean A1, . . . , Ak eventos mutuamente excluyentes y exhaustivos. Entonces
para cualquier otro evento B,

6.

TEOREMA DE BAYES
Sean A1, A2, . . . , Ak un conjunto de eventos mutuamente excluyentes y
exhaustivos con probabilidades previas P(Ai) (i = 1, . . . , k). Entonces para
cualquier otro evento B para el cual P(B) > 0, la probabilidad posterior de Aj
dado que B ha ocurrido es

La transicin de la segunda a la tercera expresin en formula del teorema de


Bayes se apoya en el uso de la regla de multiplicacin en el numerador y la ley
de probabilidad total en el denominador. La proliferacin de eventos y subndices
en esta frmula puede ser un poco intimidante para los recin llegados a la
probabilidad. Mientras existan relativamente pocos eventos en la reparticin, se
puede utilizar un diagrama de rbol como base para calcular probabilidades
posteriores sin jams referirse de manera explcita al teorema de Bayes.
INDEPENDENCIA
La definicin de probabilidad condicional permite revisar la probabilidad P(A)
originalmente asignada a A cuando despus se informa que otro evento B ha
ocurrido; la nueva probabilidad de A es P(A | B). En los ejemplos, con frecuencia
fue el caso de que P(A | B) difera de la probabilidad no condicional P(A), lo que
indica que la informacin B ha ocurrido cambia la probabilidad de que ocurra A.
A menudo la probabilidad de que ocurra o haya ocurrido A no se ve afectada por
el conocimiento de que B ha ocurrido, as que P(A | B) = P(A). Es entonces
natural considerar a A y B como eventos independientes, es decir que la
ocurrencia o no ocurrencia de un evento no afecta la probabilidad de que el otro
ocurra.
Definicin
Los eventos A y B son independientes si P(A | B) = P(A) y son dependientes de lo
contrario.

71

Estadstica y Probabilidades

TECSUP PFR

Regla de la multiplicacin
Con frecuencia la naturaleza de un experimento sugiere que dos eventos A y B
deben suponerse independientes. Este es el caso, por ejemplo, si un fabricante
recibe una tarjeta de circuito de cada uno de dos proveedores diferentes, cada
tarjeta se somete a prueba al llegar y A = {la primera est defectuosa} y B = {la
segunda est defectuosa}. Si P(A) = 0.1, tambin deber ser el caso de que P(A
| B) = 0.1; sabiendo que la condicin de la segunda tarjeta no informa sobre la
condicin de la primera. El siguiente resultado muestra cmo calcular P(A _ B)
cuando los eventos son independientes.

A y B son independientes si y slo si

7.

EJERCICIOS PROPUESTOS
1.

Que A denote el evento en que la siguiente solicitud de asesora de un


consultor de software estadstico tenga que ver con el paquete SPSS y que
B denote el evento en que la siguiente solicitud de ayuda tiene que ver con
SAS.
Suponga que P(A ) = 0.30 y P(B) = 0.50.
a.
b.
c.
d.

2.

3.

Por qu no es el caso en que P(A) + P(B) = 1?


Calcule P(A').
Calcule P(A U B).
Calcule P(A' n B').

Una caja contiene 220 tornillos iguales, de los cuales 80 son producidos por
la mquina A, 60 por la mquina B, 50 por la mquina C y 30 por la mquina
D. Si se elige un tornillo al azar de la caja, determinar:
a)

Cul es la probabilidad que el tornillo elegido haya sido producido por


las mquinas A o C?

b)

Cul es la probabilidad que el tornillo elegido haya sido producido por


las mquinas A y D?.

Una tienda de departamentos vende camisas sport en tres tallas (chica,


mediana y grande), tres diseos (a cuadros, estampadas y a rayas) y dos
largos de manga (larga y corta). Las tablas adjuntas dan las proporciones de
camisas vendidas en las combinaciones de categora.

72

TECSUP - PFR

a.
b.
c.
d.
e.
f.

4.

Estadstica y Probabilidades

Cul es la probabilidad de que la siguiente camisa vendida sea una


camisa mediana estampada de manga larga?
Cul es la probabilidad de que la siguiente camisa vendida sea una
camisa estampada mediana?
Cul es la probabilidad de que la siguiente camisa vendida sea de
manga corta? De manga larga?
Cul es la probabilidad de que la talla de la siguiente camisa vendida
sea mediana? Que la siguiente camisa vendida sea estampada?
Dado que la camisa que se acaba de vender era de manga corta a
cuadros, cul es la probabilidad de que fuera mediana?
Dado que la camisa que se acaba de vender era mediana a cuadros,
cul es la probabilidad de que fuera de manga corta? De manga
larga?

Cada vez que se recibe un lote de llantas, un inspector de calidad adopta la


siguiente poltica: extrae dos llantas una despus de otra y sin restitucin, si
al menos una de ellas es defectuosa revisa todo el lote.
Si se recibe un lote de 50 llantas y se sabe que en l hay tres llantas
defectuosas. Cul es la probabilidad que al aplicar la poltica de revisin se
tenga que revisar todo el lote?

5.

Un empresario tiene una mquina automtica en su fbrica que produce


tapas para lapiceros. con su pasada experiencia ha comprobado que si la
mquina se ajusta en forma apropiada, la mquina producir un 90 % de
tapas aceptables, mientras que si su acondicionamiento no es adecuado,
slo producir un 30 % de tapas aceptables. El empresario tambin ha
observado que el 75 % de los acondicionamientos se hace en forma

73

Estadstica y Probabilidades

TECSUP PFR

correcta. Si la primera tapa producida es aceptable, qu probabilidad existe


que el acondicionamiento se haya hecho correctamente?
6.

Un laboratorio somete a los choferes que cometen accidentes de trnsito a


un test de dosaje etlico. Se ha determinado que:

Cuando un chofer est ebrio, el test proporciona resultado positivo en el


95 % de los casos.
cundo el chofer no est ebrio, el test proporciona resultado negativo en
el 94 % de los casos.
El 2 % de los conductores que cometen accidentes manejan ebrios.

Cul es la probabilidad que el chofer est ebrio dado que el resultado fue
positivo?
7.

Componentes de cierto tipo son enviados a un distribuidor en lotes de diez.


Suponga que 50% de dichos lotes no contienen componentes defectuosos,
30% contienen un componente defectuoso y 20% contienen dos
componentes defectuosos. Se seleccionan al azar dos componentes de un
lote y se prueban. Cules son las probabilidades asociadas con 0, 1 y 2
componentes defectuosos que estn en el lote en cada una de las siguientes
condiciones?
a. Ningn componente probado est defectuoso.
b. Uno de los dos componentes probados est defectuoso. [Sugerencia:
Trace un diagrama de rbol con tres ramas de primera generacin
correspondientes a los tres tipos diferentes de lotes.]

8.

En una gasolinera, 40% de los clientes utilizan gasolina regular (A1), 35%
usan gasolina plus (A2) y 25% utilizan premium (A3). De los clientes que
utilizan gasolina regular, slo 30% llenan sus tanques (evento B). De los
clientes que utilizan plus, 60% llenan sus tanques, mientras que los que
utilizan premium, 50% llenan sus tanques.
a.
b.

9.

Cul es la probabilidad de que el siguiente cliente pida gasolina plus y


llene el tanque (A2 n B)?
Cul es la probabilidad de que el siguiente cliente llene el tanque?

En el ejercicio 8, considere la siguiente informacin adicional sobre el uso de


tarjetas de crdito:

El 70% de todos los clientes que utilizan gasolina regular y que llenan el
tanque usan una tarjeta de crdito.

El 50% de todos los clientes que utilizan gasolina regular y que no


llenan el tanque usan una tarjeta de crdito.

El 60% de todos los clientes que llenan el tanque con gasolina plus
usan una tarjeta de crdito.

74

TECSUP - PFR

Estadstica y Probabilidades

El 50% de todos los clientes que utilizan gasolina plus y que no llenan
el tanque usan una tarjeta de crdito.

El 50% de todos los clientes que utilizan gasolina premium y que llenan
el tanque usan una tarjeta de crdito.

El 40% de todos los clientes que utilizan gasolina premium y que no


llenan el tanque usan una tarjeta de crdito.

Calcule la probabilidad de cada uno de los siguientes eventos para el


siguiente cliente que llegue (un diagrama de rbol podra ayudar).
a.
b.
c.
d.
e.
f.

{Plus, tanque lleno y tarjeta de crdito}


{Premium, tanque no lleno y tarjeta de crdito}
{Premium y tarjeta de crdito}
{Tanque lleno y tarjeta de crdito}
{Tarjeta de crdito}
Si el siguiente cliente utiliza una tarjeta de crdito, cul es la
probabilidad de que pida premium?

10. La costura de un avin requiere 25 remaches. La costura tendr que ser


retrabajada si alguno de los remaches est defectuoso. Suponga que los
remaches estn defectuosos independientemente uno de otro, cada uno con
la misma probabilidad.
a. Si 20% de todas las costuras tienen que ser retrabajadas, cul es la
probabilidad de que un remache est defectuoso?
b. Qu tan pequea deber ser la probabilidad de un re- mache
defectuoso para garantizar que slo 10% de las costuras tienen que ser
retrabajadas?
11. Considere el sistema de componentes conectados como en la figura adjunta.
Los componentes 1 y 2 estn conectados en paralelo, de modo que el
subsistema trabaja si y slo si 1 o 2 trabaja; como 3 y 4 estn conectados en
serie, qu sub- sistema trabaja si y slo si 3 y 4 trabajan. Si los componentes
funcionan independientemente uno de otro y P(el componente trabaja)
= 0.9, calcule P(el sistema trabaja).

12. Una compaa de exploracin petrolera en la actualidad tiene dos proyectos


activos, uno en Asia y el otro en Europa. Sea A el evento en que el proyecto
asitico tiene xito y B el evento en que el proyecto europeo tiene xito.
Suponga que A y B son eventos independientes con P(A) = 0.4 y P(B) = 0.7.

75

Estadstica y Probabilidades

TECSUP PFR

a. Si el proyecto asitico no tiene xito, cul es la probabilidad de que el


europeo tambin fracase? Explique su razonamiento.
b. Cul es la probabilidad de que por lo menos uno de los dos proyectos
tenga xito?
c. Dado que por lo menos uno de los dos proyectos tiene xito, cul es la
probabilidad de que slo el proyecto asitico tenga xito?

76

S-ar putea să vă placă și