Sunteți pe pagina 1din 721

TOMA DE DECISIONES EN ADMINISTRACION

MEDIANTE METODOS ESIADISTICOS


TOMA DE DECISIONES EN
ADMINISTRACION MEDIANTE
MEIODOS ESTADISTICOS

WILLlAM A. SPURR, Ph. D.


Profesor de Estadística para Administración
y
CHA~LES P. BONINI, Ph. D.
Profesor Asociado de Ciencias de la Administración
Escuela de Administración para Postgraduados
Universidad de Stanford

• •

!M Noriega Editores

EDITORIAL LIMUSA
MEXICO • ESPAÑA • VENEZUELA • ARGENTINA
COLOMBIA 11 PUERTO RICO
Versión autorizada en español de la
edición publicada en inglés por
Richard D. Irwin, Inc. bajo el título de
STATISTICAL ANALYSIS FOR BUSINESS DECISIONS, Revised Edition
© 1954,1961,1967 and 1973 by Richard D. Irwin, Inc.
Versión española
LUIS EDUARDO LOPEZ CASTRO
Licenciado en Administración de Empresas
y Profesor de Matemáticas de la Facultad
de Comercio y Administración de la
Universidad Nacional Autónoma de México.

CLARA ZOMER REZLER


Ingeniero Civil de la Universidad de Costa
Rica. Maestría en Ingeniería y Profesora de
Teoría de Inventarios de la División de Estudios
Superiores de la Facultad de Ingeniería
.Ja Universidad Nacional Autónoma de México.

Revisión:
ELENA K. DE KLEIMAN
Coordinadora del Area de Matemáticas y Estadística
y Profesora Investigadora de la División •
Sistema Universidad Abierta, Facultad de
Ciencias Políticas y Sociales de la Universidad
Nacional Autónoma de México

CLARA ZOMER REZLER


Ingeniero Civil de la Universidad de Costa Rica.
Maestría en Ingeniería y Profesora de Teoría de
Inventarios de la División de Estudios Superiores
de la Facultad de Ingeniería de la Universidad
Nacional Autónoma de México.

Derechos reservados.

© 1990, EDITORIAL L1MUSA, S. A. de C. v.


Balderas 95, Primer piso, 06040, México, D. F.

Miembro de la Cámara Nacional de la


Industria Editorial. Registro número 121

Primera edición: 1978


Primera reimpresión: 1980
Segunda reimpresión: 19i52
Tercera reimpresión: 1986
Cuarta reimpresión: 1990
Impreso en México
(8599)

ISBN 968 - 18 - 0288 - 8


Prólogo

En los últimos años, el análisis cuantitativo ha adquirido una enorme impor-


tancia en el campo de la administración; esto se debe a los avances logrados en
estadística, computación electrónica y a la creciente preferencia de.las personas
por los métodos científicos en general, en vez de los métodos intuitivos de razo-
namiento. La teoría de la probabilidad, la investigación de operaciones y la
teoría de la decisión han producido nuevas técnicas analíticas, en tanto que las
computadoras han tenido el efecto de un verdadero catalizador para la mayor
difusión de dichas técnicas. Los cursos básicos de estadística que se imparten
en diversas universidades reflejan la gran variedad de temas de esta materia, así
como la diferencia de objetivos que persigue cada facultad y los distintos niveles
de preparación de los estudiantes.
Al planear este texto tuvimos en mente esa gran diversidad. Por ello inclui-
mos una gran variedad de temas, que van desde los medios tradicionales del
método estadístico hasta 'los modernos conceptos de simulación y de teoría
bayesiana de las decisiones, o bien, desde las más sencillas técnicas de repre-
sentación gráfica hasta temas tan complejos como los de encuestas por muestreo
y modelos probabilísticos. En esta forma, el maestro puede organizar su curso y
seleccionar los temas más adecuados, según la preparación y las habilidades de
los alumnos.
Este libro está destinado a los estudiantes que, en general, necesitan usar el
método estadístico en un área de trabajo determinada y, por 10 tanto, se pone
especial énfasis en el uso de los métodos estadísticos como medios científicos
para el análisis de problemas administrativos y económicos, y se presta menos
atención a la teoría o a las demostraciones matemáticas. Presentamos el material
en la forma más sencilla posible y usando el mínimo de terminología técnica de
la estadística.
Para la mayor parte de la obra sólo se requiere que se tengan conocimientos
elementales de álgebra. Los temas más avanzados están marcados con un asteris-
co en el Contenido (índice de capítulos); de este modo los maestros de cursos
elementales pueden omitir este material si así 10 desean. Por otra parte, en los
apéndices de algunos capítulos se incluye material optativo, parte del cual
requiere que se use cálculo diferencial o.álgebra de matrices. También se presen-
tan cerca de 400 problemas que le permiten al maestro mayor flexibilidad en la

5
6 Prólogo

asignación de tareas, así como una gama muy amplia de aplicaciones prácticas
para discusión en clase, estudio en casa o trabajo de laboratorio. Casi todo el
texto y los problemas los hemos probado en los cursos básicos de estadística de
la Escuela de Administración para Posgraduados de la Universidad de Stanford.
con lo que pudimos basarnos en la evaluación hecha por los estudiantes para'
revisar el material.
Al publicar esta edición revisada, nuestro propósito principal fue el de cu-
brir las necesidades cambiantes de los cursos de estadistlca que se imparten en
las carreras de administración. Por este motivo, hemos omitido algunos de los
ternas más descriptivos que aparecían en la edición anterior y ampliamos la expo-
sición de inferencia estadística y de teoría de las decisiones. Específicamente,
añadimos el capítulo 11 que trata de procedimientos de prueba avanzados (dis-
tribuciones t, x 2 , y F, así como métodos no paramétricos), puesto que estos
métodos se han incluido en el programa de muchos cursos básicos. Además, en el
capítulo 15 se presentan nuevas aplicaciones de los métodos de Montecarlo a los
problemas de decisión, atendiendo así a la creciente importancia de este tema.
También reorganizamos otros capítulos a fin de facilitar la lectura y, finalmente,
actualizamos todo el material que así lo requería ,y agregarnos muchos proble-
mas.
El libro se divide en seis partes:
l. Una introducción a las herramientas básicas del análisis, tales como razo-
nes, distribuciones de frecuencia, promedios y medidas de dispersión; esta parte
abarca los capítulos 1 a14.
2. En los capítulos 5 al 8 se describen los elementos de la teoría de la pro-
babilidad y las principales distribuciones probabilísticas, y también se las aplica a
la toma de decisiones. Aquí se incluyen probabilidades de eventos, tablas de
pago, valores esperados, valor de la información y árboles de decisión, todos los
cuales son elementos de un procedimiento racional para tomar decisiones en
condiciones de incertidumbre.
3. Para obtener inferencias acerca de la información muestral, conviene esta-
blecer límites de confianza o hacer pruebas de hipótesis, tal como se describe en
los capítulos 9-11. Sin embargo, en la realidad, el muestreo aleatorio simple no
siempre basta para realizar encuestas y, por ello, en el capítulo 12 se estudian
otros diseños de muestras que son más eficaces o más prácticos. En muchos
textos elementales se omite este tema.
4. En los capítulos 13 y 14 se estudian las probabilidades y la evidencia
muestral, combinándolas mediante el teorema de Bayes a fin de perfeccionar el
proceso de toma de decisiones. Aquí, corno en los capítulos 7 y 8, en el análisis
se incluyen explícitamente los costos económicos y las ganancias. Este tópico es
una extensión importante de la interpretación tradicional de la información
muestral. En el capítulo 15 se estudia la forma en que los métodos sencillos de
simulación y análisis del riesgo se aplican a los problemas de decisiones en la ad-
ministración.
5. Las técnicas de regresión y correlación se utilizan ampliamente y, a veces
se abusa de ellas. Tal vez al lector le gustaría estudiar solamente la regresión sim-
ple, pero debe considerar que la regresión múltiple es un método mucho mas
útil y se puede utilizar fácilmente con los nuevos programas de computadora,
Prólogo 7

de manera que recomendamos el estudio completo de los capítulos 16 y 17, si


se dispone del tiempo suficiente.
6. El análisis estadístico en la administración de empresas y en la economía
requiere que se ponga especial énfasis en las series cronológicas; esto se debe a
que al economista le interesan mucho la medición y la proyección del crecimien-
to económico, las fluctuaciones estacionales y los ciclos comerciales. Por lo tan-
to, en los capítulos 18 al 20 se repasan los números índice y la predicción de
series cronológicas, junto con aplicaciones en computadora.
El libro tiene material suficiente para un curso de estadística de dos semes-
tres; por ejemplo, se pueden ver los capítulos 1 al 12 durante el primer semestre
y los capítulos 13 al 20 en el segundo. También se puede utilizar en un curso
semestral o en cursos más avanzados, haciendo la selección adecuada de temas.
Por ejemplo, para un curso tradicional se pueden usar los capítulos 1 - 4, 9 - 11
y 16 - 20. Además, se pueden incluir (o substituir por otros capítulos) los capí-
tulos 7, 8 y 13, si se desea una introducción a la teoría bayesiana de las decisio-
nes.
Un curso avanzado podría incluir los capítulos 5-8,12-15 y J7. También
se pueden hacer otras combinaciones de capítulos, a fm de satisfacer las necesi-
dades de determinadas escuelas o grupos de estudiantes.
Los autores están en deuda con Lester S. Kellog y John H. Srnith, cuyas im-
portantes aportaciones al libro Business and Economic Statistics de Spurr, Kellog
y Smith (la. Ed. 1954, Ed. Rev. 1961; Homewood, lll.: Richard D. Irwin, lnc.)
constituyeron la base a partir de la cual se desarrollaron los capítulos 1-4 y
18-19 del presente libro. El tratamiento general de la teoría de las decisiones
sigue la estructura tradicional del excelente trabajo de Robert Schlaifer, Proba-
bility and Statistics for Business Decisions (Nueva York: McGraw-Hill Book
Co., Inc., 1959). También queremos expresar nuestro reconocimiento a los
siguientes profet ores, que contribuyeron con sus valiosas ideas: William C.
Dunkelberg, Karl A. Fox, Roy W. Jastram, Charles A. Holloway, James R.
Miller, Donald G. Morrison y Howard Raiffa. Finalmente, deseamos agradecer el
generoso apoyo que nos brindó la Escuela de Administración para Posgraduados
de la Universidad de Stanford, tanto en tiempo como en las facilidades que nos
otorgaron para escribir esta obra.

William A. Spurr
Charles P. Bonini
Contenido

I. ANALISIS DE INFORMACION BASICA

1. La estadística en la administración y la economía 13


El análisis estadístico como método científico, 13. El papel de la
estadística en la toma de decisiones, 15. La estadística en la adminis-
tración de negocios, 17. La estadística en la economía, 19. La preci-
sión de los datos económicos, 21. Encuestas por medio de muestras,
23. Bibliografía, 27.

2. Análisis de datos: Razones y distribuciones de frecuencia 29


Métodos de clasificación de datos, 29. Razones, 30. Diagramas semi-
logarítmicos, 33. Distribuciones de frecuencia, 37. Representaciones
gráficas de distribuciones de frecuencia, 43. Distribuciones de fre-
cuencia acumulativa, 41. Curvas de frecuencia, 49.

3. Promedios 63
La media aritmética, 63. La mediana, 68. La moda, 71. ¿Cuál prome-
dio utilizar?, 73. Características de los promedios, 73. Resumen de
fórmulas, 75.

4. Dispersión 83
Propósitos de la medición de la dispersión, 85. La amplitud, 86. La
desviación estándar, 91. Relación entre las medidas de dispersión, 96.
Medidas de dispersión relativa, 99. Asimetría, 101. Utilización de las
medidas de dispersión, 101. Resumen de fórmulas, 102. Bibliografía,
108.

11. PROBABILIDAD

5. Una introducción a la teoría de la probabilidad 111


Conceptos básicos, 111. Reglas para el manejo de las probabilidades,
117. Arboles de probabilidad, 120. Ejemplos del uso de probabilida-
des, 121. Distribución de probabilidad, 127. Valor esperado y varían-

9
10 Contenido

cia de distribuciones de probabilidad, 130. Apéndice A: valor espe-


rado y variancia de distribuciones continuas,* 133. Apéndice B:
Estimación de las distribuciones de probabilidad subjetivas,* 134.

6. Distribuciones de probabilidad 147


La distribución binomial, 147. La distribución de Poisson, 154. La dis-
tribución normal, 158. La distribución exponencial, 166. Bibliografía,
174.

III. TOMA DE DECISIONES

7. La toma de decisiones en condiciones de incertidumbre 175


El proceso de la toma de decisiones, 175. El criterio de la toma de de-
cisiones, 177. Arboles de decisión, 189. Riesgo en la toma de deci-
siones: la utilidad monetaria, 198. Apéndice: deducción. de curvas de
utilidad para la toma de decisiones con incertidumbre,* 20 l.

8. La toma de decisiones en condiciones de incertidumbre: El valor de la


información adicional 213

Costo de oportunidad, 213. Valor esperado de la información perfec-


ta, 215. Funciones lineales de utilidad, 219. El valor de la información
imperfecta, 223. Bibliografía, 236.

IV. INFERENCIA ESTADISTICA

9. Introducción a la inferencia estadística 237


Error de muestreo y sesgo, 238. Muestreo aleatorio simple, 242. Cómo
se distribuyen las medias muestrales, 244. El error estándar de la
media, 251. Intervalos de confianza, 256. Proporciones, 260. ¿Cuál
debe ser el tamaño de una muestra?, 263.

10. Pruebas de hipótesis 277


Errores de tipo 1 y tipo Il, 282. Pruebas de dos extremos y pruebas de
un extremo, 287. Pruebas de diferencias entre medias aritméticas,
289. Pruebas de hipótesis para una proporción, 295. Aplicaciones en
el control de calidad estadístico, 298. Bibliografía, 312.

11. Otros procedimientos de prueba: Distribuciones t, x 2 , y f 313


Pruebas de medias: muestras pequeñas, 313. Pruebas Ji-Cuadrada,
*318. La distribución F y el análisis de variancia,* 327. Pruebas
no-paramétricas," 337. Bibliografía, 346.

V. MUESTREO, SIMULACION y TOMA DE DECISIONES

12. Métodos de encuestas por muestreo 349


Muestreo probabilístico, 349. Muestreo no-probabilístico, 358. Medi-
Contenido 11

ciónde la precisión de los estadísticos muestrales, 361. Bibliografía,


387.
13. El teorema de Bayes y el muestreo 389
Distribuciones de probabilidad a priori y a posteriori, 390. Probabi-
lidad a posteriori y toma de decisiones, 396. Valor esperado de la
información muestral,* 400. Métodos bayesiano y clásico, 403.

14. La toma de decisiones y el muestreo: La distribución normal* 409


La distribución normal en la toma de decisiones, 409. Determinación
de la distribución a posteriori, 417. Evaluación de la información
muestral, 423. Tamaño óptimo de la muestra, 426. Bibliografía, 427.

15. Los métodos de Montecarlo en la toma de decisiones 439


Muestreo de Montecarlo obtenido a partir de una distribución discre-
ta, 440. Muestreo de Montecarlo obtenido a partir de una distribución
continua, 444. Análisis del riesgo, 454. Bibliografía, 464.

VI. PREDICCION y CONTROL

16. Correlación y regresión simple 465


Diagramas de dispersión, 465. Análisis de regresión, 467'. Coeficiente
de determinación, 481. Inferencias hechas a partir de las muestras,
485. Regresión de series cronológicas, 494. Precaución: la correlación
no implica causalidad, 499.

17. Correlación y regresión múltiple 511


Análisis de regresión, múltiple, 512. Coeficiente de determinación
múltiple, 524. Inferencia estadística en la regresión múltiple,* 525.
Uso de programas de computadora,* 527. Precauciones para el uso de
la regresión múltiple, 532. Apéndice A: introducción a las operaciones
matriciales,* 536. Apéndice B: solución matricial al análisis de regre-
sión múltiple," 543. Bibliografía, 555.

VII. ANALISIS DE SERIES CRONOLOGICAS

18. Números índice 557


Clases de números índice, 558. Métodos básicos para)a construcción
de números índice, 561. Pruebas para un número índice adecuado,
569. Revisiones de números índice, 574. Algunos índices importantes,
577. Bibliografía, 592.

19. Análisis de series cronológicas: Tendencia secular 593


Tipos de fluctuaciones comerciales, 593. Tendencia secular, 595.
Métodos de medición de la tendencia, 602.

20. Variaciones estacionales y cíclicas 627


Naturaleza de la estacionalidad, 627. Finalidad del análisis estacional,
.631. Métodos de medición de las variaciones estacionales, 632. Pro-
12 Contenido,

nóstico estacional, 647. Variaciones cíclicas, 648. Cómo medir los


ciclos, 651. Pronóstico cíclico, 656. Resumen de los métodos estadís-
ticos de pronóstico, 662. Bibliografía, 671.

Apéndices. A. Glosario de símbolos 675


B. Logaritmos 681
C. Cuadrados, raíces cuadradas, y recíprocos de 1 a 1000 687
D. Areas bajo la curva normal 699
E. Función de costo de oportunidad normal unitario 701
F. Distribución binomial-términos individuales 703
G. Distribución binomial-términos acumulativos 711
H. Distribución de Poisson-términos individuales 719
I. Distribución de Poisson-términos acumulativos 721
J. Valores de e- x- 723
K. Sumas de cuadrados y cuartas potenciales
usadas en ajustes de tendencia 725
L. Números aleatorios 727
M. Valores de t 729
N. Distribución Ji-Cuadrada 731
O. Distribución F 733
P. Prueba de la suma de rangqs 737

Indice 739

* Indica secciones que contienen material más avanzado u opcional.


l. Análisis de información
básica
CAPITULO 1
La estadística en la
administración y en la economía

ACTUALMENTE, el método estadístico se aplica en las siguientes áreas de


la administración y la economía: 1) datos estadísticos, 2) análisis esta-
dístico y 3) toma de decisiones. Cada uno de estos aspectos no tiene valor
sin los otros. Día a día, los datos numéricos y las técnicas de análisis y
de toma de decisiones adquieren mayor importancia para la dirección de
negocios y para todos los campos de la economía.
Pero, ¿ qué son los datos estadísticos? No todos los numeras son esta-
dísticos; los logaritmos por ejemplo son meramente números abstractos.
Los datos estadísticos son números que representan objetos. concretos
-contándolos o midiéndolos. Las estadísticas tratan de los números no
solamente como tales, sino como expresiones de relaciones significativas.
Por lo tanto no es suficiente con obtener y presentar los datos; también
hay que analizarlos e interpretarlos cuidadosamente, a fin de tomar las
mejores. decisiones posibles a base de ellos. Como decía Lord Kelvin:
Cuando puedes medir lo que dices y expresarlo en números, sabes algo de
ello; cuando no puedes medirlo, ni puedes expresarlo en números, tu conocimiento
es insatisfactorio y deficiente: puede ser e! principio del conocimiento, pero tus
pensamientos apenas habrán avanzado hacia la etapa de la ciencia, cualquiera
que sea la rama de! conocimiento.

EL ANÁLISIS ESTADíSTICO COMO MÉTODO


CIENTíFICO
Cuando deben analizarse grandes cantidades de información numenca,
es necesario encontrar algunos medios de sumarización que revelen sus
principales características. Por lo tanto, en un sentido muy amplio, el
análisis estadístico es un método científico de estudiar datos cuantitativos.
Es un medio para extraer las características esenciales de los datos y las
relaciones existentes entre ellos y, así, generalizar a partir de estas obser-
vaciones, para determinar patrones generales de comportamiento y ten-
dencias futuras. Por 10 tanto, el análisis estadístico es muy útil en cualquier
campo del conocimiento en el que se necesite amplia información numérica.
13
14 La estadistica en la administración yen la economia

En particular, las ciencias sociales y biológicas requieren gran cantidad


de información para determinar comportamientos generales, puesto que
hay grandes variaciones entre individuos. Por otro lado, en las ciencias
físicas se pueden hacer experimentos de laboratorio controlados con toda
precisión, en vez de usar una gran cantidad de datos: por ejemplo, el
físico puede estimar la velocidad de la luz mediante experimentos repe-
tidos, obteniendo sólo un pequeño error de medición; en cambio, el ana-
lista de mercados que desea determinar las preferencias del consumidor
en cuanto a automóviles compactos, debe tomar una muestra de consu-
midores que pueden tener preferencias muy variadas. Debe formular un
cuestionario, seleccionar una muestra representativa y estimar el error
del muestreo. Los grupos humanos y biológicos son mucho más variables
en su comportamiento que la mayoría de los fenómenos físicos y, por lo
tanto, para estudiarlos, el tratamiento estadístico se requiere mucho más
que en la física. Por consiguiente, el análisis estadístico es el método fun-
damental de razonamiento cuantitativo no solamente en los negocios y en
la economía, sino también en la sociología, antropología, psicología, edu-
cación, medicina, sanidad pública y biología.
La teoría estadística se fundamenta en las matemáticas de la proba-
bilidad, las cuales constituyen la base para determinar no solamente las
tendencias generales, sino también la con fiabilidad de cada generalización
que se haga. Al proceso completo de razonamiento de lo específico hacia
lo general se le puede llamar inferencia estadística, generalización o in-
ducción. Al á'rea del análisis estadístico en sí se le denomina métodos esta-
dísticos o simplemente estadística. El último término se usa aquí en sin-
gular, en oposición a estadísticas en plural, que se refiere solamente a datos
observados. Las aplicaciones del análisis estadístico, en un área particular,
pueden conocerse con otros nombres que connotan el concepto de medición
o investigación, tales como econometría, biometría, métodos psicométri-
cos, o medición forestal -y también investigación administrativa, econó-
mica, o de mercados. Por último, la estadística es muy importante en
áreas más nuevas, como la investigación de operaciones, la ciencia de la
administración y el análisis de sistemas.
En los últimos años se ha ido reconociendo poco a poco la importancia
que tiene el tratamiento estadístico en la solución del problemas prácticos.
Esto se explica por varias razones. Fundamentalmente, el tremendo creci-
miento de la población, la producción en gran escala y el incremento
comercial que siguieran a la revolución industrial han requerido la crea-
ción y uso de un gran número de estadísticas en todas las esferas de
actividad social. El conocimiento estadístico ha crecido en cantidad, cali-
dad y frecuencia. Las crecientes necesidades de los gobiernos han acelerado
este crecimiento. Como resultado, la búsqueda de información se ha
vuelto parte integral del proceso económico.

Entonces, el creciente interés público en la demanda de estadísticas sociales


descansa en la premisa básica de que los problemas de la sociedad, así como los
problemas de las ciencias naturales y de la tecnología, pueden resolverse mediante
El papel de la estadística en la toma de decisiones 15

el incremento y difusión de este tipo especialmente concreto del conocimiento


concreto. Ahora todo el mundo parece apoyar la idea de que la estadística puede
ser muy útil para el entendimiento, apreciación y control de las operaciones de la
sociedad.!

Los estadísticos también han descubierto nuevas técnicas de análisis


que han incrementado el valor de los métodos estadísticos de planeación
y control. En particular, con el advenimiento de la computadora elec-
trónica en años recientes, el estadístico ha adquirido los medios necesarios
para tratar rápidamente grandes cantidades de datos. Las computadoras
electrónicas pueden realizar una gran variedad de funciones en el procesa-
miento de datos; pueden clasificar la información en la forma deseada,
convertirla a una forma diferente, almacenarla para usarla en el futuro,.
transferirla a otras partes del sistema, realizar todo tipo de cálculos arit-
méticos, e imprimir los resultados finales en forma legible. Todo ello se
realiza a altas velocidades, en una operación completamente integrada, sin
intervención humana. Por ello, la versatilidad y velocidad de los sistemas,
de procesamiento electrónico de datos están revolucionando el manejo en
gran escala de datos y la toma de decisiones en la administración mo-
derna de los negocios.
Los estadísticos prácticos han ayudado también a quitar el velo de
misterio que antiguamente rodeaba a esta materia. Esto se ha mani-
festado mediante un cambio en el énfasis de la enseñanza hacia el aspecto
práctico de la materia, por medio de la publicación de libros de texto
y libros de consulta que hacen hincapié en la simplicidad de las aplica-
ciones estadísticas y eliminan la impresión de que es necesario ser maestro
de matemáticas avanzadas para hacer algún trabajo estadístico.

EL PAPEL DE LA ESTADISTICA EN LA TOMA DE


DECISIONES
Los datos estadísticos se recopilan y analizan no solamente con el pro-
pósito de añadirlos al conocimiento científico en general, sino también
para ayudar al hombre racional en la toma de decisiones. La toma de
decisiones es una de las funciones más importantes del ejecutivo de ne-
gocios, del funcionario de gobierno, o del administrador en cualquier
campo. La función de la estadística es ayudar a decidir cuáles datos son
necesarios y cómo se los recopilará, tabulará, analizará e interpretará de
manera que nos lleven a la mejor decisión posiole. Desafortunadamente,
casi nunca disponemos de información completa, de modo que debemos
utilizar datos incompletos o muestras. En esta forma, la estadística pro-
porciona al ejecutivo métodos que lo llevan a tomar la mejor decisión
posible, basándose en esa información incompleta. Así, se ha llegado a
definir la estadística como un grupo de métodos encaminados a tomar
decisiones correctas ante la incertidumbre.
1 Solomon Fabricant, "Factors in the Accumulation 01 Social Statistics";
[ournal 01 the American Statistical Association, junio 1952, pág. 259.
16 La estadtstica en la administración y en la economia

Por supuesto, los métodos estadísticos no son la uruca base para la


toma de decisiones. Hay muchos factores intangibles -por ejemplo, el
medio ambiente de los negocios, las perspectivas de acción del gobierno,
los adelantos tecnológicos, o las relaciones personales- que han conver-
tido a la administración en un arte intuitivo más que en una ciencia. De
todos modos, la estadística proporciona las bases primarias reales para
lograr buenas decisiones. Como lo expresa un anuncio de la IBM, "Nadie
puede quitar de sus hombros el peso de la decisión final. Pero ese peso
será más liviano entre mayor sea su conocimiento acerca de cómo son
realmente las cosas."
y también:

Todos los campos de la estadística ... tratan el mismo problema básico, que
es el problema de la toma de decisiones ante la incertidumbre. Todas las reglas
de decisiones... deben evaluarse por sus consecuencias. Estas consecuencias se
pueden expresar en términos de riesgo o, más intrínsecamente, en términos de las
probabilidades de tomar cualquiera de las acciones posibles que son inducidas por
el experimento, las reglas de decisión, y los posibles estados del sistema. En resu-
men ... no es en los hechos visibles, sino más bien en. las decisiones derivadas de
las observaciones, en las que debiera ponerse el énfasis principal de las observa-
ciones -estadisticas elementales.s

Con objeto de aprender la lógica de la toma de decisiones, es necesario


estudiar primero las leyes de probabilidad que regulan los eventos incier-
tos. Luego, al afrontar un problema de administración que implica in-
certidumbre, se puede establecer una "tabla de pagos" (ver capítulo 7),
haciendo una lista en una columna de los eventos futuros que pueden
ocurrir y las probabilidades de cada uno de ellos. Si no hay hechos con-
cretos en qué basar el cálculo de las probabilidades, el ejecutivo puede
usar su propio criterio para estimar la posibilidad de que un evento dado
pueda ocurrir, incluyendo así el criterio personal desde el comienzo del
proceso de decisión. Luego haría una lista en la parte superior de la tabla
de las diversas acciones o decisiones que podrían tomarse. En la tabla se
indica la utilidad que puede obtenerse con cada combinación de una
acción dada y un evento resultante. Las ganancias se pueden expresar
monetariamente, o bien, en "unidades de utilidad" que representen valores
subjetivos personales. Finalmente, para cada acción,se multiplica la uti-
lidad de cada evento por su probabilidad y se suman los resultados de
todos los eventos posibles para obtener la utilidad "esperada" que habría,
en promedio, para cada acción. La mejor acción es la que tiene la mayor
utilidad esperada.
Este modelo de decisión se puede ampliar por medio de un árbol de
decisiones (ver el capítulo 7), para abarcar una serie de decisiones. Además,
si se duda de la validez de una decisión, se puede determinar si es prefe-
rible esperar y obtener más información, y cuánta información adicional

2 M. A. Girshick, [ournal 01 the American Statistical Association, septiembre


1953, pág. 646.
La estadistica en la administración de negocios J7

se requiere antes de actuar. La probabilidad de que ocurra un evento


también se puede revisar a la luz de nuevas evidencias por medio del
Teorema de Bayes (ver el capítulo 13). De ahí el nombre de "estadística
bayesiana" que se le da a este nuevo método de toma de decisiones. Hay
diversos problemas de administración de negocios que también se pueden
aclarar estableciendo otros modelos de probabilidad (ver el capítulo 15),
los cuales se pueden resolver por métodos similares. En esa forma, la teoría
de decisiones bavesiana capacita al ejecutivo para que cuantifique sus
ideas, reduzca la amplitud de su incertidumbre respecto al futuro y, así,
aumente la posibilidad de que tome la decisión correcta.
El papel de la computadora electrónica es cada día más importante
en el proceso de toma de decisiones. Se puede programar la compu-
tadora para que tome decisiones simples por sí sola (como en control
de inventarios) o también realizar extensos análisis que ayuden al eje-
cutivo a tomar una decisión más compleja. Los métodos estadísticos no
sólo proporcionan los datos, sino también las técnicas usadas por las
computadoras en la toma de decisiones.

LA ESTADíSTICA EN LA ADMINISTRACIóN DE
NEGOCIOS I

El empleo de los métodos estadísticos para la solución de problemas


comerciales pertenece casi exclusivamente al siglo XX. En épocas ante-
riores, cuando prácticamente todas las empresas comerciales eran peque-
ñas, la dirección podía comprender todos sus problemas en detalle tra-
tándolos personalmente.' Al aumentar el tamaño de las organizaciones
comerciales en nuestros días, se ha requerido mayor planeación y regla-
mentación de las operaciones. Al mismo tiempo, la dirección ha visto
que es imposible mantener un contacto directo con sus problemas. La
alternativa es mantener control mediante la interpretación de información
numérica. Todas estas circunstancias han dado lugar a la introducción
de los métodos estadísticos de investigación, como una ayuda básica para
que la dirección cumpla sus funciones.
De acuerdo con el estudio hecho por la Pacific Telephone and Tele-
graph Company :

Hoy en día, la dirección, en todos sus niveles, se guía generalmente por los
datos obtenidos mediante el análisis de registros, más que por conocimientos obte-
nidos meramente de la observación personal y la experiencia... Por medio de la
aplicación de métodos estadísticos apropiados se puede medir el rendimiento diario,
estudiar las relaciones significativas, analizar las experiencias pasadas y prever
las tendencias futuras probables ...
El uso de métodos estadísticos y la realización del trabajo analítico que es
fundamentalmente de carácter estadístico -ya sea que se le dé o no el nombre
distintivo de estadística- ocupa un lugar conspicuo en el trabajo de todos los
departamentos de la compañía.
18 La estadistica en /0 administración y en /0 economía

Por lo tanto, el análisis estadístico sirve como una base para el control
de muchas operaciones efectuadas en una empresa y para planear y pro-
gramar sus actividades. Por medio de la ayuda de los reportes estadísticos,
el ejecutivo puede obtener un cuadro extractado de las operaciones nor-
males, el cual proporciona bases reales para tomar decisiones válidas que
influyen en operaciones futuras.
Las principales actividades estadísticas de una empresa progresista
típica son las siguientes:
L Un departamento central de investigación económica o estadístico,
que opera bajo la dirección de un "economista" o "jefe de estadística".
Este departamento analiza las tendencias comerciales generales y pronostica
las actividades de los negocios, precios de las mercancías, y otros factores
económicos; puede coordinar las estadísticas internas de la compañía
recopiladas por otros departamentos y hacer reportes sumarios de las ope-
raciones para los altos ejecutivos. También compara periódicamente el
desarrollo de la compañía con el de sus competidores.
2. Un departamento o staff de investigación de mercados estudia las
preferencias del consumidor y su poder de compra, y pronostica las ten-
dencias futuras probables en las ventas. Este departamento puede prepa-
rar un pronóstico detallado de ventas para el año entrante, analizado por
productos y por meses. Finalmente, tiene la responsabilidad de fijar las
cuotas de los vendedores por territorios y por productos, basándose en
las experiencias pasadas, estudios del ingreso y en las estimaciones de los
propios vendedores.
3. El departamento de producción mantiene un staff de control de
calidad que minimiza la producción defectuosa por medio de verifica-
ciones estadísticas, como las descritas en el capítulo 10. Prepara los pro-
nósticos de producción, basándose en los pronósticos de ventas y otros
criterios y compara la producción real con estas estimaciones. También
mantiene un sistema de control de inventarios y hace estudios de tiempos
y movimientos.
4. El departamento de contraloría combina métodos estadísticos y
contables, a fin de hacer un presupuesto general para el año siguiente
incluyendo ventas, materiales, mano de obra y otros costos, utilidades
netas y requerimientos de capital. Puede mantener un sistema de costos
estándar para controlar los costos y fijar los precios de los productos.
5. El departamento de personal hace estudios estadísticos de las tasas
de salario, sistemas de incentivos, costo de la vida, tendencias de empleo,
tasas de rotación de los trabajadores, tasas de accidentes, y los resultados
de los procedimientos de selección de personal.
6. El departamento de inversiones tiene analistas financieros que
estudian cada una de las acciones y los bonos, así como el comportamiento
del mercado de valores.
7. El departamento de crédito realiza análisis estadísticos para deter-
minar el monto del crédito que se le va a otorgar a cada posible cliente.
La información relativa a los clientes que han pagado y los que no han
La estadisticaen la economia 19

cumplido anteriormente, se usa para seleccionar los futuros riesgos de


crédito.
8. El departamento ejecutivo puede incluir un staff de investigación
de operaciones. Este grupo lo constituyen especialistas tales como estadís-
ticos, matemáticos y físicos, los cuales aplican métodos científicos para
estudiar las operaciones complejas de la organización.

Algunos de los hombres y mujeres que realizan estas funciones son


estadísticos profesionales, pero la mayoría de ellos han desarrollado su
conocimiento del análisis estadístico como segunda especialidad. En todos
los departamentos de una empresa, el personal se encuentra relacionado
con la recopilación, clasificación y presentación de las estadísticas, aunque su
trabajo no requiera de análisis. El ejecutivo general también debe saber
algo de estadística, así como los principios básicos de contabilidad, finan-
zas, derecho mercantil, mercadotecnia, dirección de la producción y rela-
ciones industriales para manejar los diferentes aspectos de su trabajo. No
puede depender completamente de los especialistas para este conocimiento.

LA ESTADíSTICA EN LA ECONOMíA

Los economistas y otros científicos sociales Se interesan más en las


condiciones de la economía en con junto, que en una empresa en particu-
lar, pero dependen de las estadísticas, tanto como un analista adminis-
trativo. Es más, muchos de los problemas estadísticos en la economía son
muy similares o idénticos a los de una empresa. Hoy en día, los econo-
mistas ya no se contentan con pensar en términos abstractos, citando .las
estadísticas solamente cuando las necesitan para respaldar sus argumentos.
En vez de ello, utilizan los excelentes datos de que disponen para poner
una base real a su razonamiento. Algunos de los usos de las estadísticas
en la economía son los siguientes:
1. El estudio estadístico extensivo de los ciclos comerciales, del des-
arrollo a largo plazo y las fluctuaciones estacionales han servido para
ampliar nuestros conocimientos acerca de diversos problemas de inesta-
bilidad económica y para modificar antiguas teorías.
2. Las mediciones-estadísticas del producto nacional bruto y el in-
greso personal han hecho que aumenten los conocimientos generales sobre
economía y han abierto un campo de estudio enteramente nuevo.
3. La medición estadística de los precios es esencial para el estudio
de las teorías de precios, políticas de precios y tendencias de los precios,
y de las relaciones que tienen con el problema general de la inflación.
4. Las estadísticas financieras son básicas en los campos de moneda
y bancos, crédito a corto plazo, financiamiento al consumidor y finanzas
públicas.
5. Los estudios sobre la operación de las empresas concesionarias de
servicios, incluyendo las industrias de transportes y comunicaciones, re-
20 La estadistica en la administración y en la economia

quieren de herramientas de análisis estadístico e instrumentos legales.


Tales estudios son necesarios en relación con los reglamentos federal y
estatal para estas industrias.
6. Básicamente, el análisis de la población, la economía territorial y
la geografía económica son disciplinas estadísticas con un enfoque geo-
gráfico.
7. Los estudios de competencia, oligopolio y monopolio, requieren
comparaciones estadísticas de los precios de mercado, costos y utilidades
de las empresas particulares.
Por lo tanto, el análisis estadístico se utiliza en todos los campos in-
ductivos de la economía -lo usan profesores, oficinas de investigación
económica de las universidades, cámaras de comercio, sindicatos y famo-
sas agencias de investigación, tales como la N ational Bureau 01 Economic
Research, la N ational Industrial Conierence Board, la Twentieth Century
Fund y la Brookings Institution, por mencionar algunas.
Sin embargo, donde el desarrollo del análisis estadístico ha sido más
espectacular en los últimos años es en las investigaciones económicas del
gobierno federal. Pues, así como el gobierno federal ha aumentado en
tamaño, también se ha incrementadp grandemente el número de sus
actividades estadísticas en todos los campos de la economía aplicada.
Algunas agencias compilan y publican estadísticas por su valor informativo
para el público, mientras que otras recopilan datos como producto de
las actividades I administrativas y reguladoras. Al decretarse la Full Em-
ployment Act en 1946 el President's Council 01 Economic Advisers y el
Joint Economic Committee del Congreso de los Estados Unidos, emplea-
ron muchos índices estadísticos como guía para recomendar al Presidente
y al Congreso medidas de control destinadas a prevenir los efectos de
la depresión, la inflación y el desempleo. Las estadísticas se han conver-
tido en la herramienta principal para la orientación y el control de la
economía por parte del Gobierno Federal, así como en una herramienta
operacional en las empresas particulares.
Para concluir con esta introducción citaremos lo que opina M. J.
Morone y en su libro Facts [rom Figures:
Si eres joven, te recomiendo que aprendas algo de estadística tan pronto
corno puedas. No lo dejes por ignorancia o porque te obliga a pensar... Si
eres viejo y ya has sido coronado con los laureles del triunfo, haz que quienes
están bajo tu jurisdicción y se te acerquen a pedirte consejo, se animen a estudiar
esta materia. En esta forma demostrarás que tus arterias todavía no están tan
duras y podrás cosechar los beneficios sin trabajar mucho tú mismo. Dondequiera
que estés,si tu trabajo requiere que interpretes datos, lo podrás hacer sin esta-
dística, pero no lo harás tan bien.

Finalmente, el estudio de la estadística ayuda a evitar la mala utili-


zación de los datos. Se ha dicho: Hay tres clases de mentiras: mentiras.
grandes mentiras y las estadísticas o, a la inversa, que "las cifras no mienten,
pero los mentirosos hacen cifras". "Mucha gente utiliza la estadística
como el borracho el farol callejero-más para sostenerse que para ilu-
La precisión de los datos económicos 21

minarse". Es difícil leer un periódico sin encontrarse algún encabezado


sensacionalista basado en datos dudosos o insuficientes.
Gran parte del mal uso que se hace en los reportes estadísticos se debe
a que a los autores les falta mantener una actitud crítica hacia su tra-
bajo. Aun hechos y manifestaciones que son ciertos en algún sentido se
pueden citar fuera de contexto o presentarse de tal manera que la ma-
yoría de los lectores pueden malinterpretarlos. La actitud científica hacia
el testimonio es escéptica en vez de cínica o de entusiasmo acrítico. El
investigador debe buscar la verdad sobre todo. No es suficiente evitar
la falsedad evidente; se debe estar alerta para descubrir posibles distor-
siones de la verdad.

LA PRECISIóN DE LOS DATOS ECONóMICOS

No solamente se utilizan mal las estadísticas, sino que los mismos datos
básicos divergen ampliamente en su precisión, aunque parezcan exactos.
Así leemos que "El Census Bureau contó 22.580,289 negros en los Estados
U nidos en su encuesta de 1970". "Las trece Shippers Adoisory Boards
regionales estimaron ayer que la ocupación de carros de carga en el tri-
mestre actual sería de 8.146,723 carros". "Un estudio I de la State I ndus-
trial Commission encontró que una joven soltera puede vivir una vida
'individual, sana, y moral' con un mínimo de $2,422.59 por año". (Si no
recibiera los últimos $2.59, ¿sufrirán su salud, su moral o ambas?') Segu-
ramente que ninguna de esas'cifras es correcta hasta el último dígito.
Esas cifras detalladas son engañosas y sugieren un grado de precisión que
no existe de ninguna manera. De hecho, la mayoría de los datos económi-
cos deberían redondearse a tres' o cuatro cifras significativas para sim-
plificar la tabulación, cálculo e interpretación." Las cifras adicionales, o
no son válidas, o no se las necesita en la toma de decisiones (aunque
pueda necesitárselas para la consistencia contable).
Por otra parte, muchas de las cifras reportadas están sujetas a errores
mucho más grandes que los que indicarían tres o cuatro cifras significa-
tivas. Por lo tanto, es importante estimar el tamaño y el tipo de error
inherente a los datos básicos. Ello puede hacerse estudiando la naturaleza
de los datos originales, el proceso de recopilación, y el propósito para el
que se recabaron las cifras. Por ejemplo, elSurvey o] Current Business
informó que el valor de la construcción nueva realizada en octubre de
1972 fue de $11,298 millones. Esa podría parecer una cifra exacta, pero
en realidad representa estimaciones hechas por más de una docena de

3 Se recomiendan las siguientes reglas para el redondeo de números: a) Cuan-


do se elimina un número mayor que cinco, se incrementa el dígito precedente
en uno. b) Cuando se elimina un número menor que cinco, se deja intacto el
dígito precedente. e) Cuando el número que se elimina es exactamente igual a
cinco, se incrementa el dígito precedente si es impar, pero se deja intacto si es par.
O sea que, el número redondeado siempre es par. Esta regla previene los errores
acumulativos en la suma.
22 La estadtstica en la administración y en la economia

oficinas recaudadoras de impuestos que, a su vez, se basan en cientos


de fuentes distintas de diferente confiabilidad. La construcción tiene lugar
en sitios bastante distantes entre sí, se lleva a cabo por decenas de miles de
pequeños contratistas y personas que hacen su propia construcción y tra-
bajo de reparación; siendo así, el error de las cifras mencionadas puede
ser considerable. Por lo tanto, para entender las características y limita-
ciones de las estadísticas básicas, se debería estudiar el texto y las notas
de pie de página que tiene cada reporte, comprobar otras fuentes y, si es
necesario, solicitar, a la oficina recaudadora de impuestos original, la des-
cripción de sus métodos.
A veces, los errores en los datos los estima la misma oficina recaudadora
de impuestos. Por ejemplo, en "Ingreso de las familias en 1970 ...", el
e ensus Bureau dice: "Puesto que las estimaciones de este reporte se basan
en una muestra, están sujetas a errores de respuesta y de no contestación,
así como de variabilidad muestral"." A lo que sigue un análisis de los
errores y una tabla de "error estándar del porcentaje de familias estimado"
(explicado en el capítulo 9) como medida de. la variabilidad muestra!.
También el U.S. Bureau .of Labor Statistics advierte que no son con-
fiables las cifras de desempleo mensuales para subgrupos pequeños de
la población. Aún así, cuando reportó. que el desempleo de los negros
había aumentado de 8.4% en junio de 1965 a 9.1% en julio, en el tiempo
de los desórdenes de Watts en Los Angeles, algunos escritores citaron
esas cifras para probar que en el desarroIlo económico, los negros se ha-
bían quedado rezagados. Sin embargo, más tarde se informó que la cifra
de agosto fue de 7.6% y en los meses siguientes las cifras correspondientes
fueron todavía menores. La cifra de julio era una fluctuación estadística.
Por lo tanto, para el analista de administración de negocios es una
regla excelente el estimar el error de cualesquiera cifras que prepare o
utilice, de manera que pueda evitar que se llegue a conclusiones erróneas
en base a datos no confiables.

Cifras significativas en los cómputos


Al realizar.cálculos básicos con números aproximados deben observarse
dos reglas:
1. Al sumar o restar, el resultado no debe contener más lugares deci-
males que el menos preéiso de los números con los que se realiza la ope-
ración. En esa forma, el W orld Almanac informó que el área de Europa
era de 3.769,107 millas cuadradas y la de Asia de 17.300,000 millas cua-
dradas (es decir, estimada al 100,OOO·ésimo más próximo). El área total
de Eurasia se debe expresar como 21.100,000 y no como 21.069,107, millas
cuadradas.
Sin embargo, cuando esta regla se aplica a la resta, tiene una faIla:
un error relativamente pequeño en dos cifras grandes puede producir un

4 CUTTent Population Reports, Series P-60, N9 80, octubre 4, 1971, pág. 11.
Encuestaspor medio de muestras 23

error porcentual grande en la diferencia. Para ilustrar lo anterior, con-


sidere el número de personas desempleadas en la nación, que a veces se
estima sustrayendo el número de empleados del total de la fuerza de tra-
bajo, o sea, de todas aquellas personas disponibles: para empleos. Suponga
que el empleo y la fuerza de trabajo están sujetos respectivamente a un
error de un millón, o cerca de 1% en cada dirección. Por lo tanto, la
estimación resultante del desempleo puede ser de dos millones, con un
error de 100%, como se muestra a continuación.

Millones de Error
Estimaciones de personas posible

Fuerza de trabajo 90 ± 1 1.1%


Empleo 88 ± 1 1.1%
Desempleo 2± 2 100.0%

Esta sencilla operación aritmética explica los amplios errores que fre-
cuentemente se cometen en las estimaciones del desempleo, el déficit
federal, el ahorro personal, las ganancias netas de las corporaciones y
otros valores similares que se obtienen por· sustracción.
2. En la multiplicación y división (así como en los cuadrados y raíces
cuadradas), el resultado no tiene más dígitos significativos que el menor
número de cifras significativas que tienen los números con los cuales se
opera. Por ejemplo, suponga que en noviembre el contralor de la Com-
pañía Apex estima que las ganancias netas del año calendario son de
$2.736,000, basadas en ventas indicadas de $34.200,000 y estimando que la
razón de ganancias netas a ventas es de 8%. Por lo tanto, sólo una cifra
en la estimación de ganancias netas es realmente significativa, ya que la
estimación de 8% significa algún valor entre 71;2 y 81;2%, yesos valores
extremos multiplicados por las ventas dan un rango de ganancias entre
$2.565,000 y $2.907,000.
Sin embargo, en cálculos más extensos, las cifras no deben redondearse
hasta establecer el resultado final. Esto es para evitar la acumulación de
errores .de redondeo en las operaciones subsecuentes de multiplicación o
sustracción.

ENCUESTAS POR MEDIO DE MUESTRAS


Los datos originales pueden recabarse de una población completa o de
una muestra seleccionada de esa población. El término población (o
universo) se refiere aquí a poblaciones humanas (v. g., consumidores, vo-
tantes, estudiantes universitarios), o bien, a objetos, tales como productos
manufacturados que se prueban para encontrar artículos defectuosos.
Los ejemplos de una enumeración completa o censo los constituyen
los censos de los Estados Unidos de vivienda y manufacturas y las esta-
dísticas de ingreso y consumo de gasolina, las cuales son subproductos de
la función de recaudación de impuestos del gobierno. Una planilla
de todos los empleados de una fábrica es también un censo de población.
24 La estadtstica en la administración y en la economia

En contraste con esos censos completos está la gran mayoría de las


encuestas que dependen de la obtención de una muestra típica de la po-
blación total. Por ejemplo, el Bureau 01 the Census ha estimado el nú-
mero de coches y otros bienes duraderos que los consumidores estado-
unidenses planean comprar el próximo año, basándose en una muestra de
sólo 17,000 familias de los 53 millones que hay en ese país -sólo 1/30
de 1 % del total." En forma similar, el Departamento de Agricultura de
los Estados Unidos utiliza una muestra de dos cuartos de galón de grano
en una furgonada (57,600 cuartos de galón) para determinar el grado
del grano, y el índice de costo de la vida del U.S. Bureau 01 Labor Statistics
se basa en los precios de unos cuantos cientos de artículos y servicios
obtenidos de un número relativamente pequeño de tiendas y otros res-
pondientes.
Hay tres razones básicas por las que se ha generalizado el uso del
muestreo:
1. Con el muestreo generalmente se ahorra, mucho tiempo y dinero.
A menudo, cuando el costo de un censo' completo sería prohibitivo, la
información necesaria se puede obtener por medio de una muestra. Sólo
se necesita que los resultados d~ una encuesta sean lo suficientemente
precisos para que proporcionen una base adecuada para la toma de deci-
siones. Más allá de cierto punto, la información extra que se obtendría
con datos adicionales no compensa e! aumento de! costo.
2. En .rnuchos rcasos, es imposible realizar un censo completo; por
ejemplo, al hacer una revisión rápida de las preferencias del consumidor
para un producto enteramente nuevo, o en la prueba destructiva que se
requiere para determinar e! esfuerzo a la ruptura de varillas de acero, o
bien, al medir la efectividad de un nuevo antibiótico.
3. Finalmente, hay ocasiones en que el muestreo puede dar resultados
más precisos que una encuesta completa. Puede seleccionarse un pequeño
grupo de entrevistadores y entrenarlos más rigurosamente para reducir
los sesgos en una encuesta que lo que podría hacerse con un número
mayor de ellos. En forma similar, al probar materiales, unas cuantas me-
didas hechas cuidadosamente pueden ser preferibles a un mayor número
de medidas hechas con menos precisión. El desarrollo de las técnicas de
muestreo también ha conducido a muchos avances en los métodos mo-
dernos de encuestas personales o de cuestionarios enviados por correo. Si
se utilizan entrevistadores personales (o por teléfono), ellos mismos pue-
den cubrir el grupo entero que se desea mostrar; y también pueden ex-
plicar las preguntas cuidadosamente y evaluar las respuestas, asegurando
así resultados más confiables que los que se pudieran obtener con cuestio-
narios enviados por correo. Por otra parte, los cuestionarios que se envían
por correo son generalmente más económicos, particularmente si se debe
cubrir una área muy extensa; por lo que se les utiliza cuando se puede
lograr que los resultados sean confiables. A veces se pueden combinar

5 Federal Reserve Bulletin, septiembre 1960, págs, 977-1003.


Resumen 25

los dos métodos, enviando primero un cuestionario y luego realizando


llamadas personales a algunas personas seleccionadas entre quienes no
respondieron. En cualquier caso, debe seguirse un plan de muestreo
definido para asegurar que las respuestas son típicas de la población total
(como se describe en el capítulo ]2).

RESUMEN

El análisis estadístico es un método científico para interpretar datos


cuantitativos. Se utiliza para hacer inferencias generales por inducción
a partir del comportamiento de datos variables. Los métodos estadísticos
han adquirido importancia en los últimos tiempos debido al incremento
de la producción y del comercio en gran escala, así corno al aumento del
campo de acción del gobierno y al adelanto de las técnicas estadísticas
mismas.
El análisis estadístico se usa en todas las grandes organizaciones co-
merciales corno una herramienta de planeación y control. Las principales
actividades estadísticas en los negocios incluyen análisis comerciales ge-
nerales, investigación de mercados, control de producción, \ presupuestos,
estudios de personal y de inversiones, análisis de crédito, e investigación
de operaciones.
El análisis estadístico también es usado ampliamente en la economía
y en las ciencias sociales en genelial, particularmente en el estudio de las
fluctuaciones económicas, la contabilidad social, los precios, las finanzas,
las empresas concesionarias de servicios públicos, el análisis regional y
materias relacionadas. El aumento de las actividades gubernamentales
también ha requerido más y mejores datos estadísticos para la planeación
y administración central.
Las etapas básicas en el análisis estadístico incluyen 1) la recopilación
de datos de las fuentes disponibles o haciendo encuestas por medio de
muestras, 2) el análisis e interpretación de las cifras por medio de las
técnicas estadísticas y 3) la utilización de los resultados en la toma
de decisiones, con la ayuda de las probabilidades y de los costos económicos
o utilidades.
El verdadero significado de los hechos se puede distorsionar fácilmente.
Por lo tanto, el investigador estadístico debe estar alerta para evitar malas
interpretaciones de los datos y detectar usos erróneos de las estadísti-
cas. Es esencial mantener una actitud crítica.
Siempre se debe tornar en cuenta la precisión de las cifras. Rara vez,
los datos económicos son más precisos que a tres o cuatro cifras signifi-
cativas, de manera que generalmente se deberían redondear los números
más grandes. La precisión de cualquier cifra puede estimarse estudiando
el método de recopilar los datos. El número de cifras significativas en
los cálculos se regula por medio del mínimo número de cifras significa-
tivas de los datos que se procesan. Sin embargo, en la resta, errores
26 La estadistica en la administración y en la economia

pequeños en las cifras originales pueden producir un error más grande


en la diferencia.
Si no es posible encontrar las cifras necesanas en las fuentes publica-
das o en los registros internos de una firma, debe realizarse una encuesta
por medio de muestras. No se necesita que tal encuesta sea un censo
completo, sino que puede estar restringida a un grupo limitado cuando
los entrevistados representan una sección transversal típica de la población
completa bajo estudio.

PROBLEMAS
1. a) Explique qué significa el término "estadística(s)" cuando se le utiliza
en singular y qué quiere decir cuando se le usa en plural.
b) Cite la aplicación que tengan los métodos estadísticos en alguna área
o tema que usted conozca bien.
e) Enumere otras tres áreas de métodos cuantitativos muy relacionados con
las estadísticas en su escuela, universidad u otra organización.
2. Describa las principales actividades estadísticas de una firma grande y pro-
gresista típica, citando cualesquiera casos específicos que usted conozca.
3. Localice tres revistas estadísticas importantes en la biblioteca y luego dé los
nombres de las mismas, junto con el de las asociaciones que las publican, y
describa brevemente el tipo de material· que contienen.
4. Visite una agencia de investigación económica o uno de los departamentos
estadísticos de entre los ocho descritos en el texto para una organización
comercial, y llene dos o tres páginas con sus actividades estadísticas.
5. Describa una de las principales utilizaciones de la estadística en la economía
en la cual haya tenido alguna experiencia.
6. Consiga un recorte o fotocopia de un periódico. o revista que ilustre un uso
significativo del análisis estadístico en la administración de negocios, economía
o alguna otra ciencia social.
a) ¿ Cuáles etapas del análisis se ilustran: recopilación de datos de fuentes
disponibles o encuestas originales? ¿ Análisis e interpretación de los datos?
b) ¿ Qué inferencia o conclusión puede sacar de ese reporte?
7. Encuentre el valor de una cosecha de trigo estimada en 3,500 búsheles con
un valor probable de $2.16 % por bushel. Exprese el resultado con el número
correcto de cifras significativas.
8. Para el año fiscal que terminó en enero 31 de 1972, Sears, Roebuck y Co,
reportó un ingreso previo a los impuestos de $949.965,971, menos una reserva
para esos impuestos de $399.100,000, lo cual resultó en un ingreso neto de
$550.865,971, o sea, de $3.56 por cada acción de la compañía. Exprese con
el número correcto de cifras significativas: a·) el ingreso neto y b) el número
estimado de acciones.
9. Al comienzo de .1972, el contddor de la Compañía X preparó un presu-
puesto anual que incluía las siguientes estimaciones:
Ventas . $50.000,000
Costo de ventas . 47.000,000
U tilidad neta . 3.000,000
El contador cree que el error en sus estimaciones de ventas y costos de ventas
no excederá de $1.500,000 en cada caso. Basado en esos datos, diga:
a) ¿ Cuál es el porcentaje de error posible en la estimación de la utilidad
neta?
Bibltografta 27

b) Si resulta que su estimación de ventas se excedió en $1.500,000 y su costo


de ventas bajó en la misma cifra, ¿ cuáles serían las utilidades netas?
10. El gerente de crédito de una tienda de departamentos deseaba estimar el
número de las transacciones a crédito realizadas en .el mes anterior. Había
exactamente 2,842 cuentas de crédito. Tomando una muestra aleatoria de
las cuentas, se estimó que había un promedio de 2.4 transacciones por cuenta.
Por lo tanto, se estimó que el número total de transacciones fue de 2,4 X 2,842
= 6,821.
a) ¿ Cuántos dígitos de esa estimación son significativos?
b) Teniendo en cuenta que la estimación de 2.4 transacciones por cuenta, si
es precisa al primer decimal, puede representar un valor exacto entre
2.35 y 2,45, de un posible rango del número total de transacciones.
11. En cada uno de los siguientes ejemplos de recopilación de datos establezca
si se debe realizar un censo completo o tomar una muestra. Explique por
qué en cada caso.
a) Una asociación de vendedores al menudeo desea estudiar la distribución
de los gastos de operación de sus 61 miembros.
b) Una agencia de investigaciones de mercado desea averiguar si los pro-
pietarios de cierta clase de refrigerador desean comprar de nuevo la
misma marca.
e) El presidente de una corporación desea información, para saber cuántos
y
de sus 15,400 empleados son propietarios de sus casas, e! valor de éstas,
el monto de las hipotecas, la tasa de interés pagada y e! monto de! pago
S
mensual de las hipotecas.
11
12. El U. S. Fish and Wildlife Service contrató la firma Crossley, S-D Surveys,
a Inc., para que realizara una encuesta nacional de cazadores y pescadores
deportivos, para obtener datos respecto al número de personas que cazan y
o pescan, así como el número de días y cantidad de dinero gastados anualmente
a en tales actividades. Suponga que usted es un empleado de Crossley encar-
gado de dirigir esa encuesta.
s a) ¿ En qué tipos de establecimientos comerciales sería valiosa esa encuesta?
? b) ¿ Realizaría usted un censo (enumeración completa) o un muestreo de
los cazadores y pescadores deportivos? ¿ Por qué?
n
o
BIBLlOGRAFtA

FERBER, ROBERT y VERDOON, P. J. Research Methods in Economics and Business.


Nueva York: Macmillan, 1962.
Proporciona una amplia perspectiva de los medios para resolver proble-
mas de investigación.
GOLDE, ROGER A. Thinking with Figures in Business. Reading, Mass.: Addison-
Wesley, 1966.
Es. una introducción a las "técnicas para mejorar su sentido de los nú-
meros".
HUFF, DARRELL. How to Lie with Statistics. Nueva York: W. W. Norton, 1954.
Un divertido compendio de abusos estadísticos.
KENDALL, M. G. y BUCKLAND, W. R. A Dictionary of Statistical Terms. 2" ed.
Nueva York: Harner, 1957, with Supplement, 1960.
Un amplio glosario en inglés, francés, alemán, italiano y español.
MANSFlELD, E. (ed.) Elementary Statistics [or Economics and Business: Selected
Readings. Nueva York: W. W. Norton, 1970 (rústica).
28 La estadistica en la administración y en la economia

Diecinueve artículos que ilustran las aplicaciones de la estadísticas en


varios campos.
MORGENSTERN, OSKAR. On the Accuracy 01 Economic Obseroations. 2'1- ed. Prin-
ceton, Nueva Jersey: Princeton U niversity Press, 1963.
Un análisis profundo sobre las muchas imprecisiones de las estadísticas
económicas. Una versión condensada aparece como "Qui Numerare Incipit
Errare Incipit" en Fortune, octubre 1963.
RIGBV, PAUL H. Conceptual Foundations 01 Business Research. Nueva York: John
Wiley, 1965.
Describe las funciones de la investigación comercial científica y pro-
porciona las técnicas para la solución de problemas y toma de decisiones; así
mismo desarrolla nuevos conceptos en las pruebas de hipótesis y en la cons-
trucción de modelos.
ROBERTS, HARRY V. "The New Business Statistics", [ournal 01 Business 01 the
University 01 Chicago, enero 1960, págs. 21-30.
Describe el desarrollo de la orientación de las estadísticas a la teoría
de la decisión.
SIELAFF, THEO!DORE J. Statistics in action, San José, California: Lansford Press,
1963.
Contiene 25 artículos de diferentes autores que muestran la forma en
que los métodos estadísticos se aplican .a problemas de administración y
economía.
WALLlS, W. A. y ROBERTS, H. V. The Nature 01 Statistics. Nueva York: The
Free Press, 1962.
Una buena introducción a fas ideas básicas de la estadística, incluyendo
usos y abusos, medición y aplicaciones.
CAPITULO 2
Análisis de datos: razones
y distribuciones de frecuencia

Los MÉTODOS ESTADÍSTICOS se ocupan de la obtención, análisis e inter-


pretación de datos. Los métodos de encuestas por muestreo para la obten-
ción de datos se discuten en los capítulos 1, 9 Y 12. Pueden encontrarse
otros datos ya publicados o en archivos de las compañías. En este capítulo
iniciaremos el estudio de los principales métodos para analizar e inter-
pretar los datos.

MÉTODOS DE CLASIFICACIóN DE DATOS

En el análisis, el primer paso es la clasificación de las cifras necesa-


rias en una tabla que Proporciona comparaciones significativas. Tales
datos.se pueden clasificar en tres formas: conforme a sus característi-
cas cualitativas, a su tamaño y al tiempo. Esas clasificaciones se ilustran
en la tabla 2-1, Y ésta compara las tasas de desempleo por sexo, edad y
raza para los años 1970, 1971 Y 1972.
Se ilustra la clasificación basada en diferencias cualitativas por medio
de los desgloses por sexo y raza. La distin~ión es de clase y no de can-
tidad. El estado civil o la ocupación podrían ser otras clasificaciones cuali-
tativas. Las clasificaciones geográficas también son cualitativas. En esa
forma, las tasas de desempleo podrían ser reportadas por estados o áreas
metropolitanas.
El criterio que se utiliza para clasificar datos cualitativos es alguno
de sus atributos. Un atributo es una característica que se presenta en
dos o más categorías (clases) mutuamente excluyentes, tales como las
respuestas sí o no en un cuestionario; la descripción de la calidad de un
producto como defectuoso o bueno; o la clasificación de empleados en
ejecutivo, oficinistas y trabajadores de fábrica. Por lo general, los atri-
butos se refieren solamente a dos categorías mutuamente excluyentes (por
ejemplo trabajadores de fábrica y otros empleados), y se usan las razones
o .cocientes para comparar esas dos categorías (pQr ejemplo, la propor-
29
30 Análisis de datos: razones y distribuciones de frecuencia

Tabla 2-1
Tasas de desempleo en los Estados Unidos, 1970·72
Como porcentaje de la fuerza laboral

1970 1971 1972


Prom, Prom. Nov.
-------------------
Todos los trabajadores civiles . 4.9 5.9 5.2
Hombres, 20 años y más . 3.5 4.4 3.6
Mujeres, 20 años y más . 4.8 5.7 5.0
Ambos sexos, 16-19 años . 15.3 16.9 15.4
Trabajadores de raza blanca . 4.5 5.4 4.6
De raza negra y otras- . 8.2 9.9 9.8

FUENTE: Survey 01 Current Business, diciembre 1972.

ción de trabajadores de fábrica al total de empleados). Las razones se


discuten en la siguiente sección.
Por otra parte, los datos clasificados basándose en el tiempo o en el
tamaño, se denominan variables. De este modo, una clasificación por
tamaños podría ser el número de trabajadores desempleados, clasificados
por sus edades, en que la edad es la variable. En forma similar, se podrían
clasificar los desempleados por a"ños de educación o por número de sema-
nas sin trabajo. Las variables que se clasifican por su tamaño se pueden
agrupar en distribuciones de frecuencia y sus características se pueden re-
sumir, calculando promedios y medidas de dispersión, como las que se
tratarán en la parte final de este capítulo y en los capítulos 3 y 4.
En la¡ tabla 2-1 las columnas para los años 1970, 1971 Y 1972 cons-
tituyen una clasificación por tiempo o serie cronológica. Las series cro-
nológicas se pueden subdividir aún más en a) mediciones que se toman
en diferentes puntos del tiempo, como población o precios, y b) datos
acumulativos que comienzan desde cero en un período dado, como la
producción mensual de acero o las ventas semanales al detalle. En los
capítulos 19 y 20 se presentan los métodos diseñados especialmente para
el estudio de las series cronológicas.

RAZONES
Una razon o proporclOn es un mecanismo sencillo y muy útil para
comparar dos atributos o características cualitativas. Así es más significativo
reportar la tasa de desempleo, como en la tabla 2-1, que simplemente
informa del número total de desempleados. Las razones son útiles también
al comparar grupos de variables clasificadas por su tamaño, tal como al
citar el porcentaje de trabajadores de fábrica que ganan menos de 30 pe-
sos por hora, aun cuando los datos básicos estén clasificados por el tamaño
de los ingresos por hora.
Las razones se calculan a partir de un numerador y una base o deno-
minador, que generalmente se expresan en las mismas unidades (por
Razones 31

ejemplo, pesos, en la razón utilidades netas a ventas de una empresa). Se


utilizan varios términos para las razones en las cuales las unidades difie-
ren. Así, la tasa de natalidad es el número de nacimientos por mil habi-
tantes; la densidad de la población es el número de personas en una región
dividida entre su área; la deuda nacional per capita es la razón de la
deuda total al número de habitantes en el país.

Selección del numerador y del denominador


Para que una razón sea significativa, puede ser necesario ajustar el
denominador y el numerador o precisarlos para excluir factores extraños
que oscurecerían la relación directa entre ellos. Por ejemplo, la tendencia
de las muertes en accidentes automovilísticos de 1950 a 1971. El nú-
mero de muertes aumentó en 57%, como se muestra en la tabla 2-2. Esas
e cifras sugieren que la amenaza automovilística está aumentando.

r Tabla 2·2
s Muertes por accidentes de vehículos de motor, 1950 y 1971
n
Cambio
1950 1971 porcentual

1. Personas muertas en accidentes de tránsito 34,763 54,700 +57


e 2. Muertes por 100,000 habitantes . 23.0 26.5 +15
3. Muertes por 10,000 vehículos de' motor 7.1 4.76 -33
4. Muertes por 100.000,000 vehículos-milla ... 7.6 4.68 -38

11 FUENTE: National Safety'Council, Accideni Facts, 1972, págs. 58-59.


IS

a
IS Sin embargo, el aumento puede deberse al crecimiento de la población,
a de manera que el número de muertes por 100,000 habitantes se calculó
también, como se muestra en el renglón 2. Esa razón ha aumentado sólo
en 15%. Sin embargo, los accidentes se deben en forma más directa a que
el número de vehículos automotores ha aumentado más rápidamente que
la población. Por lo tanto, el número de muertes por 10,000 vehículos se
muestra en la línea 3. Vemos ahora una disminución del 33% en esta razón
a más precisa, Finalmente, las muertes por accidentes de tráfico se rela-
o cionan aún más específicamente al número de vehículos-milla manejados,
e y el coche promedio recorrió una mayor distancia en 1971 que en 1950.
n El número de muertes por 100.000,000 vehículos-milla aparece en la lí-
tI nea 4. La disminución es ahora de 38%. Esta razón más precisa muestra
una ganancia substancial en seguridad, cuando se toman en cuenta el
o
creciente número de coches y su millaje, mientras que el número real
de defunciones y la razón bruta per capita (renglones 1 y 2) indican
,- justamente lo contrario.
32 Análisis de datos: razones y distribuciones de frecuencia

Qué cifra escoger como base


La base o denominador de una razón estadística es siempre un estándar
con el que se compara el numerador. Las siguientes reglas pueden ser
útiles para seleccionar la base:
1. Al comparar una parte con el todo, el todo es siempre la base.
Ejemplo: razón de utilidades netas a ventas = utilidades netas -;- ventas.
2. En comparaciones intertemporales de eventos similares, casi siem-
pre se toma como base el evento preliminar. Ejemplo: las ventas de este
año como porcentaje de las del año pasado.
3. Al comparar una causa y efecto o un evento independiente con
otro que dependa, al menos parcialmente, del primero, casi siempre se
toma como base la causa o el evento independiente. Ejemplo: la razón
de precio a la utilidad en el caso de acciones comunes = precio -;- utili-
dad. (Excepción: rendimiento por acción = dividendo +- precio.)
Cuando cualesquiera de los dos eventos es igualmente aceptable como
base del cociente, la costumbre suele determinar la elección. Ejemplo:
tasa de rotación del inventario = ventas -;- inventario.
El número de unidades en la base. La base puede estar expresada
en unidades, decenas, centenas, d en algún otro múltiplo de diez, depen-
diendo de lo que sea más usual o efectivo. Así, en 1970, el denominador
de la deuda nacional per cap ita de los Estados Unidos (de 1,806 dólares
per capita) se expresa en unidades por persona: una tasa de interés del
8% significa 8 pesos por cada 100 pesos depositados, mientras que la tasa
de mortalidad se puede expresar como 9.0 por mil. Como se muestra en
la tabla 2-2, el Consejo Nacional de Seguridad reporta las muertes en
accidentes de vehículos de motor por cada 10,000 vehículos, por cada
100,000 habitantes y por cada 100,000 millones de vehículos-milla. Los
números más grandes se usan como base para que el numerador pueda
presentarse como un número entero y no como una fracción decimal.

Precauciones en el uso de las razones


Las razones y porcentajes parecen muy sencillos, pero frecuentemente
se los calcula mal, ya sea por utilizar una base incorrecta, por dejar de
sustraer 100% en aumentos, o al interpretar erróneamente la naturaleza
de la comparación. Un texto de administración de oficinas establece que
"los sobres de ventana cuestan alrededor de $1.00 menos que los sobres
regulares, o $3.25, lo que representa un ahorro de 76.5%". El ahorro
debe ser de 23.5% - 24% para evitar una precisión aparente. El enca-
bezado de un artículo periodístico decía "Las ventas de bicicletas aumen-
taron 300% con respecto a 1960" citando ventas de 850,000 bicicletas
en California, en 1971, comparadas con 300,000 en 1960. Es cierto que
850,000 es casi el 300% de 300,000, pero el aumento debió reportarse como
"cerca de 200%".
Diagramas semllogaritmicos 33

El Ways and Means Committee de la Cámara de Representantes de


los Estados U nidos consideró la posibilidad de aumentar las tasas del
impuesto sobre la renta en un 3% general. La escala de impuesto, que
entonces estaba graduada de 20% a 91%, se graduaría de 23 a 94%.
Algunos críticos atacaron esa medida como contraria a los pobres, puesto
que un aumento de 3% en el 20% de un hombre pobre representaba un
salto de 15%, mientras que 3 puntos en el 91% de un hombre rico era
apenas un paso de 3.3%. Pero otros críticos clamaron que ésa era una
medida contraria a los ricos, puesto que el salario neto del hombre pobre
se reduciría de 80 a 77 centavos por dólar de ingreso, o sea, sólo 3% %
mientras que el salario del hombre rico se reduciría de 9 a 6 centavos, es
decir, 33Vs%. El comité transigió aumentando los impuestos en un 12%%
general. Esta medida aumentó la tasa mínima de 20 a 22%%, lo cual
era razonable, pero infortunadamente aumentó la tasa máxima de 91 a
102.4%. (Posteriormente se rebajó a 94%%)1. Esta controversia ilustra
la importancia que tiene el cuidado de los porcentajes.
Es importante observar que en el uso de porcentajes se comete otro
error. La diferencia entre dos porcentajes, a menudo llamada puntos
porcentuales, no se debe interpretar como porcentaje del cambio. De esa
manera se establece incorrectamente que "el índice de producción de las
instalaciones eléctricas aumentó de 130 en 1970 a 153 en noviembre de
1972, una ganancia del 23%". Los índices son porcentajes del mismo
período base de 1967, pero el porcentaje de cambio es el aumento de
23 puntos porcentuales dividido entre el nivel de base de 130, o sea,
sólo 18%.
Finalmente, las razones no deben usarse si el número que se usa como
base es muy pequeño. Un informe de que el 25% de los cajeros ban-
carios en un pueblo había sido enjuiciado por desfalco induciría a un
error de juicio si solamente hubiera 4 cajeros en el pueblo. De manera
similar, un informe de un incremento del 1,000% en las utilidades sobre
las del año anterior difícilmente sería significativo si las utilidades del
año anterior totalizaron sólo un peso.

DIAGRAMAS SEMILOGARtTMICOS

Un diagrama semi logarítmico es aquél que muestra las razones en su


verdadera proporción; o sea, que las razones o porcentajes iguales ocupan
igual espacio en la escala vertical. Esto se ilustra en la figura 2-1. La
escala de razón se prefiere a la escala aritmética cuando se comparan los
cambios relativos en dos curvas, especialmente en series cronológicas.
Aunque las escalas aritméticas son satisfactorias para indicar cambios
absolutos de los datos, no pueden revelar claramente lo que muchas veces
es más importante, los cambios relativos o cambios porcentuales. Por
ejemplo, por lo general no es tan significativo decir que las ventas de
una compañía se incrementaron más en términos absolutos durante un
~ National City Bank of New York, Monthly Letter on Economic Conditions, Junio
1951, págs. 66-67.
34 Análisis de datos: razones y distribuciones de frecuencia

período dado, .que las de sus competidores más pequeños, como decir
que su incremento porcentual fue mayor.
El diagrama de razones es llamado también diagrama semilogarítmico,
porque los números naturales se anotan en la escala vertical a distancias
proporcionales a sus logaritmos -a partir de la línea inferior del "1"-,
mientras que en el eje horizontal se traza el tiempo en la escala aritmé-
tica usual. Así, en la figura 2-1, el número "1" de la escala está en la
parte inferior (ya que logaritmo de 1 es igual a cero) y en la parte
superior el número máximo 10 está una unidad más arriba (ya que el
logaritmo de lOes igual al).

Escala de medición de porcentajes


10 200
9 t------t------+-------+-----_ 18o
8\------1---------4---- -t-------I160
l I1C¡el\\8
71-----.-+------~I\~
..\ Q:.:.IIC....,::...----t------l140
1",11
~()~f:j
61------+--¿\~\e~:"tt.~+-----_+-----__1120 a =40"10
_,11 Incremento
e V

5 1----'----..., .~~.L.
'

+_ Base
,\'1>0, r

b=20"10
Decremento
4\---+--+-- ~L..------l80

3!L---.",,,,,"-_l~-- ~q------_1_-----_l60

2 t------+-----+--~~-__I__?!L...-:..--_I40

1974 1975
Escala detiempo, aritmética
Figura 2·1
{'iagramos semilogaritmicos 35

En este diagrama, la unidad de medida es 12.5 cm. El "2" está


marcado en el 0.301 de la escala vertical (ya' ue el logaritmo de ~ es
igual a 0.301), o sea 3.75 cm hacia arriba; el "3" está marcado en el
0.477; Y así sucesivamente. Sin embargo, ya que sólo se hall anotado
valores naturales, es tan innecesario conocer los logaritmos al usar un
diagrama de razones, como al usar una regla de cálculo. De hecho; la
escala de razones en un diagrama es la misma que en una regla de cálculo.
Por lo tanto, un diagrama de razones debe llevar un título que lo
indique, pero si no fuera así, se le puede identificar por el hecho de que
los números en la escala vertical se van acercando conforme la escala
aumenta. En particular, las distancias verticales entre el 1 y el 2, el 3
y el 6, y el 5 y el 10 son las mismas, ya que estas distancias repre-
sentan el mismo cociente de 1 a 2, sin importar su posición en la re-
presentación gráfica.
En el diagrama de razones solamente una de las escalas es logarítmica.
El diagrama de escala doble logarítmica, en que ambas escalas son loga-
rítmicas, se discutirá en el capítulo 16 en relación con el análisis de
regresión.
Existen muchos tipos de reglas (escalas) logarítmicas.
Se dice que una escala logarítmica tiene un ciclo, si la escala de
números se extiende sólo del 1 al 10; que tiene dos ciclos si la escala está
dividida en dos partes iguales, que cubren los rangos del 1 al 10 y del
10 al 100, respectivamente; y así sucesivamente. La escala puede también
extenderse indefinidamente hacia .abajo a 0.1, 0.01, etcétera, pero nunca
puede alcanzar el cero. Por lo tanto, la escala logarítmica no se puede
usar para series que incluyan al cero o a valores negativos.

Cómo trazar los datos


La elección de papel de uno, dos, y tres ciclos depende de la ampli-
tud de los datos. Si esa amplitud lo permite es preferible el papel de un
ciclo, ya que tiene la escala más grande.
A fin de trazar los datos más fácilmente, recomiendo marcar la línea
inferior con uno de los números 1, 2, 4 ó 5, seguido o precedido por
cualquier cantidad de ceros, tales como 0.01 millones de personas, 20
pesos, 4,000 toneladas, o 5%. Si en la línea inferior del diagrama se repre-
sentaran otros valores, se complicaría el trazado de los datos.
Una vez que se ha escogido el valor de la línea inferior del diagrama,
por ejemplo, 20 pesos, se debe multiplicar este valor por los números im-
presos en la escala (1, 2, 3, ... ), y marcarlos de acuerdo a dicha multi-
plicación (20, 40, 60, ... ) hasta llegar a la parte superior del ciclo con
un valor diez veces mayor al de la línea inferior (200). Esto es obligatorio.
Si las cifras impresas 1, 2, 3, se numeraran 20, 30, 40 por ejemplo, las
proporciones logarítmicas se perderían y la representación perdería su
significado como un diagrama de razones.
Se pueden usar escalas diferentes para co:nparar series de tamaños
muy diversos o aquéllas expresadas en unidades diferentes. Por ejemplo,
36 Análisis de datos: razones y distribuciones defrecuencia

el crecimiento relativo de una pequeña compañía y el de una grande, o


la producción de carbón en toneladas y la de petróleo en barriles, pueden
resaltarse claramente, ya que las pendientes de las curvas registran los
cambios porcentuales, los que siguen siendo comparables aun cuando las
unidades 'originales no lo sean. Así,lo incompatible se hace compatible.
La selección de una escala específica afecta solamente la altura de la
curva respecto a la línea inferior del diagrama, lo cual no es muy rele-
vante; lo fundamental es que no afecta la forma de la curva.

Usos del diagrama de razones

La pendiente de una línea en un diagrama de razones indica un


cambio porcentual entre dos puntos de tiempo. Por lo tanto, una línea
continua con pendiente constante, o dos líneas paralelas representan el
mismo movimiento relativo. Una distancia vertical dada corresponde
al mismo cambio porcentual, en cualquier parte del diagrama. Estas
características dan a los diagramas de razones las siguientes ventajas que
les son propias.
Tasa constante de crecimiento .en [orma de recta. Las series que
crecen o disminuyen a porcentaje anual constante, tales como el monto
a interés compuesto, o el incremento de ventas a un 10% anual fijo,
aparecen en un diagrama de razones corno una línea recta.
(Esa recta logarítmica se llama también curva exponencial o curva
de interés compuesto.) Si la representación gráfica de la serie se aparta de
la línea recta, ello denota un cambio correspondiente en la tasa de creci-
miento o en la tasa de declinación, tal como se muestra en la figura 2-l.
Muchas industrias nuevas se expanden a una tasa porcentual anual cons-
tante, hasta que alcanzan su madurez, época en que la tasa anual de
crecimiento tiende a disminuir como se muestra en la curva superior
de la figura.
Por lo tanto, al observar la curva de producción de una empresa en
un diagrama de razones, el analista puede determinar si se mantiene
(o no) su tasa anterior de crecimiento. El analista puede también pro-
yectar las tendencias pasadas para predecir resultados y niveles futuros,
como se describe en el capítulo 19.
Comparación entre dos curvas. El crecimiento o declinación rela-
tiva de dos o más curvas se puede detectar a primera vista comparando
sus pendientes de un diagrama de razones, independientemente del ta-
maño de las dos series, o de las unidades en que se miden. Un diagrama
aritmético de dos series en una escala única siempre enfatiza el creci-
miento de la mayor. 0, si se utilizan dos escalas diferentes para comparar
las dos curvas, la relación se distorsiona arbitrariamente. Aun los números
índice sólo permiten realizar comparaciones fáciles con sólo un nivel
base: si se toma un período diferente corno base, el cambio relativo entre
los índices diferirá.
Distribuciones de frecuencia 37

El diagrama de razones permite efectuar comparaciones relativas fi-


dedignas entre dos puntos arbitrarios de la representación gráfica, y
además se pueden leer valores absolutos de la escala, a diferencia del
caso de los números índice.
Realización de cálculos en un diagrama de razones. Los porcen-
tajes o razones se pueden obtener directamente de una escala logarítmica,
de la siguiente manera:
1. Marcar una escala de medición de porcentajes como la que se
muestra en la columna de la derecha de la figura 2-1, o usar una tira
de papel separada. Es decir, marque el centro de la línea con 100% y
los otros porcentajes en proporción a los números impresos en la escala.
2. Marcar la distancia vertical entre dos puntos cualesquiera en la
orilla de una tira de papel (por ejemplo, el incremento a o el decremento
b entre 1974 y 1975 en la parte inferior del diagrama).
3. Separar el incremento hacia arriba, o el decremento hacia abajo
del punto base 100% de la escala de medición, y leer el valor del segundo
punto como 'porcentaje en términos del primer punto, tomado como 100%.
El cambio porcentual es esa cifra menos 100. Así, en la figura 2-1, el
aumento a de 1974-75 se lee como un 40%, mientras que el decremento b
es 20 por ciento. .

Limitaciones de los diagramas de razones


Los diagramas de razones tienen ciertas limitaciones que restringen
su uso: 1) no dan una idea visual de la magnitud absoluta como una
distancia sobre la línea de base, aunque esas magnitudes puedan ser leídas
en la escala. 2) Son difíciles de entender para el lego en la materia, y
por lo tanto no deben usarse para ilustraciones sencillas en las que un
diagrama aritmético permite obtener los mismos efectos. 3) No pueden
mostrar el cero o valores negativos. 4) Finalmente, algunas veces se uti-
lizan indebidamente para contraer un amplio rango de valores y lograr
su presentación en un espacio más reducido. Esto es válido sólo si los
movimientos relativos son de interés, pero si 10 que se necesita es una
descripción de cambios absolutos, se debe usar una escala aritmética.

DISTRIBUCIONES DE FRECUENCIA
Muchos tipos de datos se clasifican de acuerdo a su tamaño. Algunos
ejemplos son las rentas que se pagan por alojamiento. y los salarios de
los trabajadores en un cierto momento. En cada caso, los datos originales
son valores de una variable (v.g., la renta, que varía de una casa a otra)
que se denominará X. Esas variables se pueden agrupar por tamaño en
una distribución de frecuencia, que muestra sólo intervalos de clase y el
número o frecuencia (f) de valores de X en cada intervalo. Una distri-
bución de frecuencia es un instrumento valioso para resumir cifras en-
38 Análisis de datos: razones y distribuciones de frecuencia

gorrosas, de modo que se puede presentar un máximo de información


con un mínimo de detalle.
Las variables pueden representar datos discretos o datos continuos. Si
la variable es discreta, los datos presentan valores separados, no habiendo
valores intermedios. Así, el número de niños en una familia puede ser
2 ó 3, pero no 2.7. Los datos continuos pueden incluir cualquier valor
de un rango dado, tal como la estatura exacta de varias personas. Mu-
chas veces ocurre que los datos continuos son tratados como si fueran
datos discretos, corno al tabular alturas y redondearlas al centímetro más
cercano. De este modo la altura de un hombre se puede reportar como
1.78 cm pero no a algún valor intermedio entre 1.78 Y 1.79 cm. Para que
el análisis de datos sea significativo, es necesario que éstos sean homogé-
neos, para que sean comparables y sirvan a los propósitos del estudio.
En esa forma, en la tabla 2-1, los subgrupos más homogéneos, tales como
los de los jóvenes entre 16 y 19 años, revelan diferencias importantes
en las tasas de desempleo que no se muestran en las cifras totales de
desempleo. Los totales son heterogéneos, puesto que agrupan hombres y
mujeres, grupos de diferentes edades, y de razas distintas.

Ordenamiento de los datos


Algunas veces, como paso preliminar, es conveniente acomodar los
valores de la variable en un ordenamiento. Este es un listado de valores
acomodados por orden de tamaño -ya sea del más pequeño al más grande
o viceversa. Por ejemplo, la. tabla 2-3, muestra las dimensiones totales
de 63 engranes, tomadas de las mediciones de un control de calidad.. Los
datos primarios del panel A se encuentran demasiado desordenados para
manejarlos en forma directa, de manera que se han colocado en. un
ordenamiento que se muestra en el panel B, por medio de una hoja
auxiliar de verificación.
En ese ordenamiento, no sólo se muestran los datos en forma más
sencilla que en el panel A, sino que a simple vista se aprecian algunas
características sobresalientes -la amplitud y el tamaño más común (0.4250
de pulgada). También, en este ejemplo sencillo donde se necesita otra
clase de agrupación de los valores, el ordenamiento ya se encuentra en
forma de distribución de frecuencia, con intervalos de clase de 0.0005 de
pulgada de ancho y el número de marcas que acompaña a cada dimen-
sió;n indica la frecuencia con que ocurrió esa medición.

Agrupamiento de los datos en clases


En la práctica, la mayoría de los diversos tipos de datos tiene tantos
y tan diferentes valores, que un ordenamiento resultaría demasiado de-
tallado. En esos casos, las cifras deberán agruparse en un número de clases
tal, que resulte más accesible su manejo. A continuación se ilustran algu-
nos métodos útiles a tal efecto; los datos provienen de una investigación
Distribucionesde frecuencia 39

Tabla 2-3
LISTA DE DATOS Y ORDENAMIENTO
Dimensión de 63 engranes como el de la ilustración, en pulgadas

A B

MARCHANT CAlCULATORS INC.


• 'I;Uo '1.2'0
'1:1. 'ID
'I.2~"

'1:1.1'''
SQC fecha 'Ji
Insp. NCant.ü
• '1.2'10
Plrle N° .J.:Z.!LL Dim.. !.?.yr.zl
'I:1.S'S- '1:1. I'S' '/;150
• 'i.2~() '1.;1.'15 of,;¡,,.
";U5" '1.2&" ";).,,.
'f.26S' ":1."'5 ";).,5
'1.255 '1.21.0 'I.2S''' U::L

I}~'" 'fA "S' '1;). yo


.":l• ..
'lAS'O '1;1 1'0 '1:1."S'
'I.2llS" '1.2 vo 'I.25r ... ~
,S'
'I:1.!5 '1.250 "... ," .4I:l
'"
ss -ea
/11

11
'I:J.'I"
'1.1.50
'fA'O
'1.250
.,,;¡,,,
'/:J."S'
. ':lCO" "",
~,
'1:1.,5 f/"'I.
'I.1'1S' '1.2S"
'I.2s"~ '1.2S'S '1.250 .,,,. '"
'I.;¡5iD 'IA'IS' '1.1'1'- .........
'1.255 '1.250 1}.2,5
...... 1
",

· 'f""S
'1.270
'12'"
'1.2$"0
'/.:1'0
".255
........ ~

· 'f:1.S~ f/:U. '1';¡So


41~SO '1:1.,. '1:>'15"

--
FUENTE; Merchant Calculators Inc., Statistical Quali/y Con/rol.

de ingresos por hora de trabajo, en tiempo normal de 214 aprendices de


operadores de máquina-herramienta en una planta de fabricación de ma-
quinaria. Los estudios de este tipo se requieren en análisis de relaciones
industriales, negociaciones de salarios con los sindicatos y en muchos as-
pectos de la economía del bienestar.
La tabla 2-4 presenta un arreglo de esos ingresos por hora, en la
forma de hoja auxiliar de verificación, indicando el número de operadores
en cada nivel de ingresos anotado en la columna f (de frecuencia). Esta
tabla tiene todavía muchos valores que se encuentran demasiado separados
para su fácil análisis y presentación, por lo que fue' necesario reagrupar
los datos como se muestra en la tabla 2-5. Para este propósito, se esco-
gieron intervalos de clase de 10 centavos de amplitud cada uno, empe-
zando con el intervalo "$2.25 y menos de $2.35".
Se ha efectuado esta selección de intervalos de clase, porque el número
de clases (8) es lo suficientemente grande para mostrar la distribución
40 Análisis de datos.' razones y distribuciones de frecuencia

general de los ingresos por hora y suficientemente pequeño para simpli-


ficar su análisis y presentación. Los límites de clases (2.25, 2.35, etcétera)
son múltiplos de cinco centavos, mientras que los puntos medios (2,30,
2.40 dólares, etcétera) son múltiplos de 10 centavos. Esto permite una
fácil interpretación y minimiza los errores de agrupamiento. Finalmente,
los intervalos de (2.25 a menos de 2.35, etcétera) se encuentran claramente
definidos y por lo tanto no son ambiguos. Estos principios se discuten a
continuación.

Número y amplitud de los intervalos de clase


Por lo general, es aconsejable clasificar los datos entre 6 y 15 clases",
Si el número de clases es demasiado pequeño, los intervalos resultan
demasiado amplios, y algunas características importantes de los datos
pueden quedar ocultas.

Tabla 2-4
ORDENAMIENTO MAS DETALLADO
Ingresos por hora de tíempe normal de 214 aprendices
de operadores de máquinas, en plantas de producción
de maquinaria

Operadores Operadores Operadores

Ingresos chequeo Ingreso chequeo Ingresos chequeo

2.30 2.55 II11 5 2.80 I111 5


2.31 2.56 111I I 6 2.81 I 1
2.32 1 2.57 111 3 2.82
2.33 2.58 1111 4 2.83
2.34 2.59 1111 5 2.84
2.35 11 2 2.60 1111 1111 1 11 2.85
2.36 1I 2 2.61 1111 4 2.86
2.37 2.62 111 3 2.87
2.38 111 3 2.63 1111 1111 1111 11111 20 2.88
2.39 11 2 2.64 11 2 2.89
2.40 111111 7 2.65 11I1 1111 9 2.90
2.41 1 1 2.66 11 2 2.91
2.42 2.67 111 3 2.92
2.43 I 1 2.68 I1 2 2.93
2.44 1111 5 2.69 11I 3 2.94
2.45 I1I1 4 2.70 1111 1I11 111 13 2.95
2.46 111 3 2.71 111 3 2.96
2.47 1111 5 2.72 1111 1 6 2.97
2.48 111 3 2.73 I 1 2.98
2.49 li 2 2.74 111 3 2.99
2.50 1111 1111 1I 12 2.75 1111 1111 1 11 3.00
2.51 1111 5 2.76 1111 5 3.01
2.52 1 1 2.77 1 1 3.02
2.53 1111 1111 11 12 2.78 3.03
2.54 11 2 2.79 11 2 3.04

2 Algunos autores sugieren que, para la presentación se utilicen de 6 a 15 clases, pero


señalan que se logra mayor precisión de cálculo empleando de 15 a 25 clases.
Distribuciones de frecuencia 41

El utilizar demasiadas clases puede provocar que se den detalles inne-


cesarios, así como un zigzag confuso de frecuencias y espacios en blanco
en algunas clases. (Ese es el caso en la tabla 2-4, que muestra 75 inter-
valos de un centavo.)
Dentro de esos límites, el número exacto de clases se determina por
el ancho del intervalo. Generalmente ese intervalo se selecciona como' un
número convenientemente redondeado localizado de manera que ocurran
conglomerados de datos en sus puntos medios, tal como se describe en la
siguiente sección. En esa forma, en la tabla 2-4, los salarios tienden a
agruparse en múltiplos de 10 centavos, por lo que hemos utilizado $2.30,
$2.40, y así sucesivamente como puntos centrales, y el intervalo de 10 cen-
tavos nos da ocho clases. (Sin embargo, hay también conglomerados
menores en múltiplos impares de cinco centavos, por lo que pudimos haber
usado intervalos de cinco centavos centrados en esos puntos ;: pero es
dudoso que ese pequeño aumento en precisión justifique mayores detalles.)

Selección de límites de clases y de puntos medios


El punto medio de un intervalo de clase (el punto que se encuentra
a la mitad de la distancia entre sus límites) representa el valor promedio
de todos los artículos en la clase. Ese procedimiento implica errores de
agrupación, que son similares a los errores de redondeo de los números en
general. Para minimizar los errores de agrupación, se deben localizar los
puntos medios de los intervalos en cualesquiera puntos de concentración
alrededor de los cuales tiendan a "agruparse los valores. De lo contrario,
cualesquiera promedios u otras medidas calculadas estarán sesgadas. ,Así,
si los salarios mensuales qVe se pagan a los graduados de universiqad estu-
vieran fijados por una compañía en múltiplos de $50 --digamos $900,
$950, etcétera, y se reportaran en una distribución de frecuencia con
clases tales como "$900 y menos de $950", de manera que el punto
central de $925 se utilizara para representar salarios que en la realidad
fueran de $900, un promedio calculado exageraría el verdadero valor
en $25.
Los límites de las clases se deben establecer en forma precisa para
evitar ambigüedades. Por ejemplo, en la tabla 2-5, quedaría claro al decir
ya sea "$2.25 y menos que $2.35" Ó "$2.25-$2.34" (para datos discretos
cuyos valores se .expresan al centavo más cercano), pero no "$2.25--2.35",.
puesto que entonces el valor $2.35 correspondería a cualquiera de las
dos primeras clases.

Uniformidad en la amplitud de los intervalos de clase


Es muy deseable que los intervalos que se usen en una distribución
de frecuencias tengan todos la misma amplitud, ya que así es más fácil
interpretar las frecuencias y calcular los promedios. Los intervalos de
amplitudes variables son confusos y dificultan el análisis estadístico. Sin
42 Análisis de datos: razones y distribuciones de frecuencia

Tabla 2·5
DISTRIB-UClóN DE FREC'UENCIAS
Ingresos por hora de 214 aprendices de operadores
de máquinas

Número de
Punto op~radores Porcentaje de
Ingresos POI' hora medio f operadores

$2.25 a menos de $2.35 " .......•...... $2.30 2 1


$2.35 a menos de $2.45 . 2.40 23 11
$2.45 a menos de $2.55 " . 2.50 49 23
$2.55 a menos de $2.65 . 2.60 63 29
$2.65 a menos de $2.75 . 2.70 45 21
$2.75 a menos de $2.85 , .. 2.80 25 12
$2.85 a menos de $2.95 •............... 2.90 '3 1
$2.95 a menos de $3.05 . 3.00 4 2
Total. " ' " . 214 100

embargo, muchas veces esos intervalos desiguales se hacen necesarios si


se requiere cubrir un amplio rango d~ datos. Por ejemplo, vea los siguien-
tes grupos de ingresos anuales:

menos de $12,000 $16,000- $19,999


$12,000 - $13,999 $20,000·- $29,999
$14,000 - $15,999 $30,000 y más

En estos casos, es muy común tener clases abiertas en los extremos,


que no indican el límite inferior de la clase más pequeña ("menos de
$12,000") ni el límite superior de la clase más grande ("30,OOO y más").
Si es posible, se debe indicar la suma de los valores que incluyen tales
clases de límites "abiertos", para ayudar en el cálculo de promedios y
otras medidas estadísticas que resumen las características de una dis-
tribución.

Distribuciones de frt'..cuencias relativas


Muchas veces es conveniente presentar cada frecuencia como un por-
-centaje o cantidad relativa del total, como se muestra en la última columna
de la tabla 2-5.
El uso de porcentajes tiene cuatro ventajas: 1) permite la compara-
ción de las frecuencias, entre sí y con el total, en base a un porcentaje
-común de base 100; 2) facilita las comparaciones entre dos distribuciones
de frecuencias que tengan diferente número total de elementos, siempre y
cuando tengan idénticos límites de clase, como en la figura 2-4; 3) per-
mite hacer inferencias a partir de datos de una muestra, sobre la población
de que se tomó siempre que la muestra haya sido seleccionada cuidado-
Representaciones gráficas de distribuciones de frecuencias 43

samente. Por ejemplo, se podría inferir de la tabla 2-5 que alrededor


del 29% de toda la clase A de operadores de maquinaria ganan de
$2.55 a $2.65 por hora; 4) proporciona una base para estimar probabili-
dades. Esto significa que, si tomamos un operador al azar, podemos decir
que hay una probabilidad de 0.29 de que ganará de $2.55 a $2.65 por
hora. El uso de las frecuencias relativas para estimar probabilidades, se
tratará en el capítulo 5.

REPRESENTACIONES GRÁFICAS DE DISTRIBUCIONES


DE FRECUENCIA
Una distribución de frecuencia se puede presentar en un diagrama
diseñado para representar pictóricamente sus características principales.
Para hacer tal representación gráfica, se mide la variable X sobre el eje
horizontal y se marcan los límites de clases o los puntos medios de cada
intervalo. Posteriormente, se marca la frecuencia de clase sobre el eje
vertical (suponiendo que todos los intervalos de clase tienen la misma
amplitud). Ambos ejes llevan por lo general una escala aritmética. La
escala vertical debe comenzar siempre en el cero, pero la escala horizontal
sólo necesita incluir el rango de los valores de X y un intervalo extra en
cada uno de los extremos. Los tipos más comunes de diagramas de fre-
cuencias, para datos de una muestra, son el histograma -representación
gráfica de barras verticales- y el polígono de frecuencias -representa-
ción gráfica de líneas. La curva de frecuencias, que se utiliza para des-
cribir la distribución de valores én una población, se presentará poste-
rionnente, en este mismo capítulo.

El histograma
El histograma es un conjunto de barras verticales cuyas áreas son
proporcionales a las frecuencias representadas. Cuando los intervalos de
clases (la amplitud de las barras) son iguales, basta con la altura para
representar la frecuencia en esa clase. La altura de la barra entonces
indica la frecuencia por unidad de amplitud.
Por ejemplo, en la figura 2-2 el histograma representa los ingresos
de 214 aprendices de maquinaria enumerados en la tabla 2-5. Esta figura
muestra, a simple vista, cómo se distribuyen los ingresos.
A la clase que contiene la mayor concentración de cifras de ingresos
se le llama clase modal. En la representación gráfica, la clase aparece con
la. barra más alta; las barras de ambos lados disminuyen gradualmente
de altura, mostrando que mientras más se alejan los ingresos de la clase
modal, es menor el número de trabajadores que los perciben. Muchos
tipos de datos con información económica y administrativa tienen esta
forma de distribución.
Si hay dos clases modales distintas en un mismo histograma, eso puede
significar que los :datos son heterogéneos (por ejemplo, los supervisores
44 Análisis de datos: razones y distribuciones de frecuencia

HISTOGRAMA
Ingresos por hora de 214 aprendices de operadores de máquinas

Número de operadores (f)

Figura 2-2

pueden haber sido incluidos junto con los operadores). En este caso, las
cifras deben separarse en grupos homogéneos antes de analizarlas.
La altura de cada barra de un histograma es igual a la frecuencia
de la clase cuando los intervalos son de igual tamaño. En cambio, cuando
éstos varían, la frecuencia está representada por el área y no por la altura.
Así, en la figura 2-2, si los siete operadores de las dos clases $2.85 a $3.05
se combinaran en una sola clase, la altura de esta barra debería ponerse
como 7 -+- 2 = 3'lf!, de tal modo que tuviera la misma área que las dos
barras del extremo derecho. Si se dibujaran las dos barras combinadas con
una altura de 7, la representación gráfica duplicaría aparentemente el
número de trabajadores que reciben remuneraciones más elevadas.

El polígono de frecuencias
El polígono de frecuencias es un diagrama de líneas, marcado en los
mismos ejes y escalas que el histograma. Para dibujar un polígono, se
marca cada frecuencia del eje vertical sobre el punto medio del intervalo
del eje de las X (suponiendo que los intervalos de clases son de igual
amplitud). Después se unen estos puntos por. medio de líneas rectas y
Representaciones gráficas de distribuciones de frecuencia 45

POLíGONO DE FRECUENCIAS
Ingresos por hora de 214 aprendices de operadores de máquinas-
herramientas

Número de operadores (f)

60

50

40

JO

20

10

2.45 2.55. 2.65 2.75 2.85 2.95


Porcentaje de operadores

Figura 2-3

se extienden hacia ambos extremos a un intervalo de frecuencia nula


en cada extremo. En la figura 2-3 se compara el polígono de frecuen-
cias con el histograma equivalente (marcado con líneas punteadas). El
polígono de frecuencia (incluyendo la base) encierra un área igual a
la del histograma", aunque el área de cada clase en particular está algo
desplazada con respecto al intervalo de clase al que pertenece la fre-
cuencia,

Histogramas y polígonos de frecuencias


El histograma tiene las siguientes ventajas sobre el polígono de frecuen-
cias: 1) el área de cada barra representa el número exacto de valores en
un intervalo de clase; 2) las clases individuales se distinguen más clara-
mente que en un polígono de frecuencia; y 3) se pueden usar barras sepa-
radas para destacar la discontinuidad de valores de una distribución discreta.
Los polígonos de frecuencia tienen las siguientes ventajas: 1) son más
simples que los diagramas de barras, porque tienen menos líneas; 2) se
parecen a las curvas que describen una población continua de datos, me-
3 En la figura 2-3 cada par de triángulos adyacentes formados por las líneas superiores
del polígono y del histograma tienen áreas iguales, siempre y cuando no varíen los intervalos.
46 Análisis de datos: razones y distribuciones de frecuencia

jor que un histograma; y 3) simplifican la comparación de dos diagramas


de frecuencias.
Es recomendable el uso de los histogramas cuando los intervalos de
clase son pocos; y los polígonos de frecuencia son preferibles cuando las cla-
ses son numerosas. Sin embargo, por lo general se puede utilizar cualquier
tipo de diagrama.

Comparación de dos distribuciones de frecuencias


Se pueden comparar mejor dos distribuciones de frecuencia trazando
sus frecuencias relativas como polígonos en una misma escala. Por ejem-
plo, la figura 2-4 compara los ingresos de los aprendices de operadores
de máquinas clase A, con los de la clase B. Las frecuencias se expresan
como porcentajes de sus respectivos totales. La comparación de las dos
curvas muestra que 1) en su mayoría los operadores de la clase A ganan
más que los de la clase B; 2) las tasas más frecuentes de retribución son
las, de $2.25 a $2.35 para los trabajadores de la clase B, en comparación
con las de $2.55 a $2.65 para los de la clase A; y 3) hay mayor concen-
tración de ingresos en la clase B que en la clase A, como lo muestran las
alturas relativas de ambas curvas. .
COMPARACIONES DE DISTRIBUCIONES DE FRECUENCIAS
Ingresos por hora de aprendices de operadores de máquinas,
clases A y B

Porcentaje de operadores
40 r--r--r--r----,r---r--r---r--r---r----,r---r--,

30

20

10
Distribuciones acumulativas de frecuencia 47

DISTR.IBUCIONES DE FRECUENCIA
ACUMULATIVAS

Mu.chas veces se necesita conocer respuestas a preguntas tales como


"¿ cuántos operadores ganan menos de $2.75 por hora de trabajo?" 1\ ese-
efecto, es conveniente sumar las frecuencias y acumularlas, empezando en
cualquier extremo de la distribución y listando los subtotales resultantes
en una distribución de frecuencias acumuladas, tal como se muestra en
las columnas 3 y 4 de la tabla 2-6.

Tahla 2·6
DISTRIBUCIONES DE FRECUENCIAS ACUMULATIVAS
IngresO!! por hora de 214 aprendices
de operadores de máquinas
(1) (2) (3) (4)
lVúmero de Número Número
operadores en la de operadores de operadores
clase con ese que ganan que ganan
Ingresos ¡¡mil. interior menos de esa esa <antidad
por hora de ingresos cantidad o más

2.25 2 O 214-
2.35 23 2 212
2.45 49 25 189
2.55 63 74- 140
2.65 45 137 77
2.75 25 182 32
2.85 3 207 7
2.95 4 210 4-
3.05 O 214- O
Total 214-

FUENTE: Tabla 2-5.

En esta tabla se observa a simple vista cuántos operadores ganan


menos que una cierta cantidad (columna 3), o un cierto monto o más.
Así, observamos que quienes ganan menos de 2.75, mientras que 32
ganan $2.75 o más. Las columnas 3 y 4 también se pueden expresar en
porcentajes del número total de operadores (214), para una más fácil
comparación con otros grupos o para efectuar inferencias sobre una po-
blación más grande.
La representación gráfica de una distribución de frecuencias acumu-
lativas se denomina curva de frecuencias acumuladas u ojiva, porque su
forma se parece a la de una ojiva de un arco gótico. Los datos de la
tabla 2-6 se han graficado en la figura 2-5. La escala de porcentajes de
la derecha se ha trazado de manera que el 100% corresponda a 214
operadores en la escala del lado izquierdo. Las ojivas muestran gráfica-
mente qué número (o porcentaje) de los operadores ganan menos de cada
cantidad listada en la tabla 2-6, y qué porcentaje gana esos montos o más.
48 Análisis de datos: razones y distribuciones de frecuencia

CURVAS DE FREGUENCIAS ACUMULATIVAS


Ingresos por hora de 214 aprendices de
operadores de máquinas

.... "
",,O más
,
\

150
\ ,
\
75

\
,,
,
,, 50
100
,
\
\
\
50 \ 25
\
\
""
", ----
o O
2.25 2.35 2.45 2.55 2.65 2.75 2.65 2.95 3.05
Ingresos por hora en dólares
Figura 2-5
FUENTE: Tabla 2-6
Además, las ojivas permiten interpolar fácilmente para encontrar va-
lores entre los puntos del diagrama. Por ejemplo, la ojiva creciente (línea,
llena) muestra que el 25% del total, o sea, alrededor de 53 operadores,
gana menos de $2.51, mientras que la ojiva decreciente (línea de puntos)
muestra que el 25% gana $2.70 o más. La intersección de las dos curvas
ocurre a una altura de aproximadamente el 50%, lo que indica que alre-
dedor de la mitad de los trabajadores gana $2.60 por hora o menos,
y la mitad gana ese importe o más. Estos tres porcentajes 25%, 75% Y
50% son los "cuartiles" y la "mediana", que se tratarán en los dos capí-
tulos siguientes.
Se pueden usar esos mismos porcentajes para efectuar inferencias com-
parables acerca de todos los operadores de máquinas-herramienta, siempre
que ese grupo de 214 sea una buena muestra de -la población de opera-
dores. En este caso, la muestra fue seleccionada cuidadosamente, por lo
que es válido inferir que alrededor del 25% de todos los operadores
de este tipo ganan menos de $2.51, etcétera.
También se puede dibujar una ojiva como una curva suave y continua
que pase por los puntos que se han marcado, con la ayuda de una <curva
francesa en vez de hacerlo mediante una poligonal (serie de líneas rectas).
Curses de frecuencia 49

El uso de una curva implica que se supone un cambio gradual en el


grado de concentración, lo que muchas veces es una suposición más rea-
lista que la suposición de que los valores se distribuyen con uniformidad
en cada intervalo de clases.

CURVAS DE FRECUENCIA
Se puede dibujar una curva suave y continua para representar la
distribución de frecuencias de una población de datos continuos. Esta
es la forma límite tanto del histograma como del polígono de frecuencias,
cuando el número de valores de la muestra es muy grande y los intervalos
de clases son muy pequeños. Una curva de frecuencia disimula los erro-
res de muestreo que son evidentes en las muestras demasiado pequeñas, y
proporciona un valor de frecuencia para cada valor de X, en lugar
de un valor para cada intervalo de clase. Sin embargo, estas curvas con-
tinuas na se pueden usar para representar datos que se agrupan alrededor
de ciertos valores discretos, tal como en el ejemplo de los ingresos de los
aprendices de operadores de máquinas, de la tabla 2-4.
La figura 2-6 muestra un histograma de los precios del puré de papa
cobrados por 3,395 detallistas en los Estados Unidos. La altura de cada
barra muestra el número de detallistas que reportaron precios dentro de
ese intervalo y con la curva suave Frederick V. Waugh pretende mostrar
"la naturaleza general de la distribución". Tales curvas se pueden ajustar
ya sea gráficamente, subjetivamente, o por métodos matemáticos. En
cualquier caso, es necesario hacer ~n estudio cuidadoso de los datos, para
asegurar un ajuste apegado a la realidad. En el método gráfico, la curva
se debe dibujar de tal manera que el área que se quite de cada barra
'sea aproximadamente igual a la superficie que se agregue a otra barra por

CURVA DE FRECUENCIAS AJUSTADA A LOS DATOS DE LA MUESTRA


Puré de papa: Precios reportados por distribuidores de
alimentos, septiembre de 1949.

Número de
detallistas

800

600

.tOO

200

o 3 4 5 6 7
Precio p,gado (dólares por CWT.)
Figura 2-6
FUENTE: Frederick V. Waugh, Graphic Analysis in Economics, h.s. Department of Agricul-
• ture, Agricultural Handbook 128 (1957), pág. 3.
50 Análisis de datos: razones y distribuciones de frecuencia

la misma curva. La figura 2-6, se desvía un poco de esta regla en el


caso de las barras de mayor altura para lograr el trazo de una "curva
normal". A continuación se describirá este tipo de curvas.

Tipos de curvas de frecuencias


Los tipos más comunes de curvas de frecuencias se ilustran en la
figura 2-7. La más importante es la curva normal (cuya forma es de cam-
pana) que se muestra en la figura 2-6, y en el cuadro Al de la figura 2-7.
Esta curva describe la distribución de muchas clases de magnitudes en
las ciencias físicas, biológicas y sociales. De esta manera, los precios del
puré de pápa de la figura 2-6 varían de acuerdo al costo de los fletes, a
los diferentes ingredientes, al sobreprecio cargado por los detallistas, etcé-
tera, y sin embargo, forman una distribución cercana a la normal.' La
curva normal es particularmente importante, porque refleja variaciones de
naturaleza aleatoria, tales como errores de muestreo. Esta curva se usará
en capítulos posteriores al estudiar la exactitud de las medidas estadísticas
que se toman en una muestra y al hacer inferencias sobre poblaciones.
Las dos curvasen el cuadro B de la figura 2-7 son simétricas como la
curva normal, pero la campana de una de ellas es más cerrada y sus
"colas" son más largas; la otra es más chata y sus "colas" son más cortas
que las de la curva normal. La curva más cerrada podría representar
los precios de la gasolina en un mercado en que hay libre competencia
en los precios y donde la mayoría de las estaciones de servicio cobran
más o menos el mismo precio, pero unos cuantos precios se desvían bas-
tante. La curva más abierta mostraría que los precios están distribuidos
uniformemente sobre un rango limitado, pero sin concentrarse en un
valor determinado.
Las curvas C y D representan distribuciones que también tienen una
"tendencia central", como lo muestra su frecuencia máxima cerca del
centro de la. curva, pero las dos ramas de la curva son desiguales o asimé-
tricas. La curva C, con su rama más larga en dirección negativa se llama
asimétrica a la izquierda o negativamente asimétrica. Este tipo de curvas
comúnmente resulta de una distribución que tenga un límite superior fijo
pero un límite inferior bastante alejado del promedio, como en el caso
de las calificaciones de pruebas agrupadas cerca de la clasificación más
alta; y no cerca del cero. La curva D, que es asimétrica a la derecha o
,Positivamente asimétrica, es el' tipo más común para datos comerciales
y económicos. Por ejemplo, las distribuciones de ingresos personales, de
precios de mercancías, o de activos de compañías, tienden a agruparse
cerca del límite inferior y no cerca de un límite superior indefinido. Una
prueba apropiada, aplicada a un grupo uniforme de aspirantes a empleo,
podría producir una distribución simétrica gradual; una prueba más di-
fícil produciría en promedio calificaciones inferiores, y sería asimétrica
a la derecha, mientras que una prueba muy fácil produciría calificaciones
superiores en promedio y sería asimétrica a la: izquierda.
r TIPOS DE CURVAS DE FRECUENCIA

I
Simétrica
A. Normal
I

Asimétricll
C. Negativa I D. Positiva

J. Formas de J invertida y de U

E. En forma de J invertida F. En forma de 11

Figura 2.7
52 Análisis de datos: razones y distribuciones de frecuencia

Las curvas E y F son menos comunes. La curva en forma de J inver-


tida ocurre en algunas distribuciones, tales como pagos del impuesto sobre
la renta, caso en el que los pagos menores son los más numerosos y el
número de contribuyentes (en el eje de las Y) al principio disminuye
rápidamente y después lo hace gradualmente conforme aumenta la mag-
nitud del pago (en el eje de las X). La curva en forma de U se puede
ilustrar con el número de casas clasificadas por el porcentaje de su adeudo
hipotecario respecto al valor de la casa. La mayoría delas casas no tienen
ningún adeudo o éste es muy grande, mientras que son relativamente
pocas las que tienen un adeudo de tamaño intermedio en relación con
el valor de la casa. Las medidas de tendencia central y de dispersión, que
se tratarán en el capítulo siguiente, se aplican de manera especial a los
tipos de curvas A, '13, e y D, que tienen una pronunciada tendencia cen-
tral : los tipos E Y F no se pueden resumir tan fácilmente como los
anteriores.

RESUMEN
Las estadísticas se pueden clasificar por las características cualitativas,
por tamaño, o por tiempo. Los datos que se clasifican por las caracterís-
ticas cualitativas, o atributos, se pueden resumir y comparar por medio
de razones. Por otra parte, los valores de una variable que se clasifican
por tamaño, en un momento dado del tiempo, se agrupan en una distri-
bución de frecuencias para facilitar el análisis.
Una razón es el cociente de dos valores relacionados. La base, o deno-
minador, es el estándar con el cual se compara el numerador. Se deben
perfeccionar las razones, si es posible, ajustando el numerador y el deno-
minador para eliminar factores extraños que puedan oscurecer la relación
existente entre ellos. La base se puede expresar en cualquier múltiplo
conveniente de 10 unidades, aunque la forma más común es la de por-
centaje. Se deben interpretar con cuidado las razones, particularmente al
distinguir entre el cambio porcentual y la diferencia entre dos porcentajes.
Los diagramas de razones o semilogarítmicos muestran comparaciones
relativas por medio de una escala vertical logarítmica, con una escala de
tiempo aritmética. Se elabora una escala de razones graficando números
naturales a distancias de la línea base proporcionales a sus logaritmos, tal
como en laregla de cálculo. La base de la escala se debe marcar 1, 2, 4 ó
5 (con los ceros y unidades apropiados) y ese valor se debe multiplicar
por las cifras impresas en la escala para obtener los otros valores.
, El diagrama de razones es útil para tres tipos de comparaciones: 1)
muestra una tasa porcentual constante de crecimiento como una línea
recta, de manera que los cambios en la tasa se denotan por la curvatura
de la línea, y algunas veces se pueden realizar predicciones de tendencia.
2) El crecimiento relativo o fluctuaciones de dos curvas se pueden com-
parar en forma más precisa que en los diagramas aritméticos, puesto que
líneas paralelas indican las mismas tasas porcentuales de cambio en cual-
quier lugar del diagrama, y las pendientes más.pronunciadas indican tasas
Problemas 53

mayores. 3) En la escala vertical se pueden leer los porcentajes o razones


directamente yesos valores se pueden aplicar a un análisis gráfico ulterior.
Al efectuar una distribución de frecuencias, el rango de la variable se
divide en intervalos, y se muestra sólo el número de valores de x en cada
cIase, sacrificando así algo del detalle para lograr una presentación más
sencilla. Los valores de X se ordenan primeramente, listándolos indivi-
dualmente o marcándolos en una hoja de chequeo de acuerdo con su
tamaño. Luego las cifras se agrupan en 6 a 15 intervalos de clase para
mostrar las características importantes de los datos, pero evitando detalles
irrelevantes. Los límites de los intervalos de clase se escogen de tal modo
que los puntos de concentración coincidan con los puntos medios o sean
simétricos a ellos, para que cada punto medio en un intervalo sea aproxi-
madamente el valor promedio de X en ese intervalo de cIase. Los inter-
valos deben ser de igual tamaño siempre que sea posible. Los límites de
las cIases deben ser definidos sin ambigüedades. Las frecuencias se pueden
expresar como porcentajes de un número total para facilitar comparacio-
nes o para hacer inferencias en base a los valores de una muestra.
Las distribuciones de frecuencia se pueden graficar marcando las fre-
cuencias del eje de las Y sobre los puntos medios de los intervalos de clase
del eje de las X. Se puede usar un histograma (diagrama de barras) o
un polígono de. frecuencias (diagrama de líneas). Se pueden comparar
marcando las frecuencias relativas (porcentajes) como dos polígonos sobre
la misma escala. También se pueden ir sumando las frecuencias desde
cualquier extremo y trazándolas en forma de curva de frecuencias acumu-
ladas u ojiva para mostrar el número (o proporción) de valores menores
que, o mayores que, un monto dado.
Para aproximar la curva de frecuencia a la población de la que se
ha tomado la muestra, se dibuja una curva suave y continua a través del
histograma o del polígono de frecuencia de una distribución continua,
siempre y cuando la muestra haya sido seleccionada cuidadosamente y
que los datos no se agrupen en determinados puntos.
Las distribuciones de frecuencias pueden representarse en forma de
una. curva de campana, denominada curva normal, o alguna otra forma
simétrica; pueden presentar asimetría a la izquierda o a la derecha; o
en casos extremos, pueden tomar la forma de una J invertida o de una U

PROBLEMAS

1. a) Presente una tabla breve, condensada de una publicación disponible, que


ilustre la clasificación de datos por características cualitativas, por tamaño
y por tiempo.
b) Calcule razones para comparar las características cualitativas.
e) ¿ Qué otra clasificación de los datos primarios podría haberse utilizado
para aclarar los descubrimientos que resulten?
2. ¿ Qué cosa recomendaría usted para que el denominador de cada una de
las siguientes razones fuera más exacto?
54 Análisis de datos: razones y distribuciones de frecuencia

a) Empleados heridos en accidentes de taller respecto al número total de


empleados de líneas aéreas.
bo) El número de empleados en una comunidad respecto al número de per-
sonas en la comunidad.
e) El número de automóviles Ford fabricados respecto al número total de
vehículos de motor vendidos en los Estados Unidos.
3. ¿Qué recomendaría usted para que el numerador o denominador de las
siguientes razones fueran más exactos?
a) El monto de las deudas incobrables al total de las ventas.
o) Ingresos por fletes respecto al número de trenes en servicio.
e) Muertes en accidentes de aviación respecto a la población.

4. Conforme a los siguientes datos:


Número de dias en que
Ventas de permaneció abierta
Mes ropa la tienda
Febrero ......•... $31,872 23
Marzo . 33,084 26

Calcular el cambio porcentual en el promedio diario de ventas de febrero


a marzo.
5. Dada la siguiente información concerniente a las uniones de crédito federales:

Préstamos realizados
durante el alío
Número de
uniones de Miembros Número Cantidad
crédito (miles) (miles) (millones)

Estados U nidos . 8,350 4,502 3,300 $1,580


Pennsylvania . 843 433 300 129

a) Calcule cualesquiera razones que considere convenientes para comparar


las operaciones del estado con las del país.
o') Escriba un reporte con sus cálculos.
6. Las utilidades por aceren de la compañía General Electric fueron en 1970
un 90% sobre el nivel de 1967, y en 1971 un 130% de la misma base.
a) ¿ Cuál es la diferencia que hay entre las cifras de 1970 y las de 1971 en
puntos porcentuales?
b) ¿Cuáles son las utilidades por acción en 1971 como porcentaje de 1970?
e) ¿ Cuál es el cambio porcentual de 1970 a 1971?

7. La corporación Xerox reportó los siguientes ingresos totales de operación,


los que también se listan como índices de porcentaje considerando 1962 =
100%.
Millones de lndice
A,io dólares (1962 = 100)
-------
1962 115 lOO
1964 318 277
1966 753 655
1968 1,224 1,064
1970 1,719 1,495
Problemas 55

Encuentre:
a) El aumento porcentual de los ingresos de 1964 respecto a 1962.
b) El aumento porcentual de los ingresos de 1966 respecto a 1962 y a 1964.
e) El aumento en el índice de 1968 a 1970 en puntos porcentuales, y en
porcentaje.
d) Los ingresos de 1970 como porcentaje de los de 1966.
e) Cuál es el porcentaje de ingresos que habría que rebajar de la cifra d~
1970 para llegar al nivel de 1962.
8. a) Discuta las ventajas relativas de las escalas verticales aritmética y loga-
rítmica para. diagramas de series cronológicas.
b) ¿ Cómo numeraría las partes inferior y superior de una hoja de razones
impresa para datos con las siguientes amplitudes: 390 a 1,400 toneladas;
65 a 3,200 millones de pasajeros-kilómetro; $0.16 a $55.50; 89 millones
de habitantes a 180 millones? ¿ Cuántos ciclos debe tener su hoja de
razones en cada caso -- 1, 2, Ó 3?
9. a) Trace un diagrama de razones con los datos que se dan a continuación.
b) Interprete los hechos que muestre su diagrama.

Estadísticas agrícolas seleccionadas, 1940-1970

Número de
Número de Ingreso bruto tractores en las
granja.r de las granjas granjas
Año (miles) (millones) (miles)

1940 6,350 $11.0 1,545


1945 5,967 2.'>.8 2,354
1950 5,648 32.3 3.394
1955 4,654 33.1 4,345
1960 3,962 38.1 4,685
1965 3,340 44.9 4,783
1970 '2,924 56.2 4,790

FUENTE: Statistical Abstraet of the U.S., 1971.

10. a) Compare el crecimiento de dos industrias o compañías desde 1960 gra-


ficando su producción anual y curva de ventas en un diagrama de razones.
b) Compare las tasas porcentuales de cambio en diferentes años para una
de las curvas.
e) Compare el crecimiento relativo de las dos curvas durante ese período.
d) Marque una escala de medición porcentual en el diagrama. Muestre el
cambio porcentual en cada serie entre el primero y el último año midiendo
la diferencia- vertical en esa escala.
11. Defina y dé el propósito de a) un ordenamiento, b) una distribución de
frecuencias relativas, e) un polígono de frecuencias, d) una ojiva, y e) una
curva normal.
12. Indique cuáles de las siguientes declaraciones son correctas y corrija las que
sean incorrectas:
a) En un ordenamiento siempre existen puntos de concentración, los que
deben tomarse en cuenta al preparar una distribución de frecuencias.
b) Todas las distribuciones de frecuencias deben tener cuando mucho 15 in-
tervalos de clase.
56 Análisis de datos: razones y distribuciones de frecuencia

e) Nunca deben utilizarse intervalos de clase de amplitud desigual.


d) Los límites de los intervalos de cIase se deben establecer en forma tal
que el valor promedio de los artículos contenidos en cada intervalo sea
aproximadamente igual al punto medio del intervalo.
e) Al presentar una distribución de datos continuos, la mejor manera de
designar las cIases es listando los puntos medios de las clases.
13. Establezca si cada una de las siguientes distribuciones cumple o no con los
principios de construcción de una distribución de frecuencias.

(a) (b)

Renta
semanal Miles de
Ingreso promedio Edad en años personas

Menos de $2,000 $62.70 Todas las edades 5,390


$2,000 - $2,900 65.40 Menor de 4 . 335
$2,900 - $4,000 70.00 Menor de 2 . 87
$4,000 -;- $4,900 81.10 4- 9 . 602
$5,000 - $6,500 93.50 10-15 . 721
etcétera 16 - 25 . 1,358
etc.

14-16. Una encuesta de los salarios iniciales típicos ofrecidos a personas con
grados de bachillerato por 191 empresas, en 1971, mostró los resultados si-
guientes:
Área de actividad
Adminis-
Mercado- tracián Finanzas
Salario inicial tecnia y Administra- de la y
mensual (dólares) Contabilidad ventas ció n general producción economía

$601 a menos de 640 O 2 3 O O


641 a menos de 680 3 11 14 3 O
681 a menos de 720 5 12 17 5 2
721 a menos de 760 16 26 34 10 7
761 a menos de 800 34 12 21 9 9
801 a menos de 840 20 1 3 6 9
841 a menos de 880 13 4 1 1 2
881 a menos de 920 5 2 O 2 O
921 a menos de 960 1 O 1 O O
961 a menos de 1,000 2 1 O O 1
Números de empresas
reportadas 99 71 94 36 30

* Los límites de los intervalos de clase para las clases se han modificado ligeramente para
facilitar el análisis.
NOTA: Estos datos se usarán también en los capítulos 3 y 4.
FUENTE: Frank S. Endicott, Trends in Employment 01 College and University Graduates in
Business and Industry (Evanston, lB.; Northwestern University Press. 1971).

14. a) Dibuje los histogramas de dos de las áreas de actividad de la tabla ante-
rior, usando diagramas separados.
b) Dibuje los polígonos de frecuencia para las mismas dos áreas de activi-
dad seleccionadas en e! punto anterior. Use uno o dos diagramas.
e) Compare, en este caso, las ventajas de! histograma y del polígono. de
frecuencias.
Problemas 57

15. a) Elabore una tabla de frecuencias porcentuales, para las dos áreas de
actividad utilizadas en 14 (a). U se esa tabla para construir dos polígonos
de frecuencias porcentuales en el mismo diagrama.
b) ¿ Cuál es el motivo para usar frecuencias porcentuales, al comparar dos
distribuciones?
e) Con base en esta tabla ¿ qué conclusiones puede uno sacar respecto a los
salarios relativos?
d) ¿ En qué situaciones serían innecesarias las frecuencias porcentuales para
comparar dos distribuciones?

16. a) Elabore una tabla de frecuencias acumuladas "con más de" y su ojiva
para una de las áreas de actividad que utilizó en el problema anterior.
b) Elabore una tabla "menos de" y su ojiva para la misma área.
e) En esa área ¿cuántas empresas ofrecen salarios iniciales de más de $680?
¿ De más de $800?
d) ¿ Cuántas empresas ofrecen salarios iniciales menores de $720 en esa área?
¿ Cuántas ofrecen $840 ó menos?

17. a) Elabore una tabla de frecuencia usando las 112 cifras de las cuatro co-
lumnas que se le han asignado en la siguiente tabla (vea las asignaciones
numeradas debajo de la tabla).

Sueldo diario de 168 mujeres en una planta de ensamble electrónico


(en dólares)

(a) (b) (e) (d) (e) (f)

15.20 18.00 11.20 16.00 20.00 13.60


11.60 14.00 12.00 11.30 12.20 12.00
8.00 12.00 i 7.6b 15.60 8.50 8.00
12.80 12.80 9.50 12.00 14.50 10.00
14.00 11.80 12.00 lÓ.60 16.00 ~2.60
6.40 9.20 14.00 12.00 12.60 14.00
12JlO 7.60 12.00 15.00 12.00 6.50
12.40 14.80 8.20 6.00 8.00 16.00
24.00 18.00 28.00 8.00 19.00 14.00
14.60 16.80 16.80 16.00 22.00 14.60
9.00 14.20 14.40 17.20 15.20 19.20
16.50 12.00 21.20 14.40 10.00 12.30
20.00 12.00 20.00 12.50 14.00 11.60
18.00 21.00 23.00 20.00 16.00 16.40
14.10 8.00 14.00 18.80 16.40 16.00
22.50 16.00 16.10 12.00 12.00 20.00
12.00 24.00 19.90 12.00 23.80 21.40
20.80 19.60 12.90 8.40 28.40 24.00
16.00 27.00 24.00 23.50 17.30 28.80
18.00 20.00 16.00 20.00 18.00 15.20
7.20 10.40 8.00 21.60 14.00 25.00
14.00 15.50 11.80 24.40 11.40 12.00
26.00 21.80 15.00 14.00 24.50 20.40
16.00 14.00 16.00 16.20 6.00 17.60
16.00 6.00 12.40 28.00 20.00 8.80
12.00 16.00 18.40 16.90 16.00 16.00
19.40 12.40 15.50 13.00 12.00 18.00
10.00 16.00 6.00 14.00 13.20 12.00
58 AlIálisisde datos: razones y distribuciones de frecuencia

Asignaciones:
No. Colum ..as No. Columnas No. Columnas
---------------_._---
1 a b e d 6 a b e f 11 bcd e
2 a b e ti 7 a e d e 12 bcd f
:5 a b e 8 a e d f 13 b e e f
4 a b d e 9 a c e f 14 b d e f
5 a b d 10 a d e f 15 e del

b) Dé sus razones para la elección de los límites de los intervalos de clase


y para la amplitud de esos intervalos.
c) Dibuje un diagrama que presente la distribución de frecuencias selec-
cionada.
d) ¿ Qué información relacionada con los sueldos de las mujeres en esta
planta se puede deducir de su tabla y de su diagrama?
NOTA: Este problema continuará en los capítulos 3 y 4.
18. De acuerdo Con la revista Consumer In come de julio de 1972, del Census
Bureau, los ingresos de las familias de los Estados Unidos en 1971 se dis-
tribuían como sigue:

Ingreso Porcentaje Ingreso Porceniai«

Menos de $1,000 ~.......... 1.5 $ 7,000 a 7,999 ........ 6.2


1,000 a 1,999 ............. 2.6· 8,000 a 9,999 •••• o ••• 12.3
2,000 a 2,999 ••••• o· • • • • • 4.2 10,000 a 14,999 • ..... o .... 26.9
3,000 a 3,999 ••• 0 ••••• • • 4.8 15,000 a 24,999 • •· • • • 0·0 • 19.5
4,000 a 4,999 ••••• 0 ••••• 5.4 $25,000 y más ....... 0 ••• 5.3
5,000 a 5,999 ........... 5.7
6,000 a 6,999 .......... . 5.5 Total de familias · ....... 100.0

a) Critique la selección de los intervalos de clase y de los límites de clases.


b) Trace un histograma de esta distribución. Después dibuje una curva suave
y continua para aproximar una distribución continua de los ingresos. ¿ Qué
tipo de curva de frecuencia es ésa? ¿ normal, asimétrica negativa, etcétera?
19. Usted es un empleado de una empresa que acaba de recibir un embarque-
de 200 hojas de tablilla de aislamiento de 78 de pulgada que se utilizarán
en la fabricación de transformadores de potencia. Usted debe comprobar el
espesor de esas tablillas utilizando un) micrómetro de O a 1 pulgada. El espe-
sor es la característica principal que influye en la calidad de la tablilla,
y, por consiguiente, en la calidad del transformador. Las medidas realizadas
se muestran en milésimas de pulgada (y redondeadas al milésimo más cer-
cano).
Número de Número de
Espesor hojas Espesor hojas
~
118 2 125 51
119 8 126 14
120 5 127 23
121 9 128 14
122 8 129 10
123 23 130 5
124 27 131 1
Total 200 ~~.'

NOT": Estas-cifras se utilizarán en problemas corrcspendientes a los capítulos 3 y 4.


Problemas 59

a) Usted desea preparar un diagrama que resuma los resultados de su ins-


pección. Dibuje un polígono de frecuencias (diagrama de línea) que
muestre la distribución del espesor para las 200 hojas.
b) ¿ Qué características esenciales de este embarque de tablillas de aisla-
miento puede usted determinar inspeccionando el diagrama?
e) - Dibuje una curva suave a través de su gráfica para alisar los errores de
muestreo en zigzag y aproximar la distribución del espesor para todos
los embarques futuros de tablillas de aislamiento. (Las frecuencias totales
bajo las dos curvas deberían ser iguales.) En análisis más avanzados se
utilizan para este propósito curvas matemáticas.
d) ¿ Para simplificar la presentación sería mejor presentar los datos tal como
se muestran en un reporte para los ejecutivos de la empresa, en vez de
combinarlos en cinco clases de amplitud de .003 de pulgada ( 118-120,
121-123, ... )? ¿ Por qué?

20. Una publicidad sobre automóviles enumera la siguiente distribución de millas


recorridas por galón de gasolina según reportes de los propietarios de esos
vehículos:
Millas por galón Porcenta}e Millas por galón Porcentaje

15 a menos de 16* 6 19 a menos de 20 14


16 a menos de 17 10 20 a menos de 21 18
17 a menos de 18 16 21 a menos de 22* ...... 12
18 a menos de 19 24 Total de propietarios . '. 100
* Se han asignado arbitrariamente los límites de clase de las clases extremas para Iacilitar
cálculos posteriores.

a) Elabore un histograma del millaje por galón, y dibuje una curva suave
y continua a través de él, paga eliminar las irregularidades debidas al
muestreo y aproximar la distribución continua del rendimiento de la gasolina
representativa de la población total de propietarios de automóviles. ¿ Qué
tipo de distribución de frecuencia es ésta?
b) Liste una distribución' de frecuencias acumuladas y dibuje una ojiva que
presente el porcentaje de propietarios que reportan un rendimiento de
determinadas millas por galón o más. De acuerdo con esa curva, ¿ fue
la mitad de los vehículos la que obtuvo ese rendimiento o más? ¿ Qué
.rendirniento tuvieron la cuarta parte de los autos más económicos? (Pro-
porcione los resultados al más cercano décimo de galón.)

21. Usted está: comprando dos marcas diferentes de cierto tipo de bulbo elec-
trónico, y ha obtenido las siguientes distribuciones de frecuencias de su vida
en horas.
a) Marque en el mismo diagrama las frecuencias relativas de las dos mar-
cas. (Para este propósito, omita la clase de 500 y las de más.) ¿ Por qué
usaría usted porcentajes en vez del número real de bulbos?
b) ¿ Se parecen estas distribuciones de frecuencias a una curva normal, a
una asimétrica a la izquierda, a una asimétrica a la derecha, a una en
forma de J, o a una en forma de U?
e) Use su diagrama para comparar las dos distribuciones de frecuencias.
d) Calcule las distribuciones de frecuencias acumulativas para las dos marcas
de bulbos. Después grafique estas distribuciones en un diagrama.
¿ Cuál es el promedio aproximado de vida útil al que el 50'!r de los bulbos
de la marca A se encuentran aún funcionando? ¿ Cuál es para la marca B?
(Estas. cifras se pueden obtener de su diagrama, localizando el punto en
que las curvas de frecuencia acumuladas intersecan la línea de frecuen-
60 Análisis de datos: razones y distribuciones de frecuencia frecuencia

Frecuencia relatioa,
Frecuencia porcentajes
Vida (en horas) Marca A Marca B Marca A Marca B

Menos de 50 .. O' ........ 1 3 0.8 3.8


50Y menos de 100 8 8 6.7 10.0
100Y menos de 150 18 12 15.0 15.0
150Y menos de 200 40 14 33.3 17.5
200y menos de 250 26 13 • 21.7 16.3
250y menos de 300 12 10 10.0 12.5
300y menos de 350 6 9 5.0 11.2
350Y menos de 400 3 6 2.5 7.5
400y menos de 450 2 3 1.7 3.8
450Y menos de 500 1 1 0.8 1.2
500 ................ -o." •••• O' ... 3* 1* 2.5 1.2
Total ................ c ••••• 120 80 100.0 100.0

" La vida media útil de los bulbos que trabajan más de 500 horas fue de 700 para la
marca A y de 600 para la marca B.

cias acumuladas del 50%. Usando estos resultados y su análisis del


inciso (e) ¿ Qué bulbo debe usted comprar para obtener la vida útil pro-
longada? ¿Por qué?
e) Suponga que su empresa ha fijado la política de reemplazar todos los
bulbos después de 150 horas de actividad. ¿ Cambiaría esto su respuesta
a la pregunta del inciso (d)?
22. Dada la tabla de vida útil para 1,000 coches que se muestra a continuación:

Número de
Edad desechos Desechos Número de
(Años) durante el año acumulativos sobrevivientes

1-2 O O 1,000
2-3 9 g 991
3-4 13 22 978
4--5 14 36 964
5-6 18 54 946
6-7 29 83 917
7-8 52 135 865
8-9 86 221 779
9-10 109 330 670
10-11 121 451 549
11-12 115 566 434
12-13 104 670 330
13-14 89 759 241
14-15 72 831 169
15-16 54 885 115

a) Grafique el número de coches disecados (en el eje de las X) en un


polígono de frecuencias (con la edad en el eje de las Y.).
b) ¿Qué conclusiones infiere usted de esa gráfica acerca del desecho de
coches?
Problemas 61

e) .Grafique ojivas para el número acumulativo de coches desechados y el


número de coches que continúan en servicio.
d) En el punto de intersección de las dos curvas, anote el número de coches
y la edad en años. Esta última es la vida media.
e) ¿ A qué edad se habían desechado el 25% de los coches? ¿ El 75'10?
Esos son cuartiles.

BIBLIOGRAFíA

Las lecturas selectas para este capítulo se incluyen en la lista que


aparece en la página 108.
CAPITULO 3
Promedios

Uno de los principales objetivos del análisis estadístico es obtener


cifras concisas que describan sumariamente gran cantidad de datos difí-
ciles de manejar. Anteriormente se describieron las etapas iniciales de
este proceso analítico, que son las siguientes: evaluación de la exactitud
de los datos, clasificación de los mismos, comparación por medio de
razones y condensación de los datos en una distribución de frecuencias.
'un tipo importante de medición sumaria es el promedio. Los pro-
medios son comunes en ejemplos tales como los precios promedio de bonos
u obligaciones, una persona de ingreso promedio, y la tasa anual de
interés que se carga a los clientes de un banco comercial. Si se analizan
cuidadosamente estos ejemplos se' observará que representan diferentes
conceptos de "promedio", los cuales deben diferenciarse entre sí. Ningún
promedio se puede utilizar indistintamente para cualquier caso.
Los promedios más usuales son 1) la media aritmética, 2) la mediana,
y 3) la moda. La primera se determina por medio de ciertos cálculos, la
segunda por su posición relativa en un conjunto de datos y la tercera en-
contrando el punto alrededor del cual los valores de la variable se agrupan
con mayor 'frecuencia. A continuación se describirán esos promedios.

LA MEDIA ARITMÉTICA

El promedio más común es la media aritmética, o simplemente, media.'


Generalmente, cuando se usa solo, el término promedio se refiere a la
media. La media de cualquier conjunto de valores se obtiene sumándolos
y dividiendo el total entre el número de valores sumados.

1 La media aritmética se diferencia de la media cuadrática, la cual es el


promedio de cuadrados de números; la media geométrica, que es el promedio
de logaritmos; y la media armónica, que es el promedio de recíprocos. En el
capítulo 4- se estudia la media cuadrática (de desviaciones de la media aritmé-
tica) como "desviación estándar". Sin embargo, las otras medias raramente se
utilizan y no se considerarán aquí.

63
64 Promedios

Datos no agrupados
Al calcular la media, el método utilizado cuando se trata de una
lista de datos es, en general, el mismo que se usa para datos agrupados
en una distribución de frecuencias, aunque las fórmulas varían un poco
en cada caso. Para tener un ejemplo de datos no agrupados, considere
una persona que trabaja a destajo y gana $4.80, $5.05, $5.00 y $5.15 en
cuatro horas sucesivas. Su ingreso promedio se calcula sumando los ingre-
sos obtenidos en las cuatro horas y dividiendo la turna entre cuatro. El
total de ingresos es de $20.00 y, por lo tanto, la media es de $5.00. Ese
proceso se generaliza por medio de la siguiente fórmula:

_. ~X
X=-
n

donde X (léase "X con tilde") simboliza el promedio de la variable X


(ingresos por hora) ; ~ es la letra griega mayúscula sigma (que corres-
ponde a nuestra S) y significa "la suma de"; finalmente, n es el número
de valores."
Cuando una variable toma diversos valores idénticos, se puede usar
la multiplicación como método abr~viado para obtener el total de la va-
riable X. Así, para encontrar la dimensión promedio de los 63 engranes
de la tabla 2-3, se podrían sumar las 63 cifras del cuadro A, pero sería
más fácil multiplicar cada cantidad del cuadro B por su frecuencia y sumar
los productos como sigue: 1(.4270) + 4(.4265) + 10.(4260) + .... Es-
pecíficamente, ya que hay diez engranes que miden .4260, es más sencillo
multiplicar 10 por .4260 que sumar diez veces .4260. El proceso total
se resume mediante la fórmula:
- ¡fX
X=-
n

donde t es el símbolo de frecuencias, ¡fX significa que cada valor de X


se multiplica por la frecuencia con que aparece y, después, se suman
los productos (IX). Usando cualquiera de las dos fórmulas se obtiene

- 26.7820
X = 63 = .4251, que es la dimensión promedio de los engranes

Media ponderada. En muchos tipos de problemas, los valores que


se deben promediar tienen diferentes grados de importancia. En tales
casos, cada valor se multiplica por un parámetro numérico de ponde-
ración basado en su importancia relativa y el total se divide entre la suma

2. Estrictamente hablando, los símbolos X y n se aplican solamente a datos


muestrales. En los capítulos posteriores se usará p. (la letra griega mu) para
designar la media de una población y N para el número d~alores de la pobla-
=
ción. Por lo tanto, p. -z,X/N. -' .
La media aritmética 65

de esas ponderaciones. El resultado de esos cálculos se denomina media


ponderada. Las ponderaciones se manejan como si fueran frecuencias.
Por lo tanto, una media ponderada se puede calcular mediante la misma
fórmula anterior --considerando a f como una ponderación y a n como
la suma de ponderaciones.
Así, un examen de aptitudes se puede basar en una prueba de redac-
ción técnica con una ponderación de 2 y una prueba de matemáticas
con una ponderación de 1. Los parámetros totalizan 3. Si una persona
obtiene 90 y 60 puntos, respectivamente, su calificación promedio de
aptitudes es
x= 'J,fX = 2(90) + 1(60) = 240. = 80
n 3 3

Los promedios ponderados se usan bastante en la construcción de


números índice, tal como se describirá posteriormente en el capítulo lB.
Todos los promedios aritméticos pueden considerarse como ponderados
en alguna forma, ya sea explícita o implícitamente. Desde este punto de
vista, en un promedio aritmético "no ponderado", todas las ponderaciones
son iguales. Por lo tanto, al calcular cualquier promedio, es importante
usar las ponderaciones adecuadas. Por ejemplo, al promediar las razones
"utilidades/ventas" de 30 detallistas abarroteros entre sus ventas totales,
en cuyo caso se estaría dando mayor ponderación en .los resultados a los
detallistas más importantes; también podría dárseles igual importancia a
todos, tomando un promedio simple de las 30 razones.

Datos agrupados
La media de datos agrupados en una distribución de frecuencias se
calcula de la misma manera que se acaba de describir. Sin embargo, en
una distribución de frecuencias se utiliza el punto medio de cada inter-
valo. Asimismo, cada punto medio de intervalo se multiplica por el número
de valores de esa clase. Finalmente, la suma de estos productos se divide
entre el número total de valores de X para determinar la media aritmética.
Por lo tanto, la fórmula para calcular la media aritmética de una dis-
tribución de frecuencias es:
- 'J,IX
X=-,-
n

donde IX es la frecuencia (número de valores) que hay en un intervalo,


multiplicada por su punto medio X, y "2-IX es la suma de estos productos.
El número total de valores, ti, también es la suma de las frecuencias.
Al calcular la media aritmética para los ingresos obtenidos por los
operadores de máquinas-herramienta de la tabla 3-1, el punto medio
de la primera clase ($2.30), multiplicado por los dos operadores de esa
clase, da sus ingresos combinados de $4.60. Los ingresos totales para todas
las clases son $55B.3ú,. y la media es:
66 Promedios

- ¡IX 558.30
X = - - = --.- = 2.609 dólares por hora
n 214

Tabla 3-1
METODO DIRECTO PARA CALCULAR LA MEDIA ARITMETICA
DE UNA DISTRIBUCION DE FRECUENClAS
Ingresos por hora de 214 aprendices de operadores de
máquinas-herramienta

(1) (2) (3)


Número de Frecuencia
Punto medio operadores por punlo
Ingresos por hora de la (frecuencia) medio
(dólares) clase X I IX

2.25 y menor que 2.35 ......... $2.30 2 4.60


2.35 y menor que 2.45 ......... 2.40 23 55.20
2.45 y menor que 2.55 ....... " 2.50 49 122.50
2.55 y menor que 2.65 ........ . 2.60 63 163.80
2.65 y menor que 2.75 .......... 2.70' 45 121.50
2.75 y,menor que 2.85 ......... 2.80 25 70.00
2.85 y menor que 2.95 ......... 2.90 3 8.70
2.95 y menor que 3.05 o .. , • • l •• . • 3.00 4 12.00
Total •••• o •••• o •••••••.••• 214 558.30

FUENTE: Tabla 2-5.

La media obtenida para una distribución de frecuencias está sujeta a


un pequeño error de agrupamiento, ya que todos los valores se han redon-
deado al punto medio de la clase, según se indicó en el capítulo 2. El' error
se puede minimizar haciendo que los puntos medios de los intervalos de
clase queden en puntos alrededor de los cuales los datos tienden a agru-
parse o, en caso de que hubiera varios en un intervalo, usando el promedio
de esos puntos. A menudo, los errores de agrupamiento con signo opuesto
tienden a anularse unos a otros, de tal manera que el error en la media
agrupada es despreciable. ASÍ, la media aritmética de $2.609 por hora, ob-
tenida para la distribución de frecuencias, es solamente $0.003 mayor que
la media exacta de $2.606 por hora, obtenida a partir de las cifras originales.
Método abreviado. El método directo para calcular la media arit-
mética a partir de una distribución de frecuencia es sencillo cuando todos
los números en cuestión son enteros. Sin embargo, a menudo se requiere
multiplicar muchos pares de números grandes y sumas laboriosas de sus
productos. Si los intervalos de clase son de la misma amplitud, los cálculos
se pueden simplificar usando un método abreviado en el cual los multipli-
cadores se reducen a pequeños números enteros. Este método se ilustra en
la tabla 3-2.
Los pasos que deben darse para calcular la media por el método abre-
viado son los siguientes:
La media aritmética 67

Tabla 3·2
METODO ABREVIADO PARA CALCULAR lA MEDIA ARITMETICA
DE UNA D1STRIBUCION DE FRECUENC1AS
Ingresos por hora de 214 aprendices de operadores de
máqulnas-herramienta

(1) (2) (3) (4) (5)


Número de Desviación
Punto medio operadores de la Frecuencia X
Ingresos por hora de la (frecuencia) media desviación
(dólares) clase X I d Id

2.25 Y menos que 2.35 ••• , $2.30


••••• a 2 -3 - 6
2.35 y menos que 2.45 .......... 2.40 23 -2 -46
2.45 Y menos que 2.55 .......... 2.50 49 -1 -49
2.55 y menos que 2.65 .......... 2.60* 63 O O
2.65 y menos que 2.75 ....... ....
2.70 45 1 45
2.75 y menos que 2.85 .......... 2.80 25 2 50
2.85 y menos que 2.95 .......... 2.90 3 3 9
2.95 Y menos que 3.05 ......... . 3.00 4 4 16
Total ...................... 214 19
* Seleccionado arbitrariamente como X a •

1. Liste los límites de clase (si se requiere), los puntos medios, y las fre-
cuencias, según se muestra en las columnas 1 a 3.
2. Seleccione cualquier punto medio cbmo la media supuesta (X a ) ; prefe-
riblemente un punto medio de alguno de los intervalos centrales. En
la tabla 3-2 la media supuesta se tomó como $2.60.
3. Liste la desviación (d) de' cada uno de los puntos medios de las clases
con respecto a la media supuesta, midiéndola en unidades de intervalo
de clase, como en la columna 4. En esta forma se escribe un cero junto
a $2.60, el siguiente punto medio mayor se marca + 1, el siguiente menor
- 1, Y así sucesivamente en números enteros, 1, 2, 3, .... Asegúrese de
marcar las desviaciones de los puntos medios mayores con signo positivo
y los puntos medios menores con signo negativo, independientemente de
cuáles se listen primero en la tabla. Si se saltara alguna clase y luego
se dieran algunos valores, por ejemplo, en la clase "3.15 y menos de
3.25", esa clase tendría una desviación de 6 -y no 5- unidades de
clase respecto a la media supuesta.
4. Multiplique la frecuencia de cada clase por su desviación, liste el pro-
ducto Ud) en la columna 5 y asegúrese de incluir el signo.
5. Totalice esos productos (,~.fd).

Entonces, la media aritmética calculada por este método abreviado es

~ - i'i,fd
X=X a + --
n
68 Promedios

donde i es la amplitud del intervalo de clase, ::l.fd es la suma de f veces d


para cada clase (no ::l.f veces ::l.d), Y los otros símbolos se definieron ante-
riormente. Por lo tanto, en la tabla 3-2,

- - i::l.fd
X=X a + - -
n
.10(19)
= 2.60 + = 2.609 dólares por hora
214

El método abreviado conduce exactamente al mismo resultado que la


fórmula del método directo. En el caso de que los intervalos de una
distribución de frecuencia varíen en amplitud se debe utilizar el método
directo, X = ::l.fX In El método abreviado se podría utilizar si la dife-
rencia existente entre cada punto medio de la clase y la media supuesta
se pudieran expresar en unidades de algún factor común (i), pero ése sería
un procedimiento difícil.
Distribuciones de extremo abierto. En algunas ocasiones es nece-
sario calcular la media aritmética de una distribución de frecuencias que
tiene clases con extremos abiertos; es decir, intervalos cuyo límite superior
o inferior no se encuentra indicado; por ejemplo, la clase de salario de
"$825 o menos". Si bien, los intervalos abiertos deben evitarse, es posible
calcular la media de una distribución de extremo abierto cuando se cono-
cen valores particulares, su promedio, o bien, su total para cada clase
de extremo abierto, con lo cual se pueden suplir los datos faItantes. Sim-
plemente se utiliza el promedio del intervalo abierto como el valor X de
ese intervalo en el cálculo de la media aritmética de toda la distribución.
Si no se conocen valores para el intervalo de extremo abierto, entonces
deben preferirse la mediana o la moda, en lugar de la media, ya que esas
medidas no dependen de los valores extremos de la distribución.

Datos enalitativos o atributos


Cuando los datos para el análisis son atributos o cualidades (es decir,
si están clasificados en sólo dos categorías), la media aritmética tiene
una interpretación especial. U na razón o proporción se puede considerar
como un caso especial de la media aritmética, en la que todos los valores
son números uno o cero. Así, 20 de cada 100 ternos inspeccionados se encuen-
tran defectuosos, y contamos los defectuosos como uno y los otros como ceros,
el promedio de los '20 unos y de los 80 ceros es 0.20, que es igual a la
proporción de ternos defectuosos.

LA MEDIANA
La mediana de cualquier conjunto de datos es el valor central, en
orden de tamaño, si n es impar; o la media aritmética de los dos valores
La mediana 69

centrales si" n es par. Cuando hay a'!upos valores muy grandes o muy
pequeños, generalmente es mejor usar la vnedi-na, y no la media, con
carácter de promedio." Por ejemplo, la M{)¡¡thy Labor Review reporta
la mediana de sueldos y salarios por ocupaciones, y la Dun's Review and
Modern Industry reporta las medianas de razones de operación de peque-
ñas muestras de empresas comerciales, ya que la mediana representa l} la
empresa promedio sin distorsiones ocasionadas por valores extremos muy
grandes que influyen mucho en la media aritmética, según se ilustró antes.
A veces se puede determinar la mediana cuando otros promedios no
se pueden calcular porque los individuos no se miden cuantitativamente.
Por ejemplo, los empleados de una planta se pueden agrupar de acuerdo
con sus méritos, sin asignarle ningún valor numérico a ningún individuo.
Para determinar el valor de la mediana en estas condiciones, basta con
medir (cuantificar o graduar) uno o dos trabajadores.

Datos no agrupados
En el caso de datos no agrupados, es más fácil encontrar la mediana
si previamente se ordenan los valores. Considere las razones precio-rendi-
miento 19.6, 17.3, 19.2, 14.0 y 29.9, que son los precios de acciones co-
munes divididos entre las utilidades respectivas de cinco compañías elec-
trónicas. Arregladas en orden creciente, las cinco razones quedan

14.0, 17.3, 19.2, 19.6 Y 29.9

La mediana de este conjunto es el valor central, o sea 19.2. Si se aña-


diera una sexta razón, 1°.0, la mediana sería la media de los valores
centrales 19.2 y 19.6, o sea 19.4. Por 10 general, la mediana en un ordena-
miento no se calcula mediante una fórmula, sino que se selecciona como
el valor cuyo "número de orden" es n/2 + 1/2, contando a partir del
valor menor. Así, para las 6 razones anteriores, el número de orden de la
mediana es 6/2 + Y2 = 3Y2, o sea, a la mitad entre el tercero y cuarto
valores.
Este ejemplo ilustra una ventaja que tiene la mediana sobre la media.
A veces, la razón del precio de una acción a la utilidad respectiva es
muy grande cuando las utilidades son anormalmente pequeñas, como sucede
con la razón 29,9. Debido a esta elevada cifra, la media (20.0) es mayor
que cuatro de las cinco razones. Muchas veces, la mediana es más exacta
que la media, cuando en las muestras de poblaciones ocurren tales des-
viaciones extremas, ya que este tipo de desviaciones tienen gran influencia

3 A veces se utiliza una "media modificada" o "mediana extendida". Esta


última es la media de un grupo central de valores en un arreglo o distribución
de frecuencias, omitiendo cualquier valor demasiado grande o pequeño que sean
extremos y atípicos y se considere que pueden distorsionar la media total. Por
lo tanto, la media modificada es un compromiso entre la media y la mediana;
seleccionada para combinar los mejores rasgos de ambas.
en la exactitud de la media de la muestra, mientras que la exactitud de la
mediana de la muestra depende principalmente del grado de agrupa-
miento que haya alrededor de la mediana de la población.

Datos agrupados
Cuando los datos están agrupados en una distribución de frecuencias,
la mediana queda en el intervalo de clase cuya frecuencia es la primera
que permite que la acumulación de frecuencias sea mayor que n/2. Es
conveniente llamar "clase mediana" a ese intervalo de clase. Así, para
ubicar aproximadamente la mediana (Md) dentro de la clase mediana,
se puede usar la fórmula de interpolación

Md = L + i(n/2 - F)
--f--

donde L es el límite inferior de la clase mediana, i es su amplitud, f es su


frecuencia, F la frecuencia acumulativa en la clase mediana y n es el
número total de valores de X.
Al aplicar esta fórmula a los datos de ingresos presentados en la tabla
3-1, el primer paso es localizar el intervalo de clase que contiene el valor
central, o sea, aquel cuyo rango es n/2 = 214/2 = 107.4 Al acumular la
f se encuentra que los subtotales sucesivos son 2, 25, 74, 137, etcétera.
El primer subtotal mayor que n/2 es 137. De acuerdo con esto, la cuarta
clase es la "clase mediana". Su límite inferior es L = 2.55; su frecuencia
es f = 63; la frecuencia acumulativa para X menor que L es F = 74; y el,
intervalo es i = 0.10. Sustituyendo estos valores en la fórmula se encuen-
tra que la mediana es:
Md = L + _i(_n_/2_-_F_)
f
= 2.55 + .10(107 - 74)
63
= 2.55 + .052
= 2.602, o sea $2.602 por hora
Este valor es sólo una aproximación a la mediana de los datos origi-
. nales no agrupados, ya que se interpola bajo la suposición de que los valo-
res de X en la clase mediana están distribuidos uniformemente dentro de
ese intervalo. En este caso, la verdadera mediana -tomada de los datos
originales de la tabla 2-4- es exactamente $2.60, porque los ingresos próxi-
mos a la mediana se aglupan en este punto.

., Un valor central interpolado sobre un rango continuo se encuentra exacta-


mente en el punto medio n/2 del orden, y no en el punto n/2 + 1/2, como
ocurre con los datos discretos.
La moda 71

Aproximadamente, la mitad de las 214 cifras de ingresos son me-


nores que la mediana de $2.60 y casi la mitad son mayores. Cuando
la mediana se encuentra entre dos valores centrales, la proporción de
cifras que hay a cada lado de ella es exactamente de la mitad. De todas
maneras, la proporción de las cifras que están a cada lado de la mediana
es a veces mayor o menor que la mitad. En el caso de datos no agrupa-
dos, uno o más valores pueden ser tales que sean precisamente iguales a la
mediana, de tal manera que la proporción de valores menores (o mayores)
que la mediana puede ser considerablemente menor que la mitad; nunca
puede ser mayor. En el caso de datos agrupados, más de la mitad de los
valores originales pueden estar a un lado de la mediana interpolada a
causa de una distribución irregular de los valores en la clase mediana.
Por estas razones, es mejor decir que la proporción de valores a cada lado
de la mediana es sólo aproximadamente igual a un medio.
La mediana se puede determinar exactamente como se indicó antes
para una distribución de extremo abierto, puesto que no es afectada por
el tamaño de los valores extremos.
En una distribución de frecuencias, también se puede leer gráficamente
la mediana en una curva de frecuencia acumulativa u ojiva, como se
describe en la página 36. El método gráfico conduce al mismo resultado
que la fórmula de interpolación de la sección anterior,excepto por los
errores que ocurran al graficar y al leer la escala.

LA MODA
En estadística, moda significa exactamente lo que en el diccionario
-la cosa prevaleciente o más frecuente. Más precisamente, la moda se
define como el valor que ocurre más seguido o el valor alrededor del
cual existe el mayor grado de agrupamiento. El salario modal es el que
reciben el mayor número de trabajadores. La tasa de interés modal para
hipotecas es aquella que ocurre más seguido que cualquier otra. Si el
valor más común o usual es el que se necesita para una decisión comer-
cial, la moda es el tipo apropiado de medida de promedio que debe
usarse.
Es particularmente importante que los datos usados para determinar
la moda sean homogéneos o suficientemente parecidos para que sean com-
parables. Datos heterogéneos, tales como los salarios de trabajadores adies-
trados y no adiestrados, pueden ser bimodales,· con dos modas (o más)
qpe tienen una frecuencia igualmente grande. Generalmente la moda sólo
es significativa si hay una concentración marcada de valores alrededor de
un punto único.

Datos no agrupados
Ocasionalmente la moda puede determinarse directamente de datos
no agrupados. Cuando una gran proporción de valores son iguales, ningún
72 Promedios

proceso de agrupamiento podría quitar a este valor de su posición modal.


Esto es especialmente cierto si los datos son discretos y sólo tienen un
número limitado de posibles valores distintos. Por ejemplo, si un banco
carga la mayor parte de las veces el 8 por ciento de interés a sus clientes
en préstamos comerciales, entonces el 8 por ciento es la moda de tasas de
interés, independientemente de las tasas que se apliquen a los casos espe-
ciales. Similarmente, un estudio indica que la mayoría de los padres pre-
fieren tener tres niños, más que cualquier otro número. Así, tres es el ta-
maño de familia modal preferido. por los padres.

Datos agrupados
Sin embargo, la mayoría de los tipos de datos deben agruparse en una
distribución de frecuencias para localizar la moda. Como ilustración, en el
arreglo de los ingresos por hora listado en centavos en la tabla 2-4, la tasa
de ocurrencia más frecuente es $2.63, pero $2.70 también es muy común;
y hay otros puntos dispersos de concentración, tales como $2.50 y $2.75,
'que hacen dudar de cuál sea realmente la mayor área de concentración.
.Al agrupar esos ingresos como en la tabla 3-1 aparece un valor modal
único. Esto ocurre en el intervalo de $2.55 a $2.65. El intervalo modal se
puede describir diciendo que "ha)' más casos de ingresos en la clase de
$2.55 a $2.65 que en cualquier otro intervalo de clase".
El valor modal de este intervalo de clase se puede estimar gráfica-
mente en una distribución continua, dibujando una curva suavizada a
través del histograma, de tal manera que el área que la curva quita
a cada barra sea casi igual al área añadida a esa barra por dicha curva. POI
lo tanto, la moda es el valor de X que corresponde al máximo de la curva"
de frecuencias. Así, en la figura 2-6 el precio modal del puré de papa es
alrededor de $4.57 por kilogramo.
También se usan las fórmulas de interpolación para localizar una moda
de valor único dentro del intervalo modal." Más fácilmente, el punto
medio del intervalo modal podría tomarse como representativo de la moda,
pero esto sólo es recomendable cuando los valores se concentran cerca
de este punto. Por lo general, una estimación "de valor único" de la
moda no es exacta ni tampoco necesaria en la práctica. En los casos rela-
tivamente raros en los que se necesita la moda, usualmente basta citar el
intervalo modal.
El intervalo modal, en sí mismo, es sólo una estimación poco apro-
piada; depende de la elección de los límites de clase. Un agrupamiento
diferente de los datos en otros intervalos de clase producirá diferentes
valores del intervalo modal. Por lo tanto, el valor modal y el intervalo
modal sólo deben usarse cuando el problema requiere específicamente
del valor más usual o más común como promedio, y no el valor central
o el valor medio.
5 Véase Spurr, Kellogg, y Smith, Business and Economic Statistics (primera
edición, Homewood, IIl.: Richard D. Irwin, 1954), pág. 208-210, para una des-
cripción de los métodos más usuales.
¿Cuál promedio utilizar? 73

¿ CUÁL PROMEDIO UTILIZAR?


Gran parte de este capítulo se ha dedicado al estudio de los métodos
de cálculo de los diversos tipos de promedios. En el curso de las explica-
ciones, se han expuesto las características distintivas de las medidas con
cierto detalle, pero en forma incidental. A estas alturas, el lector podrá
preguntarse: "¿ cuál de estas medidas debo usar?"
Estas preguntas no se pueden contestar con una respuesta sencilla. La
selección del promedio apropiado depende de tres factores principales:
1. El concepto del valor típico que se requiera en el problema. ¿ Se nece-
sita un promedio compuesto por todos los valores absolutos o relativos
(media aritmética o media geométrica), o bien, se requiere un valor
central (mediana) o el valor más común (moda)?
2. El tipo de datos disponibles. ¿ Están distribuidos con mucha asimetría
(evitar la media)? ¿ Son muy escasos en 'la parte central (evitar la
mediana)? ¿ O carecen de un punto principal de concentración (evitar
la moda)? En particular, la elección entre la media aritmética y la
mediana de una muestra depende de la forma de la curva de frecuen-
cias que forme la población. Haciendo referencia a la figura 2-7, si la
distribución es normal (panel A), o si es de punta achatada con pocos
valores extremos (panel R, curva inferior), la media aritmética tiene
un error de muestreo más pequeño que la mediana. Es decir, que la
media de la muestra es mucho más parecida a la verdadera media de
la población. Por otro lado, si la distribución tiene forma picuda
alrededor de la mediana o inbluye algunos valores extremos (panel B,
curva superior) la mediana tiene un error de muestreo más pequeño
que la media aritmética. Esto se debe a que el agrupamiento alrededor
de la mediana de l~ población hace que la mediana de la muestra
sea más exacta, y los valores extremos pueden hacer que la media
de la muestra varíe mucho.
3. Las particularidades o características de los promedios mismos. Esto
se resumirá más adelante, bajo el título de "Características de los
promedios".
Corno una regla práctica, la media aritmética debe usarse general-
mente corno promedio simple y ampliamente comprendido, que da la
ponderación debida a todos los valores. Es deseable recurrir a una media
modificada cuando las cifras son muy escasas en número o su valor es
muy variable. Comúnmente, la mediana se prefiere a la media si se re-
quiere un valor central simple, particularmente si los datos son muy asimé-
tricos, tal como en las mediciones económicas más comunes. Finalmente, la
moda se puede usar cuando se desea el valor más común o más usual.

CARACTERíSTICAS DE LOS PROMEDIOS


La media aritmética, la mediana y la moda tienen el mismo valor
en una distribución "normal" simétrica. Si la distribución es asimétrica,
74 Promedios

RELACIONES EXISTENTES ENTRE LA MEDIA ARITMETICA, LA MEDIANA Y LA


MODA EN UNA DISTRIBUCION ASIMETRICA POSITIVA

Bajo el
piCO de la curva

Figura 3-1

el valor modal queda debajo del punto más alto de la curva, la media
aritmética se desplaza en la dirección de los valores extremos de la dis-
tribución y la mediana, en la cual influye el número de cifras extremas
pero no su valor, tiende a quedar errtre la media y la moda."
La figura 3-1 muestra las relaciones existentes entre la media aritmé-
tica, la mediana y la moda, en una distribución asimétrica positiva, que
es el tipo más común de distribución de datos de economía, comercio
e industria. Aquí, la media aritmética es el valor más grande y la moda el
más pequeño. Así, en 1971, el ingreso medio de las "personas no relacio-
nadas" fue $4,774, mientras que la mediana fue $3,316 y la moda sólo
cerca de $1,640, de acuerdo a la revista Consumer Income de julio de
1972 del Census Bureau. La media es el valor X del centro de gravedad.
O sea que, si el área bajo la curva fuera una pieza sólida de metal,
quedaría balanceada en un punto de apoyo colocado bajo X. La mediana
divide en dos partes iguales al área bajo la curva (o sea, la frecuencia
total). La moda es el valor de X que queda debajo del punto más alto
de la curva.
Las características de cada una de las medidas de los promedios se
listan a continuación.

Media aritmética
l. La media aritmética es el promedio más ampliamente conocido y
usado.
2. Sin embargo, es un concepto artificial, ya que puede no coincidir
con ningún valor real.
3. En ella influye el valor de cada cifra, pero

6 La mediana cae aproximadamente a un tercio del camino entre la media y la


moda en una distribución continua con asimetría moderada.
Resumen de fórmulas 75

4. Los valores extremos pueden influirla demasiado.


5. Se puede calcular a partir de los datos originales sin formar un arreglo
o distribución de frecuencias, o a partir del valor total y el número
de cifras.
6. Como se determina mediante una fórmula rigurosa, también sirve para
tratamientos algebraicos subsecuentes mejor que la mediana o la moda.
7. En una distribución normal o en una de punta achatada los errores
de muestreo influyen menos en ella que en la mediana.

Mediana
1. El concepto de mediana es sencillo -fácil de entender y calcular.
2. En ella influye el número, pero no por el valor, de las cifras extremas.
3. Es ampliamente usada en distribuciones aritméticas, en las que la media
aritmética se distorsionaría por los valores extremos.
4. Se puede localizaren una distribución de extremos abiertos o en una
en que los datos se pueden clasificar y ordenar, pero no medir, cuan-
titativamente.
5. No es confiable si los datos no se agrupan en el centro de la distri-
bución.
6. La mediana tiene un error de muestreo menor que la media cuando
los datos se agrupan marcadamente en el centro o si existen valores
anormalmente grandes o pequeños.

Moda
1. La moda puede calcularse mucho mejor a partir de una distribución
de frecuencias, a menos que haya un valor que predomine notable-
mente.
2. Se puede localizar en distribuciones de extremo abierto, ya que no la
afectan el número ni el valor de la cifra de las clases más extremas.
3. La moda es muy variable cuando hay pocos valores a una frecuencia
en zigzag, particularmente si hay varias modas o picos.
4. En ella influyen la selección arbitraria de los límites de clase y los
intervalos de clase.

RESUMEN DE FóRMULAS

Ya que las características de las diferentes medidas de tendencia central


se han resumido anteriormente, el presente capítulo se puede concluir
listando las principales fórmulas citadas:
76 Promedios

Tipo de medida de
tendencia central Datos no agrupados Datos agrupados
_ ~X _ "2:.fX
Media aritmética .. X = -- x=-
n
n
....:. i2:.fd
= X a + -_.-
n
i(n/2 - F)
Mediana Valor N? n/2 + 1/2 en un arreglo Md=L+---
f
Moda El valor más común Igual

PROBLEMAS
l. U n método para ahorrar dinero regularmente es el de comprar acciones
comunes a intervalos periódicos. ¿ Será la mejor política la de comprar el
mismo número de acciones en una compañía cada año o la de invertir una
cifra constante cada año, independientemente de cuál sea el precio de la
acción?
He aquí un ejemplo: durante los años 1966-70 la persona A compra
7 acciones de DuPont y 25 acciones de Dun y Bradstreet a un precio pro-
medio, aproximadamente, entre el .más alto y el más bajo del año (listados
a continuación) en cada una de esas empresas, al mismo tiempo y a los mis-
mos precios; los resultados que obtuvo se detallan en la tabla. Las acciones
DuPont declinaron mientras que las de Dun y Bradstreet aumentaron en precio
en ese período (los precios mostrados son promedios anuales).

COMPRAS DE ACCIONES COMUNES REALIZADAS POR LA PERSONA B


DuPont Dun y Bradstreet

Precio Acciones Precio Acciones


por compra. Inversión por compra. l noersió n
Año acción das total acción das total

1966 $193 5 $ 965 $ 30 33 $ 990


1967 163 6 978 38 26 988
1968 163 6 978 44 23 1,012
1969 133 8 1,064 50 20 1,000
1970 113 9 1,017 51 20 1,020
Total $765 34 $5,002 $213 122 $5,010

Se pide lo siguiente:
a) Determine el costo promedio por acción para la persona A (compra
siempre el mismo número de acciones) y para la persona B (invierte siem-
pre la misma cantidad de dinero), en tipo de acción.
b) ¿ Qué persona consiguió el costo promedio más bajo para DuPont? ¿ Cuál
para Dun y BradstreetP
c) Explique estas diferencias en términos de las ponderaciones utilizadas para
calcular esos promedios.
2. Hay un método de inversión en acciones, que consiste en invertir el mismo
monto de dinero cada mes en un número variable de acciones comunes. Así,
Problemas 77

con $50 se comprará una aceren que se esté vendiendo a $50 por acción en un
mes, pero alcanzará para comprar dos acciones de capital que se estén ven-
diendo a $25 al mes siguiente. Según estas cifras, las tres acciones costaron
$100, o sea, un promedio de $33.33 cada una, mientras que el precio pro-
medio del mercado ha sido de $37.50 en esos dos meses [(50 + 25) + 2],
independientemente de que el mercado haya subido o bajado. Explique esta
anomalía aparente en función de los dos tipos de medidas de tendencia
central representadas.
3. Una persona tiene 3 acciones de las .que recibe los siguientes dividendos en
1972 y 1974:

1972 1974
--:--"--------,-. ----~--~---------

Rendí- Rendi-
Capital Inversión Dividendo miento Inversión Dividendo miento
.... ----""-----_.__ .._-,- -
A .. ......~
$ 8,000 $ 480 6% $ 5,000 $300 6%
B .... ... . . 5,000 200 4 12,000 480 4
C ......... 6,000 480 8 2,000 160 8
Total $19,000 $1,160 $19,000 $940
Rendimiento promedio 6.11% 4.95%

a) ¿ Cómo se han obtenido los rendimientos promedio?


bo) Dado que no han cambiado los rendimientos de ninguna de las acciones
¿ cómo explica usted la disminución ocurrida en el rendimiento promedio?
4. Una empresa tiene 200 ejecutivos que reciben $500 por semana y 800 tra-
bajadores que reciben $200 por semana. En tiempo de depresión temporal,
todos los salarios y jornales se rebajan 20% y 600 de los 800 trabajadores
son despedidos. Sin embargo, el departamento de relaciones públicas da a
conocer una declaración en el sentido de que el salario promedio ha aumen-
tado. Explique por qué sucede esto.
5. Del capítulo 2, problema '17 (sobre el sueldo de las empleadas de una planta) :
a) Obtenga la media aritmética de la distribución de frecuencia. (Indique
todas las operaciones que realiza en éste y en los problemas síguientes.}
Analice los errores de agrupamiento que influyen en este valor.
b) Encuentre la mediana de los datos originales y de su distribución de fre-
cuencia. Si estos valores difieren, explique por qué.
e) ¿ Qué revela la comparación de la media y la mediana acerca de la forma
de la distribución?
d) Encuentre el intervalo modal. ¿ Cuál de los tres promedios es más signi-
ficativo en este caso? ¿ Por qué?
6. a) Obtenga el salario promedio inicial ofrecido a egresados de carreras pro-
fesionales; vea el capítulo 2, problema 14, en cualquiera de los cinco
campos que se haya asignado.
a b) ¿ Es esta media más o menos -exacta que la que se calculó a partir de los
datos originales no agrupados? ¿ Por qué?
7. a) Obtenga la mediana de los salarios iniciales del campo que se haya anali-
LI
zadc en el problema anterior (problema 6).
a
b) Indique el intervalo modal de ese mismo campo.
e) Explique la diferencia de significado que hay entre estos dos promedios.
d) Si se hubieran agrupado los últimos cuatro intervalos de clase en una
o sola clase, designada "$840 o más", ¿qué medida o medidas se hubieran
:Í, modificado, la media, mediana o moda? ¿ Por qué?
78 Promedios

8. En Estados Unidos se registró la duración de 11 fluctuaciones cíclicas co-


merciales ocurridas entre 1919 y 1970. Dichas fluctuaciones se midieron desde
un punto mínimo hasta el siguiente y se obtuvieron períodos de 28, 36, 40,
64, 63, 88, 48, 58, 44,. 34 y 117 meses, respectivamente, de acuerdo con The
National Bureau of Economic Research,
a') Calcule la media y la mediana para estos períodos.
b) ¿ Cuál de esos promedios es preferible? ¿ Por qué?
e) ¿ Cuál es la dificultad de calcular la moda de estas tres cifras?
9. Para llevar a la práctica una nueva ley de trabajo que especifica el salario
mínimo por hora y el número máximo de horas semanales de trabajo, es
deseable que el número de horas semanales se estandarice en unos 250 esta-
blecimientos de esta zona, en los que actualmente se trabaja en condiciones
similares, salvo en lo referente al número de horas semanales de trabajo. ¿ Cuál
debería ser el número estándar de horas a) si se quiere mantener fijo el
número total de horas semanales de trabajo y b) si se desea que los estable-
cimientos que cambien sus condiciones actuales sean los menos posibles?
10. La U-Fix Stores era una cadena de 81 tiendas de abastecimiento para edifi-
cios y reparaciones de casas en el noroeste de los Estados Unidos. En un año
reciente, la distribución de las ventas anuales para esas tiendas fue:

Ven/as anuales Número de


(miles de dólares) tiendas

Menos de 100 ...•.................. 8


100 Y menos de 200. . . . . . . . . . . . . . .. 32
200 y menos de 300. . . . . . . . . . . . . . . . 18
300 Y menos de 500.. . . . . . . . . . . . . .. 16
500 y menos de 1,000 6
más de 1,000 .;..................... 1
Total ;.;.............. 81

La tienda más pequeña tuvo ventas anuales de cerca de $50,000 y la más


grande, ventas de cerca de $1.600,000.
Calcule las ventas medias por tienda.
a) Estime las ventas anuales totales para las 81 tiendas de ventas al detalle.
b) Calcule las ventas medianas por tienda.

11. Teniendo a la vista las dimensiones de los 63 engranes de la tabla 2-3 pá-
gina 39:
a) ¿ Es ésta una distribución discreta o continua? ¿ Es simétrica o asimétrica
a la derecha o asimétrica a la izquierda?
b) Encuentre la media y la mediana aproximándola a 0.0001 de pulgada.
Exprese los datos como desviaciones de un número promedio de .4250
para simplificar los cálculos.
e) Para una distribución de esta clase ¿ qué tipo de promedio es usualmente
el mejor estimador del valor correspondiente en la población? ¿ Por qué?
12. En el problema 18 del capítulo 2 se presenta la distribución de ingresos
familiares en 1971. El ingreso promedio se indicó que era de $11,583 en
ese año.
a) Estime el ingreso mediano. ¿ Cuál es su significado?
ir) Indique el intervalo modal.
e) Explique por qué media, mediana y moda difieren tan ampliamente
en su valor. ¿ Cuál es la mejor medida del ingreso familiar típico? ¿ Por
qué?
Problemas 79

13. En su reporte respecto al espesor de 200 hojas de tablillas de aislamiento de


Ya de pulgada utilizadas en transformadores de potencia, usted desea incluir
una declaración acerca del ancho promedio de las 200 hojas listadas en el
problema 19 del capitulo 2. (Las lecturas del micrómetro se tomaron al
0.001 de pulgada más cercano.)
a) Calcule la media aritmética, utilizando el método más corto posible. Ex-
plique por qué escogió la fórmula que utilizará.
b) Estime el espesor mediano al cienmilésimo de pulgada más aproximado,
e) De las medidas anteriores, ¿ concluiria usted que el espesor promedio de
este embarque es menor o mayor que la especificación del fabricante de Ya
de pulgada o 125 milésimos?

14. En un estudio de los hábitos de compra de los clientes de un supermercado,


se han recopilado las compras de 15 clientes durante el mes pasado. Se tabu-
laron esos datos según la tabla que se muestra a continuación, con el mayor
número y valor de las compras que hicieron esos clientes durante julio de 1973.

Visitas durante CasIo prom.dio


el mes Gasto lotal por visita
Cli.nt. (1) (2) (3)

1 20 $ 62 $ 3.10
2 10 54 5.40
3 7 40 5.70
4 11 64 5.80
5 8 48 6.00
6 12 74- 6.20
7 10 76 7.60
8 9 74 8.20
9 8 69 8.60
10 9 83 9.20
11 9 105 11.70
12 7 94 13.40
13 5 72 14.40
14 4 65 16.20
15 6 100 16.70
Total 135 $1,080 $138.20

En el proceso de análisis, se desarrollaron varios puntos de vista diver-


gentes acerca del "promedio" correcto con que describir esos datos. Un
analista decía que el tamaño promedio de cada compra es de $8.00 (es decir,
$1,080/135'); otro analista decía que, más bien, la cifra apropiada era $9.21
(o sea, $138.20/15); y un tercero afirmaba que la mediana era la cifra
apropiada y seleccionó $8.20 (el valor central en la columna 3): un cuarto
analista decía que también había escogido la mediana y selecciona $6.20 (la
visita central o 6Bava en la columna 1, la cual queda en la sexta hilera con
una compra promedio de $6.2(}).
¿ Cuál cifra cree usted que es la apropiada? ¿ Por qué?

15. En el capítulo 2, problema 20:


a) Calcule el rendimiento medio en millas por galón.
b) Interpole para estimar la mediana del millaje,
e) ¿ Qué indica la diferencia entre la media y la mediana acerca de la asi-
metría de esta distribución?
80 Promedios

16. La edad de 100 refrigeradores que hemos recibido a cambio de modelos nue-
vos, de acuerdo con un análisis reciente, es la siguiente:

Número de
Años refrigeradores

O y menor que 1 .. , . 10
1 y menor que 2 . 19
2 y menor que 3 ............•....... 26
3 y menor que 4 . 18
4 Y menor que 5 . 13
5 y menor que 6 . 8
6 y menor que 7 ...•................ 3
7 y mayor .....•.................... 3*
Total . 100
* La edad promedio de los refrigeradores de este último intervalo de 1~ años.

a) ¿Cuál es la media aritmética de las edades de estos 100 refrigeradores?


b) Estime la edad mediana de los refrigeradores, redondeándola al año más
aproximado.
17. Una empresa de transportes lleva estadísticas, desde hace varios años, del
rendimiento de dos marcas de llantas. Se han obtenido los siguientes resultados:

Llanta Mediana, en millas Media, en millas


A 25,000 27,000
B 27,000 25,000

Suponga que las dos llantas se venden al mismo precio, ¿qué marca reco-
mendaría usted al negocio de transportes? ¿ Por qué?
18. La Compañía U.B. Glad maneja una pequeña refinería que vende gasolina
al por mayor, a minoristas independientes. Las ventas de la semana pasada
fueron las siguientes:

Galones de gasolina Número de


(en miles) operaciones

O y menos que 10 .. e 10
.....................

10 y menos que 20 ........... ....


. . . . . 20
20 y menos que 30 .... - .................. 30
30 y menos que 40 ...... ' .............. 25
40 y menos que 50 ..................... 15
50 y menos que 60 ..................... 10
60 y menos que 70 .... - .................... 5
70 y menos que 80 ..... - .................... 5
Total ...................................... 120

a) A partir de esta distribución de frecuencias, calcule el número total de


galones vendidos la semana pasada.
b) Determine la media de los galones vendidos en cada operación.
e) ¿La moda se encuentra por arriba o por abajo de los 25,000 galones?
¿ Cómo lo sabe?
d) Calcule la mediana de las ventas.
Problemas 81

19. El presidente de una empresa afirma que las acciones de la compañia se


encuentran ampliamente distribuidas. Para ilustrar su punto de vista, ha
presentado la siguiente distribución de frecuencias:

Propietarios de
Acciones en acciones
propiedad (miles)

1-10 •............................ 10
11-20 .................•........... 18
21-50 20
51-100 12
101-500 ...•...•.................... 4
501-1,000 2
Mayor de 1,000* .....•.............• 1
67
* El número promedio de acciones por accionista, en este intervalo, es de 2,500 acciones.

a) ¿ Está usted de acuerdo con la afirmación del presidente de esta empresa?


¿Por qué?
b) ¿ Cuál es el número promedio de acciones por accionista? ¿ Cuál es el
número mediano de acciones por accionista?

BmUOGRAFIA

La bibliografía seleccionada par,\ este capítulo se incluye en la lista


de la página 108.
CAPITULO 4
Dispersión

En los dos capítulos precedentes, se ha centrado la atención en dos


métodos básicos para describir un conjunto de datos: primero, la distri-
bución de frecuencias, que agrupa un gran número de valores en pocas
clases; segundo, el promedio al que resume el valor típico. Este capítulo
describe otras medidas estadísticas necesarias para mostrar cómo varían
los datos alrededor del promedio, ya que esta variación es a veces tan im-
portante como el mismo promedio.
Hay cuatro características importantes de una distribución de valores
que pueden ser descritas por medidas estadísticas sumarias:

1. Promedio: el tamaño típico;


2. Medida de dispersión: la variabilidad, amplitud o dispersión;
3. Asimetría: la asimetría o concentración hacia un extremo;
4. Curtosis: agudeza de la punta o influencia relativa de las desviaciones
extremas.

Estas cuatro características se ilustran en la figura 4-1 por medio de


curvas de frecuencias suavizadas. Una curva de frecuencias, como se defi-
nió en el capítulo 2, representa la distribución de frecuencias de una
población de datos continuos, en la que el área bajo cualquier segmento
de la curva corresponde al número de valores en ese intervalo. La figu-
ra 4-1 se ha trazado de !al modo que el área total bajo cada curva es
la unidad, y el área en cualquier intervalo es igual a la frecuencia relativa
de ese intervalo.
Suponga que estas curvas representan la distribución de tasas de salario
en una gran fábrica. El cuadro 1 muestra que los salarios en el departa-
mento A son en promedio menores que los del departamento B, aunque
ambos tienen la misma dispersión. En el cuadro 2, el departamento A tiene
una variación más amplia (dispersión) de salarios que el departamento B,
aunque en ambos el promedio es el mismo. Las curvas en ambos cuadros
son simétricas y normales. El cuadro 3 ilustra la asimetría. En este cuadro
la mayoría de los salarios del departamento A se encuentran cerca de la
83
1. El promedio es pequeoo (A) o grande (B)

I
r-. \
\
\
\
\
\-
\
\
\
\
\,
\
\
"' ..
2. La dispersi6n esamplia (A) o reducida (B)
.,,-------------------,

o L-_ _"""'a.::...- ....::::......:::-_ _...JJI


3. la asimetrla es positiva (A) o negativa (B)

,,,.,\\
\
\-\
\
\
I
\
\
I ,
o x
4. la curtosis esaguda (A). de punta achatada (B) o normal (e)

o JI
CUATRO MEDIDAS SUMARIAS DE UNA DISTRlBUCION DE FRECUENCIAS
Figura 4·1
Propósitosde la medición de la dispersión 85

tasa mínima, aunque algunos son mucho mayores que los demás (la asime-
tría es positiva o hacia la derecha) ; mientras que en el departamento B
la mayoría de los salarios se encuentra cerca del máximo (la asime:ría
es negativa o hacia la izquierda). Finalmente, el cuadro 4 muestra dife-
rentes tipos de curtosis en tres distribuciones simétricas que tienen el mismo
promedio y la misma dispersión (medida por la desviación estándar, que
se explicará más adelante). La distribución en el departamento A es picu-
da, ya que la mayoría de los trabajadores reciben más o menos la misma
tasa, y hay pocos salarios muy altos o muy bajos; la distribución en el
departamento B es achatada, indicando que los salarios típicos cubren un
rango más amplio con menos desviaciones extremas; y en el departamento
e la distribución es normal, como si hubiese sido determinada al azar.'
Los promedios y las medidas de dispersión son las más importantes de
estas cuatro clases de medidas estadísticas sumarias. En este capítulo, la
dispersión se describe con mucha amplitud y la asimetría brevemente.
La curtosis se omitirá, salvo por algunas referencias no técnicas, con res-
pecto a los efectos de desviaciones extremas.

PROPOSITOS DE LA MEDICION DE LA DISPERSION

La dispersión es la variabilidad o diseminación de un conjunto de


valores. Las medidas de dispersión se necesitan para dos propósitos básicos:
1) para verificar la confiabilidad de los promedios y 2) para que sirva
como base para el control de la variación misma.
Para ilustrar el primer objetivo, suponga que el analista de una com-
pañía está tratando de calcular el costo de la vida en una gran ciudad,
como factor para determinar si los salarios se deben aumentar. Si encuentra
que en cinco estaciones de servicio seleccionadas al azar el precio de la
gasolina de graduación estándar varía entre 40.9 y 41.9 centavos por
galón, tendría razón de usar la media de únicamente cinco precios, digamos
41.2 centavos, para representar el precio de la gasolina. Esto es, la media
de 5 precios representa fielmente el precio de cualquier estación de ser-
vicio, y proporciona una estimación exacta del precio promedio de todas
las gasolinas de graduación estándar que se venden en la ciudad. Por
otro lado, los precios de cierto tipo de vestidos de mujer podrían variar
de 19.95 dólares a 34.95 dólares, en cinco tiendas de departamentos. La
media aritmética de tan pocos precios sería muy lJoco confiable para calcu-
lar el precio promedio de todos los vestidos en la ciudad, y se necesita
agregar una medida de dispersión para darnos cuenta de este hecho. Por
lo tanto, en la mayoría de los casos, para resumir datos como los ante--
riores se deben presentar tanto un promedio como una medida de dis-
persión.

1 Las curvas A, B y e se denominan leptocúrtica, platicúrtica, y mesocúrtíca,


respectivamente.
86 Dispersión

Cuando la dispersión es pequeña, el promedio es un valor típico en


razón de que representa fielmente los valores individuales, y es lo sufi-
cientemente confiable para que sea un buen estimador del promedio
correspondiente de la población. Por otra parte, cuando la dispersión
es grande, el promedio no es tan típico y, a menos que la muestra sea
mu~ grande, el promedio de los datos puede ser poco confiable (ver el
capítulo 9). ,
El segundo objetivo básico que se pretende al medir la dispersión es
el de determinar la naturaleza y las causas de la variación para controlar
la variación misma. En el campo de la salud, las variaciones en la tem-
peratura del cuerpo, el ritmo del pulso y la presión sanguínea son guías
básicas para el diagnóstico. Se diseña un tratamiento de prescripción
para controlar su variación. En la producción industrial, la operación
eficiente requiere control de la variación de la calidad, cuyas causas son
buscadas por medio de programas de inspección y de control de calidad.
Así, la medición de la dispersión es básica para controlar las causas de
variación.
Las medidas de dispersión más usuales son:' 1) la amplitud, 2) la
desviación cuartílica, 3) la desviación media y 4) la desviación estándar.
Estas medidas son análogas a los promedios descritos en el capítulo 3,
tanto en sus características como en sus métodos de cálculo.

LA AMPLITUD
La amplitud es simplemente la diferencia entre el mayor valor y el
menor de una variable. Para los precios de gasolina, que varían de 40.9
a 41.9 centavos por galón, la amplitud es de un centavo. La amplitud
se calcula fácilmente en una lista de datos originales, pero no se puede
determinar exactamente en una distribución de frecuencias, sin conocer
los valores mayor y menor de las clases extremas.
Algunas veces, la amplitud se indica meramente citando las cifras de
los valores mayor y menor. Las cotizaciones de precios de acciones indican
el valor más alto y más bajo del día. Los. reportes del tiempo marcan
las temperaturas máxima y mínima. Si los valores alto y bajo no están
muy separados de los demás, como en estos casos, la amplitud puede ser
una buena medida de dispersión. En particular, ésta es la medida básica
de variabilidad que se utiliza en el control de calidad, tal como se des-
cribe en el capítulo 10.
Sin embargo, si los dos extremos son erráticos, la amplitud no es
confiable sino más bien confusa, porque no da mm idea clara de la dis-
persión de los valores intermedios. Por ejemplo, en la distribución de
precios pagados por automóviles, la amplitud se podría extender desde un
Rolls Royce de $20,000 a un jeep usado de $800; y esto daría poca infor-
mación acerca de la variación de los precios pagados por los compradores.
En general, si la población contiene unas pocas desviaciones extremas, la
amplitud obtenida de una muestra al azar es menos confiable que cual-
La desviación cuartüica 87

quier otra medida de dispersión. Por estas razones, no se recomienda


la amplitud como medida de dispersión para uso general.
La influencia de las desviaciones extremas en una medida de dis-
persión, se puede reducir excluyendo una proporción especificada de
valores a cada extremo de la lista de valores, y usando la amplitud de los
valores centrales restantes como medida de dispersión. La más simple
y útil de esas medidas se basa en los cuartiles, como se explica a con-
tinuación.
LA DESVIACION CUARTILICA
Los cuartiles son los tres puntos (valores) que dividen un ordena-
miento de datos o una distribución de frecuencias en cuatro grupos
aproximadamente iguales." Esto es, el primer cuartil, Q¡, separa la cuarta
parte menor valuada del número total de valores de la segunda cuarta par-
te; el segundo cuartil, Q2 (llamado mediana), separa la segunda cuarta
parte de la tercera, y el tercer cuartil, Q.,., separa la tercera de las partes
de la última. Consecuentemente, la amplitud cuartílica, Q3 ,... Q., incluye
la mitad central de las cifras. La desviación cuartílica, Q, es la mitad
de esa amplitud. O sea:

Los cuartiles se utilizan ampliamente como medidas de dispersión. Por


ejemplo, Dun's reporta las medianas y cuartiles de 14 razones de opera-
ción en cada uno de 32 tipos de empresas de ventas al mayoreo. Así, los
cuartiles de ganancias netas respecto a capital de trabajo neto de 199
abarroteros mayoristas en 1970 fueron 4.43 y 17.90%, comparados con
la mediana de 8.67%.3 Esto significa que mientras el abarrotero que
vende al por mayor "típico" tenía una ganancia de 8.67% respecto al
capital de trabajo neto, cerca de un cuarto de las empresas ganaban
menos que 4.43% y un cuarto ganaban más de 17.90%, indicando. una
distribución muy amplia de rentabilidades en este campo. En forma
parecida, la publicación M anagement Record de la Na tional Industrial
Conference reporta la mediana y salarios cuartílicos para varias ocupa-
ciones por ciudades.

Datos no agrupados
Los curtiles primero y tercero se obtienen de una lista de valores en la
misma forma como se calcula la mediana (segundo cuartil). Son los
2 Los grupos rara vez son exactamente iguales, por las razones descritas bajo
la mediana y porque pocas veces ocurre que n es un múltiplo de 4.
Algunas veces, el término "cuartil" se aplica a un rango entero de valores y
no a un punto. Así, podría decirse que una calificación se clasifica "en el cuartil
superior" (o sea, entre el valor máximo y el punto superior de partición del cuartil).
Sin embargo, tal rango, se debe denominar "el cuarto superior" para evitar con-
fusión con "cuartil", que debe referirse solamente a un punto.
3 Dun's octubre 1971, págs. 64-65.
88 Dispersión

valores cuyos rangos o número de orden son n/4 + 1/2 y 3n/4 + 1/2,
respectivamente, contando a partir del valor más bajo. Los números de
orden fraccional se interpolan entre los valores vecinos de la lista de valores.
En el caso de los ingresos por hora correspondientes a los 214 opera-
dores de máquinas-herramienta listados en la tabla 2-4, el valor de Ql
corresponde a los ingresos cuyo orden relativo es menor a 214/4 + 1/2, o
sea 54. Esto significa que el primer cuartil corresponde al 54avo. hombre,"
a partir del de menores ingresos, que es el hombre intermedio de la mitad
de operadores que reciben los más bajos salarios. De manera similar, el
valor de Q:. son los ingresos del trabajador que se encuentra en el 161avo.
lugar a partir del que tiene menores ingresos, (o alternativamente el
54avo. a partir del que tiene ingresos más altos) y éste es el hombre inter-
medio de la mitad de los operadores que reciben los salarios más altos.
Los valores de Q, y Q;; resultan ser 2.50 dólares y 2.70 dólares, respec-
tivamente, a partir de los datos no agrupados de la tabla 2-4. Esto significa
que alrededor de una cuarta parte de los operadores gana menos de
$2.50, una cuarta parte excede de $2.70, y la mitad central queda entre
ambos valores. La desviación cuartílica es por lo tanto (2.70 - 2.50) -;- 2,
o sea $0.10.

Datos agrupados
Los cuartiles se pueden calcular a partir de una distribución de fre-
cuencias por medio de estas fórmulas que son análogas a las de la mediana:
i(n/4 - F) i(3n/4 - F)
Q, =L+ - Q,=L+ f
f
en que L es el límite inferior del intervalo de clase que contiene al cuartil;
i es la amplitud de esa clase; f es la frecuencia en esa clase; F es la fre-
cuencia acumulada hasta esa clase; y n es el número total de valores. En
estas fórmulas, se supone que los valores de X se encuentran diseminados
uniformemente sobre cada intervalo, al igual que como se ha explicado
en relación con la mediana.
Para los ingresos de los operadores de máquinas-herramienta agrupa-
dos en la tabla 4-1, Ql, el 54avo. valor, corresponde .al tercer intervalo
(L = $2.45, f = 49, F = 25); Y Q" el 161avo. valor, queda en el quinto
intervalo (L = $2.65, f = 45, F = 137). Por lo tanto,
Q, = 2.45 + .10(53.5 - 25) -é- 49
= 2.45 + .10(.58)
= 2.508 dólares por hora
Q;; = 2.65 + .10(160.5 - 137) -;- 45
= 2.65 + .10(.52)
= 2.702 dólares por hora
4 Si hubiera 215 operadores, Ql tendría un valor de 215/1 + 1/2, o sea 54}:4,
y esto es un cuarto de la distancia de los ingresos del 54avo. hombre a los del 55avo.
hombre contando a partir del valor mínimo.
La desviaciónmedia 89

Tabla 4-1
INTERPOLACION DE LOS CUARTlLES EN UNA DISTRIBUCION
DE FRECUENCIAS
Ingresos por hora de 214 aprendices de operadores
de máquinas-herramienta

Límite inferior Número en Número de los Localización


de la clase la clase que ganan menos de los
(L) (f) (F) cuartiles

$2.25 2 O
2.35 23 2
2.45 49 25 QI = N" 54
2.55 63 74
2.65 45 137 Q3 = N" 161
2.75 25 182
2.85 3 207
2.95 4 210
3.05 O 214
Total 214

La desviación cuartílica es entonces (2.702 - 2.508) -+- 2 = 0.194 dó-


lares por hora, y la desviación cuartílica es la mitad de esa cifra o sea
.097 dólares por hora. Estas tres estimaciones se aproximan bastante a
los valores exactos que ya fueron obtenidos a partir de los datos no
agrupados.
Los cuartiles se pueden localizar gráficamente en una curva de fre-
cuencias acumuladas u ojiva en forma semejante a la mediana.
Los cuartiles no son -afectados relativamente por desviaciones extre-
mas. Por otro lado, su exactitud depende del grado de concentración de
los valores en los cuartiles de la población de la cual se tomará la muestra.
En particular, si en la población no hay valores alrededor de los cuartiles,
la desviación cuartílica es poco confiable como medida de dispersión. Otras
medidas posicionales de dispersión incluyen los deciles, que dividen los
datos en 10 grupos iguales, y los porcentiles, que dividen los datos en 100
grupos iguales. Esos valores se calculan e interpretan en la misma forma
que los cuartiles.
Las medidas de dispersión que se tratan a continuación difieren de la
desviación cuartílica en que toman en cuenta la desviación de cada valor
de la serie respecto al promedio de los valores.

LA DESVIACIÜN MEDIA
La desviación media, o desviación promedio, es exactamente lo que
su nombre indica. Es simplemente la media aritmética de los valores abso-
lutos, las desviaciones de todos los valores en relación con algún punto
central, tal como la media aritmética o la mediana. Las desviaciones se
90 Dispersión

deben promediar como si fueran todas positrvas, ya que la media de las


desviaciones positivas y negativas sería igual a cero (si se midiera a
partir de la media), o muy cercana a cero. La desviación media debería
medirse, teóricamente, a partir de la mediana ya que así es más pequeña,
pero usualmente es más práctico medir las desviaciones a partir de
la media, como se describe a continuación. Existe poca diferencia en los
resultados que se obtienen con uno u otro método.
La desviación media es una medida concisa y simple de variabilidad. A
diferencia de la amplitud y de la desviación cuartílica, toma en cuenta
cada elemento, y es más simple y se ve menos afectada por las desvia-
ciones extremas que la desviación estándar, que se describirá en la siguiente
sección. Por lo tanto, se usa a menudo en muestras pequeñas que incluyen
valores extremos.

Datos no agrupados
La fórmula para la desviación media (medida a partir de la media
aritmética) en un conjunto de datos no agrupados es:

DM = ¡IX - XI
·n
en que las barras verticales significan que no se toma el signo de las dife-
rencias, o sea que se suman las desviaciones absolutas de la media, y ¡ se
divide entre el número de valores (n) para encontrar la desviación me-
dia (DM).
Tabla 4-2
CALCULO DE LA DESVIACION MEDIA DE DATOS
NO AGRUPADOS
Razones "precio-utilidad" de cinco acciones
de empresas electrónicas

Desviación a
Razón precio partir de la
Acdones utilidad media
comunes (X) IX_XI
A . 19.6 0.4
B . 17.3 2.7
C . 19.2 0.8
D . 14.0 6.0
E . 29.9 9.!f
Total . 100.0 19.8
Media . 20.0 =X 4.0 = DM

La desviación media se calcula en la tabla 4-2 para las razones "precio


utilidad" de .5 acciones de empresas electrónicas, cuya media es igual a
20.0 Esto es:
¡IX = XI 19.8
DM -------'----'- = - - = 4.0
n 5
La desviación estándar 91

Esto significa que aun cuando las cinco razones "precio utilidad" pro-
mediaron 20.0, hubo una amplia variación entre ellas, ya que la desviación
promedio en relación a la media fue 4.0. Aún más, la muestra incluye
solamente cinco acciones. Por lo tanto, la razón promedio de 20.00 debe
considerarse poco confiable como estimación de la razón típica "precio-uti-
lidad" para acciones de empresas electrónicas en general, suponiendo que
hay una gran población de acciones.

Datos agrupados
La desviación media se puede obtener a partir de datos agrupados
mediante la fórmula
DM = ¡_t_IX_-_X_1
n

en que IX - XI es el valor absoluto de la desviación del punto medio de


un intervalo de clase (X) a partir de la media aritmética, y es la fre-t
cuencia en esa clase." Esta fórmula no se ilustrará aquí, ya que su uso
práctico es más bien limitado. La desviación media tiene ciertas limitacio-
nes lógicas y matemáticas, tales como no tomar en cuenta los signos posi-
tivos o negativos al promediar las desviaciones. Consecuentemente, por lo
general se usa la desviación estándar en vez de la desviación media, para
distribuciones grandes de datos agrupados.

LA DESVIACION E5TANDAR
La desviación estánd~r se encuentra 1) elevando al cuadrado las
desviaciones de los valores individuales con respecto a la media aritmética,
2) sumando esos cuadrados, 3) dividiendo la suma entre (n - 1), y 4)
extrayendo la raíz cuadrada. Igual que la desviación media, la desviación
estándar se basa en las desviaciones de todos los valores, pero se adapta
mejor a análisis estadísticos posteriores. Esto se debe parcialmente a que
al elevar al cuadrado las desviaciones se convierten todas en positivas, de
tal manera que la desviación estándar es más fácil de manejar algebraica-
mente que la desviación media. Por lo tanto, la desviación estándar es tan
importante que, de hecho, es la medida "estándar" de dispersión.

Datos no agrupados
La fórmula básica para la desviación estándar de datos no agrupados es:

5 Para un método abreviado de cómputo de la desviación media para datos


agrupados, vea Spurr, Kellogg y Smith, Business and Economic Statistics (Home-
wood, III.: Richard D. Irwin, 1954), pág. 227-228.
92 Dispersión

en que s es la desviación estándar; (X - X) es la desviación de cualquier


valor de la variable X a partir de la media aritmética X; ~ (X - X) 2 de
la suma de los cuadrados de las desviaciones; y n es el número de valores
en la muestra. Las desviaciones se pueden elevar al cuadrado más fácil-
mente refiriéndose a una tabla de cuadrados, tal como la del Apéndice
e, o a las muy detalladas tablas de Barlow.
El cuadrado de la desviación estándar (.1'2) se denomina la variancia.
Este es un concepto importante en la inferencia estadística que se con-
siderará posteriormente.
La fórmula anterior se usa comúnmente en estadística, porque propor-
ciona la mejor estimación de la desviación estándar de la población de la
que se ha tomado la muestra. Una fórmula alternativa para la desviación
r--------
estándar es V "i. (X - X) 2 / n, que mide la dispersión de la muestra misma
pero tiende a sobreestimar la dispersión de la población. Ya que, por lo
general, tomamos una muestra para estimar los valores de la población,
usaremos n - 1 en nuestras ecuaciones para s, desviación estándar mues-
tral, y tomaremos a s como un estimador de d (sigma minúscula), la des-
viación estándar de la población. Sin embargo, si se desea, n puede susti-
tuirse por n - 1; ello representa una diferencia muy pequeña cuando n
es grande, como ocurre en la mayoría de los datos económicos, comerciales
e industriales.
Para la población, u = V "i. (X - p.)2/N, donde .p. (mu minúscula en
griego) es la media de población, y N es el número de valores. Aquí, la
variancia (u 2 ) es simplemente el promedio de las desviaciones respecto
a la media previamente elevadas al cuadrado.
Para las cinco razones "precio-utilidad" de la tabla 4-3, columna 2,
se listan las desviaciones de la media (20.0) en la columna 3, y sus cuadra-

Tabla 4-3
CALCULO DE LA DESVIACION ESTANDAR
PARA DATOS NO AGRUPADOS
Razones "precio-utilidad" de cineo acciones
de empresas electrónicas

(1) (2) (3) (4) (5)


Método directo
Razones
precin-: Desriacián Método
Acciones utilidad d. la media abreriado
comunes (X) (X~X) (X _ X)' X'
:) .
A . 19.6 - .4 .16 384.16
B . 17.3 -2.7 7.29 299.29
C . 19.2 - .8 .64 368.64
D . 14.0 -6.0 :36.00 196.00
E . 29.9 9.9 98.01 894.01
Total . 100.0 0.0 142.10 2,142.Ht
Media . 20.0
La desviación estándar 93

dos en la columna 4. Su suma ¡(X - X)2 es 142.10, y n = 5 acciones. La


desviación estándar es entonces:

= -~~ = JI42.10 = 6.0


s
"n-l "4 .
Método abreviado. Aun cuando la fórmula anterior describe la
desviación estándar sucintamente, es más fácil calcularla directamente a
partir de los datos originales, sin encontrar las desviaciones de la media.
Se puede usar la siguiente fórmula con la que se obtiene exactamente el
mismo resultado que con la anterior:

s = J¡X2 - (¡Xp/n
" n-l

En la tabla 4-3, la columna 5 muestra los valores originales de X


elevados al cuadrado para el uso en esta fórmula; y las columnas 3 y 4
no se necesitan. Entonces,

~
2 , 142 . 1 0 - (100.0) 2/5 .1
s= = v 35.52 = 6.0
4

La desviación estándar es más grande que la desviación media de estos


datos. Esto siempre es cierto porque al elevar al cuadrado las desviaciones,
los valores extremos se vuelven más importantes.

Datos agrupados
En una distribución de frecuencias, el punto medio de cada clase se
usa para representar cada valor en esa clase. La fórmula básica para la
desviación estándar se convierte en:

s = J~f(X - X)2
" n - 1
en que (X - X) 2 es la desviación del punto medio de clase (X) con res-
pecto a la media aritmética y f es la frecuencia de esa clase.
En la tabla 4-4 se hace una breve ilustración. Allí se muestran los
precios de un radio de transistores en seis tiendas. El precio medio es $26.
Entonces:
------
s = J!.f(X - X)2
~~ = LIO dólares
" n - 1
94 Dispersión

Tabla 4-4
CALCULO DE LA DESVIACION ESTANDAR PARA DATOS
AGRUPADOS
Precios de un radio de transistores en seis tiendas

(1) (2) (3) (4) (5)


Precio Número de Desviación
(Punto medio tiendas de la
de la clase) (Frecuencia) media
X (X _ X) (X _X)' f(X _ X)'

24 1 -2 4 4
25 O -1 1 O
26 3 O O O
27 2 1 1 2
Total 6 6

Métodos abreviados. El cálculo se puede simplificar usando los


puntos medios de clase (X) y no su desviación (X - X) de la media
como sigue:
s = J~/X2 - (~/X)2/n
" n - 1
Estas dos fórmulas son las mismas que para los datos no agrupados,
excepto por el uso de X como el punto medio de la clase y I como la fre-
cuencia de la clase. La fórmula abreviada no se ilustrará ya que, en la
práctica, la desviación estándar de datos agrupados se calcula generalmente
por un método aún más abreviado, similar al utilizado para la media arit-
mética en el capítulo 3.
El método más corto de cálculo de la desviación estándar de datos
agrupados que tienen intervalos de clase de igual amplitud es utilizando
la fórmula:

s = i _($ld 2 - ($Id) 2/ n
, n-1

donde i es el ancho del intervalo de clase, I la frecuencia, d es la desvia-


ción de un punto medio de clase de la media supuesta en unidades de
intervalo de clase, $ld2 es la suma de I veces d2 para cada clase (no $f
veces $d2), y n es el número total de cifras.
El método se ilustra en la tabla 4-S. Las primeras 4 columnas de esta
tabla son idénticas a las utilizadas en la tabla 3-2 para encontrar la media
aritmética por el método abreviado. Los pasos se ilustran en las páginas
52 a 54. La última columna (ld2) se puede calcular multiplicando d por
fd, o sea, col. 3 X col. 4. [Este resultado no es (Id) 2.] Puesto que las d.son
enteros pequeños, por lo general las columnas. 4 yS se pueden calcular
La desviación estándar 95

Tabla 4-5
CALCULO DE LA MEDIA Y LA DESVIACION ESTANDAR DE DATOS
AGRUPADOS POR EL METOnO MAS ABREVIADO
Ingresos por hora de 214 aprendices de operadores
de máquinas-herramienta

(1) (2) (3) (4) (5)


Punto medio Desviación
de 1" clase de 1" media
(dólares) Frecuencia prouisoria
X I d Id Id'

2.30 2 -3 - 6 18
2.40 23 -2 ..,..46 92
2.50 fl 49 -1 -49 49
2.60 63 O O O
2.70 45 1 45 45
2.80 25 2 50 100
2.90 3 3 9 27
3.00 4 4 16 64
Total 214 19 395

mentalmente. Entonces los totales de columnas se sustituyen en la fórmula


como sigue:

s = i j!.fd; - (!.fd)2/ n
1 n - 1

.; .10 j395 - (19)2/214


1 213
= .10Y 1.85
= .136 dólares por hora

El resultado de esta fórmula es el mismo que para las otras dos fórmu-
las de la desviación estándar, pero los cálculos de las columnas 3, 4 y 5 son
más sencillos. En cualquier caso, la desviación estándar para datos agru-
pados es algo menos exacta que la que resulta de los datos originales, ya
que en las fórmulas que contienen f los valores en cada clase se redondean
al punto medio de la clase."

6 Las tres fórmulas para los datos agrupados serían exactas si cada valor de X
fuera igual al punto medio de su intervalo de clase. En el caso en que la concentración
de valores disminuya gradualmente a ambos lados de la media, como ocurre en una
distribución normal, es apropiado ajustarla con respecto a errores de agrupamiento,
restando i 2 -+- 12 de la variancia S2. Esta corrección se denomina Ajuste de Sheppard.
Sin embargo, este ajuste no es siempre recomendable, porque 1) cuando los puntos
principales de concentración ocurren precisamente en los puntos medios, es más
apropiada la fórmula sin ese ajuste; 2) cuando los valores de X se encuentran
96 Dispersión

Si las amplitudes de los intervalos de cIase en una distribución de fre-


cuencias son desiguales, las desviaciones de clase se deben ajustar a unida-
des uniformes (tales como el intervalo más pequeño o el factor común más
grande) con objeto de aplicar estas fórmulas abreviadas. De lo contrario,
se deben usar las otras fórmulas no abreviadas. Si la distribución tiene un
extremo abierto, no se pueden calcular ni la media ni la desviación están-
dar a menos que se puedan estimar los valores del extremo faltante.

RELAClON ENTRE LAS MEDIDAS DE DISPERSION


En una. distribución normal hay una relación fija entre las medidas
de dispersión más comúnmente usadas. La desviación cuartílica es la
más pequeña, la desvia~ión media le sigue y la desviación estándar u es
la más grande, de acuerdo con las siguientes proporciones: 7

Q;:::; 213fT
DM ;:::;4/50'

donde el signo ;:::; denota "aproximadamente igual".


Estas proporciones son útiles para ~stimar una medida de dispersión a
partir de otra que es conocida, o para verificar aproximadamente la exac-
titud de un valor ya calculado.
Si la desviación estándar calculada difiere mucho de su valor estimado
como 3/2 de Q, o se ha cometido un error, o la distribución difiere con-
siderablemente de una normal.
Puede hacerse otra comparación de la proporción de valores que se
encuentran incluidos típicamente en el intervalo de una Q, DM, o fT a
ambos lados de la media p. de la población. En una distribución normal,

P. +Q incluye 50% de los valores,


p. + DM incluye 57,51 % de los valores, y
p. + u incluye 68.27% de los valores.

Estas relaciones se muestran gráficamente en la figura 4-2. Note que


la desviación estándar es la distancia entre la media yel punto de in-
flexión de la CUIVa normal, o sea, el punto donde la curva cambia de conca-
vidad hacia abajo a concavidad hacia arriba, y donde tiene la pendiente
máxima.

distribuidos en forma pareja dentro de los intervalos, el ajuste anterior de un


doceavo deberiaañadirse, y no restarse. Por lo tanto, la fórmula original sin el
ajuste no solamente es la apropiada bajo uno de los supuestos, sino que también
es la media de los resultados obtenidos bajo los otros dos supuestos. Finalmente,
3) a menudo ocurre que los errores de agrupamiento son pequeños en comparación
con otros tipos de errores.
7 Más precisamente, Q = 0.67450' y DM = 0.79790'.
Relación entre las medidas de dispersión 91

PROPORCIONES DEL AREA BAJO UNA CURVA NORMAL INCLUIDAS


EN INTERVALOS BASADOS EN LAS MEDIDAS MAS
COMUNES DE DISPERSION

30-
-MD
..1

Figura 4-2

Para los operadores de máquinas-herramienta, el intervalo alrededor


de la media muestral X +- Q es $2.609 +- $0.091, o sea de $2.512 a $2.706
por hora. Este intervalo incluye realmente alrededor del 50% de los trabaja-
dores y, por lo tanto, la distribución es casi normal en este aspecto. Las
- -
proporciones incluidas dentro de los intervalos X +- DM y X +- s son tam-
bién casi normales para los 'ingresos por hora, ya que abarcan al 55 y
al 61% de los trabajadores, respectivamente.
Las proporciones del total de valores que quedan incluidos típica-
mente en un intervalo de 1, 2 y 3 desviaciones estándar a ambos lados
de la media, son también muy usadas en el análisis estadístico. En una
distribución normal,

JL +- O' incluye 68.27% de los valores,


JL +- 20' incluye 95.45% de los valores y,
p. +- 30' incluye ,99.73% de los valores.

Esas relaciones se muestran gráficamente en la figura 4-2. El intervalo


X +- 20' incluye alrededor de 19 de cada 20 elementos, mientras que
X +- 30' incluye casi su totalidad. En el caso de los operadores de má-
quinas-herramienta, el intervalo $2.609 +- (3 X $.136), o sea de $2.201
a $3.017, incluye 212 trabajadores del total de 21.4 (tabla 2-4). En general,
mientras la desviación de la simetría perfecta sea leve, un intervalo de
3u a ambos lados del promedio dará los límites prácticos de una distri-
bución.
98 Dispersión

¿ Qué medida de dispersión conviene utilizar?


Como en el caso de los promedios, la selección de la medida de dis-
persión más adecuada depende de tres factores principales:
1. El concepto de dispersión requerido por el problema. ¿ Es adecuado
sólo un par de valores, por ejemplo dos extremos o los dos cuartiles
(la amplitud o la desviación cuartílica}? ¿ O se necesita un promedio
simple de todas las desviaciones absolutas de la media o mediana (la
desviación media)? ¿ O es un promedio (la desviación estándar) el
que se adapta mejor a cálculos posteriores?
2. El tipo de datos disponible. Si son pocos en cantidad, o contienen
valores extremos, debe evitarse la desviación estándar. Si son gene-
ralmente asimétricos, debe evitarse también la desviación media. Si
no se concentran cerca de los cuartiles, debe evitarse la desviación
cuartílica.
3. Las particularidades propias de las medidas de dispersión. Se encuen-
tran resumidas en la sección siguiente con el título de "Caracterís-
ticas de las medidas de dispersión".
Como una regla práctica, se pueden utilizar la mediana y los cuartiles
como valores sumarios y fáciles de entender para datos asimétricos, como
en una distribución de ingresos personales, pero debe evitarse el uso de
la amplitud." La desviación media se usa comúnmente para dar igual
ponderación a todas las desviaciones cuando n es pequeña y en datos
no agrupados, aun si la distribución es algo errática, como ocurre en
las series de tiempo. Pero si n es grande y la distribución es aproxima-
damente simétrica, y si se requiere un análisis más refinado, tal como
en el estudio de la inferencia o de la correlación, conviene utilizar la
desviación estándar. Una razón muy importante para el uso tan exten-
dido de la desviación estándar es que su error de muestreo es más pequeño
que el de· cualquier otra medida de dispersión cuando la distribución
es normal; esto significa que su valor en la muestra tiende a desviarse
en un porcentaje más pequeño de su valor en la población.

Características de las medidas de dispersión


Las características de cada una de las medidas de dispersión se resu-
men a continuación:

Amplitud:
1. La amplitud es la medida de dispersión más fácil de calcular y de
entender.
2. Sin embargo, muchas veces no es confiable ya que se basa solamente
en dos valores extremos.
8 Una excepción es el uso de la amplitud en el análisis estadístico del control
de calidad, que se estudia en el capítulo 10.
Medtdas de dispersión relativa 99

Desviación cuartílica:
l. La desviación cuartílica también es fácil de calcular y de entender.
2. Depende solamente de dos valores, que incluyen la mitad central de
los elementos.
3. Por lo general, es mejor que la amplitud como una medida poco
precisa de dispersión.
4. Se puede determinar en una distribución de extremo abierto, o en
una en la que los datos se pueden ordenar jerárquicamente, pero
no medir cuantitativamente.
5. También es muy útil en las distribuciones muy asimétricas o en aque-
llas en las que otras medidas de dispersión se verían afectadas sena-
mente por los valores extremos.
6. Sin embargo, no es muy confiable si no hay datos que se concentren
alrededor de los cuartiles.

Desviación media:
1. La desviación media tiene la ventaja de dar igual ponderación a la
desviación de cada valor con respecto a la media o mediana.
2. Por lo tanto, es una medida de dispersión más sensible que las antes
descritas, y generalmente tiene un error de muestreo más pequeño.
3. También es más fácil de calcular y de entender y se ve afectada en
menor medida por los valores extremos que la desviación estándar,
4. Desafortunadamente, es difícil "de manejar algebraicamente, ya que
los signos menos deben ignorarse en su cálculo.

Desviación estándar:
1. La desviación estándar es usualmente más útil y se adapta más a
análisis posteriores que la desviación media.
2. Es más confiable como estimador del valor de la población que cual-
quier otra medida de dispersión, siempre que la distribución sea nor-
mal.
3. Es la medida de dispersión más utilizada y la más fácil de manejar
algebraicamente.
4. Sin embargo, .es más difícil de calcular y más difícil de entender.
5. Se ve grandemente afectada por _valores extremos que pueden deberse
a la asimetría de los datos.

MEDIDAS DE DISPERSION RELATIVA


L:lS medidas de dispersión que se han descrito anteriormente se expre-
san en las unidades originales de medida, tales como pesos, kilos, etcétera.
Se pueden utilizar para comparar la variación de dos distribuciones siempre
que las variables se expresen en las mismas unidades de medida y sean
100 Dispersión

aproximadamente del mismo tamaño promedio. Sin embargo, en caso


de que dos conjuntos de datos se encuentren expresados en unidades dife-
rentes (tales como toneladas de carbón y pies cúbicos de gas), o si el
tamaño promedio es muy diferente (como en el caso de salarios de ejecu-
tivos y salarios de trabajadores) las medidas de dispersión absoluta no son
comparables y deben utilizarse medidas de dispersión relativa.
Una medida de dispersión relativa es la razón de una medida de
dispersión absoluta a un promedio apropiado y se expresa generalmente
como un porcentaje. Algunas veces se llama coeficiente de dispersión
porque "coeficiente" significa una razón o un número puro independiente
de la unidad de medición. Se puede obtener un coeficiente de dispersión
ya sea a partir de la desviación cuartílica o de la desviación media 9 pero
usualmente se le expresa como la razón de la desviación estándar a la
media aritmética, o sea slX.
Así, para los ingresos de los aprendices de operadores de máquinas-
herramienta, el coeficiente de dispersión es:
s¡X = 0.136/2.609 = 5.2%
Esto es, la desviación estándar es 5.2% de los ingresos medios. Si un
grupo de plomeros tuviera una desvjación estándar de $.160 de ingresos
medios de $8.00 por hora, sus ingresos en dólares variarían más que los
de los operadores ($.160 en comparación con $.136), pero variarían me-
nos en relación con sus ingresos promedio (0.160 -7 8.00 = 2.0% Y 5.2%).
La medida de dispersión relativa es la comparación más significativa.

Unidades de desviación estándar


Las desviaciones individuales de la media (X - X) se pueden reducir
también a unidades comparables dividiéndolas entre la desviación están-
dar (s). Así, para un operador de máquina-herramienta que gana $2.80
por hora, o sea $0.191 sobre la media de $2.609, se tiene que xls =
0.191/0.136 = 1.40. Por lo tanto, su salario está a 1.40 desviaciones es-
tándar por sobre la media, un valor que es comparable, digamos con su
eficiencia en unidades de producto, que puede ser por ejemplo de 2.20
desviaciones estándar por sobre la media. Tal vez se merezca un aumento
de salario. O en una prueba de admisión a la universidad en la cual
la media se ajustó a 500 y la desviación estándar es 100, un candidato
cuya calificación es 700 sabe que está "dos sigmas" sobre la media. Si
la distribución es normal, entonces sólo el 2% de los candidatos obtuvo
una calificación mejor, puesto que p. -1- 20' incluye el 95.45% de las ca-
lificaciones, dejando el 4.55% para las calificaciones superiores e infe-
riores, o sea el 2.27% sobre p. + 20'.
Los valores de x/s variarán aproximadamente de +3 a -3 para
cualquier conjunto de datos, ya que una dispersión de tal amplitud inclu-

9 Las fórmulas son (Q. - QI)/(Q3 + QI) y DM/X respectivamente.


Asimetria 101

ye casi todos los elementos de una distribución normal. Por lo tanto, el


intervalo X + 3s proporciona los límites prácieos de variación que se
utilizan en análisis estadístico de control de calidad y en muchas otras
aplicaciones prácticas. Una variación mayor que estos límites indica la
presencia de factores anormales que deben aislarse y eliminarse.

ASIMETRIA

Asimetría significa falta de simetría en la forma de una curva de


frecuencias. Otra característica importante de una distribución de fre-
cuencias es la extensión de estas distorsiones.
La medida más simple de asimetría se basa en la distancia que pueda
existir entre la media aritmética y la mediana. Ambas son idénticas en
una distribución simétrica. Sin embargo, en una distribución asimétrica,
la media se ve desplazada en dirección de los valores más extremos, mien-
tras que la moda queda abajo del punto más alto de la curva, y la me-
diana, que queda afectada por el número de valores extremos, pero no
por su valor, tiende a quedar a un tercio de la distancia entre la media
y la moda, siempre que la asimetría de la distribución sea moderada.
Por lo tanto, se puede deiinir un coeficient.e de asimetría como sigue:

Sk = •.-3(_X_-_M_d_)
s

en que X es la media; M d es la mediana; y s es la desviación estándar.


- -
El numerador 3(X - Md) se usa en vez de (X - moda) porque a
veces la moda es difícil de localizar con exactitud. Dividiendo entre s
expresa la medida en unidades de la desviación estándar para hacerla
comparable entre varias distribuciones que difieran en su unidad de-
medición o en su tamaño promedio. Si la media excede a la mediana,
la asimetría es positiva; en caso contrario, es negativa.
La fórmula no se ilustrará aquí porque en la práctica tiene un uso
muy limitado. La medición exacta de la asimetría requiere técnicas más.
avanzadas que . las aquí presentadas. Por otra parte, en los análisis ele-
mentales, la asimetría se trata- en términos descriptivos y no resumién-
dola mediante una medida única.

UTILlZACION DE LAS MEDIDAS DE DISPERSION

Hay muchos otros usos de las medidas de dispersión aparte de los que
hemos descrito aquí. El siguiente resumen indica brevemente algunas de
esas aplicaciones.
102 Dispersión

Ayuda en la descripción
El uso más sencillo y más común de una medida de dispersión es en la
descripción de datos. Las medidas de tendencia central son los valores
típicos, pero las medidas de dispersión indican la variabilidad de los datos.
También se debe tomar en cuenta la extensión y dirección de la simetría
para completar el análisis.

Comparación de dispersión
Los valores promedio de dos conjuntos de datos pueden ser muy SImI-
lares, mientras que la amplitud y el tipo de dispersión pueden diferir
ampliamente. Si los datos son en general parecidos, se pueden comparar
sus medidas de dispersión en unidades absolutas para determinar cómo
difieren los datos con respecto a su variabilidad. Cuando se tienen varios
conjuntos de datos muy diferentes, las comparaciones basadas en medidas
de dispersión relativa son más apropiadas.

uso de un estándar
Mediante el uso de medidas de dispersión, en particular de la desvia-
ción estándar, es posible comparar la variación de un cierto grupo de
datos tomando a la variación de la curva normal como un estándar. Ya
se ha indicado que aproximadamente el 68% de todos los elementos de
una distribución normal se encuentran incluidos dentro de un intervalo
formado por una desviación estándar arriba de la media y una desvia-
ción estándar abajo. Cuando las características de una variable se ex-
presan en unidades de desviación estándar, su distribución se puede
comparar con una distribución normal. Este es el punto crucial en los
estudios de confiabiíidad de promedios obtenidos de muestras, en pro-
gramas de control de calidad, en producción industrial y otras aplica-
ciones de los métodos estadísticos.

Medición de errores de muestreo


La con fiabilidad de los promedios de las muestras es una parte impor-
tante del análisis estadístico. Los promedios varían al azar de una muestra
a otra extraídas de la misma población. Con el fin de evaluar la confía-
bilidad del promedio en una muestra única, debemos conocer más acerca
de la variación de ese promedio en todas las muestras posibles. Como se
explicará en el capítulo 9, la desviación estándar se usa en este tipo de
estudios.
RESUMEN DE FORMULAS
Puesto que las características de las diferentes medidas de dispersión
y asimetría ya se han resumido, se puede concluir este capítulo listando
las principales fórmula,s utilizadas:
Problemas 103

Datos no Datos
Medida agrupados agrupados
igual
igual

Amplitud . Substraer los valores


extremos
Desviación cuartílica Q = Qa - Q¡,
2
i(n/4 - F)
Q¡ es #n/4 + 1/2* Q ¡=L+
f
_ L i(3n/4 - F)
Qa es #3n/4 + 1/2* Qa - + -
f
.., . ~IX-XI ~flX - XI
DeSVIaClOn media DM = -----
n
DM=----
n

= ~ r2;/{X _X)2
~
~ (X - X.) 2 s
Desviación estándar ..• s =
n-l
" n - 1
Método abreviado ..... s = ~/~X2 - (~X)2/n s = ~ I~fX2 - (~fX) 2/n
1 n - 1 1 n - 1
Método aún más abre-
viado, para ciases de
igual amplitud .
Dispersión relativa Dividir la medida de dispersión absoluta entre un promedio
apropiado, por ejemplo, s/ X.
• 3(X - Md)
Asimetría ............ S k = - - - - - Igual
s

* En un ordenamiento, contando desde el valor inferior.

PROBLEMAS
l. Como analista de mercado para un fabricante de fármacos que está conside-
rando la posibilidad de ingresar al mercado de Filadelfia, usted desea estudiar
cómo se comportan los precios de menudeo de la leche de magnesia, tintura
de yodo, y otros artículos estándar. Usted recoge los siguientes datos de una
encuesta por muestreo de tiendas- de Filadelfia:
Compare esas dos distribuciones en cuanto a sus:
a) Promedios.
4) Dispersión (tanto absoluta como relativa).
e) Asimetría.

2. Cite ejemplos reales o hipotéticos, no mencionados en el texto, de cada uno


de los conceptos siguientes.
a) Dos objetivos importantes de las medidas de dispersión.
b) Asimetría positiva y negativa.
e) Dispersión estrecha y curtosis aguda.
La desviación estándar varrancia.
dispersión relativa, que se case en fa desviación
los valores (35-) expresado en unidades es-
tándar por sobre la media.

National ····BtrreaU of Economic Research calcula desviaciones medias


mostrar cómo varían en duración, y otros aspectos, diferentes ciclos comerciales.
a) Encuentre la desviación media de los 1 períodos cíclicos uuracron
del problema 8, capitulo 3.
D) ¿Son los ciclos bastante uniformes o variables en duración? Explique
qué.
e) qué piensa usted el Bureau utiliza la media vez
la desviación para medir la variabilidad {a conducta
de los ciclos comerciales ?

5. En el capítulo 2, problema 17 (sobre el sueldo de las erupleadas una


planta ) :
a) Obtenga la amplitud y la desviación cuartíhca de su original
112 elementos.
b') Interpole los cuartiles y calcule la desviación cuartilica de distribución
frecuencia de esos datos.
e) qué los valores de los cuartiles difieren y (b)?

s. Usando la distribución frecuencias problema anterior:


a) Calcule la desviación estándar
b) el de esta. medida en términos (le 105 salarios
plantas electrónicas.
C') ¿ Cree usted que este valor de s debería diferir los siguientes valores?
Dé sus razones.
1) La s de los datos originales no ag rupados,
2) La s las otras fórrn ulas en que [,
d) Estime la media a partir de la estándar, suponiendo
una distribución casi normal,

7. Conteste las mismas preguntas que en problema 6 J LOl.nando


iniciales de cualquiera de los cinco campos que se han asignado corno
tarea en el capítulo 2, problemas 14--16.

8. Un encargado de compras ha obtenido muestras de incandescentes


de dos proveedores. En su propio laboratorio, ha ambas muestras
con respecto a la duración de su vida útil, con los resultados :

Duración de la vide útil, Muestras de


en horas Emp rcsa A Ern prcsa

700 y menor que 900 10 3


900 y menor que 1,100 16 "12
1, ¡ 00 y menor que ,30U 26 12
1,300 y menor que 1,500 g
l'ota! 60

a) lámparas de qué empresa tienen s-


mayor prcmeoro en
S'Uvida til ? ú

b) ¿ Las lámparas de cuál de las tienen mayor uniformidad r


10{j Dispersión

9. a) Qué relación por cociente existe entre DM y Q, en una distribución


normal.
b) El intervalo ,¡J. ± 30- incluye casi todos los elementos en una distribución
normal. Exprese esta amplitud en unidades de Q.
e) Si usted calcula la desviación estándar como o.s] 2 kilos y por medio de
una revisión superficial observa que la amplitud total es 36 kilos, ¿ cuál
cree que es el tipo de error más obvio que podría haber cometido?
d) En una distribución normal de calificaciones de pruebas con fJ. 60 y=
(1 = 9, ¿ qué porcentaje de calificaciones excede 33 puntos? ¿ 51 puntos
y 78 puntos?
10. Si al someter a prueba 100 bobinas de hilo de algodón se registra que la resistencia pro-
medio a la ruptura es de 15 libras y la mediana es de 14.8 libras, con una desviación es-
tándar de 3 libras, ¿cuál es el número aproximado de bobinas de hilo en el lote que de-
berían tener resistencia a la ruptura comprendida entre 12 y 2I libras?

11. Con base en las dimensiones de los 63 engranes de la tabla 2-3.


a) Estime la desviación estándar de todo el lote del que se ha tomado
esta muestra.
b) Compare ese resultado con la estimación aproximada de u corno un sexto
de la amplitud (ya que el intervalo l{ ± 3.,. incluye prácticamente todos
los elementos de una distribución normal}.
e) ¿Cuánto difiere el más grande de los engranes (0.4270) de la media en
unidades de desviación estándar?
12. Remítase al problema ¡ O del capítulo 3:
a) Calcule la desviación estándar de las ventas por tienda.
b) Estime los cuartiles y la amplitud cuartilica.

13. Para concluir su reporte respecto al espesor de 200 hojas de Ya de pulgada de


tablilla de aislamiento para transformadores de potencia, usted necesita una
medida de variación para las 200 hojas listadas en el capítulo 2, problema 19.
Esta medida se utilizará en el control de calidad, por lo que debe reflejar la
variabilidad de cada hoja. La distribución es casi normal; por lo tanto, es
apropiada la desviación estándar,
a) Calcule la desviación estándar por el método más abreviado posible.
b') Calcule un coeficiente de dispersión. ¿ Cuál es la ventaja de esta medida
de dispersión relativa comparada con la medida correspondiente de dis-
persión absoluta?
e) Se recibe otra hoja del mismo proveedor que mide 116 milésimas de
pulgada de grueso. ¿ Cuánto mide esa hoja por debajo de la media en
unidades de desviación estándar? ¿ Está esa hoja dentro o fuera de los
límites de control X ± 3s calculados para el embarque anterior? (Este
tema se desarrollará más ampliamente en el capítulo 10 que trata del
control de calidad estadistico.)
14. En el capítulo 2, problema 18, respecto al ingreso familiar:
a) Calcule la medida de dispersión que crea es la más apropiada y explique
su. significado.
Si existe alguna medida de dispersión que usted no puede obtener a partir
de estos datos, diga cuál es e indique por qué no puede.
capítulo ¿, problema 20 (sobre Ingresos fanriliares ) :

todos los automóviles. Explique su


(') Si usted obtiene 14 millas por galón con
tas unidades de desviación est ándar
de 18.82 millas por galón?
16. En el capítulo 3, problema 16:
a) Estime la desviación cuartilica de las edades de refrigeradores aproxi-
mando al afio más cercano.
b) ¿ Es normal la distribución de edades de rcfrigeradol'es?, ¿ asimétrica ne-
gativa?, ¿ de extremo abierto P, ¿ bimodal ?
17. Una compañia que se dedica a la reparacion de aparatos eléctricos para un
productor nacional, está tratando de determinar dónde debe situar una
de servicio y su flota de camionetas de servicio. El territorio que
atender se encuentra a lo largo de una autopista recta e incluye nueve
dudad es del mismo tamaño aproximadamente. (Véase el diagrama.) E! ge-
rente decide utilizar la distancia media (contando a partir del extremo norte
del territorio como cero) como la localización más adecuada para la esta-
ción de servicio y la flota de camionetas de servicio. Así ha decidido poner
la sucursal en la ciudad F, ya que la media es 225/9 25.=
Mapa del tel1'rilOrnO de
sClrvneio

Kilómetros a partir
de la ciudad A

o Ciudad A

5 Ciudad n
10 Ciudad C

15 Ciudad D

20 Ciudad E
25 Ciudad F

40 Ciudad G

50 Ciudad 11

60 Ciudad 1
Total 225

a) Calcule la desviación media en relación con la media aritmética.


b) ¿ Qué le dice esta cifra al gerente acerca la distancia que deberán
viajar sus camionetas de servicio l
e) Antes de que el gerente haya decidido la ubicación, un asistente le
sugiere que tal vez la mediana seria mejor que la media. De acuerdo
con esto, el asistente sugiere que escoja la ciudad E (aquí es la ciudad
central). Calcule la desviación media en relación con la mediana (20).
108

d) Comparando el resultado de (c·) con la respuesta de (a), determine en


cuál de las ciudades debe situarse la por qué.
e) Cree usted que existe alguna ubicación Explique su respuesta.

B. Corno un paso posterior en su análisis 'usted desea comparar la dispersion


vida útil de las dos marcas de bulbos electrónicos según se ha descrito
capítulo 2} problema 21. Se han hecho 10S siguientes cálculos a partir
los datos originales:
Morca A Marca 13

2:~}{ 25,525 17,825


»x: 6.888,125 4.999,375
120 80
212.71 222.81

a) Calcule la desviación estándar para cada marca de bulbos.


) Estime Ia desviación cuartilica para cada distribución, a partir de la
curva de frecuencias acumuladas (capítulo 2, problema 21 (ti)).
e) Compare la dispersión de 'las dos distribuciones urilizando ambas medidas.
¿ Cuál medida da la mejor descripción general en este caso? .3. Por qué?'
d) En capítulo 2, problema 21 (d) usted estimó g ráficamente las me-
enanas. Ut.ilizando esta estimación y las medidas aritméticas anteriores,
¿ qué puede usted decir acerca de Ia asimetría de estas distribuciones '?

·19. 1-,05 porcentiles son similares a los cuartiles, excepto en que aquéllos en. una
distribución dividen número de artículos en 00 grupos iguales en vez de
grupos. Encuentre el décimo porcentil de las ventas de gasolina del
c;',Dltulo 2, problema 20, es decir, número de galones de gasolina que excede
las ventas, pero que es excedido por el 90(;1(; de las ventas. Urilice
Interpolación similar a dada para los cuartiles en

FREDERICK Business

razones, distri-

Richurd

2 :t

y
estudio
publicación de razones>
G. y
14a. edición. Londres; Charles Griffin, I 950.
5 7 proporcionan
frecuencias, promedios,
11. Probabilidad
CAPITULO 5
Una introducción a la
teoría de la probabilidad

La teoría de las probabilidades es una rama de las matemáticas emi-


nentemente útil para el hombre de negocios. En su mayor parte, la esta-
dística se basa en los principios de la probabilidad. La evaluación de los
datos obtenidos de las muestras se basa ·~en cuanta a interpretación-e-
en la teoría de las probabilidades. El hombre de negocios, así como el
jugador de póquer o el estratega militar, deben tomar decisiones en condi-
ciones de incertidumbre con respecto al futuro. Su apreciación del futuro
se manifiesta al relacionar una probabilidad numérica con cada evento
posible que pueda influir en el resultado de sus decisiones, y si utiliza
estas probabilidades, junto con infotrnación de índole económica, mejora
el proceso de toma de decisiones.

CONCEPTOS BASICOS
La probobilidad relacionada con un evento es un número comprendido
entre O y 1, inclusive, y representa el riesgo o la posibilidad de que ocurra
ese evento. Una probabilidad de cero (P = O) significa que el evento es
imposible; si P ""' 0.50, es tan probable que el evento ocurra como que
no ocurra; si P = 1, es seguro que suceda. El valor de P no puede ser
negativo ni mayor que uno.
Se puede considerar que la probabilidad es la frecuencia relativa de
-éxitos" o aciertos (es decir, la ocurrencia de un evento determinado)
en un proceso aleatorio en que se ha repetido un gran número de pruebas
o ensayos. La frecuencia relativa es el número de "éxitos" dividido entre
el número de pruebas efectuadas. Suponga que "tiramos un dado" y que
definimos como éxito (suceso favorable) la obtención de un as. Si el dado
está balanceado perfectamente, entonces hay la misma probabilidad de
que salga cualquiera de las seis caras, del 1 al 6, y la proporción de aciertos
en el total de tiradas, será aproximadamente igual a 1/6, en un número
suficientemente grande de ensayos. Entonces, decimos que la probabilidad
de obtener un as es de 1/6. El proceso de tirar los dados es aleatorio (al
111
112 Una introducción a la teoría de la probabilidad

azar) porque no sabemos anticipadamente el resultado de ninguna de las


tiradas (experimentos). En general si r es el número de "éxitos" en n
pruebas, entonces el límite de r l n para valores cada vez mayores de n se
define como la probabilidad de un acierto en una sola prueba.

Fuentes de probebilídades

El concepto teórico presentado en los párrafos anteriores es difícil de


aplicar en la práctica; sin embargo, es posible estimar probabilidades me-
diante cualquiera de las tres siguientes maneras alternativas:
1. Frecuencia relatio« de eventos pasados. Las probabilidades
pueden estimarse a partir de las frecuencias relativas que se observen en
un experimento controlado, o mediante muestreo de un universo grande
y finito. Para ilustrar un experimento, suponga que instalamos una má-
quina para fabricar un nuevo producto y llevamos un control durante un
período prolongado en el que el 5% de \os productos resulta defectuoso.
Entonces, si el proceso está "bajo control" de tal manera que no haya
cambio en la calidad de la producción, podemos decir que la probabilidad
de que el siguiente producto sea defectuoso es 0.05. Desde luego, en reali-
dad, ese producto podrá ser defectuoso o no serlo; la probabilidad a priori
(previa) se deduce de la experiencia obtenida de la observación prolon-
gada de la producción.
Las probabilidades de eventos complicados pueden determinarse a
partir de las probabilidades de eventos más sencillos, por medio de un
método de simulación, es decir, utilizando un modelo experimental dise-
ñado para representar las condiciones reales del mismo. Por ejemplo, al
analizar un sistema de inventario se introducen al modelo las órdenes de
los clientes, las existencias disponibles, y el tiempo necesario para reponer
la existencia vendida. El modelo comienza a funcionar al recibir una orden
de un cliente, y se estudia la secuencia de sus efectos sobre el sistema de
inventario. Este análisis se repite con otras órdenes recibidas de la clientela
y así se determina el comportamiento del sistema de inventario (por ejem-
plo, las probabilidades de que la demanda pueda exceder la oferta por
O, 1, 2, ... artículos, respectivamente). La técnica y modelos de simulación
se describen con mayor detalle en el capítulo 15.
Las probabilidades también pueden calcularse a partir de la frecuencia
relativa con que ocurre un evento en una muestra sacada de una población
grande y finita. Por eso, en la tabla 2-5, el análisis de operadores de máqui-
nas revela que un 29% del total gana alrededor de $2.60 por hora. En-
tonces 0.29 es la probabilidad estimada, de que un operador seleccionado
al azar del grupo completo de operadores, esté ganando alrededor de
.$2.60 por hora. Análogamente, en la siguiente sección se presentará un
experimento muestral en que las probabilidades de que hombres y muje-
res efectúen una compra se basan en la frecuencia relativa observada en
la muestra.
Conceptos básicos 113

2. Distribuciones teéricas, En algunas situaciones, las probabili-


dades pueden determinarse sin recurrir a las frecuencias relativas. En el
juego de dados, podemos establecer que la probabilidad de obtener un as
es de 1/6 sin necesidad de hacer ni una tirada; esto se debe sencillamente
a que los seis números tienen la misma posibilidad de aparecer en la cara
superior. Las probabilidades de eventos más complicados también pueden
deducirse a partir de supuestos sencillos. Por ejemplo, al lanzar 4 veces
una moneda no cargada, las probabilidades de que salgan de O a 4 caras
pueden determinarse, si se sabe que la probabilidad de obtener una cara
en una tirada es de 1/2. La probabilidad de que no salga ni una cara es
de 1/6, la probabilidad de obtener cara una sola vez es de 1/4, etcétera,
tal como se ha listado en la tabla 5-8. Estas probabilidades pueden deter-
minarse a partir de la distribución binomial que se describe en el capítulo
6, sin recurrir a experimentos o a muestras basadas en la experiencia pasada.
La validez de dichas distribuciones teóricas depende de cuán fielmente
las hipótesis representen la realidad. (Por ejemplo, las probabilidades de la
tabla 5-8 no son aplicables si la moneda está doblada.)
3. Apreciación subjetiva. Si ninguno de los métodos anterior-
mente mencionados puede utilizarse, el responsable de la toma de decisio-
nes debe estimar las probabilidades en base a su juicio o criterio y expe-
riencia. Un fabricante de automóviles puede estimar que hay una proba-
bilidad de 2/3, de que la preferencia de los clientes se incline hacia un
estilo de carrocería en relación con otro. El meteorólogo dice: "Las pro-
babilidades de que llueva son de 6 a 10". La mayor parte de las apuestas
hechas en los eventos atléticos se basan en juicios subjetivos. Para incluir
estas situaciones, se ampliará la anterior definición de probabilidad para
dar lugar a la probabilidad subjetiva. Una probabilidad subjetiva es una
evaluación que una persona 'que toma decisiones hace acerca de la verosi-
militud relativa de que ocurra un evento incierto;' o sea, representa las
"apuestas" que se hacen sobre la ocurrencia de ese evento. Tales aprecia-
ciones son sumamente personales y, por lo tanto, dos individuos pueden
asignar diferentes probabilidades subjetivas al mismo evento. No obstante,
estas probabilidades subjetivas pueden aprovecharse en la toma de deci-
siones, de la misma manera que las probabilidades más objetivas descritas
anteriormente. En el Apéndice B que está al final de este capítulo se des-
cribe un procedimiento que ha resultado útil en la determinación de
probabilidades subjetivas.

1 Podríamos ser más precisos y definir la probabilidad subjetiva en términos


de las preferencias de los responsables de la torna de decisiones ante loterías hipo-
téticas. Sin embargo, para nuestro estudio, la definición intuitiva puede considerarse
suficiente. Si se desea consultar una presentación más detallada, véase el capítulo 5
del libro de Howard Raiffa, Decision Analysis (Reading, Mass .. Addison-Wesley,
1968) •
1I4 Una Introducción a la teona de la prolKllJllldat/

Probabilidades conjuntas, marginales y condicionales


Antes de continuar, es necesario establecer algunas definiciones. Utili-
saremoaalgunos ejemplos para presentar los conceptos en forma clara,
Estudiando el comportamiento del comprador de cierto producto, suponga
que se ha tomado una muestra aleatoria de 1 000 clientes de una tienda de
departamentos, según se aprecia en la tabla S-l.

Tabla 5.1
COMPORTAMIENTO (HABITOS DE COMPRA) DE
1,000 CUENTES HOMBRES Y MUJERES
(en porcentaje del total)

Hombros
(H) To/ál

Son compradores (e) •••...•. 3 17 20


No son compradores ( .....C) '" 27 53 80
Total •.••• '................. 30 70 100

Suponga que se escogerá al azar a un cliente de ese grupo. Entonces:


1. Probabilidad sim,ple. Probabilidad de que el diente escogido
sea hombre: P(H) = .30. El símbolo P(A) se utiliza para denotar la
probabilidad de un evento A. El evento "no-A" se representa por ,....,A.
Así, la probabilidad simple de que el cliente escogido sea mujer es
P(,..;.,H) = .70.
2. Probabilidad conjunta. La probabilidad de escoger un cliente
con dos (o más) características específicas. Por ejemplo, la probabilidad
de que el cliente escogido sea al mismo tiempo hombre y comprador es
P( C, H) = .03, Y la probabilidad de que el diente escogido no sea com-
prador y sea mujer es P( ,...,H, ,...,C) = .53.
3. Probabilidad margin.al (al margen de la tabla). La probabi-
lidad total de que el cliente escogido sea hombre -formada por la pro-
babilidad de escoger compradores hombres más la probabilidad de escoger
hombres no compradores- es:

P(H) = P(H, C) + P(H,"""C) = .03 + .27 = .30

La probabilidad marginal no es más que la probabilidad simple, vista con


otro enfoque. O sea, mientras que la probabilidad simple es un concepto
singular, la probabilidad marginal es esencialmente una suma de proba-
bilidades conjuntas.
4. Probabilidad condicional. Suponga que se sabe que el cliente
seleccionado es hombre. Dada esta información, ¿ cuál es la probabi-
lidad de que también sea comprador? Es la probabilidad condicional
P(C I H). El símbolo P (e I H), se lee como la probabilidad de tener un, roj
Conceptos básicos 115

comprador, dado el hecho de que es un hombre. Puesto que 30% de los


dientes son hombres y 3% son compradores, P(C I H) = 0.03/0.30 =
0.10. A base del ejemplo anterior, podemos determinar la regla general
o definición matemática de la probabilidad condicional:
Probabilidad condicional de C dada H:

P( C j H) = P( C,H) = _p_rob_ab_i_li_d_ad_c_o_nj_'u_n_ta_d_e_C_y_H
P(H) probabilidad marginal de H

De esta definición podemos calcular, por ejemplo, la probabilidad de


seleccionar un comprador, dado que el cliente sea una mujer:

P(C,--H) 0.11
P{CI---H) = • = - = 0.24-3
P( ---H) 0.70

Por otro lado, considerando P(H 1C) --la probabilidad de que el diente
sea un hombre --dado que sea un comprador:

P(C,H) 0.03
P(H 1C} = = - = 0.15
. P{C) 0.20

Note que esta probabilidad no es igual a la P(CI H) descrita antes.


Veamos otro ejemplo. Suponga que tenemos una baraja de naipes para
jugar. Las cartas pueden ser clasificadas como sigue:

Tabla S-2
PROBABILIDADES EN LA EXTRACClON DE CARTAS
DE UNA BARAJA

Naipe roj". R T"tol


-------------------------------
Especiales
(A, K, Q, J, I(}) ••• (E) 10/52 10152 20/52
No especiales ......•• (.-'E) 16/52 16/52 32152
Total ....•••••••••.••••... 26/52 = 1/2 26/52 = 1/2 1

Probabilidad simple. Es la probabilidad de obtener una carta/ roja,


P(R) = 1}2.
Probabilidad conjunta. Es la probabilidad de obtener cierta carta
negra, P(E. ---R) = lO/52.
Probabilidad marginal. Es la probabilidad de obtener una carta
roja, tomando en cuenta la suma de las probabilidades de obtener cartas
rojas en especial y de obtener cartas-rojas en general.
116 Una.introduccién a la teoria de la probabilidad

P(R) = P(E, R) + P( ,...-E, R) == 10/52 + 16/52 = 1/2


Probabilidad condicional. Es la probabilidad de sacar una carta en
especial dado el hecho de haber obtenido una carta roja,

P(E I R) = P(E, R) = 10/52 = 10/26


P(R) 26/52

Note que la probabilidad simple de obtener una carta en especial es


también la misma, es decir, P(E) = 10/26. Por consiguiente, nuestro cono.
cimiento de que la carta fue roja, no nos dio ninguna información adicional
acerca de si era o no una carta en especial, ya que las probabilidades
fueron exactamente las mismas. Esta propiedad se llama independencia
estadística.

Definición de independencia estadística


Cuando P(E iR) = P(E) decimos que los eventos E y R son estadísti-
camente independientes. Es decir, que el evento E tiene la misma probabi-
lidad de ocurrir cuando R ocurre, que cuando ocurre el evento - R. (Existe
la misma proporción de cartas rojas especiales que de negras especíales.)
La independencia estadística implica que el conocimiento de un evento no
tiene utilidad alguna para la predicción de otro evento.
Para ilustrar la noción de la independencia estadística, vamos a consi-
derar otra vez el ejemplo del comportamiento de los clientes, a los que vamos
a clasificar por edad y por sexo. Podemos hacer la siguiente tabla:

Tabla 5-3
COMPORTAMIENTO (HABITOS DE COMPRA) DE 1,000 CUENTES
HOMBRES Y MUJERES SEGUN EDADES
(en porcentaje del total)

Hombres (H) Mujeres (-H)


-_._-- --_._---
Jóvenes Adultos Jóvenes Señoritas
(J) c-i, (J) (-J) Total

Son compradores (C) ....... 1 2 4- 13 20


No son compradores (,-.-C) .. 5 22 15 38 80
Total .
. ..........., .... ..........
~ ~ ~ ' 6 24- ~.
19 51 100

Es fácil verificar que:


Total de hombres = 30% Total de jóvenes = 25%
Total de mujeres = 70% Total de adultos = 75%
La probabilidad simple de ser un comprador es P( C) = 0.20. La probabi-
lidad marginal de que sea una persona joven es
Reglas parael manejo de probabilidades 117

Pu) .." P( C,H, J) + P( ~C, R, J) + P( C, ---H, J) + P( ---C, ---H, J)


= 0.01 + 0.05 + 0.04 + 0.15 = 0.25
La probabilidad condicional de que sea un comprador, dado el hecho de ser
joven es:
(C,]) + 0.04 02
P(C I J) -
-
P,

P(J) -
- 0.010.25 -- . O

Note que esta probabilidad condicional es igual a la probabilidad sim-


ple de que sea un comprador, P( C). En consecuencia, la edad y el compor-
tamiento del cliente (comprar o no comprar) son cualidades independien-
tes. El conocimiento de la edad no es de utilidad para predecir si una
persona compra o no. El hecho de que la edad y el comportamiento del
cliente sean independientes, también implica que:

P( ---GlJ) = P( ~C) ; P( C I ,-J) = P( C) ; P( ---C I ,...,J) = P( ---C)

Por otra parte, el comportamiento del cliente (comprar o no) y el


sexo no son cualidades independientes. Recordemos que la probabilidad
de comprar, siendo hombre, es P(C I H) = 0.10. Pero la probabilidad de
comprar es P(C) = 0.20. Por lo tanto las cualidades e y H no son inde-
pendientes. El conocimiento del sexo de un cliente proporciona una
mejor estimación acerca de la probabilidad de que éste sea un comprador,
(En este ejemplo, se advierte que lbs hombres son menos afectos a com-
prar que las mujeres.)

REGLAS PARA EL MANEJO DE PROBABILIDADES

Suma de probabilidades
Se dice que los eventos de un conjunto son mutuamente excluyentes
cuando la ocurrencia de uno de ellos excluye la de cualquiera de los otros.
Por ejemplo, al sacar naipes de una baraja, la ocurrencia del evento
"sacar un rey" elimina la posibilidad del evento "sacar una rein~". En
consecuencia, estos eventos son mutuamente excluyentes.
Si los eventos de un conjunto son mutuamente excluyentes, la proba-
bilidad de que ocurra uno u otro de ellos, es la suma de las probabilidades
de que suceda cada uno de estos eventos. Por lo tanto, si los eventos A
y B son mutuamente excluyentes.

P(A ó B) = P(A) + P(B)


Esta fórmula se llama regla de la SUma de probabilidades. En realidad
esta regla es bastante obvia; la hemos utilizado en varias ocasiones, sin
118 Una introducción a la teoría de la probabilidad

PROBABILIDAD DE EVENTOS QUE NO SON MUTUAMENTE


EXCLUYENTES

F"lgUra 5-1

enunciarla explícitamente. Por ejemplo, la probabilidad de sacar una


espada en un mazo de cortas es 1/4. La probabilidad de sacar una espada
o un corazón es 1/4 más 1/4 o sea 1/2.
Si dos eventos A y B no son mutuamente excluyentes, entonces, es
probable que ambos puedan ocurrir simultáneamente. El área de inter-
sección es precisamente la probabilidad conjunta PíA, B), como se indica
en la figura 5-1. Esta área se cuenta dos veces si se utiliza la fórmula de
la suma para eventos mutuamente excluyentes, Podemos modificar la
fórmula para obtener la regla de la suma para eventos que no son mutua-
mente excluyentes:

peA ó B)= PíA) + PíE) .;.. PíA, B)

En el ejemplo ilustrado en la tabla 5-1, los eventos "comprador" y


"hombre" no son mutuamente excluyentes, puesto que hay hombres que
compran: esto quiere decir que el evento "comprador' no excluye la
posibilidad del evento "hombre". En consecuencia, la probabilidad de ser
hombre o ser comprador es:

P(Hó C) = P{H) + P(e) - Y(H, e)


= 0.30 + 0.20 - 0.03 = O.'H

Se dice que un conjunto de eventos es colectivamente exhaustivo cuando


todos los eventos posibles están incluidos en ese conjunto. Por ejemplo, el
conjunto de eventos "sacar una carta roja" y "sacar una carta negra" son
colectivamente exhaustivos; no hay otras posibilidades. El conjunt-o de
eventos "hombre", "comprador" y "mujer no compradora" son colectiva-
mente exhaustivos (aunque no mutuamente excluyentes).
Reglaspara el.manejo de probabilidades J19

J..a suma de las probabilidades para un conjunto de eventos mutua-


mente exclu)'entes')' colectivamente exhnustiuos es igual a ltnO. Esto se
deriva de la regla de la suma de probabilidades y del hecho evidente de
que algún evento debe ocurrir.

Multiplicación deprobabilidarles
La regla para multiplicación de probabilidades sólo es una extensión
de la definición de probabilidad condicional. La probabilidad conjunta de
que ambos eventos, A y B, ocurran es igual a la probabilidad de A por
la probabilidad condicional de B dado A. En símbolos:

P(A, B) = P(A) P(B I A)

Como ejemplos, consideremos los siguientes:


Si sabemos que la probabilidad de un diente varón es P(H) = 0.30
Yla probabilidad de que un diente varón sea un comprador es P(C IH) =
0.10, resulta que la probabilidad de que un diente sea al mismo tiempo
comprador y hombre es:

P(/{" C) = P(H) P(C.jH) = 0.30 X 0.10 = 0.03

Supongamos que en una urna hay 3 bolas, 2 hlancasy una negra.


¿ Cuál es la probabilidad de sacar las dos bolas blancas en 2 intentos
(sin reponer la primera bola) en la urna?
Probabilidad de sacar bola blanca en el primer intento P( B1 ) = 2/3.
Probabilidad de sacar bola blanca en el segundo intento, habiendo
sido blanca la primera P,(B.¿ I El) = 1/2.
De aquí que la probabilidad de que en ambos intentos saquemos una
bola blanca es :

Multiplicación de probabilidades para eventos independientes.


Cuando los eventos son independientes, P(B 1 A)= P(B) Y por consiguien-
te la regla se convierte en P(A, E) = P(A) P(B). Esto es, la probabi-
lidad de que ocurran 2 o más eventos independientes es igual al producto
de las probabilidades simples de los mismos. Por ejemplo, consideremos
que se lanza al vaire una moneda no cargada: Pícara) = 1/2. Las proba-
bilidades de obtener "cara" en dos intentos son: 1/2 X 1/2 = 1/4, puesto
que los resultados de las dos tiradas son independientes, Considere la
urna ya mencionada, con tres bolas, dos blancas y una negra. Ahora,
suponga que reponemos la primera bola después de haberla sacado,(Esto
se conoce como muestreo con reemplazo. ) En este caso las extracciones
son independientes y la probabilidad de obtener dos bolas blancas en dos
extracciones es:
120 Una introducción a la teoría de la probabilidad

ARBOLES DE PROBABILIDAD

Al trabajar con probabilidades a veces es útil expresar los problemas


en forma de un árbol de probabilidad. El árbol de probabilidad es un
simple recurso gráfico que ayuda a tener presentes varias partes de un pro-
blema; para explicar esto es mejor considerar un ejemplo: Suponga
que se saca una bola de una urna que contiene 3 bolas rojas y 6 ne-
gras. Si se saca una bola roja, entonces se saca otra bola de una segun-

Urna!

Diagrama sfnúmero

Urna 2 Urna 3

da urna que contiene 7 bolas verdes y 3 anaranjadas. Ahora bien, SI


la primera bola es negra, entonces se saca una segunda bola de una
tercera urna que contiene 4 bolas verdes y 6 anaranjadas. ¿ Cuál es la
Figura 5-2
ARBOL DE PROBABILIDADES
Primerl Se¡undl
extrlcción extrlcción 113 X 7/10 =7/30

113 X 3/10 =3/30

213 X 4/10 =8/30

213 X 6/10 = 12130


Ejemplos del uso de probabilidades 121

probabilidad de sacar una bola verde en la segunda extracción? El árbol


de probabilidad para este problema se muestra en la figura 5-2. Las
probabilidades que se indican en los extremos del árbol son las probabi-
lidades conjuntas de los diferentes eventos ocurridos a lo largo de las
ramas que conducen a ese extremo. Por ejemplo, la probabilidad de 7/30
es la probabilidad conjunta de una bola roja y luego una bola verde. El
cálculo 1/3 X 7/10 = 7/30 es una aplicación de la regla de la multipli-
cación. El árbol de probabilidad es simplemente una gráfica que sirve para
mostrar claramente cuál es el orden de los eventos y las probabilidades.
La pregunta original se refería a la probabilidad de obtener una
bola verde en la segunda extracción. Note que esto ocurre en la pri-
mera y tercera ramas. Usando la regla de la suma, la probabilidad de
sacar una bola verde es 7/30 -+- 8/30 = 1/2.

EJEMPLOS DEI. USO DE PROBABILIDADES

Ejemplo I-Juego de dados


Se arrojan dos dados. Suponiendo que no están "cargados", ¿ cuál es
la probabilidad de obtener una suma de puntos igual a siete? Existen
seis formas diferentes en que se puede obtener una suma de puntos
igual a siete; se listan en la tabla 5-4.

Tabla 5-4
FORMAS DE OBTENER
, SUMA DE PUNTOS IGUAL A SIETE

Primer dado Segundo dado Probabilidad

1 6 1/36
2 5 1/36
3 4 1/36
4 3 1/36
5 2 1/36
6 1 1/36
Total 1/6

Puesto que los dos dados son independientes, la probabilidad de obte-


ner suma de 7 puntos en cualquiera de las formas posibles listadas en
la tabla 5-4, es de 1/6 X 1/6 = 1/36 (utilizando la regla de la multipli-
cación). Las seis formas listadas son mutuamente excluyentes (no podemos
obtener un siete de dos maneras diferentes al mismo tiempo). Usando la
regla de la suma de probabilidades, la probabilidad total de obtener un
7 es seis veces 1/36 o sea 6/36 = 1/6.
122 Una introducción a la teoría de la probabilidad

Ejemplo 2-Muestreo
Un banco local tiene 50 cuentas de crédito, 8 de los cuales están atra-
sados en sus pagos. Si se seleccionan al azar 5 cuentas de las 50, ¿ cuál
es la probabilidad de que por lo menos una de las cuentas escogidas
corresponda a un diente atrasado en sus pagos?
Note que la probabilidad de que por lo menos una cuenta de las ele.
gidas esté atrasada, es igual a 1 menos la probabilidad de que todas las
cuentas estén al corriente. Por lo tanto, primero calculamos la probabi-
lidad de que ninguna de las cinco cuentas esté atrasada (es decir, que
todas las cuentas seleccionadas están al corriente). La probabilidad de
que el primer deudor seleccionado esté al corriente es P( C¡) ""' 42/50.
Para el segundo deudor, la probabilidad condicional de estar al día en
sus pagos, teniendo en cuenta que el primer deudor escogido estuvo al
corriente, es P(Cal Cl) - 41/49 (de los 49 deudores restantes.• 41 están
al corriente). De aquí que la probabilidad de 2 deudores al corriente es:

usando la regla de multiplicación de probabilidades. Para el tercer deudor,


la probabilidad condicional de estar al corfiente, dado el hecho de que los
2 primeros seleccionados 10 estaban, es de P(C3 1 Cl, Ca) =; 40/48. Por
lo tanto:

P(C t , C3 , Ca) = P(Ct ) P(Cd C¡) P(C a I e; Ca) "'"


= (42/50)'(41/49) ·(40/48)
Continuando de esta manera, la probabilidad de que las 5 cuentas elegidas
estén al corriente en sus pagos, es:

P(C l , Ca, Ca, C., C¡¡) = (42/50) (41/49) (40/48) (39/47) (38/46) = 0.40

Por consiguiente, la probabilidad de que por lo menos una de las cuentas


seleccionadas esté atrasada en sus pagos es de 1 menos la probabilidad
de que todas estén al corriente:

1 - 0.40 = 0.60

Ejemplo 3-Arbol de probabilidad.


La compañía ABe Varnish tiene actualmente el 20% del mercado
de barniz en cierta región. Su competidora más grande, la compañía XYZ
Varnish, tiene el restante 80%. El departamento de investigación y des-
arrollo reporta un progreso substancial en un producto muy mejorado. L6s
científicos de investigación y desarrollo estiman que hay un 80% de
probabilidad de desarrollar el barniz mejorado.
Ejemplos del uso de probabilidades 123

Si la ABe desarrolla y lanza al mercado el nuevo barniz, hay una


probabilidad de 0.60 de que XYZ también desarrolle un producto similar.
Si eso ocurre, hay 0.20 de probabilidades de que ABO gane un 80% del
mercado, una probabilidad de 0.30 de que la ABC tenga un 60% del mero
cado, y una probabilidad de 0.50 de que tenga un 40% del mercado. Si
XYZ no puede desarrollar también un nuevo barniz, entonces la ABC
tiene una probabilidad de 0.70 de obtener un 80% del mercado y una
probabilidad de 0.30 de obteneriun 50% del mercado. En caso de que
la ABC no pueda desarrollar el nuevo barniz, conservará su parte actual
de 20% del mercado.
¿ Cuál es la probabilidad de que la ABe gane un 60% o una parte
mejor del mercado? Realmente, la descripción anterior del problema. es
algo confusa. Pero describiéndola con un árbol de probabilidad se obtiene
mayor claridad. En el árbol de la figura 5·3 se ve que la probabilidad
de tener por lo menos un 60% del mercado se obtiene sumando las pro-
babilidades correspondientes a los extremos de la primera, segunda, y
cuarta ramas:

1.'11.611.21 =.096 ...


421
rart. d.(mercado IlIual al 80%
I·n.. .·....·-.........1.111..11·$1 =.144
art. del mWCldo ilull al 10%
D::.-......l......- - - I.•Il..Il." =.a40
rarte del m.rcado iguI' a' 40%

1.lI(All.lIl1.D4

Porción d.1 mercado igual .1 20% .200

Figura 5·3

Probabilidad de por lo menos 60% del mercado = 0.096 + 0.144 +


0.244 = 0.484.

Ejemplo 4-Lealtad a la marca


Los analistas de mercado se interesan en la preferencia de un cliente
hacia una marca particular, y en el efecto que tiene esa lealtad en la par-
ticipación de cada marca en el mercado. En este ejemplo, hay dos marcas
124 Una introducción a la teoria de la probabilidad

de un producto dado, A y B. Supongamos que un cliente que compra


la marca A en un período determinado (i) tiene un 0.50 de probabilidad
de' comprar nuevamente esa marca en el siguiente período (t + 1), y un
0.50 de comprar la marca B. Por otra parte los que compran la marca B
en el períodot, tienen una probabilidad de 0.70 de repetir la compra
de la misma marca B (hay más lealtad en los clientes de esta marca que
en los de la A) Y un 0.30 de probabilidad de cambiar a la marca A en
el períodot + 1. Esto se indica en la tabla 5-5.

Tabla 5·5
PROBABILIDADES DE COMPRAR NUEVAMENTE LA MISMA
MARCA O DE CAMBIAR A OTRA MARCA

Marca comprada en el período


(t + 1)
Marca comprada en el
periodo (1) Marca A Marca B

Marca A .50 .50


Marca B .30 .70

Además, supongamos que el comportamiento del comprador de una


marca depende sólo de la compra inmediata anterior, como se muestra en
la tabla 5-5, y que es estadísticamente independiente de las otras compras
previas. También suponemos que las probabilidades presentadas en esa
tabla no varían de período a período.
Supongamos que en un momento determinado, t, cada marca tiene
50% del mercado (el número de dientes que compran A es igual al
de los que compran B). Nos podríamos preguntar qué ocurrió con la
participación de mercado de cada marca después de transcurrido un
período (momento t + 1): Durante el período transcurrido, A ha re-
tenido el 0.50 de sus propios clientes y ganó un 0.30 de los clientes de
la marca B. Esto es, que la distribución del mercado en el momento
t+l,es:
Marca A = (0.50) (50%: participación previa. en el mercado de la
marca A) '+ (0.30) (50%: participación previa en el merca-
do de la marca B) = 40% del mercado.
Marca B = (0.70) (50%: participación previa en el mercado de la mar-
ca B) + (0.50) (50%: participación previa en el mercado de
la marca A) = 60% del mercado.
Al finalizar el primer período, la marca B ha incrementado su par-
ticipación al 600/0 del mercado. El proceso se repite durante el segundo
período de tal manera que la participación en el mercado, en el mo-
mento t + 2 es:
Marca A = (0.50) (40%: participación previa en el mercado de ni mar-
ca A) + (0.30) (60%: participación previa en el mercado
de la marca B) = 38% del mercado.
Ejemplos del uso de probabilidades 125

Marca B = (0.70) (60%: participación previa en el mercado de la marca


B) + (0.50) (40%: participación previa en el mercado de
la marca A) = 620/0 del mercado.
La participación en el mercado de la marca B, se ha incrementado
nuevamente, pero muy poco. Si el proceso se repite durante muchos pe-
ríodos se alcanza un equilibrio, en que la marca A conserva tres octavos
del mercado y la marca B cinco octavos del mercado. En este punto el
número de clientes que dejan la marca A por la B, queda balanceado
exactamente con aquellos que cambian de B hacia A.
Muchas estrategias de mercado (tales como precios, publicidad y
acuerdos de distribución) tienen por objetivo influir en la preferencia
hacia la marca (es decir, influyendo en las probabilidades como las pre-
sentadas en la tabla 5-5). El análisis de probabilidades expuesto anterior-
mente permite conocer los efectos secuenciales de estas estrategias sobre
la participación en el mercado.

Ejemplo 5-Programación de proyectos


La investigación y el desarrollo de proyectos requieren la programa-
ción y coordinación de gran número de actividades. Por lo general, es
muy importante completar el proyecto en una fecha predeterminada.
Cuando los tiempos para completar alguna de las actividades son incier-
tos, el tiempo de terminación del proyecto total también es incierto. Sin
embargo, podemos calcular la probabilidad de terminación del proyecto
en un tiempo dado.

Comienzo Actividad A Final


o~------------~o

Figura 5-4

Considere el, siguiente ejemplo simplificado. Un proyecto consta de


3 actividades: A, B y C. La actividad B debe ser completada antes de que
la e pueda comenzar. La actividad A no depende para su inicio ni
de B ni de e (se ejecuta simultáneamente) pero ambas A y e
deben ser
completadas antes de que el proyecto se considerte terminado. Este arreglo
-con líneas que indican las actividades-, se ilustra en la figura 5-4.
El tiempo necesario para completar cada actividad es incierto, debido
a las condiciones meteorológicas y a otros factores impredecibles. Sin
embargo, se asignan probabilidades a los tiempos de terminación de las
actividades, como, se indica en la tabla 5-6.
126 Una introducción a la teoria de la probabilidad

Tabla 5-6
PROBABILIDADES Y TIEMPOS NECESARIOS PARA
COMPLETAR LAS ACTIVIDADES A, B y e

Tiempo para terminar)


Actividad semana.: Probabilidad

A 4 .50
6 .50
1.00
B 1 .25
3 .75
1.00
e 2 .80
4 .20
1.00

Denotemos el evento "la actividad A requiere 4- semanas para termi-


narse" por el símbolo A-4-. Análogamente tenemos A-6, B-l, etcétera. Su-
pongamos que los tiempos necesarios para la terminación de las actividades
son mutuamente independientes --el tiempo requerido para completar
la tarea B, por ejemplo, no influye en el tiempo necesario para la acti-
vidad C.
Deseamos determinar las probabilidades asociadas con la duración
total del proyecto. Si ocurren los eventos A-4, B-l y C-2, el proyecto total
durará 4 semanas (este tiempo, es el requerido para completar A; las
labores B y e toman sólo un total de 3 semanas). De aquí que, la proba-
bilidad del evento T-4 (tiempo total igual a 4 semanas) es:

P(T-4) = P(A-4, B-l, C-2) = P(A-4) (P(B-l) (P(C-2)


(0.50) (0.25) (0.80) = 0.10

usando la regla de multiplicación de probabilidades para eventos inde-


pendientes.
El evento T-5 puede realizarse con cualquiera de los conjuntos de
eventos A-4, B-l, C-4 o por el conjunto A-4, B-3, C-2. Estos conjuntos
son mutuamente excluyentes: uno u otro pueden ocurrir, no ambos; y

P(A-4, B-l, C-4) (0.50) (0.25) (0.20) = 0.025


P(A-4, B-3, C-2) (0.50) (0.75) (0.80) = 0.300

De aquí que la probabilidad de T·5 es la suma: 0.325


Las probabilidades para los valores de T-6 y T-7, pueden determinarse
de manera análoga y se presentan en la tabla 5-7.
Distribución de probabilidad 127

Tabla 5·7
PROBABILIDADES Y TIEMPOS NECESARIOS PARA
COMPLETAR EL PROYECTO

Tiempo para completar el


proyecto (semanas) Probabilidad

4- .10
5 .325
6 .425
7 .15
1.000
r

Partiendo de la información sobre la probabilidad simple del tiempo


necesario para completar cada una de las actividades, hemos determinado
un conjunto completo de probabilidades para la duración total del pro-
~to.

DISTRIBUCION DE PROBABIUDAD

Considere, a modo de ejemplo, que se lanzan 4 monedas..En la tabla 5-8


se indican las probabilidades de obtener un número determinado de

Tabla 5·8
PROBABILIDADES DE .oBTENER DIVERSOS
NUMEROS DE "CARAS" AL ARROJAR
CUATRO MONEDAS NO CARGADAS

Número de 'í caras'", r Probabilidad, P(r)

o 1/16
1 1/4-
2 3/8
3 1/4
4 1/16

"caras" (r), según se indican en la gráfica de la figura 5-5. Note que


esta tabla expresa simplemente una relación funcional entre los valores
de una variable(r) y otro conjunto de valores P(r). Este tipa de función
se denomina distribución de probabilidad. Llamamos variable aleatoria
a la variable (r) (número de caras). Es aleatoria en el sentido de que no
podemos predeterminar el valor exacto que esa variable tendrá en un ex-
perimento dado; sólo se conocen las probabilidades de que pueda resultar
tal o cual valor. Cada probabilidad P (r) corresponde a un valor dado
de r. Corno se mencionó anteriormente cada valor de P(r) debe estar
128 Una introducción a la teoría de la probabilidad

REPRESENTACION GRAFICA DE LA DISTRIBoUCION


DE LA PROBABILIDAD DE LA TABLA 5-8
Probabilidad
plrl
.50

.25

1 2 3 4
NQmero de caras
Figura 5-5

'Comprendido entre O y 1, Y la probabilidad total de un conjunto de


eventos mutuamente excluyentes y colectivamente exhaustivos debe ser
igual a 1 (por ejemplo; para O, 1, 2, 3 y 4 caras).

Distribuciones continuas y discretas


Una distribución de probabilidades puede ser continua o discreta, de-
pendiendo de si la variable aleatoria puede tomar cualquier número real
en un intervalo específico o si está restringida a valores específicos (a
menudo enteros).
La distribución anterior es discreta, puesto que la variable aletoria
(r) sólo puede tomar valores enteros específicos. Hay O ó 1, Ó 2 ó 3 ó 4
caras en 4 lanzamientos de una moneda. No es posible obtener 1% caras
-o 1.648 caras. Por otra parte, la distribución de los diámetros de cojinetes
es continua, puesto que la variable aleatoria puede tomar cualquier valor
(si se dispone de instrumentos de medición suficientemente precisos).
En las distribuciones de probabilidad de las tablas 5-7 y 5-8, la relación
existente entre la variable aleatoria y la función de probabilidad puede
definirse por medio de la propia tabla. Otras distribuciones de probabi-
lidad pueden definirse mediante ecuaciones matemáticas. Por ejemplo, la
función P(X) = 0.25X - 0.05X2 puede definir una distribución discreta
de probabilidades en la cual la variable aleatoria X pueda tomar sólo
los valores enteros 1, 2, 3 ó 4. Análogamente, la función continua P(X) =
O.06X - 0.OO6X2 puede definir una distribución continua de probabilidad
en la cual la variable aleatoria puede tomar cualquier valor entre 9 y 10
(es decir O < X < 10). En el capítulo 6 se estudian detalladamente
tres distribuciones de probabilidad específicas.
Distribución de probabilidad 129

EJEMPLOS DE DISTRIBUCIONES Dt'. PROBABILIDAD


DEFINIDAS MEDIANTE ECUACIONES MATEMATICAS
"bilídad
.p(x) PI X)

A 8
Distribuci6n discretl Distribuci6n continua
.20
PIX) • .25X- .05x2 PIX)-.06X-.OO6X2
en que X-l, 2,3, 4 en que 0< X<10


•I

2 3 4
x ---:'::--X

Figura

Representación gráfica de distribuciones


de probabilidad
En las figuras S-S y S-6A se muestran dos ejemplos de distribuciones
de probabilidad. Los valores de la variable aleatoria se indican en el
eje de las abscisas (X), Y las probabilidades asociadas en el eje de las
ordenadas (Y). Este histograma es el mismo que el del capítulo 2,ex-
cepto que la escala vertical indica probabilidades en lugar de frecuencia.
Las distribuciones continuas de probabilidad se representan por curvas
suaves, tal como la de la figura 5-6B. Sin embargo, los valores de P(X)
representan sólo la altura de la curva en cualquier punto X y no son
probabilidades. En una distribución continua, la probabilidad de que la
variable aleatoria tome un valor específico es infinitamente pequeña.
Podernos hablar sólo de la probabilidad de que una variable aleatoria se
encuentre en un rango específico de valores. Por ejemplo, la probabilidad
de que X esté comprendida entre 6 y 8, o P(6 < X < 8), está repre-
sentada por el área sombreada en la figura 5-6B. El área total bajo la
curva (es decir, la probabilidad para todos los valores de X) es igual
a la unidad. Por eso en el caso de distribuciones continuas la probabilidad
está asociada con áreas bajo la curva de la distribución.
A veces es conveniente disponer de diagramas, que representen la
probabilidad de que una variable aleatoria sea menor (o mayor) que
un valor dado. Esas representaciones gráficas de distribuciones acumu-
lativas (ver figura 5-7) son como las ojivas estudiadas en el capítulo 2,
excepto que se grafican probabilidades acumuladas en lugar de frecuencias.
(Note el uso de la distribución acumulativa en el procedimiento de deter-
minación de probabilidades, descrito en el Apéndice B.)
130 Una introducción a la teoría de la probabilidad

DISTRIBUCIONES ACUMULATIVAS
Probabilidad Caso discreto Probabilidad Caso continuo
aeumulativlI PIX}•.2.5X-.05X2. acumulativa PIJe)".06X-.OOói2
PIX·al en que X,,,, 2, 3,4 P(X 06al en que 0<X<10
1.0 1.0

.50 .50

2. 9
Figura 5·7

VALOR· ESPERADO Y VARIANCIA DE DISTRIBUCIONES


DE PROBABILIDADES

El valor esperado de una variable aleatoria discreta Xse define así:

E(X) = ~[X . P(X)]

en que P(X) es la probabilidad correspondiente a cada valor de X.


Note que multiplicamos cada valor de X por su probabilidad y sumamos
todos los productos. El concepto de valor esperado corresponde al de un
promedio aritmético ponderado X = ~fX/n, en que la probabilidad P(X)
es equivalente a la frecuencia relativa f, y n = 1; esto se debe a que la
suma de las probabilidades es igual a l.
Consideremos una agencia de automóviles nuevos que vende de O a 6
unidades (X) al día. En un período normal, la agencia no vende en el
20% de los días, y vende un automóvil en el 25% de los días, etcétera,
tal como se presenta en la tabla 5-9. Estas frecuencias relativas deben
ser utilizadas como estimaciones de las probabilidades P(X) de ventas
futuras.
Para calcular el valor esperado, multiplique X por P(X) y sume 105
productos (columna 3):

E(X) = ~IX . P(X)] = 2.00

Es decir, que el promedio de ventas O el valor esperado de las ventas e;


de 2 automóviles por día. El valor esperado también se llama primer
momento de una distribución de probabilidad.
Valor esperado y variaucia de distribuciones 131

Tabla 5-9
DISTRIBUCION DE PROBABILIDADES DE V¿NTAS DE VEHICULOS
VALOR ESPERADO Y VARIANCIA

Automóviles
vendidos Probabilidad
(X) P(X) X·P(X) X-E(X) [X-E(X)]2 [X _ E(X) J' . P(X)

O .20 O -2 4 .80
1 .25 .25 -1 1 .25
2 .25 .50 O· O O
3 .10 .30 1 1 .10
4 .10 .40 2 4 .40
5 .05 .25 3 9 .45
6 .05 .30 4 16 .80
Total 1.00 2.00 2.80

La principal medida de dispersión de una distribución de probabili-


dad es la variancia (el cuadrado de la desviación estándar o (T2), que se
define como:

Variancia = 2:{[X - E(X) 12 P(X)} en una distribución discreta.

Esto es equivalente a la fórmula S2 = "'2.f(X - X)2/ n (capítulo 4)2


donde P(X) se utiliza en lugar de. la frecuencia t, X - E(X) = X - X;
Y n = 1. Para calcular la variancia, tomemos la desviación de la media
es decir, X - E(X), se la eleva al cuadrado, se multiplica por la pro-
babilidad P(X) y se suman los productos (columnas 4 a 6).
Para este caso de venta de automóviles,

Variancia = 2.80 (al pie de la columna 6)


Desviación estándar = V2.80 = 1.67 automóviles

La variancia también se llama segundo momento respecto a la media.


Mientras más lejanos estén los valores de X con respecto al valor espe-
rado, mayor será el segundo momento.
Podemos definir el tercer momento con respecto a la media (medida
de asimetría) y el cuarto momento (la medida de apuntamiento o cur-
tosis) y así sucesivamente. Sin embargo, la utilidad de esos momentos es
limitada.
Para encontrar el valor esperado y la variancia para distribuciones
continuas se requiere usar el cálculo (vea el Apéndice A al final de este
capítulo). Sin embargo, las nociones básicas se aplican igualmente bien
a las distribuciones continuas.

2 No corresponde utilizar aquí el denominador n - 1.


132 Unaintroducción a la teoría de la probabilidad

El valor esperado, la desviación estándar y la variancia de una dis-


tribución de probabilidad son útiles en sí mismas como medidas de ten-
dencia central y dispersión, como lo son medidas similares para distribu-
ciones de frecuencia (descritas en los capítulos 3 y 4). Esas medidas serán
útiles también en los capítulos siguientes al resumir distribuciones en
problemas de decisión, y en análisis muestra!.

RESUMEN

La probabilidad es un número comprendido entre O y 1, que describe


la factibilidad de que ocurra un evento. Las probabilidades se consideran
frecuentemente como el límite del cociente de "éxitos" con respecto al
total de ensayos, en un número grande de experimentos. Sin embargo, las
probabilidades pueden estimarse a partir de cualquiera de las tres siguien-
tes fuentes: 1) la frecuencia relativa de eventos pasados, basada tanto
en .experimentos como en encuestas; 2) distribuciones teóricas; o 3) el
juicio subjetivo de la persona que toma las decisiones.
Una probabilidad simple es la probabilidad de que ocurra un evento.
Una probabilidad conjunta es la probabilidad de que dos o más eventos
ocurran simultáneamente. Una probabilidad condicionar es la probabili-
dad de que ocurra un evento, dado el hecho de que otro evento ha
ocurrido. U na probabilidad marginal es la probabilidad de que ocurra
un evento, calculada como la suma de las probabilidades conjuntas en
que interviene ese evento.
Dos eventos son estadísticamente independientes si la probabilidad
condicional de uno, dado el otro, es igual a la probabilidad simple del
primero; es decir si P (A I B) = P (A). La independencia de eventos
implica que el conocimiento de uno de ellos no sirve para predecir el otro.
Si dos eventos son mutuamente excluyentes, la probabilidad de que
uno u otro puedan ocurrir es igual a la suma de las respectivas probabi-
lidades simples; esto es, P (A ó B) = P (A) + P (B). Si los eventos no son
mutuamente excluyentes, la probabilidad de que uno u otro puedan ocurrir
es igual a la suma de sus respectivas probabilidades simples, menos la
probabilidad conjunta de que ocurran ambos eventos: P(A B) = P(A)
ó

+ P(B) - P(A, B).


La probabilidad conjunta de que dos eventos (A y B) puedan ocurrir,
es la probabilidad simple del segundo; esto es, P(A, B) = P(A) P(BIA).
Cuando los eventos son independientes se tiene que P(BIA) = P(B), o
sea que la probabilidad con junta es simplemente igual al producto de las
probabilidades simples: P(A, B) = P(A) P(B).
Un árbol de probabilidad es un diagrama que muestra un orden ló-
gico, en problemas de probabilidad que implican varias etapas. Cada
rama representa un evento posible y su probabilidad, de manera; que se
puede encontrar fácilmente la probabilidad conjunta de cualquiera com-
binación de eventos.
Apéndice A: Valor esperadoy variancia de distribuciones 133

Una distribución de probabilidad es una relación funcional que hay


entre los valores de la variable aleatoria (r) y un conjunto de probabi-
lidades P (r). Las distribuciones de probabilidad pueden ser continuas o
discretas, dependiendo de si la variable aleatoria puede tomar sólo un
conjunto restringido de valores (es decir, sólo enteros) o cualquier valor
dentro de un intervalo. Las probabilidades pueden representarse gráfica-
mente de la misma manera que las frecuencias estudiadas en el capítulo 2.
El valor esperado de una distribución de probabilidad discreta es el
promedio aritmético ponderado de la variable aleatoria, en que las pro-
babilidades son las ponderaciones, esto es: E(X) = :¿X . P(X). La va-
riancia de una distribución discreta de probabilidades es la suma de los
productos que se obtienen al multiplicar los cuadrados de las desviaciones
con respecto al valor esperado, multiplicados por sus respectivas proba-
bilidades:

La desviación estándar es igual a la raíz cuadrada de la variancia. Estos


conceptos generales se aplicarán en el capítulo siguiente a cuatro distri-
buciones específicas de probabilidad.

APENDICE A : VALOR ESPERADO y VARIANCIA DE


DISTRIBUCIONES CONTINUAS
Definición. Una distribución continua ¡(X) de una variable alea-
toria X es una función tal que:

f(tr) ¿ O para toda X, y

J
para toda X
f(X) dX = 1.0

Valor esperado. El valor esperado de la variable aleatoria X se


define como:

E(X)
J
para toda X
Xf(X) dX

Entonces para la función f(X) = 0.06X - 0.06Xt, O < X < 10


10 0.06X3 0.006X4110
E(X) =
o J X(0.06X - 0.006X2) dX = ---- - ---'-', •
340
= 20 - 15 = 5

En general, el valor esperado de cualquier expresión que incluya a


X, digamos g(X), es:
134 Una introducción a la teoría de la probabilidad

E[g(X)] =
J
para toda X
g(X)f(X) d(X)

Variancia. La vanancia ((12) es el valor esperado de la función


[X - E(X)]2

0-
2
= E([X - E(X)]2 =
J
para toda X
[X - E(X))2 . f.(X) dX

En este ejemplo, E(X) = 5.0, Y

(12 = Ji0 (X - 5)2(0.06X - 0.006X2) dX

J10 (X2 - 10X + 25) (0.06X - 0.006X2) dX

J10 X2(0.06X - 0.006X 2) dX - 10 ji0 X(0.06X - 0.006X2) dX

+ ;5 jlO (O.06X - 0.006X2) dX

=
0.06X 4
-- -
0.006X5) 1]0 - 10(5) + 25(1)
(. 4 5· o

= (150 - 120) - 50 + 25 = 5.0

y la desviación estándar es (1 = v'5.O = 2.24


Evaluación de probabilidades. La integración puede ser utilizada
para medir áreas bajo curvas y evaluar probabilidades para el caso de
distribuciones continuas. Por ejemplo, la probabilidad de que X esté entre
5 y 7, en este ejemplo, es:

P(5 <X< 7) 5f (0.06X - 0.006X2) dx

= 0.03X2 - 0.002X3¡:
= O.2M

APENDICE B: ESTIMACION DE LAS DISTRIBUCIONES DE


PROBABILIDAD SUBJETIVAS

Las estimaciones de la probabilidad de eventos desconocidos son nece-


sariamente subjetivas. Considere el ejemplo de un gerente que debe
hacer una estimación del costo unitario de producción de un nuev9
Apéndice B: estimación de las distribuciones de probabilidad 135

a~tículo que está considerando su compañía. Por supuesto, él podría


examinar la información disponible, incluyendo las estimaciones de inge-
niería de las tasas de producción y la utilización de mano de obra y
materiales y también podría examinar los récords históricos de productos
similares. Toda esa información es muy útil, pero todavía lo deja, con
grandes dudas acerca de cuál será el costo real. Para expresar esa incer-
tidumbre, el gerente podría determinar una distribución de probabilidad
subjetiva para el factor desconocido, costo unitario. En este apéndice se
describe un método que ha sido útil para determinar tales distribuciones
de probabilidad. Se llama método de apueste usted 'mismo. Y en un mo-
mento verá por qué.

Estimación de la mediana

El primer paso es encontrar el valor medio -la mediana. Recuerde


que la mediana divide en dos partes iguales al área de la distribución
de probabilidad. Suponga que el gerente hace una primera suposición
de $3.25 por caja. Luego formula dos apuestas acerca del verdadero valor
del factor desconocido (costo unitario):

Apuesta 1: El valor verdadero está debajo de la mediana estimada


($3.25 por caja)
Apuesta 2: El valor verdadero está arriba de la mediana estimada

Ahora, el gerente imagina que de ganar una de las dos apuestas


depende un premio importante (por ejemplo, unas vacaciones en Hawai).
y escoge cuál es la apuesta que le convendría más. Si las apuestas le
parecen empatadas, l~ estimación de la mediana es satisfactoria; O sea,
que cada apuesta tiene una probabilidad de ganar de 50%. Por otra
parte, si el gerente tiene gran preferencia por una u otra apuesta, entonces
debe revisar la estimación de la mediana. Por ejemplo, si prefirió la
apuesta 2 (implicando que tenía una probabilidad mayor que el 500/0
de ganar), debe revisar su estimación de la mediana a $3.30 por caja y
reformular las apuestas. Si después de ello considera que las apuestas
están empatadas, entonces $3.30 sería la estimación de la mediana.

Estimación de los cuartiles


Los cuartiles dividen en cuatro partes iguales al área de probabilidad.
Los cuartiles son el cuartil inferior, Q¡; el mediano, que es el cuartil
central; y el cuartil superior, Q" (ver el capítulo 4 para los detalles).
El procedimiento para calcular Q¡ y Q:j es similar al que se usa para
estimar la mediana, descrito antes. Por ejemplo, para estimar Q¡, el
gerente empezaría por encontrar un valor del factor desconocido (costo
unitario) algo menor que la estimación de la mediana. Supongamos que
escoge $3.20 por caja. Entonces formula apuestas como:
136 Una introducción a la teoría de la probabilidad

Apuesta 1: El verdadero valor será menor que la Ql estimada ($3.20)


Apuesta 2: El verdadero valor estará entre la Ql estimada y la mediana
estimada ($3.20 y 3.30).

Si esas apuestas parecen empatadas, entonces el cuartil estimado es


satisfactorio. De otra manera, debe revisarlo hacia arriba o hacia abajo
hasta que al gerente le parezca que las dos apuestas están empatadas.
Supongamos que la estimación de $3.20 para Ql es satisfactoria.
El cuartil superior, Q:¡, se estima de la misma manera, encontrando
un valor superior a la mediana, formulando apuestas y revisando hasta
encontrar apuestas empatadas. Supongamos que el gerente estimó Q3 en
$3.50 utilizando ese procedimiento.

Verificación de la consistencia: La amplitud cuartílica

Una vez que el gerente haya realizado esas estimaciones, es útil que
revisen los datos para ver si son consistentes, para lo cual puede formular
las siguientes apuestas:
Apuesta 1: El verdadero valor está dentro de la amplitud cuartílica,
es decir, entre Ql y Q3
($3.20 Y $3.50)
Apuesta 2: El verdadero valor está fuera de la amplitud cuartílica,
ya sea por debajo de Ql o
arriba de Q3 (menos de
$3.20 o más de $3.50)
Las apuestas basadas en las estimaciones previas deberían estar em-
patadas.Si el gerente tiene preferencia por alguna de ellas, debe revisar
sus estimaciones. Puesto que la estimación de probabilidades es una tarea
difícil, es común que esas apuestas no parezcan empatadas y que sea
necesaria una segunda ronda de estimaciones.
En este ejemplo, supongamos que al gerente le es indiferente cual-
quiera de las dos apuestas anteriores y no necesita revisar su estimación.

Estimación de valores extremos

Ahora, el gerente debe seleccionar valores cercanos a los extremos


de su distribución de probabilidad. Suponga que considera primero una
estimación baja. Trata de imaginar qué factores tendríamos que conju-
gar para tener un costo por caja realmente bajo. Suponga que finalmente
escoge una estimación de $3.00 por caja, suponiendo que sólo hay una
oportunidad en 10 de que el costo sea tan bajo. Esta sería una estimación
del decil inferior -abreviado LD- o punto de 10% de la distribución
de probabilidad. Entonces el gerente formula las siguiente apuestas:
Apuesta 1: Se gana un premio si se saca una bola roja de una urna que contiene
una bola roja y nueve blancas. .
Apuesta 2: Se gana un premio si el verdadero valor es menor que el LD estimado
($3.00 por caja).
Apéndice B:estímación de las distribuciones de probabilidad 137

Como antes, si esas apuestas parecen parejas, la estimación es satisfac-


toria: si no, el LD estimado debe revisarse. Supongamos que el gerente
considera que las apuestas están empatadas.
en procedimiento similar se utiliza para estimar el decil superior o
UD. Suponga que el gerente encuentra que su estimación es de $4.00.

La distribución de probabilidad acumulativa


Las cinco estimaciones obtenidas por el proceso descrito anteriormente
son suficientes para describir la distribución de probabilidad acumulativa
para el factor desconocido (costo por caja en nuestro ejemplo). Los cinco
puntos se grafican y se dibuja una curva suave que los una como en la
figura 5-8. Esta curva describe la distribución de probabilidad subjetiva
para el costo unitario desconocido, y puede utilizarse en problemas de
decisión como los descritos en el capítulo 7.
También se puede dibujar una función de densidad de probabilidad,
como la que se muestra en la figura 5-9. Esta se obtiene de la distribución

DISTRIBUCION DE PROBABILIDAD ACUMULATIVA


Costo por caja para un producto nuevo
1.00

~
~ .75
..
""o
...c:
E
.........
.s
...
8.50
O;
...
:::1

""
CD
.."

...
.."

;g
:.c
1l .25
e
a.

0"----'""'-_ _"'-_--1. -'--_ _---1-----


3.00 3.50 4.00 x
Costo por caja (pesos)
Figura 5-8
138 Unaintroducción ala teoría de la probabilidad

FUNCION DE DENSIDAD DE PROBABILIDAD SUBJETIVA


Costo por caja para un producto nuevo

3.00 3.25 3.50 3.75 4.00


Costo por caja (pesos)

Figura 5-9

acumulativa." Note que la función de densidad es asimétrica a la derecha


e indica una buena probabilidad de que el costo real pueda ser superior
al valor mediano.

PROBLEMAS

1. El propietario de un lote de automóviles ha clasificado sus ventas del año


pasado en la siguiente tabla:

Compra de automóviles y método de pago


(Porcentaje sobre ventas totales)

Forma de pago
Tipo de automóvil
comprado contado cré dit o

Nuevo 6% 180/<·
Usado 30% 46%

, La función de densidad suavizada se puede obtener dividiendo la amplitud


del valor desconocido en intervalos y determinando la probabilidad acumulada en
los extremos de cada intervalo. La probabilidad en cada intervalo es la diferencia
entre los valores acumulativos de los extremos. Finalmente se puede graficár un
histograma utilizando esas probabilidades y dibujar una curva suave para hacer un
cálculo aproximado de la función de densidad de probabilidad.
un azar,
un autoinóvil nuevo?
¿ la conjunta de un automóvil
crédito ~)
e) ¿Cuál es 1:::", probabilidad condicional de que un
usado al contado?
el) Es el tipo de automóvil vendido (en el sentido estadístico')
método de pago? ¿ qué~'

Su.ponga que los hombres de negocios leen los periódicos de acuerdo con la
siguiente tabla:

U'ninersal 5'Ir;

de los anteriores . 15
y Ex célsior . 15
Tl niuersal y Novedades .
Nouedades y Excélsior . 10
)0-105 tres , .

'Total )00%

a) Si cierto empresario lee el U'nirersal }t;xcélsior:> ¿ cuál es la probabilidad


de que también lea Novedades?
b) ¿ Qué proporción de comerciantes leen El Universal?
e) ¿ Son independientes los eventos "ser lector del Unio ersol" y "ser lector de
Excélsior" ?
el) ¿ Son independientes los eventos "ser lector No ocdarles" y "ser lector
del Excélsior"?
3. Un inversionista en valores ha clasificado sus existencias de valores financieros
de la siguiente manera:
Voiorcs de cm.presas
Valores industriales
(P'orcenl'aje)

Grandes empresas
Precio incrementado
(en el año pasado) 4
Precio disminuido [) '7
Total 12 8
Pequeñas empresas
Precio incrementado 1 '7 :3
Precio disminuido 55 5
Total 8

Total ()(JO%) IH 16
En esta cartera, de valores:
(l) Si un valor financiero fuera seleccionado al azar, (~cuál la probabilidad
de que sea uno de los que han incrementado su precio? ¿ (¿ué tipo de
probabilidad es ésta? ¿ (simple, conjunta, marginal o condicional)?
b) ¿ Cuál es la probabilidad de que sea un valor financiero cuyo precio se ba
incrementado dado que es una gran empresa industrial? ¿ (2ué tipo de
probabilidad es ésta?
e) ,~Es independiente el tamaño de la empresa del comportamiento de los
precios? ¿ Por qué?
140 Una introducdon a la teoria de la probabilidad

d) ¿Es independiente el tipo de valores (industriales y de empresas públicas)


del comportamiento de los precios? ¿ Por qué?
e) ¿ Es independiente el comportamiento de los precios de ambas caracteristi-
cas: tamaño de empresa y tipo de valor financiero? Explique por qué.

4. Suponga que el 70°10 de las empresas en determinada industria tienen un


abogado en la Junta de Directores y que un 40% tienen un banquero en la
Junta. ¿ Qué proporción de las empresas no tienen banqueros ni abogados en
su Junta?

5. Analizando las ventas de último año de cierto producto en una tienda de


menudeo, se determinó que el 10% de las compras las hicieron hombres y 20%
de ellas fueron por valores mayores a $10.00. Si usted sabe que el 80% de los
clientes masculinos hacen compras mayores de $10.00:
a) ¿ Qué porcentaje de compras mayores de $10.00 son hechas por hombres?
b) ¿ Qué porcentaje de compras son hechas por hombres o son mayores de
$10.00?

6. Si el 30% de los hogares en una ciudad tienen secadoras eléctricas, el 40%


tienen estufas eléctricas y si 25 (;;: de aquellos que tienen estufas eléctricas
también tienen secadoras eléctricas, ¿ qué proporción de aquellos que tienen
secadoras eléctricas también tienen estufas eléctricas?

7. Una compañía de investigación de mercados está interesada en examinar


algunas actitucles en una pequeña comunidad. Hay 125 hogares clasificados
de acuerdo con sus ingresos y con el hecho de ser propietarios de teléfono y
televisión.
llagares con ingresos de: Hogares con ingresos de:
$8 (100.00 o menos más de $8 000.00
con teléfono sin teléfono con t el c[on o sin teléfono

con TV . 27 20 18 10
sin TV . 18 10 12 10

a) ¿ Cuál es la probabilidad de elegir un dueño de TV en una selección


aleatoria?
b) Si una familia con ingresos de más de $8,000.00 tiene teléfono. ¿ Cuál e~
la probabilidad de que tenga TV?
o) ¿ Cuál es la probabilidad condicional de elegir una familia que tenga una
TV, dado el hecho de que tiene teléfono?
el) ¿ Son estadísticamente independientes los eventos "ser propietario de TV"
y "poseer un teléfono"?
e) ¿ Son independientes los eventos "ingresos de $8,000.00 o menos" y "sel
propietario de TV"?
8. En calidad de vendedor de bonos, usted está pensando usar una lista de
pietarios de acciones para efectuar su publicidad por correo. Se sabe que
40% de los inversionistas financieros tienen solamente acciones y el
tienen sólo bonos, mientras que otro 20(~ tienen de ambos, y los restantes
no tienen ni bonos ni acciones. Entonces, si un inversionista es
de acciones, ,'cuál es la probabilidad de que también sea inversionista
bonos?
9. Una pieza de equipo electrónico tiene tres partes esenciales.
la parte ha fallado el 20% del tiempo; la parte B, ,tlJf/r, del tiempo
parte C, 30% del tiempo. La parte A opera independientemente de las
partes B e están interconectadas, de tal mariera que la falla de
otra. eso, cuando falla la parte C, dos de cae];'
también parte B.
Suponga que por lo menos dos de las tres partes deben
permitir el funcionamiento del equipo. ¿ Cuál es la probabilidad de que el
equipo funcione?

10. El jefe de policía ele un área metropolitana estaba revisando las estadísticas
del número de accidentes fatales de peatones durante el año anterior. De un
tata! de 12 muertes, notó que 6 muertes ocurrieron mientras el peatón cruzaba
con la luz apropiada y 6 murieron mientras cruzaban la calle con la luz roja.
¿ Podría concluir el jefe de policía en qué es tan peligroso obedecer las señales
de tráfico al cruzar la calle corno desobedecerlas? Explique por qué.

11. Si un empleado elude su trabajo el 30% del tiempo, ¿ cuál es la probabilidad


de que sea sorprendido, si su jefe lo controla cuatro veces al azar?

12. Corno capitán en un juego de beisbol, en un momento crucial usted considera


que su "pitcher" tiene un 70(¡{, de probabilidades para poner "out" al siguiente
bateador, Usted puede reemplazarlo con un relevo, que tiene 9OC!C de proba-
bilidades de obtener el '''out.'', si está en su mejor momento, pero sólo el
40% si no está en su mejor momento. Su entrenador de lanzamiento, le
informa que, según las observaciones que hizo durante el entrenamiento, él
cree que el "lanzador" de relevo tiene alrededor de 70% de probabilidades
de estar en su mejor momento, ¿ cambiaría usted de "pitcher"?

13. ¿ Cuáles de las siguientes funciones son distribuciones de probabilidad? Ex-


plique por qué.

a) P(X) = X/lO para X = 1, 2, 3, 4


b) P(X) =X'/10 para X =
1, 2, 3, 4
e) P(X) = 0.40 --- 0.02X" para X = 1, 2, 3, 4

14. Encuentre el valor esperado y la variancia de la distribución presentada en


la tabla 5-7.

15. Encuentre el valor esperado y la variancia de la distribución presentada en la


tabla 5-3.

16. Encuentre el valor esperado y la variancia de la distribución de probabilidad.

P(X) = O.25X - 0.05X' para X = 1, 2, 3, 4

17. La siguiente tabla representa una distribución de probabilidad del número


de orquídeas (Z) pedidas por los clientes de una florería:
Número iredido Probabilidad
Z P(Z)

O 0.05
1 0.10
2 0.25
3 0.30
4 0.20
5 0.10
6 O más . O
1.00
Calcule el valor esperado y la variancia de Z.
142 Una introducción a la teoria de la probabilidad

18. Considere la distribución de probabilidad dada por la siguiente tabla:

P(X)

0.18
0.32
0.20
0.12
.\ 0.08
5 0.06
003
0.01

1.00
a) ¿Cuál es el valor esperado de X?
b) ¿Cuál es la variancia de .nV?
..
,)
e) ¿Cuál es la probabilidad condicional de que X ~, dacio el hecho de
que ..-Y es un número par o cero?

19. Un ejecutivo está en el proceso de contratar a un nuevo gerente de pro-


ducción. Hay cuatro candidatos para el empleo. El ejecutivo los en trevista rá
individualmente en días sucesivos. Debido a ciertos factores que están fuera
de su control, el ejecutivo debe decidir inmediatamente después de entrevistar
a cada candidato y saber si lo contrata o no (o sea, que no puede esperar
hasta hablar con todos pata decidirse). Sólo un candidato será empleado.
El ejecutivo ha decidido calificar a cada candidato, terminando su entrevista,
como excelente, bueno, promedio o malo. Con ]0 que ya sabe de los candi-
datos, el ejecutivo cree que son similares --··cada cual con una probabilidad
de 0.2 de ser calificados excelente después de la entrevista, una probabili-
dad de 0.5 de ser calificados bueno, una probabilidad de 0.2 de ser calificados
promedio, y una probabilidad de 0.1 de ser calificados malo.
El ejecutivo ha decidido adoptar la siguiente estrategia: Si el primer
candidato obtiene la calificación de excelente, lo contrata: si no, entrevista
al segundo. Si el segundo obtiene la calificación de excelente, lo contrata, si
no, entrevista al tercero. Si el tercero obtiene la calificación de excelente
() bueno, lo contrata; si no, entrevista al cuarto. Por supuesto no podrá con-
tinuar, independientemente de la calificación que logre el cuarto.
¿ Cuál e,; la probabilidad de que con esta estrategia pueda contratar un
gerente con calificación excelente o bueno'? '0 Cuál es la probabilidad de con..
tratar un gerente CGn una calificación rnala ?

20. Refiérase al problema 19 anterior. Suponga que el ejecutivo podría esperar


hasta entrevistar a los cuatro candidatos y entonces contratar al mejor. ¿ Cuán-
mejora eso sus probabilidades de contratar un gerente con calificación de
o bueno?

21. 'Uno de Jos más famosos problemas de probabilidad empezó con las apuc:;tas
ChevsIier ele Méré, un francés del siglo XVII. Chevalier apostó (y ganó)
podría obtener por 10 menos un seis en cuatro lanzamientos de un dado,
cambió su apuesta a que podría lanzar un 12 en 2·'1- lanza-
un par de dados. Su razonamiento fue que, puesto que las pro-
de uno en segundo dado fuera un seis. tendría
su segunda ap nesta prunera.
confi:nTló esa por lo que recllrrió
H.efiérase ejernpJo::; página Encuentre la dist:cibución
habilidad completa para la parte del mercado resultante. Calcule media
y la desviación estándar de esta distribución.

23. En el juego "craps" un dos dados. Si en el primer lanzamiento


aparece un 7 o un t o t a l p r i r r l c : ¡ " lanzamiento aparece
un 2, 3, o un total de 121 pierde inmediatamente. en el primer .1anzan"J.iento
aparece cualquier otro total (4, 5, 6, 8) 9) 1 --.Jla.:mado punto \Je1 jugador-
se realiza otro lanzamiento. De hecho, 1-anzandc).basta que iguale
su punto (en cuyo caso gana), G hasta que lanza, un 7 que pierde).
Calcule las probabilidades de ganar. Sug6'Tenc~'a: probahilidad
ganar en cualquier lanzamiento luego del primero puede determinar
siderando sólo las dos posibilidades relevantes de largo p1azo -·--repetlT
punto, o "lanzar un 7.

24. Considere el ejemplo ~1· en la pagina 123. Suponga que las siguientes curas
representan las probabilidades de repetir o no las compras a una marca de-
terrninada :

co m p rtuia el pcrio d o (i 1- 1)
Mor ea
en el .M'arca .!ti arca IJ

Marca A 0.10 0.60


Marca 0.10 0.60

Muestre que 40(!, para la marca A y 6OC/r; para rr.arca B, es di 3tr1-


bución de equilibrio de proporción de mercado, es decir, que las proporciones
de mercado son las mismas en el período (t + 1) que en el período (t).

Refiriéndose a la ilustración de! ejemplo 5 (página 1.25), suponga que hay


una prohabil idad de 0.3 de que la actividad Ji tome semanas y una proba-
biilic1ad de 0.7 ele que esté tomando 6 semanas.

Una compañia tiene 2 almacenes, A y B. Cada una existencia


normal de 3 unidades de cierto producto. pro-
dueto en almacén tiene siguiente

Dr m arul a diaria
n ní dadcs ProbabilidMl

¡ 0.30
2 "".""."" ..... " ... 0'10
:) 0.20
"1 0.10

t.eDga. XYlás demanda que


1. .Ó:
a) ¿ Cuál es la probabilidad de CpOlC aunaccn
f'xistencia un día dado?
b) f: C:nál '2';; la probabilidac] de que uno u otro almacén (pero :0,0 ambos)
ten,gan Hl;;1:, demanda (PI(' existeucia en un dla dado?
e) e es la probabilidad de (pele arnbos almacenes tengan rnás aerr12nlda.
que existencia disponible en lIn determinado?
144 Una introducción a la teoria de la probabilidad

27. Suponga que la compañía del problema 26 concentra los almacenes A y B


en un almacén central C. En este almacén central habrá una existencia nor-
mal de 6 unidades.
a) Determine la distribución de probabilidad de la demanda para el alma-
cén e a partir de las distribuciones particulares de A y B: [La probabili-
dad de una demanda de tres unidades en e es igual a la probabilidad
de una unidad demandada en A por la probabilidad de dos unidades
demandadas en B más la probabilidad de dos unidades demandadas en
A por la probabilidad de una unidad demandada en B, etcétera).
/;-) A partir de la distribución determinada en el punto (a) anterior, ¿ cuál
es la probabilidad de que la cantidad demandada supere en una unidad
a la existencia disponible? ¿ Cuál es la probabilidad de que supere en dos
unidades a la existencia disponible? Compare estas respuestas con las de
los incisos (b) Y (c) del problema 26. Si las respuestas son diferentes, diga
por qué.

28. La administración de la Compañía Alzo está considerando el mercado de un


producto nuevo. Las investigaciones de mercado indican que hay una pro-
babilidad de 0.40 de que el mercado total para el producto sea de 10,000
unidades; una probabilidad de 0.40 para un mercado total de 8,000 unidades
y una probabilidad de 0.20 para un mercado de 6,000 unidades.
No se sabe si e! competidor de Alzo, llamado Barden, ofrecerá un pro-
ducto similar. Las probabilidades son alrededor de 50/50 de que Barden
10 haga. Si Barden no ofrece un producto competitivo, entonces Alzo tendrá
todo el mercado. Si Barden entra a competir, su parte de! mercado de-
penderá del precio que fije al producto. Si Barden fija un precio competitivo,
la administración de Alzo cree que su competidor tendrá una probabilidad
de 0.20 de obtener el 60% de! mercado; un 0.50 de probabilidad de que sea
el 40'/é del mercado y un 0.30 de que sea el 20% del mercado. Por otro
lado, si Barden recurre a un precio de promoción, tiene el 0.70 de probabi-
lidad de obtener el 60% del mercado y un 0.30 de obtener el 40'/é de!
mercado.
Basándose en experiencias pasadas, Alzo cree que en 3 de cada 4 veces
Barden fijará un precio competitivo.
Determine la distribución de probabilidades para el número de unidades
vendidas. ¿ Cuáles son las ventas esperadas?

29. Suponga que en el problema 28, la estrategia de precios de Barden, depende


del tamaño del mercado, de tal manera que si el mercado fuera de 10,000
o de 8,000 unidades, las probabilidades serían de 8/10 de que Barden fijara
un precio competitivo. Pero si e! mercado fuera de sólo 6,000 unidades, las
probabilidades serían de 6/10 de que Barden recurra al precio promociona!.
Determine la distribución de probabilidad de las ventas (en unidades) y su
valor esperado.

3D. Un proyecto está compuesto de cinco actividades; A, B, C, D Y E. El orden


en que las labores deben ser ejecutadas se presenta en el siguiente diagrama
de redes (las líneas, representan actividades). Esto es, la actividad A debe
ser realizada antes que la B o la E puedan empezar: ambas e y E, deben
completarse antes que la D pueda comenzar; y ambas B y D, deben ser lleva-
das a cabo antes de que el proyecto se considere terminado. Por eso, hay
3 secuencias de actividades (que se llaman rutas de la red) que pueden de-
morar el tiempo total en que se completa el proyecto: A-E, C-D, y A-E-D. El
tiempo total de terminación del proyecto es el tiempo requerido para com-
pletar la más larga de esas secuencias de actividades. Por ejemplo, si A toma
5 semanas; B, 6 semanas; E, 2 semanas; C, 9 semanas; y D, 4 semanas; en-
tonces A-B tarda 11 semanas; C-D, 13 semanas y A-E-D, 11 semanas. El
tiempo total que toma el proyecto es de 13 semanas, determinado por la
secuencia de actividades C-D.
En la tabla siguiente se listan los tiempos y probabilidades para terminar cada
una de las actividades.
Tiempo para terminarla
Actiuidades (semanas) Probabilidad
A 5 0.50
7 0.50
B 6 0.80
9 0.20
C 5 0.40
9 0.60
D 4 0.50
6 0.50
E 2 1.00
Determine la .distribución de probabilidad del tiempo requerido para completar
el proyecto. Calcule el tiempo total esperado.

n.ll:BUOGRAF.lA

La bibliografía para este capítulo está incluida en la lista que aparece en la


página 174.
CAPITULO 6
Distribuciones de probabilidad

ESTE CAPíTULO describe cuatro distribuciones de probabilidad que gobier-


nan el comportamiento de muchos procesos comerciales e industriales. Estas
distribuciones de probabilidad se utilizarán en el capítulo 7 junto con el
análisis de las consecuencias económicas de las decisiones empresariales,
para desarrollar un procedimiento racional para la toma de decisiones
bajo incertidumbre. Además, las distribuciones nos servirán como base para
evaluar la información muestral (capítulo 9).
En el capítulo 2, habíamos clasificado los datos estadísticos en dos cate-
gorías: los atributos, que se clasifican en dos o más gr,upos discretos cuali-
tativos (por ejem.: caras o números), y las variables que pueden ser medidas
cuantitativamente sobre una escala. Las distribuciones binomial y Poisson
describen el comportamiento de "atributos, mientras que la distribución
normal y la exponencial describen el comportamiento de variables.

LA DISTRIBUCION BINOMIAL
Primeramente trataremos algunos ejemplos de la distribución bino-
mial para ilustrar de qué problema se trata. Considere las siguientes clases
de problemas:
l. ¿ Cuál es la probabilidad de obtener 4 caras en 10 lanzamientos de
una moneda?
2. Si un distrito electoral tiene un 60% de republicanos, ¿ cuál es la pro-
babilidad de encontrar a lo sumo 30 demócratas en una muestra de
100 votantes?
3. En un proceso se producen transistores, 4% de los cuales (en promedio)
están defectuosos. ¿ Cuál es la probabilidad de obtener más de 4 defec-
tuosos entre 50 artículos?

Ejemplo de una moneda doblada


Una moneda defectuosa queda con la cara hacia arriba el 60% de las
veces. Nos hacemos la siguiente pregunta: ¿cuál es la probabilidad de
obtener 5 caras en 5 lanzamientos?
147
148 Distribuciones de probabilidad

Los eventos son independientes; utilizando la regla de multiplicación:

Probabilidad de 5 caras = P (5 caras)


= 0.6 X 0.6 X 0.06 X 0.6 X 0.6
= 0.078

Veamos ahora, ¿ cuál es la probabilidad de obtener 3 caras en 5 lanza-


mientos? Si el orden se ha especificado previamente (es decir: cara, cara,
sello, sello) podemos resolver este caso análogamente al anterior:

P(3 caras en el orden e, e, e, s, S,) = 0.6 X 0.6 X 0.6 X 0.4 X 0.4


= (0.6)3 X (0.4)2
= 0.034
En general, esta probabilidad es r q<rrr-rl; fórmula cuyos símbolos se
describen posteriormente.
Si el orden fuera cualquier otro, la respuesta sería también la misma,
o sea:

P(3 caras en orden S, S, e, e, C) = 0.4 X (}.4 X 0.6 X 0.6 X 0.6


= 0.034
El orden no tiene importancia, por ello necesitamos saber de cuántas
maneras pueden resultar 3 caras en 5 lanzamientos (esto es, cuántas orde-
naciones distintas pueden existir).
Este es el número de combinaciones de 5 elementos tomados de 3 en 3.
De otro modo, hay 2 grupos distintos (caras y sellos), y deseamos saber
de cuántas maneras se pueden ordenar los 5 lanzamientos entre los dos
grupos. Puede demostrarse que el número de combinaciones distintas en
las que ocurren r aciertos de n pruebas es:
n!
nCr = ----,----:
d(n - r)!

donde n factorial es n! = 1 X 2 X 3 ... n, y O! = 1 por definición.


El número de combinaciones en las que ocurren 3 caras en 5 lanza-
mientos es en consecuencia:

C _ .5! _ 1 X 2 X 3 X 4 X 5
10
5 3 - 3!2! - 1 X 2 X 3 X 1 X 2

(Hay 10 maneras en las cuales pueden resultar 3 caras en 5 lanzamientos


de una moneda.) Regresemos a nuestra pregunta original (la probabilidad
de 3 caras en 5 lanzamientos de una moneda doblada). Debemos multipli-
car el número de combinaciones de 3 caras en 5 lanzamientos, por la
La distribución binomial 149

probabilidad de que ocurran 3 caras en 5 lanzamientos, en un orden


específico.
lo X1J. ()J{J
P(3 caras en 5 lanzamientos) 10 KO.34 = 0.34
J

La fórmula de probabilidad binomial


En general, la probabilidad de que acontezcan r éxitos en n pruebas
es igual a:

.donde r es el número de aciertos (es decir, caras); n es el tamaño de la


muestra (o sea, número de lanzamientos); p es la probabilidad de un
acierto (es decir, una cara); q = (1 - p) es la probabilidad de un fra-
caso (o sea, un sello); y P (r) = probabilidad de obtener exactamente r
aciertos (es decir, r caras).
Ejemplo: Probabilidad de obtener con la moneda considerada 3 veces
cara y 2 veces sello:

n = 5 lanzamientos
r = 3 caras
n-r=2
p = 0.6, la probabilidad de obtener una cara
q = 1 - P = 0.4
j!
P(r) = nCrprq(n-r) = - (0.6) a(0.4) 2 = 10 X 0.034 = 0.34
• 3!2!

Si utilizamos este procedimiento, podemos encontrar la probabilidad


de obtener cualquier número de caras en 5 lanzamientos de la moneda
doblada.
Los resultados serán:

Probabilidad de O caras = P(O) = 0.01


Probabilidad de 1 cara = P( 1) = 0.08
Probabilidad de 2 caras = P(2) = 0.23
Probabilidad de 3 caras = P(3) = 0.34
Probabilidad de 4 caras = P (4 )
= 0.26
Probabilidad de 5 caras = P (5 ) = 0.08
Total = 1.00

Esos resultados se han graficado en la figura 6-1, asentando la variable


aleatoria (caras) en el eje de las X y las correspondientes probabilidades
en el eje de las Y.
Este es un ejemplo de la distribución binomial. Note que por cada
lanzamiento de la moneda (es decir, cada prueba) hay sólo dos posibles
150 Distribución de probabilidad

DISTRIBUCION BINOMIAL (p = 0.6, n = 5)


Probabilidad -
PI")

.30

.20

.10 .08 .08

.01
O 1 2 3 4 .5
Namero de caras (éxitos) en cínee experimentos
Figura 6-1

resultados (cara o sello). Podemos utilizar el mismo tipo de análisis


en los casos en que sólo hay dos resultados posibles para cada prueba
(su jeto a los supuestos que se indicarán posteriormente); Po¡ ejemplo,
cuando estamos muestreando una población para determinar la afiliación
a un partido político (y sólo hay dos partidos), o en la determinación
de si un producto manufacturado es bueno o defectuoso, o en cualquier
otro caso en que la respuesta es únicamente sí o no.
La fórmula para P( r) define una familia completa de distribuciones
de r, una para cada combinación de valores n y p. Las cantidades n y p
se denominan los parámetros de la distribución binomial, porque deter-
minan las probabilidades para todos los valores de r. Utilizaremos el sím-
bolo P( rln, p) para indicar la probabilidad de r aciertos dados n y p.
El valor esperado o número promedio de aciertos E(r) en una distri-
bución binomial es np, y la variancia es npq. Por eso, en el ejemplo de la
moneda doblada (n = 5, P = 0.60), E(r) = np = 5 X 0.60 =3 caras (el
número promedio o esperado de caras en 5 lanzamientos).

Variancia = = 5 X 0.60 X 0.40 = 1.2


npq
Desviación estándar = V 1.2 = 1.1 caras

Supuestos fundamentales de la distribución binomial


1. En cada prueba, la variable aleatoria puede asumir sólo uno de dos
valores: acierto o fracaso.
La distribución binomial 151

2. Las pruebas son independientes. Lo que ocurre en la primera prueba


no afecta a 10 que ocurre en la segunda, y así sucesivamente. Si estamos
lanzando una moneda, esto significa que las caras ocurrirán con proba-
bilidad constante, no importando si en el lanzamiento anterior resultó
cara o número.
Este supuesto implica que estamos muestreando una "población infi-
nita". La acción de lanzar una moneda puede concebirse como un pro-
ceso infinito, y así podríamos imaginar que el lanzamiento de una moneda
ocurre eternamente. De la misma manera, si inspeccionamos artículos de
un lote de partes manufacturadas, y si reemplazamos cada artículo des-
pués de inspeccionarlo, podemos considerar también que es un universo
o población infinita ya que nunca se agotaría. Este tipo de proceso se
llama muestreo con reposición.
A menudo en la práctica, no se reemplazan los artículos al muestrear
un lote suficientemente grande (o sea muestreo sin r;eposición), con 10
que se viola uno de los supuestos de la distribución binomial. Teóricamen-
te, se debería utilizar en su lugar la distribución hipergoométrica, si mues-
treamos sin reemplazo una población finita. Esta distribución no se tratará
en este texto, porque en la mayoría de las aplicaciones prácticas, la hiper-
geométrica puede ser aproximada por la distribución binomial. Ello se debe
a que las probabilidades binomiales son aproximadamente iguales a las
hipergeométricas, si el tamaño de muestra (o sea el número de lanzamien-
tos) es pequeño en relación al número de elementos en el universo. Un
buen criterio empírico .es el considerar a 10 más un 20%. Esto es, si el
tamaño de la muestra es inferior al 20% del total de elementos del universo,
puede utilizarse la distribución binomial, aun cuando se esté muestreando
sin reposición.
3. El valor de p, la 'probabilidad de un éxito, es constante de una
prueba a otra. Este supuesto implica que, por ejemplo, la moneda no se
deforma más y más a medida que aumenta el número de pruebas, o que
una máquina no se desgasta ni produce una mayor proporción de artículos
defectuosos.
Matemáticamente, podemos derivar la distribución binomial a partir
de estos tres supuestos. Si encontramos en el mundo real un proceso que
satisface estos supuestos, entonces usamos las probabilidades binomiales
para representar las probabilidades del mundo real.

Tablas de la distribución binomial


Si obtuviéramos las probabilidades binomiales a partir de la fórmula

los cálculos serían muy dilatados y engorrosos para valores grandes de n;


por ello se recurre a tablas ya existentes para obtener los valores de las
probabilidades binomiales.
152 Distribuciones de probabilidad

Existen tablas muy amplias ya elaboradas.' Hemos incluido en este libro


un pequeño juego de tablas en los Apéndices F y G. El Apéndice F lista
las probabilidades individuales (ordenadas) en la distribución binomial
para valores de n desde 2 hasta 25, y para diversos valores de p desde 0.01
a 0.50. Los valores para p mayor de 0.50 pueden también leerse en esta
tabla con sólo cambiar entre sí los roles de "acierto" y "fracaso".
El Apéndice G es una tabla de la distribución binomial acumulativa.
Presenta la probabilidad de r o más sucesos para cualquier valor dado de
r, y para los mismos valores de n y p que se mencionaron anteriormente.
Posteriormente se dan ejemplos prácticos del uso de estas tablas.

Ejemplos de la distribución binomial


1. Se sabe que en un lote grande de partes manufacturadas hay un
5% de partes defectuosas. Si se obtiene una muestra aleatoria de 3 partes,
¿ cuál es la probabilidad de que ninguna sea defectuosa?
Ante todo, verifiquemos si se cumplen los supuestos de la distribución
binomial. El primer supuesto nos dice que cada 'parte debe presentar sólo
dos estados posibles. En este caso particular tenemos únicamente buenos y
defectuosos, por lo que este supuesto sí. se verifica..
La segunda suposición implica que las pruebas .(es decir las extraccio-
nes) son independientes. Si reemplazáramos cada parte antes de que la
siguiente se extraiga del lote, este supuesto se verificaría esctrictamente.
Sin embargo, el tamaño de la muestra (tres artículos) es pequeño en rela-
ción al tamaño de este lote, por lo que cualquier error producido por la
falta de reemplazo, sería pequeño.
El tercer supuesto implica que el valor de p permanece constante mien-
tras se practica el muestreo. Puesto que estamos muestreando un lote fijo
de artículos que no cambia durante el proceso, la hipótesis es válida.
Habiendo comprobado que la distribución binomial es la adecuada (que
es la más aproximada para el caso real que consideramos) procederemos
a calcular la probabilidad requerida. En nuestro ejemplo, p = 0.05, n= 3
y r = O.
La probabilidad de obtener cero defectuosos es:

3!
P(r = O) = 3e'opOq3 = - - (005)°(095)3
3!0!' . = 0857
.

2. Suponga que para este segundo ejemplo, usamos el mismo ejemplo


anterior: un gran lote de partes manufacturadas de las que se sabe, que
el 5% son defectuosas. Sin embargo, tomemos ahora una muestra de 20
artículos, y nos haremos las siguientes tres preguntas: a) ¿ cuál es la pro-
babilidad de tener exactamente 2 artículos defectuosos de los 20 mues-
1 Vea por ejemplo, Tables 01 the Binomial Probability Distribution, U. S.
Departament oí Commerce, National Bureau oí Standards, Applied Mathematics
Series N9 6 (Washington, D. C.: U. S. Government Printing Office, 194-9).
La distribución binomial 153

treados?, b) ¿ cuál es la probabilidad de 2 o más artículos defectuosos? y


e) ¿ cuál es la probabilidad de 2 o menos artículos defectuosos?
La evaluación de esas probabilidades significa una cantidad conside-
rable de cálculos; por lo tanto, recurriremos a los valores de las de las
tablas de la distribución binomial.
a) La probabilidad de que exactamente dos artículos sean defectuosos.
Este valor puede encontrarse directamente en el Apéndice F, para n = 20,
P = 0.05 Y r= 2. El valor es P(r = 21n = 20, P = 0.05) = 0.189.
b) La probabilidad de 2 o más defectuosos: este valor puede encon-
trarse directamente en el Apéndice G, para n = 20, P = 0.05, Y r = 2. El
valor es P(r ~ 2/n = 20, P = 0.05) = 0.264.
e) La probabilidad de 2 defectuosos a lo sumo: este valor no puede
leerse directamente en las tablas. En lugar de ello, nos valdremos del hecho
de que la probabilidad de 2 o menos defectuosos, más la probabilidad de
3 o más de ellos debe ser igual a 1.0. En símbolos:

P(r~2) +P(r~3) == 1/0 ó P(r ~ 2) = 1,0 - P(r ~ 3}


La probabilidad de 3 o más defectuosos se lee fácilmente en la tabla:

P(r ~ 3) = 0.075. De allí que:


P(r ~ 2) = 1,0 - 0.075 = 0.925

La probabilidad de defectuosos a lo sumo es igual a 1 menos la


probabilidad de 3 o más defectuosos.
3. Exactamente el 60% de los trabajadores de una planta, pertenecen
a un sindicato. Si el administrador extrae una muestra aleatoria de 15
trabajadores, a) ¿cuál es la probabilidad de que exactamente 8 pertenezcan
al sindicato?; b) ¿cuál es la probabilidad de que 8 o más pertenezcan a él?
Nuevamente ocurre que no podemos contestar estas preguntas consul-
tando directamente las tablas, puesto que la tabla se extiende sólo hasta
p = 0.50. De allí que debemos cambiar la formulación de la pregunta
así: 40% de los trabajadores son no-sindicalizados, a) ¿ Cuál es la proba-
bilidadde obtener en la muestra exactamente 7 trabajadores no-sindicali-
zados? (o sea: 8 miembros del sindicato + 7 no miembros del sindicato
= 15 hombres en la muestra). Esto es:
" P(r = 71n = 15, P = 0040) = 0.177
La probabilidad de 7 trabajadores no sindicalizados es equivalente a la
probabilidad de 8 sindicalizados, que para el caso es lo mismo.
Análogamente b), la probabilidad de 8 o más miembros del sindicato
es equivalente a la probabilidad de 7 o menos trabajadores no sindicali-
zados (es decir menos de 8). Como en el ejemplo 2:

P(r ~ 71n = 15, P = 0.40) = 1.0 - P(r ~ 81n = 15, P = 0.40)


= 1.0 - 0.213 = 0.787
154 Distribuciones de probabilidad

(Se sugiere que el lector resuelva algunos ejercicios, para que se asegure
de haber entendido cómo calcular las probabilidades binomiales.)

Usos de la distribución binomial


Aunque la distribución binomial está restringida a muestras de pobla-
ciones bivaluadas, tiene muchas aplicaciones. Como ya se dijo, la principal
aplicación es el control de calidad industrial. Muy a menudo, allí se
clasifican los artículos en buenos o defectuosos o se clasifican depen-
diendo del resultado de una prueba. En encuestas de opinión pública los
votantes pueden estar a favor o en contra de un candidato o a favor o en
contra de alguna propuesta. En investigaciones de mercado, un consu-
midor puede preferir "nuestro producto" o la "marca X"; puede o no
comprar un producto; puede recordar u olvidar el nombre de una marca.
Las investigaciones médicas (una droga puede curar o no a un paciente)
y encuestas económicas (de empleados o desempleados) son dos aplicaciones
más de las muchas que tiene la distribución binomial para describir atri-
butos.

LA DISTRIBUCION DE POISSON
Otra distribución discreta de importancia práctica es la distribución
de Poisson, Esta distribución es como la binomial, excepto en que supone
un gran número de pruebas y una probabilidad pequeña de éxito en cada
prueba. Esto puede explicarse mejor con un ejemplo. Si inspeccionamos la
puerta esmaltada de un refrigerador de tamaño estándar, podemos encon-
trar O manchas, o 1 mancha, o 2 manchas, o tal vez más, en un metro
cuadrado de esmaltado. Podemos contar el número de puntos manchados,
pero es imposible contar el número de puntos no manchados (son prác-
ticamente infinitos). En este caso no podemos utilizar la distribución bino-
mial porque no conocemos el valor de n, es decir el número total dc
puntos posibles. Dc otro modo, la distribución binomial está definida en
función de una característica específica que asume los valores O ó 1, mien-
tras que la distribución de Poisson está definida con respecto a cierta.
unidad de medida en la que pueden haber O, 1,2,3 o más resultados (por
ejemplo, manchas) dentro de esa unidad de medida (por ejem.: el me-
tro cuadrado de esmaltado). Por eso la distribución de Poisson se aplica
en el control estadístico de calidad para el caso de análisis del número
de defectos por unidad, mientras que la binomial se aplica al número de
unidades defectuosas (r).

Fórmula y supuestos de la distribución de Poisson


La función de la probabilidad es

P(X) = para X: = O, 1,2, .. '


X!
La distribución de Poisson 155

donde X es la variable aleatoria (el número de ocurrencias por unidad


de medida) ; m es el número promedio de ocurrencias de X por unidad de
medida; y e es una constante base de los logaritmos naturales cuyo valor
es 2.718 ...
En el ejemplo del proceso del esmaltado, la variable aleatoria X es
el número de manchas en un metro cuadrado. X es un número entero no
negativo, puesto que sólo puede haber- 0, 1, 2, 3, etcétera, manchas (no
1.25) en un metro cuadrado de esmaltado, El valor m no necesita ser un
número entero, porque el número promedio de manchas puede tomar cual-
quier valor numérico real. Nótese que m eS el único parámetro de la dis-
tribución de Poisson; esto es, si conocemos el valor promedio, ya nos basta
para calcular la probabilidad de que pueda existir cualquier número espe-
cífico de manchas.
Es curioso notar que la oariancia de la distribución de Poisson es igual
a m. De aquí que, la variancia sea igual a la media; y la desviación
estándar es Vm. En verdad, éste es un caso muy sencillo.
Los supuestos acerca de la distribución de Poisson son semejantes a los
de la binomial.
1. Existe un gran número de puntos posibles para la verificación de
un evento dado dentro de cada unidad de medida, y la probabilidad de
una ocurrencia en cualquiera de esos puntos es muy pequeña. Además,
la variable aleatoria X debe ser un número entero dentro de la unidad
de medida.
2. Independencia: Cualquier número de ocurrencias puede acontecer
en una sola unidad de· medida, y esto no afecta al número de ocurrencias en
cualquier otra unidad de medida. En el ejemplo del esmaltado este supues-
to implica que si encontrarnos 5 manchas en un metro cuadrado en par-
ticular, esto no influye en la absoluto en otro metro cuadrado cualquiera.
3. Estabilidad: El valor de m (el promedio) debe permanecer cons-
tante. Por eso, debe haber aproximadamente el mismo número promedio
de manchas en todos los puntos que se inspeccionen de puertas de refri-
~erador.

Ejemplos de la distribución de Poisson


1. En nuestro ejemplo, suponga que las manchas de esmalte ocu-
rrieron a razón de una por metro cuadrado de puerta del refrigerador
(y las suposiciones de estabilidad e independencia son válidas). La proba-
bilidad de que un metro cuadrado no tenga manchas es:
rilO
P(X = O/m = 1) = - - = e-l = 0.368
ü!
las probabilidades de encontrar 1, 2 y 3 manchas en un metro cuadrado son:
e-ll l
P(X = 11m = 1) = -'- = e- l = 0.368
1!
156 Distribuciones de probabilidad

e~112 e-1
P(X = 21m = 1) = - =- = 0.184
2! 2
~113 e-1
P(X = 3!m = 1) = - =- = 0.061
3! 6

2. Si tenemos un conmutador telefónico y suponemos que las llama-


das llegan al azar, ¿qué significa este supuesto? Analicemos cada segundo
de tiempo. En la mayor parte de ellos, no llegarán llamadas; en otros
puede llegar una sola llamada. Si esto fuera todo, podríamos tratar el
proceso como una distribución binomial. Sin embargo, en algunos segundos
puede haber 2, 3 o más llamadas. Esta clase de problemas se deben tratar
con la distribución de Poisson, Observe que el supuesto de estabilidad
puede violarse si es mucho mayor el número de personas que en promedio,
llaman a ese conmutador durante ciertas horas del dia,"
3. Cierta parte de una máquina se rompe al azar. Podemos utilizar
la distribución de Poisson para calcular la prohabilidad de que no haya
roturas en determinado día, o bien de que haya una, dos o más roturas.
Observe que si la rotura fuera una función del tiempo en que la máquina
está funcionando (es decir del uso), s~ violaría el supuesto de estabilidad.

Tablas de distribución de Poisson


El Apéndice H (al final de este libro) es una tabla de probabilidades
individuales (ordenadas) de la distribución de Poisson, para valores esco-
gidos de m desde 0.001 hasta 10.'; El Apéndice 1 es una tabla de la
distribución de Poisson acumulativa para X o más ocurrencias. El uso
de estas tablas es muy similar al de las tablas de la distribución binomial.
Veamos a continuación un ejemplo:
En promedio, una parte se rompe 2 veces por mes, ¿ cuál es la proba-
bilidad a) de que en un mes dado, puedan ocurrir 3 roturas?, b) ¿ de
que puedan ocurrir 3 o más roturas? y c) ¿ de que ocurran 3 o menos
roturas?
a) P(X = 3, m = 2) = 0.180 (Apéndice H)
b) P(X ~ 3, m = 2) = 0.323 (Apéndice 1)
c) P(X < 3, m = 2) = 1- P(X ~ 3, m = 2) == 1 - 0.323 = 0.677

Aproximación de la Poisson a la hinomial


Otro uso importante de la distribución de Poisson es como aproxima-
ción a la binomial. Desde luego, podemos considerar la distribución de

2 Podemos tratar esta situación dividiendo el día en partes de modo que m


sea estable en cada una de esas partes.
" Si m> 10, use la curva normal como una aproximación, con p. m y- =
u = y'¡;;~ Para valores discretos efectuar la corrección que se indica en la página 141.
La distribución de Poisson 157

Poisson como la distribución límite de la binomial, a medida que n se


hace mayor y p se hace pequeña. Por eso, cuando n es grande y p pequeña,
podemos utilizar la distribución de Poisson para evaluar probabilidades
binomiales.
¿ Cuán grande debe ser n y qué tan pequeña p?
Como un criterio empírico podemos usar la. Poisson para aproximar
10. binomial, si se cumple que:

n ;:::: 10 Y P ~ 0.01 ó n ;:::: 20 y P ~ 0.03 ó


n ;:::: 50 Y P ~ 0.05 ó n ;:::: 100 Y P ~ 0.08

Estos pares de valores permiten que la aproximación logre cierto grado


de precisión. Si se requiere trabajar con mucha precisión, se deberáaumen-
tar el tamaño de la muestra.
Para aproximar las probabilidades binomiales, simplemente hacemos
1l p = m y buscamos los valores correspondientes en la tabla de Poisson.
Suponga que estamos muestreando 1,000 artículos, y que la fracción de
defectuosos es en promedio igual a 0.001. Esto es, n = 1,000 P = 0.001,
Y nP = m = 1.0 (en promedio, un defectuoso por cada 1,000 artículos).
Entonces podemos estimar la probabilidad de obtener cualquier número
de defectos en la muestra, utilizando la tabla de probabilidades dePoisson,
como sigue:
?(O defectuosos) = 0.368
P ( i- defectuoso). = 0.S68, etcétera

Usos de la distribución de Poisson

La distribución de Poisson, al igual que la binomial, se utiliza amplia-


mente en el control de calidad industrial. La distribución de Poisson se
aplica particularmente al describir el número de defectos por unidad cuan-
do 1) no existe una unidad natural como en los defectos por 100 metros
cuadrados de paño, siendo la unidad de área arbitraria; o 2) cuando la
unidad es muy compleja (por ejern.: instrumentos de aviación), de forma
que todas las unidades tienen algún defecto. La distribución también se
utiliza para predecir la probabilidad de hechos raros tales como accidentes,
fuegos y derrumbes. De hecho, inicialmente se desarrolló a partir de un
estudio sobre el número de soldados prusianos muertos por año a causa
de golpes de caballos.
Finalmente, la distribución de Poisson se utiliza ampliamente en pro-
blemas de filas de espera o de colas. La llegada de coches a las casetas de
pago de peajes, de clientes a las cajas de un supermercado, de llamadas
telefónicas al tablero de distribución, y de aviones a aeropuertos son ejem-
plos de situaciones que se pueden describir con la distribución de Poisson.
En esos casos, la administración debe tomar medidas adecuadas para que
los clientes no tengan que esperar demasiado.
158 Distribuciones de probabilidad

LA DISTRIBUCION NORMAL
En estadística, la distribución más importante es la distribución normal.
En el capítulo 2 se describió esta función como una distribución continua,
representada por una curva simétrica en forma de campana (ver las fi-
guras 2-6, 2.7,4-1, Y 4-2).
La ecuación para la distribución normal es:

f(X)

donde X es la variable aleatoria, y p. y u son los parámetros de la distri-


bución. La constante 7f es 3.14159. " y e es 2.718. ... Para la distribución
normal, el valor esperado o media es E(x) = p. y la variancia es 0'2. Las
distribuciones normales pueden presentar muchas formas diferentes, de-
pendiendo de los valores que asuman estos dos parámetros. Considere por
ejemplo lá figura 4-1, columnas 1 y 2. Puesto que la curva normal es una
distribución continua, la variable aleatoria X puede tomar cualquier valor,
a diferencia de las distribuciones binomial y POiSSOIl, que sólo toman va-
lores discretos.
Sería difícil calcular las probabilidades bajo la curva normal, si no
fuera por una sencilla transformación que nos permite utilizar una sola
tabla.
La técnica consiste en tratar las distribuciones normales y sus probabi-
lidades asociadas, en unidades de desviación estándar (u) a partir de la
media (p.) de la distribución.
Quedó asentado en la figura 4-2 que en una distribución normal:

p.-+-u incluye 68.27% de los valores,


p. -+- 2u incluye 95.45% de los valores, y
p. -+- 3u incluye 99.73% de los valores.

Esto es, si seleccionamos un solo elemento de esta distribución, la proba-


bilidad de que quede en el intervalo p. -+- u es de 0.6827; de 0.9545 que
quede en el intervalo p. -+- 2.u, y así sucesivamente. Estas probabilidades
se mantienen para todas las distribuciones normales, independientemente de
cuál sea el valor de la media o de la desviación estándar. Análogamente
podemos calcular las probabilidades para un número cualquiera de des-
viaciones estándar que difieran del promedio de la distribución.

Tabla de áreas bajo la curva normal


Podemos determinar estas probabilidades a partir de la tabla de áreas
bajo la curya normal. El Apéndice D tabula la proporción del área total
que está entre el promedio y cualquier otro punto X a lo largo del eje
La distribución normal 159

de abscisas. Para usar la tabla tome primero X - p. y divida entre a como


sigue:
X-p.
Z=---
a

El valor z se denomina desviación normal estándar y representa el


número de desviaciones estándar que la variable aleatoria X está por arriba
o por debajo del promedio.
Por lo tanto, la tabla completa presenta la distribución normal estandari-
zada cuya media es ,p. = O Y su desviación estándar es a = 1. (Para una
muestra sustituya X por p. y s por u.)
El encabezado y la parte de la izquierda del Apéndice D presentan los
valores de estas desviaciones (z) desde 0.0 (el promedio mismo) hasta 5.0,
que es un punto muy lejano de la cola de la curva normal estandarizada.
La tabla puede utilizarse para puntos situados a cualquier lado del pro-
medio."
Para ilustrar su uso, suponga que a varios solicitantes de trabajo se les
hace una prueba de aptitud, preparada por el departamento de personal
de una empresa. Los resultados de la prueba forman una distribución
normal" con promedio aritmético de 80 y desviación estándar de 4. Ahora,
considere los siguientes casos, que se ilustran en la figura 6-2, cuadros A y
D respectivamente.
A. ¿Qué proporción de solicitantes obtuvieron entre 80 y 84? La
desviación desde 84 hasta el promedio (80) es igual a 4; por ello, en
unidades de desviación estándar z = '4/4 = 1.0. Consultamos el Apéndice
D frente a z = 1.0 y observamos que la proporción del área total en este
intervalo es de 0.3413, o sea el 34.13 por ciento. La tabla presenta las
probabilidades, mientras que el cuadro muestra áreas relativas. Las dos son
equivalentes, puesto que el área en cualquier intervalo de la curva es pro-
porcional a la probabilidad correspondiente. La proporción de resultados
que quedan entre el promedio y la desviación estándar a ambos lados del
mismo, es igual al doble de 34.13% o sea 68.26%, el mismo valor que fue
dado previamente para p. +- a (excepto por un pequeño error en el re-
dondeo).
Muchos intervalos no terminan en la media. Para calcular su proba-
bilidad debemos seccionarlos en intervalos que sí limiten en la media, como
se muestra a continuación. De esta manera se puede usar la tabla del
Apéndice D para calcular el área de cualquier intervalo.
B. ¿Qué proporción de resultados se encuentra entre 75 y 83? Puesto
que estos puntos quedan a ambos lados de la media, debemos sumar las

4 Teóricamente la curva se extiende indefinidamente hacia ambos lados del


promedio, asintóticamente al eje de abscisas. Sin embargo, sólo una porción des-
preciable del área total se extiende más allá de 4 ó 5 desviaciones estándar del
promedio, por lo que esas colas infinitas pueden ignorarse sin efectos apreciables.
5 La distribución de los resultados de la prueba, podría manejarse como si
fuera continua, ya que las diferencias entre puntuaciones sucesivas son pequeñas.
160 Distribuciones de probabilidad

DETERMINACION DEL AREA BAJO UNA C.URVA NORMAL


EN EL APENDICE D

A X=80
0'=4

Puntuación
o 1.0 -1.25 75
L....-J l-....r---J
Area 34.13"10 Area 66.78"10

Puntuación x 85

Ii -1.25 -.5 • 1.25


L..-J
Area 20.29"10 -00- 89....4"'o,----+~~tO.56"10....-
Figura 6·2

áreas entre la media y cada uno de dichos puntos. Para el resultado 83,
z = (83 - 80) /4 = 0.75. Para obtener la probabilidad correspondiente, se
busca en el Apéndice D en la columna z el 0.7, y a lo largo de la columna
del encabezado el 0.05; en la intersección se lee que el área es 0.2734.
Asimismo para 75, z = (75 - 80) /4 = -1.25 Y el área es igual a 0.3944.
El área total es entonces 0.2734 + 0.3944 = 0.6678 o sea 66.78%.
C. ¿ Qué proporción de resultados quedaron entre 75 y 78? Ya que
ambos puntos están al mismo lado de la media, debemos obtener las
áreas entre cada punto y la media, y restarlas para obtener el área entre
ambos. Para 75, el área es 0.3944, como en el caso anterior; para 78,
z = -0.5 Y el área es 0.1915. El área entre 75 y 78 es, por lo tanto, igual
a 0.3944 - 0.1915 = 0.2029, o sea el 20.29% del área total.
D. ¿ Qué proporción de resultados es superior a 85? Esto se calcula
así: el 50% (el intervalo completo a la derecha del promedio) menos la
proporción de resultados entre el promedio y 85 o sea 39.44% (para
z = 1.25). La respuesta es por lo tanto 10.56%. La proporción de re-
sultados abajo de 85 (la parte no sombreada de la figura D) es
50 + 39.44 = 89.44%.
La distribución normal 161

Por consiguiente, la tabla de áreas bajo 12. curva normal se utiliza para
encontrar las probabilidades correspondientes a cualquier intervalo de la
curva. Cuando tengamos duda de cómo aplicar esta tabla, conviene dibujar
un diagrama aproximado como el de la figura 6-2, e identificar las áreas
que necesitamos.

Aproximación a la distribución binomial mediante la normal


Hemos observado antes, que cuando n es grande y p está cerca de Oó de
1 podemos usar la distribución de Poisson como aproximación a la bino-
mial. Por otra parte, cuando n es grande y p no se acerca ni a O ni a 1
podemos utilizar la distribución normal como aproximación a la binomial.
¿ Cuán grande debe ser n y qué tan grande p?
La influencia del tamaño de la muestra y del valor de p en la forma
de la distribución se ilustran en la figura 6-3, que representa las distribu-
ciones de r, el número de aciertos, para varias combinaciones de valores
de n y p. Los polígonos muestran que la distribución de r es más bien dis-
creta que continua, y que el grado (asimetría), depende de n (del tamaño
de la muestra) y del valor de la proporción p en el universo.
Efectos de p en la distribución. En el cuadro A de la figura 6-3,
las distribuciones de probabilidad del número de aciertos, corresponden a
varias muestras de tamaño constante (n = 10), pero con diferentes valores
de p (desde 0.05 hasta 0.5). Cuando p = 0.05, la distribución tiene un
alto grado de asimetría positiva. Al aproximarse el valor de p a 0.5 la
asimetría se reduce casi a tero, de tal .manera que cuando p = 0.5 la dis-
tribución es perfectamente simétrica y muy cercana a la normal.
Efectos del tamaño de la muestra en la distribución. En el cua-
dro B de la figura 6-3, se presentan distribuciones de probabilidad para
un valor constante de la proporción (p = .1), pero para diferentes tama-
ños de muestra, desde 10 a 100 elementos. Para valores pequeños de n la
asimetría es grande y positiva; al aumentar n, la forma de la curva se va
aproximando notablemente a la normal. Las mismas curvas describen tanto
a p como a q, simplemente sustituyendo el "número de aciertos" por el
"número de errores".
Las curvas ilustran el hecho de que n debe ser grande o cuando menos
p no debe estar cercana a cero o uno para justificar el uso de los métodos
que a continuación se presentan, puesto que se basan en la suposición
de que el número de aciertos es aproximadamente normal. Como una regla
empírica tenemos que np y nq deberán aproximarse o ser mayores que 5
para que esta suposición sea válida.
Por eso si n = 10, P deberá ser 0.5 para que sea np = 5, como se observa
en la curva de la derecha del cuadro A. Por otra parte, si p = 0.1, n tendrá
que equivaler a 50 para que la distribución sea aproximadamente normal.
Esta aproximación es doblemente útil porque: a) el supuesto de normalidad
es válido para problemas prácticos que incluyen grandes muestras, b) el
uso de la distribución normal es más sencillo que el de la distribución
binomial.
DISTRIBUCIONES DE PROBABILIDAD DEL NUMERO DE EXITOS
A. Tamaño fijo de muestra, n = 10,
y diferentes valores de p

A. Tamaño fijo de muestra, n-ID,


y diferentes valores de P
Probabilidad
.60,.....--r--r--,---..--,.---,---,---,---.,--.._¡

I
¡
.50

1\=10
.40

.30

P=.5
.20

2 3 4·. 5 6
Número de éxitos
FUENTE: Apéndice G.
B. Valor fijo de la proporción p = 0.1,
y diferentes tamaños de muestra

B. Valor fijo de la proporción p=O.l


y diferentes tamaños de muestra
Probabilidad
0.40 ,.....-r-r--1--r--r--,.--r--,--r-r-,-..,--.--.--r-r-r-........,......,
1\=10

P=.1
.30
'\ 1\=20
( I
I I

I
I ,
I
I
.20
I
I
I
I I
,
I r, 1\=50
I
I 'f
jI \
I
I
\ >,·····..· · · ·
"\./
I 1\:100
.10 , I
/' \ .
,
I
'\ .
I
I .'. A\, '\.'-. " .
4 6 8 10 12 14 16 18 20
Número de éxitos
FUENTE: Apéndice G (para n = 10 Y n 20). =
Figura 6-3
La distribución normal 163

Ahora bien, la aproximación se efectúa de la siguiente manera:


1. Iguale np a ,p. y V npq a u.
2. Recuerde que la distribución binomial es discreta; por ello y depen-
diendo de las circunstancias tenemos que agregar al valor de X un
término correctivo de + -! o de - f. Es decir, para determinar la pro-
babilidad de r o menos aciertos, se suma -! al valor de X en el cálculo
de la desviación normal z; para encontrar la probabilidad r o más
aciertos, se resta t del valor de X en la determinación de z.
3. Busque el valor de la probabilidad en la tabla de la distribución estan-
darizada (Apéndice. D) .

Ejemplo: En un lote muy grande se sabe que la probabilidad de


encontrar un artículo defectuoso es p = 0.20. Se toma una muestra de
400 artículos, y se pregunta:
a) ¿ Cuál es la probabilidad de 90 o más defectuosos?

p. = np = 80;
o; = V npq = V 400 X 0.2 X 0.8 = 8

La línea divisoria entre 90 o más y el resto de la distribución es 89t;


es decir que la probabilidad de ser mayor que 89i en la distribución normal
(continua), es aproximadamente la misma que la probabilidad de 90 o
más en la binomial (discreta).

z = X -p., = 89! - 80
1.19 de donde
u 8
rte » 1.19) = 0.1170

b) ¿ Cuál es la probabilidad de que haya exactamente 90 defectuosos?


La probabilidad de más de 90 defectuosos en la distribución binomial, es
equivalente a la probabilidad de más de 90! defectuosos en la distribución
normal.
Para X = 90i
90t - 80
z= 1.31
8
Pte ;» 1.31) = 0.0951
P( exactamente 90) = P(1.l9 < z < 1.31) = 0.1170~0951
= 0.0219

El área sombreada de la figura 6-4 ilustra esta probabilidad.


164 Distribuciones de probabilidad

APROXIMACION NORMAL A LA DISTRIBUCION BINOMIAL

PIX)
probabilidad

Figura 6-4

Papel probabilístico normal

El papel probabilístico normal es un papel especial para dibujo, con


una escala en la cual la distribución normal acumulativa se traza como
una línea recta (vea figura 6-5).
Este histograma nos sirve principalmente para probar si una distribu-
ción específica es normal. Por ejemplo, se tienen muestras de algún uni-
verso. (por ejern.: resultados de una prueba de destreza manual tomada
a unos operarios) y deseamos saber si la distribución de los resultados es
normal. El procedimiento consiste en calcular la distribución acumulativa
y trazarla en un papel probabilístico normal. Si la distribución es normal,
los puntos estarán cercanos a una línea recta (desde luego, habrá cierto
margen de dispersión alrededor de la línea).
Los sueldos por hora acumulados de 214 aprendices de operador de
máquinas (ver tabla 2-6) se han trazado en un papel probabilístico normal
en la figura 6·5. Entre esos puntos se ha trazado a ojo una línea recta. Los
puntos entre $2.45 y $2.85 están cercanos a la línea, lo cual indica que
la distribución de jornales es aproximadamente normal en ese rango. Sin
embargo, los dos puntos finales están alejados de la línea; por lo tanto, la
distribución no es normal cerca de los extremos.
También nos sirve este papel cuando queremos ajustar una curva
normal a un conjunto de datos muestrales tomados de un universo normal,
para determinar la distribución de dicho universo. Entonces, leyendo las
ordenadas correspondientes a la línea recta de la figura 6-5, podemos esti-
mar el porcentaje de todos los aprendices de operador de máquinas que
ganan menos que los valores indicados de X. Este recurso allana los errores
de muestreo. Por ejemplo, en la muestra se obtuvo que el 85% de los
trabajadores ganaba menos de $2.75 por hora, pero por este medio estima-
La distribución normal 165

PERCEPCIONES POR HORA ACUMULADAS DE 214 APRENDICES


DE OPERADOR DE MAQUINAS~HERRAMIENTA,TRAZADAS EN
PAPEL PROBABILISTICO NORMAL, COMO PORCENTAJE
DEL TOTAL

99.9
99.8
/
99.5
99.0
/
/
...
o
~
98.0
/
~ 95.0 /
.,
't:
8. 90.0
/
'/

-:::::J 80.0 /'
.,.
::; 70.0
/
e /
E 60.0
~
/
.~ 40.0
SO.o
/ .
Q.
V
~
.,. 30.0
el>
~ 20.0 /
o
'el
lO
.¡;¡
.,Q 10.0
/
~
5.0 /
/ I -- f - - - - 1-- ,
2.0
1.0
'/ --~-J

0.2
0.1
2.25 2.35 2.45 2.55 2.65 2.75 2.85 2.95
Id
3.05
Sueldos por hora (en dólares)

Figura 6-5

mos que sólo el 87% de los aprendices quedan en este grupo (suponiendo
una muestra representativa de un universo normal de ingresos).

usos de la distribución normal

La distribución normal es la distribución más importante en toda la


estadística. En primer lugar, describe la distribución de muchos fenómenos
166 Distribuciones de probabilidad

tales como la estatura de las personas, diámetros de cojinetes, cocientes de


inteligencia, y de hecho muchas mediciones biológicas y físicas (ver la
figura 2-6). Más importante aún, describe cómo ciertas medidas, como
por ejemplo la media, varían de una muestra a otra por razones aleatorias;
o sea que la curva normal describe la distribución de frecuencia de todas
las medidas posibles de muestras grandes que se pueden extraer de casi
cualquier clase de población. En el capítulo 9 mostraremos cómo una dis-
tribución de medias muestrales sigue este patrón, de manera que podamos
estimar el error de muestreo.
Además, la distribución normal se usa a menudo para describir la
incertidumbre del encargado de tomar las decisiones acerca de un factor
desconocido. En el capítulo 14 se muestran ejemplos de lo anterior.

LA DISTRlBUCION EXPONENCIAL
Otra distribución continua importante es la exponencial. Su función
de probabilidad es:
f(t) = )o.[At

donde t es una variable aleatoria que representa el tiempo entre llegadas


sucesivas (por ejem.: llegadas a una éstación de .servicio); A (lambda)
es la tasa promedio de llegadas (igual que rn en el proceso de Poisson),
el recíproco 1/)0. es el tiempo promedio entre llegadas; y e es la constante
2.718 base de los logaritmos naturales. A es el único parámetro y el que
determina toda la distribución. Tanto t corno )o. deben ser positivos.
Como se muestra en la figura 6-6 la distribución exponencial tiene
forma de J invertida. La media de esta distribución es l/A Y la variancia
es simplemente 1/)0.2.
Por medio de la siguiente relación se pueden evaluar las probabilidades
acumuladas para la distribución exponencial:
P(t > a) = e-Aa

donde a es cualquier valor dado de t. En la tabla del Apéndice J al final


de este libro se listan las potencias de «" (es decir, eA~l) para valores de
x de O ala.
Ejemplo 1. Se sabe que la duración de un cierto tipo de parte elec-
trónica tiene una distribución exponencial con una vida media de una
semana. ¿ Cuál es la probabilidad de que una parte dada tenga una dura-
ción que exceda de tres semanas? Aquí a = 3 Y la vida media = 1/)0. = 1
semana. Por lo tanto, i\ = 1 Y
P(t > 3) =e-i>.<l = e- 1 ( :j ) = 0.05, del Apéndice J
Esta es el área no sombreada a la derecha de a bajo la curva en la figura
6-6, tornando toda el área de probabilidad como uno. ¿ Cuál es la proba-
bilidad de que la duración varíe entre una y tres semanas?
La distribución exponencial 167

Pit '> 1) = e-l(l) = 0.368


y P(1 < t < 3) = P(t > 1) - P(t > 3)
= 0.368 - 0.050 = 0.318

Esta es el área sombreada en la figura 6-6. [P(t = 3) es infinitesimal.]

D1STRIBUCION EXPONENCIAL PARA x= 1

1.0
f(tJ

.5

3
el " t

FUENTE: Apéndice J.
Figura 6.6

.
Ejemplo 2. Suponga que el tiempo entre la llegada de clientes a la
ventanilla de una cajera de un banco se conoce que es exponencial con
una media de 0.25 minutos. ¿ Cuál es la probabilidad de un intervalo de
menos de 6 segundos (a =0.10 minutos) entre una llegada dada y la
siguiente? Note que la media 0.25~ 11 A, de manera que A = 4. Entonces:

P(t < 0.10) = 1 - P(t > 0.10)


= 1- e~(4)«(J.l(J) = 1 - e- O•4
= 1 - 0.670 = 0.330, del Apéndice J
o cerca de una probabilidad de ocurrencia en tres. (Note que P(t) = 0.10
es infinitesimal.j

Propiedades de la distribución exponencial


La distribución exponencial tiene la propiedad de no tener memoria.
Por ejemplo, si la duracion de bombillas de alumbrado está distribuida
exponencialmente, significa que una bombilla que ha estado encendida
100 horas tiene la misma probabilidad de seguir encendida 200 horas más
que una bombilla que no haya sido probada aún. En un sentido, la bombilla
no tiene memoria de su historia previa.
168 Distribuciones de probabilidad

Para ver eso, continúe con el ejemplo 1 y calcule la probabilidad de


otras dos semanas adicionales, dado que ya ha transcurrido una semana
de duración:
P(t > 3) 0.050
P(t>3It>1)= =--=0.135
P (t > 1) 0.368

Note que ese resultado es idéntico a P(t > 2) = e- 1 ( 2 ) = 0.135.


La distribución exponencial tiene también una relación especial con
la distribución de Poisson. La Poisson describe el número de ocurrencias
por unidad de medida (por ejem.: el número de llamadas telefónicas por
minuto), mientras que la exponencial describe el valor de la medida por
ocurrencia (por ejern.: el tiempo transcurrido entre llamadas telefónicas
sucesivas). El tiempo entre llegadas sucesivas se denomina tiempo entre
llegadas. En esta forma las dos distribuciones se pueden utilizar para des-
cribir el mismo fenómeno, describiendo la Poisson el número de ocurren-
cias por unidad de tiempo y la exponencial, la distribución del tiempo
entre llegadas.

Usos de la distribución exponencial


La distribución exponencial se utiliza para representar muchos fenó-
menos, particularmente la vida útil de equipo electrónico o industrial. El
tiempo entre fallas de un computador electrónico y la duración de bombillas
de luz eléctrica son otros tantos ejemplos.
Dada la relación existente entre las distribuciones Poisson y exponen-
cial, se utiliza también la exponencial para describir el tiempo entre llega-
das siempre que sea aplicable la Poisson, Por esta razón se usa mucho la
distribución exponencial en la teoría de colas o de filas de espera para
describir el tiempo entre llegadas de clientes a alguna estación de servicio,
así como también el tiempo necesario para servir a un cliente.

RESUMEN
Este capítulo describe cuatro distribuciones específicas de probabilidad:
binomial, Poisson, normal y exponencial.
La distribución binomial modela situaciones en las que estamos mues-
treando un universo de atributos cuya característica específica es la de
asumir sólo dos valores (sí o no, éxito o fracaso, etcétera). Describe el
número de aciertos (r) obtenidos en un número fijo de intentos (n). Es
una distribución discreta.
Los supuestos básicos de la distribución binomial son: 1) la variable
aleatoria puede asumir sólo uno de dos valores: éxito o fracaso; 2) los
experimentos son independientes, y 3) la probabilidad de éxito se man-
tiene constante de un experimento a otro.
La distribución de Poisson es una distribución discreta, al igual que la
binomial. La variable aleatoria X puede asumir el valor O, o cualquier otro
Problemas 169

valor entero POSItIVO. Se utiliza para representar las ocurrencias aleatorias


en cierta unidad de medida, tales como el número de llamadas en una
unidad de tiempo o el número de defectos por metro de cable, etcétera.
Los supuestos básicos de la distribución de Poisson son: 1) el número
de posibles ocurrencias en cualquier unidad de medida es muy grande;
2) existe independencia de una unidad de medida a otra; 3) el número
promedio de ocurrencias por unidad de medida es constante.
Si el número de experimentos (n) es suficientemente grande, y peque-
ña la probabilidad (p) de éxito, la distribución de Poisson permite aproxi-
mar razonablemente la distribución binomial.
La distribución normal es una distribución continua que se representa
por una curva en forma de campana. La distribución normal estándar tiene
media igual a cero y desviación estándar igual a uno. Utilizando la distri-
bución estándar y el Apéndice D, podemos calcular probabilidades para
cualquier distribución normal.
Si el número de experimentos (n) es suficientemente grande y la pro-
babilidad (p) de éxito no es cercana a 0, o a 1, la distribución normal es
una aproximación razonable a la binomial.
El papel probabilístico normal puede utilizarse para comprobar si un
cierto conjunto de datos sigue una distribución normal, o para estimar la
distribución de una distribución normal a partir de datos muestrales.
La distribución exponencial es una distribución continua en forma de'
J. Se utiliza para representar ciertos fenómenos continuos tales como el
tiempo entre llegadas-a una estación de servicio o la duración de partes
electrónicas. Es también una distribución complementaria a la distribu-
ción de Poisson, que representa los tiempos entre llegadas entre ocurren-
cias, mientras que la Poisson representa el número de llegadas por unidad
de tiempo. •
En la tabla siguiente se presentan las cuatro distribuciones estudiadas
en este capítulo, junto con sus parámetros, medias, variancias y desviacio-
nes estándar:

Desviación
Distribución Parámetros Medía Variancia estándar

Binomial o •• o . o n, p np npq vnpq


Poisson . o ••••••••••• o o. o o o. m m m '1m
Normal ... , ....•.... o' • o o o o /1, .,. JL .,.2 a
Exponencial o • o ••• o A l/A 1/A2 l/A

PROBLEMAS
En los problemas 1 a 5, evalúe las probabilidades binomiales utilizando la
fórmula de la probabilidad binomial.
1. ¿ Cuál es la probabilidad de obtener tres caras en cuatro lanzamientos de una
moneda no cargada?
1 Distribuciones de probabilidad

2. ¿ Cuál es la probabilidad de extraer (con reemplazo) dos fichas rojas y una


amarilla, de una bolsa que contiene el 20% de fichas rojas y el aO% de
fichas amarillas?
3. ,'. Cuál es la probabilidad de obtener tres ases, al extraer cinco cartas de una
baraja, en que cada carta extraída se reemplaza y la baraja se mezcla perfec-
tamente antes de cada extracción?
4. ¿ Cuál es la probabilidad de obtener cuatro articulas defectuosos, en cuatro
extracciones sucesivas de un lote del que se sabe que ellO % de los artículos
es defectuoso?

5. Si el 60% de los televidentes de una población dada sintonizan un programa


específico, ¿ cuál es la probabilidad de que más de la mitad de las personas
que formen una muestra de cinco, extraída aleatoriamente de esa población,
vean ese programa de televisión?
6. Calcule las siguientes probabilidades binomiales, utilizando los Apéndices F y G.

a) P(r = 61n = 15, ./) = 0.35) f) P(r> 91n = la, P = 0.6Q.)


b) P(1" > 51n = 12, P = 0.2S) g) P(r <
61n = 14, P = 0.70)
e) P(1"< 111n = 20, P = O.4S) h) P(5 < <
r 131n = 20, P = 0.40)
d) P(r < 21n = 16, ./) = 0.06) i) P( 1 <:
r <Sin = 20, P = 0.12)
e) P(r;;' is¡» =c, 20, ./) = O.9S)

7. Calcule las siguientes probabilidades binomiales, utilizando los Apéndices F y G.

a) P(r = lln =
a, j) =.= 0.01·) f) P(r> 121n = 20, P = 0.75·)
b) P(r> 21n = 13, j' = O.lS) g) P(r <
Sin =
15, P 0.60) =
e) P(1"< ¡51n = 20,p = O.SO) h) P(7 r< < l O]» = 24, P = 0.55)
d) P(r <
61n = 20, 1) = 0.20) i) P(2 r<: <
= 18, ./) = 0.30.)
e) P(r~' 151n = 25, P = 0.70)

B. Calcule las siguientes probabilidades de Poisson, utilizando los Apéndices H e l.

a) P(X =21m 0.20)= e) P(X < 51m = 5.0·)


) P(X::::: 31m = 0.8Q.) d) P(2 <X::::; 61m = 2.4)

9. Calcule las siguientes probabilidades de Poisson usando Jos Apéndices H e 1.

a) P(.){ == =ce 2.6·) e) P(X < 1.0)


b) (X> = OAO) d) P(10::::: ~ 6.5)

10, Se sabe que una pieza de una máquina se descompone aleatoriamente ocu-
rriendo una descompostura en promedio cada cinco días. ¿ Cuántas partes
deben tenerse en existencia, para asegurar que la probabilidad de que en un
día, dado haya rnás descomposturas que refacciones sea menor al uno por ciento?
1. En promedio, los barcos de carga llegan aleatoriamente a un cierto puerto, a
razón de uno cada dos días. ¿ Cuál es la probabilidad de que lleguen dos o
más barcos en el mismo día?

J 2. La computadora marca Veloz se descompone a razón de 0.05 veces por hora


de operación, siendo necesario darle servicio especializado de reparación. (~Cuál
e; la probabilidad de que no ocurran descomposturas en un turno ele trabajo
g horas? í~ Cuál es la probabilidad de que rio ocurran en una semana de
'lO horas ? Suponga que descompostura.. s ocurren según una distribución de

probabil icladr-s exponenciales ut ilivarido el Apéndice


a)
b)
t > * = 0.5)
t ~ 0.21» = 2)
e)
el)
301!. = 0.05)
== 0.03·)
14. Suponga que el tiempo que necesita un cajero de banco para atender a un
cliente tiene una distribución exponencial con una media de 30 segundos.
a) ¿ Cuál es la probabilidad de que el tiempo necesario para un cliente dado
sea mayor que cuatro minutos?
b) ¿ Cuál es la probabilidad de que el tiempo necesario esté entre uno y dos
minutos?

15. Tome como referencia el problema 11. ¿ Cuál es la probabilidad de que el


tiempo entre dos llegadas consecutivas de buques sea mayor de dos días?
16. Tome como referencia el problema 12. Responda las mismas preguntas (pro-
babilidad de que no haya descomposturas en ocho horas, en 40 horas) supo-
niendo que los tiempos entre descomposturas están exponencialmente distri-
buidos. ¿ Son las respuestas las mismas del problema 12? ¿ Por qué sí o por
qué no?

17. Un pasajero sabe que el tiempo entre las llegadas sucesivas de autobuses en
cierta parada tiene una distribución exponencial con una media de 5 minutos.
a) Suponga que el pasajero llega a la parada justo a tiempo de perder un
autobús. ¿ Cuál es el valor estimado de espera hasta que llegue el siguiente
autobús? ¿ Cuál es la probabilidad de que espere más de 10 minutos?
b) Suponga que cuando llega encuentra que el último autobús salió exacta-
mente 5 minutos antes. ¿ Cuál es su t.iempo de espera estimado?
e) Suponga que nuestro pasajero llega a la parada pero no sabe cuándo se
fue el último autobús. ¿ Cuál es su tiempo estimado de espera?

18. La variable aleatoria X se distribuye normalmente, con media 50 y desviación


estándar 20. Calcule las siguientes probabilidades:

a) P(X> 75) e) P(25 < <


X 45)
b) P(X~55) el) P(35 ~ X ~ 80)
19. La variable aleatoria X se distribuye normalmente con media l8 y desviación
estándar 10. Calcule las siguientes probabilidades:

a) P(X> 28) e) P(l2 < X <


16)
b) P(X~17) d) P( 15 ~ X ~ 24)

20. Supongamos que la pesca total de merluza frente a las costas de Boston ha
sido en promedio de 100 millones de kilos anuales, con una desviación están-
dar de 5 millones de kilos, para los últimos lO años. En el mismo período, la
pesca de merluza frente a las costas de Gloucester ha sido ele 10 millones
de kilos, con una desviación estándar de 2 millones de kilos. Si el año pasado
se obtuvo en Boston una pesca excepcional de 108 millones de kilos, ¿. cuántos
kilos deberían haberse pescado frente a Gloucester para que esa pesca alcan-
zara el mismo carácter excepcional? (Suponga que ambas son distribuciones
norrnales.)
21. La calificación promedio en un examen presentado por n umerosos alumnos fue
de 80 puntos. La desviación estándar de las puntuaciones fue de 6 puntos. El
profesor de la clase ha decidido otorgar la calificación MB al 1 de los
alumncs. Suponiendo que las puntuaciones se distribuyen normalmente, ¿ cuál
sería la puntuación mínima necesaria para obtener un MB?

22. Una empresa comercial estima que el 3'1< de sus cuentas a crédito son 1l1CO-
brables. Si en la actualidad tiene 200 cuentas a crédito al corriente, ¿ cuál
es la probabilidad de que haya 8 o más que resulten incobrables?
172 Distribuciones de probabilidad

23. El gerente de ventas de una empresa cree que el 60% de los consumidores
prefiere su producto al dc los productores competidores. Si este supuesto es
correcto, y se extrae una muestra aleatoria de 100 consumidores, ¿ cuál es la
probabilidad de que resulten en ella menos de 54 personas que prefieran su
producto?

24·. El número de errores tipográficos que aparecen en la pagrna central de un


periódico se distribuye según una distribución de Poisson. Un experto nos ha
informado que el número promedio de errores es de 1.5 por página. Usted
toma un periódico, examina tres páginas y no descubre ningún error. ¿ Cuál
es la probabilidad de haber obtenido este resultado del muestreo?

25. Se estima que, aproximadamente, la demanda semanal de gasolina en una


nueva gasolinera estará normalmente distribuida, con un promedio de 1,000 Y
una desviación estándar de 50 galones. La gasolinera se abastecerá de gasolina
una vez a la semana. ¿ Cuál debe ser la capacidad de su tanque, si la proba-
bilidad de que se termine la gasolina en una semana dada no debe ser mayor
de 0.01?

26. En una encuesta reciente, de cada 100 firmas investigadas, 85 respondieron


que sus ventas se habían incrementado en relación al mismo período del año
pasado. Si en realidad sólo el 80% de las empresas han experimentado ese re-
sultado favorable, ¿ cuál es la probabilidad de obtener precisamente el resultado
que se obtuvo con la muestra? ¿ Cuál es la probabilidad de que 85 o más
empresas de cada 100, afirmen haber incrementado sus ventas?

27. Muestre que la distribución de probabilidad binomial tiene una media np


y una variancia = njJq, calculando la media y la variancia para la distribución
de probabilidad del número de caras en cuatro tiros de una moneda no
cargada.
Cartu Prob abilidad

o . 1/16
1 1/4
2 3/8
3 . 1/4
4· .........•• 1/16

28. Se escoge al azar un comité de J 5 personas entre los empleados de una gran
empresa de los cuales el 60';::, son mujeres. "Cuál es la probabilidad de
las mujeres se encuentren en minoría en el comité?

29. El sindicato de su fábrica dice que sólo el 20';::, de los trabajadores se oponen
la huelga.. Para investigar esa aseveración, usted torna una muestra aleatoria
de 22.5 trabajadores para preguntarles. Si 10 que dice el sindicato fuera correc-
to, ¿ cuál es la probabilidad de obtener más de 54· oponentes a la huelga en la
muestra?

:lO. Una compañia de seguros encuentra que la mitad del 1 % de la población


muere cada año a causa de detenninado accidente. ¿ Cuál es Ia probabilidad
de que la compañia deba pagar rnás de:
a) 'Tres de Jos 500 riesgos asegurados contra tajes accidentes en un ;:1110?
) Tres de los lOJ)()O riesgos asegurados contra tales accidentes en un año?

:) 1. F.n una oficina de Teservaciones de pasajes aéreos, las llamadas llegan cerca de
m in uios. Suponicnrlo que las llamadas son inde'Í)cnclicntes y
,: cuál eS ti probubilidad de que or.ur ra más de una
minuto
32. Las cuentas a crédito en una tienda un saldo 20 pesos
y una desviación estándar de 40 pesos. Suponiendo que los saldos se distribuyen
normalmente:
a) ,: Qué proporción de las cuentas supera los J 50 pesos?
b) ¿ Qué proporción queda entre 100 Y 150 pesos?
c) ¿ Qué proporción queda entre 60 y 90 pesos:'

La Serie Mundial va a ser disputada entre dos equipos, el de "la Liga Na-
cional y el de la Americana. El vencedor debe ganar 4 de 7 juegos. Supon-
gamos que la Nacional tiene el mejor equipo, de modo que la probabilidad
de que ganen un juego cualquiera es de 0.60. Además supongamos que esa
probabilidad se mantiene constante de un juego a otro, y que cada juego es
estadísticamente independiente de los demás.
a) ¿ Cuál es la probabilidad de que el equipo de la Nacional gane la se-
rie (es decir, que gane los cuatro juegos necesarios)?
b) ¿ Cuál es la probabilidad de que la Nacional gane 4 juegos?
c) ,c Cuál es la probabilidad de que la serie tenga cinco juegos, y que la
Nacional resulte ganadora?
d) ¿ Cuál es la probabilidad de que para definir el resultado de la serie deban
jugarse siete juegos (el máximo número de juegos admitidos)?

3,1. Una empresa compra determinado componente electrónico en grandes canti-


dades. La decisión de aceptar cada lote adquirido, o de rechazarlo (devolverlo
a! productor) se basa en una muestra de 20 productos. Si· alguno ele los 20
artículos resulta defectuoso, el lote se rechaza; de otro modo, se acepta.
a) ,c Cuál es la probabilidad de rechazar un "lote que tiene el 1 % de artículos
defectuosos?, ¿ cuál es la probabilidad de aceptarlo?
b) ¿ Cuál es la probabilidad de aceptar un lote que contiene el 10% de artícu-
los defectuosos?

35. Supongamos que la empresa citada en el problema anterior está estudiando la


posibilidad de utilizar una muestra de 50 artículos, en lugar de la de 20 utili-
zada hasta el presente. Suponiendo que el lote es aceptado si se encuentran
menos de 2 artículos defectuosos, y se rechaza si en la muestra hay 2 o más
defectuosos:
a) ¿ Cuál es la probabilidad de rechazar un lote en que el 1 % de los artículos
es defectuoso?
b) ¿ Cuál es la probabilidad de aceptar un lote en que e! 10% de los artículos
es defectuoso?
(Ut.ilice la aproximación de Poisson a la distribución binornial.)

36. Calcule las probabilidades de aceptar un lote en cada uno de los planes de
muestreo de los problemas 34· y 35, utilizando los valores 0.02, 0.05 y O.OS para
la fracción de artículos defectuosos en un lote. Represente gráficamente en un
solo diagrama estos valores y los hallados en los problemas 34· y 35. (El eje de
ordenadas corresponde a la probabilidad de aceptar el lote y el eje de abscisas
a la proporción de artículos defectuosos en el lote). Enlace con una curva suave
los puntos resultantes para cada uno de los dos planes de muestreo. Estas son
las curvas cnract eristic as de operación (curvas OC), para cada plan de mues-
treo. En base a estas curvas, compare los dos planes de muestreo.

37. Un auditor está analizando los documentos por pagar de una empresa comer-
cial. En este momento hay 5,000 documentos firmados por esa empresa. El
auditor considera que los documentos son satisfactorios si, a lo sumo, encuentra
errores, en 1 <¡;. de los mismos. Por otra parte, si hay errores en el 5'% más de
Jos documentos, el auditor exigirá una investigación inmediata y minuciosa.
174 Distribuciones de probabilidad

Como el número de documentos es relativamente elevado, el auditor decide


extraer una muestra de 25 documentos e investigarlos. La decisión de aprobar
la cuenta o de seguir investigando, depende del resultado de la muestra. El
auditor decide certificar las cuentas por pagar, si ninguno o a lo más uno de los
25 documentos muestreados es erróneo, y continuar investigando si encuentra
dos o más documentos Con errores.
a) Si en realidad hay el 1 ()é) ó 50 documentos erróneos, ¿ cuál es la proba-
bilidad de que el auditor certifique las cuentas?, ¿ cuál es la probabilidad
de que decida continuar investigando?
b) Si en realidad hay el 5'?(, ó 250 documentos erróneos, ¿ cuál es la proba-
bilidad de que el auditor solicite que prosiga la investigación i', ¿ cuál es
la probabilidad de que certifique la cuenta?

JBmUOGRAlFIA
DRAKE, ALVIN W. Furidametitals 01 Applied Pr ob ability Theory, Nueva York:
McGraw-Hill, 1967.
En los capítulos 1, 2 y 4 se hace un estudio adecuado y un tanto más
avanzado de las probabilidades y las distribuciones de probabilidad.
GOLDBERG, SAl\lljEI.. Prob abilit y, An Lntroduction: Englewood Cliffs, Nueva Jersey:
Prentice Hall, 1960.
Presenta un tratamiento detallado y sistemático de probabilidades en el cam-
po discreto.
HUFF, DARRELL. How lo Take a Chanceo Nueva York: VV. W. Norton, 1959.
Un libro breve y ameno, que trata las probabilidades con un enfoque hu-
morístico.
LEVINSON, HORACE C. Chance, Luck an.d Statistics. Nueva York: Dover Publica-
tions, 1963.
La primera parte de este libro trata las probabilidades en forma sumamente
sencilla.
MOSTELLER, FREDERICK; ROURKE, ROBERT E. y THoMAs, GEORGE B., JR. Proba-
bility with Statistical Ap plications, 2'·' ed. Reading, Massachusetts: Addison
Wesley, 1970.
Presenta un tratamiento detallado de las probabilidades a un nivel elemental.
NATIONAL BUREAU OF STANDAp.DS. Tables 01 the Binomial Prob ability Distribution.
Washington, D. C.: U. S. Covernment Printing Office, Applied Mathernaties
Series N'! 6, 1949.
Tablas detalladas de la distribución binomial.
RAIFFA, HOWARD. Decision Anal)'sis. Reading, Mass.: Addison-Wesley, 1968.
En los primeros capítulos se discuten los supuestos básicos de la probabilidad
subjetiva. El capítulo 5 es un tratamiento específico de la estimación de la
probabilidad subjetiva.
SCHLAIFER, ROBERT. Analysis 01 Decisions un.der Unc ertaint y, Nueva York: Me-
Graw-HilI, 1969.
En la parte 2 ele este libro (capítulos 5 al g.) se encuentra un tratamiento
detallado de las probabilidades, incluyendo la determinación de elistribuciones de
probabilidad subjetivas.
STAEL VaN HOLSTEIN, CARL-AxEL. Assessment and Evaluation o] Sub jectire Proba-
bility Distribntions. StockhoIm: Economic Research Instituto, Stockholm School
of Eeonoinics, 1971.
Un buen resumen del trabajo realizado en la determinación de las proba-
bilidadcs subjetivas) incluyendo varios experimentos del autor.
111. Toma de decisiones
CAPITULO 7
La toma de decisiones en
condiciones de incertidumbre

EN ESTE CAPÍTuLO se combinan las probabilidades con las consecuencias


económicas de eventos futuros y, así, se formula un procedimiento lógico
oara la toma de decisiones.

EL PROCESO DE LA TOMA DE DECISIONES

Cualquier problema que requiera toma de decisiones tiene ciertos ele-


mentos esenciales. Primero: hay diierentes maneras de resolver el problema,
o sea, dos o más acciones o alternativas posibles; de otro modo no habría
problema de decisión. Segundo: debe haber metas u objetivos que trata
de alcanzar el que toma las decisiones. Por ejemplo, un administrador
puede tener como metas las ganancias y desarrollo de su compañía. Terce-
ro: debe haber un proceso de análisis mediante el cual las alternativas
se evalúan en función de las metas. Entonces la persona encargada de tomar
las decisiones puede escoger la alternativa que mejor conduce a sus metas.
Lo anterior se presenta en forma esquematizada en la figura 7-1.

llodelos
Note que, tal como se muestra en la figura 7-1, en el proceso de aná-
lisis se utiliza un modelo o representación artificial de la realidad. Durante
mucho tiempo se han utilizado modelos en el análisis científico. Los inge-
nieros construyen réplicas de aeronaves y las prueban en túneles de viento,
o construyen réplicas de presas antes de decidir su construcción. A menudo
se puede utilizar una ecuación para representar alguna fase de la realidad,
tal como con las leyes de la física. Por ejemplo la ecuación:

d = lh g t 2
determina la distancia (d) que viajará un cuerpo en caída libre como
función del tiempo (t) que ha estado cayendo. (g es una constante.) Este
175
176 La toma de decisiones en condiciones de incertidumbre

PROCESO DE LA TOMA DE DECISIONES


Alternativas Evaluaciones en
función de metas

Proceso de anátísís
utilizando un modelo >

Figura 7-1

modelo resulta muy útil para describir un aspecto particular del mundo
real.
A veces, cuando se toma una decisión sencilla se usa un modelo intui-
tivo. Al hacer decisiones más importantes, se usan modelos más formales,
que especifican en detalle las variables importantes y las relaciones exis-
tentes entre ellas. Por lo general, los modelos no representan exactamente
a la realidad -para hacerlo tendrían que incluir demasiados factores y
ser muy complejo. Por ejemplo, la ley física que se describió anteriormente
no incluye la resistencia del aire al objeto que cae. Sin embargo, para que
un modelo sea útil, sólo se necesita que represente las variables importantes
que influyan en la decisión que se debe tomar en un momento dado.

Certidumbre e incertidumbre
En algunas decisiones administrativas, comerciales e industriales, se co-
nocen de antemano todos los factores importantes; es decir, no existe incer-
tidumbre con respecto a costos o a utilidades futuras. El problema de deci-
sión consiste en seleccionar la mejor de las alternativas conocidas. Consi-
dere el siguiente como un ejemplo de este tipo de problema de decisión:
Una empresa tiene varias plantas de producción, desde donde despacha
los productos a los almacenes de distribución. Las fábricas y almacenes
están esparcidos geográficamente por todo el país. Además, se conocen con
exactitud los costos de embarque de cada fábrica a cada almacén, las capa-
cidades de producción de las fábricas y las capacidades del almacenamien-
to en los depósitos. A pesar de conocer con exactitud toda esta información,
para determinar la programación óptima de los despachos (o sea, qué
fábricas deben despachar a qué almacenes, para lograr un costo mínimo)
no es un problema trivial, y frecuentemente requiere que se utilicen téc-
nicas matemáticas complejas.t Note que toda la información pertinente se
conoce con anticipación; la solución al problema consiste en una búsqueda
y análisis de todas las alternativas posibles, a fin de determinar cuáles son
las características de la toma de decisiones en condiciones de certidumbre.
Un problema que contrasta con el anterior es el que se le presenta
al encargado del departamento de compras de una negociación comercial.
1 Este es el "problema de transporte" en programación lineal. Para mayor in-
formación sobre el mismo, referirse a Daniel Teichroew, Introduction to Management
Science: Deterministic Models (Nueva York; John Wiley, 1964) u otro texto de
investigación de operaciones o de programación lineal. .
El criterio de la toma de decisiones J 77

A él le corresponde adquirir, con la anticipación suficiente, la mercancía


que necesitará su tienda para una estación determinada. El costo de la
mercancía y el precio de venta pueden conocerse; la decisión debe tomarse
sobre la cantidad de mercancía que se va a adquirir. Si ordena una cantidad
excesiva, posiblemente tenga que vender a precios de liquidación, redu-
ciendo así las utilidades de la negociación. Por otra parte, si la orden es
demasiado pequeña pueden perderse ventas y, por lo tanto, se perderá la
oportunidad de obtener utilidades adicionales. Para tomar esta decisión, el
responsable de hacer las compras debe estimar cuál es la demanda futura
de la mercancía. Generalmente, no la puede conocer de antemano; existe
cierta incertidumbre con respecto a la demanda que se materializará con-
cretamente, en razón de 10 atractivo de los productos, de las tendencias
de la mo :la, de las condiciones económicas y otros factores semejantes. Por
lo tanto, la decisión de hacer la compra es característica de la toma de
decisiones en condiciones de incertidumbre. Tales decisiones se caracte-
rizan por el hecho de que el valor de una o más de las variables que
influyen es desconocido para la persona responsable de tomar dicha deci-
sión. Esto no quiere decir que no se disponga de ninguna información con
respecto al valor de la variable en condiciones de incertidumbre. Segura-
mente, el encargado de compras de la tienda ha hecho alguna estimación
de la demanda futura, basándose en su experiencia pasada en ventas, su
conocimiento particular de la mercancía, y su evaluación de las condiciones
económicas presentes y futuras. Por lo tanto, puede apreciar subjetivamente
que ciertos niveles de demanda son más factibles que otros.
En la toma de decisiones admi~istrativas en condiciones de incertidum-
bre, es útil usar modelos o representaciones de la realidad basados en pro-
babilidades y distribuciones de probabilidad. Por ejemplo, un fabricante
puede tener un proceso de producción en el que se manufacturan partes
clasificadas como buenas o como defectuosas. La distribución de probabi-
lidad binomial puede servir como modelo de ese proceso cuando los supues-
tos de la distribución se satisfacen aproximadamente. En forma similar, se
utilizan probabilidades estimadas en forma subjetiva para representar el
criterio del que toma las decisiones acerca de la probabilidad de que
ocurran sucesos inciertos. Por ejemplo, SOn útiles las probabilidades acerca
de la demanda del mercado en decisiones respecto al tamaño y localización
de una planta.

EL CRITERIO DE LA TOMA DE DECISIONES


En la toma de decisiones en condiciones de incertidumbre, debe haber
diferentes cursos de acción para el que toma las decisiones. También debe
haber dos o más eventos o valores que pueda tomar la variable desconocida.
A veces esos posibles eventos se denominan estados de la naturaleza, puesto
que representan diferentes hechos que pueden ocurrir. La incertidumbre
del que toma las decisiones consiste en que no sabe cuál evento va a ocurrir
(o sea, cuál estado de la naturaleza se materializará).
178 La toma de decisiones en condiciones de incertidumbre

El problema es decidir cuál curso de acción se va a tomar. Esta


elección en condiciones de incertidumbre no es sencilla, porque general-
mente algunas acciones son mejores si ocurren ciertos eventos y se pre-
fieren acciones distintas si ocurren otros eventos. Por lo tanto, se necesita
un criterio de decisión, o una regla para determinar cuál curso de acción
se seleccionará.
Considere los conceptos anteriores en el siguiente ejemplo. La compañía
Zip de renta de automóviles los ofrece en renta a razón de 10.00 dólares
diarios; el cliente paga su propia gasolina y aceite. Los autos sólo se rentan
por un día. La compañía Zip no tiene automóviles propios, sino que los
arrienda sobre una base diaria, de una gran empresa arrendadora. Esta
última es la que absorbe el costo de mantenimiento de los automóviles. La
compañía Zip debe especificar cuántos automóviles quiere arrendar en un
día determinado, por lo menos con una semana de anticipación. La com-
pañía Zip paga a la firma arrendadora 7 dólares diarios por concepto de
arrendamiento. (Para evitar confusiones, note que las palabras "arrendar"
y "arrendamiento" se utilizan para denotar el convenio entre la compañía
Zip y la gran empresa arrendadora; las palabras "rentar" o "subarrendar"
se utilizan para denotar la relación establecida entre la compañía Zip y
sus clientes).
La compañía Zip se enfrenta al problema de décidir cuántos automó-
viles debe arrendar para un día determinado de la semana siguiente con
7 días de anticipación. La demanda de estos automóviles es variable y
fluctúa de un día a otro. Si la compañía Zip arrienda más autos que los
requeridos por su clientela en un día dado, perderá el importe del arren-
damiento, o sea 7.00 dólares por cada automóvil que no pueda rentar. Si
la demanda de automóvil es mayor que el número disponible, deja de
obtener una utilidad de 3.00 dólares por automóvil (10.00 dólares de renta
menos 7.00 dólares de arrendamiento).
En este problema de toma de decisiones, el factor desconocido (aleato-
rio) es el número de solicitudes de renta en un día determinado. Los acon-
tecimientos posibles o estados de la naturaleza, son los eventos: "10 solici-
tudes de renta", "11 solicitudes de renta", "12 solicitudes", etcétera. Las
acciones o alternativas que puede elegir quien toma la decisión son: "arren-
dar 10 automóviles", "arrendar 11 automóviles", etcétera. El problema
es decidir cuál es la mejor alternativa.
A fin de obtener alguna información adicional, el gerente de la compa-
ñía Zip ha registrado el número de automóviles solicitados cada día, durante
un período de 100 días. Esta información se presenta en la tabla 7-1.
Podemos usar la distribución de frecuencias (de datos), como un mo-
delo probabilístico o representación de la incertidumbre a la que se enfrenta
la 'compañía Zip, Es decir, podemos usar una frecuencia relativa de la
tabla 7-1, como una estimación de la probabilidad de que en un día deter-
minado se reciba el número correspondiente de solicitudes de automóviles.
Se estima una probabilidad nula para 9 o menos solicitudes de renta de
automóviles; una probabilidad de 0.05, para exactamente 10 solicitudes de
El criterio de la toma de decisiones J 79

Tabla 7·1
SOLICITUDES DE AUTOMOVILES EN RENTA. COMPAJIl'IA ZIP
DE RENTA DE AUTOMOVILES
Datos de 100 días

Número de automóviles Frecuenrío . Frecuencia


solicitados Número de dias relativa

9 O menos o o
10 5 0.05
11 5 0.05
12 10 0.10
13 1: 0.15
14 20 0.20
15 25 0.25
16 15 0.15
17 5 0.05
18 o más O O
100 1.00

renta, etcétera. Note que estamos restringiendo los eventos posibles al rango
comprendido entre 10 y 17 solicitudes.
El uso de estas frecuencias en carácter de distribución de probabilidades,
implica de cierto modo' un modelo. de "apuestas con la naturaleza". Es
decir, podemos imaginar la rueda de una ruleta con cien hendiduras; cinco
de estas hendiduras están marcadas con el número diez; cinco están mar-
cadas con el número once; diez están marcadas con el número doce, etcétera;
cada ranura corresponde a las frecuencias o a las probabilidades estima-
das de la tabla 7-1. Por lo tanto, el evento "10" tiene sólo 5 oportunida-
des de ocurrir en 100, o sea, una oportunidad en 20 y, análogamente,
para los demás eventos. Por lo tanto, el uso de estas probabilidades impli-
ca una "distribución de apuestas" con respecto a la naturaleza.
Si se desea utilizar la distribución de probabilidades como un modelo
de la naturaleza, es necesario suponer ciertas hipótesis como las siguien-
tes. Suponemos que los 100 días son una muestra "representativa" de la!'>
solicitudes pasadas (es decir, no hubo sesgo en el método de selección
de la muestra). Suponemos que en el futuro se repetirá lo del pasado en
lo referente a solicitudes de renta de automóviles. Suponemos que el
número de solicitudes son independientes día a día y semana a semana.
Si estas hipótesis son válidas, nuestro modelo tiene validez como repre-
sentación de la realidad.

Decisiones basadas sólo en probabilidades


Con los datos presentados en la tabla 7-1, se podría tratar de decidir
cuál es el número de automóviles que conviene arrendar (sin más informa-
180 La toma de decisiones en condiciones de incertidumbre

cron adicional). Algunas decisiones y los razonamientos correspondientes


pueden ser los siguientes:

a) Arrendar 10 autos. Esto garantizaría que todos los automóviles


arrendados serían rentados;
b) Arrendar 17 autos. Esto garantizaría que a ningún cliente se le
negaría un automóvil;
c) Arrendar 15 autos. Este es el número de solicitudes más frecuentes
(el valor modal de la distribución);
d) Arrendar 14 autos. Esta es la media o número esperado de solici-
tudes, como se indica en la tabla 7-2.

La objeción a todos los criterios anteriores, es que no utilizan la infor-


mación de tipo económico de que dispone el responsable de la toma de
decisiones.
Para observar claramente por qué la decisión debe depender del costo
del arrendamiento de un automóvil y del precio de rentarlo a un cliente,
considere los siguientes ejemplos:

1. Si el costo de arrendamiento de un automóvil fuera nulo, el criterio


b (arrendar 17 autos), sería la decisión más conveniente.
2. Si ,1 costo del arrendamiento de un automóvil fuera igual al precio
de rentarlo a un cliente, el criterio a (o la alternativa de dejar el
negocio) sería el menos costoso. Esto implicaría un beneficio nulo,
el que sería preferible a las demás alternativas, puesto que esas otras
implicarían pérdidas.
De estos ejemplos se aprecia que los factores económicos tales como
los precios y los costos, influyen decisivamente en la decisión correcta (o
la más ventajosa). '

Tabla 7.2
CALCULO DEL NUMERO ESPERADO DE SOLICITUDES
DE RENTA DE AUTOMOVILES

X P(X)
Número solicitado Probabilidad X. P(X)

10 0.05 0.50
11 0.05 0.55
12 0.10 1.20
13 0.15 1.95
14 0.20 2.80
15 0.25 3.75
16 0.15 2.40
17 0.05 0.85
1.00 14.00
E(X) = 2:[X . P(X)] = 14.00
El criterio de la toma de decisiones 181

Decisiones basadas sólo en factores económicos


Es posible irse al otro extremo, confiando únicamente en los factores
económicos e ignorando la información probabilística. Analicemos este
enfoque:
Primero elaboramos una tabla con las consecuencias económicas que
resulten de cada par formado por un evento y cada acción posible. Se le
llama tabla de consecuencias o matriz de consecuencias. En la elaboración
de matrices de consecuencias, es importante incluir solamente los costos
o beneficios reales que produzcan las acciones y eventos considerados. Por
lo tanto, sólo interesan los gastos efectivos y los ingresos efectivos. Los
gastos generales (fijos) y la depreciación deben excluirse, puesto que no
representan erogaciones monetarias que influyan la decisión. La tabla 7·3
es una matriz de consecuencias (o matriz de pagos) para este problema.

Tabla 7·3
-TABLA DE CONSECUENCIAS
Beneficios monetarios obtenidos en la renta de automóviles

Eventos: AccioneS!: número de 'automóviles arrendados


~Vúmero de automóviles -~~~-

solicitados en renta 10 11 12 13 14- 15 16 17

10 3Q 23 16 9 2 -5 -12 -19
11 30 33 2'6 19 12 5 - 2 - 9
12 30 33 36 29 22 15 8 1
13
14
15
30
30
30
.. 33
33
33
36
36
36
39
39
39
32
42
42
25
35
45
18
28
38
U
21
31
16 30 33 36 39 42 45 48 41
17 30 33 36 39 42 45 48 51

Recordemos que la compañía Zip arrienda automóviles a 7.00 dólares.


diarios y los renta en 10.00 dólares. A partir de estos datos podemos calcu-
lar en la matriz el beneficio (o pérdida) para cada combinación de acción
y evento. Así, si la compañía Zip, arrienda 13 automóviles y renta 11 de
ellos a sus clientes, el beneficio sería 19 dólares de utilidad que calculamos
así: 11 X 10 dólares (esto es 11O dólares de ingreso) - 13 X 7 dólares
(esto es 91 dólares de costo) ó 19 dólares. Suponemos que no hay un
"costo de penalización" (además de la pérdida del beneficio), que se
carga cuando un cliente solicita que se le rente un automóvil y no se pue-
de satisfacerla solicitud por no haber uno disponible; quizá otra agencia
competidora le pueda rentar el auto que solicita.
La tabla 7-3 muestra que las acciones de la cornpama Zip pueden
variar de acuerdo con el riesgo. La acción "arrendar 10 automóviles", ga-
rantiza un beneficio de 30 dólares, independientemente de lo que pueda
ocurrir. En este sentido, éste es el riesgo menor o la acción más conser-
182 La toma de decisiones en condiciones de incertidumbre

vadera." En contraste, la acción "arrendar 17 automóviles", es la alterna-


tiva más riesgosa, en el sentido de que los posibles beneficios varían de
una pérdida de 19.00 dólares (cuando sólo se rentan 10 automóviles)
a un beneficio de 51 dólares (cuando se rentan los 17 automóviles).
La mayoría de los responsables de la toma de decisiones se atemori-
zarían ante la perspectiva de tomar una decisión basándose sólo en la
información presentada en la tabla 7-3. Insistirían en saber algo más, con
respecto al grado de la factibilidad de ,:/ue ocurra cada evento. Por lo
general, la alternativa "arrendar 10 automóviles" sería preferible, si se
supiera que sólo en raros casos (por ejemplo, uno en cien) se solicitarán
más de 10 automóviles en renta; análogamente, la alternativa "arrendar
17 automóviles" sería generalmente preferida, si fuese raro que se soli-
citaran menos de 17 automóviles para rentar.
Para una persona dada, la preferencia o aversión al riesgo depende
fundamentalmente de cómo evalúa subjetivamente los montos monetarios
presentados en la tabla 7-3. Si una pérdida de 10 dólares o más puede
afectar mucho su capital de trabajo, el responsable de la toma de deci-
siones evitaría las alternativas "arrendar 16 automóviles" y "arrendar 17
automóviles", aun cuando fuera muy improbable que el número de soli-
citudes alcanzaran niveles tan bajos corno 10 y 11 automóviles. Por otra
parte, si se necesitara un mínimo de 40 dólares de' utilidad para satisfacer
cierto objetivo (por ejemplo, para pagar una deuda), quien tome las
decisiones puede considerar únicamente las alternativas de arrendar 13 o
más automóviles. Los factores que determinan el valor subjetivo de un
beneficio (o pérdida) influyen ciertamente en el proceso de toma de deci-
siones. En una sección posterior consideraremos en detalle esos efectos.
Por ahora se supondrá que los factores subjetivos no tienen efecto en el
valor del dinero para quien torna las decisiones; es decir, una ganancia
de 20 dólares se toma exactamente al doble de una ganancia de 10 dólares.

Valor monetario esperado como criterio de decisión


Tanto la información probabilística como la económica son necesa-
rias para la toma de decisiones racionales en condiciones de incertidum-
bre. En esta sección se estudia el procedimiento que se sigue para integrar
ambos conjuntos de información. Comenzamos por calcular el valor mo-
netario esperado para cada alternativa. La tabla 7-4 ilustra este cálculo
para la acción "arrendar 15 automóviles".
En la columna denominada "beneficio" en la tabla 7-4 se indica el
beneficio que se obtendría en cada nivel de demanda (número de auto-
móviles solicitados por los clientes), si se hubieran arrendado 15 automó-
2 La elección de la alternativa con el mayor de los niveles de beneficio mínimo,
se llama "estrategia maximin" que (maximiza el beneficio mínimo). Si la tabla se
expresa en pérdidas (beneficios negativos), al criterio se le llama "minimax" (esto
es, seleccionar la alternativa con la menor de las pérdidas máximas). Ver referen-
cias: Luce y Raiffa y otros de la pág. 238 para un tratamiento más detallado de
estos tipos de estrategia de decisión.
El criterio de la toma de decisiones 183

viles (vea la tabla 7-3). El beneficio máximo es de 45 dólares cuando se


rentan los 15 automóviles (la demanda es de 15 o más automóviles). Si
sólo se rentan 10 automóviles, se tendrá una pérdida de 5 dólares (bene-
ficio negativo).
El valor monetario esperado (c abreviado EMV) o beneficio esperado,
se interpreta de la misma manera como el valor esperado de una variable
aleatoria, E (x). El EMV es el beneficio promedio que se obtendría si la
decisión se repitiera muchas veces, y cada vez se eligiera la misma alter-
nativa (en este caso, arrendar 15 automóviles); también es el beneficio
que debería esperarse a largo plazo, aunque la decisión se efectuara una
sola vez. El EMV es simplemente un promedio ponderado de beneficios,
en que las ponderaciones son las probabilidades de los diversos eventos
posibles. Note que un beneficio de 32.50 dólares nunca puede ocurrir,
aun cuando el EMV sea de 32.50 dólares, el verdadero beneficio que
resultará será alguno de los valores en la columna "Beneficio" de la tabla
7-4.

Tabla 7-4
CALCULO DEL VALOR MONETARIO ESPERADO DE LA
ACCION "ARRENDAR 15 AUTOMOVlLES"

Evento: número
de automóviles
solicitados en Probabilidad : Beneficio: Beneficio esperado:
renta (X) 'P(X) '1T 'Ir·P(X)
,,'

10 0.05 -$ 5 -$ 0.25
11 0.05 5 0.25
12 0.10 15 1.50
13 0.15 25 3.75
14 0.20 35 7.00
15 0.25 45 11.25
16 0.15 45 6.75
17 0.05 45 2.25
1.00 $32.50
Beneficio esperado = EMV = l:('1T ' P(X)] = $32.50

El valor monetario esperado para cada alternativa puede calcularse


mediante elprccedimiento ilustrado en la tabla 7-4. Estos valores se pre-
sentan en la tabla 7-5. La alternativa "arrendar 13 automóviles" tiene el
mayor EMV: Nuestro criterio para la toma de decisiones en condiciones
de incertidumbre, es el de escoger la acción a la que corresponde el mayor
beneficio esperado (es decir el mayor EMV). 3

3 Más adelante estudiaremos la maximización de la utilidad esperada, donde la


utilidad es una medida de evaluación del riesgo. Por el momento, suponemos que
el dinero tiene una función de utilidad lineal, es decir, ni aversión ni preferencia
por el riesgo.
184 La toma de decisiones en condiciones de incertidumbre

Tabla 7-5
VALOR MONETARIO ESPERADO (BENEFICIO ESPERADO),
PARA TODAS LAS ACCIONES ALTERNATIVAS

Acci.ón: número Valor monetario


de automóviles esperado
arrendados (beneficio esperado)
----------------------
10 $30.00
11 32.50
12 34.50
13 35.50
14 35.00
15 32.50
16 27.50
17 21.00

Una reflexión breve convencerá hasta al lector escéptico de que este


criterio es razonable. Si la decisión se repitiera día a día, la acción "arren-
dar 13 automóviles" produciría el mayor beneficio promedio. Aun si la
decisión se tomara una sola vez, la acción "arrendar 13 automóviles" sería
la "mejor apuesta" que se podría hacer. Recuerde que el uso de las pro-
babilidades como un modelo de la naturaleza implica una "distribución
de apuestas" para el responsable de la toma de decisiones; en esta distri-
bución las probabilidades representan las apuestas sobre los diversos even-
tos posibles. La acción que maximiza el valor esperado es la apuesta más
razonable, teniendo en cuenta las probabilidades estipuladas.
Note que la decisión seleccionada (arrendar 13 automóviles) no es la
que indica ninguno de los criterios, es decir, utilizar únicamente las pro-
babilidades, o bien, usar sólo la información económica. El número de
autos que conviene arrendar no coincide con la media (que es 14), ni
con la moda (que es 15) de la distribución de frecuencias.

Un ejemplo de utilización de probabilidades subjetivas. Una


compañía, Concesionarios de Fútbol, tenía licencia para vender helados,
aguas frescas y emparedados en los juegos de fútbol de la universidad.
En el pasado, esas ventas le produjeron al concesionario ganancias peque-
ñas pero constantes. La universidad tenía equipos de fútbol mediocres
que atraían relativamente poca gente a los juegos. Por otra parte, debido
a la ubicación geográfica de la universidad, se podrían predecir con bas-
tante exactitud las condiciones climatológicas; de manera que se podían
estimar con precisión el número de asistentes y las compras que harían.
Sin embargo, la fecha del sábado 17 de noviembre de 1973 surgió un
problema para el concesionario. La universidad debía enfrentarse con su
rival más destacado. Ambos equipos no habían sido vencidos, de manera
que el ganador del juego sería el campeón de la liga. La venta previa
de entradas al juego indicaba que si el tiempo era bueno se podría esperar
una asistencia de 80,000 personas. Por otra parte hubo lluvia continua
El criterio de la toma de decisiones 185

durante el viernes y, según la predicción meteorológica llovería el día del


juego. Se esperaba una asistencia de sólo 20,000 personas si la lluvia re-
sultaba muy fuerte.
El concesionario debía ordenar sus alimentos un día antes del juego.
Generalmente ordenaba en base a un costo de $0.50 por persona asis-
tente, lo cual había resultado bastante preciso en el pasado. El precio de
venta lo fijaba como el doble del costo. Generalmente podía recuperar
el 20% de cualquier cosa que no hubiera podido vender.
El concesionario se enfrentaba a un problema de decisión en condicio-
nes de incertidumbre real. Como primer paso, se debe establecer una tabla
de pagos (o de consecuencias) para el problema. Para simplificar un poco,
supondremos que hay sólo cuatro posibles cursos de acción y cuatro even-
tos. Las ganancias que se obtendrían en cada caso se muestran en la
tabla 7-6.

Tabla 7-6
CONCESIONARIA DE FUTBOL
Tabla de consecuencias (miles de dólares)«

Evento: Acc~Jn: Ordenar comida para


Número de
asistentes 20,000 40,000 60,000 80,010

20,000 $10 $ 2 $-6 $-14-


40,000 10 20 12 4
60.000 10 20 30 22
80.000 10 20 30 40

Si la accion elegida de acuerdo con la tabla 7-6 es "ordenar comida


para 20,000", el concesionario obtendrá $0.50 por persona (o 10,000 pesos
en total), sin que le quede nada, no importa lo que ocurra. Si ordena
comida para más personas de las que lleguen, tendrá que tirar una parte.
Por ejemplo, si ordena comida para 80,000 y llegan sólo 40,000, la ganan-
cia neta es $4,000, calculada en la siguiente forma:

Costo por cantidad ordenada, $0.50 X 80,000 .....•....... $40,000


Ingreso por ventas, $1.00 X 40,000 . 40,000
Devolución por comida no vendida, 20% de ($0.50 X 40,000) 4,000
Ganancia neta, $40,000 - $40,000 + $4,000 •...•........... 4,000

Los otros pagos (o consecuencias) de la tabla 7-6 se calculan de manera


similar.
Si el concesionario siguiera el criterio adoptado por el gerente de la com-
pañía de renta de automóviles del ejemplo anterior, necesitaría estimar la
probabilidad de ocurrencia de las diferentes cantidades de personas que pue-
den asistir. Pero, a diferencia del ejemplo anterior, no existe una historia
previa que sea comparable. La situación para este juego es única.
186 La toma de decisiones en condiciones de incertidumbre

¿ Cómo puede, entonces, el concesionario obtener probabilidades para los


eventos? Para ello debe utilizar probabilidades subjetivas. O sea, que debe
estimar las probabilidades de ocurrencia relativas de diferentes números de
asistentes. Las probabilidades son subjetivas porque representan su propia
estimación acerca de lo que podría pasar.
Por supuesto que el concesionario debe obtener la mayor cantidad de
información posible antes de estimar esas probabilidades. Por ejemplo, podría
obtener la predicción meteorológica más reciente. Podría preguntar a la
oficina de ventas de entradas por el número de entradas vendidas y devuel-
tas, o bien, consultar a otros concesionarios, a fin de ver si tienen alguna
experiencia que pudiera ayudarle. Sin embargo, es poco probable que
todo eso le pueda dar mucha información. La predicción del tiempo no
es fácil y, aunque supiera cuál va a ser el tiempo, no necesariamente
puede predecir el número de personas asistentes. Por ejemplo, podría
haber una gran asistencia a pesar de la lluvia.
Suponga que el concesionario, después de reflexionar lo suficiente,
asigna las probabilidades mostradas en la tabla 7-7 a las distintas canti-
dades posibles de asistentes. Al asignar esas probabilidades, el concesiona-

Tabla 7-7
CONCESIONARIA DE FUTBOL
Probabilidades subjetivas para los eventos

Evento:
Número de Probabilidad
asistentes subjetiva

20,000 0.30
40,000 0.20
60,000 0.10
80,000 0.40
1.00

rio pudo pensar, por ejemplo, que si llovía vendría poca gente; si aclaraba,
vendría mucha gente; y que había poca probabilidad de que viniera una
cantidad intermedia. O bien, tal vez pensó que, al asignar esas probabi-
lidades, estaba haciendo apuestas. Por ejemplo, las probabilidades de la
tabla 7-7 implican, que hay una apuesta igual (probabilidades 50/50)
de que lleguen 20,000 a 40,000 personas o de que lleguen 60,000 a 80,000.
Las probabilidades también implican que las posibilidades son de 4' en
10 de que lleguen 80,000 personas, 1 en 10 de que lleguen 60,000, y así
sucesivamente. Para ayudarse en la determinación de las probabilidades,
el concesionario podría ver si, en su opinión, las apuestas son iguales que
las probabilidades de apuestas implicadas en su conjunto de probabilida-
des. (En el Apéndice del capítulo 5 se presenta un procedimiento para la
estimación de distribuciones de probabilidad subjetiva.)
El criterio de la toma de decisiones 187

Utilizando las probabilidades de la tabla 7-7, se puede calcular la


~nancia esperada para cada acción. Ello se ilustra para la acción "ordenar
comida para 40,000 personas" en la tabla 7-8. En forma similar se pueden
calcular los valores esperados para otras acciones; los resultados se mues-
tran en la tabla 7-9. Si el concesionario adopta el criterio "escoger la
acción con el valor esperado mayor", ordenará comida para 60,000 per-
sonas.
Sin embargo, antes de seguir adelante, piense en la decisión sugerida
. en el párrafo anterior. Si usted fuera el concesionario de verdad ¿ orde-

Tabla 7-8
CONCESIONARIA DE FUTBOL
Valor esperado para la acción "ordenar comida
para 40,000 personas"

Ev-ento:
Número de Probabilidad
asistentes Probabilidad Beneiício X beneficio

20,000 0.30 $ 2,000 $ 600


40,000 0.20 20,000 4,000
60,000 0.10 20,000 2,000
80,000 0.40 20,000 8,000
Valor esperado $14,600

naría de verdad comida para 60,000 personas? Muchas pe~nas que con-
sideran que el criterio de decisión "escoger la acción con el valor esperado
mayor" es muy razonable 'en el problema de la compañía de renta de
automóviles ZIP, empiezan a tener algunas dudas acerca de la aplicación
del mismo criterio aquí. Por lo tanto, habrá que analizar ese criterio.

Tabla 7-9
CONCESIONARIA DE FUTBOL
Valores esperados para todas las acciones

Acción: ordenar Beneficio


comida para esperado

20,000 $10,000
40,000 14,600
60,000 15,600
80,000 14,800

Probabilidades subjetioa« y datos históricos. Hay tres diferencias


fundamentales entre el problema de la Concesionaria de Fútbol y el pro-
blema de la compañía de renta de automóviles ZIP. En: el primer caso
188 La toma de decisiones en condiciones de incertidumbre

se usan probabilidades subjetivas y los datos históricos conocidos son más


objetivos que los del problema de la compañía ZIP. A menudo, en la
mente de los escépticos surgen preguntas tales como "¿ Pero son correctas
las probabilidades subjetivas?" o "¿ No obtendría el concesionario una
solución diferente si asignara diferentes probabilidades?"
Por supuesto, la respuesta es que no existe una probabilidad subjetiva
"correcta". Las probabilidades subjetivas son un estado mental, no un estado
de la naturaleza, Expresan el criterio de quien toma las decisiones y son útiles
para obtener una decisión que concuerde con ese criterio. Incluso en el caso
del problema de la compañía de renta de automóviles ZIP, el encargado
de tomar la decisión debía hacer un juicio subjet ivo sobre si los datos
históricos de que disponía eran pertinentes para las decisiones futuras.
Note que dos personas con diferentes criterios acerca de lo que podría
ocurrir (es decir, diferentes probabilidades subjetivas) podrían tomar
decisiones diferentes. No hay nada inconsistente en cuanto a esto. El
criterio de decisión de maximizar el valor esperado no garantiza decisiones
"correctas" -sólo garantiza que las decisiones concuerdan con el criterio
del que decide.

Decisión única y decisiones repetidas. La segunda diferencia entre


los dos ejemplos es que el caso de' la concesionaria de fútbol es una
situación e'e decisión "única", mientras que el problema de renta de
ccches implica que la misma situación se repita día tras día. ¿Es válido
el criterio del valor esperado para esa decisión única?
Para responder a esa pregunta, suponga que el concesionario tiene
que tomar muchas decisiones administrativas en el curso del año, las
cuales, a su vez, producen los mismos resultados que el ejemplo que se
considera aquí. Esas decisiones pueden referirse a concesiones en otros
juegos, compra y venta de propiedades, o inversiones en bonos. En cada
uno de esos casos hay diferentes alternativas, eventos, pagos y probabili-
dades. Si el encargado de decidir sigue el criterio de maximizar el valor
monetario esperado en cada caso, obtendrá mejores resultados, en pro-
medio, que con cualquier otro criterio de decisión. En este contexto, maxi-
mizar el valor esperado puede considerarse como la maximización del
pago promedio sobre varios casos de toma de decisión diferentes. Utilizar
el criterio del valor esperado significa jugar siempre a la mejor apuesta.
Sin embargo, si ésta es la única intervención del concesionario, quizá
él desee considerar mediante valores de utilidad qué riesgo se corre, según
se describe a continuación.

Ajuste por riesgo. La tercera diferencia que hay entre los problemas
del concesionario y el gerente de la compañía de renta de automóviles está
en las grandes cantidades negativas (-$14,000) que hay en el problema
del concesionario. Si perder esa cantidad afectaría gravemente su posición
financiera, ¿ consideraría esa alternativa? Note que aún la decisión reco-
mendada de ordenar comida para 60,000 personas implica una posible
pérdida de $6,000. Lo cual trae a cuento la actitud respecto al riesgo
Arboles de decisión J89

de parte del concesionario. Si las cantidades de dinero implicadas en


la decisión son grandes en relación con otras decisiones, tal vez se quiera
tomar en cuenta el riesgo implicado y, de hecho, puede tender a evitar
alternativas riesgosas.
El ajuste por riesgo implica el uso de funciones de utilidad o prefe-
rencia del dinero. Este tema se estudiará más adelante en este capítulq,
Ajuste por riesgo significa que el criterio de decisión se modifica en tal
forma que se maximicen la utilidad (dinero ajustado por riesgo) en vez
del valor monetario esperado (EMV).

ARBOLES DE DECISION
En ciertas ocasiones quien decide debe tomar una sola decisión; por
ejemplo, un fabricante debe decidir si construir una planta grande o
pequeña. Las condiciones subsecuentes del mercado determinarían cuál
es el beneficio que obtendría.
Suponga que el fabricante puede construir una planta pequeña y
ampliarla posteriormente, cuando conozca mejor la demanda del nuevo
producto. La ampliación de las instalaciones costaría 3 millones de dó-
lares y permitirá que la empresa efectuase las ventas requeridas para
atender un alto nivel de demanda y, por lo tanto, obtener el mismo
beneficio de 10 millones de dólares (excluyendo el costo de la planta)
que podría obtenerse ahora si construyera una planta grande.
Note que en este ejemplo revisado, el fabricante no está tomando
una decisión, sino una secuencia de decisiones: la primera es elegir entre
"planta grande o pequeña" y luego, en fecha posterior, la decisión de
ampliar o no ampliar la planta pequeña (si escogió la planta pequeña
en la primera decisión). En el lapso que transcurre entre estas decisio-
nes, el fabricante obtiene nueva información; es decir, llega a saber si
el nivel de demanda es alto o bajo. Así, el fabricante puede mejorar
su primera decisión, tomando en cuenta las posibilidades que le ofrece la
segunda decisión.

Decisiones secuenciales y árboles de decisión


Un método para analizar problemas que incluyen una serie de deci-
siones, es expresar las alternativas en forma de un árbol de decisiones. En
la figura 7-2 se presenta el árbol de decisiones para el problema que
afronta el fabricante.
Empezando por la izquierda, las dos primeras ramas del árbol de
decisiones representan las alternativas de acción para la primera decisión:
construir una planta grande o una pequeña. Al final de cada rama de
decisión (o acción) se tiene una bifurcación con dos ramas, que repre-
sentan los eventos de nivel de demanda alto y bajo para el nuevo pro-
ducto. A la fecha de tomar la primera decisión (tamaño de la planta),
no se sabe cuál de estos eventos es el que ocurrirá realmente.
190 La toma de decisiones en condiciones de incertidumbre

Primer Segundo
punto de punto de
decisión Acción Evento decisión Acción
I
I
J
Nivel allo I
I
de demanda I
I
I
I
I
I
Construir una : Seexpande la planta
planta grande 1
I

V Construir
una planta
pequeña
I
I

II
I
1
I
~

II Se expande la planta
I
No se expande

ARBOL DE DECISIONES RELATIVO A LA CONSTRUCCION DE NUEVA PLANTA


Figura 7·2
Para la acción "construir una planta grande", el árbol termina después
que el evento se bifurca. En cambio, para la acción "construir una planta
pequeña", se investiga un segundo punto de decisión después de bifurcar
en cada uno de los. eventos, "demanda alta" y "demanda baja". Quien
tome la decisión puede escoger entre las acciones "ampliar la planta" y
"no ampliarla", después de que conozca el nivel de demanda del mer-
cado. Estas acciones se representan como ramas del árbol de decisión. En
principio, podría parecer innecesaria la inclusión de ambas ramas de
acción, después de cada una de las bifurcaciones del segundo punto
de decisión. Generalmente se esperaría ampliar la planta en respuesta a
un nivel alto de demanda y no ampliarla si hubiera una demanda baja.
Pero no podemos estar seguros de lo que ocurrirá, hasta que incluyamos
en el árbol la información económica, lo que haremos a continuación
Por ejemplo, siempre existe la posibilidad de que la ampliación cueste más
que los ingresos adicionales, aun para un nivel alto de demanda. Por lo
tanto, debemos conservar ambas alternativas de acción en cada uno de
los segundos puntos de decisión.
El árbol de decisión de la figura 7-2, representa la estructura básica
de este problema de decisión. Muestra las acciones de decisión y los
eventos de incertidumbre o fortuitos; además, indica el orden en el cual
las acciones preceden o siguen a los eventos.
Arboles de decisión 191

Análisis utilizando árboles de decisión

Una vez que hemos representado un problema de decisión en forma


de árbol, el siguiente paso es analizar el problema y llegar a la solución.
Información de tipo económico y probabilidades. Los costos
o beneficios correspondientes a acciones y las probabilidades de los eventos
deben incluirse en el análisis, tal como se hizo con las matrices de con-
secuencias en la parte inicial de este capítulo. Las probabilidades corres-
pondientes a los eventos pueden indicarse al costado de cada rama, tal
como se ilustra en la figura 7-3, en el que se anota una probabilidad
de 0.6 de que ocurra un nivel alto de demanda, y de 0.4 para el caso de
que la demanda sea baja.
ARBOL DE DECISIONES RELATIVO A LA CONSTRUCCION DE NUEVA PLANTA
(Incluyendo probabilidades y consecuencias)
Primer Segundo
punto de Evento cense- punto de Conse·
Acción cuencia
decisi6n Acción
---_.-
(probabilidad) cuencia decisión

Construir una 5 millones


planta grande

V I Construir
I una planta
1 pequeña
I
j , . ¡ J - - - - - - - - ' - - - ' - - 4 millones

I
I
I Se expande Omillones
I la planta
I
I Nose expande
I la planta 3 millones
1

Figura 7-3

Las consecuencias económicas (pagos), también están determinadas


como antes. Representan el ingreso o egreso neto de efectivo para las
diversas combinaciones de eventos y acciones.
En la figura 7-3, las consecuencias se han representado al final de las
últimas ramas del árbol. Para una planta grande y alto nivel "de demanda,
el ingreso neto es de 6 millones; y si la demanda es baja, es de un millón.
192 La toma de decisiones en condiciones de incertidumbre

Si inicialmente se construye una planta pequeña y no se efectúa una


ampliación, los montos son de 4 millones y de 3 millones. El beneficio
neto de 5 millones --correspondiente a la combinación "ampliación de
la planta y demanda alta"- se determina como sigue:

Beneficio bruto (para el caso de demanda


alta y capacidad de producción suficiente
para . satisfacerla) . $10 millones
Menos: Costo de construir una planta pe-
queña . $2 millones
Costo de ampliar esa planta . 3 millones
Costo total . 5 millones
Beneficio,neto . $ 5 millones

Análogamente, en el caso de un nivel de demanda bajo, la construc-


ción y expansión de la planta pequeña cuestan $5 millones y sólo se
obtienen $5 millones de beneficio bruto, lo que finalmente resulta en un
beneficio nulo, tal como se muestra al final 'de la rama, "Planta pequeña
-demanda baja-ampliación de la planta", en la figura 7-3.
Recorrido del árbol de decieiones en sentido inverso. En base
a los resultados netos y a las probabilidades que se indican en el árbol
de decisión, el siguiente paso consiste en efectuar el análisis con miras
a encontrar la mejor decisión (o secuencia de decisiones). Para ello,
recorremos el árbol en sentido inverso, desde el final (o sea desde las
ramas terminales) hasta el primer punto de decisión.
DECISIONES EN LAS BIFURCACIONES EXTREMAS
Sección A Sección B

5 millones o

4 millones 3

Figura 7-4

En primer lugar, se analiza el último punto de decisión, o sea el se-


gundo. Al final de la rama "demanda alta" se tiene la alternativa de
decisión que se presenta en la sección A, de la figura 7-4. Conviene elegir
la acción "ampliar la planta", puesto que permite obtener un beneficio
neto de $5 millones, el cual se reduciría a $4 millones si se resolviera
no efectuar esa ampliación.
Arboles de decisión 193

Primer
punto de E\lento cense-
decisión Acción (probabilidad) cuencia

6 millones

1 millón

5 millones

3 millones

Figura 7-5

Para dejar indicado que la rama "no ampliar la planta" no se toma


en cuenta en los análisis siguientes, se la cruza con dos líneas transver-
sales, como se observa en dicha figura. Análogamente, para la decisión
que se tiene al final de la rama de bajo nivel de demanda (en la figu-
ra 7-4, sección B) se prefiere la acción "no ampliar la planta", que per-
mite obtener un beneficio neto de $3 millones, y la acción "ampliar la
planta" se elimina, cruzándola con 2 rayas transversales. Este análisis del
segundo punto de decisión permite reducir el árbol de decisión, tal como
se le presenta en la figura 7-5; con lo que se completa el análisis para el
segundo punto de decisión.
Ahora continuamos el proceso en sentido inverso, para llegar a las
bifurcaciones que .forman las ramas de eventos "demanda alta" y "de-
manda baja", respectivamente. En cada una de estas ramas de eventos
se calcula un valor esperado, utilizando los resultados monetarios de las
ramas terminales y las probabilidades correspondientes. Para la bifurca-
ción inicial, Se tiene así: la acción "construir una planta grande", tiene
un valor esperado de $4 millones (6 millones X 0.6 + $1 millón X 0.4).
Para la acción "construir una planta pequeña", el valor esperado es de
$4.2 millones ($5 millones X 0.6 + $3 millones X 0.4). Reemplazando
cada evento por su valor esperado, se obtiene la forma reducida final
del árbol de decisión (figura 7-6).
194 La toma de decisiones en condiciones de incertidumbre

4.0 millones

4.2 millones
Figura 7-6

Por lo tanto, la mejor decisión para el fabricante, consiste en cons-


truir ahora la planta pequeña y decidir su ampliación posteriormente,
cuando se conozca la demanda del mercado.
Comentario. La única decisión inmediata a la que se enfrenta el
fabricante, es la que se refiere al tamaño inicial de la planta. Pero a fin
de tomar esta decisión, tiene que considerar también la posibilidad de
una decisión subsecuente de ampliación. Por lo tanto, está tomando una
secuencia de dos decisiones, en vez de una decisión única: 1) construir
una planta pequeña y, 2) ampliarla si se materializa un gran potencial
de mercado. Si el fabricante hubiera considerado sólo una decisión -plan-
ta grande o pequeña- sin la posibilidad de expansión subsecuente, habría
llegado a tomar exactamente la decisión opuesta, o sea la de construir
una planta grande.

Otro empleo más


Para ilustrar el uso de un árbol de decisión en una situación más
compleja, consideraremos el siguiente ejemplo:
La empresa "Computadoras Artex" está interesada en desarrollar una
cinta magnética para un nuevo tipo de computadora. Esta empresa no
tiene personal de investigación disponible para desarrollar el producto
nuevo, por lo que va a subcontratar la fase de investigación a un instituto
de investigación científica. Artex, ha destinado 250,000 dólares para la
investigación y el desarrollo de la nueva cinta magnética y ha pedido
presupuestos a varias firmas e institutos de investigación. El contrato se
otorgará no en base al precio (esto es, $250,000) sino de acuerdo con el
plan técnico presentado en la propuesta y con los antecedentes técnicos
de la firma que la presenta. El "Instituto de Investigación Boro" está
analizando la presentación de su propuesta (y presupuesto) a "Compu-
tadoras Artex". El gerente de Boro calcula que costaría cerca de 50,000
dólares preparar una propuesta.
Además, ha estimado que las posibilidades de que se les otorgue el
contrato son de 1 a 1 (o sea, que es tan probable obtenerlo, como no
obtenerlo). Entre los investigadores del Instituto Boro, se han planteado
varias alternativas en lo referente a cómo desarrollar el producto, en caso
de que se les otorgara el contrato. Se estudiaron tres alternativas posibles.
Arboles de decisión 195

La primera incluye el uso de ciertos componentes electrónicos. Los


ingenieros estimaron que desarrollar un prototipo de cinta (esto es, una
versión preliminar para pruebas técnicas) sólo costaría 50,000 con este
método, pero que habría solamente un 50% de probabilidad de que el
.prototipo fuera satisfactorio.
La segunda alternativa incluye el uso de ciertos aparatos magnéticos.
El costo de desarrollo de un prototipo bajo este enfoque, costaría 80,000
dólares con un 70% de probabilidad de éxito. Finalmente, se tiene una
alternativa puramente mecánica con un costo de 120,000 dólares, para el
cual el equipo técnico manifiesta estar completamente seguro de que
podrían desarrollar exitosamente el prototipo. En virtud del plazo espe-
cificado en el contrato, "Investigaciones Boro" tendría suficiente tiempo
para probar con sólo dos alternativas. Por lo tanto, si las alternativas
de usar dispositivos magnéticos o electrónicos fallaran, el segundo intento
tendría que ser necesariamente la acción mecánica, a fin de garantizar
la obtención de un prototipo exitoso.
El gerente de "Boro" no se sentía muy seguro respecto a cómo orga-
nizar todo este conjunto de información para tomar la decisión inme-
diata: gasta $50,000 en elaborar una propuesta para "Computadoras
Artex", o no presentar la propuesta.
INSTITUTO DE INVESTlGACION BORO
Evento
Acci6n (probabilidad)
Se presenta
~a propuesta ~ana el contrato (0.5) Se debe tomar decisi6n sobre
el método a utilizar para de-
sarrollar un prototipo
Nose presenta Sepierde el
una propuesta contrato (0.5)

~ ccnseeueneta: ~ '''''''''"''·50 M"

Figura 7-7

Puesto que este problema de decisión parece complejo, construyamos


el árbol de decisión por pasos. La primera decisión a la que se enfrentan
los investigadores de "Boro", se refiere a las acciones "preparar una pro-
puesta" y "no preparar una propuesta". Si se elabora una propuesta y
se presenta a consideración de "Computadoras Artex", puede ocurrir
cualquiera de los eventos "se gana el contrato" o "se pierde el contrato".
Cada evento tiene una probabilidad de 0.5. En la figura 7-7, se presenta
este conjunto de posibilidades.
Si "Boro" decide no preparar la propuesta, el resultado neto es nulo.
Si se prepara la propuesta, pero se pierde el contrato "Investigaciones
196 La toma de decisiones en condiciones de incertidumbre

Evento Consecuencia
Acei6n (probabilidad) (en miles)

y--- Exito
(1.0)
80

~
E~~~~:o
150
Enfoque
.1,,1".'"
Fracaso
Enfoque (0.5)

~30.
magnético

hilo...___120
(0.71
Frlcaso
(0.3)

* Se debe usar el método mecánico


<;
Figura 7-8

Boro" pierde los $50,000 que le costó su preparación (esto es, el pago
es de -$50,000).
Si el contrato es ganado por "Investigaciones Boro", entonces corres-
ponde tomar la próxima decisión: la elección entre los diversos métodos
alternativos para desarrollar una cinta magnética exitosa.
En este segundo punto de decisión, "Investigaciones Boro" debe deci-
dir cuál de las tres técnicas (mecánica, electrónica o magnética) es la
que se debe tratar primero." Esta decisión se presenta en la figura 7-8.
Si se selecciona la acción mecánica T se desarrolla exitosamente el
prototipo, "Boro" tendrá un beneficio neto seguro de $80,000 dólares
(250,000 dólares del valor del contrato, menos 50,000 dólares del costo
de la propuesta, menos 120,000 dólares del desarrollo del prototipo me-
cánico). Si se selecciona cualquiera de las otras acciones se puede tener
éxito o fallar. El fracaso implica que se debe utilizar necesariamente el
enfoque mecánico, a fin de obtener el prototipo exitoso dentro del lapso
disponible.

4 Posiblemente "Investigaciones Boro" podría añadir una cuarta alternativa:


desarrollar simultáneamente ambas técnicas, la electrónica y la magnética y seguir
con el mecánico si ambos fallan. Esto añadiría una rama al árbol. No obstante
el costo sería al menos de $180,000 (o más, si ninguna acción es exitosa), lo que
supera el costo del prototipo mecánico ($170,000).
Arboles de decisión 197

Resultados (en miles de dólares)


Valor Costo Costo del Costo del
del de lo prototipo prototipo Resultado
Final de la rama contrato propuesta indicado mecánico neto

Método electrónico
Exito 250 -50 -50 O =150
Falla 250 -50 -50 -120 = 30
Método magnético
Exito 250 -50 -80 O =120
Falla ·250 -50 -80 -120 O

Los resultados netos se presentan en la figura 7-8, y se han calculado


como sigue:
En la figura 7-9, se presenta el árbol completo de decisiones. Se lo
construye reuniendo las figuras 7-7 y 7-8.

Evento Evento consec~ellcia


Acción (probabilidad) Acción (probabilidad) (en miles)
//80 /'50
Enfoque Exito
mecánico (0.5)
Se gana
Se presenta el contrato Fracaso
(0.5)
~ro,""" ~(O.5)
/'20
No se presenta Se pierde Enfoque Exito
propuesta e~ contrato magnético (0.7)
~ .

~--o
Fracaso
(0.5)

. "'o ~-50 (0.3)

Figura 7-9

Recorrido del árbol en sentido inverso. Los valores esperados se


calcularon para cada una de las ramas de eventos y aparecen en el
extremo derecho del árbol; asi, el resultado esperado con el método elec-
trónico es 90,000 (0.5 X 150 + 0.5 X 30 = 90) Y para la técnica mag-
nética es de 84,000 (0.7 X 120 + 0.3 X °
= 84). Estos resultados están
inscritos en círculos y anotados junto a la bifurcación correspondiente en
la figura 7-10.
Hacia la izquierda del punto de decisión se puede ver que el método
electrónico ofrece el mayor resultado promedio esperado ($90,000) y es
la mejor elección. El valor 90,000 dólares, está inscrito en un círculo
cerca del punto de decisión, y las técnicas no preferidas están indicadas
por la marca / / sobre las ramas correspondientes.
198 La toma de decisiones en condiciones de incertidumbre

/80 /'50
Enfoque Exito
mecánico (0.5)
Se gana
Se presenta el contrato Fracaso
la propuesta (0.5) (0.5)

/'20
No se presenta Se pierde Enfoque Exito
la propuesta el contrato magnético (0.7)
(0.5)

~o <; ~ Fracaso
(0.3)
'-;"""':"-0

Figura 7·10

Ahora, el árbol tiene un resultado de + $90;000 dólares si se consigue


el contrato, y de - $50,000 si no se lo obtiene. Por lo tanto, el valor esperado
de preparar la propuesta es de 20,000 dólares (0.5 X 90 + 0.5 X (-50)
= 20). Este valor está inscrito en un circulo, junto a las ramas de eventos
correspondientes.
Finalmente, la elección debe efectuarse entre el resultado de 20,000
dólares correspondientes a preparar la propuesta, y de cero si la propuesta
no se prepara. Naturalmente se elige la primera, y se traza la marca / /
sobre la rama "no preparar la propuesta".
En resumen, "Boro" debería preparar la propuesta, previendo 20,000
dólares como valor neto esperado de esta decisión. Si se consigue el con-
trato, la técnica electrónica debería probarse en primer lugar, pero si falla
debe utilizarse la acción mecánica.

RIESGO EN LA TOMA DE DECISIONES:


LA UTILIDAD MONETARIA

El valor monetario esperado no es siempre el mejor criterio para la


toma de decisiones. Si a usted le ofrecieran la elección de una de las dos
alternativas siguientes: a) la oportunidad de 1 a 1 de $250 o cero; o
b) $100 seguros; muy probablemente usted tomaría los $100. La mayoría
de la gente actuaría de esa misma manera, sin tener en cuenta que el
valor monetario esperado del juego a) es $125. ¿ Contradice este criterio
de decisión expresado anteriormente, de que se debe escoger como mejor
alternativa de decisión la que presente el mayor valor monetario espe-
rada? i Efectivamente, sí lo es! Ahora estamos en posibilidad de analizar
y elaborar nuestra medida de valor. El problema surge porque, para la
gente, el valor del dinero no siempre es función lineal del monto mone-
Riesgo en la toma de decisiones 199

tario. Para una persona de medios modestos, 200 dólares no valen lo


doble de lo que valen $100. Para usted sería importante decidir si le
estuvieran ofreciendo entre cero o $100; pero esto, probablemente no
sería de importancia si la elección fuera entre $1.000,000 y $1.000,100.
Esto se debe a que el dinero tiene utilidad marginal decreciente; para la
mayoría de nosotros los primeros $100 que recibimos son los más impor-
tantes, mientras que los incrementos sucesivos a 100 tienen cada vez menos
valor subjetivo.
El mismo fenómeno se observa cuando la gente adquiere un seguro.
Para la mayoría de la gente, el seguro tiene carácter de una "apuesta
desfavorable" desde el punto de vista puramente monetario, puesto que
la compañía de seguros debe pagar sus gastos y además, obtener un bene-
ficio de cubrir el riesgo. O sea, que :el valor monetario esperado de un
seguro es negativo desde el punto de vista del comprador; no obstante,
muchos de nosotros estamos dispuestos a pagar un pequeño monto (la
prima del seguro) para protegernos contra algún acontecimiento lesivo,
aun cuando haya muy pocas probabilidades de que ocurra tal evento.
Para tomar decisiones en condiciones de incertidumbre debemos tener
alguna forma de medir la actitud subjetiva hacia el riesgo y expresar
en términos cuantitativos la del encargado de tomar decisiones. En el
apéndice de este capítulo se presenta un breve tratamiento de la meto-
dología de medición, que asigna un valor de utilidad a cada monto
monetario." Una función típica de utilidad se presenta en la figura 7-11.

Utilidad

Función de utilidad ca una


persona con aversi6n al
riesgo

Funci6n de utilidad de una perso-


na con utilidad constante para .1
dinero

Dinero
Figura 7·11

FUNCION TIPICA DE UTILIDAD


s La palabra "utilidad" es algo engañosa. En este contexto es únicamente
una medida equivalente de un riesgo, y no tiene relación directa con el concepto
de "utilidad" comúnmente utilizado en teoría económica. La escala de utilidad
200 La toma de decisiones en condiciones de incertidumbre

Para una persona que tiene aversión al riesgo (por ejemplo, alguien
que prefiere $100 seguros a la oportunidad pareja de obtener $250 o
nada) la forma de su función de utilidad reflejaría la utilidad decreciente
del dinero. U na persona que considerara adecuado expresar su preferencia
mediante el valor monetario esperado, tendría una función de utilidad
lineal. (Esta persona no tendría preferencia alguna por las alternativas
de tener $125 seguros, o una oportunidad de 50% para cero y 50%,
para $250.)
En muchas ocasiones, las cantidades de dinero jugadas en las apuestas
son pequeñas en comparación con los recursos de quien toma las deci-
siones. Así, una gran empresa que debe tomar decisiones sobre inventa-
rios que no pasan de unos cuantos miles de pesos, podría usar el valor
monetario esperado como criterio de decisión. Para este nivel relativa-
mente poco importante, la función de utilidad es aproximadamente lineal.
Para decisiones más importantes (como la de construir una nueva fábrica
o ingresar a un nuevo mercado), el valor monetario esperado no es ge-
neralmente el criterio apropiado. En tales situaciones, quien decida debería
determinar su propia función de utilidad para el' dinero (como se mues-
tra en el apéndice, al final de este capítulo). Por lo tanto, el criterio de
decisión es escoger la alternativa de mayor utilidad esperada, en lugar
de la de mayor valor monetario esperado.

RESUMEN

En este capítulo se describe un procedimiento para la toma de deci-


siones en situaciones de riesgo.
En forma esquemática, el procedimiento consiste en:

1. Identificar los posibles eventos que pueden ocurrir;


2. identificar las acciones que pueden tomarse;
3. determinar el valor (monetario o en utilidad) de cada combinación
de eventos y acciones;
4. describir la incertidumbre (del que toma las decisiones) ante los
eventos, mediante un conjunto de probabilidades;
5. encontrar el valor esperado de cada acción alternativa, multiplicando
el valor de cada evento por su probabilidad respectiva y sumando;
6. seleccionar la alternativa con mayor valor esperado (o de mayor
utilidad) .

Para especificar este procedimiento de decisión, basta con organizar


el proceso de toma de decisiones en forma sistemática y lógica. Nadie que

(la ordenada de la figura 7-11) no es urnca. (La escala puede ser multiplicada
por una constante desplazada hacia arriba o hacia abajo sin alterar realmente
la esencia de la función.)
Apéndice: deducción de curvasde utilidad 201

tome una decisión en condiciones de incertidumbre puede evitar los pasos


anteriores (numerados de 1 a 6), aunque pueda efectuar algunos de ellos
en forma intuitiva. Nuestro procedimiento no es más que una armazón
lógica completamente especificada.
Si no están disponibles los datos históricos se pueden necesitar las
probabilidades subjetivas. Tales probabilidades representan el criterio de
quien decide acerca de la probabilidad de los eventos.
Los árboles de decisión pueden utilizarse para analizar problemas que
requieren una secuencia de decisiones. Las diversas acciones que pueden
tomarse se presentan en el árbol como ramas que parten de una bifur-
cación, y los diversos eventos que pueden ocurrir están representados en
forma semejante. Por lo tanto, el diagrama arbóreo reúne conjuntamente
una secuencia de decisiones y de eventos.
Los resultados netos (consecuencias) de las diversas secuencias de
acciones y eventos, se representan en las ramas terminales del árbol y las
probabilidades correspondientes a los eventos se presentan bajo cada
evento.
Los resultados netos (consecuencias) de las diversas secuencias de
la acción o evento final a la primera acción en el tiempo. En cada paso
se calcula un valor esperado sobre los posibles eventos, y se efectúa una
elección entre varias alternativas de acción, seleccionando la que resulte
con el mayor valor esperado.
Los valores de utilidad pueden utilizarse en lugar de los valores mo-
netarios, para casos en que el valor subjetivo del, dinero no es lineal; para
ello se siguen los métodos que se describen en el apéndice de este capítulo.
En los capítulos subsecuentes nos extenderemos en este análisis. Pri-
mero examinaremos la posibilidad de posponer la decisión mientras' se
obtiene información adicional (capítulo 8). Seguidamente (capítulos 13
y 14) estudiaremos cómo se obtiene la información por medio de muestreo.

APENDICE: DEDUCCION DE CURVAS DE UTILIDAD PARA


LA TOMA DE DECISIONES CON INCERTIDUMBRE

Suponga que un hombre de negocios tuvo que elegir entre dos con-
tratos. La utilidad resultante de cada contrato es incierta. Los contratos,
así como sus probabilidades y consecuencias monetarias son:

CONTRATO 1 CONTRATO II

Proba- Proba-
Evento bilidad Resultado Evento bilidad Resultado
A 0.30 +$9,000 P 0.25 +$7,500
B 0,45 + 6,000 R 0.60 + 2,000
e 0.25 - 9,000 S 0.15 - 5,000
EMV = +$3,150 EMV =+2,325
202 La toma de decisiones en condiciones de incertidumbre

Es fácil calcular el valor monetario esperado de cada uno de los con-


tratos. A fin de decidir qué contrato debe preferir el negociante, le hare-
mos una serie de preguntas. Con esas preguntas se trata de medir sus
preferencias en situaciones de riesgo más sencillas que las de los contratos
anteriores.
Primero se seleccionan dos puntos de referencia: Uno es más grande
que el mayor valor monetario positivo en la decisión concreta de este pro-
blema. Por ejemplo, para este punto de referencia escogemos arbitraria-
mente $10,000. El otro punto de referencia debe ser menor que el menor
valor monetario en el problema concreto; seleccionamos - $10,000 para
este punto de referencia. Asignamos arbitrariamente los valores de utilidad
de 1.0 y 0.0 respectivamente para estos puntos de referencia." Esto es:

u ( + $10,000) 1
u( -$10,000)
=
= °
Ahora, le preguntaríamos: ¿ Cuál es el monto máximo que pagaría para
librarse de un contrato que le ofrece una oportunidad de 50% de ganar
$10,000 y un 50% de perder la misma cantidad?'"
La respuesta a tal pregunta sería un asunto muy personal, que de-
pende de los recursos y de la propensión al riesgo de quien toma la
decisión. Supongamos que el responsable de tomar la decisión nos respon-
dió que aceptaría pagar hasta $2,000 para liberarse de ese compromiso
fortuito (es decir, del contrato que proporciona una mitad de las proba-
bilidades a + $10,000 y la otra -$10,000). En otras palabras, al que decide
le es indiferente incurrir en una pérdida segura de $2,000 y entrar al
juego (aceptar el contrato). En base a esta manifestación establecemos
que la utilidad de - $2,000 es equivalente a la utilidad esperada del con-
trato, o sea:

u( -$2,000) = 1/2u( +$10,000) + 1/2u( -$10,000)


= 1/2(1.0) + 1/2(0.0) = 0.5

En conclusión, el índice subjetivo de utilidad para - $2,000 es 0.5.


Utilizando esta cifra podemos proceder a efectuar las siguientes preguntas:
¿ Cuál es el monto mínimo que quien toma la decisión aceptaría en lugar
de un contrato que le ofrece una oportunidad de 0.5 de obtener + $10,000
y una oportunidad de 0.5 de obtener -$2,000?8 Supongamos que la
respuesta recibida es = $2,000; ello nos permite determinar el índice de
utilidad para una suma de +2,000; como sigue:
6 La elección de la escala es arbitraria. Podríamos haber escogido u( +$10,000)
= 502.6 y u( -$10,000) = -29 si hubiéramos querido. El uso de una escala entre
1.0 y 0.0 es más conveniente.
7 El contrato puede tener un valor positivo, en cuyo caso la pregunta debería
ser: ¿ Cuál es la cantidad mínima (positiva) que usted pediría para traspasar el
contrato a algún otro interesado?
s Si el contrato tuviera un valor negativo (menor que cero), la pregunta se
expresaría así: "¿Cuánto pagaría usted por librarse de un contrato... ?"
Apéndice: deducción de curvas de utilidad 203

u( +$2,000) 1/2u( +$10,000) + 1/2u(-$2,OOO)


= 1/2(1.0) + 1/2(0.5) = 0.75

Podemos continuar haciendo preguntas semejantes: 9 ¿ Cuál es el monto


para el cual le es indiferente a la persona que decida tenerlo por seguro,
o bien, aceptar un contrato que le ofrece una oportunidad de 0.5 de obte-
ner -$2,000 y una oportunidad de 0.5 de obtener -$1O,000?
Supongamos que la respuesta es - $4,000. Entonces, su índice de utili-
dad será:

u( -$4,000) 1/2u( -$10,000) + 1/2u( -$2,000)


1/2(0.0) + 1/2(0.5) = 0.25

Si el proceso continúa y hacemos más preguntas, se obtiene un conjunto


de respuestas que se presentan, junto con las anteriores, en la siguiente
tabla:

Proba- Valor de Valor de


bilidad Apuesta indiferencia utilidad

1/2 +$1O,000} -$2,000 u( -$2,00{}) = 0.5


1/2 -$10,000

1/2 +$10,000} u(+$2,000) = 0.75


-$ 2,000 +$2,000
1/2

1/2 -$10,OOO} -$4,000 u( -$4,000) = 0.25


1/2 -$ z.oon
1/2 +$ 2,000}
1/2 -$ 2,000 -$ 500 u(-$ 500) = 0.625

1/2 :.¡...$ 2,000}


1/2 +$10,000 +$5,000 u( +$5,000) = 0.875

1/2 -$1O,000}
-$ 4,000 -$5,000 u( -$5,000) =0.125
1/2

La función de utilidad se presenta en la figura 7-12. Para unir los


puntos determinados se trazó una curva suavizada y continua.
Podemos regresar ahora a la situación original con la cual comenza-
mos este apéndice. Los dos contratos se presentan a continuación, junto
con los índices de utilidad correspondiente. Los valores de utilidad se obtie-
nen en la figura 7-12.

9 Otro procedimiento es mantener fijas las cantidades (es decir, los +$10,000
y ~$1O,000), pero cambiar las probabilidades en cada pregunta. El índice de utili-
dad se determina de la misma manera.
204 La toma de decisiones en condiciones de incertidumbre

Indice de utilidad

0.50

-==--_..l-__-L.._ _....L._ _--I...._ _ x


-5 +10

Figura 7-12

CONTRATO 1 CONTRATO n
Proba- Resultado Proba- Resultado
Evento bilidad monetario Utilidad Evento bilidad monetario Utilidad
A 0.30 +$9,000 0.98 Q 0.25 +$7,500 0.95
B 0.45 +$6,000 0.90 R 0.60 +$2,000 0.75
e 0.25 -$9,000 0.02 S 0.15 -$5,000 0.125
Valor monetario esperado = +$3,150 Valor monetario esperado = +$2,325
Utilidad esperada = 0.704 Utilidad esperada = 0.706

Ahora, el contrato II tiene un valor de utilidad ligeramente mayor,


aunque el contrato 1 tiene un valor monetario mucho mayor. Por lo tanto,
este empresario escogería el contrato lI. Note que ambos contratos son
convenientes para él, ya que u($O) = 0.66.

PROBLEMAS

1. Defina cada uno de los siguientes problemas como de toma de decisiones en


condiciones de certidumbre o de incertidumbre. Exprese su razonamiento en
una o dos oraciones:
a) La decisión con respecto a desarrollar o no un nuevo tipo de producto (pOI
ejemplo, un nuevo medicamento);
b) la decisión con respecto al importe de cotización de una propuesta para
un contrato de construcción;
e) precio venta de un producto;
d) la programación de las órdenes de en un tall ex de
e) decisiones sobre inventarios de productos,

2. En cada uno de Jos siguientes de decisión indique en forma general


qué eventos pueden ocurrir. ¿ qué fuentes podría obtener el gerente las
probabilidades correspondientes a esos eventos? ¿ En qué medida las probabi-
lidades son subjetivas u objetivas?
a) La decisión con respecto al número de empleados para atender la recepción
y entrega de herramientas en una fábrica y los efectos que tendrá esa deci-
sión en el tiempo de espera de los mecánicos que solicitan las herramientas.
b) El mercado de un nuevo producto;
e) la proyección de ventas de una empresa en los próximos 10 años;
la decisión con respecto al tamaño de una planta nueva;
la decisión con respecto a cuántos artículos conservar en inventario.
Considere la siguiente Tabla de resultados que muestra beneficios en dólarcs :

Acciones

Evento Probabilidad A B e D E

1 .... .. 0.0'> 100 120 210 140 HU)


II .D.O:) 110 l{j') 190 140 180
III . fl.1O 13() 200 170 J4.() 100
IV .1).30 150 IBO 120 14ü 180
v .. 0.4ü ISO 1so 100 140 120
VI .. 0.10 2';0 lOO 100 140 120

Las probabilidades de los eventos del I al VI, se indican en la segunda columna.


Calcule el valor monetario esperado para cada acción.
¿ Qué acción es la que proporciona el mayor beneficio esperado?
4. Considérese la tabla del problema 3 y suponga que las probabilidades para los eventos
del 1 al VI, son las siguientes:

Evento Probabilidad

1 0.10
II 0.40
lTI 0.30
IV 0.10
V 0.0';
VI 0.05

Determine el valor esperado para cada acción. ¿ Qué acción proporciona el


mayor beneficio esperado?
j. Un comerciante vende un producto perecedero; cada unidad cuesta 5 pesos y
se vende a 9 pesos. Al finalizar el día, las unidades que no se han vendido deben
tirarse (carecen de valor). Suponiendo que la demanda de ese artículo sigue
una distribución de Poisson con m diaria =3; ¿ Cuántos artículos debería ad-
quirir diariamente este comerciante? "Cuál es el beneficio esperado?
6. Suponga para el problema 5, anterior, que la demanda de ese artículo sigue
la distribución:
206 La toma de decisiones en condiciones de incertidumbre

Demanda Probabilidad

o 0.0
1 0.4
0.3
3 0.2
4 0.1
5 o más 0.0

1.0

¿ Cuántos artículos debería adquirir? ¿ Cuál es el beneficio esperado?

7. Una compañía está tratando de decidir qué tamaño de planta debe construir
en cierta región del país. Se están analizando tres alternativas de planta, con
°
capacidades de 1 mil, 15 mil y 20 mil unidades respectivamente. La demanda
del producto es incierta, pero la gerencia ha estimado las probabilidades abajo
listadas, para cinco niveles posibles de demanda. La tabla muestra también el
beneficio (en millones de dólares) para cada alternativa y cada nivel posible de
demanda. (La producción puede exceder la capacidad nominal.)

Acciones: construir una planta con capacidad de


Dr-rna nclá en (en unidades):
unidades Probahilidad -
Z P(Z) 15,000 20,000

5.000 0.2 -4.0 ·lí.O -··8.0


10,000 0.3 + 1.0 0.0 ·-2.0
15,000 0.2 + 1.5 +6.0 +5.0
20.000 0.2 +2.0 + 7.5 +11.0
25,000 0.1 +2.0 +8.0 + 12.0

Se pregunta: ¿ qué tamaño de planta debería construirse?


8. Suponga que la empresa que usted dirige ha ordenado la construcción de
mecanismo complicado para la extrusión de plásticos a la famosa
Birmingham", empresa que se especializa en el diseño y manufactura de
quinaria muy especializada como ésta, que se produce sólo sobre pedido.
de las componentes fundamentales de esa maquinaria es un engranaje
compuesto por dos hileras de dientes de distinto tamaño, que está sometido
esfuerzos considerables durante el proceso de extrusión y, por lo tanto,
romperse con cierta facilidad, interrumpiendo el proceso.
Normalmente, la "Farrcll-Birrningham" ofrece la opción de producir
najes adicionales, que cobra a 2,000 dólares cada uno, y entrega junto
maquinaria. Por otra parte, si usted no solicita suficientes engranajes
nales al colocar la orden de producción, tendrá necesidad. de hacerlo posterior-
mente, en cuyo caso la Farrell-Birmingham tendrá que hacer una nueva
y le cobrará una cuota fija de 1;<,000 dólares por cada conjunto de
g ranajes.
El encargado de producción de su planta ha efectuado algunos cálculos
base a su experiencia y ha estimado durante la vida útil de esa maquinaria-
no pueden ocurrir más de 5 rupturas engranajes. Además, ha calculado
probabilidad. de que ocurra cierto número de roturas, como sigue:
Núm er o de
roturas Probabilidad

() 0.1
1 0.2
0.3
0.2
0.1
o.i
En base a estos datos, elabore una tabla de consecuencias. ¿ Cuántos engra-
najes adicionales le convendría ordenar ahora, para que le entreguen junto
con la maquinaria? ¿ Cuál es el costo esperado de su decisión? (Recuerde que
si usted ordena 2 engranajes adicionales y ocurren tres rupturas, se incurre en
la necesidad de emitir una orden de producción adicional, con los costos corres-
pondientes.')

La empresa petrolera Gusher está tratando de resolver sobre la posibilidad de


arrendar un terreno colindante con un área en que se ha descubierto recién-
temente un yacimiento. El costo del arrendamiento será de 40,000 dólares. El
costo de perforar un pozo con la profundidad necesaria, es de 80,000 dólares.
Si se descubre petróleo, la utilidad neta (deducidos todos los costos) se estima
en 360,000 dólares.
En base a estos datos, elabore una tabla de consecuencias. Suponiendo que la
empresa Gusher pretende maximizar el valor monetario esperado de la inver-
sión, ¿ cuál sería el valor mínimo para la probabilidad de encontrar petróleo
que se requíere para que la empresa pueda decidir favorablemente sobre la
opción de arrendar y perforar?

La compañía LMN produce algunos artículos de fantasía que vende durante las
fiestas de fin de año. El producto que nos interesa se vende a un precio unitario
de 1 dólar. La gerencia de ventas ha estimado las siguientes probabilidades
para los diversos niveles de ventas:

VfT1tas
(en unidades) Probabilidad

i.ooo 0.1
UOO 0.4
2,000 0.3
2,500 0.1
3,000 0.1

El costo unitario de producir este artículo, varía con el número de unidades


prod ucidas, como sigue:

Producción Costo promedio flor


(en unidades) únidad (en ct('os.)

i.ooo 60
1.500 46.66
z.ooo 38.75
2.500 33.40
3,()()() 29.50

Por razones técnicas este artículo debe ser producido en lotes de 500
unidades. Si se producen más unidades de las que se venden, se puede vender
hasta mil unidades del excedente a un precio unitario de 10 centavos, después
de pasada la época navideña. Si aún sobran unidades, carecen de todo valor y
no pueden venderse a ningún precio. Elabore una tabla de consecuencias.
¿ Cuántas unidades deberían producirse? ¿ Cuál sería la utilidad esperada?

l l. El gerente de crédito de Productos Industriales IJK está analizando la posibi-


lidad de conceder la apertura de una línea de crédito a la empresa "Compañía
de Construcciones Lasco". Lasco es una empresa nueva en el mercado y, por
lo tanto, constituye un riesgo crediticio. En base a la experiencia de la empresa
lJK, aproximadamente el 30% de los compañías como Lasco han fracasado
durante el primer año de actividades, causando graves pérdidas a quienes les
han concedido crédito. Alrededor del 25% han tenido serios problemas finan-
20S La toma de decisiones en condiciones de incertidumbre

cieros, y el 45% restante, se divide en dos grupos: 25% se vuelven clientes


esporádicos y el 20% constituyen los buenos dientes"
Las compañías que han fracasado completamente, han logrado ventas
1,500 dólares, en promedio antes de fallar, y dejaron un saldo pendiente
800 dólares, que se han perdido totalmente.
De las f irrnas que han tenido graves problemas financieros, se han logrado
ventas de 2,000 dólares en promedio, y dejaron saldos pendientes de mil dó!a-
res, de los cuales se ha. podido cobrar posteriormente la mitad. Con las empre-
sas que son dientes esporádicos se han logrado ventas de 500 dólares, sin causal
pérdidas, y finalmente con los buenos clientes se han logrado ventas promedie
de 6,OüO dólares.
Con respecto a la empresa Lasco, si no se le abre la línea de crédito Sé
pierde un diente potencial. PeTO, por otra parte, existe el riesgo de no recobrar
el importe del crédito, como ya se ha comentado. El problema se agrava si se
toma en cuenta que el porcentaje de utilidades de la empresa es relati-
vamente bajo, ya asciende al 20% de! volumen de ventas. deben
agregarse costos cobranza, que ascienden a 100 dólares en promedio,
para los clientes que fracasan en sus actividades como los que tienen
problemas financieros.
Elabore una tabla de consecuencias para este problema de decisiones.
bería concederse crédito a la "Compañía de Construcciones Lasco"?

12. U na compañia petrolera es ti por perforar 10 pozos en una región aislada


Medio Este. Cierta pieza de equipo que se utiliza en cada pozo puede
accidentalmente. El problema es cuántas piezas de repuesto (o si ninguna)
llevar la compañía al sitio de la perforación.
La pieza. en cuestión cuesta $50. Si las se transportan con la
ción original, cuesta $50 adicionales por transportada, o sea un
$100. Si posteriormente se necesitan partes, éstas deben enviarse por avión
un costo de $500 13m' cada pieza, o sea un total de $550, incluyendo el
de la parte misma. Al final de la operación de perforación, se abandonan
las partes.
De su experiencia anterior, la cornpafi ia perforadora sabe que, en
rompen 0.30 partes por pozo perforado. Las partes se quiebran accidental-
mente decir, en forma aleatoria}, lo cual no depende de cuánto se
usado partes.
¿ Cuántas partes de repuesto debe transportar la compañia con la expedición
original? Suponga. que los accidentes siguen una distribución de Poisson.

13. Suponga que, en el ejemplo del Instituto de Investigaciones "Boro"


en el texto, no existe una restricción referente al tiempo disponible para
ducir el prototipo. En tal caso, la empresa podría tratar de utilizar los
métodos de resultados inciertos (el electrónico y el magnético) antes de
el mecánico" sobre el que se tiene absoluta certeza.
Dibuje el árbol de decisiones correspondiente a este caso. ¿ Cómo
proceder el Instituto "Boro" para desarrollar eX prototipo?

14. ,'En cuál de los siguientes problemas de toma de decisiones cree usted que
maxirnización del valor monetario esperado es sa tisíactoria corno cri terio
torna de decisiones, en contraste con criterio de utilidad esperada?
a) Decisión construir una planta industrial nueva.
) Decisión introducir' un producto a un nuevo mercado.
e) Decisión
el)
e)
f)
15. La compañía Pearson está decidir sobre
quina nueva, la cual se utilizará exclusivamente en
producto. Actualmente existen dos máquinas
el fin perseguido. Si se la máquina y
se ahorrará 1 dólar por relación con el proceso de producción que
se utiliza en la actualidad. Si se compra la máquina B, se invertirán 60,000
dólares y se ahorrarán 3 dólares por unidad producida. Ambas máquinas tienen
una vida útil de 5 años. Las condiciones, futuras del mercado son algo incier-
tas, y se han resumido en las siguientes estimaciones sobre la probabilidad
correspondiente a un volumen total de ventas para los próximos 5 años:

Ven/tU totales
(en unidades) Probabilidad

10,000 O.!
20,OW 0.3
30,0"00 (l.?
40,00() o.z

;:,m tomar en cuenta el problema de la actualización financiera una


corriente de ingresos futuros, ¿ cuál es la máquina que debería comprar la
empresa Pearson ? ¿ Cuáles son los ahorros esperados correspondientes a cada
una de esas acciones alternativas?

16, La compañía "Lockjaw" está por presentar una propuesta a un concurso de


precios para fabr icar un gran generador de energía eléctrica, para una empresa
concesionaria del servicio público. Esta compañia compite usualmente con otras
dos empresas que ofrecen el mismo producto la Al y la B. En este concurso
se espera que se presenten los tres competidores y se otorgará el contrato a la
propuesta de menor precio. En caso de empate, se clegÍlrá al ganador mediante
una extracción aleatoria.
El gerente de la empresa ha elaborado, junto con un asesor estadístico, las
siguientes tablas, que ilustran cuál ha sido la situación relativa de las pro-
puestas de la empresa, con relación a las propuestas de sus dos competidores:

Concursos anteriores: propuesta de! Concursos anteriores : propuesta del


competidor Al en relación al costo competidor B en relación al costo
de nuestra propuesta. de nuestra propuesta.

Propuesta de A Propuesta de
(tJ'Tecio superior a Frecuencia (precio superior a Frecuencia
nuestro costo) relativa nuestro costo) relativa
'/:: :¡i2,'roo '/,
';" 1,2f)(1 '12
';" 600 '11

Por otra parte se ha observado que no hay una relación sistemática entre las
propuestas de Al y las de B (se pueden considerar estadísticamente independien-
tes). Supongamos que la compañía "Lockjaw" tiene sólo tres posibilidades
de propuesta: 1) costo de producción más 2,4-00 dólares; 2) costo de produc-
ción más 1,200 dólares, y 3) costo de producción más 600 dólares.
Se pregunta: ¿ cuál es la propuesta que conviene elegir? ¿ Cuál es la
utilidad esperada?
Orientación: calcule la probabilidad para cada una de las siguientes alter-
nativas: 1) ganar el concurso directamente, 2·) empatar con uno de los com-
petidores, 3) empatar con ambos competidores y ,+) perder. Luego elabore
tablas de consecuencias y calcule la utilidad esperada para cada una de esas
estrategias.
21() La toma de decisiones en condiciones de incertidumbre

17. La empresa "Lark" está analizando drversas posibilidades para substituir la


cepilladora No. 1, que necesita bastante reparación. Existen dos máquinas con
las que se puede reemplazar dicha máquina. La máquina A es completamente
automática y puede ahorrar muchos costos substituyendo trabajadores que
efectúan labores manuales. Esta máquina cuesta 75 mil dólares.
Por otra parte, la máquina B cuesta sólo 20 mil dólares, y permite pro-
ducir artículos de igual calidad que los de la máquina A. Su grado de auto-
matización es un poco superior al de la máquina que se está utilizando en
la actualidad, y por lo tanto obligará a incurrir en costos de mano de obra
mucho mayores que los que se tendría adquiriendo la máquina A.
La decisión respecto a cuál máquina adquirir depende en gran medida
de las ventas que se han proyectado, pero el gerente de ventas tiene mucha
incertidumbre respecto a cómo se comportarán en el futuro. Por el momento,
la empresa "Lark" es la más importante en su ramo; sin embargo, es muy
probable que en poco tiempo varias empresas muy grandes entren en este mer-
cado. El gerente de ventas ha expresado que estima en un 30% la proba-
bilidad de que "Lark" mantenga su posición dominante, en un 50% la
probabilidad de que conserve un porcentaje razonable del mercado, y en un
20% la probabilidad de que su posición decaiga a dominar una parte
reducida del mercado.
Para cada una de esas posibilidades se han efectuado proyecciones de las
utilidades futuras netas descontadas, que se resumen en el cuadro siguiente:

Porcentaje del mercado

Dominante Moderado Pe queh o

Máquina A $225,000 $125,000 $55,000


Máquina B 120,000 80,000 45,000

Se pregunta: ¿ cuál máquina conviene comprar? ¿ Por qué?

18. "Farmacéutica Hony" es una empresa que se dedica a la investigación, des


arrollo y distribución de nuevos productos farmacéuticos. El jefe de la divisiór
de investigación, el doctor Bing, ha informado al presidente de la empresa,
señor Hony, que los últimos resultados de sus trabajos de investigación
la posibilidad de un notable avance en la elaboración de productos
nales muy usados. En base a esos indicios preliminares, el doctor Bing
solicitado la aprobación para un amplio programa de investigaciones,
al desarrollo de esos productos. Sus estimaciones indican que con una
sión de $100,000 se puede desarrollar el producto hasta su fase comercial
cabo de un año de trabajos, Cuando el señor Hony le preguntó cuáles
las posibilidades de que el equipo de investigación obtuviera resultados
sos dentro del plazo previsto, el doctor Bing respondió que eran excelentes,
diciendo "9 ó ¡ O a favor, a 1 en contra".
El señor Hony, preocupado por las posibilidades de vender un producto
cuyo desarrollo requería una inversión tan cuantiosa, trató el asunto con el
señor gerente de mercadotecnia de la empresa, quien le dijo que
mercado para el nuevo producto Iarmacéutico dependía funda-
CÓ1I10 lo aceptaran Jos médicos. Además, le mencionó que
varias otras cm presas farmacéuticas estaban
de producto corno ése. En caso de que
desarrollar producto modicinal, compet iri an por
el mismo mercado por debería»
Hony le pidió hiciera sus cálculos potencial de mercado
situaciones diferentes} incluyendo estimaciones (te las utilidades netas futuras,
Las estimaciones fueron las siguientes:

Vol or presente de: las


Probabilidad utilidades netas

Gran potencial . 0.1 $500,000


Potencial moderado . 0.6 250,000
Pequeño potencia! . 0.3 80,000

1.0

El señor Margin aclaró que esas cifras no incluían los costos de investi-
gación y desarrollo, ni los costos de introducir el producto ($50,000). Este
último costo será necesario sólo si la empresa decide entra, al mercado después
de haber desarrollado el producto.
El señor Hony estaba indeciso respecto a si convenía invertir los cien mil
dólares en el desarrollo del producto ante un mercado tan incierto. Volvió a
hablar con el doctor Bing, y le preguntó si no existía algún otro procedi-
miento científico para desarrollar el mismo producto a menor costo, o si
alternativamente, no se podría demorar el avance de ese proyecto hasta que
se tuviera un conocimiento más claro de las condiciones del mercado. El doctor
Bing respondió que él prefería la alternativa que había formulado anterior-
mente, de llevar adelante un programa sistemático durante ¡ 2 meses, que
costaría $100,000, pero que existía una forma alternativa de llevar a cabo
este proyecto. En efecto, no habría inconveniente en comenzar con un pro-
grama de 8 meses de actividad moderada de investigación, culminando con
1 meses de actividad febril. El costo sería de $10,000 en la primera parte del
programa y $110,000 en la segunda parte. Esta forma de desarrollar las acti-
vidades no afectaría desfavorablemente las posibilidades de culminar exitosa-
mente la investigación. Además, tendría la ventaja de que la decisión de
desarrollar o no el nuevo producto se podría tomar con mayor conocimiento
de causa, al finalizar el octavo mes de la investigación. En ese momento se
resolvería sobre la conveniencia de embarcarse en el programa intensivo de
cuatro meses, o de abandonar el proyecto. Cuando se consultó al señor Margin,
éste expresó que al final del octavo mes estaría en mucho mejores posibilidades
de proporcionar un pronóstico exacto de la situación del mercado futuro para
ese producto.
El señor Hony siguió investigando otras posibilidades y le preguntó al
doctor Bing sobre la posibilidad de esperar hasta que los otros productos me-
dicinales ya estuvieran en venta y, entonces, desarrollar el propio en base a
up análisis químico de su composición, evitando los costos de investigación y
desarrollo. El doctor Bing respondió que esa alternativa era factible y que
el costo aproximado sería de $50,000. El señor Margin comentó que consi-
deraba muy poco beneficioso esta última estrategia en virtud de que los
productos que aparecen primero en el mercado conquistan la mayor propor-
ción de las ventas totales, en detrimento de los productos competidores que
aparecen después. Sus estimaciones indicaban que, en tal caso, los beneficios
netos se reducirían al ,HY,0 de los que había presentado en la tabla anterior.
Además, opinó, que había muchas probabilidades, quizás de 1 a :1, de que
los competidores no pudieran llegar a la fase de comercialización de 1111 pro-
ducto semejante, en cuyo caso la empresa "Farmacéutica Hony" no dispondria
de ningún elemento sobre el cual basar su análisis e investigaciones.
Se pide lo siguiente:
212 La toma de decisiones en condiciones de incertidumbre

a) dibuje el. árbol. de decisiones de este problema,


b) ¿ cuál es la acción que conviene tomar, a fin de maximizar las utilidades
esperadas?

nIB!LIOGRAFIA

La bibliografía para este capítulo se incluye en la lista de la


gina 236.
CAPITULO 8
La toma de decisiones en
condiciones de incertidumbre: el
valor de la información adicional

EL CAPÍTULO 7 introdujo una estructura lógica para la toma de decisiones


en un ambiente de incertidumbre. En este capítulo pretendemos trabajar
sobre estos procedimientos desde un punto de vista diferente. Esto nos
llevará al problema de si quien decide debe actuar ahora con la infor-
mación disponible, o si debe posponer la decisión y reunir información
adicionaL

COSTO DE OPORTUNIDAD

Para introducir el concepto de costo de oportunidad, regresemos al


ejemplo del capítulo anterior. Recuerde que la Compañía de Renta¡ de
Coches Zip arrienda automóviles de otra empresa por 7 dólares al día, y
a su vez los subarrienda (renta) por 10 dólares diarios. La matriz
de consecuencias para la decisión, incluyendo las probabilidades y los
valores esperados, se presentan en la tabla 8-1. En la elaboración de tal
tabla fue importante incluir sólo gastos y beneficios reales. Excluimos
explícitamente todos los costos fijos, así como los beneficios y/o costos
de las oportunidades perdidas. 1 Sin embargo, esos costos asociados con
las oportunidades perdidas nos aclaran aspectos importantes del problema
de decisión.
Considere la acción "arrendar 12 coches". Si se arriendan 12 coches
y se reciben sólo 10 solicitudes de renta, la utilidad es de 16 dólares. Esta
no es la mejor utilidad que se podría haber logrado con 10 solicitudes, ya
que de haber arrendado los 10 coches se habrían obtenido 30 dólares de
utilidad. Hubo la oportunidad de lograr 14 dólares adicionales, si se hubiera
conocido el verdadero número de solicitudes. El monto de 14 dólares,
entonces, es el costo de oportunidad asociado con la decisión "arrendar
12 coches" y el hecho "10 solicitudes de renta". Este es el monto que se
malogró por no tomar la decisión óptima, dado que ocurre precisamente

1 Tales conceptos están incluidos implícitamente en la tabla, como veremos


a continuación:

213 •
214 La toma de decisiones en condiciones de incertidumbre

Tabla 8-1
MATRIZ DE CONSECUENCIAS PARA LA COMPARiA ZIP
DE RENTA DE AUTOMOVILES
(Dólares de utilidad)

Evento:
Número de
solicitudes Acciones: número de coches arrendados
de renta de Proba-
coches bilidad 10 11 12 13 14 15 16 17

10 0.05 30* 23 16 9 2 -5 -12 -19


11 0.05 30 33* 26 19 12 5 -2 -9
12 0.10 30 33 36* 29 22 15 8 1
13 0.15 30 33 36 39* 32 25 18 11
14 0.20 30 33 36 39 42* 35 28 21
15 0.25 30 33 36 39 42 45* 38 31
16 0.15 30 33 36 39 42 45 48* 41
17 0.05 30 33 36 39 42 45 48 51*
1.00
Beneficio esperado 30.00 32.50 34.50 35.50t 35.00 32.50 27.50 21.00
* La cifra representa el beneficio máximo posible para cada evento.
t Beneficio máximo esperado.

ese evento (en este caso, 10 solicitudes). El costo de oportunidad ha sido


denominado también arrepentimiento, término que es muy descriptivo
de la realidad concreta. Si a fin de cuentas hemos logrado colocar sola-
mente 10 coches de los 12 que tenemos disponibles, nos "arrepentimos"
de haber arrendado dos coches de más, que nos representan una pérdida de
14 dólares de utilidad adicional.
Hay un costo de oportunidad asociado con cada combinación de
evento y acción. Podemos obtener una matriz de costos de oportunidad
restando a la máxima utilidad (con asterisco) de cada renglón, cada una
de las utilidades indicadas en ese renglón. Estos cálculos se efectúan en
la tabla 8-2. Note que en esta situación de decisión, hay ceros en la dia-
gonal principal de la matriz (la que va del extremo superior izquierdo
al extremo inferior derecho de la matriz). Esto resulta aSÍ, porque lo
mejor que se puede hacer en cada caso es arrendar exactamente el nú-
mero de automóviles que nos son solicitados para subarriendo; en cada
caso ésta es la mejor acción para el evento dado, ya que no hay costo de
oportunidad o arrepentimiento. Los valores situados arriba de la diagonal
principal son múltiplos de 7 dólares (tasa diaria de arrendamiento), y
representan los costos de oportunidad de haber arrendado más automóvi-
les que los que nos fueron solicitados. Abajo de la diagonal, los valores
son múltiplos de 3 dólares y representan la utilidad que se deja de ganar
cuando hay más solicitudes que automóviles disponibles (10 dólares de
ingreso menos 7 dólares de costo por coche).
Es importante no confundir el costo de oportunidad con el término
contable "pérdida", que significa una utilidad negativa. El costo de opor-
Valor esperado de la información perfecta 215

Tabla 8-2
TABLA DE COSTO DE OPORTUNIDAD PARA LA COMPAÑIA ZIP
DE RENTA DE AUTOMOVILES
(Dólares de arrepentimiento)
Evento:
número de
solicitudes Acciones: número de coches arrendados
de renta de Proba- ------
coches bilidad 10 11 12 13 14 15 16 17

10 0.05 O 7 14- 21 28 35 42 49
11 0.05 3 O 7 14 21 28 35 42
12 0.10 6 3 O 7 14 21 28 35
13 0.15 9 6 3 O 7 14- 21 28
14 0.20 12 9 6 3 O 7 14- 21
15 0.25 15 12 9 6 3 O 7 14
16 0.15 18 15 12 9 6 3 O 7
17 0.05 21 18 15 12 9 6 3 O
1.00
Costo de oportunidad
esperado 12.00 9.50 7.50 6.50* 7.00 9.50 14.50 21.00

* Mínimo costo de oportunidad esperado,

tunidad es siempre positivo o nulo; es un concepto relativo que se deter-


mina en relación a cierta utilidad "óptima".
Podernos calcular el costo de oportunidad esperado en la misma forma
en que calcularnos la utilidad esperada -multiplicando cada costo de
oportunidad en una columna dada por su probabilidad y sumando los
productos. Esto proporciona un promedio ponderado de los costos de
oportunidad para cada acción- es decir, la pérdida que debernos esperar
a largo plazo si escogernos consistentemente esa acción. La tabla 8-2
muestra los costos de oportunidad esperados (EOL) para cada acción.
Observe que la alternativa "arrendar 13 automóviles" tiene el mínimo
EOL. Esto es, si colocarnos una orden constante para arrendar 13 auto-
móviles diarios, tendríamos un arrepentimiento menor a causa de pérdida
de oportunidad que si arrendamos consistenternente cualquier otro núme-
ro de coches. Esto es necesariamente lo que debe ocurrir. El uso de costos
de oportunidad, no es más que otra forma de ver el mismo problema
que fue ilustrado en la tabla 8-1. Y la acción con la más alta utilidad
esperada tiene también el mínimo costo de oportunidad. Esto es, podernos
tornar corno criterio de decisión la minimización de EOL como alterna-
tiva al criterio de decisión de maximizar la utilidad esperada.

VALOR ESPERADO DE LA INFORMACION PERFECTA


Ahora regresemos al problema de si debe recopilarse información
adicional antes de emprender cada acción. Más específicamente, nos gus-
taría conocer cuanta utilidad adicional resultaría de disponer de más
216 La toma de decisiones: el valor de información

información. Entonces, podríamos comparar el valor de esta información


con el costo de obtenerla.
Si bien no siempre es posible detenninar el valor de cierta cantidad
específica de información, en cuanto al incremento de utilidad, sí po-
dríamos fijar un límite superior al valor de la información adicional. En
particular, podemos determinar el valor de la información perfecta -esto
es, el valor asociado con un conocimiento exacto del evento que ocurrirá.
Llamemos valor esperado de la información perfecta (EVPI) a los
ahorros esperados (o utilidades adicionales) de conocer exactamente cuál
es el evento que ocurrirá. El valor esperado de la información perfecta es
precisamente el costo de oportunidad esperado de la mejor acción. Re-
cuerde que el costo de oportunidad es la utilidad adicional asociada con
la selección de la mejor decisión. Con la información perfecta sobre lo
que sucederá, siempre podremos tomar la mejor decisión. La información
perfecta nos ahorrará precisamente el monto del costo de oportunidad.
Multiplicando los costos de oportunidad por las probabilidades de que
cada evento ocurra, obtenemos el costo de oportunidad esperado y simul-
táneamente el valor esperado de la información perfecta.
En el caso de la Compañía ZIP, la acción de "arrendar 13 coches" es
la mejor acción frente a la incertidumbre sobre cuántos automóviles se
necesitarán. Los costos de oportunidad (de la tabla 8-2) para esta alter-
nativa, se repiten en la tabla 8-3.

Tabla 8-3
COSTOS DE OPORTUNIDAD PARA LA ACCION:
ARRENDAR 13 AUTOMOVILES

Evento:
número de
solicitudes
deÓrenta d. Costo d. Valor
Probabilidad oportunidad esperado

10 0.05 $21 $1.05


11 0.05 14- 0.70
12 0.10 7 0.70
13 0.15 O O
14- 0.20 3 0.60
15 0.25 6 1.50
16 0.15 9 1.35
17 0.05 12 0.60
1.00 EOL = $6.50

Si hay solicitudes para subarrendar (rentar) 10 automóviles se incurre


en un costo de oportunidad de 21 dólares. Si este evento hubiera sido
predicho de antemano, como lo sería con la información perfecta, quien
toma las decisiones habría ahorrado 21 dólares. En consecuencia, la infor-
mación perfecta cuesta 21 dólares cuando sucede el evento "10 solicitudes
Valor esperado de la información perfecta 217

de renta". Si nos son solicitados 13 automóviles, la información perfecta


no vale nada, porque de todas formas hemos tomado la mejor decisión.
En cierto sentido, la información perfecta es, igual que. una bola de cris-
tal, que permite pronosticar con precisión el evento que ocurrirá. Pero
antes de que tengamos la bola de cristal (es decir, la información per-
fecta) no sabemos cuánto nos ahorrará. Puede ahorrarnos 21 ó 14 dólares
o cualquiera de los valores de la tabla 8-3, columna 3. Los ahorros espe-
rados con la bola de cristal (es decir EVPI) se obtienen multiplicando
las probabilidades por los ahorros (el costo de oportunidad) para cada
evento y sumando esos productos.
En la mayoría de las situaciones de decisión, no es posible obtener
predicciones perfectas; sencillamente no se dispone de una bola de cristal.
El EVPI determina el valor máximo que uno estaría dispuesto a pagar
por la información adicional. En nuestro ejemplo, EVPI = 6.50 dólares,
Si alguien nos ofreciera un sistema para predecir cuántas solicitudes de
renta ocurrirán, no importando qué tan preciso fuera ese sistema, tendría
para nosotros un valor no mayor de 6.50 dólares diarios.

Utilidad en condiciones de certidumbre: método alternativo


para la determinación del EVPI
Otro método para la determinación del EVPI es determinar primero
la utilidad esperada que resultaría si dispusiéramos de la información
perfecta. La tabla 8·;4 presenta las- utilidades óptimas para cada evento
posible. Aun si pudiéramos determinar la utilidad máxima para cada
evento, no sabríamos cuál es el evento que ocurrirá; por lo tanto calcu-
lamos el valor esperado. Esta es la utilidad esperada con certidumbre,
42.00 dólares, y mide el nivel de utilidad que se obtendría con un pro-
nosticador perfecto (es decir, conociendo por anticipado el número de

Tabla 8-4
UTILIDAD ESPERADA CON CERTIDUMBRE

Evento:
.umero de
solicitudes Beneficio de
~e renta de la acción
coches Probabilidad Mejor acción óptima Valor esperado

10 0.05 arrendar 10 automóviles $30 $ 1.50


11 0.05 arrendar 11 automóviles 33 1.65
12 0.10 arrendar 12 automóviles 36 3.60
13 0.15 arrendar 13 automóviles 39 5.85
14 0.20 arrendar 14 automóviles 42 8.40
15 0.25 arrendar 15 automóviles 45 11.25
16 0.15 arrendar 16 automóviles 48 7.20
17 0.05 arrendar 17 automóviles 51 2.55
Beneficio esperado con certidumbre $42.00
218 La toma de decisiones: el valor de información

coches necesarios cada día y arrendando precisamente ese número). Por


otra parte, la máxima utilidad esperada en condiciones de incertidumbre
fue de 35.50 dólares, que se obtendrían arrendando 13 automóviles diarios
durante todo el periodo. La diferencia entre estas cifras es de 6.50 dólares;
éste es el valor esperado de la información perfecta (EVPI).

Ejemplo
U n industrial debe decidir sobre la construcción de Una nueva planta.
La rentabilidad de la planta dependerá de las condiciones económicas
generales futuras (estabilidad o crecimiento). En la tabla 8-5 se presentan
las consecuencias que resultan de las diversas acciones y eventos, y las
probabilidades subjetivas que el industrial asigna a la estabilidad y al
crecimiento.
Tabla 8-5
UTILIDADES AL CONSTRUIR LA NUEVA PLANTA
MATRIZ DE CONSECUENCIAS
(llillones de dólares)

Evento: Acciones
nivel de la
economía nacional Probabilidad Construir N o construir

Estabilidad ~ .................. 0.2 3 5*


Crecimiento .................. 0.8 16* 12
1.0
Utilidad esperada 13.4- 10.6

* Utilidad máxima esperada para cada evento.

La tabla 8-6 presenta los costos de oportunidad para este problema.


Si la economía es estable la mejor acción es "no construir" y, por lo
tanto, su costo de oportunidad es de cero. Sin embargo, si la planta se
construyera, la utilidad disminuiría en 2 millones de dólares respecto a
la mejor alternativa. En consecuencia el costo de oportunidad de la acción
"construir" bajo condiciones de estabilidad, es de2 millones de dólares.

Tabla 8-6
TABLA DE COSTOS DE OPORTUNIDAD
(MilJones de dólares)

Evento:
nivel de la
p,conomía nacional Probabilidad Construir No construir
.~~~~-

Estabilidad '.. . . . . . 0.2 2 2


Crecimiento ;... 0.8 O 4
T.O ,:
Costo de oportunidad esperado 0.4 3.2
Funciones linea/es de utilidad 219

Análogamente, bajo condiciones de crecimiento económico, "construir"


es la mejor alternativa y tiene un costo de oportunidad de cero. Si el
CDCargado de las decisiones determina no construir y hay crecimiento
eronómico, su costo de oportunidad sería de 4 millones de dólares, ya
':;'Ue su utilidad se reduciría en ese importe respecto a la decisión óptima.
El valor esperado de la información perfecta es igual al EOL de la
mrjor decisión. En este caso, la mejor decisión es "construir" y el EVPI =
lA· millones o sea 400,000 dólares.
Alternativamente, podemos calcular la utilidad bajo certidumbre como
! r muestra en la tabla 8-7. El EVPI se determina en este caso como la
IIlilidad esperada bajo incertidumbre (13.8 - 13.4), o sea 0.4 millones,
~l que por el otro método.

Tabla 8-7
CALCULO DE LA UTILIDAD ESPERADA CON CERTIDUMBRE
(Millones de dólares)

Evento: Utilidad de
nivel de la la mejor Valor
economía nacional Probabilidad Mejor acción acción esperado

Estabilidad 0.2 No construir 5 l.0


Crecimiento 0.8 Construir 16 12.8
Utilidad esperada bajo certidumbre 13.8

Ya que éste es un monto de cierta importancia, conviene que quien


xoma \as aecis\ones obtenga maym \ntormación sobre\a tenáencra econó-
mica futura, antes de tomar su decisión. Esto no quiere decir que siempre
se puede conseguir información perfecta sobre eventos futuros. Tal vez la
persona que decide puede protegerse algo en este caso, procediendo con
los planes, pero dejando latente la posibilidad de que el proyecto se cancele
si el crecimiento económico ~o lo justifica.

FUNCIONES LINEALES DE UTILIDAD


En el capítulo anterior y en las primeras secciones de éste, presentamos
un cuadro general para la toma de decisiones bajo incertidumbre. En el
resto de este capítulo presentaremos algunos casos especiales, en los cuales
el análisis se simplifica considerablemente. Ello ocurre cuando la utilidad
de una acción dada puede ser representada como una función lineal de
una variable independiente. Ilustremos este caso.
Un fabricante de juguetes tiene un muñeco que está considerando para
comercializarlo a nivel nacional. El juguete es un artículo novedoso que
sería descontinuado después de una campaña única de ventas en todo el
país. El costo variable de manufactura del juguete es de 12 centavos.
El precio de venta a los detallistas es de 57 centavos, así que la utilidad
220 La toma de decisiones: el valor de información

unitaria es 0.57 - 0.12 = 0.45 de dólar. Una campaña nacional de pu-


blicidad para vender el producto costaría 2.7 millones de dólares. Existe
incertidumbre en relación al número de juguetes que serán vendidos. La
distribución de probabilidad asignada a la variable desconocida -número
de unidades vendidas- aparece en la tabla 8-8. Las acciones posibles son:
1) comercializar el producto, o 2) abandonar el producto.

Tabla 8-8
PROBABILIDADES Y VALORES ESPERADOS DE LA VENTA
DE JUGUETES

Evento:
cantidad vendida Valor esperado
(millones) Probabilidad (millones ,ji! unidades)
X P(X) X·P(X)

4- millones 0.2 0.8


6 millones 0.3 1.8
8 millones 0.4- 3.2
10 mill~nes 0.1 1.0
1.0 E(X) = 6.8

Podemos analizar este problema elaborando una matriz de consecuen-


cias, y proceder como se ha descrito en el capítulo 7 y en la primera
parte de este capítulo. O en vez de ello se puede encontrar una ecuación
que relacione la utilidad con el número (desconocido) de artículos ven-
didos (X). Hay una ecuación para cada una de las acciones posibles:
Comercializar el producto: utilidad 7r = - 2.700,000 + 0.45X
Abandonar el producto: utilidad = O
Estas ecuaciones se grafican en la figura 8-1.
La primera ecuación contiene 2.7 millones de dólares negativos (el
costo de la campaña promocional) y una contribución variable de 45 cen-
tavos por cada unidad vendida. Entonces, si se vendieran 8 millones, la
utilidad sería:
7r = -2.700,000 + (0,45) (8.000,000) = +900,000 dólares
Note que estas ecuaciones de utilidad son lineales. Esto es, son de la
forma
7r = a + bX (1)
donde 7r = utilidad; a y b son constantes; y X es la variable desconocida.
Cuando éste es el caso, la utilidad esperada, E (7r ), puede ser calculada
por la siguiente ecuación: 2
2 Esto puede demostrarse corno sigue: E(7T) = 1:P(X) = 1:P(X) [a + bX] =
:!aP(X) =
+ :!bXP(X) a:!P(X) + b1:XP(X). Pero 1:P(X) 1 porque P(X) es =
una función de probabilidad, y 1:XP(X) se define como E(X). Por 10 tanto,
E('1T) =a + bE{X), como se muestra.
Funciones lineales de utilidad 221

FUNCIONES DE UTILIDAD PARA DOS ACCIONES EN LA


COMERCIALlZACION DE UN NUEVO JUGUETE

Comercializar el producto
1.0

-1.0

5
Ventas (Millones de unidades)
Figura 8-1

E(1I") = a + bE(X) (2)

donde E(X) es el valor esperado de la variable desconocida X.


Para la decisión "comercializar el producto", a = -2.700,000 dólares
y b = 0.45 dólares. E(X) = 6.8 millones de unidades vendidas, corno sé~
~serva en la tabla 8-8. Por lo tanto, la utilidad esperada (usando la ecua-
ción 2) es:

E(1I") = -2.700,000 + (0.45) (6.800,000) = 360,000 dólares


Para la decisión "abandonar el producto", ambas a y b son O y
E( 7f)= O. Si el fabricante de juguetes fuera a actuar ahora, debería co-
mercializar el producto, ya que esta acción tiene una utilidad esperada
más alta ~e la acción alternativa (la cual tiene utilidad nula \ .
Es importante notar que, por \0 genera\, 81 la \unóon oe uiu10ao no
es lineal, no se puede obtener la utilidad esperada sustituyendo el valor
esperado de la variable desconocida. Este es un error que fácilmente
pueden cometer los principiantes.
Es instructivo calcular también el nivel de equilibrio de ventas; esto
es, el volumen de ventas para el cual el que toma la decisión es indiferente
entre las dos alternativas. En este caso, son las ventas necesarias para
cubrir los gastos de publicidad. Denotemos este valor de equilibrio por K.
Entonces
(0.45 dólares) (K) = 2.700,000 dólares
de donde K = 6.000,000 unidades
222 La toma de decisiones: el valor de información

Una vez que se conoce ese valor, quien toma la decisión puede comparar
simplemente las ventas esperadas E(X) con el punto de equilibrio K. Si
E(X) es mayor que K, entonces será más rentable comercializar el pro-
ducto. Si E(X) es menor que K, comercializar el producto llevaría a pér-
didas probables, y sería mejor abandonar el proyecto.

Funciones de costos de oportunidad


Cuando la función de utilidad es lineal, cada función que describe los
costos de oportunidad de una acción dada puede ser descrita por dos líneas
rectas unidas." Las funciones de costo de oportunidad para nuestro ejem-
plo se muestran en la figura 8-2. Estas funciones ton :

FUNCIONES DE COSTOS DE OPORTUNIDAD PARA DOS ACCIONES


EN LA COMERCIALIZACION DE UN NUEVO JUGUETE

Costo de oportunidld: e (x)


millones de dollres

.
Comereillizlrel producto
Ablndonlr el produeto-...,~
~
~'

~
1.0 ~

,,"
~' "

Acción: Comercializar el producto

o,
Costo de oportunidad = C (X) = ° SI X ¿ 6 millones
C(X) = (0.45 de dólar), (6.000,000 - X) SI X <6 millones

Acción: Abandonar el producto

Costo de oportunidad = C (X) (0.45 de dólar) (X - 6.000,000)


SI X > 6 millones
o,
C(X) = ° SI X S 6 millones

a Estamos describiendo aquí las funciones de costo de oportunidad, para pro-


blemas de dos acciones (es decir que sólo se considerarán dos acciones). Para proble-
mas de acciones múltiples, cada función consiste en segmentos de líneas rectas
unidas, pero el análisis subsecuente es más complejo.
El valorde la información imperfecta 223

~ote que el punto de equilibrio, K = 6 millones de unidades, tiene un


papel preponderante en la determinación de las funciones de costos de
~rtunidad. Su significado es el siguiente: si comercializamos el producto
'! las ventas exceden el valor de equilibrio (6 millones), entonces no hay
eosto de oportunidad, ya que hemos tomado la decisión correcta. Si, por
,:ua parte, las ventas resultan inferiores a los 6 millones, nuestro arrepen-
1Í:rnÍento (costo) es 45 centavos por cada unidad vendida por debajo de
ÍO!; 6 millones, ya que, si hubiéramos abandonado el proyecto, habríamos
evitado este costo. Análogamente si abandonamos el proyecto y las ventas
wm. iguales o menores que el valor de equilibrio, nuestro costo de oportu-
nidad es cero, ya que hemos actuado óptimamente. Sin embargo, si las
ventas resultan superiores a 6 millones, sufrimos un costo de oportunidad
de 45 centavos por cada unidad que sobrepase a los 6 millones, ya que
ésta es la utilidad que podríamos haber obtenido, si hubiéramos actuado
óptimamente.
Debido a que estas funciones de costo de oportunidad son rectas pun-
teadas y no rectas continuas, generalmente no es posible obtener una ex-
presión simple para el costo de oportunidad esperado (EOL) y el EVPI,
excepto en el caso especial de la distribución normal que consideramos
en el capítulo 14.

Tabla 8·9
COSTOS DE OPORTUNIDAD Y VALOR ESPERADO DE LA
INFORMACION PERFE(.TA
..
Costos de oportunidad Valor esperado
(miUones de dólares) (mil/ones de dólares)
Evento:
rentos, millones Probabilidad Comercializar Abandonar Comercializar Abandonar
de unidades, X P(X) el producto el producto el producto el producto

4 0.2 $0.9 $0 $0.18 $0


6 0.3 O O O O
8 0.4 O 0.9 O 0.36
10 0.1 O 1.8 O 0.18
1.0 EOL = $0.18 $0.54-

Sin embargo, podemos calcular el valor esperado de lavinformación


perfecta en la forma usual, tal como se presenta en la tabla 8-9. El costo
de oportunidad esperado para la mejor decisión es de 180,000 dólares.
Este es el valor esperado de la información perfecta.

EL VALOR DE LA INFORMACION IMPERFECTA


El valor esperado de la información perfecta (EVPI) determina el
límite superior del valor de la información adicional cuando hay que tomar
las decisiones. Sin embargo, en muchos casos, la información que podemos
224 La toma de decisiones: el valor de información

obtener a un costo razonable es imperfecta en el sentido de que no predice


exactamente cuál evento ocurrirá. Tal información puede tener un valor,
si, en promedio, mejora la probabilidad de tomar una decisión correcta
y aumenta el beneficio esperado.
En esta sección consideramos la posibilidad de realizar un experimento
para obtener información adicional imperfecta." El término "experimento"
tiene aquí un sentido muy amplio. Un experimento puede ser un estudio
realizado por economistas para predecir la actividad económica nacional,
una encuesta sobre los consumidores hecha por una firma de investigación
de mercados, una encuesta de opinión realizada por algún candidato polí-
tico, una muestra de artículos de la línea de producción tomada por un
ingeniero para checar la calidad, o una prueba sísmica para dar algunas
indicaciones sobre la presencia de petróleo a una firma perforadora de
pozos de petróleo. En general, sólo podemos evaluar el valor de un experi-
mento dado, si podemos estimar la eonfiabilidad de la información resul-
tante. Una investigación de mercado puede ser útil para decidir si comer-
cializar o no un nuevo producto. Sin embargo, quien toma las decisiones
puede asignar un valor económico específico al experimento sólo en el caso
de que pueda predecir qué tan bien es posible estimar las ventas poten-
ciales por medio del estudio resultante de la investigación de mercado.
Un ejemplo aclarará lo expuesto.> Supongamos que las ventas de un
producto nuevo serán muy altas o muy bajas (o sea que el producto será
un éxito o un fracaso). La tabla de pagos para esta decisión se muestra
en la tabla 8-10. El valor de $4 millones es el beneficio neto, sobre un

Tabla 8-10
TABLA DE CONSECUENCIAS PARA LA DECISION DE
COMERCIALIZAR EL NUEVO PRODUCTO
(Millones de dólares)

Acciones

Comercializar No comercializarlo
Probabilidad el producto

Ventas altas ...•.....•...... 0.3 4.0 o


Ventas bajas 0.7 -2.0 O
Valores esperados . -0.2 O

período dado, si el potencial de ventas es alto. La cifra de - $2 millones


es el costo del fracaso.
La acción indicada es abandonar (es decir, no comercializar) el pro-
ducto. Sin embargo, el que decide, renuente a abandonar una posibili-

4 Los autores están en deuda con H. Biennan, Jr., C. P. Bonini, y W. H.

Hausman, Quantitatiue Analysis [or Business Decisions (3· ed.; Homewood, Ill.:
Richard D. Irwin, 1969), págs. 80·85, por este ejemplo, originalmente preparado
por C. P. Bonini.
El valar de la información imperfecta 225

dad de obtener $4 millones, podría preguntarse si debería obtener más


información antes de decidir. Como primer paso, se puede obtener el EVPI
de los costos de oportunidad asociados a la accir.n "no comercializar" ($4
millones para ventas altas y cero para ventas bajas). Si esos costos se
multiplican por las probabilidades respectivas, se determina que el EVPI
es $1.2 millones [(0.3 X 4) + (0.7 X O) = 1.2], En esta forma, es posible
conseguir, al menes potencialmente, un valor considerable con información
adicional.
El encargado de tomar las decisiones puede realizar en esta situación
un experimento. Supongamos que el experimento consiste en una encuesta
de mercado realizada en dos ciudades representativas. Aunque en el pasado,
tal encuesta predecía a menudo con precisión el éxito o el fracaso de un
producto nuevo, ocasionalmente predecía éxito para un producto que luego
fracasaba, y viceversa. Además, a menudo los resultados no arrojaban nin-
guna conclusión. Si el administrador realiza la encuesta antes de decidir,
puede basar su decisión en las predicciones que resulten de la encuesta.
Este problema se puede describir con un árbol de decisiones, tal como se
muestra en la figura 8-3. La parte superior del árbol muestra el proceso

ARBOL DE DECISIONES PARA EL PROBLEMA DE LA


COMERCIALIZACION DE UN NUEVO PRODUCTO

~
. 2 Venias alias
$A ·1 _
. (0.3)--" l1li ......
Yenlas bajas
• Comercializar (0.7)..............
el producto ..........
-2 IRiIIones
No comercializarloS Omillones

f'L Yenlas altas


.. .A..-A.. 4 IltiUones
Comerclahzar Yenlas bajas
No hacer el producto "'-.....
la encuesla o comercializarlo O '11 1 "-.....
¡-¡/'" mi ones _ 2 millones
~ Hacer la pre~ice " {LYentas alias
encuesta éxito Comercllhzar~ - 4 millones
el producto Yentas bajlS

~ la encuesta no ~
da conclusiones'L-]'- No comercializarlo
la encuesla - Omillones
~

- 2 IllfMoMl
'
predice
fracaso~ Comercializar...í'\...-.Yenlas allas
el producto ~ 4 mUlo ReS
No comercializarlo Yentas bajas

~" Omillones ~-2 ""'110MS


Figura 8-3
226 La toma de decisiones: el valor de información

de decisión si no se realiza una encuesta. Es el mismo de la tabla 8-10, con


probabilidades de 0.3 y 0.7 para ventas altas y bajas, un beneficio esperado
de - $0.2 millones por la comercialización del producto y una decisión
indicada de no comercializarlo.
El gerente de mercadeo asigna probabilidades a las posibles predicciones
que resulten de la encuesta como una función del nivel de ventas actual,
tal como se especificó en la tabla 8-11. O sea, que asigna probabilidades
a las predicciones "éxito", "no hay conclusión", y "fracaso" para el
evento "ventas altas" y diferentes probabilidades para el evento "ventas
bajas". Tales probabilidades reflejarían la experiencia pasada con en-
cuestas de este tipo, modificadas tal vez por el criterio del gerente de
mercadeo. Tales probabilidades pueden basarse también en el análisis
muestral, que se estudiará en el capítulo siguiente.

Tabla S-U
PROBABILIDADES CONDICIONALES DE LAS PREDICCIONES DE LA
ENC.UESTA DADAS LAS VENTAS REALES

Nivel real de ventas


Resuüaaos experimentales
(predicciones de la encuesta) Ventas altas (A) Venta. bajas (B)

La encuesta predice éxito (E)


(es decir, ventas altas) 0.4 0.1
No hay conclusiones según
la encuesta (NC) .... " • .• . . . . .• • . . . . .• 0.4- 0.5
La encuesta predice fracaso (F) ..•......•.. 0.2 0.4-
1.0 1.0

Las probabilidades que se muestran en la tabla 8-11 expresan la con-


fiabilidad o precisión del experimento. Sólo con esas estimaciones puede
evaluar e! gerente de mercadeo el valor económico de la encuesta.

La revisión de probabilidades: el teorema de Bayes


Para completar el análisis de la figura 8-3, necesitamos ,las probabili-
dades de los posibles resultados de la encuesta (todo lo que tenemos dispo-
nible son las probabilidades de los niveles de ventas altos y bajos). En
forma similar, necesitamos las probabilidades condicionales de un nivel alto
o bajo de ventas dada una predicción de éxito, etcétera; mientras que la
tabla 8-11 da las probabilidades condicionales en el orden inverso, o sea,
las probabilidades condicionales de las diferentes predicciones dado un
nivel alto de ventas, etcétera. Para remediar eso, se deben poner las pro-
babilidades en forma diferente.
Elaboramos entonces una tabla de probabilidades conjuntas, similar a
la utilizada en el capítulo 5. En la tabla 8-12, la probabilidad conjunta de
un nivel de ventas alto (A) Y una predicción de éxito (E) se obtiene mul-
tiplicando la probabilidad de un nivel de ventas alto (0.3) por la proba-
El valorde la información imperfecta 227

Tabla 8·12
TABLA DE PROBABILIDADES CONJUNTAS

Predicciones de la encuesta

No hay
Nivel de ventas Exito (E) conclusiones (NC) Fracaso (F) Total

Alto (A) 0.12 0.12 0.06 0.30 peA)


. . . ... .
, ......... o··'¡··.

Bajo (B) '''~'.' 0.07 0.35 0.28 0.70 P(B)


Total 0.19 0.47 0.34- 1.00
P(E) nuc, P(F)

bilidad condicional de una predicción de éxito dado un nivel de ventas


alto (que según la tabla 8-11 es 0.4):

P(B,E) = P(B) P(EIB) - (0.7)(0.1) = 0.07

En forma similar:

P(B, E) = P(B) P(EIB) = (0.7 (0.1) = 0.07


peA, NC) = peA) P(NCIA) ==(0.3) (0.4) = 0.12

y así sucesivamente. Note que las probabilidades marginales para las pre-
dicciones de "éxito", "no hay conc!usión",y "fracaso" son 0.19, 0.47 Y
0.34 respectivamente. Estas se necesitan para nuestro problema de decisión
y se insertan en los lugares adecuados en la figura 8-4.
El árbol de decisiones requiere también las probabilidades condicio-
nales para los diversos niveles de ventas, dada la predicción de la encues-
ta. Estas últimas se pueden calcular directamente a partir de la definición
de probabilidad condicional. Por ejemplo, la probabilidad de ventasaltas,
dada una predicción de éxito es:

P.(AIE) = P(A,E) =0.12 = 0.632


".1 P(E) 0.19

y la probabilidad de ventas bajas, dada una predicción de éxito es:

. ...': P(B, E) 0.07


P(BIE) = - - - = ,~- = 0.368
,. I P(E)' 0.19
En forma similar:
P(AINC) == 0.12 = 0.255
I 0.47

I ' 0.35
P(B¡NG\ = - . = 0.745
{ 0.47
228 La toma de decisiones: el valor de información

y
0.06
P(AIF) = - = 0.176
0.34
I 0.28
P(B¡F) = - - = 0.824
0.34

Aunque el cálculo de las probabilidades anteriores es un ejercicio


simple de la utilización de las probabilidades condicionales, es de suficiente
importancia para estudiarlo cuidadosamente. De hecho, se denomina teore-
ma de Bayes, en honor a un sacerdote del siglo XVII que fue el primero en
enfatizar esta forma de probabilidad condicional." Note que:

P(A, E) P(A)P(EIA)
P(AIE)
P(E) P(A)P(EIA) + P(B)P(FJIB)
En esta forma, la probabilidad condicional de un estado de la natura-
leza (ventas altas) dado un resultado experimental (predicción de la
encuesta de éxito) se expresa en términos de las probabilidades condicio-
nales del resultado del experimento (éxito) dados los varios estados de la
naturaleza (ventas altas y bajas) y las probabilidades simples de los estados
de la naturaleza.
Consideraremos de nuevo el teorema de Bayes en la evaluación de
muestras en los capítulos 13 y 14. El teorema de Bayes tiene un papel
importante en la evaluación de la evidencia experimental y muestral en el
proceso de la toma de decisiones, y toda esa área se denomina algunas veces
teoría bayesiana de decisiones.
Volviendo a nuestro ejemplo, las probabilidades calculadas anterior-
mente se listan en los lugares apropiados en la figura 8-4. Ahora está dis-
ponible toda la información necesaria, y se puede analizar la figura 8-4,
(recorriéndola desde la derecha y hacia la izquierda). Los valores espe-
rados se muestran en los círculos. El beneficio esperado es positivo para
la introducción del producto al mercado sólo si se obtiene una predicción
de éxito de la encuesta de mercado. Por lo tanto, no se debe lanzar al
mercado el producto si se obtienen las predicciones de "no hay conclu-
sión" o de "fracaso". El beneficio esperado de la realización de la en-
cuesta que es de $0.34 millones. Este es el beneficio esperado asociado con
la actuación en base del resultado de la encuesta. No incluye el costo de la
encuesta es de $0.2 millones. Cuando se incluye este costo, el beneficio

5 Una forma más general del teorema de Bayes es la siguiente: dado un con-
junto de eventos mutuamente exclusivos y colectivamente exhaustivos, El' E 2 ••• , E",
y un resultado experimental, e

P(E¡)P(eIE¡L
para j = 1, 2, •.. , n
"
~ P(E;)P(eIE;)
1.:::1
El valorde la información imperfecta 229

ARBOL DE DEClSIONES PARA LA COMERCIALlZACION DE UN NUEVO


PRODUCTO (CON PROBABILIDADES)

Ventas alias
(0.30)
$ 4 millones
Venias bajas
(O.70)~

-2 millones

Ventas alias
~_~(0;....6;...3~2):.-_ _
~ 4 millones
No hacer Comercializar Venias bajas
la encuesta el producto (0.368)
<,
~
No comercializarlo
1 O - 2 millones
. la encuesla
Hacer la predice élilo ~enlas alias
25b5).
l\:~st. (0.19) Comercializ~ven(Ot·as ajas4millones
~
la encues!a no O el producto (0.745)
osto O..M da conclusiones NIt comercializarlo ............
-0.20 (0.47) - O "
la encuesta predice - 2 millones
fracaso (0.34)
~Comercializar -C::::L Ventas alias
~ el producto ~ (0.176) _
No comercializarlo Ventas bajas 4 millones

~O (O.824)~i!!0:10:
Figura 8·4

neto esperado es de $0.14 millones. Puesto que esta cantidad es preferible


a cero, que sería el beneficio obtenido al actuar sin tener información
adicional, se debe realizar la encuesta.
Análisis. Realizar una encuesta en el ejemplo anterior, sería un medio
de obtener información adicional. La información no sería perfecta puesto
que la encuesta no puede decir exactamente si las ventas serán altas o bajas.
Las probabilidades de la tabla 8-11 dan la con fiabilidad estimada de las
predicciones de la encuesta. Si se debe determinar el valor económico de la
realización de la encuesta, son necesarias estimaciones como ésas.
En nuestro ejemplo, la acción de realizar la encuesta determina un
beneficio esperado de $0.34 millones por sobre la mejor acción que se puede
ejecutar sin realizar la encuesta (que era abandonar el producto). Por lo
tanto, el valor de la información imperfecta fue de $0.34 millones. Puesto
que ese valor excedió el costo de la encuesta misma ($0.2 millones), valía
la pena obtener la información, o sea, realizar la encuesta.
230 La toma de decisiones: el valor de información

Tomar una muestra representa un medio de obtener información. Esta


información es imperfecta, puesto que es posible que' la muestra no
represente exactamente la población de la cual se extrajo. En los capí-
tulos 9 y 10 se discute la con fiabilidad de las muestras y en los capítulos
13 y 14 se describe cómo se puede incorporar el muestreo en el proceso
de la toma de decisiones.

RESUMEN

El capítulo anterior introdujo métodos para la toma de decisiones bajo


incertidumbre, mediante los cuales podemos responder a la siguiente pre-
gunta: "si debemos actuar ahora con la información disponible, ¿ cuál es
la actuación óptima?" La primera parte de este capítulo fue enfocada a la
pregunta: "¿ debemos actuar ahora o posponer la decisión y reunir infor-
mación adicional antes de actuar?"
Primero consideramos el costo de oportunidad, el cual pertenece al
mundo. del "pudo haber sido". Esta es la diferencia entre la utilidad real-
mente lograda yla utilidad que podría haberse obteríido si se hubiera selec-
cionado la decisión óptima, para un evento dado, Una tabla de costos de
oportunidad presenta los costos de oportunidad para cada combinación
de evento y acción. El costo de oportunidad esperado (EOL) de cualquier
acción, es el promedio ponderado de los costos de oportunidad asociados
con esa acción, utilizando como ponderaciones a las probabilidades de los
diversos eventos.
El valor esperado de la información perfecta (EVPI), es la utilidad
adicional que podría haberse obtenido si quien toma las decisiones cono-
ciera previamente cada posible evento y, por lo tanto, hubiera elegido la
acción óptima. El costo de oportunidad esperado (EOL) de la mejor acción
es precisamente el valor esperado de la información perfecta (EVPI). El
valor esperado de la información perfecta puede también ser obtenido,
calculando la utilidad esperada bajo certidumbre y sustrayendo la más
alta utilidad esperada bajo incertidumbre.
El valor esperado de la información perfecta es un concepto importante
para la decisión de si actuar ahora o después. Si el EVPI es pequeño, signi-
fica que nuestra incertidumbre es pequeña medida en términos económicos;
en consecuencia, es poco lo que se puede ganar con la información adi-
cional. Por otra parte, si el EVPI es grande, entonces queda margen para
mejorar considerablemente la información disponible; posiblemente debe-
ríamos buscar más información antes de actuar.
Cuando la utilidad de. una acción determinada puede ser expresada
como una función lineal de la variable aleatoria, la utilidad esperada de esa
acción puede determinarse a partir del valor esperado de dicha variable.
La función de costos de oportunidad se compone de dos segmentos lineales.
La información adicional que se obtiene del mundo real generalmente,
es imperfecta. Sin embargo, se puede medir el. valor económico de la infor-
mación si se puede determinar la con fiabilidad de la misma. El teorema
Problemas 231

de Bayes se utiliza para calcular las probabilidades usadas para evaluar la


información adicional.

PROBLEMAS

1. Tome como referencia el problema 3, del capítulo 7.


a) Prepare una tabla de costos de oportunidad para esta situación de decisión.
b') Calcular el costo de oportunidad esperado para cada acción.
e) ¿Cuál es el EVPI?
d) ¿ Cuál es la utilidad esperada bajo certidumbre?

2. Tome como referencia el problema 6 del capítulo 7.


a) Prepare una tabla de costos de oportunidad.
b) ¿ Cuál es el EVPI? Explique su significado en esta situación de decisión.

3. Tome como referencia el problema 7 del capítulo 7.


a) Prepare una tabla de costos de oportunidad.
b') ¿ Cuál es la utilidad esperada bajo certidumbre?
e) ¿ Cuál es el EVPI?
4. Tome como referencia el problema 10 del capítulo 7.
a) ¿ Cuál es el valor esperado de la información perfecta en esta situación
de decisión?
b) ¿ Cómo puede obtener información adicional la persona que toma las de-
cisiones?
5. Tome como referencia el problema 11 del capítulo 7.
a) Determine el EOL de cada ácción.
b) ¿ Piensa usted que IJK debe obtener información adicional sobre la situación
financiera de los nuevos clientes, tales como Lasco? Suponga que una
compañía de investigación de crédito puede dar una opinión sobre un
cliente potencial, percibiendo honorarios de 200 dólares.
e) Suponga que los honorarios de la compañía de investigación de crédito
fueran de sólo 50 dólares, En base a la experiencia pasada, las clasifica-
ciones (bueno, mediano, malo) relacionadas con la experiencia de IJK
son las siguientes:

APRECIACIÓN DE CRÉDITO POR TIPO DE CLIENTES


(Porcentaje total)

Evento
.~-- . _ - - __ . .

Evaluación de En Con problemas Cliente Buen


crédito quiebra financieros esporádico cliente
.._._-
_
.
_
~
-
,
Bueno .............. 0% 10% 40% 40%
Mediano ............ 40 50 50 50
Malo . . .. . ..... .. . . .. . . . . . . 60 40 10 10
Total .. , ... .. . . . . . . . . .. . .. 100 100 100 100

Dibuje un árbol de decisiones para este problema. ¿ Valdría la pena usar los
servicios de la compañía de investigación de crédito para ayudar a seleccionar
los clientes?
236 La toma de decisiones: el valor de información

15. Tome como base la cita de The Wall Street [ournal, contenida en la nota 3
al pie de la página 398. Comente la decisión del fabricante de golosinas, de
comprar el seguro y pagar los 10,000 dólares de prima desde el punto de vista de:
a) El valor esperado de la información perfecta.
b) La curva de utilidad del dinero para el que toma las decisiones.

BIBLlOGRAFIA
BlERMAN, H., BONINI, C. P. y HAUSMAN, W. Quantitative Analysis for Business
Decisions, 4" ed. Homewood, Ill.: Richard D. Irwin, 1973.
Los capítulos 3, 4 y 5 estudian la toma de decisiones bajo incertidumbre
aproximadamente al mismo nivel de este libro. El capítulo 17 trata de la teoría
de la utilidad.
BROWN, R. V. "Do Managers Find Decision Theory Useful?" Haruard Business
Review (mayo-junio 1970).
Revisión de algunas aplicaciones de la teoría de decisiones y un análisis de
las dificultades que existen para aplicarla.
HAMMOND, J. S. "Better Decisions with Preference Theory"; Haruard Business Reuieio
(noviembre-diciembre 1967).
Una introducción de fácil lectura a la teoría de la utilidad.
HARLAN, N., CHRISTENSON, C. y VANCIL, R. Managerial Economics: Text and
Cases. Homewood, IlIinois: Richard D. Irwin, 1962.
La sección HI presenta un texto y varios casos breves relativos a la toma
de decisiones bajo incertidumbre.
HOWARD, R. A. (ed.): IEEE Transanctions 071 Systerms Science and Cybernetics,
Special Issue on Decision Analysis (vol. SSC-4, N° 3, septiembre 1968,).
Contiene muchos artículos, desde introducciones a la toma de decisiones bajo
incertidumbre y teoría de la utilidad hasta tópicos avanzados. Los artículos de
particular relevancia para el material de los dos capítulos previos son los de Nort,
Howard, Wilson, Meyers y Pratt, y Spetzler,
LUCE, R. DUNCAN y RAIFFA, HOWARD. Games and decisions. Nueva York: John Wiley,
1957.
El capítulo 2 es una buena presentación de la función de la utilidad en
la toma de decisiones. El capítulo 13 compara los diferentes criterios de
decisión en condiciones de incertidumbre.
MACEE, JOHN F. "Decision Trecs For Decision-Making", en Haruard Business
Reoieio (julio-agosto de 1964) y "How to Use Decisions Trees in Capital
Investrnent", H arvard Business Reuieio (septiembre-octubre de 1964).
Estos dos artículos describen las ideas básicas sobre árboles de decisión y
presentan sus aplicaciones a varios tipos de problemas gerenciales de decisión.
R.MFFA, H. Decision Analysis. Reading, Mass.: Adison-Wesley 1963.
Un excelente y detallado tratamiento de la toma de decisiones bajo incer-
tidumbre, sin utilizar matemáticas complejas.
SCHLAIFER, R. Analysis of Decisions Under Uncertainty, Nueva York: Mací.Iraw-Hill,
1969.
La parte 1 trata los elementos básicos del análisis de decisiones y la diagra-
rnación de árboles de probabilidad en detalle. La parte 2 trata de la determina-
ción de preferencias y probabilidades en detalle. Constituye una fuente de refe-
rencia muy práctica.
SWALM, R. O. "Urility Theorv-v-Insights into Risk Taking". Haruard Business Reoiet»
(noviembre-diciembre 1966).
Describe la determinación aplicación de las funciones de utilidad en firmas
CAPITULO 9
Introducción a la
inferencia estadística

LA POSIBILIDAD de efectuar generalizaciones y predicciones válidas a partir


de datos de una muestra representa un importante avance en el conocimien-
to científico. Los métodos para reunir datos muestrales fueron descritos
en el capítulo 1; en los capítulos 2 al 4 se explicaron los medios necesarios
para el análisis, tales como las distribuciones de frecuencias, medidas de
tendencia central y medidas de dispersión. En los capítulos 5 y 6 se
estudiaron los fundamentos de la teoría de la probabilidad. Ahora que
ya contamos con estos conceptos básicos, podemos reunirlos para iniciar el
estudio de la inferencia estadística.
La inferencia estadística es el proceso mediante el cual se obtiene una
conclusión acerca de alguna medida de una población,! con base en el
valor de una medida en una muestra. Esta medida puede ser una variable,
tal como el promedio o la media de la cantidad de dinero que los consu-
midores planean gastar en un automóvil nuevo, o un atributo, tal como
el porcentaje de consumidores que prefieren automóviles importados. La
finalidad del muestreo consiste en estimar mediante la muestra, las carac-
terísticas de la población de la cual se seleccionó la muestra.
La medida de la población se denomina parámetro, mientras que la
medida de la muestra se denomina estadístico. En primer lugar, conside-
raremos el problema de calcular la media aritmética de una población
partiendo de la media de una muestra. A este procedimiento se le deno-
mina estimación puntual, ya que pretende proporcionar el valor (único)
más aproximado del parámetro. Por otra parte, la estimación por inter-
oalos procede a especificar un rango de valores. Así, después de probar
una muestra de varillas de acero, se puede hacer una estimación puntual
de que la resistencia promedio a la ruptura de esas variables es de 4 kg;
pero también se puede efectuar una estimación por intervalos y encontrar
que la resistencia promedio es algún valor comprendido entre 3 y 5 kilo-
gramos, como posteriormente se describirá con todo detalle.
1 "Población" y "Universo" se consideran generalmente como sinónimos. En el
tratamiento de los temas siguientes, se usará el término "población". Tanto uno
como otro término se refieren tanto a objetos inanimados corno a seres vivientes.

237
238 Introducción a la inferencia estadística

La información muestral Se puede utilizar con dos propósitos distin-


tos: para elaborar un reporte o para tomar decisiones. En el primer caso,
las estimaciones obtenidas de la muestra (ya sean estimaciones puntuales o
estimaciones por intervalo) se utilizan para proporcionar informaciones
a otras personas. Los datos de estadísticas gubernamentales, tales como
las de desempleo, son un ejemplo típico del uso de los datos de una muestra
con propósito de informar. La información obtenida a partir de una
muestra se puede utilizar, también en este contexto, con el objeto de
corroborar algún punto en discusión: tal es el caso del sociólogo que
presenta dicha información para ayudar a sacar alguna conclusión sobre
políticas de pleno empleo. Los intervalos de confianza se presentan en este
capítulo con el propósito de reportar la información obtenida de una
muestra y sacar conclusiones a partir de ella.
Por otra parte, la información muestral puede integrarse directamente
a un proceso de toma de decisiones. En el capítulo lOse describen las
pruebas de hipótesis, tanto como un medio para la toma de decisiones
como para informar sobre los resultados del muestreo. Más aún, la infor-
mación muestral puede combinarse con los juicios a priori de quien debe
tomar la decisión y también con las consecuencias económicas de diversos
cursos de acción, con objeto de identificar la mejor decisión. En los
capítulos 13 y 14 se pone a las muestras en este contexto de toma de
decisiones.

ERROR DE MUESTREO Y SESGO

Una muestra raramente produce la información necesaria para la


toma de decisiones reproduciendo exactamente las características de la po-
blación de la que proviene. A continuación se comentan algunos motivos
que explican la existencia de desviaciones de los resultados muestrales
con respecto a los valores (verdaderos) de la población.

Error en el muestreo
El error de muestreo es el error aleatorio que ocurre cuando tomamos
una muestra, en lugar de estudiar la población completa. Una muestra
es sólo. parcialmente representativa de la población de la cual se la toma
y cualesquiera dos muestras diferirán entre sí, ya que contendrán dife-
rentes elementos de la misma población.
Si se obtiene adecuadamente una muestra probabilística (ver más
adelante) se puede controlar y medir el error de muestreo. Este error
depende en parte del tipo de muestra elegido. Así, por ejemplo, una mues-
tra estratificada tiene generalmente un error más pequeño, y una muestra
por conglomerados un error mayor que una muestra aleatoria del mismo
tamaño, tal como se describe en el capítulo 12. El error también depende
del tamaño de la muestra -entre más pequeña sea, mayor será el error.
Pero el error de muestreo no incluye el efecto del sesgo, que debe ser
Error de muestreo y sesgo 139

minimizado en el diseño de la encuesta original. Tampoco se puede medir


en forma precisa el error de muestras no probabilísticas tales como mues-
tras por criterio o cuota (capítulo 12).
Tamaño de la muestra, Un error básico en el razonamiento esta-
dístico es llegar a una conclusión o generalización con base en una muestra
demasiado pequeña. Por ejemplo, una revista estadounidense reportó
que un grupo de maestros de Colorado había rendido una prueba de
historia y habían reprobado con un promedio de 67, indicando que, por lo
general, los maestros de Colorado estaban deficientes en historia. Un
oficial de la Asociación de Educadores de Colorado informó que sólo
cuatro maestros habían rendido la prueba, de los cuales tres habían obte-
nido un respetable promedio de 83 y el cuarto había sacado sólo 20, por
lo cual el promedio de los cuatro bajó a 67.
El caso extremo de usar una muestra demasiado pequeña es el de
generalizar en base a una muestra de un solo individuo, o citar sólo un
caso. En esa forma, un fabricante de máquinas de escribir hace la si-
guiente publicidad "Las pruebas realizadas por educadores sobresalientes
prueban que los estudiantes que utilizan máquinas de escribir obtienen
calificaciones hasta un 38% mejores." 0, "Todos los indios caminan en fila
india, por lo menos así lo hacía uno que vi." En general, el error de
muestreo se puede reducir aumentando el tamaño de la muestra. Puesto
que las muestras grandes son más costosas, un elemento clave del diseño
muestral es balancear- el costo de la muestra con el valor de la información
que proporcionará la misma. Los errores de muestreo se estudiarán am-
pliamente en los capítulos 9 al 12.

Se8f!o
El sesgo --ocasionado en forma consciente o inconsciente- es muy
común en el trabajo estadístico. Es fácil detectar el sesgo producido cons-
cientemente en una publicidad que cita estadísticas para "probar" la
superioridad de un producto dado, mientras que el competidor cita otras
estadísticas para "probar" la superioridad de su propio producto. Pero
muchos compiladores de estadísticas persiguen algún fin que les interesa.
Una asociación de joyeros cita cifras cuyo propósito es mostrar que los
matrimonios con anillos dobles han llegado a ser "una costumbre nacional
aceptada". Una organización de obreros dice que se debe revisar el cre-
ciente índice de precios al consumidor (ya que en él se basan los salarios)
debido a que no toma en cuenta todos los costos reales, mientras que
la asociación de patronos defiende el índice, diciendo que los componen-
tes del índice sobreestiman los costos reales. En realidad, deben conside-
rarse tanto la fuente de los datos como las conclusiones mismas.
El error ocasionado en forma inconsciente al escoger las muestras es
más difícil de detectar. Puede surgir en cualquiera de las tres formas
siguientes.
240 Introducción a la inferencia estadística

Sesgo en la forma de obtener la muestra. Si se toma la muestra


de manera que algunos de los elementos de la población nunca puedan se-
leccionarse, surgirá cierto sesgo. Un ejemplo clásico de este tipo de desvia-
ción se encuentra en la encuesta realizada en E.U.A., en 1936, por la revista
Literary Digest , la cual envió por correo 10 millones de cuestionarios al
público y recibió alrededor de 2.3 millones de respuestas. A base de esta
muestra, se predijo la victoria al candidato Alfred Landon en las próxi-
mas elecciones para presidente de los E.U.A. Sin embargo, Roosevelt fue
el que ganó, reuniendo alrededor de un 60% de los votos. La falla básica
en la muestra del Literary Digest fue que ésta se obtuvo del directorio
telefónico y del registro federal de automóviles, conceptos que corres-
ponden a grupos con altos ingresos, los que, por lo general, no sonrepre-
sentativos de la población formada por todos los votantes.
Otro ejemplo lo constituye un artículo que apareció en Advertising
Age, el cual se titulaba "Las cifras necrológicas muestran que el publi-
cista 'medio' muere a los 62 años", basadas en una lista de 300 publicistas
que murieron el año anterior. Tal vez la profesión de publicista hace que
los hombres mueran jóvenes, pero puede haber dos defectos en la muestra
utilizada: 1) Puesto que muchos jóvenes entraron al campo de la publi-
cidad en años recientes, los que murieron el año anterior eran relativa-
mente jóvenes; los sobrevivientes que vivirán hasta una edad más avan-
zada, por supuesto no se han contado. 2) Si la publicidad es para personas
jóvenes, tal como se dice, los hombres más maduros ingresan a otros
campos y se cuentan allí cuando mueren. Como analogía, la edad pro-
medio de muerte para estudiantes universitarios es cerca de 20 años, pero
esto no indica que los universitarios mueren jóvenes.
A veces, en las investigaciones de mercado, resulta casi imposible
eludir este tipo de sesgos. Por ejemplo, tomemos el caso de una empresa
que desea probar los efectos de una nueva campaña de. publicidad. Con
frecuencia y por razones de economía es factible seleccionar sólo una o
dos ciudades para ensayar el nuevo sistema. Si la ciudad elegida es Atlanta,
obviamente no podemos medir los efectos en Seatle.
Es necesario utilizar el buen criterio y el sentido común para selec-
cionar un área que resulte "representativa" del país como un todo. Las
experiencias anteriores en encuestas y en programas de publicidad simi-
lares pueden ser muy útiles como base para formar estos criterios.
Sesgo por falta de respuesta. En casi todas las encuestas existen
elementos incluidos en la muestra, para los cuales no se ha recabado nin-
guna información. Por ejemplo, hay personas que no devuelven el cues-
tionario que se les envió, o que le cierran la puerta en ·las narices al
entrevistador. Si se ignoran estos elementos de la muestra, se puede incurrir
en un sesgo considerable, ya que los que no han respondido pueden ser
totalmente diferentes a los que sí respondieron. Así- pues, una parte sig-
nificativa de la población puede ser ignorada, con los efectos que son
de imaginar. Por ejemplo, el periódico de los alumnos de una escuela de
administración de negocios reportó que el graduado promedio. en un año
Error de muestreo y sesgo 241

anterior ganaba recientemente 87,049 dólares. Esta cifra se basaba en


18 respuestas obtenidas a un cuestionario enviado a 62 miembros de la
clase de graduados. Desafortunadamente, el ingreso promedio no es típico
si una proporción grande de los que tienen mayores ingresos responden
al cuestionario, lo mismo que si lo hace una proporción grande de los que
tienen ingresos menores o si algunos exageran sus ingresos, como sucede
algunas veces. Aún más, si algunos alumnos tienen ingresos muy altos, esas
cifras inflarían bastante el promedio."
Debe intentarse por todos los medios reducir la falta de respuesta. Esto
se puede lograr en parte, durante la etapa de diseño de la encuesta, re-
dactando cuidadosamente y probando los cuestionarios y las instrucciones,
con las propias personas que realizarán la encuesta. El entrenamiento del
personal de entrevistadores también es útil para reducir la falta de res-
puesta y, finalmente, deben emplearse entrevistas adicionales, visitando
por segunda vez a los que se hayan mostrado renuentes a responder.
Sesgo en la medida. En una encuesta puede resultar un sesgo con-
siderable si el instrumento de medida (cuestionarios, entrevistas, procedi-
mientos de conteo, etcétera) no es preciso, es decir, si no mide lo que se
pretende. Tomemos por ejemplo el caso del entrevistador que encontró
que la mayoría de sus entrevistados respondieron que nunca habían soli-
citado préstamos de instituciones financieras, a pesar de que la lista de
elementos de la muestra había sido extraída precisamente de los archivos
de una de esas instituciones de crédito.
El sesgo en los cuestionarios puede' ocurrir en varias formas. Primero,
las palabras o el fraseo de una pregunta pueden sugerir cierta respuesta.
Un ejemplo es "¿Le saben mejor los chícharos congelados que los chicha-
ros enlatados o secos?" Esta es notablemente la "pregunta importante".
Sería mucho mejor listar los tres tipos de chícharos preparados y requerir
que el consumidor los numere en orden de preferencia. Un analista de
mercados reportó que aun un fraseo tan inocente como" "¿ Ya leyó usted
- - - - ? (la última novela)", obtuvo una proporción mayor de respues-
tas favorables que cuando a un grupo similar de personas se les preguntó
"¿ Por casualidad ha leído ? (la misma novela)".
En segundo lugar, las estimaciones que se basan en opiniones, en vez
de cifras reales pueden estar sesgadas. Suponga que usted" estaba ave-
riguando si un fabricante de drogas medicinales distribuía su producto
al detalle principalmente a través de cadenas de tiendas o en tiendas in-
dependientes. Los contactos directos del fabricante con compradores de
los detallistas de las cadenas de tiendas le pueden haber hecho suponer
que ellos eran sus principales clientes, mientras que un estudio de las
cifras de ventas podría mostrar lo contrario. Las preguntas deberían ser
objetivas en vez de subjetivas.

2 Este ejemplo ilustra varios abusos: 1) una muestra demasiado pequeña, 2)


una muestra que no es típica, 3) precisión espúrea, y 4-) utilización de la media
en ve?- de la mediana (véase el capí tulo 3).
242 Introducción a la inferencia estadística

Los que responden a un cuestionario pueden tener sesgos inconscientes


acerca de sus propias acciones o actitudes. Por esta razón, a veces es
mejor utilizar preguntas indirectas para obtener información. Así, en una
encuesta de preferencias del consumidor, se encontró que la pregunta
"¿ Qué piensa usted que podría desear su vecino en su próximo automóvil
(cromado, espacio, economía?) " produjo más respuestas sin sesgo que
"¿ Qué le gustaría a usted en su próximo automóvil?" El investigador
imparcial debe revisar tanto sus palabras como sus cifras para detectar
posibles sesgos.
La preparación cuidadosa del cuestionario puede reducir gran parte
de este tipo de sesgo. Además, es esencial realizar una prueba preliminar de
los resultados de la encuesta y una revisión posterior del "instrumento
de medida".
El control de estos tres últimos tipos de sesgo, que no Se deben al
muestreo, es de vital importancia para una investigación por medio de
encuestas. Será mejor tomar una muestra pequeña, relativamente exenta
de sesgos, que una mucho mayor con una desviación completamente des-
conocida. Un error común es el de suponer que una muestra mayor
logrará eliminar los sesgos como en la debacle del Literary Digest. Final-
mente, si se debe utilizar información sesgada, a falta de mejores datos,
se debe considerar la naturaleza y probable dirección del sesgo en la
interpretación de los resultados.
En el estudio de los errores de muestreo presentado en los capítulos
9 al 12 se supone que el sesgo se ha minimizado en el diseño de la muestra.
Aquellos que planean una encuesta original deberían estudiar algunos
de los libros especializados en la materia que Se listan al final del capí-
tulo 12, tanto para minimizar el sesgo como para estimar su dirección y
extensión. Hay demasiadas encuestas que se basan en algún segmento
conveniente de la población e incluyen cálculos de errores de muestreo,
pero no consideran --o .casi no lo hacen- el sesgo que puede sobrepasar
en mucho el error de muestreo.

MUESTREO ALEATORIO SIMPLE


Hay muchos métodos eficaces para seleccionar una muestra, los cuales
pueden utilizarse en diversas combinaciones. La muestra puede seleccio-
narse de la población total, o bien, de ciertas partes (clases, estratos, con-
glomerados) de la población. En cualquiera de esos casos, la muestra se
puede obtener al azar, o de acuerdo con el criterio de alguna persona, o
bien, por cualquier otro método. Los individuos seleccionados pueden
escogerse uno a uno, o bien en grupos o en bloques, como por ejemplo,
con los habitantes de algunas manzanas seleccionadas en una ciudad. Los
grupos pueden enumerarse en su totalidad, o pueden ser submuestreados,
seleccionando, por ejemplo, a los jefes de familia de cada tercer hogar
en una calle dada. Así, estos procedimientos proporcionan una gran va-
riedad de métodos para la selección de la muestra. Conviene distinguir
Muestreo aleatorio simple 243

entre las muestras probabilísticas y las demás. Una muestra probabilística


se toma de manera que los elementos de la población tengan una proba-
bilidad específica de ser incluidos en la muestra. Puede estimarse una
medida del error de muestreo para la mayoría de los muestreos probabi-
lísticos. Otros métodos se basan en el criterio de la persona que selecciona
la muestra, o en cualquier otro procedimiento que no sea al azar. Aun
cuando tales muestras pueden resultar muy útiles, no existe ningún medio
preciso para medir el error de muestreo en que se incurre.
Los conceptos básicos de inferencia estadística se aplicarán al muestreo
aleatorio simple en los capítulos 9 al 11. Aunque el muestreo aleatorio
simple no se utiliza frecuentemente en las investigaciones económicas.
comerciales e industriales, es importante conocerlo porque ilustra los prin-
cipios fundamentales de las técnicas de muestreo y constituye una parte
básica de otros tipos más complejos de selección de muestras, como los
que se describen posteriormente en el capítulo 12.
U na muestra aleatoria simple de n unidades se selecciona de una po-
blación, de tal manera que cada combinación de n unidades tenga igual
probabilidad de ser seleccionada. Así pues, al seleccionar mediante mues-
treo aleatorio simple una muestra de cinco cerrojos de un envío que se
ha recibido, cada combinación de 5 cerrojos debe tener la misma proba-
bilidad de ser seleccionada. Note que no se podrá seleccionar sólo los
cerrojos de ciertas cajas,como por ejemplo, si se muestreara en las cajas
de cerrojos que se encuentren en la parte superior del cargamento que
se ha recibido.
Este método se denomina muestreo aleatorio "irrestricto" debido a
que las unidades se seleccionan de la población total sin ninguna restric-
ción, mientras que procedimientos tales como la estratificación y el mues-
treo por conglomerados introducen ciertas restricciones (por ejemplo,
agrupar la población antes de seleccionar la muestra) que tienen por objeto
incrementar la precisión de la muestra o de reducir su costo.
Hay que tener en cuenta que muestreo aleatorio no significa una
selección fortuita. Al entrevistar a los peatones en la esquina de una calle
del centro de la ciudad, no se obtiene una muestra aleatoria de la pobla-
ción, ya que los individuos que suelen permanecer en su casa tienen menor
probabilidad de ser entrevistados que las personas que van de compras
al centro o que los hombres de negocios.
La selección aleatoria está determinada objetivamente por el equiva-
lente de algún juego de azar. Por ejemplo, se puede enumerar a los resi-
dentes de una manzana urbana del 1 al 72 y hacer girar diez veces una
ruleta, con el objeto de determinar cuáles son las diez personas que van
a ser entrevistadas. Sin embargo, este tipo de selección se efectúa, por
lo general,· en base a una tabla de números aleatorios. Tal tabla es tan
eficiente como un operador de juegos de azar y aún más conveniente. Al
construir este tipo de tablas se ordenan las cifras del O al 9 por un proce-
dimiento de aleatorización, de manera que cada número resulte inde-
pendiente de los demás. Como ejemplo de estos procedimientos tenemos
244 Introducción a la inferencia estadística

a la Corporación Rand, que programó una computadora electrónica para


producir los números aleatorios que están listados en su libro A Million
Random Digits. La tabla 9-1 que vemos a continuación es una sección
de otra de esas tablas. (Vea el Apéndice L, al final de este libro, si necesita
utilizar una tabla más extensa).

Cómo utilizar una tabla de números aleatorios


Para ilustrar el uso de esta tabla, suponga que usted desea seleccionar
una muestra aleatoria de seis familias de una manzana donde hay 78
hogares, como parte de una investigación de mercados para determinar
las preferencias por marcas de productos alimenticios congelados. En
primer lugar, se hará una lista de todas las casas y se las numerará del
01 al 78. En segundo lugar, Se seleccionará una página de una tabla de
números aleatorios y se escogerá el punto de partida en forma arbitraria"
por ejemplo, la treceava columna y quinto renglón de la tabla 9-1. Este
número es 43. En tercer lugar, se seguirá de ahí una dirección cualquiera
predeterminada, como por ejemplo, el resto de esa 'columna hacia abajo
y las columnas siguientes a la derecha, hasta haber seleccionado seis nú-
meros entre el 01 y el 78, sin repetir ninguno de ellos.
Empiece con el 43. El siguiente número hacia abajo 'es 93, pero éste no
es elegible porque es mayor que 78, por lo que se continúa con 74, 50, 07,
48, 86 (que tampoco es elegible por ser mayor que 78), 46 (se descarta
porque ya se le seleccionó) y 32, dando así un total de seis números
seleccionados. Entonces los números de las familias que se van a investigar,
son: 7, 32,43,46,50 y 74. Si existen exactamente 100 objetos en la pobla-
ción, lea el "00" como si fuera el 100. Si hay más de 100 objetos en la
población, combine las columnas adyacentes que sean necesarias hasta obte-
ner el tamaño deseado (más de dos dígitos). En ese caso, en la esquina
superior izquierda de la tabla 9-1, la columna empezará con 034, que se
puede usar para números con tres dígitos, o con el 0347, para números
de cuatro dígitos.

COMO SE DISTRIBUYEN LAS MEDIAS DE LAS MUESTRAS

Utilizar la media muestral para efectuar inferencias acerca de la media


de la población es un problema común en la inferencia estadística. Los
siguientes métodos son aplicables solamente a las medias de muestras
aleatorias simples. Posteriormente, se adaptarán a porcentajes y a otros
tipos de muestras. Por lo tanto, el término "media muestral" se referirá
en este capítulo a la media aritmética de una variable en una muestra
aleatoria simple.

3 Idealmente, el valor inicial debería ser seleccionado mediante un dispositivo


aleatorio. Sin embargo, en la práctica, se considera satisfactoria una elección arbi-
traria.
Cómo se distribuyen las medias 245

Tabla 9-1
NUMEROS ALEATORIOS

03 47 43 73 86 36 96 47 36 61 46 98 63 71 62
97 74 24 67 62 42 81 14 57 20 42 53 32 37 32
16 76 62 27 66 ., 56 50 26 71 07 32 90 79 78 53
12 56' 85 99 26 96 96 68 2731 05 03 72 93 15
55 59 56 35 64 38 54 82 46 22 31 62 43 09 90
16 22 77 94 39 49 54 43 54 82 17 37 93 23 78
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75
33 21 12 84 29 78 64 56 07 82 52 42 07 44 38
57 60 86 32 44 09 47 27 96 54 49 17 46 09 62
18 18 07 92 46 44 17 16 58 09 79 83 86 19 62
26 62 38 97 75 84 16 07 44 99 83 11 46 32 24
23 42 40 64 74 82 97 77 77 81 07 45 32 14 08
52 36 28 19 95 50 92 26 11 97 00 56 76 31 38
37 85 94 35 12 83 39 50 08 30 42 34 07 96 88
70 29 17 12 13 40 33 20 38 26 13 89 51 03 74
56 62 18 37 35 96 83 50 87 75 97 12, 25 93 47
99 49 57 22 77 88 42 95 45 72 16 64 36 16 00
16 08 15 04 72 33 27 14 34 09 45 59 34 68 49
31 16 93 32 43 50 27 89 87 19 20 15 37 00 49
FUENTE: R. A. Fisher y F. Yates, Statistical Tables [or Biological, Agricultural and Medical
Research (60 edición; Londres: Oliver & Bovd, 19(3), tabla XXXIII, Random Numbers (1).
Esta es una parte de otra tabla mucho más -extensa.

Se usarán los siguientes símbolos: Estimador Valor de la


muestral población
Media aritmética X
Desviación estándar s CT
Error estándar de la media .IX ox
~úmero de unidades n N

Si nos interesa estimar totales para una población, simplemente se mul-


tiplicará la estimación de la media y el error estándar de la media por
el número de unidades de la población. Así:

Estimador Valor de la
muestral población
Error estándar de la población total ... Sr = Ns: NCTx
Población total ,., .. T=N x NJk

Generalmente, las inferencias acerca de una población se hacen a partir


de una muestra única. Esta es sólo una muestra de entre un gran número de
muestras que se podrían haber seleccionado de la misma población. Es-
tudiando las variaciones de las medias de todas esas muestras posibles,
246 Introducción a la inferencia estadística

se puede inferir entre qué límites, probablemente quedará comprendida


nuestra media muestral, Las medias de todas las muestras posibles que se
pueden tomar de una población dada, se pueden agrupar en una distri-
bución de frecuencias que se denomina distribución de la media muestral.
La media y la desviación estándar de esta distribución permiten describir
el comportamiento de las medias de las muestras.

Un experimento
Para ilustrar la distribución de la media muestral cuando la población
es conocida, consideremos el siguiente experimento.
Un fabricante de equipo eléctrico recibe embarques de cojinetes que
adquiere a una industria de acero, y que utiliza en el armado de ventila-
dores eléctricos. Las especificaciones técnicas requieren que estos cojinetes
midan un cuarto de pulgada de diámetro, en promedio, y que ninguno
de ellos se aparte de las especificaciones más de un margen de tolerancia
especificado. Como no es factible medir cada uno de los cojinetes, es
necesario confiar en los resultados de una inspección por muestreo para
evitar la aceptación de embarques como elementos defectuosos.

Tabla 9-2
MUESTREO DE LOS DIAMETROS DE 565 COJINETES

Número de cojinetes en la . . .

Las cinco
Pobla- Primera Segunda Tercera Cuarta Quinta muestras
Diámetro· ción muestra muestra muestra muestra muestra combinadas
(1) (2) (3) (4) (5) (6) (7) (8)

-G 1 1 1 2
-5 4 1 2 3
-4 15 2 1 1 4
-3 38 2 1 1 4 3 11
-2 70 8 7 5 3 10 33
-1 97 9 7 12 7 11 46
O 115 12 11 11 10 6 50
1 97 9 11 10 8 7 45
2 70 5 4 6 9 4 28
3 38 1 5 1 4 4 15
4 15 4 2 3 2 11
5 4 1 1
6 1 1

Número de
cojinetes 565 50 50 50 50 50 250

Diámetro
promedio* O +0.14 +0.20 -0.18 +0.52 -0.42 +0.05
... Diferencia con respecto a la especificación técnica (de O.0250·de pulgada) en milésimas
de pulgada.
Cómo se distribuyen las medias 247

El supervisor de la inspección ha querido ilustrar los principios del


muestreo como parte del programa de entrenamiento de inspectores. Para
ello, seleccionó un embarque de 565 cojinetes como población y los midió
con calibradores automáticos. Los resultados de la medición se presentan
en la tabla 9-2, en las dos primeras columnas. Así, solamente uno de los
565 cojinetes tuvo una diferencia de 6 milésimas de pulgada con las espe-
cificaciones, 4 cojinetes tuvieron una diferencia de 5 milésimas y así suce-
sivamente. El promedio de todos los cojinetes (último renglón) fue exacta-
mente igual al de la especificación.
Se seleccionaron al azar muestras de 50 cojinetes del depósito que
contenía el embarque y se midieron sus diámetros. Después de seleccionar
50 cojinetes y medirlos, se regresaron al depósito, mezclándolos con los
demás, a fin de asegurar que la siguiente muestra provenga de la misma
población de la que se extrajo la primera muestra. En total, se tomaron
100 muestras de 50 cojinetes cada una.
Los resultados de las primeras cinco de las cien muestras, se presentan
en las columnas 3 a 7 de la tabla 9-2. Cada una de estas muestras difiere de
las demás y ninguna de ellas es una réplica exacta de la población. El
diámetro promedio de cada muestra se indica en el último renglón.
Las tres distribuciones. Es importante distinguir las tres distribu-
ciones ilustradas por este experimento, que se pueden observar en la figura
9-1. La primera es la distribución del diámetro de los cojinetes (X) en la
propia población: curva A. Las cifras se obtuvieron de la tabla 9-2, pri-
mera y segunda columnas, Las frecuencias se han dibujado como porcen-
tajes del total en el eje de las Y, para compararlas con la curva B. (La
curva hubiese resultado perfecta si los cojinetes se hubiesen medido exacta-
mente, en lugar de tomar una aproximación de 0.001 pulgadas.) Esta
población es normal y su media JL es igual a cero. Otras poblaciones
pueden ser asimétricas o aun irregulares.
La segunda es la distribución de los valores de X en una muestra
seleccionada de la misma población, tal como la cuarta muestra presentada
en la tabla 9-2, que se grafica en la curva B. La distribución de esta
muestra tiene una forma muy parecida a la de la población, pero es más
irregular, y su media (X) difiere de la media real (,p.) debido a errores
de muestreo. Al aumentar el tamaño de la muestra (por ejem.: tabla 9-2,
columna 8), la forma de la distribución muestral se aproxima cada vez
más a la forma de la distribución de la población. Tanto la media como
la desviación estándar de la muestra también se aproximan a los valores
respectivos en la población.
La tercera es la distribución en el muestreo de las 'medias (.X) de una
serie de muchas muestras (curva C) de tamaño n = 50, que pueden tomarse
de la misma población. Esta curva muestra la distribución de 100 medias
muestrales. Ha sido dibujada con un área menor que la de las otras curvas;
de no ser así hubiera resultado excesivamente alta. Las cinco medias de
muestras presentadas en el último renglón de la tabla 9-2 están dentro
del rango de la curva C. La media de esta distribución se aproxima mucho a
248 Introducción a lo inferencia estadistica

A. Distribuci6n d. valores
en la población

-6 -4 -2 o 2 6
¡.t

",
B. Distribución de valores
en una muestra
/
/ / "1'.. . . . . ~\
I \
1 : \
1 I \
~ . 1 : ~
/ <,1 , .............

--.1
/ : ' 1 '
/ I "
,,""'" ....I I II _
-6 -4 -2 O X 2 4 6
"'--Media muestral

C. Distribución de 100medias
muestrales (n=50)

-2 -1
1 2 ~'\
Media de 100muestras
Jl
Unidad: Diferencias del orden de milésimas de pulgada con respecto a las especificaciones
Fuente: Tabla 9-2 y datos correspondientes.
Figura 9~1
la media de la población y su dispersión o desviación estándar es mucho
menor que la de las curvas A o B. Si de la población se tomasen todas
las muestras posibles de 50 unidades, la distribución presentada en la curva
D sería mucho más regular (suave) y casi normal.
Al aumentar el tamaño de la muestra, la distribución de las medias
muestrales se hace aún más angosta y normal en su forma, como se ved,
más adelante. La figura 9-2 ilustra cómo las medias de muestras de una
población normal tienden a concentrarse más alrededor de la media de
DISTRIBUCIONES EN EL MUESTREO DE MEDrAS DE MUESTRAS
DE TAMA~O n = 4 Y n = 25, EN COMPARACION CON LA
DISTRIBUCION .DE UNA POBLACION NORMAL

I \.
I ,
I .,
I ,
, 1
I I
, I
ft:25 -----r ,

t
I
I
,
I I
I I
I I

1'Ii"4----...¡i.,·, "~X'\
• l
It , \
Poblaci6.n J' \,
l"".. n--........ . \~
."
"" l' \
. \\
';/~ \\:
~. I

" .~~.,'
/
'\
\ ."".
""
""'" #,. '
"'"...' . ......

Figura 9-2
.
población, a medida que aumenta el tamaño de la muestra. Las tres curvas
de la figura 9-2 tienen la misma área y todas SOn normales, pero difieren
en cuanto a su dispersión,
Conceptos importantes en el muestxeo, El experimento anterior
ilustra varios conceptos del muestreo que conviene comentar.
1. Cada una de las medias es aproximadamente (pero no exactamente)
igual a la media de la población. De las 100 muestras seleccionadas en el
estudio real (no reportado aquí en detalle), solamente 5 igualaron exacta-
mente a la población en su diámetro promedio; 53 muestras estuvieron por
encima y 42 por debajo de ese promedio.
2. Las medias de las muestras se agrupan mucho más cerca de la
media de la población que los valores originales (elementos de la pobla-
ción). Así pues, las medias que están en el último renglón de la tabla
varían solamente de -0.42 a +0.52, mientras que los diámetros (colum-
nas 1 y 2) varían de - 6 a + 6. Por tanto, la desviación estándar de las
medias muestrales es menor que la desviación estándar de los valores
originales.
250 Introducción a la inferencia estadística

3. Si se tomaran muestras mayores, sus medias se agruparían toda-


vía más cerca de la media de la población ya que los errores (positi-
vos y negativos) del muestreo, tienden a compensarse mutuamente. Esto
se ilustra al cambinar las 5 muestras antes presentadas, para obtener
la muestra de 250 unidades listadas en la columna 8. La media de
esta muestra mayor es de + 0.05, resultado mucho más aproximado al
valor de la media de la población (O) que cualquiera de las medias de
las 5 muestras de 50 unidades. El promedio general de las 100 medias
de las muestras resultó + 0.02, que es aún más parecido a la media de
la población.
Así pues, mientras mayor sea la muestra, mayor posibilidad habrá de
que su media se aproxime a la media de la población total y mayor será
la precisión de la media muestral, Se puede demostrar que si todas las
muestras posibles de un tamaño dado son tomadas de una misma pobla-
ción, el promedio aritmético de esas medias muestrales será igual a la
media de esa población.
4. La distribución de las medias muestrales sigue una curva normal.
Si de una población dada se toma al azar cierto número de muestras de
tamaño n, sus medias tenderán a formar una distribución normal, siempre
que: 1) el tamaño de la muestra sea grande 4 y 2) que la población no
sea demasiado asimétrica. Si la población. es irregular, entonces la distri-
bución de las medias de las muestras será mucho menos asimétrica en
proporción inversa al tamaño de la muestra. Así pues, para muestras de
tamaño 50, la distribución de las medias, será solamente 'lf¡o veces menos
asimétrica que la propia población 5 (en que n = 1).

Teorema del· límite central. Así pues, la media aritmética tiende


a distribuirse normalmente al aumentar n, sin importar casi la forma
de la población original. Este principio se denomina teorema del lími-
te central, Se aplica a la distribución de la mayoría de las estadísticas,
tales como la mediana y la desviación estándar (pero no a la ampli-
tud). El teorema del límite central da a la distribución normal la im-
portancia que ésta tiene en la teoría del muestreo, ya que muchos
problemas importantes pueden resolverse mediante este modelo de varia-
bilidad en el muestreo.
La distribución de las medias muestrales es normal °
casi normal,
de modo que se la puede describir completamente por su media y su
desviación estándar. Aún más, estos valores pueden estimarse a partir de
una sola muestra aleatoria, tal como se describe posteriormente en la
sección llamada "El error estándar de la media".

4 En muchos casos un tamaño de muestra de 3D elementos se considera satis-


factorio, pero no se puede dar una cifra exacta, porque depende en parte de la
distribución de la población.
5 Vea F. E. Croxton y D. J. Cowden, Applied General Statistics (2" edición,
Nueva York; Prentice-Hall, 1955), pág. 627.
Errorestándarde la media 251

La media muestral como estimador de la media real


Cuando se selecciona una estadística, tal como la media de una mues-
tra, para estimar el valor correspondiente del parámetro en la población,
generalmente se espera que satisfaga estos dos criterios:
l. La estadística deberá, en promedio, proporcionar la respuesta "co-
rrecta"; es decir, el valor real de la población. Por ejemplo, el promedio
de una distribución de todas las medias posibles de muestras de un tamaño
dado, es decir, su valor esperado debe ser igual al valor del promedio
en la población. De tal estimador se dice que es no sesgado. Las medias de
muestras aleatorias son estimadores no sesgados de la media real. Así
pues, en la tabla 9·2, el valor esperado es la media general de todas las
muestras posibles, cada una de ellas formada por 50 cojinetes. Su valor
es cero, igual que la media de la población. Por eso se dice que la media
de una muestra en particular, cualquiera que sea su valor, es un estimador
no sesgado de la media poblacional.
2. El segundo criterio afirma que la distribución muestral de una esta-
dística debe concentrarse tan cerca como sea posible del valor real del
parámetro en la población. De tal estadística se dice que es eficiente. Se
puede demostrar que en una población normal, la media muestral es un
estimador más eficiente del parámetro poblacional, que la mediana mues-
tral, ya que los valores de las medias de las muestras, se agrupan más
cerca del verdadero valor poblacional. En la figura 9-1, curva e, si se
grafica una distribución de las medianas de las muestras, ésta tendría una
dispersión mayor que la que allí xemos para la distribución de medias."
(Sin embargo, la mediana puede ser más eficaz para distribuciones con
colas extendidas y muy puntiagudas en su parte central, tal como se co-
mentó anteriormente en el capítulo 3).

EL ERROR ESTANDAR DE LA MEDIA

La desviación estándar de la distribución de las medias muestrales se


denomina error estándar de la media. (Se utiliza la palabra "error" en lugar
de "desviación" para destacar que la variabilidad entre las medias mues-
trales se debe a errores de muestreo.) El error estándar mide (inversa-
mente) la precisión de la estimación muestral, es decir, cuánto se aproxima
el valor muestral al valor de la población. (Sin embargo, el error estándar
no incluye errores de sesgo). A menor error estándar, mayor será la preci-
sión del estimador.' Cuando la población es muy grande en relación con
el tamaño de la muestra, la fórmula de error estándar de la media es

6 El error estándar de la mediana es 1.25 veces el error estándar de la media,


en una población normal.
t "Precisión" y "confiabilidad" son términos que se utilizan en estadística para
indicar con qué exactitud se puede representar mediante una muestra los resultados
que se podrían haber obtenido en caso de haber tomado un censo completo de la
252 Introducción a la inferencia estadística

(J"
(J"X=~

vn
en que (J" es la desviación estándar de X en la población y n es el tamaño
de la muestra.
Por lo tanto, en el ejemplo de los cojinetes, la desviación estándar de
la población (tabla 9-2, columna 2) es (unidad = 0.001 pulgadas) :

= j¡f(X - X) 2 = ",",/2,190 = 1.969 (unidades = 0.001")


"N "
(J"

565
Luego, para muestras de tamaño 50, el error estándar de la media es

(J" 1.969
ax = -= = ~ = 0.278
vn y50

y para muestras de tamaño de 250

1.969
crx = -= = 0.124
y' 250-

El error estándar de la distribución de medias muestrales varía en


forma directamente proporcional a la desviación estándar de la población
(J" e inversamente a .,¡;;: Aumentando el tamaño de la muestra, el error
estándar de la media se puede reducir a cualquier nivel deseado. Sin
embargo, esa reducción no es lineal: el tamaño de la muestra deberá
cuadruplicarse para reducir el error estándar a la mitad.

Cálculo del error estándar de la media cuando se desconoce


la desviación estándar de la pohlación
En la práctica, la desviación estándar de la población ((J") no es
conocida, pero se la puede estimar mediante la desviación estándar de
una muestra grande (5). Es decir, en lugar de crx = u/"¡;; se puede
decir que
5
sx = ---==-
y'n

población, utilizando los mismos métodos de medición, los mismos procedimientos


de entrevista, etcétera. La "exactitud" de una encuesta toma en cuenta tanto estos
errores de muestreo como los errores que no se deben al muestreo, y que provienen
de sesgos debidos a los métodos de medición, diseño de cuestionarios, etcétera, y que
afectarían tanto a la muestra como al propio censo de la población. Podemos medir
sólo la precisión, pero es la exactitud general la que pretendemos maximizar cuando
diseñamos una muestra.
Error estándar de la media 253

donde sx es el error estándar de la media, estimado a partir de una


muestra única y s es la desviación estándar de esa muestra."
ño Por lo tanto, para la primera muestra de la tabla 9-2, la desviación
estándar es:
:le
.../ ":i.J(X -
" n - 1
X)2
"49
_f 161
= 1.81

y el error estándar de la media es:

s 1.81
.);' = - - = - - = O 256
.1 y-:;;' Y50 . .

Esta estimación del error estándar de la media difiere en un ocho por


ciento de la ox es real de 0.278.
Para la muestra combinada de 250 cojinetes

~- - =
' 1 ,0 1 7
s = 2.021
249

y
2.021
sx = ~ = 0.127
y250

Para la muestra mayor, el error estándar estimado de la media, difiere


en un dos por ciento de la ox real de 0.124. Este ejemplo ilustra el prin-
cipio de que por lo general, el error estándar de la media puede estimarse
satisfactoriamente a partir de la desviación estándar de una sola muestra
(entre más grande mejor), cuando no se conoce la desviación estándar
de la población.
Efecto del tamaño de la población. Las fórmulas anteriores para
ox y S1' son correctas si la población es infinita o si la muestra se extrae
con reemplazo, lo que viene a ser la misma cosa. El muestreo con reem-
plazo, significa que una vez seleccionada una unidad, ésta se repone de
nuevo, integrándola a la población de manera que se la pueda tomar
otra vez. Estas fórmulas también son esencialmente correctas cuando la
muestra representa un pequeño porcentaje, digamos menos del 5% de

8 A veces se usa n en lugar de n - 1 en la fórmula para el cálculo de s, o

sea que s = =
VJ:.tx2/n . En tal caso, se usa la fórmula Sx slv n - 1 para lograr
el mismo resultado que con la fórmula anterior. Esto es así, porque combinando
ambas expresiones, Sx = V J:.tx 2jn (11 - 1) en cualquiera de los dos casos. (Se omite
t en cualquiera de las fórmulas, cuando se manejan datos no agrupados.)
254 Introducción a la inferencia estadística

una población finita. Hasta ahora, en el ejemplo de los cojinetes, se ha


considerado como si la población fuese infinita.
Cuando la muestra representa una gran proporción de la población
y el muestreo se realiza sin reemplazo, la expresión u/"¡;' debe multi-
plicarse por V (N - n) / (N - 1) ó, aproximadamente, por V
1 - n/N
donde n es el tamaño de la muestra y N el tamaño de la población. Es
decir que, en el caso de "poblaciones finitas,

n
N

El término 1 - nlN es la proporClon de la población que no se ha in-


cluido en la muestra. Este ajuste se denomina [actor de corrección para
poblaciones [mitas." Su introducción en la fórmula reduce el error es-
tándar.
'Por ejemplo, ya que cada muestra de 50 -cojinetes de la tabla 9-2,
columnas 3 a 7, se tornó sin reemplazo de la población de 565 cojinetes,
se debió tener que:

1.969 ~ 50
ex = - - 1- - = 0.278 X 0.955 = 0.265
V50 565

en lugar del resultado de 0.278 que se obtuvo en el muestreo con reem-


plazo.
Así pues, la precisión de la estimación muestral, medida por ux, está
determinada no solamente por el tamaño de la muestra, sino también
hasta cierto punto, por la proporción de la población que se ha mues-
treado. Incluso el sentido común nos dice que una muestra del 10%
parece mucho más confiable que una del 5%.
Sin embargo, en la mayoría de las investigaciones reales, la muestra
representa un porcentaje tan pequeño de la población que la fracción
a[N puede pasarse por alto y O:f es prácticamente igual au/ V-;;: De
aquí que la confiabilidad de una muestra dependa generalmente de su
tamaño y no del porcentaje de la población que se ha muestreado. Al
planear una investigación de mercado en una gran ciudad, deberemos
preguntarnos: "¿ Será suficiente una muestra de 1,000?" y no, "¿ Será
suficiente el 10% ?". El tamaño de la ciudad casi no cuenta a este res-
pecto.

9 Vea M. H. Hansen, W. N. Hurwitz y W. G. Madow, Sample Survey Me-


thods and Theory (Nueva York: John Wiley, 1953), Volumen 1, páginas 122-124;
y W. A. Wallis y H. V. Roberts, Statistics, A New Approacñ (Nueva York: The
Free Press, 195&), páginas 368-371. El factor de corrección para poblaciones
finitas también se llama factor para poblaciones finitas, multiplicador finito y
<orrección para muestreo finito. -
Error estándar de la media 255

¿ Cómo se utiliza (Ix?

El error estándar de la media, en el ejemplo que hemos venido si-


guiendo, es 0.265 milésimas de pulgada para las muestras de n = 50.
En dicho ejemplo, 0.265 es la desviación estándar de todas las medias
posibles de muestras de tamaño 50, y la distribución de las medias en
grandes muestras es normal; por lo tanto, podemos determinar qué pro-
porción de las medias de las muestras se encuentra en cierto intervalo
alrededor de la media de la población. En este caso, la media de la
población es conocida (,p. = O). Entonces un 68.27% de las medias mues-
trales, quedarán en un intervalo de un error estándar (ux) a cada lado
de la media de la población, es decir de + 0.265 a - 0.265. Como se
notó en el capítulo 6, esto significa que hay una probabilidad de aproxi-
madamente 0.68 de que la media de una sola muestra quede dentro del
intervalo JL -+- ax, o sea -+-0.265; lo mismo sucede para cualquier otro
nivel de probabilidad que se desee garantizar.
Estas cifras también indican que las medias de las muestras se con-
centran mucho más (alrededor de la media de la población) que los
diámetros de cada uno de los cojinetes por separado. Mientras que un
68% de las medias están dentro de un intervalo de amplitudux (o sea
0.265 milésimas de pulgada) de la media real, ese mismo porcentaje
de unidades particulares (68%) quedan dentro de un intervalo de am-
pli tud u (1.969 milésimas de pulgada) de la media real, lo que indica
que su dispersión es mucho maYOla.
Si la distribución de la población no es normal, las cifras anteriores
aún serán aproximadamente correctas para muestras de tamaño grélinde.
En un experimento realizado en la Universidad de California, Berkeley,
se sacaron unas 3,000 muestras aleatorias independientes, de 30 unidades
cada una (utilizando una tabla de números aleatorios), de una población
asimétrica, formada por 200 cifras de .salarios semanales, correspon-
dientes a un grupo de trabajadores y empleados del área de la Bahía de
San Francisco. Los valores de la población variaron de $17.50 a $116.91
semanales, con un promedio de $57.95. Para cada una de esas muestras
se calcularon la media aritmética, la desviación estándar y el error están-
dar de la media, estimado de la muestra SX, Después, surgió la duda:
¿ qué porcentaje de las 3,000 medias muestrales quedaría dentro de in-
tervalos formados por varios múltiplos del error estándar a ambos lados
de la media real JL de la población, de $57.95?
Los resultados fueron:
p.±SX JL ± 2sx JL ± 3sx
Esperanza teórica 68.27% 95.45% 99.73%
Resultados experimentales 68.4% 95.2 % 99.6 %

Esto indica que hay notable concordancia entre los hechos y la teoría,
a pesar del hecho de que: 1) el tamaño de la muestra fue de solamente
256 Introducción o la interencia estadístico

30 unidades, 2) la desviación estándar utilizada fue s en lugar del valor


real u, de la población, y 3) la población no estaba distribuida normal-
mente. Por tanto, la teoría dio buenos resultados en la práctica. Sin
embargo, para muestras más pequeñas (por ejemplo, cuando el tamaño
es menor de 30) , posiblemente se tendrían que ajustar los valores ante-
riores, siguiendo los criterios que se indican en el capítulo 11.
Los resultados correspondientes a cualquier otra probabilidad o in-
tervalo de la distribución de las medias muestrales se deja para el Apén-
dice B tal como se hizo en capítulos anteriores para valores particulares.
Por ejemplo, ¿ dentro de qué intervalo quedará el 95% de las medias
muestrales en el ejemplo de los cojinetes, con n = 50? El porcentaje
0.95 se va a tomar a ambos lados de la media de la población, por lo
tanto, debe buscarse la mitad de dicha cantidad, 0.475, para encontrar
en la tabla del Apéndice D la proporción que queda hacia un lado de
la media. El intervalo será + 1.96 ux o sea +0.519 milésimas de pulgada.
Es costumbre indicar las probabilidades en cifras redondas, tales como
95% ó 99%, de manera que las siguientes relaciones son importantes en
una distribución normal:

la media + 1.96u incluye el 95.0% del área,


la media + 2.58u incluye el 99.00/0- del área.

Estas cifras se utilizan con frecuencia en lugar de: la media +2 que


incluye el 95.45% del área, y la media +3 que incluye el 99.73'% del
área.
Cuando no se conoce la media de la población y se utiliza la media
muestral para estimarla, se puede decir que el 68% de las medias
muestrales estarán dentro de un intervalo de un error estándar a ambos
lados de la media real, dondequiera que ésta esté, y análogamente, para
otros intervalos. Sin embargo, en la siguiente sección se verá cómo esta
información acerca de la dispersión de las medias muestrales alrededor
de la media real (que no conocemos), puede ser útil para inducir estima-
ciones satisfactorias acerca de la media real.

INTERVALOS DE CONFIANZA

Con frecuencia es necesario estimar una media desconocida (o cual-


quier otro parámetro) de una población. Para ello, se necesita tanto el
valor de un estadístico de la muestra, como una medida del margen de
error al cual está sujeto este valor. Esto se realiza como sigue:
1. Se encuentran la media X y su error estándar (.IX + (s /"..¡ n)
(V n-n/N) a partir de una muestra grande tomada al azar, y se
utilizan como estimaciones puntuales de los valores de la población.
2. Se especifica una zona, con base en X y 51', dentro de la cual pueda
garantizarse que está la media de la población. Esta zona se deno-
Intervalos de confianza 257

mina intervalo de confianza. Los extremos de este intervalo se de-


nominan límites de confianza.
3. Se determina la probabilidad, digamos un 95% o un 99%, de que tal
zona incluya a la media de la población. Esta probabilidad se llama
coeficiente de confianza o nivel de confianza y debe determinarse de
antemano. Cada intervalo de confianza que pueda escogerse, tiene
asociada una probabilidad de incluir a la media de la población.
Entre mayor sea el intervalo, mayor será esa probabilidad. Así pues,
la zona X -f- 1.96ox representa un "intervalo del 95% de confianza".
Esta relación se basa en el hecho de que el 95% de todas las medias
de las muestras tienden a quedar dentro del 1.96ax de la media de
la población, siendo ox el error estándar real de la media. Análoga-
mente, la zona X ±2.58ox es un "intervalo del 99% de confianza".
Para encontrar la zona que corresponde a cualquier otro coeficiente
de confianza consulte el Apéndice D. La selección del coeficiente de
confianza más adecuado se presenta en la página 259

Por ejemplo- se- desea estimar el diámetro promedio de la población


de cojinetes de la tabla 9-2 -que se supone desconocido--, se tomará
la muestra N'! 1 (columna 3) Y se procederá como ya hemos indicado
anteriormente. (Todas las unidades están dadas en milésimas de pul-
gada.)

x = +0.14

~ 1-
n 1.81 50 1.81
- =- (0.955) = 0.244
565 7.07

Se utilizará este valor como un estimador del error estándar real de la


media OX, Ese error es todavía menor si se toman muestras mayores.
Ahora se calculará X -f- 1.96sx como un intervalo del 95% de con-
fianza para la media de la población:

x + 1.96s:x = 0.14 + 1.96 (0.244) = 0.14 + 0.48 = +0.62, y


X + 1.96s:x = 0.14 - 1.96 (.0.244) = 0.14 - 0.48 = -0.34

La mejor estimación puntual de la media de la población será pues


la media de la muestra, 0.14, pero esta estimación está sujeta a un mar-
gen de error, dado por los límites del 95% de confianza, que son +0.62
y -0.34. Para que se interprete correctamente esta proposición probabi-
lística, se necesita cierta explicación. Para cualquier muestra en particu-
lar, puede suceder que el intervalo de confianza .incluya a la media de
la población, o bien, que no la incluya, y ese hecho no lo sabemos
a priori. La probabilidad objetiva será de un 100%, o bien, de cero. En
este caso, el intervalo de confianza contiene a la media de la población,
258 Introducción a la inferencia estadística

ya que su valor (conocido) es O. Estrictamente hablando, esta afirmación


significa que si se toma una gran cantidad de muestras de tamaño n
y se calcula el intervalo de confianza de la media de cada una de esas
muestras, entonces, el 9S% de esos intervalos incluirán a la media de
la población.
Por otra parte, utilizando una interpretación subjetiva de la proba-
bilidad, se puede formular la proposición de que hay un 9S% de pro-
babilidad de que la media de la población quede dentro del intervalo de
confianza. En otras palabras, a base de la información obtenida de la
muestra, podría apostarse 19 a 1 que la media de la población está
dentro del intervalo de +0.62 a -0.34. La figura 9-3 presenta las medias
y los límites de confianza para esta muestra y para las otras cuatro
muestras de SO cojinetes cada una, listadas en la tabla 9-2.

#J
I

Muestra ,I, X
1 I I

X
4 1

-1.0 -.5 o .5 1.0


Milésimos de pulgada
Figura 9-3

Las medias y los intervalos varían, pero todos estos incluyen a la


media de la población, marcada con la línea punteada. Sin embargo, el
intervalo de confianza para una sexta muestra (no presentada en la
tabla 9-2) no incluye a la media real de la población. Entonces, de todos
los posibles intervalos de confianza, el 9S% de ellos incluirá a la media
de la población.
El intervalo de confianza alrededor de la media de una muestra puede
compararse con bolas arrojadas contra un blanco (la media de la pobla-
Intervalos de confianza 259

ción). Un 95% de las bolas tirarían el obstáculo. Si se utiliza una bola


más grande, digamos, un intervalo del 99% de confianza (X;- 2.58sz) ,
entonces el 99% de las bolas darían contra el obstáculo.
U n intervalo de confianza del 99% puede calcularse con la expresión
X ;- 2.58sx, y de igual modo para cualquier otro coeficiente de con-
fianza, utilizando la tabla de áreas bajo la curva normal. El intervalo
de confianza del 99% para la muestra N9 1 de cojinentes, será:

x;- 2.58sx = 0.14 + 2.58 (0.244) = 0.14 ± 0.63.

De aquí podemos decir, en términos subjetivos, que hay un 99% de posi-


bilidades de que la media de la población esté entre los límites de con-
fianza de -0.49 y +0.77.

¿Qué coeficiente de confianza debemos seleccionar?

Si aumentamos el valor del coeficiente de confianza, del 95% al 99%,


también aumentará el grado de seguridad de que el intervalo de con-
fianza contenga al valor de la media en la población, pero también será
menos precisa la estimación ya que el intervalo de confianza en sí se
habrá ampliado un 32% (calculado comparando 1.96 con 2.53 errores
estándar). Al decidir. cuál es el nivel de confianza que se utilizará, se
debe comprender que el objetivo principal del intervalo de confianza
es comunicar a los demás los resultados de la muestra. El intervalo de
confianza es una manera muy conveniente de expresar el error del mues-
treo, mediante un intervalo que posiblemente incluya a la media de la
población. Por lo tanto, el nivel de confianza elegido es a veces un poco
arbitrario. En particular, en las ciencias sociales se utiliza el nivel de
confianza del 95% y el de 99% en las ciencias naturales, ya que se nece-
cita una precisión mucho mayor. Sin embargo, deben elegirse otros ni-
veles cuando se pueda escoger entre las ventajas de una estimación precisa
y las desventajas de equivocarse y dejar fuera del intervalo al valor real
de la población.
Cualquier reporte económico o administrativo que se refiera a la
media (o a cualquier otra estadística) de una muestra probabilística
deberá incluir la con fiabilidad de este dato en términos de un intervalo
de confianza o de cualquier otro uso de ux como medida de error de
muestreo. Por ejemplo, en el informe mensual Monthly Report on the
Labor Force de la Oficina de Censos de los EE.UU., dice: "hay 19
posibilidades en 20 de que la diferencia entre la estimación y la cifra
que se podría haber obtenido de un censo completo sea menor que la
variabilidad de muestreo que se indica a continuación" (y sigue una
tabla que presenta varios tamaños de muestras y los correspondientes
intervalos del 95% de confianza). Una estadística con un gran error de
muestreo puede ser totalmente inútil; en todo caso, el error debe deter- .
260 Introducción a la inferencia estadística

minarse y reportarse a los usuarios de esa información, El reporte tam-


bién deberá indicar que esta medida de confiabilidad no se refiere al
efecto de sesgos no debidos a errores de muestreo (errores de diseño, de
cobertura incompleta, sesgos de los entrevistados, etc.) Estas desviaciones
deberán analizarse en términos cualitativos.

Errores en los intervalos de confianza

Los intervalos de confianza que se han descrito hasta ahora pueden


ser inexactos debido a que: 1) el error estándar estimado de la media
que se obtenga de una sola muestra no es igual al error estándar real en
la población, y 2) las medias de las muestras pueden no estar distribuidas
en forma de una normal. Estos errores suelen ser importantes en muestras
pequeñas, pero se vuelven insignificantes en muestras mayores. Por ejem-
plo, en el caso de los cojinetes, al aumentar el tamaño de muestra de
50 a 250, se reduce la discrepancia en el error estándar de la media,
del 8 al 2%.

PROPORCIONES

El estudio anterior sobre inferencia estadística se ha aplicado a la


media aritmética, la cual es una medida importante de cualquier variable.
Sin embargo, se debe notar que muchas medidas estadísticas diferentes
se pueden someter a un tipo similar de inferencia estadística -medianas,
desviaciones estándar-, y así sucesivamente. Los tres medios principales
de tal análisis son 1) la medida designada tal como se encuentra en la
muestra, 2) el error estándar de la medida en cuestión, y 3) la distribu-
ción muestral de la medida.
En esta sección aplicamos los principios de la inferencia estadística a
la proporción. Como se dijo anteriormente, una proporción representa
un atributo de una población en vez de un valor promedio de una va-
riable. La proporción podría ser la cantidad de piezas defectuosas que
hay en un lote de tornillos, la proporción de consumidores que planean
comprar televisión a colores, etcétera.
En el capítulo 3 se indicó que una proporción podría considerarse
como un caso especial de media aritmética en la que todos los valores
son ceros o unos. Nuestro estudio de la distribución muestral de las me-
dias se aplica en esa forma para la mayor parte de las proporciones. En
particular, la proporción muestral es una estimación no sesgada de la
proporción de la población. Es decir, si todas las posibles muestras alea-
torias de un tamaño dado se extrajeran de una población, la media de
las proporciones rnuestrales -o el valor esperado- sería igual a la pro-
porción de población. Usaremos los símbolos p" y p para denotar la
proporción de artículos en la muestra y la población. respectivamente, que
Proporciones 261

tengan una característica dada. En forma similar, q. y q denotan la


proporción de artículos que no tienen esa característica. Entonces,
q. = 1 - p. y q = 1- P

La distribución binomial y la distribución normal


La distribución muestral de una proporción (tal como la de la media)
es la distribución de sus valores que podrían obtenerse de todas las posi-
bles muestras aleatorias de tamaño n que pudieran tomarse de una po-
blación. Las proporciones muestrales siguen la distribución binomial/O
aunque para muestras más grandes (por ejemplo, cuando np y nq son
mayores que 5) se puede utilizar la aproximación normal, tal como se
describe en el capítulo 6.
Para fijar intervalos de confianza podemos utilizar una tabla bino-
mial, tal como en el Apéndice F o G para muestras cuyo tamaño no sea
mayor que 25. Por ejemplo, suponga que deseamos probar una carta de
ventas enviándola a 20 hogares seleccionados al azar de una lista de correo.
Recibimos cinco respuestas, una proporción de .25. ¿ Qué proporción
de respuestas se debe esperar de la lista completa con límites de con-
fianza del 95%? El resultado muestral puede producir O, 1, 2, ... éxitos
o las proporciones equivalentes de O, .05, .10, .. , En el Apéndice F con
n = 20, P = .25, los valores de r = 2 a 9 incluyen una probabilidad de
.962 [con P(r5, 1) = .024 y P(r ~ 10) = .014] que es el valor más próxi-
mo a .95 que podemos encontrar. Por lo tanto, los límites de confianza son
de aproximadamente entre 2 y 9 respuestas por cada 20 cartas enviadas,
o sea que se debe esperar entre un 10 y un 45% de respuestas al número
total de cartas enviadas. Sin embargo, la inferencia estadística basada
en la distribución binomial implica dificultades técnicas complejas, tales
como las que surgen del hecho de que la distribución se aplique a valores
discretos y a la asimetría de los intervalos de confianza. Además, es difícil
hacer una inferencia válida basada en una sola muestra pequeña (cuando
no se puede utilizar la aproximación normal), sin considerar también
información anterior. Mostraremos cómo combinar información anterior
y datos distribuidos binomialmente para la toma de decisiones. Por lo
tanto, en el presente capítulo nos limitaremos al estudio de muestras
grandes (donde np y nq son mayores que 5), de manera que se puede
suponer que la distribución es casi normal. Así se simplifica el análisis y
los conceptos desarrollados para la media se pueden extender y aplicar
directamente a la proporción.

El error estándar de una proporción


El error estándar de una proporción muestra! es la desviación están-
dar de las P. en todas las muestras del mismo tamaño que podrían tomarse
10 Esto es verdadero cuando la población es muy grande o se hace muestreo
con reemplazo. El lector debe repasar el capítulo 6 en la parte de la distribución
binomial y su aproximación normal antes de proseguir.
262 Introducción a la inferencia estadística

de una población. Como en el caso de la media, el error estándar de


una proporción es igual a la desviación estándar de la población dividida
entre la raíz cuadrada del tamaño de la muestra. Sin embargo, en el caso
de la proporción la desviación estándar de la población es o = Vpq. Por
lo tanto, el error de una proporción muestral es:

Por ejemplo, SI n = 100 Y P = 0.20:

_ ~. 0.20 X 0.80 0.40


erp - = -- = 0.04 ó 4%
• 100 10

Corrección por población finita. Como en el caso de la media, el


error estándar de una proporción depende más del valor absoluto del
tamaño de la muestra n que de su relación al tamaño de la población n iN,
Sin embargo, si la muestra es una gran parte de' la población se aplica la
misma corrección por población finita como en el caso de la media. La
fórmula es entonces:
. n
~1 N

Así, si toda la población en el ejemplo anterior tenía un tamaño de sólo


N = 500, tendríamos

~
· 0 . 2 0 X 0.80 100
er
p.
= 100 ~l 500
= 0.04 X 0.9 = 0.036 ó 3.6%

El intervalo de confianza para una proporción

Suponga que la gerencia de una gran cadena de mercados está inte-


resada en estimar qué proporción de sus clientes prefiere que la carne
esté en una vitrina de autoservicio en vez de que la despache un carnicero.
El departamento de investigaciones de mercado es el elegido para
realizar el estudio pertinente.
Se toma una muestra aleatoria de 400 clientes, y resulta que 220, o
sea 55%, están en favor del autoservicio. Es muy poco probable que la
población constituida por las preferencias de todos los consumidores se
divida exactamente en esa proporción. Entonces, ¿ cómo se puede estimar
el intervalo en el cual quedará la verdadera proporción con un grado de
confianza del 95%, por ejemplo? Los principios analíticos son los mismos
¿Cuál debe ser el tamaño de una muestra? 263

que se usan para establecer intervalos de confianza para la media arit-


mética. Para ajustarse al caso presente, sólo se modifican las medidas.
Como se dijo hace un momento, para calcular el error estándar de
una proporción se requiere, idealmente, el valor de la población p. Ese
valor no se conoce, de otro modo, no se tendría el problema de estimar
el intervalo dentro del cual queda. La práctica común es suponer que p
tiene el valor de ps encontrado en la muestra y hacer la correspondiente
sustitución. Por lo tanto, el error estándar estimado de la proporción
muestral es: 11

.... / pSnqs
s" = "

j 0.55 X 0.45

" 400
= 0.0249 (redondeado a 0.025)

Utilizando la distribución normal (puesto que np; es bastante mayor


que 5), el intervalo de confianza del 95% es P. -te 1.96s" o cerca de dos
errores estándar a caja lado de 0.55. Por lo tanto, tenemos una confianza
del 95% de que la verdadera proporción de clientes que favorecen el
autoservicio de carne está entre 50 y 60%.
Como en el caso de la media aritmética, y por las mismas razones gene·
rales, estableceríamos intervalos de varios grados de confianza, basados en
los múltiplos apropiados "del error estándar de la proporción, respecto al
valor de Ps observado en la muestra.

¿CUAL DEBE SER EL TAMA~O DE UNA MUESTRA?

Al planear una investigación con encuestas por muestreo, ¿ será nece-


sario sacar 100 elementos?, ¿ 1,000 ?, ¿ o todos los que se pueda? La res-
puesta dependerá principalmente de dos factores: 1) el valor económico
de la información contenida en la muestra, y 2) el costo del muestreo. El
valor de la información de la muestra y el costo del muestreo aumentan
junto con el tamaño de la muestra. El tamaño óptimo de la muestra es
aquél que equilibra el costo y el valor de la información de esa muestra.
La determinación del tamaño óptimo de la muestra se presentará en el
capítulo 14. En esta sección se estudiarán dos cuestiones afines: 1) ¿ qué
tamaño de muestra será necesario para obtener un cierto grado de preci-
sión en la estimación? 2) ¿ cómo equilibrar el costo y la precisión de la
muestra?

11 La fórmula mostrada es la que se usa universalmente, aunque es sesgada.


Un estimar no sesgado debería tener n - 1 en el denominador en vez de n, Sin
embargo, para muestras grandes la diferencia es 'trivial. Véase W. Cochran,
Sarn pling Techniques (2' ed.; Nueva York; John Wiley, 1963), pág. 33.
· 264 Introducción a la inferencia estadistica

La media
La relación entre la precisión de la media muestral y el tamaño
de la muestra es
U
ux =--=
vn
para simplificar, se hace caso omiso de la conexion por población finita.
Para estimar el tamaño de n, se siguen tres etapas:
1. Determinar qué tan pequeño debe ser el error estándar de la media crx,
para obtener la precisión deseada. La precisión dependerá del uso que
se quiera dar a los datos.
2. Tomar una muestra aleatoria de cualquier tamaño conveniente y calcu-
lar la desviación estándar de esa muestra como un estimador de u, la
desviación estándar de la población.
3. Sustituir en la ecuación anterior tanto el valor deseado de crx como
la u estimada en la muestra, y de ahí despejan el valor de n. El tamaño
de muestra resultante dará la precisión deseada. Si de acuerdo con ese
valor de n se toma una muestra más grande, se puede usar su desviación
estándar como una estimación revisada dee y, Eor lo tanto, de crx.
El tamaño de la población puede pasarse por alto generalmente como
ya hemos comentado. Sin embargo, si la muestra representa más del 5%
de la población, deberá aplicarse a esa fórmula la corrección para pobla-
ciones finitas.
Por ejemplo, suponga que se desea estimar la media de la población
de los diámetros de los cojinetes dentro de un límite de 0.3, milésimas de
pulgada y con un nivel de confianza del 99% (es decir que 2.58crx = 0.3
milésimas). Tome una muestra de tamaño conveniente y calcule s como
una estimación de u. Por ejemplo, si se toma la muestra número 1 de la
tabla 9-2, se tiene que n = 50 Y s = 1.81. Primeramente se determinará
crx, así:
2.58crx = 0.3 o sea
0.3
O'Y
.,
=- - = 0.116.
2.58

Ahora, sustituya estos valores en la ecuación crx= 0'/ v--:;;' para despejar
el valor de n:
1.81
O.116 = -:::::-
vn
Despejando

vn~ =~=
1.81
0.116
15.6
¿Cuáldebe ser el tamaño de una muestra? 265

Elevando al cuadrado ambos miembros, se tiene:

n = (15.6) 2 = Z44.
Por lo tanto, se deberá tomar una muestra de 244 cojinetes (incluyen-
do los 50 originales). En realidad, en este ejemplo no sería necesario un
tamaño de muestra tan grande, ya que 244 unidades representan una parte
significativa de la población total de 565 piezas, y se debe utilizar la correc-
ción para poblaciones finitas. Si por el contrario la muestra se extrae de
una población muy grande, podemos omitir esa corrección.
El costo de una investigación incluye un factor constante (gastos fijos,
diseño del proyecto, etcétera) y un factor variable (un tanto por unidad
muestreada). Suponga que cuesta $300 diseñar la inspección de los coji-
netes y $1.00 por cada medición que se efectúe, Por lo tanto, el costo C(n)
total, será:
C(n) = 300 + In

El funcionario responsable podrá comparar el costo con la precisión del


resultado de la muestra para varios tamaños posibles de muestra, a fin de
seleccionar el más conveniente. Así, en este ejemplo:

n s-v*
x Costo

50 o 0.256 $350
250 o o' '0' •••• ·Q127 $550
* En milésimas de pulgada.

El costo aumenta en forma directamente proporcional al tamaño de la


muestra y la confiabilidad sólo aumenta en forma proporcional a la raíz
cuadrada del tamaño de la muestra. De ahí, que éste sea un caso de ren-
dimientos decrecientes y, por lo tanto, existirá algún punto en que un
ligero aumento de la con fiabilidad no justificará el costo adicional en que
se incurre al aumentar el tamaño del muestreo.
La confiabilidad y el costo de una investigación dependen no solamente
del tamaño de la muestra, sino también del plan de muestreo en sí. Los
diseños más importantes se tratarán en el capítulo 12. Por ejemplo, en
lugar de tomar una sola muestra aleatoria, la confiabilidad de una muestra
de tamaño dado Se puede aumentar mediante un muestreo estratificado,
o se puede reducir el costo por unidad mediante un muestreo por conglo-
merados.

Proporciones
Para reducir el error estándar a cualquier nivel deseado, se puede calcu-
lar el tamaño de una muestra aleatoria simple necesario para una propor-
ción, en la misma forma en que se estimó para la media. Suponga que se
266 Introducción a la inferencia estadística

desea determinar la proporción de clientes que prefieren autoservicio en el


ejemplo del mercado con un error estándar de muestra de sólo 0.02, o sea
<los puntos porcentuales. Esto corresponde a los límites de confianza del
95% de P'. -1- 1.96(0.02) o p. -1- 0.04. Del resultado de la encuesta de
prueba citada anteriormente, p es tentativamente 0.55. Entonces despeje.
mos n de la ecuación sP. "" V (P.q.) In, Como sigue:

0.02 = ~ 0.55 : 0.45


Despejando,

'¡-n· __ VO.55 X 0.45 0.4975


v ---::-::--- = --- = 24.9
0.02 0.02

Elevando al cuadrado,

n = 620

Para obtener un valor de P. que tenga un error estándar de sólo 0.02,


es necesario muestrear cerca de 620 olientes (o sea, 220 adicionales a los
previamente muestreados). El aumento de precisión con muestras más
grandesse puede balancear con el aumento en el costo, como en el caso
anterior de la media.

Obtención de varias muestras


En vez de fijar el tamaño de una muestra única de antemano, podemos
tomar varias muestras pequeñas. Por ejemplo, si un comprador inspecciona
una canasta de manzanas en el mercado, puede encontrar perfectas todas
las manzanas visibles y comprar la canasta, o notar que hay varias manza-
nas podridas y no hacer la compra. Pero si sólo se tiene duda en cuanto a
una o dos manzanas, se puede probar más antes de decidirse. Esta noción
de sentido común se apoya en la teoría del muestreo. O sea que, si una
muestra pequeña proporciona resultados muy buenos o muy malos, se
puede tomar una decisión inmediatamente, y sólo en los casos indecisos es
necesario tomar más muestras.
El muestreo de aceptación es un procedimiento para muestrear un
conjunto de artículos, para determinar si se aceptan o se rechazan conforme
a ciertos estándares. Tal vez, un comprador desee muestrear la calidad
de un embarque de mercancías recibidas, o un fabricante puede someter
a prueba su producción, para efectuar el muestreo de aceptación en varias
etapas de su proceso de producción. El muestreo de aceptación incluye el
muestreo simple, el muestreo doble, y el muestreo secuencial.
El plan de muestreo simple especifica el tamaño de la muestra y el
número de unidades defectuosas que debe haber en la muestra para que
se rechace el lote completo. Este procedimiento se describió anteriormente.
Resumen 267

En el plan de muestreo doble se puede tomar una muestra más pequeña


para empezar. Si contiene un número especificado Cl, o menor, de unida-
des defectuosas, se acepta el lote inmediatamente; si contiene más de z¿
un número mayor, se rechaza el lote. Sin embargo, en el caso intermedio
se toma una muestra mayor. Entonces, si el número combinado de artículos
defectuosos en las dos muestras es C2, o menos, se acepta el lote; de otro
modo, se rechaza. El muestreo doble es preferible al simple porque reduce
la cantidad total de inspección en lotes muy malos o muy buenos que se
pueden verificar prontamente con la primera muestra con una probabilidad
cor.ocida de error. También tiene la ventaja psicológica de dar una segunda
oportunidad a un lote tentativamente rechazado. Sin embargo, cuando se
necesitan muchas segundas muestras, el muestreo doble puede ser más com-
plicado y caro que el muestreo simple.
En el muestreo secuencial, el tamaño de la muestra no se determina
de antemano. En vez de eso, se toma una decisión después de cada obser-
vación o serie de observaciones para 1) aceptar, 2) rechazar, o 3) posponer
la decisión y continuar muestreando hasta llegar a una decisión. En el
caso de lotes muy buenos o muy malos los métodos secuenciales permiten
tomar decisiones con base en menos observaciones que otros planes, pero
el procedimiento puede ser complejo.
El muestreo secuencial se utiliza también en el control de calidad esta-
dístico, en el cual se toman en secuencia muestras de sólo cuatro o cinco
artículos durante un proceso de fabricación y las medias aritméticas de
alguna medición se grafican en un diagrama. Así, si la media queda fuera
de los límites de tolerancia, se puedo parar inmediatamente la máquina y
corregir antes de que produzca más artículos defectuosos. Este proceso se
ilustra en el capítulo 10.

RESUMEN

La inferencia estadística es el proceso de obtener generalizaciones o


hacer predicciones acerca de un valor de la población o parámetro basadas
en un valor muestral o estadístico. Este puede ser un valor único o estima-
ción puntual, o bien un conjunto de valores, es decir, una estimación por
intervalos. El proceso se describe en primer lugar para la media de una
muestra aleatoria simple. Si de una población se sacaran todas las posibles
medias de muestras grandes, la distribución de estas medias en el muestreo
tendería a seguir una curva normal. La proporción de unidades que quedan
comprendidas dentro de determinada área bajo la curva normal, puede
determinarse mediante el Apéndice D. Esta proporción representa la fre-
cuencia relativa o la probabilidad de que una sola unidad o elemento (por
ejemplo, la media de una muestra) quede dentro de ese intervalo.
Se presenta un experimento para ilustrar la forma en que las medias
muestrales se agrupan alrededor de la media de la población, siendo mayor
la concentración y, por lo tanto, mayor la precisión, cuanto mayor sea el
268 Introducción a la inferencia estadística

tamaño de la muestra. La distribución de las medias muestrales debe dis-


tinguirse claramente de la distribución de valores particulares en la pobla-
ción o de la distribución análoga de valores en la propia muestra (figura
9-1 ). La distribución de las medias muestrales tiende a formar una curva
normal a medida que aumenta el tamaño de n, cualquiera que sea el tipo
de población; esto se denomina el teorema del límite central.
Se dice que la media de una muestra es un estimador no sesgado de la
media de la población, porque su valor esperado coincide con la media
de población. También se dice que la media de una muestra es un esti-
mador eficiente, porque generalmente su distribución en el muestreo se
concentra más alrededor del valor correspondiente de la población que,
por ejemplo, la distribución de las medianas.
El error estándar de la media (es decir la desviación estándar de
la distribución de todas las posibles medias de las muestras), mide la preci-
sión de la estimación obtenida de la muestra. Está relacionada con
la desviación estándar de la población y COn el tamaño de la muestra en la
forma siguiente: ux = u / 'oÍ n. Sin embargo, nor lo general no se conoce
la, desviación estándar (T de la población, de modo que el error estándar
de la media se podrá estimar a partir de la desviación estándar de una
sola muestra grande, según la fórmula sx = s /....r;;. Esta expresión deberá
multiplicarse por V 1- n [N; término que se denomina factor de correc-
ción para poblaciones finitas, si el tamaño de la muestra (n) es mayor del
5% del tamaño de la población (N).
Las medias de las muestras se distribuyen normalmente, por lo que
hay un 68% de probabilidades de que la media de una sola muestra quede
comprendida dentro del intervalo JL +- ux. La probabilidad correspondiente
a cualquier otro intervalo se puede determinar consultando el Apéndice D.
Además, se puede calcular que la media de la población quedará den-
tro de cierto intervalo de confianza basado en la media de una__muestra,
así corno en su desviación estándar, con una probabilidad determinada de
acertar, por ejemplo de un 95% -o un 99%. Así pues, X +- 1.96 OT es el
intervalo de confianza del 95% para la media. Es decir, si afirmamos que
la media de la población está comprendida dentro de esta zona, tendremos
un 95% de probabilidad de estar en lo correcto. Podemos aumentar el
coeficiente de confianza -por ejemplo al 99%- pero sólo afrontando
el riesgo de disminuir la precisión de la estimación al ampliar el intervalo
de confianza. El hacerlo o no, dependerá del tipo de problema que estemos
manejando. En cualquier caso, el intervalo y el coeficiente de confianza,
deberán informarse junto con los resultados de la encuesta.
Se pueden realizar inferencias acerca de las proporciones muestrales
en forma muysimilar ala que se hace respecto a las medias. De hecho, se
puede considerar que una proporción es un caso especial de media en el
cual los atributos, tales como defectuoso o no defectuoso, se valoran 1 y O
respectivamente, y se promedian para encontrar el porcentaje de artículos
defectuosos.
Resumen 269

El error estándar de una proporclOn esCTP. = V (pq'J In, donde p es


la proporción de población y q = 1 - p. Se estima que 5 p• = ..j (P.q.) In
cuando se utilizan valores muestrales.
La distribución muestral de p. sigue una distribución binomial, pero
para muestras grandes (por ejemplo, cuando np y nq son mayores que 5)
la distribución es aproximadamente normal, de manera que supusimos
que habría normalidad de aquí en adelante, porque es válida para la
mayoría de los problemas prácticos y porque es más fácil de utilizar que
la distribución binomial.
Se puede establecer un intervalo de confianza del 95% alrededor de la
proporción muestral (es decir, p. -f- 1.9651'.) para incluir a p, la propor-
ción de población, con una probabilidad de 95% de que sea correcta. En
forma similar se pueden establecer otros grados de confianza.
Al estimar la media puede determinarse el tamaño de muestra si se
despeja n de la ecuación: v}{ = (J'! y;;:En esta expresión ux mide la preci-
sión deseada y (J' se estima a partir de una muestra preliminar o experi-
mental, Ya que la precisión aumenta junto con ..¡;; y el costo del muestreo
aumenta conforme a n, la precisión y el costo deberán contrastarse para
diversos tamaños de muestra, como un medio auxiliar para determinar el
tamaño de muestra más conveniente. En forma similar, para una propor-
ción, el tamaño de muestra necesario para reducir el error estándar 51'.' a
cualquier valor deseado se puede obtener despejando n de la fórmula
sI', = V (pq) In, utilizando un valor estimado de p. La cuestión del tamaño
óptimo de muestra se estudia más ampliamente en el capítulo 14.
En vez de una sola muestra, se pueden utilizar dos o más muestras pe-
queñas, como en el muestreo de aceptación. Este procedimiento tiene la
ventaja de indicar rápidamente la decisión de aceptar o rechazar un em-
barque, o un conjunto de artículos, en el caso de que la calidad sea muy
buena o muy mala. Sólo en el caso de que la calidad sea regular se requiere
muestreo adicional.

PROBLEMAS

1. Explique los siguientes conceptos:


a) Sesgo y error de muestreo.
b) Distribución muestral de la media.
e) Teorema del límite central.
d) Error estándar de la media.
e) Intervalo de confianza para la media.

2. Explique:
a) Cómo minimizar el sesgo en el muestreo.
b) El concepto de proporción como un caso especial de la media.
e) La relación existente entre la distribución de proporciones y la distribución
normal.
d) El intervalo de confianza del 90% para una proporción.
270 Introducción a la inferencia estadistica

3. Usted es empleado de una fábrica que acaba de recibir un embarque de


hojas de tablilla de aislamiento de Ya de pulgada, las cuales se utilizan
fabricación de transformadores de potencia. Debe revisar los espesores
muestra aleatoria de esas tablillas, utilizando un micrómetro de O a 1
El espesor es la principal característica que afecta la calidad de la
en consecuencia, la calidad del transformador. Las medidas reales de
80 hojas se muestran a continuación. Las hojas están numeradas de 01 a
leyendo hacia abajo en las columnas como se indica en los encabezados
mismas.
a) Tome una muestra aleatoria de cinco hojas, utilizando los números aleatorios
de dos dígitos de la tabla 9-1 siguiendo el procedimiento descrito
texto. Por ejemplo, si el primer número seleccionado al azar es 43
columna 8), seleccione la hoja 43 con espesor 125; luego prosiga en
quier dirección en la tabla 9-1, descartando los duplicados y números
res que 80.

ESPESOR DE 80 HOJAS TABLILLA DE AISLAMIENTO


DE
DE Ya
DE. PULGADA
(En milésimas de pulgada)

01- 11- 21- 31- 41- 51- 61- 71-


10 20 30 40 50 60 70 80
- -~~-"-~-'

123 125 128 125 125 124 126 124


122 J.23 127 121 125 125 125 123
125 125 125 122 125 124- 127 123
122 128 125 123 125 123 125 124
127 124 125 124· 124 125 127 125
123 123 124 121 125 126 119 124-
127 124 124- 123 127 122 125 128
121 123 123 121 119 127 125 125
125 124- 128 119 125 125 124- 127
122 123 128 124- 118 127 125 123

b) ¿ Cuál es el espesor medio en su muestra? Este es un estimador no


de la media de todo el embarque. Puesto que la media de todo el embarque
es 124.24 milésimas de pulgada, ¿ cuál es el error muestral?
e) Encuentre el error estándar de la media muestral,
d) Probablemente usted puede hacer una estimación más aproximada
espesor medio de todo el embarque muestreando más hojas. Por lo
continúe su muestreo hasta añadir 5 hojas, o sea un total de 10, utilizando
el mismo método anterior.
e) ¿Cuál es el espesor medio de su muestra más grande de 10 hojas?
es su error?
f) En promedio, ¿ cuanto más esperaría usted reducir el error de la
muestral al tomar una muestra de 10 en vez de 5 hojas? (Haga
omiso de la corrección pOT población finita.)

El gerente de una revista semanal desea desarrollar cifras de circulación ga-


rantizadas para utilizarlas al solicitar publicidad. Un estudio de las copiaS
vendidas cada semana durante los últimos años no revela tendencias actlsa-
o movimientos estacionales ~ más bien las cifras de circulación tienden
distribución bastante normal. Durante ese período la
circulación media fue de 556,000 y
8,000 ejemplares.
a) Si garantiza la venta de por lo menos 552,000
de la semana siguiente, ¿ qué probabilidad tiene de no
b) ¿ Cuántos ejemplares de la siguiente edición imprimiría
que haya una probabilidad de más de uno en mil de no
suficientes?
el ¿ Qué promedio o cifra de circulación media le daría el 99% de seguridad
de garantizarla para un posible contrato de publicidad durante el siguiente
año (52 semanas)? Compare este resultado con el del inciso (a) anterior.

a) Cuando se ajusta una máquina ésta produce partes cuyo diámetro está
normalmente distribuido; el diámetro medio es de 0.300 de pulgada y hay
una desviación estándar de .04·0 de pulgada. Si la máquina está ajustada,
¿ cuál es la probabilidad de que el valor medio de una muestra aleatoria
de cuatro partes sea de entre 0.290 y 0.304 de pulgada?
b) ¿ Qué sucede con el error estándar de la media si se aumenta el tamaño
de la muestra de 4 a 16?

6. Se sabe que una población tiene una media p. = 85 Y una desviación estándar
<ro = 15.
a) ¿ Cuál es la probabilidad de que la media de una muestra de tamaño 36
esté en el intervalo de 83 a 87?
b) ¿ Cuál es la probabilidad de que la media de una muestra de tamaño 81
quede en el intervalo de 83 a 87?
e) ¿Qué tan grande debe ser la muestra para tener una seguridad del 95
por ciento de que la media de la muestra quedará en el intervalo de
83 a 87?

7. Un aserradero produce tablones de cedro que tienen un promedio de 4.0


milímetros de espesor en el remate. La desviación estándar del proceso es
de 0.2 de milímetro. El espesor de una muestra de cuatro tablones se mide cada
hora. La media muestral se utiliza para determinar si el proceso de manu-
factura está operando satisfactoriamente en la siguiente forma: si el espesor
medio de los cuatro tablones es 3.7 milímetros o menos, o 4.3 milímetros o
más, se para la máquina y se reajusta. Si la media está entre 3.7 y 4.3 milí-
metros, se continúa el proceso.
a) ¿ Cuál es la probabilidad de que se reajuste la máquina después de cual-
quier prueba muestra] dada, si el promedio del proceso continúa siendo-
de 4.0 milímetros?
b) ¿ Cuál es la probabilidad de que la máquina se reajuste S1 el promedio
del proceso cambia a 4.2 milímetros? ¿A 3.9 milímetros?
e) ¿ Cuál es la probabilidad de continuar el proceso después de tomar cual-
quier muestra dada si el promedio del proceso cambia a 4.3 milímetros?
¿ A 3.4 milímetros? ¿ A 4.2 milímetros?

8. Una muestra de 40 de una población de 400,000 podrá dar una estimación


de la media de la población, casi tan precisa corno una muestra de 40 de
una población de 4,000, siempre y cuando las desviaciones estándar de ambas
poblaciones sean iguales. (.Es razonable esta afirmación? Base su respuesta
en cifras.

9. De un gran grupo de empleados se selecciona una muestra aleatoria de 64


registros diarios de producción con objeto de estimar la media de la pobla-
272 Introducción a la inferencia estadistica

ción. La muestra da un resultado promedio de 136 unidades y una desviación


estándar de 24 unidades. Calcule un intervalo del 98% de confianza para
la producción media de todos los empleados.

10. Se ha seleccionado una muestra aleatoria de 400 cuentas por cobrar de


2,000 cuentas de deudores de una empresa comercial. Se encuentra que
media de la muestra es de $165.50, con una desviación estándar de
Calcule un.. intervalo del. 95 % de confianza para estimar la media de
blación. Interprete el significado de ese intervalo.

11. Cierta compañía internacional emplea a 400 ejecutivos. Se toma una muestra
de 36 de ellos con objeto de estimar la edad promedio de todos los ejecutivos.
Los resultados de la muestra son: X = 51.0 Ys = 4.0 años. Calcule un inter-
valo con el 99% de confianza para la edad promedio de todos los ejecutivos
de esa empresa.

12. Una muestra aleatoria de 324 ventas realizada durante el año en una tienda
de departamentos tiene una media de $10.50 y una. desviación estándar de
$2.70. No se conoce el número total de ventas.
a) Determine un intervalo dc confianza del 95% para el tamaño promedio
de todas las ventas realizadas en el año.
b) Establezca u n intervalo de confianza del sor;{¡ para resolver el punto (a).

13. Una muestra aleatoria de 225 órdenes de un envío recibido por una empresa
tiene un importante promedio de $12.74, y una desviación estándar de $2A5.
Establezca un intervalo del 95% de confianza para el importe promedio de
todas las órdenes recibidas en ese envío. (Hay 625 órdenes en total.)

14. ¿ Qué tamaño de muestra será necesario para estimar el promedio de vida
de un nuevo tipo de lámpara incandescente con un margen de 24 horas, si
se desea aceptar un riesgo no mayor de 1 a 20 de no estar en lo correcto? La
desviación estándar de la vida útil de esas lámparas se estima en 200 horas.

J5. a) La Comisión de Planeación de una ciudad desea estimar el número medio


de habitantes por vivienda que hay en la ciudad. Para ello, ha seleccionado
una muestra aleatoria simple de 500 viviendas y obtuvo los siguientes
resultados: n =: 500, z:,X = 2,200 y ::;':1:'2 = 11,680 donde X es el número
de habitantes por vivienda. Calcule un intervalo del 9S"')'(} de confianza
para el número promedio de habitantes por vivienda que hay en esa ciudad.
b) Suponga que hay 10,000 viviendas en esa ciudad. Calcule un intervalo
del 95% de confianza pam la población total de la ciudad. (S'ugerencia:
El total una población puede estimarse como y el error estándar
de esta es de

16. Una muestra aleatoria de l personas tomada del total de 225 de


una carrera pJ(of{~';¡,ona} recibe una. retribución. promedio inicial $900.00
mensuales con una de~n!iación f~stándar de $11.'} .00. Calcule un intervalo del
90% de confianza la retribución inicial promedio de Jos 225 graduados.

7 a)
270 Introducción a la inferencia estadistica

3. Usted es empleado de una fábrica que acaba de recibir un embarque de


hojas de tablilla de aislamiento de Ya de pulgada, las cuales se utilizan
fabricación de transformadores de potencia. Debe revisar los espesores
muestra aleatoria de esas tablillas, utilizando un micrómetro de O a 1
El espesor es la principal característica que afecta la calidad de la
en consecuencia, la calidad del transformador. Las medidas reales de
80 hojas se muestran a continuación. Las hojas están numeradas de 01 a
leyendo hacia abajo en las columnas como se indica en los encabezados
mismas.
a) Tome una muestra aleatoria de cinco hojas, utilizando los números aleatorios
de dos dígitos de la tabla 9-1 siguiendo el procedimiento descrito
texto. Por ejemplo, si el primer número seleccionado al azar es 43 (fila
columna 8), seleccione la hoja 43 con espesor 125; luego prosiga en
quier dirección en la tabla 9-1, descartando los duplicados y números
res que 80.

ESPESOR DE 80 HOJAS DE TABLILLA DE AISLAMIENTO


DE Ya DE PULGADA
(En milésimas de pulgada)

01- U- 21- 31- 41- 51- 61- 71-


10 20 30 40 50 60 70 80
--_._------ ._~

123 125 128 125 125 124 126 124


122 123 127 121 125 125 125 123
125 125 125 122 125 124 127 123
122 128 125 123 125 123 125 124
127 124 125 124- 124 125 127 125
123 123 124 121 125 126 119 124-
127 124 124- 123 127 122 125 128
121 123 123 121 119 127 125 125
125 124 128 119 125 125 124 127
122 123 128 124 118 127 125 123

b) ¿ Cuál es el espesor medio en su muestra? Este es un estimador no


de la media de todo el embarque. Puesto que la media de todo el embarque
es 124.24 milésimas de pulgada, ¿ cuál es el error muestral?
e) Encuentre el error estándar de la media muestral.
d) Probablemente usted puede hacer una estimación más aproximada
espesor medio de todo el embarque muestreando más hojas. Por lo
continúe su muestreo hasta añadir 5 hojas, o sea un total de l O, utilizando
el mismo método anterior.
e) ¿ Cuál es el espesor medio de su muestra más grande de 10 hojas?
es su error?
f) En promedio, ¿ cuanto más esperaría usted reducir el error de la
muestral al tomar una muestra de lOen vez de 5 hojas? (Haga
omiso de la corrección por población finita.)

El gerente una revista semanal desea desarrollar cifras de circulación ga-


rantizadas utilizarlas al solicitar publicidad. Un estudio de las copias
vendidas semana, durante los últimos años no revela tendencias acusa-
o movimientos estacionales; más bien las cifras de circulación tienden
bastante normal. Durante ese período la
circulación media fue de 556,000 y
8,000 ejemplares.
a) Si garantiza la venta de por lo menos 552,000 ejemplares
de la semana siguiente, ¿ qué probabilidad tiene de no alcanzar esa cifra?
b) ¿ Cuántos ejemplares de la siguiente edición imprimiría si quiere evitar
que haya una probabilidad de más de uno en mil de no tener ejemplares
suficientes?
e) ¿ Qué promedio o cifra de circulación media le daría el 99% de seguridad
de garantizarla para un posible contrato de publicidad durante el siguiente
año (52 semanas)? Compare este resultado con el del inciso (a) anterior.

5. a) Cuando se ajusta una máquina ésta produce partes cuyo diámetro está
normalmente distribuido; el diámetro medio es de 0.300 de pulgada y hay
una desviación estándar de .0+0 de pulgada. Si la máquina está ajustada,
¿ cuál es la probabilidad de que el valor medio de una muestra aleatoria
de cuatro partes sea de entre 0.290 y 0.304 de pulgada?
b) ¿ Qué sucede con el error estándar de la media si se aumenta el tamaño
de la muestra de 4 a 16?

6. Se sabe que una población tiene una media IL = 85 Y una desviación estándar
(j". = 15.
a) ¿ Cuál es la probabilidad de que la media de una muestra de tamaño 36
esté en el intervalo de 83 a 87?
b) ¿ Cuál es la probabilidad de que la media de una muestra de tamaño 81
quede en el intervalo de 83 a 87?
e) ¿Qué tan grande debe ser la muestra para tener una seguridad de! 95
por ciento de que la media de la muestra quedará en el intervalo de
83 a 87?

7. Un aserradero produce tablones de cedro que tienen un promedio de 4.0


milímetros de espesor en el remate. La desviación estándar del proceso es
de 0.2 de milímetro. El espesor de una muestra de cuatro tablones se mide cada
hora. La media rnuestral se utiliza para determinar si el proceso de manu-
factura está operando satisfactoriamente en la siguiente forma: si el espesor
medio de los cuatro tablones es 3.7 milímetros o menos, o 4.3 milímetros o
más, se para la máquina y se reajusta. Si la media está entre 3.7 y 4.3 milí-
metros, se continúa el proceso.
a) ¿ Cuál es la probabilidad de que se reajuste la máquina después de cual-
quier prueba muestral dada, si el promedio del proceso continúa siendo-
de 4.0 milímetros?
b) ¿ Cuál es la probabilidad de que la máquina se reajuste S1 el promedio
del proceso cambia a 4.2 milímetros? ¿A 3.9 milímetros?
(;) ¿ Cuál es la probabilidad de continuar el proceso después de tomar cual-
quier muestra dada si el promedio del proceso cambia a 4.3 milímetros?
¿ A 3.4- milímetros? ¿ A 4.2 milímetros?

8. Una muestra de 40 de una población de 400,000 podrá dar una estimación


de la media de la población, casi tan precisa como una muestra de 40 de
una población de +,000, siempre y cuando las desviaciones estándar de ambas
poblaciones sean iguales. ¿ Es razonable esta afirmación? Base su respuesta
en cifras.

De un gran grupo de empleados se selecciona una muestra aleatoria de 64


registros diarios de producción con objeto de estimar la media de la pobla-
272 Introducción a la inferencia estadistica

cion, La muestra da un resultado promedio de 136 unidades y una


estándar de 24 unidades. Calcule un intervalo del 98% de confianza
la producción media de todos los empleados.

10. Se ha seleccionado una muestra aleatoria de 400 cuentas por cobrar de


2,000 cuentas de deudores de una empresa comercial. Se encuentra que
media de la muestra es de $165.50, con una desviación estándar de
Calcule un intervalo del. 95% de confianza para estimar la media de
blación. Interprete el significado de ese intervalo.

11. Cierta compañía internacional emplea a 400 ejecutivos. Se toma una muestra
de 36 de ellos con objeto de estimar la edad promedio de todos los ejecutivos.
Los resultados de la muestra son: X = .51.0 Y s = 4.0 años. Calcule un inter-
valo con el 99% de confianza para la edad promedio de todos los ejecutivos
de esa empresa.

12. Una muestra aleatoria de 324 ventas realizada durante el año en una tienda
de departamentos tiene una media de $10.50 Y una desviación estándar de
$2.'10. Nq se conoce el número total de ventas.
a) Determine Un intervalo de confianza del 95% para el tamaño promedio
de todas las ventas realizadas en el año.
b) Establezca un intervalo de confianza del 80% para resolver el punto (a).

13. Una muestra aleatoria de 225 órdenes de un envío recibido por una empresa
tiene un importante promedio de $ J 2. '1 4, y una desviación estándar de $2.45.
Establezca un intervalo del 95% de confianza para el importe promedio de
todas las órdenes recibidas en ese envío. (Hay 625 órdenes en total.)

14. ¿ Qué tamaño de muestra será necesario para estimar el promedio de vida
de un nuevo tipo de lámpara incandescente con un margen de 24 horas, si
se desea aceptar un riesgo 110 mayor de I a 20 de 110 estar en 10 correcto? La
desviación estándar de la vida útil de esas lámparas se estima en 200 horas.

15. a) La Comisión de Planeación de una ciudad desea estimar el número medio


de habitantes por vivienda que hay en la ciudad. Para ello, ha seleccionado
una muestra aleatoria simple de 500 viviendas y obtuvo los siguientes
resultados: n = 500, :'::X = 2,200 y 2;X 2 = 11,680 donde X es el número
de habitantes por vivienda. Calcule un intervalo del 95"1" de confianza
para el número promedio de habitantes por vivienda que hay en esa ciudad.
b) Suponga que hay ! 0,000 viviendas en esa ciudad. Calcule un intervalo
del 95% de para la población total la ciudad. (Sugerencia:
El total como y el error estándar
de esta

16. U na muestra aleatoria de personas tornada de! total de 225 de


una carrera profcs¡,on~~d recibe una retribución promedio inicial $900.00
mensuales con una desviación estóndar de $1 ") .00. CaL:ule un intervalo del
90% de confianza la retribtl.ci6n inici,,1:f promedio d(~ los 225 grad'L1.a.dos.
b) l.Cuál es el error estándar de la proporcion, si p =
0.2 y n =
lOO? ¿ Si
n. = 400? ¿ Cómo afecta el tamaño de la muestra al error estándar?
e) ¿ Podemos utilizar la distribución norma! para hacer inferencias acerca de
las proporciones si p = 0.04 Y n =25? ¿ Si P 0.15 y n =
60? Explique
por qué.
d) Calcule el error estándar de la proporcion 51 p =
0.1, ti =, 100, Y el ta-
maño de la población N = 100. ,;Es mayor o menor el error estándar
que si N fuera infinitamente grande?

encuesta sobre los planes de compra. de los consumidores revela que el


10% de una muestra de 2,500 familias planea comprar un refrigerador nuevo
durante el próximo año. Suponga que se utilizó una muestra aleatoria simple
no sesgada. Establezca un intervalo de confianza del 99'/0 para estimar las
ventas totales de refrigeradores para la población total de 50 millones de
familias. Interprete esta predicción.

Si en una muestra de 600 estudiantes de economía, tomada en escuelas de


el país, ~)60 son hijos de hombres de negocios, ¿ cuál es el intervalo
confianza del 90% para la proporción de todos los estudiantes de economía
<me son hijos de hombres de negocios?

Se desea realizar una encuesta de mercado para estimar la proporcion de


amas de casa que prefieren un nuevo producto al que vende la competencia.
Asimismo, se desea que el error al estimar la proporción no sea mayor que
cuatro puntos porcentuales, con un coeficiente de confianza de 95.45%. El
departamento de ventas hace la hipótesis preliminar de que cerca del 20% de
amas de casa podrían preferir el producto. Si cuesta $500 poner en mar-
la encuesta y $5 por entrevista, ¿ cuánto debería costar toda la encuesta?

En un estudio muestra! de! trabajo, ;;e observa a un operador de máquina


en 100 momentos distintos seleccionados al azar durante la semana de tra-
Se encuentra que realiza trabajo productivo en 80 de estas observaciones.

Establezca un intervalo de confianza de! 95% para la proporción de tiempo


en que el operador realiza trabajo productivo. Interprete este resultado.
¿ Cuántas observaciones se necesitan para determinar la verdadera propor-
ción de tiempo productivo durante la semana de trabajo, con un margen
de 5 puntos porcentuales y a un nivel de confianza del 99%?
Si el operador ha sido productivo el 70% del tiempo, debería ser mayal:
o menor el tamaño de muestra en cuestión en (b). ¿ Por qué?

planea una encuesta para determinar los gastos médicos familiares anuales
empleados de una compañia con una precisión de a.1 nivel de
confianza del 90%. Un estudio piloto proporciona una de $334
desviación estándar de los gastos médicos. ¿ Cuán grande debe ser
aleatoria para (,btener una estimación con t:l precisión .n ecesaria?

auditor de una tienda depa'T.tanlcnto5 torna una muestra aleatoria de


de cuenta. mensuales que serán enviados por correo a los suscrrptores
t2!o.rjeta de CL-édito.. y observó que la cantidad promedio qued(~beJJ z. l.a ern-
es de $2G.OO con una desv{.'\ci6n estándar de $12.00, ¿ Cuántos estoJiü:·;
cuenta det erá muestrear en total, si desea estimar el morito promecno
con un margen de $1 solamente una probabilidad en 20 ,.:.le
fUETa de e'~~e intervalo?
274 Introduccién a la inferencia estadistica

24-. Un fabricante desea estimar la resistencia media a la tensión de los


de acero que recibe de un abastecedor. La desviación estándar para. las
tras probadas en embarques anteriores fue alrededor de 10 libras.
ángulos deben probarse de manera que haya no más de una probabilidad
de un medio de! 1 % que el error exceda 2 libras?

25. Las experiencias pasadas indican que la desviación estándar de la


de gasolina consumida anualmente por los automovilistas de una zona es
50 galones. ¿ Qué tamaño de muestra se deberá tomar para estimar el
sumo promedio real, a fin de tener un 99% de probabilidad de no
en más de 10 galones respecto al promedio real?

26. Se planea una encuesta para medir la cantidad de tiempo que los
miran la televisión. Un chequeo preliminar indica que el tiempo promedio
por semana es cerca de 15 horas con una desviación estándar de 5
Se desea estimar el tiempo promedio por semana con una precisión de
hora, al nivel de confianza del 99%.
a) Si el costo de administración de la encuesta es de $500, más $10
entrevista, ¿ cuál es el costo total que se debe presupuestar para la
cuesta?
b) Después de completar la encuesta, se encuentra que la media es
horas y la desviación estándar de 6 horas. ¿ Qué costo adicional
que hay alguno) debe presupuestarse, excluyendo la administración,
conseguir una estimación revisada del tiempo promedio, a la luz de
nueva información?

27. El Departamento de Mercadotecnia de una empresa recibió una


de $40,000 para efectuar una investigación sobre las ventas potenciales
un nuevo producto. Para ello se debería tomar una muestra de los
por medio de los cuales la compañía distribuiría su producto. El nuevo
dueto se empezaría a comercializar en esta muestra de almacenes y se
trolaría el volumen de ventas durante un período de 3 meses
El volumen promedio de ventas por mes en cada tienda, se utilizaría
estimar e! potencial total de ventas de! nuevo producto. Supongamos
para llevar a cabo esa prueba se deben gastar $10,000.00 y además $300.00
almacén. Las experiencias anteriores con productos similares permiten
que la desviación. estándar de las ventas mensuales por almacén es
paquetes del producto.
a) ¿. Qué tamaño de muestra se debe tomar para no excederse del
asignado? ¿ Qué error de muestreo se puede esperar en la
las ventas mensuales promedio por almacén?
b) Suponga que se seleccionó una muestra de 80 almacenes. En estos
cenes las ventas promedio por mes (en cada uno) fueron de 84 paquetes-
y la desviación estándar de las ventas mensuales fue de 52 paquetes.
zando estas estimaciones haga una nueva estimación de las ventas
anuales, si este producto se distribuyera a través de 80,000 almacenes-
Calcule un intervalo del 95% de confianza de esta estimación
sugerencia al problema 15).
e) ¿ Qué probabilidad asignaría usted a la posibilidad de (me la
de las ventas totales anuales fuesen incorrectas en más de 8 millones
paquetes? ¿ En más de 5 millones paquetes?

necesi ta una estimación actualizada


productos, corno informació"
ello el fabricante piensa
tomar una muestra aleatoria de sus distribuidores al menor y
las ventas mensuales. Para ayudarse en la planeación la investigación, se-
leccionó una muestra preliminar de 60 distribuidores de su producto. Los
resultados fueron: n = 60, :::'X=1,104, :::'X2= 22,034, donde X representa
las ventas de aparatos (en unidades) por distribuidor, en el mes pasado.
a) El fabricante desea que la estimación muestral de la media de las ventas
mensuales por distribuidor sea precisa con un margen de ± 1 aparato, con
un nivel del 95% de confianza. ¿ Qué tamaño debe tener la muestra para
obtener esta precisión?
b) El costo de la investigación se estima en $2,000.00 más $40.00 por dis-
tribuidor muestreado. ¿ Cuál será el costo total de la encuesta en base a la
respuesta correspondiente al punto (a) anterior?
e) Suponga que el fabricante distribuye sus aparatos mediante 28,000 tiendas
de ventas al por menor. ¿ Cuál será el error de muestreo asociado con la
estimación de las ventas totales mensuales? (vea la sugerencia al pro-
blema 15').

29. La división de investigaciones sobre el consumo de una fábrica de automóvi-


les tiene un presupuesto de $3,000 para determinar la proporción de consu-
midores que prefieren un nuevo diseño para la parrilla del radiador. La
estimación debe ser correcta con un margen de cinco puntos porcentuales, con
un coeficiente de confianza de 95%. Suponga que se toma una muestra
aleatoria simple. El costo de la encuesta es de $1,000 para la administración
de la misma más $5 por entrevista.
¿ Puede estimarse la proporción con la precisión requerida con el presu-
puesto de $3,000 suponiendo que p = 0.50? Explique por qué.

30. Un distribuidor de televisores encuentra que cerca del 22% de los clientes
potenciales que entran a su tienda compran un televisor. Al trasladarse a otra
ciudad, desea estimar este porcentaje para su nuevo establecimiento con una
precisión de ±4%, al nivel de confianza del 90%. ¿Cuántas observaciones
debe hacer?

Un productor de agua mineral que entra a una nueva zona desea estimar
el número de consumidores que prefieren comprar agua mineral enlatada.
Una firma consultora conviene en realizar una encuesta de compradores de
agua mineral por $2,000, más $4· por entrevista. Suponga como hipótesis que
p = 0.50, y que se trata de una muestra aleatoria simple.

a) ¿ Cuánto costará la encuesta si el error al estimar la proporción no debe


ser mayor que cinco puntos porcentuales al nivel de confianza de! 90%?
b) ¿ Cuánto costará la encuesta si el error no debe exceder cinco puntos por-
centuales al nivel de confianza del 98%?

La bibliografía para este capítulo se incluye en la lista de la pá-


gina 312.
CAPITULO 10
Pruebas de hipótesis

PODEMOS REALIZAR una inferencia estadística ya sea estimando un inter-


valo de confianza para la media poblacional (u otro parámetro) o bien,
probando una hipótesis. En ambos casos se usa el error de muestreo ux.
En el capítulo 9 ya se consideraron las intervalos de confianza, ahora
trataremos lo referente a pruebas de hipótesis. Para probar una hipótesis,
primero se establece alguna hipótesis referente al verdadero valor de JI.. en
la población, o de algún otro parámetro. Luego, y con base en una muestra
aleatoria decidimos si aceptamos o si rechazamos esta hipótesis. Si el
valor que obtenemos e!1 la muestra se acerca al valor hipotético, aceptamos
la hipótesis, en cualquier otro caso la rechazamos.
En este capítulo se presenta la teoría "clásica" de la inferencia esta-
dística; en ella, se toma la decisión de aceptar o de rechazar una hipótesis
basánduse en la evidencia que proporciona la información muestral. En
los capítulos 13 y 14 se ampliará el análisis para incluir el juicio personal
del que toma la decisión, y las consecuencias económicas que tenga ésta,
utilizando el enfoque "bayesiano" para llegar a una decisión óptima.
El empleo de la prueba de hipótesis también es útil en la administración
de empresas .y en las ciencias sociales en lo que concierne a información.
En este sentido, sirve para describir el error de muestreo asociado con
una muestra dada y para describir hasta qué punto el resultado de la
muestra podría haber ocurrido por puro azar.

Ejemplo
Consideremos un ejemplo específico: obviamente, en la producción
de hojas de rasurar es importante el ancho de cada una de ellas. Alguna
variación en esta dimensión se debe a diversas pequeñas causas que afec-
tan al proceso de producción. Pero aun así, el ancho promedio debe
satisfacer ciertas especificaciones. Suponga que el proceso de producción
para una marca de hojas de rasurar se ha ajustado p~ra producirlas con
un ancho promedio de 0.700 de pulgada. El proceso de producción ha
estado funcionando durante algún tiempo, desde que las máquinas cor-
277
278 Pruebasde hipótesis

tadoras-afiladoras fueron ajustadas por última vez, y el gerente de pro-


ducción desea conocer si el ancho promedio de las hojas permanece toda-
vía fijo en 0.700 de pulgada, tal como se pretende.
Este caso particular se puede tratar como si fuera problema de
inferencia estadística. Por supuesto, no hay inconveniente en medir real-
mente los cientos de miles de hojas que salen del proceso de producción, y
verificar directamente el ancho promedio. Pero esto sería sumamente
costoso y requeriria mucho tiempo. Una alternativa mejor sería la de
razonar en función de una muestra de hojas salidas de ese proceso. La
población estadística de anchos de hojas cubre todas las hojas que saldrán
en el futuro de esa línea de producción bajo ciertos controles técnicos
dados. Ya que el proceso de producción fue ajustado inicialmente a un
ancho medio de 0.700 de pulgada, la hipótesis estadística consiste en que
la verdadera media de la población es 0.700 de pulgada. Pero el proceso
podría haberse desplazado levemente de esta cifra teórica, y la gerencia
desea conocer si la media aritmética de los anchos de todas las hojas es
todavía 0.700 de pulgada.
~
Aceptación de la hipótesis. Hemos formulado la hipótesis de que
el ancho medio de las hojas de rasurar es 0.700 de pulgada, que en sím-
bolos es P.h = 0.700, en que P-h es la media hipotética. La hipótesis parece
razonable ya que las máquinas fueron ajustadas ~ precisamente a este
ancho. Suponga que tomamos una muestra al azar de 100 hojas de la
línea de producción. Medimos cuidadosamente cada una de ellas y en-
contramos que el ancho promedio de la muestra es de 0.7005 de pulgada
ya que la desviación estándar en la muestra es de 0.010 de pulgada. Esto es,

n = 100
X =. 0.7005 de pulgada
s = 0.Ql0 de pulgada

Para que la hipótesis P.h = 0.700 sea verdadera, la media muestral


X = 0.7005 de pulgada debería de tomarse de la distribución de todas las
posibles medias muestrales cuyo promedio fuera 0.700 de pulgada.
Ahora, surge la pregunta fundamental: si la verdadera media de la
población fuera realmente de 0.700 de pulgada, ¿ hasta qué punto sería
posible que hubiéramos extraído una muestra al azar de 100 hojas y en-
contráramos que su ancho medio fuera de 0.7005 de pulgada o más? En
otras palabras, ¿ cuál es la probabilidad de que un valor pudiera diferir
en 0.0005 de pulgada, o más, de la media poblacional a causa del azar
solamente? Si esa probabilidad es alta, podemos aceptar la hipótesis de
que la verdadera media es 0.700 de pulgada. Sin embargo, si esa probabili-
dad es baja, la veracidad de la hipótesis se vuelve cuestionable.
Para contestar esta pregunta, calculemos el error estándar de la media
de la muestra:
Pruebasde hipótesis 279

s 0.010
s" = ---=..= _ = 0.001 de pulgada
vn V 100
La diferencia entre la media hipotética y la media muestral observada
es de 0.0005 de pulgada y el error estándar de la media es de 0.001 de pul-
gada, por lo tanto, dicha diferencia es igual a 0.5 errores estándar. Con-
sultando el Apéndice D, encontramos que el área con este intervalo alre-
dedor de la media de la curva normal es 0.19 X 2 = 38%, lo que significa
que 100 - 38 = 62% del total del área queda fuera del intervalo susodicho
(vea las líneas punteadas de la figura 10-1). Por lo tanto, si la ver-
dadera media fuera 0.700 de pulgada, de todos modos deberíamos esperar
encontrar alrededor del 62% de todas las medias muestrales posibles, que
se alejarían 0.5.sx o más de esa media, por puro azar. Por lo tanto, hay
una probabilidad del 62% de que la media de esa muestra particular
esté tan alejada de la media poblaciona1.

DISTRIBUCION MUESTRAL DE MEDIAS DE ANCHOS


DE HOJAS DE RASURAR
(Curva hipotética = 0.700 de pulgada)

.701 .703

Figura 10·1

Recordando que tenemos una razón sustancial para aceptar la hipótesis


en primera instancia -el proceso ha sido ajustado para alcanzar una
media poblacional de 0.700 de pulgada- debemos aceptar la hipótesis y
atribuir al azar el que aparezca una media de 0.7005 de pulgada en una
muestra aleatoria de 100 hojas.
Pruebas de hipótesis 279

s 0.010
r = - = - - = 0001 de pulgada
.,¡n V 100 .
La diferencia entre la media hipotética y la media muestral observada
es de 0.0005 de pulgada y el error estándar de la media es de 0.001 de pul-
gada, por lo tanto, dicha diferencia es igual a 0.5 errores estándar. Con-
sultando el Apéndice D, encontramos que el área con este intervalo alre-
dedor de la media de la curva normal es 0.19 X 2 = 38%, lo que significa
que 100 - 38 = 62% del total del área queda fuera del intervalo susodicho
(vea las líneas punteadas de la figura 10-1). Por lo tanto, si la ver-
dadera media fuera 0.700 de pulgada, de todos modos deberíamos esperar
encontrar alrededor del 62% de todas las medias muestrales posibles, que
se alejarían O.5sT o más de esa media, por puro azar. Por lo tanto, hay
una probabilidad del 62% de que la media de esa muestra particular
esté tan alejada de la media poblacional.

DISTRIBUCION MUESTRAL DE MEDIAS DE ANCHOS


DE HOJAS DE RASURAR
(Curva hipotética = 0.700 de pulgada)

.697

Figura 10·1

Recordando que tenemos una razón sustancial para aceptar la hipótesis


en primera instancia -el proceso ha sido ajustado para alcanzar una
media poblacional de 0.700 de pulgada- debemos aceptar la hipótesis y
atribuir al azar el que aparezca una media de 0.7005 de pulgada en una
muestra aleatoria de 100 hojas.
280 Pruebas de hipótesis

Rechazo de la hipótesis. Tiempo después, cuando la producción


ha seguido durante algún tiempo, se presenta otra vez la misma pregunta:
¿ es lógico esperar que la verdadera media del ancho de las hojas produ-
cidas permanezca en 0.700 de pulgada? Ya que el proceso fue ajustado
para conseguir esta cifra, la hipótesis parece razonable. Entonces podre-
mos probarla tomando otra muestra aleatoria de 100 hojas. Esta vez la
desviación estándar es todavía de 0.010 de pulgada, y por lo tanto el error
estándar de la media sigue siendo 0.001 de pulgada, pero la media es
ahora 0.7031 de pulgada.
Con objeto de probar la hipótesis de que la verdadera media de la
población es 0.700 de pulgada, seguimos nuevamente la misma línea de
razonamiento. Si la verdadera media poblacional fuera realmente 0.700
pulgada, ¿ qué posibilidades habría de que tomáramos una muestra alea-
toria de 100 hojas y encontráramos que su media fuera 0.7031 de pulgada?
Ya que la diferencia entre la media hipotética de 0.700 de pulgada y
la media muestral real de 0.7031 de pulgada es 0.0031 de pulgada, y el error
estándar de la media es 0.001 de pulgada, \a diferencia es igual a 3.1
errores estándar de la media (es decir, 0.0031/0.001 = 3.1). Esta es la
desviación normal estándar z introducida en el capítulo 6.
Ahora, si la media poblacional fuera realmente 0.700 de pulgada, sa-
bríamos a partir del Apéndice D que el 99.8% de fodas las medidas posibles,
de muestras aleatorias de 100 hojas cada una quedarían dentro de 3.1
errores estándar a ambos lados de la media de 0.700 de pulgada (ver la
llave mayor en la figura 10-1). Por lo tanto, la probabilidad es solamente
de 1Js de 1%, de que hubiéramos obtenido una media muestral que se
alejara de la media poblacional tanto como está.
Aquí se presentan dos alternativas:
1. Podemos continuar aceptando la hipótesis (o sea, dejar el proceso de
producción tal como está), y atribuir la desviación de la media mues-
tral al azar; pero es un azar que tiene sólo una probabilidad de 1Js
de 1%.
2. Podemos rechazar la hipótesis porque no corresponde a la evidencia
encontrada en la muestra (por lo tanto, corregir el proceso de pro-
ducción) .
En este caso, si decidimos sólo en base a la información de la muestra,
probablemente elegiríamos (2) y concluiríamos que el ancho promedio
de las hojas de esa línea de producción no es realmente 0.700 de pul-
gada. Esto significa que rechazaríamos la hipótesis porque se aparte
de la evidencia encontrada en la muestra. Estaríamos equivocados sólo
cuando la hipótesis fuera realmente cierta y por producto del azar la
media muestral hubiera resultado alejada 3.1 errores estándar como
en esta muestra. Pero en promedio esto ocurriría sólo dos de cada 1 000 veces.
Elección entre la aceptación y el rechazo de la hipótesis. En
nuestro ejemplo, la elección entre dejar el proceso de producción como
está o parar el proceso para hacerle ajustes depende de otros factores
Pruebas de hipótesis 281

además de la evidencia de esa muestra. El costo de detener innecesaria-


mente el proceso y el costo de permitir que continúe un proceso erróneo
para continuar son ciertamente relevantes. Además, .la historia de este
proceso de manufactura también influye en la decisión. Si el proceso
se desajusta raras veces, podríamos inclinarnos más a atribuir al azar este
alejamiento de la media y no haríamos lo mismo si el proceso se desajus- '
tara frecuentemente. Los problemas .de incorporación de juicios a priori
y de costos económicos se analizan en el capítulo 13.
Sin embargo, el análisis de pruebas de hipótesis es en sí mismo un
gran auxiliar. Se ocupa de la evaluación de la muestra y de las conclu-
siones que se pueden obtener a partir de esa evidencia solamente. En
cierto sentido, es un método para reportar el error de muestreo de una
muestra dada. El rechazo de la hipótesis significa que la evidencia de
la muestra es notoriamente contraria a la hipótesis. La aceptación de la
misma significa que la evidencia concuerda con ella.
Para entender el razonamiento anterior nos puede ser útil establecer
una analogía con un juicio legal. Así se somete a juicio a la hipótesis y
se la considera "inocente" hasta que no se pruebe lo contrario. La eviden-
cia se encuentra en la muestra aleatoria. Para condenar la hipótesis, pri-
mero debe probarse su culpabilidad ~no se requiere certeza absoluta,
basta una duda razonable. En este caso, la evidencia es la probabilidad
de que se pueda obtener un valor muy diferente como media muestral
si la hipótesis fuera cierta. Si esta probabilidad es grande, podemos aceptar
la hipótesis. Por otro lado, si esta probabilidad es pequeña, la hipótesis
es dudosa. Mientras más cbaja sea la probabilidad, más grande será la
duda de que la hipótesis pueda ser correcta. Finalmente, si existen muy
pocas probabilidades, es inaceptable creer que por puro azar se pueda
obtener un valor tan diferente para la media muestral y, por lo tanto, se
rechaza la hipótesis. Se la juzga "culpable" a través de una duda razonable.
En el primer ejemplo considerado, la probabilidad fue bastante alta
(62%) de tal manera que una discrepancia de 0.0005 de pulgada se podría
atribuir meramente al azar. Por lo tanto, aceptamos la hipótesis, particu-
larmente porque teníamos una buena razón para creer en ella antes
de que se tomara la muestra. Podíamos decir que la media hipotética de
0.700 de pulgada es compatible con la media rnuestral encontrada y los
muestreos al azar. Pero en el segundo ejemplo dado (X = 0.7031 pulga-
da), fue tan baja (un quinto de uno por ciento) la probabilidad de que
una diferencia tan grande pudiera ocurrir a causa del azar, que la hipó-
tesis (!Joh = 0.700) se rechaza como falsa.
Es importante notar que mientras el rechazo de una hipótesis implica
que la hipótesis es falsa, la aceptación de una hipótesis no necesariamente
prueba que ésta sea cierta. De hecho puede ser que la hipótesis sea falsa
(es decir, que la verdadera media !Jo difiera de !Joh) pero que la mues-
tra no tenga suficiente precisión (o sea, el error de muestreo es demasiado
grande) para que puede detectarse la diferencia. En breve, examinaremos
esta probabilidad, con mayor detalle.
282 Pruebas de hipótesis

ERRORES DE TIPO I Y TIPO 11

Es lógico que surja la pregunta: ¿ cuál debe ser el valor crítico selec-
cionado para la probabilidad de obtener la diferencia observada al azar
{z = (X - !J.h) I «r}, por arriba del cual aceptaríamos la hipótesis y por
debajo del cual la rechazaríamos? Este valor se denomina probabilidad
crítica o nivel de significación y se denota por a (alfa). La respuesta a esta
pregunta no es sencilla, y el explorarla nos llevará a penetrar con mayor
profundidad en la naturaleza lógica de la inferencia estadística.
Pueden presentarse cuatro situaciones cuando probamos una hipóte-
sis. Podemos equivocarnos, porque:
1. rechazamos una hipótesis cierta (un error de tipo 1), o
2. aceptamos una hipótesis falsa (un error de tipo 1I).
O podemos estar en lo cierto, porque:
3. aceptamos una hipótesis cierta, o
4. rechazamos una hipótesis falsa.
Los tipos de errores posibles, indicados con 1 y 2, respectivamente, se
conocen como error de tipo 1 y error de tipo II o como error de primera
clase y error de segunda clase.

Errores tipo I
En un gran número de casos en los que la hipótesis es de hecho ver-
dadera (aunque no lo sabemos, ya que en caso de saberlo no habría
necesidad de probarla), necesariamente o estaríamos equivocados como
en 1 o estaríamos en lo cierto como en 3. Esto quiere decir que de come-
ter éste tendría que ser del tipo 1 (rechazar una hipótesis cierta). Suponga
que adoptáramos el nivel del 5% como la probabilidad crítica, aceptando
así la hipótesis cuando la probabilidad de obtener la diferencia observada
a causa del azar exceda del 5% y rechazando la hipótesis cuando esta
probabilidad sea menor del 5%. Esto equivale a la decisión de aceptar
la hipótesis cuando la discrepancia COn respecto a la media muestral es
menor de 1.96 errores estándar (es decir, z < z,,) y de rechazar la hipótesis
cuando esa discrepancia sea mayor de 1.96 errores estándar. Usando este
valor como la probabilidad crítica, esperaríamos cometer un error del tipo
1 al 5% de las veces. Este se debe a que aun cuando la hipótesis sea cierta,
el 5% de todas las medias muestrales posibles quedará más lejos de 1.96
errores estándar de la medió. poblacional, Y siempre que por producto
del azar encontremos una de estas medias muestrales y la hipótesis sea
cierta, cometeremos el error de rechazar una hipótesis cierta.
O podríamos escoger el 1% de probabilidad crítica, que correspondería
a una discrepancia entre la media hipotética y la media muestral de
2.58 errores estándar. Cuando la hipótesis es cierta, solamente el 1% de
todas las medias muestrales posibles quedarían más allá de 2.58 errores
Errores de tipo 1 y tipo JI 283

estándar de la media poblacional. Cometeríamos el error de tipo I sola-


mente cuando, por azar, sucediera que sacáramos una de estas muestras
que son poco usuales. Lo que quiere decir, que nosotros cometemos un
error de tipo I solamente el 1% de las veces.
Es obvio que entonces la proporción de casos en los que cometeríamos
un error de tipo 1, que es el de rechazar una hipótesis cierta, se puede
reducir tanto como queramos simplemente reduciendo el valor de la pro-
babilidad crítica. De hecho, el porcentaje de casos en los que estaríamos
aceptando cometer un error de tipo I es precisamente igual a la proba-
bilidad crítica que hayamos adoptado.

Nivel de probabilidad significativo. En muchos estudios, la pro-


babilidad crítica se usa para describir la significación estadística de un
resultado muestra!. Por ejemplo, un economista recopila algunos datos,
digamos, sobre tasas de interés y demanda de dinero. Supone, a priori,
alguna relación entre esas variables y desea comprobar si los datos com-
prueban su hipótesis. Somete a prueba la hipótesis a fin de poder des-
cartar la hipótesis alternativa de que la interrelación observada haya
ocurrido por puro azar. Entonces reporta su resultado muestral como
"significativo al nivel del 1%". Esa afirmación es un reporte para el
lector, que tiene el siguiente significado: 1) si formuláramos una hipó-
tesis estadística de falta de relación entre variables (y esa hipótesis par-
ticular se formula a priori o es el resultado obvio del contexto del proble-
ma) ; y 2) si tuviéramos que probar esta hipótesis usando una probabilidad
crítica (o nivel de significación) del 1%; entonces 3) rechazaríamos la
hipótesis y no admitiríamos que se tratara de una interrelación que se
presenta en esa muestra por puro azar.
Los niveles de significación (probabilidades críticas) del 10, 5, 1 Y
0.1 % son los que se usan inás a menudo para reportar datos muestrales.
El que se reporta es el más pequeño de estos valores probabilísticos que
permita rechazar la hipótesis. En otras palabras, se reporta el nivel de
probabilidad significativo.
Para que quede más claro, suponga que el analista en el ejemplo de
las hojas de rasurar reporta el resultado de la muestra de 100 hojas de ra-
surar a un ejecutivo de su empresa. Con una media muestral de X = 0.7031
Y un error estándar de JX = 0.001, la media muestral se aleja 3.1 errores
estándar de la media hipotética. Por lo tanto, el analista podría escribir
que la media muestral es "significativamente diferente de 0.700 de pulgada
al 1 % de nivel de probabilidad". El uso de una probabilidad crítica del
1% rechazaría cualquier media muestral más lejana de .p. -+- 2.58 JX.
Note que el resultado muestral no se podría describir como significativo al
nivel del 0.1 %, que requeriría una desviación de 3.28 errores estándar
de la media supuesta. Por lo tanto, ese uso del procedimiento de prue-
ba de hipótesis, es una técnica de reporte o comunicación. Se usa de la
misma forma que un intervalo de confianza para describir el. error de
muestreo asociado con una muestra dada.
284 Pruebasde hipótesis

Errores. de tipo 11
Hasta ahora solamente nos hemos preocupado por el primer tipo de
error. Pero también existe una segunda clase de error posible, el de acep-
tar una hipótesis falsa. Mientras menor es el valor que fijamos para la
probabilidad crítica, en general, menos son las hipótesis que resultan re-
chazadas. Pero entonces aumentan las oportunidades de aceptar. hipó-
tesis que son falsas. Podemos ganar seguridad en una dirección sólo a
expensas de perderla en otra.
Desafortunadamente, es imposible predecir con carácter general el
porcentaje de veces en que se espera incurrir en un error de tipo Il, en
base al valor particular que se haya elegido para la probabilidad crítica.
La razón de esto es que la posibilidad de aceptar una hipótesis falsa de-
pende también del sentido en que sea falsa la hipótesis particular que se
está considerando. Recuerde que las medias muestrales tienden a agru-
parse alrededor de la media verdadera de la población donde se han
extraído esas muestras. Si la media hipotética se aleja demasiado de la
media verdadera, es poco probable que obtengamos una media muestral
que parezca congruente con la hipótesis. Si la media hipotética es falsa
pero no incongruente, es mucho más probable que se cometa un error
de tipo n.
En una gran cantidad de casos en los que la hipótesis es realmente
falsa, algunas se encontrarán más alejadas de la media verdadera que
otras. Por lo tanto, es imposible predecir --en general- la probabilidad
de aceptación de hipótesis falsas. Sin embargo, se observa que las pro-
babilidades de aceptar hipótesis falsas aumentan a medida que se re-
chazan menos hipótesis, debido a que se ha fijado un valor más bajo
para la probabilidad crítica. Más adelante, se analiza el problema de cómo
lograr un equilibrio entre el error de tipo 1 .y el de tipo n.
Curvas características de operación. La probabilidad exacta de
cometer un error del tipo II depende de cuán lejos se encuentre la ver-
dadera medida JI, de la población de la media hipotética ¡Lh. Esto se puede
ilustrar mejor por medio de una curva característica de operación o
curva OC, tal como la que se presenta en la figura 10-2.
La escala vertical de la figura 10-2 muestra la probabilidad de co-
meter un error de tipo II (o sea, de aceptar una hipótesis que es falsa).
La escala horizontal muestra todos los valores posibles de la verdadera me-
dia de la población, en relación a la media hipotética ¡Lh. Así, si la media
verdadera fuera un error estándar menor que ¡Lh, estaría en el punto
-lox en el eje horizontal. La sección A representa el uso de la probabi-
lidad crítica de 0.05 y la sección B una probabilidad crítica de 0.01.
En cualquiera de estos casos se puede calcular la probabilidad de cometer
un error de tipo rr para cualquier valor posible de la media verdadera.
Así, en la figura 10-2 A, si la media verdadera estuviera situada a tres
errores estándar a la izquierda de la media hipotética (- 3u Ix), la pro-
babilidad de un error de tipo n sería de 0.15, como se puede observar
Erroresde tipo 1 y tipo II 285

PROBABILIDAD DE ACEPTACION DE LA HIPOTESIS


PARA TODAS LAS MEDIAS ALTERNATIVAS POSIBLES
(Curvas características de operación)

A
Probabilidad de un
error de lipo II:
aceptación de la
hip6tesis
l.OOr---------------r-------------,
Probabilidad de un
Probabilidad critica- .05 error de tipo 1- .05
.90

.eo
.70

.60

.50

.40'

.30

.20

.10

-4cr- -3cr- -2cr- -10'-


X X" X X
"L
rn +lcr- +20'- 't3cr- +4cr-
X X X X
Posición posible de la media verdadera ~ en relaci6n a ~ h
Figura 10-2

en la línea punteada. De manera similar, si la media verdadera estuviera


situada a dos errores estándar a la izquierda de la media hipotética
( - 2ox), la probabilidad de un error del tipo II sería de 0.48.
Cuando la media verdadera coincide con la media hipotética (JL = JLh),
es imposible cometer un error del tipo n. De ahí que la distancia desde
la cúspide de la curva hasta la ordenada 1.0, representa la probabilidad
de cometer un error del tipo 1. Así, ya que la probabilidad de aceptar la
hipótesis cuando JL = ¡tI" es 0.95 su complemento 0.05, es la probabilidad
de rechazarla (cuando es cierta), esto es, la de cometer un error de
tipo 1. Entonces, excepto en ese momento, la probabilidad de un error
de tipo II disminuye de casi .95 a cero a medida que aumenta la distancia
en tre }J. y JLh.

Equilibrio entre el error de tipo 1 y el error de tipo 11


Al probar una hipótesis, nos enfrentamos a dos peligros: el de re-
chazar una hipótesis cierta y el de aceptar una hipótesis falsa. El peligro
286 Prueba de hipótesis

B
Probabilidad deun
errorde tipo II:
aceptación de la
hipótesis
1.00 r----------::::;:::::::::f:;;::::::::::::::-;;;:::¡::¡:;¡;:;::¡-:;:-:::----'----,
Probabilidad de un
errorde tipo J -=.01
.90 Probabilidad critica - .01

.80

.70

.60

.50

.10

-4fr
t -3crjt -2crt -lcrj J.lh +1"X +2crj +300¡ +4crj
Posición posible de la media verdadera p.en relación a p.h

}'.igura 10.2 (Continuación)

de cometer un error de tipo 1 puede reducirse tanto como se quiera con


sólo reducir el valor seleccionado para la probabilidad crítica. Sin em-
bargo, esto sólo se puede lograr a expensas de incrementar el peligro de
cometer un error de tipo n. Esto se puede apreciar comparando las dos
curvas de la figura 10-2. Las probabilidades en la figura 10-2 B (en
que la probabilidad crítica se ha restringido a 0.01) son más altas que
en la figura 10-2 A para cualquier valor de la abscisa.
El enfoque "clásico" de inferencia estadística deja el balanceo de
estos riesgos y la determinación de la probabilidad crítica al arbitrio
del analista. En el ejemplo de las hojas de rasurar, cometer un error del
tipo 1 significaría que se está condenando falsamente la exactitud del pro-
ceso productivo, que en realidad estaría operando correctamente. Un
error de tipo n significaría que permite continuar su proceso de pro-
ducción que no cumple con las especificaciones deseadas. El costo eco-
nómico de un error de tipo 1 sería el de detener el proceso para buscar
un defecto inexistente. Las consecuencias económicas de un error de tipo
II serían la pérdida de confianza por parte . de los consumidores que
encontrarían poco satisfactorio ese producto. (Las hojas podrían causar
Pruebas de dos y de un extremos 287

irritación con mucha frecuencia o tal vez no embonar bien en la máquina


de afeitar.) Teniendo en cuenta las consecuc ricias económicas poten-
ciales, la gerencia tratará de fijar un valor para la probabilidad crítica,
que a su juicio, equilibre mejor los riesgos de incurrir en los dos tipos
de errores.
En el enfoque "bayesiano" de inferencia estadística se incluyen tanto
los riesgos económicos como el juicio del que toma la decisión, en un
procedimiento formal de toma de decisiones. Este enfoque es el tema
de los capítulos 13 y 14.

Efecto del tamaño de la muestra en la


probabilidad de errores
Hasta ahora el estudio de las pruebas de hipótesis se ha hecho en
términos de algún tamaño dado de muestra. U na vez que se ha fijado
un tamaño de muestra, el riesgo de cometer un error de tipo 1 se puede
reducir sólo a expensas de incrementar el riesgo de cometer un error de
tipo JI. Sin embargo, existe una forma de reducir la probabilidad de acep-
tar una hipótesis falsa sin incrementar simultáneamente la probabilidad
de rechazar una hipótesis verdadera. Aumentando el tamaño de mues-
tra se puede reducir la probabilidad combinada de cometer cualquiera
de esos errores.
A medida que crece el tamaño de la muestra, X tiende a acercarse
al valor real de JJ-, ya que .5X decrece. Para cualquier valor dado de una
probabilidad crítica, los errores de tipo 1 se cometerán con la misma
frecuencia relativa, cualquiera que sea el tamaño de muestra. Pero con-
forme X se aproxima a /Jo (como sucede al tomar muestras más gran-
des), será más fácil ver que X no concuerda con valores diferentes a p.,
es decir, con alguna hipótesis falsa respecto a p..
Así, al tomar una muestra más grande, se reduce la probabilidad de
cometer un error de tipo II (aceptación de una hipótesis falsa), mientras
que la probabilidad de rechazar una hipótesis verdadera permanece cons-
tante utilizando el mismo valor de probabilidad crítica. La probabilidad
combinada de error será menor si logramos reducir una de ambas com-
ponentes mientras la otra se conserva constante. Como es de esperar, se
cometerán menos errores de inferencia estadística, a mayor tamaño de
la muestra utilizada.
En resumen, la probabilidad de un error de tipo II disminuye con
aumentos en 1) la probabilidad crítica a, 2) el tamaño de la muestra
(para un valor dado de a), y 3) el valor de /Jo - /Joh.

PRUEBAS DE DOS EXTREMOS Y DE UN EXTREMO

En el procedimiento de pruebas de hipótesis que hemos presentado


hasta ahora. se ha calculado la probabilidad de encontrar una discre-
288 Pruebas de hipótesis

pancia tan grande como la observada, o mayor, sumando los dos "extre-
mos" de una distribución muestral situadas más allá del número de erro-
res estándar elegido para la diferencia (X - jLh). Se dice que ésta es una
"prueba en ambas direcciones" o una "prueba de dos extremos" o "colas".

Pruebas de dos extremos

En el primer ejemplo, hemos visto que una probabilidad de 62%


corresponde a las posibilidades de obtener una discrepancia igual o mayor,
que la observada (0.5 sx), sin importar el signo de la misma, pues podría
provenir de una muestra en que X ~ 0.7005 o de una muestra en que
X ~ 0.6995 de pulgada. En el segundo ejemplo, se calculó una probabi-
lidad de 0.2% para la probabilidad de obtener una diferencia igual a
la observada (3.1 sx) o mayor que ella ya fuera esta diferencia posi-
tiva o negativa en relación al valor de 0.700.,
Existen tres razones relacionadas para utilizar pruebas de dos extre-
mos, al probar la hipótesis de que un valor numérico dado (tal como
0.700) es la verdadera media de la población:

1. En teoría, la hipótesis se formula antes de que se extraiga la


muestra; por lo tanto, no sabemos de antemano si la discrepancia
observada entre p,h y X tendrá un signo positivo o negativo;
2. Una discrepancia observada de un tamaño dado sería igualmente
nociva para la hipótesis, ya fuera su signo positivo o negativo.
3. Una hipótesis no debe formularse de nuevo para incorporar in-
formación encontrada en la misma muestra que se está usando
para probarla.

Este último punto requiere algo de explicación. La hipótesis de que


el ancho promedio de las hojas de rasurar es de 0.700 de pulgada es una
hipótesis puntual (simple) no dice que pueda ser mayor ni menor que
ese valor. Si, al encontrar que jf es igual a 0.7031 de pulgada, calculára-
mos la probabilidad de que por puro azar se obtenga una media mues-
tral igualo mayor que 0.7031 de pulgada, estaríamos desviándonos sutil-
mente de nuestra hipótesis inicial para pasar a la hipótesis de que la
media poblacional no es mayor que 0.700 de pulgada. Implícitamente, ter-
minaríamos probando una hipótesis diferente de la que pretendíamos ini-
cialmente, simplemente porque se toma en cuenta el signo de la discre-
pancia que se encontró en la muestra que se ha extraído.
En el caso de las hojas de rasurar pareció apropiado probar la hipó-
tesis puntual de 0.700 de pulgada, esto es, de probar en ambas direcciones,
ya que presumiblemente nos interesarían tanto las hojas demasiado anchas
como las demasiado estrechas.
Diferencias entre medias aritméticas 289

Pruebas de un extremo
En otros casos, podría ser apropiado probar en una dirección única-
mente, esto es, probar lo que se puede denominar una hipótesis multi-
valuada (o hipótesis compuesta).
Si nos interesara la resistencia de cuerdas de paracaídas, no nos pre-
ocuparían las que fueran demasiado resistentes; nos preocuparían sola-
mente aquellas que fueran demasiado frágiles. Si para efectos de segu-
ridad se hubiera previsto que tuvieran, por ejemplo un punto de ruptura
de 1,000 libras, nos interesaría probar la hipótesis de que la verdadera
media poblacional fuera de 1,000 libras o mayor.
Si como resultado del azar extrajéramos una muestra cuya media
fuera mayor de 1,000 libras, inmediatamente se aceptaría como congruen-
te con la hipótesis. Solamente si X fuera menor que 1,000 libras se
impondría que nos preguntáramos respecto a la validez de la hipótesis.
Entonces sería apropiado preguntar, si la media de la población fuera
realmente de 1,000 libras o aún mayor, ¿ cuál es la probabilidad de ob-
tener por azar una media muestral menor a las 1,000 libras por un margen
tan amplio como el que hemos observado? Esto quiere decir, que el signo
particular observado en esa diferencia tiene ahora un significado im-
portante en referencia a la falsedad o veracidad de la hipótesis que se ha
formulado. En este caso, lo apropiado es probar solamente en una· direc-
ción, esto es, en términos de la probabilidad de obtener por azar una
media muestral menor alas 1,000 libras por un margen igualo mayor
que el observado.
Se efectúa un cambio, importante cuando aplicamos una prueba de
un extremo en vez de una prueba de dos extremos, en el múltiplo del
error estándar que corresponde a una probabilidad crítica dada. En una
prueba de dos extremos, 1.96crx corresponde al 5% de probabilidad crí-
tica, mientras que 1.65 es el múltiplo del error estándar asociado con el
5% en una prueba de un extremo. Cuando probamos en ambas direc-
ciones, 2.58ox se asocia con el 1% de probabilidad crítica; pero al probar
en una dirección únicamente, la combinación similar es de 2.33crx y 1 %.
Esto se puede leer en el Apéndice D para varias áreas bajo la curva
normal.
Para un 5%. de probabilidad crítica en una prueba de dos extremos
y de un extremo, respectivamente, vea la figura 10-3.

PRUEBAS DE DIFERENCIAS ENTRE MEDIAS


ARITMETICAS
Ahora consideraremos otro aspecto importante de la inferencia esta-
dística, o sea, las pruebas de significación de las diferencias entre las
medias muestrales. Esta fase se relaciona con el siguiente problema: dada
una diferencia observada entre las medias de dos muestras al azar, to-
290 Pruebas de hipótesis

A. Prueba de dos extremos B. Prueba de unextremo

-1.96CTf /Jh 1.96CT


x 1.65~

AREA<!-2.5~+f----95"70 -+2.5"10. • .... 5"h"~f----95"0 - - - -.....

Figura 10-3
AREAS DE RECHAZO: 5% DE PROBABILIDAD CRITICA
mada cada una de una población diferente. ¿ Esta diferencia debe tomarse
como significativa de una diferencia real entre las medias verdaderas
de las poblaciones correspondientes?
Para resolver este problema es necesario introducir el concepto de
una nueva distribución muestral, la distribución muestral de diferencias
entre medias. Podemos pensar en esta distribución como formada de la
siguiente manera.
Con base en un muestreo aleatorio de dos poblaciones separadas, se
formarían las distribuciones muestrales de las medias aritméticas Xl y
X 2 • Cada una de estas distribuciones muestrales es del mismo tipo que
hemos estado analizando.
Ahora imaginemos que tomamos al azar una media de cada una de
estas distribuciones muestrales y que Se anota la diferencia entre este
par de medias muestrales. Luego se selecciona al azar un segundo par de
medias muestrales, cada una a partir de su propia distribución muestra!.
La diferencia entre las medias de este segundo par casi seguramente será
diferente de la encontrada entre las medias del primer par, debido sola-
mente al azar. Podemos imaginar que este proceso se efectúa repeti-
damente. Entonces tendríamos un número infinitamente grande de valores
que representan las diferencias entre todos los posibles pares de medias
muestrales que se podrían tomar al azar de sus respectivas poblaciones.
Estas diferencias formarían una distribución teórica conocida como la
distribución muestral de la diferencia entre dos medias.
Se sabe lo siguiente acerca de esta nueva distribución:
1. De acuerdo con el teorema del límite central, la distribución muestral
de las diferencias tiende a ser normal; esto quiere decir que la variable
"diferencia.centre los pares de medias muestrales" estará distribuido
normalmente, siempre que el tamaño de la muestra sea grande.
2. La media de la distribución de diferencia será la diferencia verdadera
que hay entre las medias poblacionales (¡.L1 -. !L2). O sea, que la dife-
rencia muestral (Xl - X2) es un estimador no sesgado de la diferen-
Diferenciasentre medias aritméticas 291

cia poblacional. Esto se deduce de la proposición de que la media de


las diferencias entre dos series cualesquiera de valores es igual a la
diferencia entre sus respectivas medias.
3. La desviación estándar de la distribución de diferencias se puede es-
timar mediante la fórmula

En esta fórmula .sx es el error estándar de la media de la distribución


muestral de Xl Y SX. es la medida similar para la distribución mues-
tral de x; El valor $x, - $x. se conoce como el error estándar de la
diferencia entre dos medias?
Teniendo en mente esta nueva e importante distribución muestral,
podemos avanzar en la fase presente de inferencia estadística en términos
de ejemplos específicos.
Suponga que una empresa transportista está probando dos marcas de
llantas de camiones con objeto de decidir si una de esas marcas tiene una
vida útil promedio mayor que la otra. Se instalan cien llantas de la
marca 1 en los camiones de la compañía y se registran los kilometrajes
recorridos por cada llanta hasta que éstas se terminan; de manera similar,
se instalan 144 llantas de la marca 2 en los camiones de la compañía y se
registran las distancias recorridas. Ambas marcas de llantas son instaladas
al azar en los camiones, de la compañía para resguardar el experimento
contra cualquier desviación sistemática que pueda ser causada por las
características del manejo de ciertos camiones." (En este ejemplo se utili-
zan diferentes tamaños de muestra sólo para destacar que las dos muestras
no necesitan ser del mismo tamaño para que este método de análisis sea
aplicable.) Obtenemos las siguientes medias y desviaciones estándar (los
subíndices se refieren al número de marca) :

Llanta marca Nv 1 Llanta marca NlJ 2

nI = 100 n2 = 144
Xl = 37.4 miles de kilómetros X2 = 36.8 miles de kilómetros
SI = 5.1 miles de kilómetros S2 = 4.8 miles de kilómetros

1 En este caso, S representa el error estándar estimado en una muestra. Si


se conocieran los valores reales de población, se emplearía el símbolo u, con el
subíndice apropiado.
La variancia (S2) de la diferencia es la suma de las variancias de las medias
individuales. Un método gráfico, de verificación consiste en tomar el error estándar
de cada una de las medias como un lado de un triángulo rectángulo; por lo tanto)
el error estándar de la diferencia será la hipotenusa de ese triángulo (teorema díL'
Pitágoras) .
2 Quizá un mejor diseño estadístico para este experimento consistiría en colocar
ambas marcas en el mismo camión con objeto de reducir las diferencias que
,puedan deberse al uso y a las características de cada camión. Esta técnica de
efectuar observaciones por pares, se puede consultar en el libro de W. J. Dixon y S. J.
Massey, Introduction to Statistical Analysis (3'1- ed.; Nueva York: McGraw-Hill,
196'), págs. 119-123.
292 Pruebas de hipótesis

La prueba da a la marca NQ 1 una ventaja de Xl - ~ = 0.6 miles


de kilómetros en promedio. Sin embargo, como estamos conscientes de las
variaciones aleatorias que pueden ocurrir en una muestra al azar, no con-
cluimos inmediatamente que es mayor la vida útil promedio de las llantas
de la marca 1 que las de la marca 2. Aquí se plantea la interrogante de si
la diferencia observada en el kilometraje promedio en las muestras se
debe al azar, o si existe en realidad una diferencia entre los kilómetros
promedio de todas las llantas de la marca NQ 1 y todas las llantas de la
marca NQ 2. Esto quiere decir, que deseamos saber si la diferencia obser-
vada entre las medias muestrales corresponde a una diferencia real entre
las medias de ambas poblaciones.

La hipótesis nula
La forma para resolver este problema es la de formular y efectuar
una. prueba denominada "hipótesis nula". Esto ,significa que formulamos
la hipótesis de que no existe diferencia entre los kilometrajes recorridos
por la marca 1 y por la marca 2, y entonces procedemos a probar esa
hipótesis en base a la evidencia que proporcionen las muestras.
La hipótesis nula establece que la media de III distribución muestral
de diferencias es igual a cero. Esto se debe a que la media de la distri-
bución muestral de diferencias es (!Ll - !L2), Y la hipótesis es que no
existe diferencia entre estas dos medias poblacionales.
La diferencia observada (de 0.6 miles de kilómetros) entre las dos
medias de dos muestras al azar es, en efecto, una observación hecha
aleatoriamente en la distribución muestral de diferencias posibles entre
todos los pares de medias de muestras aleatorias. Por lo tanto, podemos
formular la pregunta: Si la media de la distribución muestral de dife-
rencias fuera realmente igual a cero, ¿ cuál es la probabilidad de que
encontremos una diferencia entre dos medias muestrales de 0.6 o aún
mayor?
Ya que la distribución muestral de la que proviene ese valor de 0.6
tiende a ser normal, podremos contestar esta pregunta al saber cuál es el
valor del error estándar de la diferencia entre las medias. Esto se calcula
a partir de la fórmula básica s x = si V-:;:
como SIgue:

5.1 4.8
sx = --.- = 0.51 sx., = . ~= 0.40
1 y 100 . y144

Vs=-X, +-s:J".\2
V (0.51)2 + (0.40)2

V 0.4201
Diferenciasentre medias aritméticas 293

Aceptación de la hipótesis nula. Así, se tiene que la diferencia


observada entre las medias muestrales es menor que un error estándar en la
distribución de diferencias (0,6jO.65 = 0.92 errores estándar, para ser exac-
tos). Si la diferencia verdadera entre las medias poblacionales fuera real-
mente cero, de todos modos, existiría una probabilidad del 36% de que
resulte por puro azar una diferencia de cuando menos 0.6 miles de kiló-
metros. En este caso particular, los resultados de las muestras indican que
no se observa una diferencia real entre las distancias promedio recorridas
por las dos marcas. Se dice que la diferencia entre las medias muestrales
es demasiado pequeña para que se la considere significativa, es decir
que es demasiado pequeña como para que represente una diferencia incon-
trovertible entre las medias de las dos poblaciones.
Rechazo de una hipótesis nula. Tomemos el mismo caso de nuevo,
pero ahora supongamos que Xl es 38.6 en vez de 37.4 miles de kilómetros.
Ahora la diferencia observada entre las medias muestrales es de 38.6 -
36.8 = 1.8 miles de kilómetros. Esto equivale a 2.8 errores estándar en la
distribución de esas diferencias (ya que, 1.8jO.65 = 2.8). Dado que 2.8
es mayor que 2.58 errores estándar que es el valor asociado con un nivel
de probabilidad de 0.01, la diferencia muestral observada es significativa al
nivel de 1%.
Realmente, si no hubiera diferencia entre }lol y }lo2, la probabilidad de .
obtener una diferencia observada igualo mayor que 2.8 errores estándar
en cualquier dirección, sería solamente 0.5%. Por lo tanto, parece muy
poco probable que la diferencia observada en este caso entre las medias
de las dos muestras pudiera aparecer por puro azar. En consecuencia, se
puede rechazar la hipótesis nula con toda justificación.
Elección entre aceptación y rechazo. En el primer caso que hemos
analizado, la diferencia observada entre las medias muestrales de 0.6 milla-
res de kilómetros o aún más podría ocurrir con una probabilidad de 0.36 % •
La mayoría de los observadores, con base únicamente en esta información
proveniente de las muestras, aceptarían la hipótesis. Tal aceptación impli-
caría 1) que no hay ninguna diferencia en la duración media de las dos:
marcas de llantas y la diferencia muestral que se observa se debería al azar,
ó 2) que hay alguna diferencia pero que las muestras han sido demasiado
pequeñas para detectarla. Por otra parte, en el segundo caso que hemos
ana1izado, las diferencias en medias muestrales de 1.8 miles de kilómetros
es significativa a nivel de 0.01, que indica con toda claridad una dife-
rencia real en la duración media.
¿Cuál sería la conclusión, si, por ejemplo, la diferencia entre las medias
muestrales fuera de mil kilómetros equivalente a 1.5 errores estándar
( 1.00 jO.65 = 1.5)? La probabilidad de una diferencia en las medias mues-
trales .de este tamaño o aún mayor es del 13%. En un caso como éste;
concluimos que la información de las muestras nos proporciona alguna
evidencia de que una llanta tiene mayor duración que la otra, en prome-
dio, pero no se puede descartar la posibilidad de que el resultado de la
muestra se deba al azar. En otras palabras, con base en la información de
294 Pruebasde hipótesis

la muestra en sí no se obtiene un resultado concluyente con respecto a la


hipótesis que se ha formulado.
Si se tiene que tomar alguna acción, como por ejemplo, qué marca de
llanta comprar, se debe incluir en el análisis de la decisión otras evidencias
además de las que provienen de la muestra. Por ejemplo, se debe tomar en
cuenta la reputación de las empresas fabricantes de llantas, los precios
de las dos marcas, así como los ahorros asociados con una mayor dura-
ción. En el enfoque estadístico "clásico", estos factores se deberían incor-
porar en la determinación de las probabilidades asociadas. con un error de
tipo 1 y un error de tipo n. En el enfoque "bayesiano" se incluyen explíci-
tamente estos factores en el proceso de toma de decisiones (vea los capítulos
13 y 14).

Intervalos de confianza para la diferencia


entre dos medias muestrales
En lugar de probar la hipótesis de que no hay diferencia en las medias
poblacionales, podría ser importante estimar la diferencia real entre las
medias. En principio, el procedimiento es m~ semejante al empleado
anteriormente al estimar la media de una población con base en la me-
dia de una muestra tomada al azar de esa población. La única diferencia
es que en este caso se utilizan la distribución muestral de diferencias y
sus medidas asociadas para formar intervalos de éonfianza.
Queremos estimar (¡;'1 - P.2), que es la media de la distribución mues-
tral de diferencias. Tenemos una observación de esta distribución muestral,
(Xl - X2 ) , que se ha obtenido de un muestreo aleatorio. Se debe esperar
que el 68% de tales observaciones se encuentre dentro de una distancia
de 51',-1'2 a ambos lados de la diferencia media; que el 95% quede com-
prendido en un intervalo de 1.96 51',-1'2 de (JL1 - P.2), etcétera. Por consi-
guiente, deberíamos tener un grado de confianza del 68% de que un
intervalo específico como (Xl - 1'2 + 51',-1'2 incluya al valor (P.1 - .P.2)
Y un grado de confianza del 95% de que en el intervalo (Xl - X2 ) +
1.96 51',-1'2 incluya la verdadera diferencia entre las medias poblacio-
nales.
En el segundo ejemplo expuesto, la diferencia observada es 1.8 miles
de kilómetros; can un error estándar de 0.65 miles de kilómetros. Por lo
tanto, podemos estimar que la verdadera diferencia entre las medias po-
blacionales queda comprendida en un intervalo de 1.8 miles de kilóme-
tros + 1.3 miles de kilómetros (o sea 1.96 veces el error estándar) y tener
un 95% de grado de confianza de que nuestra estimación es correcta.
Entonces los límites de confianza del 95% son 0.5 miles de kilómetros y
3.1 miles de kilómetros Con respecto a la medida de superioridad de las
llantas Ng 1 sobre las llantas Ng 2 si se toma como base el kilometraje
promedio recorrido.
Si se construye un intervalo de confianza de +351',-1'2 para conseguir
un grado de confianza de 99.7% de que la verdadera diferencia se localice
Pruebas de hipótesis para una proporción 295

dentro de estos límites, los límites de confianza para la diferencia entre


ambas marcas se convierten en 0.15 miles de kilómetros y 3.75 miles de
kilómetros en términos de kilómetros promedio. El signo negativo en el
límite inferior del intervalo de confianza podría confundir al estudiante,
pero realmente no hay motivo para ello. Esto significa que para tener
el 99.7% de confianza de haber localizado la diferencia real entre las
dos marcas, debemos aceptar que la marca N9 2 tiene cierta superioridad
sobre la marca N9 1.

PRUEBAS DE HIPOTESIS PARA UNA PROPORCION

Supongamos que en el capítulo 9 el problema de la vitrina para carne


en el autoservicio se ha planteado de una manera diferente -y para
propósitos de la exposición suponga que no sabemos nada de los cálculos
hechos anteriormente.
Suponga que una encuesta nacional realizada por la asociación de
tenderos de abarrotes sugirió que los clientes de cadenas de tiendas dividían
por igual sus preferencias entre el autoservicio de carne y los mostradores
atendidos por carniceros. La gerencia de una cadena regional está algo
impresionada por ese hallazgo, pero reconoce que pueden existir diferen-
cias regionales. La gerencia ha decidido reemplazar los mostradores aten-
didos por carniceros si puede conseguir suficientes pruebas de que su grupo
particular de clientes favorece el autoservicio en una proporción superior
a la mitad.
En este caso la encuesta nacional ha sugerido la hipótesis de que la
verdadera proporción es 0.50, y sólo si esa hipótesis es refutada por
la evidencia regional procederá la gerencia. Aún más, la gerencia está inte-
resada sólo en la hipótesis alternativa de que la verdadera proporción sea
mayor que 0.50; por lo tanto, una prueba de un extremo es la apropiada.
Supongamos que se extrae una muestra aleatoria de 400 clientes. A
partir de la hipótesis de que la verdadera proporción de población es
0.50 (es decir, Ph = 0.50), procedemos a calcular el error estándar de
una proporción muestral que correspondería a esa hipótesis, o sea

= JO.50 X 0.50
., 400
= 0.025 ó 2.5%
Suponga que la proporción de clientes que favorecen el autoservicio
resulta ser 0.55, entonces la diferencia entre la proporción muestral (P.)
y la proporción hipotética (PI» es 0.05. En términos de múltiplos del error
estándar, eso es
296 Pruebas de hipótesis

P8 - p¡. 0.55 - 0.50 0.05


Z =---- ----::--::-:--- = 025 = 2 errores estándar
o ·. .

0.025

Sólo el 2.3% del área bajo la curva normal se encuentra sobre el 50%
por más de dos errores estándar en la dirección de ese extremo (véase el
Apéndice D). Por lo tanto, la probabilidad es de sólo 2.3% de que una pro-
porción tan grande ocurra al azar si la verdadera proporción no fuera
mayor que 0.50. Debemos tomar nuestra decisión de acuerdo con lo tratado
anteriormente. Pero la probabilidad del 2.3% de que sólo por azar se
había obtenido esta evidencia, es ciertamente muy poca probabilidad. Por
lo tanto, ae indica una conclusión en el sentido de que la verdadera propor-
ción poblacional para la cadena regional es mayor que 0.50.

Prueba de una diferencia entre dos proporciones


Suponga que un fabricante de implementos de labranza está interesado
en saber si los granjeros en el estado NQ 1 difieren en forma significativa
de aguellos del estado NQ 2 respecto a la proporción que prefiere la mar-
ca de tractor que vende. El fabricante toma en forma separada una mues-
tra aleatoria de 100 granjeros en cada estado y encuentra la proporción
que prefiere su marca es 0.40 en el estado NQ 1 Y 0.30 en el estado NQ 2.
¿Debe tomarse esa diferencia en las proporciones .muestrales como una
diferencia significativa en las proporciones verdaderas?
Por lo ya estudiado se conoce la línea de razonamiento estadístico
mediante la cual se contesta esa pregunta. Solamente se deben introducir
las nuevas medidas apropiadas. La distribución muestral de (P8 1 - p")
se puede suponer bastante normal en muestras grandes por el teorema del
límite central.
El error estándar de la diferencia entre dos proporciones muestrales
independientes P'I y P" es:

Puesto que el simbolismo es un poco complicado, conviene escribir esa


expresión elevada al cuadrado, lo cual se conoce como la variancia muestral
de la diferencia entre dos proporciones. Por lo tanto,

o sea que, la variancia muestral de la diferencia entre dos proporciones


independientes es la suma de sus variancias muestrales."

3 Como solución gráfica o verificación, dibuje (J y (J como lados de un


PS
1
.. p,,:!

triángulo rectángulo; entonces (J P'l-


P,.
es la hipotenusa. Este es el teorema de Pi-
tágoras.
Pruebasde hipótesis para una proporción 297

Puesto que a;" = pq/n en cada caso, la fórmula anterior se puede


escribir como

donde los subíndices 1 y 2 se refieren respectivamente a los dos estados.


Ahora, en el caso presente, propondríamos y probaríamos la hipótesis
nula de que no hay diferencia en las proporciones poblacionales verdaderas.
implicadas. Nuestra hipótesis establece que PI = P2; por lo tanto, la dife-
rencia observada entre las proporciones muestrales r-,
y P" es causada por
errores muestrales,
Puesto que no conocemos PI y P2, la mejor estimación de su valor
común es la media ponderada de las proporciones muestrales (utilizando
los tamaños de las muestras como ponderaciones). Ello se consigue más
fácilmente sumando el número de granjeros que prefieren el tractor en
ambas muestras y dividiendo el resultado entre el número total de granje-
ros. Hay 70 granjeras que prefieren el tractor (40 en el estado NQ 1 Y 30
en el estado NQ 2) de 200 granjeros muestreados y, por lo tanto, la pro-
porción media ponderada es ¡; = 70/200 = 0.35.
La variancia muestral es entonces:

0.35 ~ 0.65 0.35 X 0.65


----- + -----
100 100
r: 0.00455.

Para encontrar el error estándar de la diferencia, se saca la raíz cuadrada:

O'p'l- V' . = 0.0675 Ó 6.75%

En la forma usual, expresamos la diferencia observada de los resul-


tados muestrales de la hipótesis nula como razón al error estándar de tales
diferencias. Puesto que la hipótesis nula supone que la verdadera dife-
rencia es cero, .el cálculo que debemos realizar es:

0.40 - 0.30
-------
0.0675

1.48

de manera que la diferencia observada se desvía de la hipótesis nula por


1.48 errores estándar.
298 Pruebas de hipótesis

Al consultar el Apéndice D, se ve que las desviaciones de ese tamaño,


sin considerar el signo, de un valor verdadero de cero, ocurren por azar
sólo en el 14% de todas las muestras posibles. En otras palabras, la proba-
bilidad es de cerca del 14% de que una dispersión tan grande ocurra sólo
por azar, si la hipótesis nula fuera verdadera. Esto no es significativo al
nivel de 5 ó 10%. Por 10 tanto, basados en la evidencia disponible, pro-
bablemente aceptaríamos la hipótesis nula y atribuiríamos los resultados
muestrales al azar. No tenemos suficientes pruebas para rechazar la hipó-
tesis nula, o sea, concluir que hay una diferencia real entre los dos estados
muestreados. Ello no prueba que PI = P2; la evidencia existente no permite
obtener conclusiones. El fabricante debería considerar el aumento del tama-
ño de las muestras, de manera que para cualquier probabilidad crítica dada
seleccionada se reduzca la probabilidad total de cometer un error de infe-
rencia.

APLICACIONES EN EL CONTROL DE CALIDAD ESTADISTICO


La prueba de hipótesis se utiliza ampliamente en el campo del control
de calidad estadístico, como un método sistemático de detectar o prever
problemas en los procesos de fabricación. Esta técnica ayuda también a
reducir el desperdicio y mejorar la 'calidad y diseño del producto. Los tipos
principales de diagramas de control son para variables, o características
mensurables, y para atributos o rasgos que están presentes-ausentes (por
ejemplo: una prueba de calibración "siga no-siga") o que no son medibles
(por ejemplo: el color).
El control de calidad estadístico permite la partición de la varia-
ción total de un producto en dos componentes: 1) variación fortuita es la
que resulta por causas menores de muchos tipos que se comportan de
una manera aleatoria. Este tipo de variación es permisible, y en cierta
forma inevitable, en el proceso de fabricación; 2) variación asignable es
una variación relativamente grande que se puede atribuir a causas no
aleatorias. Esta puede ser una cantidad excesiva que requiera corrección.
Desgaste en las herramientas, cambios en la materia prima, operadores
nuevos, colocación inadecuada de la máquina, todos estos factores pueden
producir variaciones asignables. El valor del control de calidad radica
en su poder de detectar rápidamente las variaciones asignables en un pro-
ceso; de hecho, esas variaciones se descubren a menudo antes de que el
producto salga defectuoso.
En un diagrama de control, se propone la hipótesis de que el "nivel"
promedio de un proceso de manufactura no cambia. Aun las medias de
muestras pequeñas tienden a distribuirse normalmente alrededor de la
media poblacional, siempre que la población sea normal. Así, suponiendo
que sólo la variación fortuita está presente, se puede predecir que el
99.73% de las medias muestrales quedarán dentro del intervalo p. + 3ux,
que son los límites arbitrariamente utilizados en la industria de los Estados
Unidos. Lo mismo se aplica a proporciones muestrales (por ejemplo: la
Aplicaciones en el control de calidadestadístico 299

proporcion de bujías de encendido que estaban defectuosas), que tienden


a una distribución normal cuando n es grande. Si una media muestral o
proporción queda fuera de esos límites, la hipótesis se acepta y se permite
que el proceso continúe. Pero si el valor muestral queda fuera de los
límites de 3<T, se sospecha que hay variación asignable y se rechaza la
hipótesis. Entonces se detiene la operación yse corrige.
En un diagrama de x: o diagrama de control de promedios, la escala
horizontal se designa por un número de subgrupo. Los subgrupos son
muestras que Se han tomado en un cierto orden. La escala vertical se
denomina X. En el punto X (la media de varias muestras) de la escala
vertical, se traza una línea central horizontal. Por debajo y por arriba
de esa línea a una distancia de 3u:x, se trazan líneas punteadas paralelas.
Es.as constituyen los límites de control superior e inferior (LCS y LC!).
Las medias de los subgrupos se grafican a intervalos iguales de izquierda
a derecha.
Es costumbre utilizar muestras pequeñas -digamos de 4 ó 5 artículos
cada una- en diagramas X para poder señalar una pronta alerta si el
proceso va mal. Generalmente, para simplificar se estima por medio
de una tabla de desviación estándar del promedio de las amplitudes de
varias muestras.
Examinemos como caso real un disco de cerámica usado en el condensa-
dor de un televisor. El diámetro del disco se debe controlar luego que es
sometido al fuego en 1;'n horno, proceso sujeto a numerosas fuentes de
variación. El diámetro del disco ya sometido al fuego se especifica como
de 500 milésimos de pulgada. Un inspector torna 20 subgrupos de cinco
discos cada uno y anota las lecturas en milésimos de pulgada corno des-
viaciones de 0.500 de pulgada.
Los resultados aparecen en la figura 10-4. Todo~ los puntos están
dentro de los límites de control excepto el subgrupo 12, que indica la
existencia de complicaciones en esa etapa, lo que tal vez ocasione paradas
y reparaciones. Sin embargo, en este caso se encontró que el proceso
no tenía variación asignable, puesto que el lote del cual se extrajo
el subgrupo 12 había sido previamente rechazado por no estar dentro
de los estándares de densidad, pero se había seguido procesando por
error. Por lo tanto, se calcularon una media revisada y límites de control
para los restantes 19 subgrupos, y se dibujaron en la parte derecha de la
figura 10-4, para posterior control del proceso.
El hecho de que los promedios muestrales sigan la distribución normal
cuando no hay variación asignable se puede utilizar para detectar lo que
va mal en un proceso aunque no haya puntos fuera de los límites de
control. Si no hay problemas, los promedios muestrales deberían distri-
buirse. al azar alrededor de la línea central, con más puntos cerca que
lejos de ella. Por lo tanto, si una corrida excesivamente larga, digamos
de 7 puntos o más, ocurre en un solo lado de la línea central, hay pruebas de
que ha entrado una variación asignable en el proceso, que causa una
300 Pruebas de hipótesis

DIAGRAMA X DE CONTROL PARA EL DIAMETRO DE LOS DISCOS


DE CERAMICA SOMETIDOS AL FUEGO
Unidad: milésimas de pulgada
i Revisi6n
LCS=3.14
¡
2
1
X ~-..:llr--:-+--4""'~~-Pr...p.r--J:'-'-=--r::-':"~'-----­
-1
-2
-3

NClmero de subgrupo
2 4 6 8 10 12 14 16 18 20 22 24 26 28

Figura 10·4

desviación en el nivel del proceso, aunque no haya puntos fuera de los


límites de control.
Por otra parte, si hay tendencia hacia arriba o hacia abajo en los
puntos del diagrama de control, también hay pruebas de variación asig-
nable. Ello es frecuentemente el resultado del desgaste gradual de las
máquinas o herramientas. Así es evidente que' en muchos casos un dia-
grama de control, si se interpreta correctamente, puede dar un indicio
sobre problemas que pueden presentarse de inmediato aunque ninguno
de los puntos haya excedido todavía los límites. Se puede entonces realizar
la corrección necesaria para evitar la producción de artículos no satis-
factorios.
Los diagramas de control se utilizan también para atributos, tales
como el diagrama p para la proporción de unidades que tienen algún

DIAGRAMA p PARA LA INSPECCION DE BUJIAS DE ENCENDIDO


(24 lotes con 200 bujías cada uno)

Fracción defectuosa
P LCS=O.081
.08

.06

.02
LCI=O
2 10 12 14 16 18 24
Número de lote
Figura 10-5
Resumen 301

defecto. Generalmente este diagrama da mejores resultados cuando el


tamaño de la muestra es grande por lo menos de 50. La línea central
se coloca en p, la fracción defectuosa promedio, donde ¡; es el número
de artículos defectuosos dividido entre el número total de artículos inspec-
cionados. Los límites de control están a 30'p de la linea central.
Por ejemplo, la figura 10·5 muestra los resultados de una inspección
visual de 24 lotes de bujías de encendido, cada lote constituido por 200
bujías. Se nota que el lote 5 ha excedido el control superior, pero que los
últimcs ocho lotes están todos debajo de la línea central, indicando que
el proceso puede haber mejorado como resultado de la alarma dada
por el lote 5.

RESUMEN

Podemos realizar una inferencia estadística ya sea construyendo un


interoalo de confianza (como se describe en el capítulo 9) o probando
una hipótesis. En el último caso formulamos una hipótesis con respecto
al valor del parámetro, por ejemplo, la media de la población Si la
media muestral se acerca a la media hipotética, se acepta la hipótesis;
de lo contrario se rechaza.
En el caso de la máquina que produce hojas de rasurar con un ancho
promedio de 0.700 de pulgada, se extrajo una muestra de 100 hojas, de la
que resultaron los valores X = 0.7005 de pulgada y s = 0.010 de pulgada:
de donde Sx = s/y'; :: 0.001 de pulgada. Ya que la media muestral se
alejó solamente 0.5 errores estándar de la media hipotética, el valor co-
rrespondiente a la de obtener tal discrepancia solamente por azar, es' del
62% y, por lo tanto, se ácepta la hipótesis. Sin embargo, en un segundo
intento el valor de la muestra fue X = 0.7031 de pulgada, y la hipótesis
(P,A = 0.700 de pulgada) se rechazó, ya que era muy poco probable
que' tal discrepancia pudiera ocurrir sólo por azar. Generalmente se acepta
una hipótesis razonable a menos que sea muy baja la probabilidad (diga-
mos, menor del 5% o aun del 1%) de que la discrepancia observada en la
muestra pueda atribuirse al azar. El problema es cómo fijar esa probabi-
lidad crítica, tal que un resultado muestral con una probabilidad asociada
inferior nos lleva a rechazar la hipótesis. El rechazo de una hipótesis sig-
nifica que lo que habíamos postulado es falso. Sin embargo, la aceptación
de una hipótesis no necesariamente prueba que ésta sea verdadera. Puede
ser que la muestra sea demasiado pequeña para detectar una diferencia
significativa.
Podemos cometer dos tipos de errores al probar hipótesis:
1. Tipo 1: rechazo de una hipótesis cierta.
2. Tipo II: aceptación de una hipótesis falsa.

Fácilmente podemos controlar la probabilidad de incurrir en un error


de tipo 1, ya que ésta es igual al nivel de la probabilidad crítica que
302 Pruebas de hipótesis

fijamos de antemano. Desafortunadamente, para un tamaño dado de


muestra, podemos reducir la probabilidad de cometer un error de tipo 1
sólo a expensas de incrementar el riesgo de cometer un error de tipo 11.
La probabilidad de incurrir en este último error es desconocida, ya que
depende de cuán lejos se encuentre la media hipotética de la media
verdadera.
Tomando una muestra mayor, se reduce la probabilidad combinada
de cometer ambos errores. En particular, y al tomar una muestra más
grande si la probabilidad crítica permanece constante, la oportunidad de
cometer un error de tipo 1 también es constante, pero el riesgo de cometer
un error de tipo n se reduce.
Una curva característica de operación o curva OC muestra la proba-
bilidad de cometer un error de tipo II (esto es, de aceptar la hipótesis
cuando es falsa) para una probabilidad crítica dada, dependiendo de
cuanto se alejen la verdadera media y la media hipotética. Mientras más
se alejen estas medias, es menor la probabilidad de cometer un error de
tipo II.
La probabilidad crítica que se utiliza en las pruebas de hipótesis, se
determina en el enfoque "clásico" de inferencia estadística, buscando un
equilibrio entre los errores de tipo 1 Y-de tipo II. Si un error de tipo 1 es
relativamente más importante que un error de tipo II, se debe fijar un
nivel relativamente bajo para la probabilidad crítica. Cuando no se pueden
determinar los costos relativos de cometer cada uno de esos errores, las
probabilidades críticas se fijan arbitrariamente en valores del 5 o del 1%.
En el enfoque "bayesiano" de inferencia estadística (capítulos 13 y 14)
se incluyen tanto las consecuencias económicas como el juicio a priori
del que toma la decisión, junto con la información de la muestra para
tomar una decisión.
Muchas veces los estudios comerciales y económicos reportan un resul-
tado muestral como, por ejemplo, "significativo al nivel del 1 por ciento".
Tales declaraciones describen el error de muestreo asociado con una
muestra, e indican que una hipótesis implicada debe rechazarse si se
usa una probabilidad crítica del 1%. Comúnmente se usan los niveles
de significación del 10, 5, 1 Y 0.1%, y se reporta la probabilidad más
pequeña a la que la hipótesis deberá ser rechazada.
En la prueba de hipótesis, se pueden efectuar de uno o de dos extre-
mos. Las pruebas de dos extremos toman en cuenta las áreas bajo ambos
extremos de la curva normal (figura 10-3). En la mayoría de las situa-
ciones prácticas ésta es apropiada porque nos interesan las discrepancias
ya sea por debajo o por arriba de la media hipotética. Sin embargo, en
caso de que solamente nos interesen las discrepancias en una sola direc-
ción, es más conveniente utilizar una prueba de un extremo, que toma
en cuenta solamente el área bajo un extremo de la curva normal. La regla
de decisión es, por lo tanto, la de rechazar la hipótesis si (j[ - ¡.th) SX
excede los siguientes valores:
Resumen 303

Probabilidad crítica Prueba Prueba


elegida de dos colas de una cola

5 % ; 1.96 1.65
1 % 2.58 2.33
También podemos probar si la diferencia entre dos medias muestrales
significa una diferencia real entre las medias de población o si la diferencia
observada se debe meramente al azar. Para hacerlo se calcula el error
estándar de la diferencia (teóricamente, la desviación estándar de una
distribución de diferencias entre muchos pares de medias muestrales), en
base a los errores estándar de las medias individuales. Entonces podemos
probar la hipótesis nula (de que no existe diferencia entre las medias pobla-
cionales) expresando la diferencia entre las medias muestrales en relación
a su error estándar. Si esta razón es pequeña, aceptamos la hipótesis nula;
de otra manera la rechazamos, dependiendo de la probabilidad de que la
diferencia se pueda deber al azar (del Apéndice D), y equilibrando las
consecuencias de incurrir en los errores de tipo 1 y de tipo n, tal como
antes. También podemos establecer un intervalo de confianza alrededor
de la diferencia entre las medidas muestrales, basado en su error estándar
tal como se hizo con anterioridad.
Las pruebas de hipótesis se pueden aplicar a las proporciones calculando
1
el error estándar en base a la proporción hipotética Ph. Luego la desvia-
1
ción de la proporción muestral de ese valor (Ps - Ph) se divide entre el
S
error estándar para determinar si es suficientemente grande para ser sig-
nificativo. En esa forma, si la desviación estandarizada es 1.96 o más (en
una prueba de dos extremos), es significativa al nivel de probabilidad
crítico del 5%, y así sucesivamente (Apéndice D).
También podemos probar si la diferencia entre dos proporciones (PSI -
PS2) es significativa dividiendo la diferencia entre su error estándar, donde
Sp2 _p
SI
8 12
= 'p2 + 'p2 Si esta diferencia estandarizada es 1.96 o más, es sig-
81 8;2

nificativa al nivel del 5%, etcétera, igual que antes. Cuando probamos la
hipótesis nula de que no hay diferencia entre Pt y P2' utilizamos el valor
promedio de las proporciones muestrales, ponderándolas conforme al
tamaño de las dos muestras, para calcular el error estándar de la dife-
rencia.
El control de calidad estadístico es una aplicación de la prueba de
hipótesis en la industria. Se usan diagramas de control para separar la
variación fortuita normal de la variación asignable (atribuible a causas
no aleatorias) de manera que esta última se pueda reconocer de inme-
diato y remediarla.
El diagrama X para variable se utiliza para controlar el valor pro-
medio o "nivel" de una característica. En un diagrama x: se dibujan
líneas horizontales en la media estimada de población dibujada en la
escala vertical y en los límites de control 30x por arriba y por abajo de la
media. Se grafican los promedios de los subgrupos a intervalos iguales
a lo largo del eje horizontal.
104 Pruebas de hipótesis

Casi todos los puntos deberían quedar dentro de los límites de control
de un diagrama X si la única variación presente fuera la fortuita. Si un
punto queda fuera de los límites o si cerca de siete o más puntos consecu-
tivos quedan en un solo lado de la línea central o si muestran una tenden-
cia hacia arriba o hacia abajo, es que probablemente hay presente una
variación asignable. La cual debe corregirse prontamente.
El ejemplo del disco de cerámica ilustra cómo interpretar un diagrama
de control y si es necesario, revisar los límites. El control 'de atributos se
puede conseguir a través del uso de diagramas p para la proporción de
unidades que están defectuosas. Esos diagramas se construyen e inter-
pretan en forma similar a los diagramas de control para variables.

PROBLEMAS
1. Establezca la diferencia entre:
a) Pruebas de hipótesis e intervalos de confianza.
b) Errores de tipo 1 y de tipo II.
t) Cómo encontrar la probabilidad asociada al error de tipo 1 y de tipo II
a partir de una curva característica de operación.
d) Pruebas de uno y de dos extremos.•
e) El uso de las pruebas de hipótesis para tomar decisiones y para presentar
reportes.
2. Explique
a) Cómo probar la hipótesis de que una proporción muestral de 0.45 es sig-
nificativamente menor que 0.50.
bo) La hipótesis nula para la diferencia entre dos proporciones muestrales,
e) Cómo determinar si un proceso es capaz o no de cumplir especificaciones
en el control de calidad.
3. Distinga entre:
a) Variación fortuita y variación asignable en el control de calidad.
b) Diagramas X para variables y diagramas p para atributos.
e) Dos situaciones en las cuales el patrón de puntos en un diagrama de con-
trol indicaría que hay algún problema aunque ninguno de esos puntos
quede fuera de los límites de control.
4. Una muestra aleatoria de 144 ladrillos para construcción tiene un peso medio
de 6.9 libras y una desviación estándar de 0.3 libras. ¿ Es probable que esta
muestra venga de una ladrillería que produzca ladrillos con un peso promedio
de 7 libras?
5. Una cadena de tiendas de abarrotes adopta la política de entregar billetes de
premio (del tipo de bonos) en todas las compras. Antes de iniciar este sistema,
las ventas promediaron $16.00 por cliente durante el año pasado, con una
desviación estándar de $4.80. Al finalizar el período de prueba con este nuevo
sistema, se efectuó una prueba aleatoria con 400 clientes y se obtuvo un
promedio de ventas por cliente de $16.80. Diga si el sistema de billetes de
obsequio ha incrementado el promedio de ventas.
6. Cuando una máquina está ajustada, debe producir piezas cuyo diámetro pro-
medio es de 0.300 de pulgada con una desviación estándar de 0.012 de pul-
gada. Se analizaron 36 piezas escogidas al azar y se observó un diámetro
Resumen 305

Tl"t o rn cdiD de 0. 303 de pu lgada . !\ su jU 1C1G ¿ :'le e ncuen tran las m áqui n as
todn.vía a j ustadas ? E xp liq ue el p orq u é.

Si se ca m bi a ra la prob a b ilid ad crít ica d e 5 a 0.1 p or ciento, c u ál sería el


efecto que tendr ía sobr e :
a ) (.La prob abilidad de rechazar una h ip ótesis ver d adera?
b) <, L a p r o ba bilid a d d e aceptar u na h ipótesi s fa lsa ?
ingen ieros de tina fá brica de m áq ui n as- herram ien ta han diseñado u na
nu eva op eración de maquin a do con la esp e ranza de qu e requeri rá un ti empo
, p rom ed io de 24 m in utos, con una desviación estándar de 4 m inutos.
a ) Si se muestrean 64 o pera ciones de este proceso, ¿ c uá l es la proba b ilid ad
de q ue la m ed ia m uestra! X sob reestim e el p ro m edio d el p ro ceso p p or un
m in u to o más? ¿ Cuál es la proba bilida d de que ex ista un error de un m inu-
to o más en c ualquier di rección?
b ) Desp ué s d e q ue se esta blece el proceso, se m ue st rean en la realidad 64
operaciones , con X = 25 .3 min utos y s = 4 m in utos . P r uebe la h ipó tesis
n ul a d e que el prom edio de! p roc eso es todavía de 24 m in utos.

9; Una m áquin a p ro d uce al a m bre p a ra a ta r con u na resisten cia prom ed io a l


rompimien to de 70 libras, c ua nd o la máq uina está con ve nie nteme nte a j ustada.
Lueg o d e que la m áqu in a ha es tad o en opera ción p or algún tiempo se p rueb a
una m ues t ra de 36 piezas, que res u ltan tener una re sistencia m ed ia d e 68
libra s y una d esviació n est á n d a r de 3 lib ra s.
¿ Ne cesita rea j ustes la m áqu in a ? ( Es decir, p r ue be la hipó tesis de q ue
l.c e 70. ) E xplique la sign ificaci ón d e los cálc u los .
b ) Es ta blezca u n in terva lo d e con fia n za d el 99 (í~ alred edor de la me d ia
muestra! y ex p liq ue su sign ificado.

10. a) Su p onga q ue la hi pó tesis n ul a es Il h


J.>;) ;-
= 14 .0, n =
25 , o =
2.0 y la p roba -
bil id a d cr í tica es de 0.05. U sa nd o la fig u ra 10-2, ¿ c uál se ría la probabili-
d a d de co m e te r u n er ror de tipo JI si la p. po blacio nal ve rd a d era fuese
de 15 . 0 ·~ ¿ Y si la 11- ver d a dera fuese d e 14, 5 ?
b) ..¿ C u ál se rí a la proba b ilid a d d e co m e ter un error de tip o Ir si el ta n milo
d e la m ues tra se aume nt ara a 36 y la p. ve r d a dera fu ese d e 15.0? ¿ S i la
fJ. ve rd a dera fu ese de 14.5?
e ) ¿ C uá l seria la p robab ili dad d e co meter un error d e t ipo II pa ra n = 25 ,
si se va a u tiliza r una p ro babili dad crít ica de O.OI y la JJ. verd adera f uese
15. 0 ?, ¿y si fu ese 14-.5?

E l t iem p o es tán dar para deter m inada op erac ion de en sa m ble es d e 2. 4 mi n u-


tos . D ura nte la s d os últimas semanas se ha ob servado a l se ñor Pé rcz y se ha
cronometrado 32 veces el tie mpo que tar d a en co nclu ir el e nsambl e. 'L os
res ultados d e dicha observación son los sig uie n te:': X = tiempo en minutos
emp leados po r el se ñor P érez para co ncl u ir el cnsa m blc ; n =
32, núm er o de
veces q ue se rea lizó la observ a ción ; X = 2.8 m in u tos ; :ZX =--= 89. 6 ; 2:X 2 = 3 20. 6 3.
Si son obv ias la s pr ue bas d e qu e el señ or Pé r ez no es tá c umpli en do con el
t iempo estándar 'd ebe recibi r un nue vo en tre namien to . ¿ Q ué conclusión se
p ued e sa ca r a partir d e los res ul tados de l eje m p lo ? ¿ Q ué m ed idas se deben
torna r ?

Se d ise ñó una herram ie nta ne um át ica q ue d(~be func ionar a una presió n
de 20 ki los p or ce n tíme t ro c ua d rado. S in e m ba rgo, se recibreron
qu ej as de que la presión necesari a para hace r func ionar d icha herrami enta
supe raba l os 20 ki los por ce n rimct ro cuad rada es tán da r. Pa ra ver ific ar e st a s
rec la m a ciones se to ma ro n 4 0 herramie ntas dc la linea d e p ro du cc ión y se
re visó la p re sión necesa ria pa ra el fun cion a mien to d e ca d a una d e ellas b aj o
306 Pruebas de hipótesis

condiciones de experimento controlado, obteniéndose los siguientes


X =
presión en kilos por centímetro cuadrado necesaria para hacer
nar una de esas herramientas n = 40; :EX = 740; 2:X2 = 14,04l.
a) ¿ Considera apropiada una prueba de uno o de dos extremos
caso?
b) ¿ Qué conclusión puede sacar a partir de la prueba estadística de
pótesis?
e) ¿ Responde a la queja de los consumidores la respuesta que dio
pregunta (b)? ¿ Por qué?

13. Un fabricante de focos desea probar si la vida promedio de sus focos es


rior o inferior al estándar de 2,000 horas. A tal efecto han tomado una
tra de 200 focos y usado una probabilidad crítica para una prueba de
extremos del uno por ciento. Por experiencias anteriores, se sabe que la
eión estándar de la vida promedio de este tipo de focos es de aproximadamente
1,000 horas.
a) ¿ Cuál es la hipótesis?
b) ¿ Qué significa, para este caso, un error de tipo I? ¿ Cuál es la
dad de cometer un error de tipo I?
e) Suponga que la verdadera vida promedio se desvía en 100 horas de!
Ciar. ¿ Cuál es la probabilidad de que la muestra detecte la diferencia?
d) Suponga que la verdadera vida promedio se desvía en 200 horas
tándar. ¿ Cuál es la probabilidad de que la muestra detecte la
e) Suponga que la verdadera vida promedio difiere del estándar en
horas. ¿ Cuál debe ser el tamaño de muestra necesario para detectar
diferencia con sólo una probabilidad en 10 de incurrir en un error
tipo II?

14. Un distribuidor de cosméticos ha conseguido cobrar sus cuentas pendientes


a un plazo medio de 18 días, durante el año pasado. Este promedio se consi-
dera un estándar para medir la eficiencia de! departamento de crédito y
cobranzas. Sin embargo, durante e! mes en curso, un chequeo aleatorio de 10.0
cuentas dio como resultado un promedio de 20 días, con una desviación están-
dar de 9 días.
a) ¿ Es este resultado significativamente diferente del estándar al nivel de
nificación del 5 %? ¿ Al nivel de 2 %? Explique por qué.
b) Si la gerencia tiene razón para creer que el cobro de cuentas se está
zando más despacio, y está interesada sólo en la posibilidad de
edad promedio de las cuentas por cobrar ha aumentado, ¿ es significativo
el resultado de la muestra mayor que el estándar al nivel del 5%?
nivel del 2%?

15. El gerente de crédito de una companra opina que el saldo promedio de


estados de cuenta, enviados por correo a los clientes que utilizan sus tarjetas
de crédito, es por lo menos de $32. A fin de verificar esa opinión, el auditor
interno toma una muestra de 64 estados de cuenta y encuentra que el saldo
promedio adecuado es de $30 con una desviación estándar de $12. Con base
en esta información, ¿ qué se puede decir acerca de la aseveración del gerente
de crédito?

] 6. E n otra cornparua un auditor toma 36 estados de cuenta de tarjetas de cré-


dito. Encuentra que el saldo promedio es d e $34· con una desviación estándar
$ ¡ O. ¿ Existe una diferencia notable entre el saldo p romedio de los estados
de clientes con tarjetas de crédito de esta empresa y los del ejem-
Problemas 307

17. Un agente de com p ra s para u n fab ricante de eq uipo eléctrico desea comp arar
el espe sor promedio d e d os em barq ues de ta b lilla de a isla m ien to de Ys de
p ulgada, q ue co ns iste en 200 hojas que se acaba n d e re cibir del proveed or
A y 200 h ojas del proveedor B. Es ta tablilla se utiliza en la fa bricació n d e
tran sformadores de p otenc ia . El espe sor es la prin cipal ca rac terí sti ca que in flu ye
en la calidad d e la tablill a y, por consiguient e, la cal idad del t ran sformador .
Se han m ed id o to da s la s h oja s co n un micróm et ro de O a 1 p ulgad a , con los
sigu ien tes resu ltados, en mi lésim a s de p ulgad a:

Proveedor A P rove edor 11

Media . 124. 76 125 .36


D esviación estándar . 2.63 3. 10
Tamaño d e la m uestra . 200 20 0

Supon iendo q ue eso s lo tes son m ues tras aleatorias de la p roducción de cada
provee dor, ¿ in dica esta prue ba q ue el p ro ducto de B es su perio r en espesor?,
¿ se de be la di ferencia a l error de m ue streo? M uestre los cálcu los y explique
su re sp uesta .
Se est á co ntrola nd o el tiempo ne ce sa rio p a ra que las cajeras de spa ch en a los
cl ien tes en un su permercado. Pa ra u n a muestra de 36 cli entes en cad a c aj a ,
Mar ía emplea u n p ro med io d e 6 minutos con un a d esvi ación estánd ar de 3
min utos m ientra s que J ua na em plea un promedi o de 8 minu tos co n una d es-
viación es tá n dar de 5 min utos. Diga si la d iferen ci a en el tiempo promed io
emp lea do po r la s do s much ach a s es significa tivo a u n n ivel del 5 %. (Use
u na p rueba d e d os ex trernos.)
U na com pañía d e caf é está p rob a nd o do s nuevos envases para su ca fé in st a n-
táneo. Se eli gieron 200 tien d as d e abarrotes; en 100 de ella s se colocó un t ip o
de envase y en las 100 restantes el otro . El vo lumen m ensua l de ven tas
d e los en va ses n ue vos se ex p resó en form a de porcentaje de la s ventas m en o
su a les de los m eses a nterio res. Se llevó u n registro para cad a ti en d a . Para
el en va se A, el a um en to de l prom ed io de vent as fue d el 3% con una d es-
via ción está nd a r de l 20% . Pa ra el envase B, el a u m en to d el p rom ed io de
ve ntas fue d e 8% con u na desv iación está nda r de 24%.
a ) ¿ Existen prue bas sign ificativas de q ue el in crem ento en el promedio de
ventas del e nva se A sea mayor d e O% ?
b ) ¿ Ex iste n p ru ebas sign ificativas de que el in crem en to en el promedio de
ventas del envase B sea mayor d e O% ?
e) ¿ Existe u na diferen cia sign ificativa en tre la s m ed ias muestrales?

Se prueban d os n ue vas m arc a s de cigarros pa ra ver cuál de las dos se qu em a


en meno s ti empo . Se prueba n 100 cig a rri llos d e la marca NQ 1 Y 144 d e la
marca NQ 2. Se obtienen los val ores que se enunc ia n a contin uación:

C iga rrillo N9 1 Cigarrillo N 9 2

~l = 10 0 =
!!.2 144
Xl = 9.36 m inu to s X 2 = 9.00 minu to s
SI = 0.8 3 m inutos S2 = 1.20 m inu tos

.,C a lc ule la d iferencia en tre la dura ción d e la s do s m a rcas y det ermine un


h in terva lo d e co nf ianza d e 95 % para dich a d iferenc ia.
banco se espec ia liza en p rést amos a indust rias pequeña s, pa ra lo cual d ebe
una ev a luación m inuci osa d e la situa ción financ iera d e ca da una d e
ell as. C on est e propósito, un ag ente de cré d ito analiza los esta d os financ ieros

.~-:
] 08 Pruebas de hipó tesis

y las solicitudes e incl usive entrevista a l soli ci ta nte si así lo desea ; a sí se


forma un a opi n ión re spe cto a la ta sa de c réd ito del mi sm o. El re su ltad o de su
a nálisis se e val úa m ed ia nte u n núme ro e ntero co m prendido e n t re el O y el 9,
u sa n d o el 9 para u na tasa exc ele n te y el O para una t a sa mala .
E l gerente del banco deseaba esta r seguro de q ue a m bo s a ge n tes de e ré -
d it o, el se ñor Pé r ez y el se ño r López, estaba n u sa ndo el m ismo están dar al'
evaluar las tasas d e créd ito . Se escogier on 30 cli en tes al a za r y a m bos a ge ntes
fueron en via d os p or separado con ca da u no d e ellos , siendo los r esultados
d e sus res pectivas invest igacio nes los sig u ien tes :

N ú mero de E valua ción Eo a íuo ci ón:


solicit ud d el señor P érez del señ or L ópcz D ife re nci a.
d e cré di to X, Xa d

1 8 7 1
2 5 3 2
3 6 7 -J.
4· 9 9 O
s J. 2 -1
6 4- 2 2
7 Si Si O
8 8 () 2
9 7 4- 3
10 5 6 - 1
11 2 1 1
12 2 2 O
13 1 O Í
14- 6 7 -1
15 5 4- 1
16 3 3 O
17 6 6 O
18 6 5 1
19 4- S - 1
20 3 1 2
21 6 6 O
22 5 4- 1
23 4- 4- O
24- S 5 O
25 4- 3 1
26 3 5 - 2
27 1- 3 1
28 8 9 - 1
29 8 5 3
:W 4- 3
T o tal 147 13T -1- 15
M ed ia 4.90 4-.40 0.5-
S UHl a de cua d ra d os 849 726 5". )

L a ge re n cIa s¿J.b ía qu e h a b ría d ife ren c ia s entre ambas eval uacion es, pero
desea ba qu e 'los age ntes de c réd ito diesen la mism a evaluaci ón en promedio.
el ) U sa n d o las ev a luaci o ne s de a rribos a g entes para los 30 cli en tes COnH) muest ra s
se p a ra das, prueb e la h ip ó tesis de que no h ay d iferencia e n s us eval uaciones,
en ·p :t o111edio. t: E xiste un a d ifere nc ia sig n ifica tiva ?
Problemas ]09

b ) L a c u arta co lu m n a d e la t ab la corresp on de /:l. l',L d ifer e nci a d )


e va luacio n es. Usa n do es te co n j u n to de 30 o bse r va c io n es c om o u n a soj a
m uestr a p r u eb e la h ipótesis d e q ue la med ia de la diferencia d e s ig ual .2. O.
t~ Se a precia un a d ifere nc ia sig nif icativ a?
e) C ompare los dos m étod os, d e Jos inci sos (a) y ( b), p a n , 1<, ev a l ua c ió n d e
la dife rencia e n tre la s m ed ia s, ¿ P or qué es m ás e fici en t e la s ~g u n da, que la
prim er a ?

22. A nalice e í problema B d el capít ulo 4. ¿ Se aprec ia un a di fe r enc ia significa tiva


en la dura ci ón promedio d e lo s dos tipos d e fo cos ?

23. Un su perviso r de prod u cció n d ese a esti ma, e l p or cen t a j e d e tiern no oc ioso d e
u na m áq ui na d eb id o a desco m p ostu r as, dem ora s, et cétera. P uesto q ue ser ia difí-
c il manten er r cg ixtros p r ec isos, se es table ci ó u n proce d im ie nt o d e m u es t reo, E n
'c"'a Icrma , e l esta d o d e la máq uin a Jo rev isó el su p er visor en un p erio d o d¿:
c ua tro semanas e n for m a a le a to r ia (o sea , los t iern pox f UCnJI1 se leccionados
d e anteman o u tiliza n d o u n a tabla d e n úm eros a lea t or ios }, Este p rocedimie n to se
conoc e como m uest re o del t raba jo . S e h ic iero n e n total 30 0 cheq ueos a la m á-
q ui lla, y en 24· de e llo s la m áq u in a esta ba oci osa.
a) E st im e el p o rc e n taje d e t iempo ocioso en la m áq ui n a y c a lc u le un in te rva lo-
d e con fianza d el 90 % a lred ed or d e la est im a ción .
b ) D ete rm in e si el porcen taje d e t iempo oc ioso es sig n ifi cativam ente men or qu e
el 10 tj~ .

'.24. E n u n a e n c uesta de pref eren c ia d e marcas d e 1,600 co nS U L " " :':~ en u n a área
dada, 760 ex presa r on su p refe re n c ia. por la m a rc a A y 8 40 i~ n .: ' toda s la s o tras
rn a r c a s com b inadas ,
a) C onst r uya u n in t e rvalo d e con fi anza del 95 % para la propor ci ón que fa vo-
r ece a la m arca A.
b) ¿ E s la proporc ió n d e co n sumid or es q ue prefie r en la m arca A sig nificati va -
men t e menor q u e u n medio ?
¡;o) ¿ Es la prop orción de cl ientes qu e pre fieren la marc a A en es t a ci udad sig-
nifica tiva m en te di fer e n t e de la q ue ex ist e en ot ra c iu d ad , d o n d e 60 0 con su-
m id or es de 1,2 0 0 p r ef ir ieron la ma rc a A ·,'
d·) C o ns truya un interva lo d(>. co nfia nz a. de l 99(;0 p a ra la d ife ren c ia prob a d a
e n la p arte (e ) .

25. E l fa b ricante a firma q u e la v id a m edi a de cier to t u bo e le c tr ón ico es, de GO(J


h ora s. Se extra e una m ue st ra a leator ia d e 10 0 d e un em ba r q ue d e esos t u bos
y se encuen t ra q u e sólo 23 d ura r on más d e 60 0 h o r a s. ,: Cre e u ste d e n la usc ve-
r a ción d el fa bric a nte ? {l. Po r q u é? (Adve rt enci a : 50 (~ de lo s va lo r es exc ed e n
la m ed ia n a . )

26 . Desp u és d e encon tra r q u e L3 de los 100 t u b os elec t r ón icos del fab r ic a n te J'\J f.l 1
d uraron m ás d e 6 00 h o r a s, se ordenó UH embarq u e de t ub os sim ila res a un
fa bric an te N() 2 }' se e ncontré q ue 5 2 t ubos de: una m ues tra al ea to ria de 20 0
duraro n más d e 60 0 hor a s. ;~ E x iste u n a di fe re n ci a sign i.ficat!va en la d u r ac ión
de t u bos a m bos fab rica utev? ¿ Po r q Ul:?
27. Un d j tcc ~ o .t d e i n ·.· !~s tigac j i;:,'l de u na com pañi a de mo linos d t.: .h ~lJ.-ina, i .':~be
med ir lr.t rea cci ón d el con s um id o r ~ ¡ un a nueva hari na para past eles en corn -
para c i ón co n la marca :f;, q ue se rá su pri nc ip a l competidor .
a) Suponiendo q ue se intenta r~a liz:t.r u na prueb a d e sa bor con 11:..1 3. m u estra
a le:,;to:r¡a (le co ns u mi dore s en C h ica go, y .e Cic::c·¡'t;, S ~ '::: ~; pc,~;i. b l e) d etu. -·
m inar L:;. p :r (o fr~ t"c nc. ,;. a de le;' co nsu. nido rc s con un {Je (a.1 L ,) '/ !..d
d r- co nfia nzr, d e 2(;" ) , ¿ q ué tama ño de m uestra se tO:nU2J' ~I Su p u ngz.
~1 jrr i of i q u e ;::t m it ad dc: l os consumidores p refiere el pr od ucto q :."e S~~
t.~t á p roba ndo .
31 () Pruebas de hipótesis

b) Si los res ultados d e las primeras 400 e n t revista s in di can que el 57% de
los consumidores entre vistados prefieren el nuevo producto, ¿se puede '
suponer co n ce r teza q ue h ay una ve rd a d era p referenci a por él ? ..
c- ) E n un seg un do con j un to d e 300 entr evi sta s r ea liza d a s e n M ia mi, el 60 %
prefirió el nuevo prod ucto . Su p on ien d o que ambas muest ras e ran aleatorias:
y q ue las e nt re vistas se realizaron sin sesg o, ¿ hay una di fe ren cia sig nifi-'
cativa e n la preferenci a por el prod ucto e n t re las dos ci u dades ?

28. Lo s sig uie n tes da tos fueron obtenidos por la gerencia d e una ti enda de deparo
ta me n tos en un est ud io d e c ue n tas de clientes moro sos . E n u na muestra de
600 c uen tas a b iertas p or personas q ue hab ían resid id o en la com un id a d po r
más de cinco a ño s, 58 se h a b ía n atra sado en a lg ún momen t o u ot ro . En una
muestra d e 400 c u en ta s de individuos que habían residido en la comunidad
por me nos d e cinco años, 26 se había n atrasado.
a ) ¿ Es significativa la d iferen cia que existe e n tre ambas muest ras al nivel
d el 5 % ?
b ) ¿ C uá l es la posible fa la cia a l interpretar esa diferencia , sea significativa
o no?

29. El de partamen to de investigaciones de m er cado d e la C om pañía Bodhauser


Beer rea lizó un a prueba d e sabor pa ra determin a r si los co ns u m id o res podían
di stinguir la cerveza Bod h a user d e la ce rveza de su p rincipal competidor>
Sch ult z. Se selecci onaron 200 bebedores de cerveza, a los cuales se dieron
mues tras sin marcar de ambas ce rveza s, y se les dij o que esta bleciera n se
p refere ncia.
D ebido a que se temí a que el orden en q ue se p resen ta ra n la s cerveza !
al g r upo po d rí a a fecta r su preferen cia , se d ivid ió el grup o en dos p a r t es ; a
la mi tad (g r up o 1) se le d io la cerveza Bod ha user primero, y a la o tra m it ad
(g ru po 2) se le di o la cerveza Sc h u lt z p ri me ro que la Bod ha use r. Los res ul-
ta d os se m uest r an e n la sig uie n te tabla :
G rupo 1 G rupo 2

N úmero de mi em b ro s e n el grupo . 100 100


N úmero que p refi ere la cerveza Bod h a user . 54 58

a) I g nor a n do el orden en el cual fue p resen t ada la ce rv eza ( es d ec ir , jun-


ta n d o ambos gru p os ) , ¿ h ub o ev id encia significativ a d e que a lg un a cer veza
se prefi rió a la ot ra ?
b ) ¿ F ueron fund amentados los te m ores de que el o rd e n podría a fec ta r la pre-
fe rencia? O sea , ¿ hay p ru ebas en lo s datos ex pe rim e n ta les d e q ue difieren
los d os gru pos muest reados ?

30. U na de las pa r tes co m p on entes cr íticas d e un prod ucto es un tor n illo de a cero
de 5/1,; d e p ulgada. Pa ra c um pli r co n la s espe cifica cio n es de l prod ucto este
tornillo d ebe tener un a d ureza en tre 7 7.5 y 89.5 pu n tos d e la esca la d e du reza .',.
R oc kwell "B" . L ue go de un t ratamiento de ca lo r d iseñado pa ra prod ucir la ·
du reza deseada, se ex tra e al azar una m ue st ra d e c ua t r o torn illo s d e cad a :
lo te , y se p r ueb a la dureza de cada to r ni llo . D iez d e esa s m uest ras to m adas','
e n orde n consec utivo, se prue ban en la escala R oc kwell "B" y tie nen las '
sig uie n tes med id as ( 3ux = 4-.26 ) :
( Aquí se usa n d iez m uest ras para m in im iza r los cálc ulos. Si n em ba rgo, e n la
p r ác t ica , se n ecesit a n por lo menos de 20 a 25 m ue st ra s pa ra o bte ne r re sul -
tad os co n fia bles .)
a ) Estabie zGt un d iagrama X p ara con trolar la d ureza de esos to rnillos y
d ibuje un a lí nea ce n tral) jos lími tes de con t ro i y la s m ed ias de los su b-
grupos.
Problemas 311

M uest ra x
1 . . . . · . · . · . .. . . 85 .375
2 . . . . .. · . . . o • • • 81. 87 5
3 .. ·. .. . . . . . . .. 86. 125
4· .. .. ·. ·. · . 83.250
5 .. ·. .. · . · . .. ·. 84 . 125
6 · . .. · . ·. ·. 84 .125
7 .. · . · . ·. · . 85. 625
8 ·. · . · . · . ·. . . 86.3 75
9 .. · . . . .. . . . . ·. 86 .625
10 .. · . .. .. . . ·. . . 8 7.6 25
T ota l .. .. · . ·. · . 85 1.1 25

b ) ¿ E stá el p ro ceso de trata mie n to po r ca lor en control estad íst ico ? Si es


así, ¿ cuál es su m ej or estimac ión de la d ureza promedio d e tod os los to r-
nillos p ro du cidos en este proceso?
000 e) Si hay a lg unos puntos fuer a de con tro l, re vise los límites y g ra fiq ue los
res ult ados en el di agrama .
La p rueba d e 2,000 tra nsistores, en 20 lo tes d e 100 ca d a uno, señala u n
promed io d e 10 por cien to de u n id a d es def ectu osas . ¿ Cuál es el porcen taje
máximo qu e el inspector podría pe rm itir en el lote sig uien te pa ra que se man -
te nga de n tr o d e los lím it es 3(1]) de control? (Note que (1]) V p [¡jn. ) =
Un inge ni ero en co n trol d e ca lidad está avoca d o a la ela bora ció n d e un d ia-
g ra ma de control pa ra un p roceso d e prod ucc ión. C uand o se con tro la, el
proceso p roduce a r tículos con u na m edia d e 40 y u na d esviac ión estándar
d e 5. Para simplific ar, suponemo s que hay d os esta dos en qu e el proceso est á
fuera d e control, uno con un a media de proceso de 48 y otro con un a media
de p roceso d e 36. Am bos tien en un a d esvia ción estándar de 5 (n u nca hay
modi fica cion es en la va riabilidad d el p roceso ) . E n la tabla se ind ica n los
costos ( pérdi d as económ icas ) para esos distintos eve n tos.

E ve n tos posi bles: Acció n : A cci ón:


el prom ed io del acep tar el reeh azur d
proceso es p ro ceso pro ceso
- - - - --- - - - ------_.
36 $ 800 $ O
40 O 1,200
48 1,00 0 O

El in gen iero enca rga d o del con tro l d e ca lidad des ea u tilizar un d iag ra-
ma X , c uyo tamaño de m uestra es igu al a 4, y con límites d e control 40 ± kox ,
Desea elegi r u n val or óptimo para k, po r lo tanto ela bora la sig uien te ta bla :

Pro med io ( cj'j1crado ) de los costos


E l pro m ed io del
pro ceso es k = 1 k = 2 k = 3

36 A B e
40 D E F
48 G H

a ) E ncuentre los va lo res d e A a 1 pa ra llena r la ta bla .


b ) Expliqu e d e q ué ma nera se p uede p roced er para decid ir q ué valor de
k usa r .

'.~':
312 Pruebas de hipótesis

r:HRUOGRJitFIA

BOW K EH , A L ll E RT H . y LIEI1 ER 1,¡,I"1 , GERALD J. En gineerin g St atist ics. 3~ ed .


wo od Cliffs, N ucva .T erscy : P rcntice -Hall , 196 3.
C on tie n e un a nálisis accesible y autori zado sobre la a pl icación de la
re ncia esta d ist ica 2. proble mas de co n tr ol de ca lidad.
D rx o » , '1'1 . }., Y ?v1.A S S ¡;Y, F . J. I n t rodu ct ion i o St at istical Analysi s, 3" ed.
'York: lVicC; r:1\v-l-Iill , 1969.
U na ex celen te fuen te de refe rencia a cerca de la u tilización d e la
estad íst ica e a d ive rsas situ a cio nes. En los ca pi t ula s 6, 7 y g se est ud ia la
rc nc ia estadística , la es timació n , y las pruebas de h ip ót esis ; en el capítulo
se ex p onen cle ta .l la da m ent- Jos e rrores de ti p o JI.
F R E u;'r D ~ J. E. y ~\rV I LL.r AM S~ F. J. (rev. por P E R L ES " B-:~ Y SUL L I VA N , C o' )
B us in ess St atistics, Englewood C liffs , N. J.: Pre n tice- H a ll, 1969.
Los cap ítu los 3, 9 y 10 son un a n á lisis accesible d el m ue st r eo,
mación y la prueb a de hip ó tesis. El A pé ndice II es un est u d io elem en tal
a plicaciones al control d e ca li d ad .
r ; U r!:N T_H E R ;> 'I/VIL L I.ti.M C. Concepts 01 St otistica l l n lsrence. Nueva 'York:
n.n, 1965 .
U n aná lisis exte nso d e la infe rencia a. un n ivel elem e n tal.
HAM BURG, M . St atist ical A tia lysis f o r Ir ecis ion hfaking. N ueva Y ork :
Braco & WmJd , 1970.
.Lo s ca p ítulos 5 a 8 tien en m á s o m e n os un para lel ism o con el
inf e r e ncia esta d ística que se presenta en este libro.
HOF. L, PA U L G . Int rod uct ion to M ru h emat ica l St atistics . 4" ed . Nueva
J ohn VI/iley , í 97 I.
Presenta los fu nd a me ntos matemáticos d e la infere n cia estadíst ica
ni vel m edi o p ara le ct ores (lu e tengan co noci m ie n tos d e cá lc u lo.
R 1C H MO!': D, SAM UF.L B. St at ist ical A nu lysis, 2'" ec!. Nue va York :
196'1-.
Los ca p ít ul os 6 a H ha ce n un an álisis rig uros o de la in fer enc ia
SCHL.-\!"FER.. lt(HL~T.::r . Tni ro du ct ion io St atis tics Í OT B usiness Decisi ons . N uev a
1vfcCra w-B iii , 1961.
L os capi tu los 10 Y 11 p re sentan un estud io d e la te o r ía clásica d e la
rcncia es raclist ica u ti liza ndo el e nf oq ue ba yesia n o de 18 teoría de decision es.
yV "'d ~ L I ;'; , V··/. / \LL EN y "R..O HE !{TS , I-IAHHY JoT. St at isi ics: A Neiu A pjJto (lc h .
~.{ ork : T he Free F rc ss, 1956.
~L a parte 1Lf ;?,bnrda uua gr fl l 1 variedad d e: tóp icos sobre inferenc ia ;
porc io n a mu chos ej empl os.
CAPITULO 11
Otros procedimientos de 2
prueba: distribuciones t, X y F

EN LOS DOS CAPITULOS ANTERIORES, el estudio sobre inferencia estadís-


tica se basó en el supuesto de que se tomaba una muestra grande, con lo que la
distribución muestral de la medida muestral o proporción resultaba aproxima-
damente normal. Pero en muchos otros casos de muestreo no cabe ese supuesto.
En particular, podemos tener una muestra pequeña de una variable o abributo;
también, puede tratarse de un atributo que se clasifica en más de dos categorías,
por lo que no es aplicable la distribución binomial; tal vez, tengamos que evaluar
simultáneamente muestras de dos o más poblaciones; o, finalmente, podemos
tener datos que se miden en rangos, en vez de medirse en UTl intervalo de la
escala. La finalidad de este capítulo es aplicar los conceptos de los capítulos
anteriores a esos casos especiales. Para realizar nuestro objetivo estudiaremos tres
nuevas distribuciones, las distribuciones t,x 2 (ji-cuadrada) y F así como pruebas
estadísticas no paramétricas.

PRUEBAS DE MEDIAS: MUESTRAS PEQUEÑAS


El supuesto que las muestras deben ser grandes (capítulos 9 y 10) es necesa-
rio para tener la seguridad de que (1) la distribución muestral de la media
muestral era aproximadamente normal y (2) se introducía un error pequeño al
estimar la desviación estándar de población a por la desviación estándar muestral
s. Debido a esas propiedades, generalmente se aplica la estimación por muestras
grandes haciendo posibles las inferencias estadísticas sin ningún supuesto especí-
fico acerca de la forma de la distribución de la cual se tomó la muestra. Pero en
ciertas situaciones no es posible ni económico obtener una muestra grande.
¿Significa eso que las proposiciones de probabilidad estadística no se pueden
hacer en esas situaciones? La respuesta a esta pregunta es un no rotundo, junto
con la observación adicional de que se necesitan supuestos adicionales u otros
métodos. Hay un método para tratar pequeñas muestras que se puede utilizar
cuando la distribución de la población de la cual se extrajo la muestra es normal
o aproximadamente normal. Hay dos casos, dependiente de si a es conocida o
no.
Caso A: muestreo de una población normal, con a conocida. El teorema del
límite central que se estudió en el capítulo 9 establece que las medias de mues-
tras grandes están aproximadamente normalmente distribuidas. Eso también
sucede para muestras pequeñas, siempre que la población de la cual se sacó la
media sea normal (es decir, las medias de muestras, tanto grandes como peque-

313
314 Otros procedimientos de prueba

ñas, de poblaciones normales están normalmente distribuidas). Y si se conoce


la desviación estándar a, el análisis puede proseguir exacta.riente como en los dQ§.
capítulos anteriores. El error estándar de la muestra es como antes o-x =o-/Vn
(multiplicada por el factor de corrección por población finita VI - ~IN si es
del caso). Los intervalos de confianza para la media de población y las pruebas
de hipótesis se pueden formular en la misma forma que antes.
Caso B: muestreo de una población normal, con a desconocida. Cuando no se
conoce la desviación estándar de la población, a, se la debe estimar con los datos
de la muestra pequeña. Para manipular el error de muestreo tanto de la media
muestral X como de la desviación estándar muestral s, debernos utilizar una
nueva distribución muestral.
Esta distribución simétrica pero no normal se llama distribución t. La razón t
(igual que la desviación normal estándar z) se define corno la desviación respecto
a la media poblacional de la media muestral expresada en unidades de error
estándar. O sea,

t=
X-Ji.
Sx
donde SXJ el error estándar de la media se calcula a partir de s la desviación
estándar de la muestra por medio de la fórmula Sx += s/vn (multiplicada por
VI :.- n/N si es necesario).
La distribución muestral de t difiere para cada tamaño de muestra. Hay una
distribuciónt para muestras de tamaño 10. otra para el tamaño 11, Y así sucesi-
vamente. Por lo tanto, los valores de t correspondientes a los niveles de probabi-
lidad del 5 y el 1 % no son 1.96 y 2.58 como en la curva normal, sino que
dependen del tamaño de la muestra, según se muestra en la tabla ll-l.
La tabla 11-1 es un extracto de la tabla t, más detallada, del apéndice M. En
esta tabla, se anotan en la primera columna los "grados de libertad" en vez del
tamaño de la muestra. El concepto de grados de libertad (representados por la
abreviatura gl o el símbolo g) es importante y ocurre repetidamente en este
capítulo. Se refiere al número de observaciones independientes utilizadas para
Tabla 11-1
VALORES DE t A LOS NIVELES DE
PROBABILIDAD DEL
5ydell%

Grados de
libertad (gl) ,05 .01

10 2.228 3.169
20 2.086 2.845
30 2.042 2.750
co 1.960 2.576

realizar la estimación muestral. Al calcular la media muestral X, se determinan


independientemente todas las n observaciones. Sin embargo, al calcular la varían-
cia muestral, se utiliza la media muestral X en la fórmula
s" = ¡ (X - X)"/( n - 1). Hay solo n - 1 términos independientes en la
sumatoria del numerador, porque una vez que se han determinado BBBB des-
viaciones de la media, la última es fija (puesto que la suma de todas las desvia-
ciones respecto a la media deben ser cero). Por lo tanto, sólo hay n - 1 grados';
Pruebas de medias: muestras pequeñas 315

o de libertad en cualquier inferencia que utilice s2 como estimación de a 2. En


general, el número de grados de libertad es igual al número de observaciones,
menos el número de incógnitas o parámetos estimados con los datos.
La distribución t depende del número de grados de libertad en la estimación
muestral. Al calcular intervalos de confianza o al hacer pruebas de hipótesis
acerca de una media muestral X única, hay BBBB grados de libertad. Puesto que
el apéndice M da valores hasta para 30 grados de libertad, podemos definir una
muestra pequeña, para el. propósito de utilizar esa tabla, como una muestra en la
cual n' es 31 o menos. La distribución t se parece cada vez más a la distribución
normal a medida que el valor de n aumenta, de manera que en ese caso los
valores de t se aproximan a los valores correspondientes a la distribución norma!.
Esos valores se listan en la última fila de la tabla. Las probabilidades que apare-
cen en e! encabezado de la tabla se refieren a la suma de las áreas de los dos
extremos bajo la curva que quedan fuera de los puntos Los valores de t se
anotan dentro de la tabla. Para el área de un solo extremo, divida la probabilidad
por dos.
Como ejemplo, para una muestra de tamaño 8, empiece en la .fila
n- 1 = = d 7· entonces el 5% del área bajo la curva queda en los dos
extremos que están fuera del intervalo t. +2.365. O sea que, el 2 1f2% del
área está en cada lado, e! 95% del área cae dentro .del intervalo BBBBBBBBBB
Por lo tanto, se debe utilizar un valor de t de 2.365 al establecer un intervalo de
confianza del q5% para la media cuando e! tamaño de la muestra es 8.

Intervalos de confianza
Por ejemplo, un fabricante desea estimar el peso promedio de un gran em-
barque de hojas de acero sin recubrim ien to y de calibre 20, las cuales proveyó un
abastecedor. La estimación se debe expresar como un intervalo de confianza del
95% alrededor de la media muestra!. Selecciona 8 piezas al azar, y encuentra que
la media muestral es 148.4 libras por ·cien pies cuadrados, mientras que la des-
viación estándar es 2.07 libras. El error estándar de la muestra es entonces

s 2.07
sg = vi;; viS- = .73 libras

Para establecer el intervalo de confianza del 95%, encuentra que t = 2.365 en la


tabla, tal corno se describió antes. El intervalo de confianza es entonces

X± t· ss = 148.4 ± 2.365(.73) = 148.4 ± 1.7 libras

Por lo tanto el fabricante puede establecer que el peso promedio de todo el


embarque está entre 146.7 y 150.1 libras, con un 95% de probabilidad de estar
en lo correcto. '
Pruebas de Hipótesis
Alternativamente, tal vez, el fabricante de! problema anterior desee probar si
e! peso medio de la muestra de hojas de acero (148.4 libras) fue significativa-
mente menor que la especificación de 150 libras que se pedía en la orden de
compra. O sea que, probamos la hipótesis nula de que J1 ~ 150 libras. Puesto que
el fabricante sólo está interesado en la desviación por debajo de la especificación,
utilizamos una prueba de un extremo. Suponga que seleccionamos e! nivel de
significación del 5%. Ahora calculemos la desviación de la media muestral res-
pecto a est<l; media.hipótetica en. unidades de error estándar estimado (.73 libras)
como sigue:
316 Otros procedimientos de prueba

t=
x- J.Lh
SJt
148.4 150
= -2.19
73
Para el punto de probabilidad de 5% en un extremo, buscamos el punto de
10% (dos extremos) en el apéndice M para g = 7 grados de libertad. El valor es
1.895. Puesto que el valor absoluto de t, - 2.19, es mayor que 1.895 podemos
rechazar la hipótesis de que J.l ~ 150 libras al nivel del 5%. La media muestral es
significativamente menor que la especificación de 150 libras al nivel de signifi-
cación del 5%.

Prueba de la diferencia entre medias de población


En el capítulo 10 probamos la diferencia entre dos medias poblacionales de
muestras grandes. Si las muestras de cada población son pequeñas, se puede
utilizar la distribución t en forma similar, para probar las diferencias entre las
medias poblacionales. Se requieren supuestos adicionales: (1) que las dos pobla-
ciones muestreadas están normalmente distribuidas, y (2) las desviaciones están-
dar de las dos poblaciones son iguales.! Considere una muestra de tamaño nI de
la primera población y de tamaño n2 para la segunda población. Entonces:

X 1 Y X 2 son las medidas muestrales de las dos poblaciones


SI y S2 son las desviaciones estándar muestrales de las dos poblaciones

El primer paso es obtener una estimación común o conjunta de la desviación


estándar para ambas poblaciones. Denotando esa estimación conjunta por Spo
tenemos:

Puesto que se supone que las desviaciones estándar de las dos poblaciones son
iguales, ésta es la mejor estimación de la desviación estándar en cada población.
Entonces podemos calcular el error estándar para cada media muestral como:

Spo
SJt 2 = _ /-
vn2

Finalmente, el error muestral de la distribución de diferencias en medias


muestrales es (como en el capítulo anterior):

~si, + si 2

Sustituyendo los valores de y obtenidos anteriormente, esta última ex-


presión se puede simplificar a

lTambién hay pruebas disponibles, se supone que las desviaciones estandar no soI,l iguales.
Ver W. J. Dixon and F. J. Massey, Introduction to Statistical Analysis (ed ed.; New York:
McGraw-Hill, 1969), p. 119.
--
Pruebas de medias: muestras pequeñas 317

= Spo
J-+-
1
nI
1
n2

Finalmente, la razón

(Xl - X2)
t=

está distribuida conforme a una distribución t con t con (ni + n2 - 2) grados de


libertad. Esto se puede utilizar para calcular intervalos de confianza o probar
hipótesis acerca de las medias de población J11 y 1J.2.
Ejemplo. Una compañía está interesada en saber si hay diferencia en el salario
,promedio percibido por los capataces en sus dos divisiones. Por lo tanto, se
seleccionaron al azar muestras de 12 capataces en la primera división y 10
capataces en la segunda división. Basados en la experiencia previa, se sabe que los
salarios de los capataces están distribuidos en forma aproximadamente norma! y
que las desviaciones estándar de los salarios en las dos divisiones son aproxima-
damente las mismas. Los resultados de las muestras son:

Primera División Segunda División


Tamaño de la muestra ni 12 n2= 10
Salario mensual promedio de los
capataces en la muestra $1050 )(2 = $980

Desviación estándar de los salarios en la muestra S¡ = $68 S2 = $74


La hipótesis nula es: /1-1 _~/1-2 = O.
La hipótesis alternativa (de dos extremos)es: /1-1 - /1-2 =F O.
Primero calculamos la estimación conjunta de la desviación estándar común:

Spo

\1
r u (68)2
12 +
+
9 (74)2 = 70.8
10 - 2
Entonces,

!I
SPQ

30.3
J I
-
ni
+-n21 70.8\l12 + 10
1

t
(loso - 980)
2.31
30.3
318 Otros procedimientos de

Buscando en el apéndice Me! valor de t al nivel del 5% con (ni + nz) - 2) = (12
+ 10 - 2) = 20 grados de libertad-", observamos que es 2.086. Puesto que 2.31
e~, mayor que ese valor, podemos rechazar la hipótesis nula al nivel de significa-
cion del 5%. Hay una diferencia significativa en los salarios medios de los capa-
taces de las dos devisiones.

PRUEBAS JI CUADRADA

Los datos económicos y de administración de negocios, a menudo se clasifi-


can según los atributos en dos o más categorÍas. Los problemas de inferencia
estadística que implicaban dos categorías (defectuosos, no defectuosos; pasala
prueba, falla la prueba) se representaron por medio de proporciones en los
capítulos 9 y 10. Ahora extenderemos el análisis a varias categorÍas de clasifica-
ción y a problemas que implican relaciones entre atributos.
En los capítulos previos, se puso énfasis en la proporción muestral o porcen-
taje de una categoría dada. En este capítulo se pondrá énfasis en la frecuencia o
conteo numérico de los artículos en una categoría.

La distribución Ji Cuadrada
Antes de proseguir, introduciremos un nuevo concepto teórico denominado la
distribución ji cuadrada (x z ). La variable \z se compone de sumas de variables
aleatorias normales al cuadrado. O sea qJe, si y I es una variable que tiene una dis-
tribución normal estandarizada (p = 0,0 = 1), y si las Y i son independientes, en-
tonces la expresión

tiene una distribución ji cuadrada. El único parámetro de esta distribución es g,


los grados de libertad y representa el número de términos independientes en la
expresión sumatoria de arriba. Puesto que sólo tiene términos elevados al cua-
x
drado, la distribución Z es siempre positiva. El valor esperado de la media de la
distribución xZ es también g, o sea que E(X z ) = g; y la variancia de la distribu-
Z
ción X es 2g.
La distribución ji cuadrada para varios valores de g se muestra en la figura
11-1. Note que la distribución es asimétrica a la derecha. En el apéndice N, al
final del libro, se muestra una tabla de valores de XZ para probabilidades selec-
cionadas del ex trem o derecho. En la Tabla 11-2 se reproduceua pequeña sección
del apéndice N. Esta tabla muestra que, por ejemplo, con seis grados de libertad
Z
hay una probabilidad del 99 por ciento de que un valor de X sea mayor que
.872 y sólo un 1 por ciento de probabilidades de que sea mayor que 16.812.

Frecuencias y la distribución Ji cuadrada


La distribución XZ es útil en pruebas estadísticas que implican comparaciones
entre frecuencias observadas y las que ocurren bajo algún supuesto teórico. Para
ilustrar, suponga que una firma está probando un nuevo producto alimenticio en

ZNote que el tamaño de muestra combinado (n I + nz). se redujo en dos para obtener lo'
grados de libertad. Ello se debe a que dos estimaciones muestrales-vlas de y ,--se
utilizaron en la fórmula para
Pruebas Ji cuadrada 319

~~I

"'x
'-,
-e
.5
]'"
:.E
'"
..o .4
o
lo<
o-
O)
-e .3
-e
~'"
~ .2
O)
CI
.1

10 15 20

Figura 11-1
DISTRIBUCION JI CUADRADA
Para 2, 6 Y 12 grados de libertad

dos grupos de mujeres -mujeres que trabajan fuera del hogar y amas de casa-o
El producto se compara con uno que está en venta en el mercado, y las mujeres
expresan su preferencia por uno u otro. La firma se interesa en saber si las
mujeres prefieren el nuevo producto al antiguo y si hay diferencias entre los
grupos. Se formula una hipótesis en la forma que sigue:

P = PI = P2 = .5
donde pes la proporción verdadera y p , Y P2 son las proporciones de mujeres
que prefieren el nuevo producto en los grupos muestreados. La hipótesis esta-
blece que las preferencias son iguales entre grupos y entre productos. 0, en otras

Tabla ll-2
VALORES DE JI-CUADRADA PARA PROBABILIDADES DE EXTREMO
DERECHO SELECCIONADAS
Grados de Probabilidades de extremo derecho
libertad gl
d .99 .95 .50 .05 .01

2 .0201 .103 1.386 5.991 9.210


6 .872 1.635 5.Y48 12.592 16.812
12 3.571 5.226 11.340 21.026 26.217

FUENTE: Apéndice N.

palabras, la hipótesis implica que las dos muestras podrían haberse tomado de la
misma población que teníap = .5.
Sean n] yn2los tamaños de las muestras y r] Y r: el número de las mujeres
que prefieren el nuevo producto en cada grupo. Los valores de r] Y r: provienen
320 Otros procedimientos de prueba

de una distribución de probabilidad binomial. Pero si las muestras son suficien-


temente grandes se puede utilizar la aproximación normal a la distribución bi-
nomial y cada una de las expresiones

estará distribuida en forma aproximadamente normal con media /1 = O Y desvía-


ción estándar U = 1 (o sea, serán desviaciones normales estandarizadas). Aquí or
es la desviación estándar de la distribución binomial (ver la página 131). Entonces:

donde q = 1 - p. Además, elevando al cuadrado cada término y sumando,


obtenemos la expresión:

Recuerde que la variable y ji-cuadrada es una suma de variables normales


elevadas al cuadrado. También note que-hay dos términos independientes en la
expresión. Entonces, la expresión anterior tiene una distribución X2 con dos
grados de libertad.
Para mostrar cómo utilizar ese resultado, continuaremos el ejemplo susti-
tuyendo con números en las fórmulas. Suponga que los resultados se muestrán
en la tabla 11-3.

Tabla 11-3

Grupo 1 Grupo 2
Mujeres que trabajan fuera del hogar Amas de casa
------------_...:.-_-
Tamaño de muestra nI = 100 22S
Número de las que prefieren el nuevo
producto 0".'. TI = S6 130
Desviación estandar (con la
hipótesis p = .5) = ••••• ·(1"'1 VlOO(. S)(.S) VÚS(.S)(.S)
S 7.S

R Entonces:

1.44 + 5.44 6.88


Note que si los dos grupos difieren en sus respuestas o si las respuestas difieren
del 50%, el valor de X2 tenderá a ser grande. En la tabla 11-2 (o en el apéndice
Pruebas Ji cuadrada 321

N) podernos ver que sólo hay una probabilidad de 5 % de obtener al azar un


valor de 5.991 para X2 • El valor de 7.88 es mayor que ese valor y, por lo tanto,
rechazamos la hipótesis al nivel de significación de! 5%. En los datos hay eviden-
cia de que las dos muestras no provienen de la misma población con p = .5.
Este sencillo ejemplo ilustra la idea básica de que la distribución X2 se puede
utilizar en pruebas de hipótesis respecto a frecuencias. En vez de proceder como
antes y basar nuestros cálculos en una sola de las posibilidades (es decir, sólo e!
número de las que prefieren el producto), es más fácil contar las frecuencias de
todas las categorías (en este caso, tanto para las que prefieren e! producto como
para las que no lo prefieren). En general, suponga que hay k categorías tales
(i = 1, 2, ... , k). Sean Di las frecuencias observadas en la i-esima categoría y sea
E i la frecuencia esperada o teórica en la i-ésima categoría. Entonces el estadístico
2
X se define como:

(1)

Esta fórmula se ilustrará en breve.f Es importante notar que Di y Ei en la


fórmula son frecuencias (o sea, número de ocurrencias), no frecuencias relativas
(proporción de ocurrencias).

Hipótesis acerca de las


proporciones para variaspoblaciones
Para ilustrar la fórmula general anterior para X2 y generalizar el ejemplo de la
sección anterior, considere e! siguiente problema. Una instalación manufacturera
pule y platea partes que luego son ensambladas en el producto final. Han ocu-
rrido muchos defectos, y la gerencia" piensa que la causa puede ser la operación
de pulido. Hay cuatro operadores puliendo las partes que utilizan máquinas
similares. Para probar si hay diferencias en la tasa de partes defectuosas entre los
operadores, se seleccionaron al azar 200 partes terminadas por cada operador y se
anotó el número de partes defectuosas. Los resultados se muestran en la tabla

Tabla 11-4
NUMERO DE PARTES DEFECTUOSAS Y NO DEFECTUOSAS (Di)
EN MUESTRAS OBTENIDAS DE CUATRO OPERADORES

Número del operador Valor


Proporción esperado
2 3 4 Total (P) Ei=np

Partes defectuosas .". 21 15 8 16 60 0.075 15


Partes no defectuosas179 185 192 184 740 0.925 185
-- -- -- -- -- --
TotID............ 200 200 200 200 800 1.000 200

11-4. Se formula la hipótesis nula, estableciendo que no hay diferencia entre ji):¡
operadores o, alternativamente, que las cuatro muestras podrían obtenerse de Í3
misma población. La hipótesis es:

3Para el ejemplo de esta sección, se puede mostrar que la fórmula (1) es algebraicame rce
equivalente a la expresión anterior utilizada para ilustrar la prueba ji-cuadrada de ¡j.:»
muestras.
322 OTrOS procedimientos de prueba

La proporción de partes defectuosas para los cuatro operadores fue Ps = 60/800


= 0.075. Utilizamos este valor como estimación de p, la proporción total de
partes defectuosas. Si la hipótesis es cierta y p =.075, entonces el número
esperado de partes defectuosas por operador es np = .075(200) = 15; Y el valor
esperado de las partes no defectuosas es 200-15 = 185. Esas son las frecuencias
esperadas, o las Eí de la fórmula (1). Los valores observados Oí se muestran en la
tabla 11-4. Note que hay ocho categorías que corresponden a las partes defec-
tuosas y a las no defectuosas de cada uno de los cuatro operadores. En esa forma
calcularnos el estadístico X2 como:

~ (~C_E;)~
L...J
i=l
E.
'l.

(21 - 15)2 (15 - 15)2 (8 - 15)2 (16 - 15)2


------ + ------ + ~--- + - - - -
15 15 15 15
i+ (179---=-~85)~ +
(185---=-_185)2 + (192' - 185)2 + (184 - 185)2
185 185 185 185
86 86
= -
15
+ ---
185
= 6.20
0 ••

Grados de libertad. Antes de decidir si el valor observado de X2 de 6.20 es


mayor que el esperado en forma aleatoria, necesitamos determinar los grados de
libertad (g). Puesto que hay ocho términos (uno por cada categoría), en un
principio podría parecer que g = 8. Sin embargo, no todos los valores de las
categorías se determinan en forma independiente. Una vez que se conoce el
número de partes defectuosas por operador, el número de las partes no defec-
tuosas se calcula inmediatamente restando a 200 el número de partes defectuo-
sas. Por lo tanto, sólo cuatro de esas categorías se determinan en forma inde-
pendiente. Además, estimamos p, la proporción total de defectuosos a partir de
los datos, utilizando enesa forma un grado de libertad adicional. 4 Para compren-
der eso, note que una vez que el número total de piezas defectuosas se fija en 60
(es decir, 7.5 por ciento), sólo tres de las categorías de partes defectuosas se
pueden determinar en forma independiente ya que la última es 60 menos la suma
de las restantes. Por lo tanto, hay sólo 3 grados de libertad en el valor de X2
obtenido antes.

val:ru~:~~~ ;~r:al~i ~~r~~is~~d~:~:ev:l~r:s3:u:~:; ::n~:c~ai;;rv~~~~2ÓU~l~~


obtuvimos. Por lo tanto, no podemos rechazar la hipótesis al nivel de signifi-
cación del 10%. No hay suficiente evidencia para decir que los cuatro opera-
dores difieren en el número de partes defectuosas que producen.

Tablas de contingencia
En el ejemplo de la sección anterior se probó la hipótesis de que la tasa de
producción de partes defectuosas era independiente del operador de la máquina.

4Nott' que en el ejemplo anterior, el valor de p era parte de la hipótesis y no se estimaba lt'
partir de los datos. Por lo tanto, en ese caso no se utilizarongrados de libertad para estimar
p.
Pruebas Ji cuadrada 323

Ese',oejemplo se puede ampliar para probar una hipótesis similar de independencia


de dos factores que tienen cualquier número de categorías de atributos. Gene-
ralmente, este análisis se presenta en términos de una tabla de contingencia, que
lista las posibles categorías de una variable a lo largo de la parte superior de la
tabla y las categorías de la otra variable a un lado. Por ejemplo, suponga que un
analista sospecha que la asistencia al cine se relaciona con la edad. El analista
selecciona una muestra de gente y la clasifica por edad y por el número de
películas que han visto en el último mes. Los datos se muestran en la tabla 11-5.
Aparentemente, el examen de esta tabla indica que la gente de las categorías" 14
a 19 años" y "20 a 25 años" tiende a ir al cine relativamente más a menudo que
la gente con más o menos años que los indicados. Sin embargo, hay la posibilidad
de que no haya diferencia en la asistencia al cine en los diferentes grupos de
edades y que los resultados observados en la tabla se deben al azar.

Tabla 11-5
MUESTRA DE PERSONAS CLASIFICADAS POR EDAD Y
FRECUENCIA DE ASISTENCIA AL CINE (Oi)

Número de películas Grupo de edad (Años)


vistas durante Total Proporción
el mes anterior Menos de 14 14-19 2()-,-25 26-35 Más de 35 (Ps)

Ninguna ...•....... 85 15 22 120 189 431 .469


1 .... ; ... ,. ...... 43 20 22 33 68 186 .202
2 .......... » ••..••.• 31 31 34 43 75 214 .232
28 30 18 10
-.097
3 ó más jre . _, .>. ; ••. 3 89
- -- -- -- -- -
Total . . . . . . . . . . . .162 94 • 108 214 342 920 1.000

Para responder a ello, formulamos la hipótesis de que hay dos factores (edad
y asistencia al cine) que' son estadísticamente independientes. 5 Estahi~ótesis
implica que la asistencia al cine en cada categoría de edad tiene la misma pro-
porción que muestra todo el grupo (también, que dentro de cualquier categoría
de asistencia al cine, la distribución de edad es la misma que para la población
total). En base a esta hipótesis de independencia, se puede calcular la frecuencia
teórica par:; cada celda (es' decir, cada categoría de asistencia al cine por edad).
Esas frecuencias se muestran en la tabla 11-6. El número 75.9 en la primera fila y
Tabla 11-6
FRECUENCIAS TEORlCAS O ESPERADAS
BAJO EL SUPUESTO DE INDEPENDENCIA (Eii)

Número de películas Grupo de edad (Años)


vistas durante
elmes anterior Menos de 14 14-19 20-25 26-·35 . Más de 35 Total

Ninguna. . . . . . . . . 75.9 44.0 50.6 100.3 160.2 431


l 32.8 19.0 21.8 43.3 69.1 186
2 ".·f. . . 37.6 21.9 25.2 49.7 79.6 214
20.7
-33.1
3 ó más. . 15.7 9.1 10.4 89
-- -- - --
Total 162.0 94.0 108.0 214.0 342.0 920

SLa independencia estadística se describió en detalle en el capítulo 5.


324 Otros procedimientos de prueba

la primera columna se calcula a modo de ejemplo en la siguiente forma: primero,


431/920 = 46.9% de las 920 personas en todo el grupo no vieron ninguna
película el mes pasado. Si los factores son independientes, esperaríamos que el
46.9% de las 162 personas en la categoría "menos de 14 años" tampoco habrían
visto alguna película el mes pasado; y .469 X 162 = 75.9. Los otros valores de la
tabla se calculan en forma similar.
Los 20 valores de la tabla 11-6 representan las frecuencias teóricas o espe-
radas- las Ei de la fórmula (1). Las frecuencias observadas -los valores 0i- se
toman de la tabla 11-5. Y el estadístico X2 se calcula como sigue:

t.
(Oi -
Ei
E;)2
l=1

(85 ::- 75.9)2 + (15 - 44.0)2 + (10 - 33.1)2


75.9 44.0 + 33.1
163.1

Grados de libertad. Hay 20 celdas en las tablas 11-5 y 11-6 y 20 términos en


la sumatoria con que se calculó el valor de X2 • Sin embargo, no todos esos
valores se determinaron independientemente. Note que los totales de la cuarta
fila y los totales de la quinta columna se utilizaron en la determinación de los
valores Ei. Por lo tanto, debemos reducir en lo que corresponda los grados de
libertad. La reducción total en grados de libertad es 8 (4 filas + 5 columnas - 1)
puesto que una vez que se determinan 8 totales de fila o columna, también el
último está determinado. Así, el número total de grados de libertad para el valor
X2 , calculado anteriormente, es 20 - 8 = 12.
En general, para tablas de contingencia:
g = Grados de libertad
= Número de celdas -número de filas-- número de columnas + 1 (el número
de celdas corresponde al número de filas por el número de columnas).

Volviendo al ejemplo, el valor de X2 para 12 grados de libertad y un nivel de


significación de .01 es 26.217 (según el apéndice N). Puesto que el valor obser-
vado de 163.1 es considerablemente mayor que eso, podemos rechazar la hipó-
tesis al nivel de 0.01. Hay evidencia substancial de que la asistencia al cine está
relacionada con la edad.
Las tablas de con tingencia se pueden utilizar para probar la existencia de una
relación, no sólo entre variables que tienen valores numéricos? (como fue el caso
en nuestro ejemplo tanto para la asistencia al cine como para la edad), sino
también entre factores que sólo tienen características cualitativas. Por ejemplo,
las personas se pueden clasificar según el partido político al que pertenecen, por
sexo, y por raza; los clientes con cuentas de crédito se pueden dividir segúnestén
al día, atrasadas o sean renuentes.

6 para tales variables, se puede utilizar también el análisis de regresión (capítulo 16) para
probar la dependencia estadística.
Pruebas Ji cuadrada 325

Tamaño de la celda. El uso de la distribución X2 en este capítulo se apoya en


una aproximación a la distribución normal'. Recuerde que en el capítulo 6, al
estudiar la aproximación normal a la binomial (página 164), utilizamos una regla
empírica para garantizar una aproximación adecuada. Esa regla especificaba que
el tamaño de muestra tenía que ser lo suficientemente grande para que tanto np
como nq fueran mayores que 5 (donde q = 1 - p). La misma regla se aplica a las
E¡ o frecuencias esperadas en cualquier celda al utilizar la distribución ji-cuadra-
da. Todos los valores de E¡ deberían ser por lo menos 5. Si algunos valores de E¡
son menores que 5, puede ser necesario combinar categorías para satisfacer la
regla. Note que en el ejemplo la frecuencia esperada menor era 9.1 en la tabla
11-6.

Pruebas de la bondad del ajuste


En general, todas las pruebas ji-cuadrada utilizadas en este capítulo represen-
tan una prueba de la "bondad del ajuste" de los datos observados a algunas
frecuencias teóricas o hipóteticas. Pero, generalmente, el término bondad del
ajuste ha venido a significar la prueba de que algunos datos observados proven-
gan de una distribución de probabilidad hipotética.
En algunas aplicaciones de modelos de investigación de operaciones a pro-
blemas de decisión en administración de negocios, se hacen supuestos que impli-
can ciertas distribuciones de probabilidad. Por ejemplo, en los problemas de
colas o líneas de espera (ver el capítulo 15), a menudo se hace un supuesto
acerca de que las llegadas de los clientes siguen una distribución de Poissom. La
prueba de la bondad del ajuste puede determinar si este supuesto es correcto. En
forma similar, las distribuciones t y F estudiadas en este capítulo requieren una
población normal y la prueba de la bondad del ajuste se puede utilizar para
checar este supuesto.

Tltbla 11-7
DISTRIBUCION DE FRECUE~IAS
INGRESOS HORARIOS DE 214 APRENDICES DE OPERADORES
DF.MAQUINAS HERRAMIENTA

Número de
Operadores
Ingresos horarios Punto medio f=Oi

$2.25 y menos de $2.35 $2.30 2


$2.35 y menos de $2.45. , , 2.40 23
$2.45 y menos de $2.55 2.50 49
$2.55 y menos de $2.65 2.60 63
$2.65 y menos de $2.75. . . . . . . . . . . . . . . . . . .. 2.70 45
$2.75 y menos de $2.85. . . . . . . . . . . . .. . . . . .. 2.80 2.5
$2.85 y menos de $2.95 , 2.90 3
$2.95 y menos de $3.05 3.00 4
Total . 214

7Esta es una aproximación normal a la distribución binomial o multinomial. También hay el


problema del ajuste por la aproximación a una distribución discreta por medio de una
continua. Este no es el problema para muestras relativamente grandes. Para muestras pe-
queñas, pueden necesitarse correcciones. Ver las referencias al final de este capítulo.
326 Otros procedimientos de prueba

Por ejemplo, considere la muestra de los 214 aprendices de operadores de


máquinas-herramienta estudiada en el cap ítulo 2. La distribución de frecuencias
de la muestra se repite en la tabla 11-7.
Suponga que deseamos probar la hipótesis de que esa muestra proviene de una
distribución normal.. La. media muestral X es 2.609 y la desviación estándar
muestral ses .136. Utilizamos esos valores como estimaciones de los valores de
población correspondientes f1 y a. Basándose en esas estimaciones y la hipótesis
de normalidad, se puede calcular la probabilidad de que un valor muestral quede
en cada intervalo dado en la tabla 11-7. Por ejemplo, la probabilidad de una
observación muestralen el intervalo "$2.45 y menos que $2.5"5" se calcula a
partir de la desviación normal estándar (z) del apéndice D como sigue:

2.45 - 2.609
------ -1.169 and pez < -1.169) = .1212
.136
2.55 - 2.609
Zi! = - .434 and pez <- .433) .3322
.136

Finalmente, P(~1.169 <z <-.434) = .3322 - ..1212 = .2110.


Se pueden calcular las probabilidades para los otros intervalos en forma simi-
lar. Los resultados se muestran en la tabla II-S.En la última columna, las
frecuencias esperadas en cada intervalo se calculan multiplicando las probabili-
dades por el número total de artículos muestreados, 214.

Tabla 11-8
PROBABILIDADES Y FRECUENCIAS ESPERADAS
= =
DISTRlBUCION NORMAL CON f1 2.609, a .136, Y X 214 =
Probabilidad Frecuencia
Ingresos horarios normal esperada (Ei)

Menos de$2.35 . .0285 6.1


$2.35 y menos de $2.45 . .0927 19.8
$2.45 y menos de $2.55.. . . .2110 45.2
$2.55 y menos de $2.65. : . .2865 61.3
$2.65 y menos de $2.75 . .2314 49.5
$2.75 y menos de $2.85 . .1117 23.9
$2.85 y menos de $2.95 . .0321 6.9
$2.95 Ymás . .0061 1.3
1.0000 214.0

La última columna de la tabla l1-S representa las E¡ de la fórmula (1). Note


que el último intervalo tiene una frecuencia esperada de sólo 1.3. Puesto que ese
valor es menor que 5, viola la regla empírica respecto al tamaño de celda de las
frecuencias. Para seleccionar ese problema, simplemente agrupamos ese intervalo
con el adyacente y hacemos una nueva categoría denominada "$2.85 y más".
Ese intervalo tiene una frecuencia esperada de 6.9 + 1.3 = 8.2 Y una frecuencia
observada de 3 + 4 = 7. "
Finalmente, se puede calcular el estadístico X2 utilizando la fórmula (1),
obteniendo, excepto por la modificación realizada, las frecuencias observadas
La distribución F y el análisis de variancia 327

(Oi) de la tabla 11-7 Y las frecuencias esperadas (Ei) de la tabla 11-8. O sea,

t.
(o.i -_ED~
Ei
.~¡

(2 - 6.1)2 + (23 - 19.8)2 + (7 - 8.2)2


6.1 19.8 + 8.2
4.27

Grados de libertad. Luego de combinar los dos últimos intervalos, restan siete
intervalos. Sin embargo, se utilizaron dos grados de libertad al estimar J1 y a de
los datos muestrales. Se utilizó un tercer grado de libertad al hacer que las
frecuencias esperadas totales (214) fueran iguales al tamaño muestral. Por lo
tanto, sólo hay 7 - 3 = 4 grados de libertad restantes en el término X2 anterior.
Según el apéndice N, el valor X2 para el nivel de significación .10 es 7.779
para 4 grados de libertad. El valor observado X2 de 4.27 es mucho menor que
eso. De hecho, está cerca de! valor esperado de X2 con 4 grados de libertad, que
es 4.0. Por lo tanto, no podemos rechazar la hipótesis de normalidad. Fácilmente
los datos podrían provenir de una población normal.
En la misma forma, se puede utilizar el procedimiento anterior para probar si
los datos observados concuerdan con una distribución Poisson, binomial, expo-
nencial, u otra distribución de probabilidad. Note que el número de grados de
libertad en cada caso es: grados de libertad = número de intervalos menos el
número de parámetros estimados al ajustar los datos, menos uno (para igualar las
frecuencias totales).

LADISTRIBUCION F y EL ANALISIS DE VARIANCIA


En esta sección trataremos dos tipos de pruebas estadísticas: (1) las que se
refieren a hipótesis acerca de las variancias poblacionales, y (2) las que comparan
las medias de varias poblaciones. Aunque pueden parecer pruebas bien distintas,
tienen en común el uso de la distribución F.

La distribución F
Suponga que tenemos dos variables aleatorias independientes y ¡ y Y2' cada
una con una distribución de probabilidad X2 con g¡ Y g2 grados de libertad
respectivamen te- Entonces la razón:

F = .y¡/d¡
Y2/d2
tiene una distribución F. La distribución F tiene dos parámetros, g¡ Y g2, los
grados de libertad en e! numerador y denominador respectivamente. Para indicar
esto, la variable F se escribe a veces como F (I?' l ' g2)'
La variable F no puede ser negativa (ya que ninguna de las variables X2 puede
serlo) y tiene un valor esperado de aproximadamente 1.0. 9 Puesto que hay una
IlNote que esta es la misma conclusión a la que se llegó por el método gráfico utilizando el
papel probabihsticónorrnal (figura 6-5) en el capítulo 6.
9El valor esperado real de la distribución F es g2/(g2 N2). Note que para tamaños de
muestra muy pequeños en el denominador de la razón F esto puede ser distinto de 1.0.
328 Otros procedimientos de prueba

distribución F diferente para cada valor de g I Y g2' se reqaeriría un libro para


suministrar las tablas completas. Por lo tanto, el apéndice O muestra valores de F
sólo para las probabilidades de extremo derecho de .05 (en tipo ligero) y, .01 (en
tipo negrita). En la tabla 11-9 se muestra una porción del apéndice O. La tabla

Tabla 11-9
VALORES SELECCIONADOS PARA LA DISTRlBUCION F
PROBABILIDADES DE EXTREMJ DERECHO
.05 (Tipo delgado) y .01 (Tipo negrita)

gl (Numerador)
g2 (Denominador) 2 6 10

2 19.00 19.33 19.39


99.01 99.33 99.40
6 5.14 4.28 4.06
10.92 8.47 7.87
10 4.10 3.22 .~
2.97
7.56 5.39 4.85

indica que, por ejemplo, cuando gl 06 v'e, = 10, hay una probabilidad de .05
de que la variable F sea mayor que 3.22 y una probabilidad de .01 de que exceda
5.39.

Prueba de la igualdad de variancias poblacionales


Una aplicación de la distribución F es la prueba de la hipótesis de que las
variancias (xi y ai) de dos poblaciones normalmente distribuidas son iguales.
Suponga que se toman dos muestras de tamaños nLJ' n 2 de diferentes poblacio-
nes, con las medias muestrales resultantes de Xl Y X 2 Y desviaciones muestrales
estándar s I y S 2' Considere la razón:

S]2/U 12
F[(nl - 1), (n2 - 1)] 2/ 2
(2)
S2 U2

Ahora:

S2 ~(X - X)2

(]"2 (n ~ 1)u 2-
y el término:

es una suma de las desviaciones normales al cuadrado; por lo que tanto el


La distribución F y el análisis de variancia 129

numerador como el denominador de la formula (2) tienen distribuciones XZ


divididas por (n - 1) grados de libertad. Por lo tanto, de acuerdo a nuestra
definición, la razón en la fórmula (2) tiene una distribución F con (n 1 - 1) Y (n 2
-1) grados de libertad respectivamente.
Ahora podemos utilizar la fórmula (2) para probar la hipótesis de que dos
variancias poblacionales son las mismas. Si la hipótesis es cierta . . (ai ,= ai),
entonces se anulan las a en lafórmula (2)y la razón Fse reduce a:

2
S1
F[(nl - 1), (n2 - 1)] = -2
S2

Si ia hipótesis es cierta, s 1 y s2 deberían tener casi el mismo valor y, por lo


tanto, la razón debería ser uno. Si la razón es muy diferente de uno, hay
evidencia de que la hipótesis no es cierta. La distribución F determinará los
límites de la variación aleatoria," o
Ejemplo. Se toman dos muestras de dos poblaciones normales con nI = 11,
SI = 28.0, n 2 = 7, Y S2 = 21.4. Antes de utilizar la prueba t (descrita anterior-
mente),. tal vez deseemos probar el supuesto de que las dos poblaciones tienen
variancias iguales. La razón F es:

(28.0Y
F(10,6) = 1.71
(21.4)2
Puesto que ese resultado es menor que el valor F de 5% para 10 y 6 grados de
libertad (según la tabla 11-9 o el apéndice O), que es 4.06, no podemos rechazar
la hipótesis al nivel de 5%. Las diferencias existentes entre las variancias mues-
trales se pueden atribuir fácilmente al azar.

Análisis de variancia: prueba de la igualdad de


varias medias poblacionales
Las pruebas de la diferencia existente entre dos medias muestrales se estudia-
ron al principio de este capítulo yen el capítulo anterior. A veces es útil probar
Tabla 11·10
VENTAS EN 12 TIENDAS (CAJAS POR MES)
Tres Métodos de Promoción

Publicidad en el lugar de las Publicidad en Utilización de un


ventas periódicos demostrador

5 lO 23
3 15 18
10 8 16
6 7 11

Promedio de grupo '" Xl = 6.0 10.0

1 0Esta es una prueba de dos extremos, y se puede rechazar si F es o muy pequeña °


muy
grande. Sin embargo, note las tablas de distribución F sólo dan lbs valores del extremo
derecho. Pero poniendo siempre en el numerador de la razón la s2 más grande, se puede
utilizar siempre el valor del extremo derecho. (De otro modo, el valor del extremo izquierda
es el recíproco del valor del extremo derecho).
330 Otros procedimientos de prueba

la hipótesis de que las medias de varias poblaciones muestreadas son iguales. Por
ejemplo, un instructor puede probar diferentes métodos de enseñanza (método
de lectura estándar, instrucción programada, o instrucción audiovisual) en dife-
rentes secciones de un curso. Cada uno de esos métodos representa una condi-
ción o tratamiento experimental diferente, Posiblemente, el instructor desee
saber si las diferencias observadas en un examen final son resultados de los
diferentes tratamientos o se pueden atribuir a la variación fortuita. O el expe-
rimento puede implicar tres grupos de estudiantes (estudiantes de los primeros
años, estudiantes de años superiores, y graduados), puede ser que el instructor
desee estimar simultáneamente los efectos separados del método de instrucción y
el nivel de los estudiantes probando la significación estadística de cada conjunto
de factores. La prueba F se puede utilizar para ese propósito, tal como se ilustra
a continuación.
Suponga que una compañía está interesada en tres métodos de promoción de
un nuevo producto alimenticio: (1) material de publicidad en el lugar de la
venta, (2) publicidad en periódicos y (3) utilización de un demostrador en la
tienda. Para probar la efectividad de los tres métodos, se prueba cada uno de
ellos en una muestra de 4 tiendas de aproximadamente igual tamaño (un total de
12 tiendas). Las ventas mensuales en cajas se muestran en la tabla, 11-10. Note
que los promedios de grupo varían de 6 a 17. El promedio total, X, es 11.0. La
empresa desea saber si las diferencias observadas son significativas, o si podrían
atribuirse a la variación fortuita.
Antes de analizar el problema se hacen-dos supuestos: (1) Que las ventas
dentro de cada grupo (o sea para cada método de promoción) están normalmen-
te distribuidas. (2) Que las variancias de las ventas dentro de cada grupo son
iguales. O sea que:

La hipótesis nula es que no hay diferencia en las medias poblacionales; o sea que,
, ¡Ll = ¡L2 = ¡La = ¡L.

La técnica que se utiliza para probar esa hipótesis se denomina análisis de


variancia. Implica descomponer la variación total de todas las observaciones
respecto a la media total X en dos partes:

1. La variación dentro del grupo: la variación de cada observación con respecto


a las medias de grupo.
2. La variación entre los grupos: la variación de las medidas de grupo con
respecto a la media total.

Variancia dentro de/grupo (conjunta). Note que la variancia muestral para la


promoción en el lugar de las ventas para las cuatro tiendas se calcula como:
4

¿(Xi - X 1)2

n ~ 1
(5 -=~)2 + C3 _-=-~)2 _±-~10_ 6)2 + ~~:"~l~ 26
8'.67
4 ~ 1 3
Alternativamente, podemos describir esa fórmula como:
La distribución F y el análisis de variancia 331

Suma de desviaciones al cuadrado


Grados de libertad

SSD 1 + SSD 2 + SSDa SSD w 138


02 estimada = 15.3
dJ¡ + dh + dfa df", 9
donde el subíndice w se refiere a "dentro del grupo".
Variancia entre los grupos. El cálculo de la suma de desviaciones cuadradas de
las medidas muestrales (grupo) respecto a la media total es:

(Xl - X)2 + (X 2 - xy + (Xa - X)2


(6 - l1Y + (10 - 11)2 + (17 ~ 11)2 = 62

donde el subíndice b se refiere a "entre los grupos". Dividiendo esta SSD e por
dos grados de libertad (tres grupos menos un grado de libertad u tilizado para
estimar X ), tenernos una estimación de la variancia entre grupos O 2 :

SSD b 62
Estimada <Fg 2 =._-- 31
dfb 2
o sea, 31 es una estimación de la variabilidad de las medias muestrales de
tamaño n = 4 (el número de tiendas en cada grupo) respecto a la media total de
población.
Si la hipótesis f.1 1 = f.12 = f.1 3 = f.1 es verdadera, entonces las medias de cada
grupo se pueden considerar como muestras de la misma población con media /1.
RecJIerde ?de lo visto en el capítulo 9 que en este caso el error muestral
a-x· = a-"/n también es una medida de la variabilidad de las medias muestra-
les. Escribiendo de nuevo esa fórmula como na-l = a-2 vemos que si la hi-
pótesis es cíerta.! 2 n . ( a-;/ estimada) e~ una estimación de a- • Si la hipótesis
2

no es cierta, se -puede esperar que n • ( a-x· estimada) sea mayor que 0 2.


Variancia total. La variancia total de cada una de las observaciones respecto a
la media total se puede calcular también como:

11 Cuando hay el mismo número de artículos muestreados en cada grupo, como en nuestro
ejemplo, este procedimiento es equivalente a promediar las variancias muestrales.

12 La fórmula y cálculos mostrados son válidos si el tamaño de muestra en cada grupo es el


mismo, como en este ejemplo. Si no son iguales, entonces
k

SSDb = ¿
i=l
n,(X, - X)2

donde hay k grupos y ni es el tamaño de muestra en el i·ésimo grupo.


332 Otros procedimientos de prueba

SSD t
Variancia total
12 - 1 dft
(5 - 11)2 + C3 11)2 + ... + (11 - 11)2
11
386
35.1
11

donde el subíndice t significa "total". Los resultados de todos esos cálculos se


pueden resumir en la tabla de análisis de variancia que se muestra en la tabla
11.11. Note que la suma de las desviaciones al cuadrado y los grados de libertad
para las categorías "entre grupos" y "dentro de los grupos" suman los totales
para las dos categorías.
La última columna en la tabla 11-11 da dos estimaciones inpendientes para
a 2 , la variancia común dentro de cada grupo. Si la hipótesis es verdadera, estas
estimaciones deberían diferir sólo por la variación 'fortuita. Previamente se de-

Tabla U-U
TABLA DE ANALISIS vE VARIANCIA

Grados de Estimacion
Fuente de variación Suma de desviaciones al cuadrado libertad de a2

Entre grupos ' n . SSDb = 4(62) = 248 2 124.0


Dentro de los grupos SSDw = 138 9 15.3
Total ................ SSD t = 386 11

mostró que la distribución F representaba la razón de dos variancias muestrales.


Por lo tanto, se puede utilizar la distribución F para probar nuestra hipótesis.
Calculamos la razón:

Estimación de a2 "entre grupos" 124.0


F = 8.10
Estimación de a 2 "den tro de los 15.3
grupos"

Buscando el valor .01 de F en el apéndice O para dos a nueve grados de libertad,


encontramos 8.02. Puesto que el valor observado de 8.10 es mayor que ese valor,
podemos rechazar la hipótesis al nivel de significación del 1 por ciento. La
variación existente en tre las medias de grupos es' demasiado grande para poder
atribuirla al-azar.

Dos factores de clasiftcacion


Suponga que la compañia del ejemplo anterior estaba interesada en probar
tres fórmulas para su producto, además de los tres métodos de promoción. P6r'
ejemplo, en un pastel de carne congelada, la pasta -puede ser dura, ni dura ni
La distribución F y el análisis de variando 333

suave, y suave. Para probar esos factores, se pueden diseñar dos experimentos.
Sin embargo, es mucho más eficiente probar ambos factores al mismo tiempo.
Esa prueba se denomina "análisis de variancia de dos factores". Se puede utilizar
un diseño tal como el que se muestra en la tabla 11-12. Con este diseño, se
utilizan seis tiendas para estimar el efecto de cada método de promoción y, en
forma similar, se utilizan seis tiendas para cada fórmula de pasta. Pero el diseño
total requiere sólo 18 tiendas.
Suponga que se lleva a cabo el diseño, realizando el experimento en las 18
tiendas, y que los resultados obtenidos se muestran en la tabla 11-13. Hay dos
tiendas muestreadas en cada celda, y cada una de ellas se muestra separada por
una coma.
El modelo experimental. Antes de proseguir con el análisis de esos datos,
debemos examinar el modelo experimental de base supuesto. Definimos los si-
guientes términos:

Tabla 11-12
mSE¡>;¡O EXPERIMENTAL PARA PROBAR LA EFECTIVIDAD DE LOS
METOnOS DE PROMOCION y FORMULAS DE PASTA
Método de promoción
Publicidad en Utilización de un
periódicos demostrador Total
Diferencias 2 3
en
el producto

Pasta dura ........ 1 2 tiendas 2 tiendas 2 tiendas 6 tiendas


Pasta ni suave ni dura .2 2 tiendas 2 tiendas 2 tiendas 6 tiendas
Pasta suave ........ 3 2 tiendas 2 tiendas 2 tiendas 6 tiendas

Total ............ 6 tiendas 6 tiendas 6 tiendas 18 tiendas

Media total. La media total es el valor esperado sobre todas las hileras y
columnas y se denomina u.
Efectos de hilera. Los efectos de hilera son los efectos de las distintas fórmu-
las de pasta. Se miden como diferencias respecto a la media total. Sea R¡ el
efecto de hilera de la i-ésima hilera.
Tabla 11-13
VENTAS DE UNA MUESTRA DE 18 TIENDAS PARA METODOS DE
PROMOCION y FORMULAS DE PASTA SELECCIONADOS
(En cajas por mes)

Métodos de promoción
Utilización de un
demostrador Promedio
Diferencias 3
en el producto

Pasta dura ........ 1 10,6 14,8 18,16 12.0


Pasta ni dura ni suave .2 3,8 12,9 19,15 U.O
Pasta suave: ......... 3 5,4 10,7 23,11 10.0

Promedio ........ 6.0 10.0 17.0


334 Otros procedimientos de prueba

Efectos de columna. Estos son los efectos de los diferentes métodos de pro-
moción. Estos efectos se miden como desviaciones de la media total y se deno-
minan como Cj para el efecto de columna de laj-ésima columna.
Efectos de interacción. Se supone que el efecto en cualquier celda es la suma
de los efectos de hilera y de columna. Sin embargo, algunas veces hay un efecto
de interacción en el cual el efecto en la celda es mayor (o menor) que los efectos
de hilera y columna combinados. Por ejemplo, dos drogas tomadas por separado
pueden tener poco efecto, pero si se toman en combinación pueden tener gran-
des efectos. Los resultados se denominan efectos de interacción. En el ejemplo
del pastel de carne, la existencia de efectos de interacción podría significar que la
publicidad en los periódicos es efectiva cuando se la usa en combinación con la
fórmula de pasta suave, pero no con la de pasta dura. Designamos la interacción
en la i-ésima hilera, j-ésima columna, por lijo El modelo experimental es enton-
ces:

donde Xijk es la k-ésima observación en la i-ésima hilera, j-ésima columna; Jl es la


media total; Ri, Cj e lij son los efectos de hilera, columna e interacción: y €ijk es
la variación residual o no explicada.
Estimaciones. Nuestra primera tarea es estimar esos efectos.
Media total. Sea X el promedio total de los datos muestrales, En el ejemplo, X
es 11.0. Este valor es una estimación de J.1. •
Efectos de hilera. Sea
_ X R 1 el promedio de artículos
_ - muestreados en la i-ésima
hilera. Por ejemplo, X R =12. Entonces (X R - X)' es una estimación del
efecto de hilera Ri. O sea' que: 1

XR ¡ X 12 11 1 (estimación de Rl)
XR 2
X 11 11 O (estimación de R2)
XR 3
X 10 11 -1 (estimación de R 3)
Efectos de columna. Sea Xci..!:l promedio de los art ículos muestr~ados en la
j-ésima columna. Por ejemplo, XCI = 6. Entonces (Xc; - X) es una
estimación del efecto de columna Cj. O sea que:

XCI X 6 11 -5 (estimación de Cl)


XC2 X 10 11 -1 (estimación de C2)
XC3 X 17 11 6 (estimación de C3)
Efectos de interacción. Sea Xijel promedio de los artículos...!Jluestreados en
la celda de la i-ésima hilera y la j-ésima columna. Por ejernplo.Xj ¡ "'S.Entonces
el efecto de interacción es:
Promedio de celda Efecto de hilera Efecto de Media
columna Total
i-ésima hilera j-ésima
columna
Utilizando símbolos y simplificando un poco, obtenemos: 1 3
13Note que el signo de X es positivo enla segunda fórmula. Ello se debe a que X se sustrae
dos veces (una vez. en XR, y otra en Xc; ) y debe añadllfse de nuevo una vez para dar la
estimación correcta.
La distribución F y el análisis de variancia 335

que es una estimación del efecto de interacción lij" Los efectos de interacción
estimados en este ejemplo se muestran en la tabla 11-14.
Análisis de variancia: Se puede preguntar si los efectos de hilera, columna e
interacción representan sólo una variación fortuita o si representan diferencias

Tabla 11-14
EFECTOS DE INTERACCION ESTIMADOS

Columna

Hilera 2 3

1.. .. . . . 1.0 O -1.0


2 -0.5 O.S O
3 -O.S -O.S 1.0

significativas. Un análisis de variancia similar al utilizado en la última sección se


puede usar para responder a esa pregunta. La hipótesis es que no hay efectos
significativos de hilera, columna o interacción. Entonces, la variancia se des-
compone en partes tal como se hizo antes. El enfoque general se da en la tabla
11-15. Aquí, e representa el número de columnas, r el número de hileras, y n el
número de observaciones en cada celda. 1 4

Tabla 11-15
ANALISIS DE VARIANCIA DE DOS FACTORES

Suma de desviaciones al cuadrado Grados de Estimaciox


Fuente de variación (SSD) libertad (gl) de q2

Hileras .. (t
.C • n
.~1
(X Ri - X)2) r- 1 SSDjgi

Columnas (t
r· n
1=1
(XCi - X)2) C - 1 SSDIJf

Interacciones .. ······· n
Dentro de las grupos
(t t i~1 i~1
cx., - XRi - XCi + X)2) (r - l)(c - 1) SSD/Jj

(celdas) '0
~ ~ (X .. _ X.)2
(denominados también L...J L...J L...J .¡k .¡
(r· c)(n - 1) SSD/lf
residuos) . ...;i 1-=..i~_1:..--k_~..:..1 _
r , n
Total ..... ...L:L:L:
i=1 ;-1 k=l
(Xiik - X)2 (n . r' c - 1)

Los resultados para nuestro ejemplo se muestran en la tabla 11-16..Recuerde


que la hipótesis es que los efectos de hilera, columna, e interacción son iguales ~

14 Es posible tener un diseño con diferentes tamaños de muestra en cada celda. Sin ernbarr:
aquí no se tratará ese caso.
336 Otros procedimientos de prueba

cero. Si eso es cierto, los cuatro números de la columna (4) de la tabla 11-16 son
estimaciones de 0 2, la variancia entre celdas. El último valor, 14.4, es una

Tabla 11·16
ANALISIS DE VARIANCIA

Grados de Estimación
Fuente de variación Suma de desviaciones al cuadrado libertad de 0 2 RazónF
(1) (2) (3) (4) (5)

Hileras +
3.2(1 2 + 02 (-'1.)2) =i 12 }-1=2 6.0 0417
Columnas. . . .. . 3 . 2((-5)2 + ( -1)2 +6 2)
=372 3-1=2 186.0 12.910
Interacciones .. .... 2(12+ 02+(-1)2
+ (-.5)2+ ..
+12) = 8 (3 - 1)(3 - 1)= 4 2.0 .139
Dentro de los grupos (celdas)
(o residuos) .. (10 - 8)2 + (6 - 8)2
+ (14 - 10.5)2 + .
+ (11 - 17)2 = 130 (3 . 3)(2 - 1) = 9 1404
Total· ... + (6 - 11)2
.(10 - 11)2
+(14 - 11)2+ . . .
+ (11 - (1)2 = 522 (2, 3 '. 3 - 1)= 17

estimación directa de ella, y no se cambia si Ita hipótesis es falsa. Sin embargo, no


ocurre lo mismo con los otros valores de la columna 4; se espera que sean
mayores que 0 2 si los efectos no son cero.
Aquí también se puede utilizar la distribución F para decidir si los valores
observados son mayores de lo que permitiría el azar. Las razones de los primeros
tres valores de la columna 4 al cuarto valor se muestran en la columna 5. Estos
valoreseon las razones F. Deben compararse con los valores F del apéndice O
para los grados de libertad apropiados. Note que F(2,9) = 8.02 para el nivel de
significación de 0.01. Puesto que la razón F de columna de 12.91 es mayor que
ese valor, los efectos de columna son significativos al nivel de .01. Sin embargo,
las razones F de hilera e interacción son menores que uno y no son significativos.
Esto quiere decir que los diferentes métodos de promoción varían significa-
tivamente en efectividad de ventas, pero que las diferencias en fórmulas de pasta
no varían significativamente, y que las interacciones existentes entre métodos de
promoción y fórmulas de pasta fueron significativas.
Otros comentarios. El análisis anterior incluyó interacciones en el supuesto de
que podrían haber estado presentes. Sin embargo, si hay una razón a priori para
creer que no hay efectos de interacción, el análisis se puede simplificar reali-
zándolo solamente en términos de efectos de hilera y columna.! 5
El ejemplo anterior ilustró un diseño que implicaba sólo dos factores (método
de promoción y fórmula de pasta). En general se puede incluir cualquier número
de factores en el análisis. Aunque los cálculos son más complicados, los concep-
tos básicos son los mismos que S6 ilustraron.
!5 En este caso, las interacciones SSD y df se agregan a SSD y df residuales y se hace el aná-
lisis como se explicó con anterioridad. Cabe notar que si sólo se hace una observación por
célula no se pueden estimar los efectos de interacción y se deben considerar como iguales a
cero. Los efectos de hilera o de columna también se pueden combinar en forma análoga
siempre y cuando resulten insignificantes tal como se supuso a priori. En este ejemplo se po-
dría simplificar el análisis, reduciéndolo a un análisis de un solo factor de columnas en el que
se combinan la hilera y las interacciones SSD y df con los residuos.
Pruebas no paramétricas 337

Note que el uso de la distribución F se basó en el supuesto de que había una


distribución normal. Aún más, en el análisis de pruebas de variancia, se supuso
que las variancias de los artículos muestreados dentro de los grupos (o dentro de
las celdas) eran iguales. Aunque esos supuestos son necesarios para la deducción
matemática de las pruebas F dadas, otros estudios han mostrado que las pruebas
son relativamente insensibles a alteraciones moderadas de esos supuestos. Siem-
pre que las distribuciones existentes no sean bimodales o muy asimétricas y que
las variancias dentro de los grupos (o celdas) sean aproximadamente iguales, la
distribución F es una buena aproximación y los resultados de la prueba F son
razonablemente válidos.
La cantidad de cálculos que se necesitan para estimar los efectos y probar las
hipótesis utilizando análisis de variancia puede ser muy grande, como se mostró
en el ejemplo que implicaba dos factores. Afortunadamente, hay disponibles
programas de computadora que permiten realizar esos cálculos con rapidez y
precisión.

PRUEBAS NO PARAMETRICAS
Las pruebas estadísticas descritas al principio de este capítulo generalmente
requieren supuestos respecto a la distribución de la cual se toma la muestra. En
particular, las pruebas t y F requieren un supuesto de normalidad.! 6 Hay toda
una serie de pruebas estadísticas, generalmente denominadas no-paramétricas o
pruebas a distribución libre, que no requieren esos supuestos.
Además, muchas de las pruebas no paramétricas se pueden utilizar con datos
en la escala ordinal. Una escala ordinal sólo requiere que los artículos se clasifi-
quen en cierto orden. Por ejemplo, en una encuesta de mercado se le puede pedir
a un consumidor que clasifique un grupo de productos por orden de preferencia.
!\ menudo se encuentran datos en esa forma en investigaciones de personal, de
mercado, y estudios de conducta de organización. Con las pruebas estadísticas
presentadas anteriormente no se pueden manejar tales datos. Muchas de las
pruebas no paramétricas requieren relativamente pocos cálculos. Por lo tanto, no
sólo son métodos abreviados, sino que también son más fáciles de entender J?ara
[os menos versados en procedimientos estadísticos.
Aunque hay muchas técnicas no paramétricas, se presentan dos en este capí-
tulo para dar al lector una idea del uso de esas pruebas. Algunos libros de
referencia sobre pruebas no paramétricas se listan al final del capítulo.

Prueba de suma de rangos para dos muestras independientes


La prueba de suma de rangos para dos muestras independientes! 7 es un
ejemplo de un grupo de pruebas no paramétricas que se basan en la ordenación o
jerarquización por rangos de los artículos en muestras. En este caso particular, se
toman dos muestras en forma aleatoria de dos poblaciones. El procedimiento de
prueba se diseña para probar la hipótesisde que las dos poblaciones son iguales.
La prueba no hace supuestos acerca de la distribución de la población y sólo
requiere que las observaciones se puedan jerarquizar de acuerdo a algún criterio.

16 En los casos de tablas de contingencia y de las pruebas de bondad de ajuste, la prueba ji


cuadrada depende de una aproximación normal, pero no requiere de ningún supuesto con
respecto a la distribución de la cual se tomó la muestra. Parlo tanto, en estas aplicaciones la
prueba ji cuadrada suele clasificarse como no paramétrica.
! 7También existen variantes de esta prueba tales como la de Wilcoxon de dos muestras y la
de Mann-Whitney.
338 Otros procedimientos de prueba

Considere un ejemplo. Suponga que una empresa, en un esfuerzo por mejorar


la seguridad en su fábrica, experimentó con un programa de entrenamiento de
seguridad de dos días para los trabajadores. Se seleccionó al azar un grupo de
ocho trabajadores al cual se hizo asistir al curso de entrenamiento. Se seleccionó
un segundo grupo de siete trabajadores al azar para que actuara como grupo de
control o comparación. Estos siete trabajadores no asistieron al curso de entre-
namiento. Dos meses después del programa de entrenamiento, se pidió a un
instructor -que no sabía cuales empleados habían asistido al programa- que
jerarquizara la conducta de los 15 trabajadores en cuanto a seguridad (es decir, el
uso que hacían del equipo protector). Los rangos van de 1 (la conducta más
segura) a 15 (la conducta menos segura). Los rangos resultantes para los 15
empleados son: 6*,2*, 7, 12,9*, 14,4,3*, 1*,5*,15,8*,11"",13,10, donde
los asteriscos indican aquellos trabajadores que fueron entrenados.
Si no hubiera diferencia entre los grupos de trabajadores entrenados y no
entrenados, los rangos deberían estar más o menos igualmente dispersos entre los
dos grupos. Por otra parte, si el entrenamiento tuvo algún efecto, los que fueron
entrenados deberían tener menores (o sea, mejores) rangos. El examen de los
datos da alguna indicación de que es así. Pero los resultados observados pued en
deberse al azar.
Para analizar eso, se calcula un estadístico T para indicar la suma de rangos
para un grupo. Aquí la suma de los números eón asterisco es TI = 45 para el
grupo 1 (los que se han entrenado). Se han calculado tablas para la distribución
de probabilidad de T. En particular, el Apéndice P muestra los valores críticos
superior(s) e inferior(i) de T para las "probabilidades críticas de .05 y .01. La
tabla 11-17 es una parte del apéndice P. En este ejemplo, ni = 8 (número de
personas entrenadas) y n2 = 7 (número de personas no entrenadas). Los valores
críticos obtenidos en la tabla 11-17 (o en el apéndice P) son 46 y 82 para el nivel
de significación de .05. Si el valor calculado de TI queda dentro de esos límites,
no podemos rechazar la hipótesis al nivel de significación de .05. Si el valor
observado de TI es menor o igual a 46, o mayor o igual a 82,la hipótesis de que
los grupos son iguales se pueden rechazar al nivel de .05. En nuestro caso, puesto
que el valor observado de TI = 45 es menor que el límite inferior de 46,

Tabla 11-17
VALORES CRITlCOS DE T
(LIMITES INFERIOR (i) Y SUPERIOR (s)
PARA VALORES SELECCIONADOS DE nI y n2

n2

7 8

nI .05 .01 .05 .01

6 27 24 29 25
57 60 61 65
7 36 32 38 34
s 69 73 74 78
8 46 42 49 43
s 82 86 87 93
Pruebas no paramétricas 339

podemos rechazar la hipótesis. Hay evidencia significativa de que el entrena-


miento influye en la conducta de seguridad.
Note que las probabilidades críticas en la tabla 11-17 y el apéndice P son
valores críticos de dos extremos. O sea que, la hipótesis se puede rechazar si TI
es muy grande o muy pequeño. Para pruebas de un extremo, se pueden utilizar
las tablas en las que las probabilidades se reducen a la mitad (o sea, a los niveles
de .025 y .005) o se pueden utilizar tablas más detalladas (véanse las referencias
al final del capítulo).
En el ejemplo, utilizamos la suma de rangos para el grupo entrenado TI,
Alternativamente, podemos usar la suma de rangos del grupo no entrenado (T 2
= 75). En general, TI + T 2 = (ni + n2 )(nl + n2 + 1)/2.
Empates. Si hay empates en los rangos, a cada elemento empatado se le da el
rango promedio de todos los empatados. Por ejemplo, si el supervisor creía que
el trabajador 2 (de rango 2) y el trabajador 8 (de rango 3) eran realmente de
igual rango en lo que se refiere a prácticas de seguridad, le daríamos a cada uno
un rango de 2.5 y proseguiríamos como antes. 18
Tamaños de muestras más grandes. Las tablas del apéndice P son útiles para
muestras de tamaños hasta 10. Para muestras mayores que ese valor, el estadís-
tico TI, en el supuesto caso de que la hipótesis sea cierta, está aproximadamente
normalmente distribuido y su media es

n¡(n! + nz + 1)
2
y desviación estándar

a = In\nz(n! + n« + 1)
TI ~ 12

donde, como antes, TI es la suma de rangos de la primera muestra y ni Y n2 son


los tamaños de muestra para la primera y la segunda muestra, respectivamente.
Entonces:

IT! - MT1 l - 1/2


z=
(jT
1

es la desviación normal estandarizada z , tabulada en el apéndice D. La fracción


1/2 de la fórmula anterior representa un ajuste por continuidad, puesto que
estamos aproximando una distribución discreta para TI con la distribución
normal continua,

La prueba de la suma de rangos para variasmuestras independientes


La prueba de suma de rangos se puede extender al caso donde hay tres o más
muestras independientes de diferentes poblaciones.Í 9 Esta prueba es el equiva-

18 Si más de un cuarto de los elementos están empatados, este procedimiento de suma de


rangos debería modificarse tal como se describe en textos avanzados.
!9 Esta se denomina la prueba Kruskal-Wallis.
340 Otros procedimientos de prueba

lente no paramétrico de! procedimiento de análisis de variancia que utiliza la


prueba F descrita al principio de este capítulo.
Suponga que hay k muestras independientes. Sea ni el tamaño de muestra en
e! i-ésimo grupo, y !.n i = n. Como antes, ordenemos todos los n artículos en
una sola clasificación. Sea Ti la suma de los rangos para el grupo i-ésimo.
La hipótesis nula es la de que todas las poblaciones son las mismas. Bajo esta
hipótesis, e! estadístico H, donde

12 k Ti2
H =.
n(n + 1) k' " -
ni
- 3(n + 1)
tiene aproximadamente una distribución ji cuadrada con k-l grados de libertad.
La aproximación es adecuada si el tamaño de muestra en cada grupo es de tres o
más. Como antes, a los empates se les da el rango promedio de los artículos
empatados. 2 o
Ejemplo. Para ilustrar esta técnica, utilizamos los datos de la tabla 11-10. Las
12 tiendas se jerarquizan en términos de las ventas y los rangos se muestran en la

Tabla 11-18
JERARQUIZACION DE VENTAS EN 12 TIENDAS
TRES METODOS DE PROMOCION
.
Grupo 1 Grupo 2 Grupo 3
Publicidad en el lugar de las ventas Publicidad en periódicos Utilización de un demostrador

11 6.5 1
12 4 2
6.5 8 3
lO 9 5
--
Total T 1 = 39.5 T 2 = 27.5 T, = 11

tabla 11-18. Note que dos tiendas tienen ventas de 10 cajas por mes y están
empatadas para los rangos 6 y 7. Por lo tanto, a cada una se le asigna e! rango
6.5.
Sustituyendo en la fórmula:

12 ~ Y.2
H = - - . - - ~-' - 3(n
n(n + 1) i=l ni
+ 1)
~ [(39.5)~ + (2~.5)2 + (ll,o)~J - 3(13)
12(13) . 4 4 4
7.875

20Si una cuarta parte, o más, de los elementos están empatados, se deberían realizar ajustes
para corregir eso.
Problemas 341

En el apéndice N encontramos que el valor de ji-cuadrada para k - 1 3- 1 2 = =


grados de libertad es 7.824 para el nivel de significación de .02. Puesto que el
valor observado de H es mayor que ese valor, podemos concluir que los grupos
difieren al nivel de significación de .02. Esto concuerda con el resultado
obtenido anteriormente, aunque el nivel de significación no es tan pequeño (.01
y .02). Sin embargo, cabe notar que para aplicar la prueba no paramétrica, no
hicimos el supuesto de normalidad, ni el supuesto de que las variancias entre los
grupos fueran iguales. De hecho, no se requirieron supuestos acerca de las
poblaciones originales.

Otras pruebas no paramétricas


Existen otras muchas pruebas no paramétricas, Por ejemplo, hay pruebas para
muestras por pares, pruebas para medianas, para runflas y para correlación de
rangos, por mencionar sólo unas cuantas. Las referencias al final del capítulo
describen muchas de esas pruebas
Las pruebas no paramétrícas se han hecho muy populares-en años recientes.
No sólo son fáciles de usar e interpretar, sino que requieren menos supuestos que
las pruebas paramétricas comparables. Finalmente, muchas de las pruebas no'
paramétricas son casi tan útiles como las pruebas paramétricas comparables (al
tener una probabilidad muy alta de rechazar la hipótesis nula cuando es falsa).
aún cuando los supuestos acerca de las últimas sean ciertos.

RESUMEN

En este capítulo se describieron muchos procedimientos avanzados par",


probar hipótesis.
El primero que se utilizó fue la distribución t al realizar muestreos de pobla-
ciones normales con muestras pequeñas. Se consideraron pruebas de hipótesis
respecto a las medias y a las diferencias entre dos. medias muestrales.
La distribución ji-cuadrada proporciona una prueba de hipótesis respecto a lzs
frecuencias. Se dieron tres ejemplos específicos que implicaron probar diferen-
cias en las proporciones de población para varias poblaciones, tablas de contra-
gencia y la bondad del ajuste.
La distribución F se utilizó para probar hípótesís.respecto a variancias de
población y se extendió para probar las diferencias existentes entre las medias de
varias poblaciones. Para ello se introdujo la técnica del análisis de variancia y d
experimento de dos factores.
Finalmente se consideraron dos pruebas no paramétricas: una prueba de: a
diferencia existente entre dos poblaciones para muestras independientes, y ~.;,
prueba para las diferencias existentes entre varias poblaciones. Ambas pruebas se
basaron en la jerarquización por rangos de los artículos muestreados. Las pruebai
no pararnétricas sen sencillas y no requieren supuestos acerca de las poblaciozes
originales.
PROBLEM.AS
L Explique
a) ¿f'or qué las medidas de muestras grandes siguen la distribución normal, el', :..,
que las medidas de muestras pequeñas se pueden desviar significativamente :J'
normalidad?
b )~P()r. qué al tornar una muestra pequeña de una población normal, se puede "'~¡:JZ4
la 'distribución norma! para la inferencia estadística si a es conocida, pero So' ....,.,
emplear la distribución t si (J no es conocida?
342 Otros procedimientos de prueba

2. La gerencia está interesada en el tiempo de espera promedio de los dientes en una


de un supermercado en los periodos pico. Se toma una muestra aleatoria de 16
y se anotan sus tiempos de espera. El tiempo de espera promedio fue de siete
con una. desviación están dar de tres minutos. ¿Podernos concluir (con el 95
confianza] que e! tiempo de espera promedio no fue menor de cinco minutos?
(Suponga que la población muestreada cs normal).

3. Se toma una muestra aleatoria de 25 hojas de producción de los archivos de producción


diaria de un gran grupo de empleados para estimar la media de población. La
tiene una media de 136 unidadcs con una desviación estándar de 24
producción diaria está normalmente distribuida).
a) Calcule un intervalo de confianza del 98% para la producción media de
empicados.
b ) ¿Difiere significativamente la producción mcdia de 136 unidades de la producción
estándar de 144 unidades establecida por la gerencia'? Explique por qué.

4. La compañía Alvin Chemical considera la adición de algunos tanques de


miento de petróleo en su centro de distribución en Chicago. Es una práctica
esta compañía la de obtener varias estimaciones de sus propios ingenieros respecto a
gastos de capital. El promedio de esas estimaciones se utiliza para determinar la cifra
gasto esperado en la planeación de! presupuesto de capital. Para los tanques
almacenarnien to de Chicago, se obtuvieron cinco estimaciones:

Estimador Estimación (Millones de


dólares)
Pcarson $ 9
Neyman 14
Fisher . 8
Wald 9
Hotel 10

Al notar la diversidad de estimaciones, e! presidente de la compañía se pregunta si


sería posible establecer algunos hrnitcs exteriores (digamos con el 95% de confianza)
corno estimaciones de gastos máx irn os y m i nimos.
a) Haga una «st imación de ese intervalo tal.
b ) ¿Cuúlcs supuestos son necesarios para realizar esta estimación? Analicc Ia validez de
esos supuestos.

5. El gerente de una flotilla de automóviles estaba investigando las diferencias existentes


entre los costos de manu-nimicnt o y reparación de dos marcas de los au tornóvi lcs de su
flotilla. Para ello seleccionó una muestra dc 15 automóviles de cada marca y calculó
costos de rnanrenimicnt o 'y' reparación por milla durante el año anterior para
automóvil, Los resultados son:

171 15 1'72 15
Xl $.018 por milla $.025 por milla
"] .015 ·'2 .021

('Jíay evidencia en esos daros de que las dos tT!éUCáS dificrcu significativamente en los
costos ele manu-n imicnto y reparación por m illa?

cré dit o d(: un h.mco supone qU(' una indicación de qu.: una persona
es la de si I)OSCC o no una cuenta de ahorro. De acuerdo a esa conjetura
selecciona una muestra de 150 clientes de sus archivos 'V los clasifica de acuerdo a los
atrasos en los pagos:

SÚL atrasos Con atrasos


Tienen cuenta de ahorro . . . . . . . . . . . . . . 87 3
No tienen cuenta de ahorro . . . . . . . . . . . . . 48 12

B,L~án(lo'¡e en esa información, ¿es correcta la conjetura del oficial de crédito?

compañía está examinando métodos alternativos de empaque de un producto


nuevo. Se probaron dos diseños de empaque (denominados rojo y azul) entre los
de tres ciudades. En la ciudad A, se muestrearon 200 consumidores y el
prefirió el empaque rojo; en la ciudad B, se seleccionaron 100 consumidores, y el
de los mismos prefirió el empaque rojo; en la ciudad e, se muestrearon 300
consumidores, y el 54% prefirió el empaque rojo. ¿Indican estos datos que hay difcrcn-
significativas entre las ciudades respecto al porcentaje que prefirió el diseño rojo,'

El gerente de una instalación de computadoras ha recabado datos respecto al número de


veces que se ha interrumpido .;J servicio a los usuarios (generalmente debido a fallas de
máquina) en cada una de las últimas 50 semanas.

Interrupciones Número de
p or semana semanas

o 16
1 20
2 9
3 3
4 2
Total . 50

Pruebe la hipótesis de que las interrupciones del servicio son un fenómeno aleatorio (o
sea que provienen de una distribución de Poisson).

9. Un colcga suyo dice que no tiene por qué utilizar una tabla de números aleatorios,
puesto que puede generar números aleatorios en su cabeza que "son tan aleatorios corno
los de las tablas". Usted duda, pero decide probarlo pidiéndote que "genere" 100 de sus
"números aleatorios". Usted clasifica esos cien números por la frecuencia en que él los
menciona.

Número FreCUC11cia Número Frecu cncia


-----_.. ---- ------
o 15 5. 14
1 8 6 6
2 15 7 17
3 5 8 7
4 7 9 6

Total lOO

Cuando usted le dice a su colega que) aparentemente, mencionó algunos números más
frecuentemente que otros, él responde que se debe a la variación fortuita. ¿Está usted
de acuerdo con d? Explique por qué

El fabricante de un equipo de extinción de incendios estaba tratando de- encontrar


cuáles variables influyen en la compra de tal equipo. Sr sugirió como posible influencia
344 Otros procedimientos de prueba

una variable, la posesión de una casa. Se seleccionó una muestra de 100 dueños
y se clasificaron corno se muestra a continuación.

Tienen No tienen
extinguidor extinguidor

Dueños de casa . . . . . . . . . . 20 50
No son dueños de casa . . . . . O 30

(;Jn.dican los datos anteriores de que hay alguna relación entre la posesión de
la posesión de un equipo de extinción de incendios?

11. Los siguientes datos servirán para los problemas 1 J a 16. Un investigador
experimentos para encontrar mejores mé todos de establecer probabilidades subjetivas.
desarrolló tres métodos diferentes y realizó un experimento para probar la efectividad
de cada. uno de ellos. Se entrenó un grupo de personas en cada método. A todas
les hizo una prueba para medir su habilidad en el establecimiento de probabiudades,
se calificaron las pruebas. Los resultados se muestran <t. continuaciori:

Método 1 Método 2 Método 3

}3.2 %.3 48.7


47.2 49.5 5,).3
57.2 41.5 50.3
50.7 52.0 :)5,2
53.0 'I2.3 50.5
59.0 34.5 45.2
527 33.2 4,8.3
4).3 4-9.3
35.7 47.8
45.2
47.'/
50.0
44.3
47.3
51.2

111 7 /12 15 <)

Xi .86 ;c, _.- 43.45 50.07


5J;':'1 6.30 3.32

clye d está interesado en. comparar el rnt"todo 1 con el rrlétodo


probar la hipótesis de que las var.ancias los dos grupos
pruci:a. diay dif(~T(~n(',la sign 1,ficativa en hl.s variancias?
16" Utilizand.o rangos,
(Utilice los ).

1. '1. d e- la pági na 1 l' . de


salarios de los capataces en las dos divisiones

Una cornpañfa est:i haciendo pruebas 111CrGldo versiones nuevas de


La mcz cla 1 es de grano grueso, la mezcla grallü fino, y mezcla 3
tiene un aditivo chispeante. Cada mezcla se instala en nueve tiendas y se miden las
ventas realizadas en el periodo de un mes, scleccionaron manera que
fueran de misma composición, con y tres
pequeñas. Las ventas cajas por mes se muestran en

grandes
'Tiendas medianas
Tiendas pequeñas
Estime los efectos hilera y, columna.
Estima los efectos de interacción.
el análisis de varianciapara determinar siesos efectos son significativos.

Se realizó un estudio para medir las actitudes de los estudiantes hacia. las grandes
Se discúó un cuestionario que se presentó a una muestra de esrudiantes
por raza y sexo. Los resultados de cada cuestionario se clasificaron corno
favorable) neutral, o no favorable hacia las grandes cornpan ías. Los datos fueron Jos
siguientes:

Raza Blanca Otra raza


Hombres Mujeres Hombres Mujeres
Favorable " . " .. 36 40 8 10
Neutral o •• 6 10
No favorable 30 14
To tui . . . . 12 98 28 32
a) Pruebe la hipótesis de que la actitud hacia las grandes cornpañras es independiente
del scx o (en las dos categorías de
b} Pruebe la hipótesis de que la es independiente de la raza (pa.ra los dos sexos).
e) Utilizan do el conjunto de caLcgodas h ornbre blanco, hornbre de o tra raza) mujer
mujer de otra raza, pruebe la hipótesis de que la actitud es de
esas categorías.

Refiérase a los datos mostrados en tabla 2-3, página. 39. Pruebe la hipótesis de: qtte los
datos una muestra de una población con distribución norrnai, La media muestr.u
y L,t desviación cstaudar muestrnl es s ,.00082,

Refi{:rase al problema 17 del cap tulo 2 continuado corno problema 5 del cap itulo .3 y
í

problema El del capf rulo Pruebe Ll hi,póte."¡s jos datos son una muestra de una
distribución normal.

Se realizó un estudio para determinar los factores que in.fhrycn en el tiempo de manipu-
de las placas de metal de una prensa sacabocados. PC11SÓ que el factor de te rrni M

n an t« era el peso de la placa de mctal ; por lo que dichasph1.cas se clasificaron corno


livianas, de peso Inedia o y se anotó el tiempo manipulación (en milésimos
d.e 1Y1Ü¡,utO) de una muestra de placas de metal, Los uicmpo s de rnanipt!ila.ción se
muestran a con tinuación:
346 Otros procedimientos de prueba

Livianos Medios Pesados

30 32 30 42 70 64
25 35 56 50 88 105
15 25 30 50 70 80
42 52 64 85 85 105

a) Utilizando sólo las 12 observaciones de las dos hileras superiores, pruebe la hipótesis
de que el peso no influye en el tiempo de manipulación.
b) Utilizando las 24 observaciones, pruebe la hipótesis de que el peso no influye en el
tiempo de manipulación.

23. Refiérase al problema 22 anterior. Suponga que las observaciones de las dos hileras
superiores fueron obtenidas del operador 1 y las de las filas inferiores del operador 2.
Lleve a eabo un análisis de variancia de dos factores para determinar si el tiempo de
manipulación var ia tanto por operador como por peso.

24. Se realiza un estudio respecto al tiempo que permanecen en el hospital los pacientes
con una cierta en fermcdad. Se seleccionaron al azar seis hombres y seis mujeres con esa
enfermedad de cada uno de los tres hospitales de una ciudad y se anotó el número de
días que permanecieron en el hospital. Los datos se dana continuación:

Hospital A Hospital B Hospital e


------
Pacientes hombres 15,19,21 20,26,32 28,32,36
26,22,17 29,21,24 24,30,32

Pacientes mujeres 28,22,24 29,20,26 35,38,30


16,-19,26 27,29,25 29,34,33

a) ¿Presentan alguna evidencia significativa los datos anteriores de que la permanencia


en el hospital varía de hospital a hospital?
b ) dIay alguna indicación de que existen diferentes tratamientos para los hombres y
las mujeres?
e) dIay alguna interacción entre hospitales y sexo en términos de la duración de la
estadía en el hospital?

BIBUOGRAfiA

DIXON, W.J., Y MASSEY, F. J. In troduc tia n to Statistical Analysis. 3d cd. New York:
McGraw-Hill,1969.
Cubre una gran variedad de procedimientos de pruebas estadísticas. Los capítulos 8 y
10 tratan las pruebas que implican las distribuciones t y F Y el análisis de variancia.
capítulo 13 trata las aplicaciones de la distribución ji-cuadrada. El capítulo 17 trata las
pruebas no-paramétricas.
HAMBURG, M. Statistical Analysis for Decision Making, New York: Harcourt, Braco &
World, 1970.
El capítulo 9 es un estudio de fácil lectura del análisis de ji-cuadrada y de variancia
un nivel moderado.
KRAFT, C. K., y VAN EDEN, C. Anoriporam etric Introduction lo Statistics. Ne w York:
Macmillan, 1968.
La parte 1I describe varias prueba, no paramétricas. Este libro incluye ex tensas tablas
de estadísticos no paramétricos.
OWEN, D. B., Hand book of Statistical Tables. Reading, Mass.: Addison-Wesley, 1962.
Contiene extensas tablas, no sólo para t, F Y X'.!., sino para muchos estad ísticos no
param étr ico s.
PAZER H. L., Y S WANSON, 1,. A. Mo dern Metho ds f01" St.atistical Anolvsis. Scranton,
lntext Education Pub lish crs , 1972.
Los capítulos 6, 7 y 10 tratan el material de este capítulo a un nivel comparable, pero
con un poco más de detalle.
RJcHMOND, S. B. Statistical Anaiysis, 2d ed. New York: Rouald Press, 1964.
Los capítulos 11 y 12 presentan un trat.am icn to elemental del análisis de ji-cuadrada
y de variancia.
JEGEL, S. No np arnmetric Statistics. New York: McGraw-Hil1, 1956.
La fuente de referencia básica para la estadística no pararnétrica.
v. Muestreo, simulación y
toma de decisiones
CAPITULO 12
.Jlétodos de encuestas por muestreo

LA MAYOR PARTE DEL MATERIAL que hemos estudiado está relacionado con
la interpretación y evaluación de la información muestra!. Fundamental-
mente se ha puesto énfasis en las muestras aleatorias simples. Sin embargo,
E:D la práctica es a menudo imposible obtener muestras aleatorias simples,

o tienen un costo prohibitivo. En este capítulo examinamos algunos méto-


, dos de selección de muestra. Algunos de estos métodos serán más eficientes
que el muestreo aleatorio simple; otros se pueden utilizar donde el muestreo
aleatorio simple resulta imposible; y algunos más son menos costosos que el
muestreo aleatorio simple.
La primera mitad de este capitulo describe los principales métodos de
muestreo de uso común. Es esencial conocer esos tipos de muestras para en-
tender la recopilación de datos y la interpretación de resultados. La segunda
mitad, que se refiere a "Medición de la precisión de la estadística de mues-
treo", describe los cálculos del error estándar y otras medidas necesarias
para evaluar la media o proporción en una encuesta por muestreo. Si se
desea, se puede omitir esa sección técnica; las fórmulas son directas pero
. un poco complicadas
Hay dos grandes clases de métodos de selección de muestras; 1) el mues-
treo probabilístico, que incluye el muestreo aleatorio simple, la selección
sistemática, el muestreo aleatorio estratificado, la estimación de razón, y el
muestreo por conglomerados, y 2) el muestreo no probabilístico, que incluye
el muestreo por cuota y el muestreo por criterio. Ambos métodos se discuten
a continuación.

MUESTREO PROBABlLISTlCO

El muestreo probabilístico incluye todos los métodos de muestreo en los


cuales las unidades muestreadas se seleccionan conforme a las leyes del
azar, en forma tal que la probabilidad de inclusión se conoce (y no es cero)
para cada miembro de la población. El término "seleccionado conforme
a las leyes .del azar" significa la utilización de algún m.edio aleatorio tal

349
350 Métodos de encuestas por muestreo

como una tabla de números aleatorios en vez del criterio personal para
escoger los artículos muestreados. La "probabilidad de inclusión" puede
ser igual para todas las unidades de la población (como en el muestreo
aleatorio simple) o puede ser, por ejemplo, "probabilidad proporcional al
tamaño" (por ejemplo, podría existir el doble de probabilidades de que se
escoja una compañía con ventas de dos millones de pesos en vez de una
con ventas de: un millón .de pesos). Sin embargo, en cualq:-úer c~so se debe
conocer la probabilidad y, por lo tanto, la población misma debe ser iden-
tificable.
En las muestras probabilísticas se puede estimar objetivamente la pre-
cisión de los resultados muestrales o comparar la precisión de los diferentes
tipos de muestras. La precisión de las muestras probabilísticas aumenta (o
sea que el error muestral disminuye) a medida que aumenta el tamaño
de la muestra, mientras que los errores de criterio persisten en las muestras
grandes no-probabilísticas. Por lo tanto, se utiliza generalmente el muestreo
probabilístico siempre que sea factible, en encuestas de gran escala.

Muestreo aleatorio simple

Siempre que se habló de muestreó en los capítulos 9 a 11 se hacía refe-


rencia. a muestreo aleatorio simple. Muestreo aleatorio simple es aquel en
que cada posible muestra de un tamaño dado en la población tiene igual
probabilidad de ser seleccionada.

Selección sistemática

Una selección sistemática es aquella en Ji cual cada k-ésimo (por ejem-


plo, cada décimo artículo) se selecciona de una lista que representa una
población o estrato (lln segmento relativamente uniforme) de la población.
El número k se denomina intervalo de muestreo, El primer número se escoge
al azar de los primeros k artículos como se describió antes. La selección
sistemática asegura que los artículos muestreados se espaciarán de manera
uniforme en la población.
Por ejemplo, suponga que usted desea tomar una muestra sistemática
de 6 casas habitación a partir de una manzana que abarca 78 casas. En
primer lugar, liste y numere las casas de habitación. Luego divida 78 entre
6; eso significa que usted selecciona cada treceava casa. Escoja la primera
tasa al azar de los números uno a trece, utilizando una tabla de números
aleatorios. Digamos que el número escogido es 6. Ahora seleccione cada
treceava casa, empezando con el número 6 -o sea 6, 19, 32, 45, 58 y 71-
para completar la muestra.
A menudo, el muestreo sistemático equivale en sus resultados al mues-
treo aleatorio,' si los elementos de una población ocurren en un orden
aleatorio.. Por ejemplo, al repartir las cartas en el juego de bridge, cada
jugador tiene una muestra sistemática (cada cuarta carta). Si las cartas
se han barajado bien antes de darlas, cada mano es equivalente a una
Muestreo probabilistico 351

muestra aleatoria. Cuando se considera que los elementos de una pobla-


ción están en un orden aleatorio, las fórmulas utilizadas para el muestreo
aleatorio simple se aplican también' al muestreo sistemático.
La selección sistemática tiene una ventaja importante sobre el muestreo
aleatorio simple si partes similares de una población tienden a agruparse
bastante, o sea.rsi los elementos cercanos se asemejan entre sí más de. lo
que se asemejan aquellos que se encuentran a distancias mayores entre sí.
Por ejemplo, los residentes con ingresos similares tienden a localizarse en los
mismos vecindarios. Una selección sistemática de las manzanas de una ciu-
dad, numeradas en forma de serpentina según se describe más adelante, in-
cluiría entonces en forma más cercana la misma proporción de cada grupo
de ingreso que una muestra aleatoria simple. Sin embargo, no se debe utilizar
la selección sistemática, si hay alguna variación periódica en la población
correspondiente al intervalo de muestreo. Por ejemplo, en el caso de mues-
treo de casas de habitación por manzana, si la manzana se colocara en forma
tal que cada octava casa fuera una casa grande situada en esquina, una
muestra sistemática de cada octava casa podría incluir sólo casas grandes
que estuvieran ubicadas en esquina.
El uso del muestreo sistemático se ha generalizado mucho porque es
fácil de aplicar y generalmente rinde buenos resultados. Por ejemplo, en el
censo de población de 1970 se hicieron a cada vigésima persona preguntas
suplementarias sobre varias materias. El costo de recopilación de la infor-
mación de esta muestra del 5% fue pequeño comparado con el de una
enumeración completa ocon una encuesta muestral independiente del 5%
de la población. Al n~ismo tiempo, la con fiabilidad de la información fue
suficiente para casi todos los objetivos.

Muestreo estratificado

Si una población está compuesta de partes. bastante uniformes o estra-


tos, se puede mejorar la precisión de los resultados muestrales mediante la
estratificacián, O. sea, se descompone primero la población en estratos, de
manera que los elementos que están dentro de cada. estrato se parecen más
que los elementos de la población como un todo. Luego se extrae.' de cada
estrato en forma aleatoria una parte asignada de la muestra (la extracción
se puede realizar también por alguno de los métodos que SI.' describirán a
continuación). La estratificación es, por lo tanto, sólo una etapa en el
método de muestreo completo; se la utiliza siempre junto con otros proce-
dimientos.
Como se indica antes, los estratos deben definirse en forma tal que los
elementos significativos dentro de un estrato sean más uniformes de lo que
lo son para la población como un todo. Por ejemplo, en un estudio de los
ingresos (de las familias, se puede dividir una ciudad en áreas. de altos y
bajos ingresos de manera que el ingreso varíe menos dentro de cada área
de lo-que lo hace en la ciudad en su totalidad. Aquí, la localización geo-
gráfica constituye una base útil para la estratificación. En este caso, el
352 Métodos de encuestas por muestreo

ingreso promedio de una muestra aleatoria estratificada generalmente se


aproximaría más al verdadero promedio de la población total que el de una
muestra aleatoria simple del mismo tamaño seleccionada de la ciudad como
un todo sin estratificación. Por lo tanto, el muestreo estratificado es útil
para reducir el error de muestreo. Considere lo siguiente como un caso
extremo de la forma en que la estratificación reduce ese error. Una fábrica
tiene sólo dos categorías de trabajadores, y cada categoría tiene sólo una
tasa de salario. Si tomáramos una muestra aleatoria simple de los trabaja-
dores de la fábrica y midiéramos los salarios, tendríamos una estimación y
algún error muestral asociado a la estimación. Sin embargo, si pudiéramos
agrupar los trabajadores por clasificación en dos estratos, podríamos tomar
una muestra de un solo trabajador para cada estrato, y no tendríamos
error muestral alguno. Sabríamos exactamente los salarios en toda la fábrica.
Aunque el ejemplo anterior' es ficticio, ilustra el hecho de que al tomar
grupos homogéneos y muestrearlos separadamente ganamos alguna precisión
en el muestreo. Una segunda ventaja de la estratificación es que da estima-
ciones separadas para distintas partes de la pqblación. Esa clase de infor-
rnación puede ser útil para muchos propósitos administrativos.
Por lo tanto, la estratificación se debe aplicar a poblaciones heterogéneas,
tales como grupos humanos, ya que la gente se puede dividir en estratos
bastante uniformes: por ingresos, sexo, edad u otros criterios que influyan
en la variable estudiada (por ejemplo: hábitos de compra). En esas cir-
cunstancias, la estratificación generalmente alcanza mayor precisión para
un costo dado. Por otra parte es innecesaria la estratificación en poblaciones
homogéneas, tales como la medida del diámetro de cojinetes de bolas, donde
no hay estratos discernibles, como por ejemplo, diferencias en las máquinas-
herramienta u operadores, que afecten los resultados.

Ejemplo. Para ilustrar la utilización del muestreo estratificado, con-


sidere una aplicación en la industria ferrocarrilera.'
Generalmente la factura por mercancías embarcadas (denominada
hoja de ruta) se paga a un solo ferrocarril. Sin embargo, la mercancía
puede haber sido transportada en diferentes ferrocarriles en su trayecto
del origen al punto de destino. Cada ferrocarril utilizado recibe una
parte del ingreso total de la hoja de ruta. En un cierto momento, eso
se hacía examinando todas las hojas de ruta y asignando el ingreso de
cada una a los diferentes ferrocarriles. Se consideró la posibilidad de uti-
lizar un procedimiento de muestreo a fin de reducir el costo contable
para estimar la asignación del ingreso entre los ferrocarriles.
La tabla 12-1 muestra la distribución de los ingresos de las hojas de
ruta que terminaron en cierto entronque. Note que esta distribución es
sumamente asimétrica, ya que numerosas hojas de ruta tienen pequeñas

1 Este ejemplo es una adaptación de C. West Churchman, "Application oí


Sampling to LCL Revenue Divisions'<.v en Proceedings: Modern Statistical Meihods
lar Business and Industry,(Pittsburgh: Graduate School of Industrial Admínís-
tration, Carnegie Imtitute of Technology, mayo 1953).
Muestreo probabilistíco 353

cantidades y unas cuantas, cantidades grandes (en dólares). Se decidió

Tabla 12-1
DISTRIBUCION DE FRECUENCIA DE LAS HOJAS HE RUTA

Porcentaje
Ingreso por Número de Porcentaje de Ingreso del ingreso
hoja de ruta hojas de ruta hojas de rufa total total

o - $ 4.99. . 3,047 56.0 $ 8,868 15.5


$ 5 - $ 9.99 1,074 19.7 7,502 13.1
$10 - $19.99. . . . . . . . . . . . . . . . . .. 645 11.8 8,934 15.6
$20 - $39.99. . . . . . . . . . . . . . . . . .. 381 7.0 10,695 18.7
$40 y más 298 5.5 21,245 37.1
Total 5,445 100.0 $57,244 100.0

estratificar la población en cinco grupos, los cuales se muestran en la


tabla. Las hojas de ruta se clasificaron de acuerdo a esos grupos, y se
determinó el número de hojas e ingresos totales por fletes en cada grupo.
De cada grupo ser seleccionó una muestra sistemática en la forma que se
muestra en la tabla 12-2. Observe cómo la proporción de cada estrato

Tabla 12-2
MUESTRA ESTRATIFICADA DE HOJAS DE RUTA

• Seleccíó n en la muestra: Porcentaje


todas las hojas de ruta aproximado en
Crup u Ingreso cuyos números terminan en la m-uestra

1 $ 0-$ 4.99 02, 22, 42, 62, 82 5


2 $ 5 - $ 9.99 2 10
3 $10 - $19.99 2 Y 4 20
4 $20 - $39.99 01 hasta 50
5 $40 y más Todas 100

muestreado varía de 5% por el grupo 1 a 100% para el grupo 5. Este


es un procedimiento eficiente para distribuciones muy asimétricas tal corno
la que tenemos aquí.
Utilizando el porcentaje de ingreso que corresponde a cada ferrocarril
en cada grupo (estrato), es posible estimar el porcentaje total de ingreso
de cada ferrocarril.
Antes de pasar a otro tema, todavía se deben aclarar otros pun-
tos. El primero es 1<1 pregunta: ¿ Cuántos estratos se deben determi-
nar y cómo debe hacerse? A menudo el número y las fronteras de los
estratos se determinan según la conveniencia administrativa. Ciertas
áreas geográficas tales como condados o estados, forman fronteras natu-
rales. Sin embargo, hay ocasiones en que el diseñador de la encuesta
puede fijar el número de estratos. Entonces, ¿ cuántos estratos debe fijar?
Primero hay que señalar que cuantos más estratos podamos seleccionar
354 Métodos.de encuestas por muestreo

que difieran entre sí de alguna manera (con medias diferentes o desvia-


ciones estándar para la variable medida) podemos aumentar continua-
mente la precisión. Es decir, cuanto mayor sea el número de estratos,
mejor. Sin embargo, en cualquier situación real no siempre conocemos
el contenido de todos los estratos posibles, y se llega a un' punto en el
cual ya no estamos seguros de estar dividiendo la población en estratos
que difieren uno del otro. En este punto, el uso de más estratos no
aumenta la precisión. Y recuerde que entre más estratos haya, se necesitan
más cálculos: Otra pregunta es: ¿ cuál es el tamaño de la submuestra
que debe tomarse en cada estrato? Eso se estudia en las páginas 364-367.
Estratificación y falta de respuesta. Un método para tratar la
falta de respuesta en una encuesta es considerar que la población consiste
de dos estratos, uno que responde (por ejemplo: los que contestan el cuestio-
nario enviado por correo}; y un segundo estrato compuesto por los que no
responden. Cuando se realiza una encuesta, se puede considerar a los
que responden como una submuestra, Luego por otros medios se toma
una submuestra de los que no responden (por ejemplo: por entrevistas
subsecuentes'). Esta submuestra de los que no responden se usa entonces
para obtener estimaciones acerca del estrato de los que no responden.
Como ejemplo, suponga que se envían por correo 1,000 cuestionarios
y que regresan 520. Por lo tanto, en la muestra hay 480 personas que no
respondieron. Suponga que, de ésas, se selecciona al azar una de cada cua-
tro (120 en total), y que se envían entrevistadores para obtener las respues-
tas deseadas. El tamaño total de la muestra sería entonces de 520 + 120 =
640. Sin embargo, los valores obtenidos por los 120 que respondieron
deberían multiplicarse por 4 para obtener la ponderación correcta."

Estimación de razón

En muchas encuestas económicas y administrativas, es importante esti-


mar una razón y no la media de la población. Como se dijo anteriormente,
la razón (incluyendo la proporción, porcentaje, fracción, o número índice)
es la medida sumaria básica para la comparación de dos atributos, tal
como la media es la medida básica para resumir variables." Por ejemplo.
un contador desea muestrear las cuentas por cobrar de una firma para
determinar la razón de los balances en cuentas atrasadas al balance
total de todas las cuentas.
Se puede utilizar una razón para estimar la media o el total de una
población. Por ejemplo, a menudo se emplea una razón para aproximar
el número total de animales salvajes en una cierta área o el número de
peces en un lago. Sé' marca un número suficiente de animales o peces
2 Para las fórmulas del error y un estudio más a fondo sobre este tipo de
muestreo, ver Leslie Kish, Suruey Sampling (Nueva York: John Wiley, 1965),
págs. 132,' 217, 304, 532-562, y otras bibliografías listadas al' final de este capítulo.
=< Las razones se describen en el capítulo 2, la distribución binomial en el
capítulo 6, las inferencias que implican proporciones en los capítulos 9 y 10, y
los números índice en el capítulo 18.
Muestreo probabilistico 355

y se sueltan en el área que se va a examinar. Después de dejar transcurrir


suficiente tiempo para que se mezclen con el grupo, se captura un
número de animales o peces. La razón del número de los marcados al
número total de los capturados conduce a una estimación del número
total de animales o peces. Por ejemplo, suponga que se marcan 1,000
peces y se sueltan en un lago, y luego se capturan 200 peces de los
cuales se encuentran 20 marcados. O sea, que hay una razón de 10 ,peces
por cada pez marcado en la muestra. Puesto que el número total de los
marcados es 1,000, se estima el número total de peces como 10 veces el
número de peces marcados, o sea 10,000 peces.
Como otro ejemplo se usa a menudo la razón de personas por medidor
de agua (digamos tres auno) para realizar estimaciones intercensa-
les de la población de una ciudad, puesto que generalmente es fácil de
obtener la cifra de medidores de agua. En: forma similar, la razón del'
número de niños en escuelas públicas al total de la población se usa
para estimar la población actual, puesto que el número de niños escolares
se conoce fácilmente.'
El. uso del muestreo de razón para estimar una media de población
o total depende de la disponibilidad de ciertas datos auxiliares relacio-
nados con la variable que estamos estimando. En los ejemplos anteriores,
el número de medidores de agua y el número de niños escolares eran
datos auxiliares,. necesarios para estimar la población total. Si tales
datos están disponibles, entonces el muestreo de razón' puede resultar muy
eficiente para reducir el error de muestreo.

Muestreo por conglomerados-

El muestreo por conglomerados es el .procedimiento por el cual la


población se divide en 'varios grupos o conglomerados. Luego se extraen
muchos de esos conglomerados para formar la muestra, y se seleccio-
na una submuestra (posiblemente el 100%) de elementos componentes
de cada uno de los conglomerados especificados. En esta forma, estamos
muestreando en dos etapas: en la primera, cuando se extrae una muestra
de conglomerados, denominada unidades de muestreo primario; y una
segunda etapa, en la cual se seleccionan elementos individuales, denomi-
nados secundarios o unidades de muestreo elementales, de los conglome-
rados previamente seleccionados.
Sólo hablaremos del muestreo de dos etapas, pero no hay razón para
no utilizar tres o más etapas. Por ejemplo, al muestrear una ciudad pode-
mos definir la unidad primaria como la manzana de casas,la unidad
secundaria como la tasa habitación, y como unidad terciaria el individuo.
4 Los peligros en este proceso son obvios. Las tendencias en la composición
de la población de una ciudad pueden cambiar la razón en el tiempo. Por lo tanto,
si 1<J, razón no se estima periódicamente, se pueden hacer estimaciones inexactas.
Por lo menos una gran ciudad se vio sorprendida en el censo de 1970, cuando
la población estimada a partir de estos datos resultó muy diferente de las cifras
oficiales del censo.
356 Métodos de encuestas por muestreo

Cuando cada conglomerado está contenido en un área geográfica sepa-


rada, se denomina también al muestreo por conglomerados, muestreo de
área. La principal ventaja del muestreo por conglomerados es que reduce
el costo por unidad elemental de muestreo. Para entender eso, suponga
que tomamos una muestra de establecimientos comerciales en determi-
nado condado. Si se seleccionara una muestra aleatoria simple, los esta-
blecimientos de la muestra estarían muy esparcidos en todo el condado.
El obtener los resultados deseados implicaría para los entrevistadores una
cantidad considerable de viajes. Por otra parte, suponga que el condado
se dividiera primero en áreas geográficas (conglomerados), y que se
tomara una muestra de los conglomerados. Luego se determina una sub-
muestra de los establecimientos dentro de las áreas seleccionadas. Con
este proceso se ahorra tiempo de viaje al entrevistador, puesto que todos
los establecimientos muestreados se agruparán en las áreas seleccionadas
en vez de distribuirse al azar por todo el condado.
Otra ventaja del muestreo por conglomerados es que se puede utilizar
algunas veces cuando no se pueden aplicar otros métodos. Por ejemplo,
al seleccionar anteriormente la muestra de establecimientos comerciales,
puede ser que no esté disponible una lista completa de todos los estable-
cimientos. Sin embargo, sería relativamente fácil dividir el condado en
áreas geográficas y seleccionar como muestra algunos de esos conglome-
rados. Dentro de las áreas seleccionadas' se podrían listar y muestrear
los establecimientos comerciales sin gran dificultad. O sea, que habría que
preparar listas sólo dentro de las áreas seleccionadas.
Por otra parte, el muestreo por conglomerados es relativamente ineficaz.
Generalmente los resultados de una muestra de conglomerados no son
tan precisos corno los de una muestra aleatoria del mismo tamaño. Se
pueden hacer igual o más precisos sólo al tomar una muestra de ma-
yor tamaño. A pesar de eso, el costo de realizar una encuesta, puede
ser aun menor. Por ejemplo, en vez de gastar $10,000 para entrevistar
una muestra aleatoria de 10,000 amas de casa a un costo promedio de
$10 cada una, se podrían obtener mejores resultados por $9,000 con una
muestra de conglomerados de 1,500 amas de casa a un costo de sólo
$6 cada una.
Numeración en serpentina y selección sistemática. Para seleccio-
nar los conglomerados en el muestreo de área, se recomienda un método
que consiste en numerar las unidades de muestreo primarias en una se-
cuencia en serpentina, siguiendo un trazo sinuoso similar al de una ser-
piente (ver el diagrama). Por ejemplo, en un estudio de ingresos fami-
liares la numeración de las manzanas de la ciudad debería seguir una
'.
secuencia de manzanas que tuviera aproximadamente el mismo ingreso
familiar promedio. Todas las manzanas de un área tal deberían numerarse
antes de proseguir con la siguiente área de ingreso menor o mayor. Luego
de que se ha numerado el mapa de manzanas, el número deseado de
manzanas debería escogerse por selección sistemática (por ejemplo: cada
décima manzana), con un comienzo aleatorio, corno se explicó anterior-
mente.
Muestreo probabilistico 357

NUMERACION EN SERPENTINA DE
LAS MANZANAS DE UNA CIUDAD

2 3 4 5
10 9 8 7 6
11 12 13 14 15

Este diseño de muestreo de área consigue todas las ventajas de la


estratificación geográfica cuando las manzanas en un estrato se numeran
antes de proseguir a otro estrato. Sin embargo, es aconsejable algunas
veces la estratificación por alguna otra característica, tal como el tamaño
de la manzana.
Submuestreo, Luego de escoger las unidades de muestreo pnm;,-
rías, se seleccionan las unidades de muestreo elementales de cada uno de
esos conglomerados. La selección puede ser un censo completo del conglo-
merado (por ejemplo, todas las casas en la manzana) o una muestra aleato-
ria o sistemática (por ejemplo, cada quinta casa). El costo por entrevista
de una submuestra es mayor que el de un censo completo de los conglome-
rados seleccionados. La elección entre esas alternativas depende en parte de
la complejidad de la entrevista y la disponibilidad de listas, Si el cuestio-
nario es simple y no hay disponible una lista de las unidades de muestreo
elementales (por ejemplo, amas de casa), generalmente es más barato tomar
un censo completo de los conglomerados seleccionados (por ejemplo, man-
zanas) ; cuando se requiere una entrevista prolongada, las ventajas del sub-
muestreo justifican el costo de listas y muestrear las unidades elementales
de muestreo.
Note que el muestreo por conglomerados se utiliza junto con otro>
tipos de muestreo, tales como los muestreos aleatorio, o sistemático, que
se necesitan para seleccionar tanto las unidades primarias de muestreo
como las secundarias.
Hemos visto superficialmente algunos de los principales problemas
asociados con el muestreo aleatorio, tales como: ¿cuántos conglomerados:',
¿ cuán grande deben ser?, ¿ cuántas unidades debe haber en la sub-
muestra del conglomerado?, ¿cómo comparamos el costo de un muestreo
por conglomerados con el de otros métodos? Esas preguntas se han dejado
para textos avanzados (ver la bibliografía que está al final de este
capítulo) .

Muestreo replicado

El muestreo replicado es una técnica para seleccionar submuestras in-


dependientes de la población (algunas veces denominadas subrnuestras
"interpenetrantes"}, Por ejemplo, en vez de tomar una muestra aleatoria
de 200 elementos de alguna población, se podrían dividir los 200 en 10
submuestras, cada una de 20 elementos. Las submuestras tienen la misma
estructura, o sea, que son réplicas una de otra. Con el muestreo replicado,
la estimación global de la media es la media de las estimaciones de las
. subrnuestras individuales.
358 Métodos de encuestas por muestreo

Como se observa en la página 377 un uso importante del muestreo


re plicado es la determinación del error muestral para diseños de muestra
complicados, puesto que los cálculos son más sencillos, También, para el
muestreo sistemático, donde es difícil estimar el error muestral a menos
que los elementos de la población se encuentren en un orden aleatorio,
se pueden utilizar muestras replicadas para hacer estimaciones sencillas
del error muestral.Finalmente, el muestreo replicado se utiliza para esti-
mal el error de medición posible en la encuesta. En esa forma, si se
toma' cada submuestra de los informes de un entrevistador particular, una
muestra replicada podría revelar el sesgo del entrevistador. A continua-
ción se describe el uso de la réplica en el muestreo no probabilistico.

MUESTREO NO PROBABILISTICO

El muestreo no probabilístico incluve cualquier método de muestreo


que no satisfaga todos los requerimientos del diseño de muestra proba-
bilístico. Ello puede implicar la selección de una muestra. conforme a la
conveniencia personal (para minimizar el costo) d el criterio experto
(para aumentar la precisión en ciertas muestras pequeñas) o bajo condi-
ciones donde no hay disponible una lista completa para la selección
objetiva (por ejemplo, una encuesta de ejecutivos que influyen· en la
política de compras 'de equipoi'industriál de una empresa) . LOS métodos
de muestreo no-probabilísticos son importantes en los negocios y la inves-
tigación económica. a pesar de que la precisión de sus resultados general-
mente no se puede medir en forma objetiva. Dos tipos importantes de
muestreo no probabilístico son el muestreo por cuotas y' el muestreo poi
criterio.

Muestreo por cuotas

:Cn muestreo por cuotas es aquel en el. cual el ventrevistador debe


recabar información de un número designado, o cuota, de individuos
en cada uno de 'los distintos grupos -estando especificados los grupos
por edad,sexo, ingreso, u otras raracteristicas-c- en forma similar a los
estratos en el muestreo estratificado. :\ pesar de que se someten a estos
controles, el entrevistador elige personas de cada grupo y en la selección
no se usan métodos probabilísticos.
Por ejemplo. la editorial McCraw-Hill lleva a cabo numerosas en-
cuestas de ar titud tentre los ejecutivos que leen revistas industriales, para
ase50rarti la gerencia' de la McGraw-HíII en el' manejo de sus propiaspu-
blicaciónes. . En una de esas encuestas, qu~ abarca industrias químicas,
los entrevistadores tenían una lista completa de las fábricas pero no una
lista amplia de los ejecutivos. Se seleccionó primero una muestra' siste-
mática estratificada de fábricas en cada área. Dada esa lista, cada investi-
gador debía visitar varias fábricas y localizar y entrevistar un número
especificado de ejecutivos que tuvieran alguna influencia en la política
Muestreo no probabilístico 359

de compras de la compañía. Este método de cuotas fue considerado por el


director de' investigaciones de mercado como el único factible para reali-
zar una encuesta industrial donde la población de respondientes no podía
identificarse.
El muestreo por cuotas eS popular en las encuestas de mercado y de
opinión pública porque es más económico por unidad muestreada que
el muestreo aleatorio y, cuando se controla cuidadosamente, tiene muchas
de las ventajas del muestreo aleatorio estratificado. Sin embargo, está
sujeto a dos fuentes importantes de error: 1) las cuotas que se fijan al
entrevistador represel1tan un plan de estratificación poco preciso para la
población, ya que se basa en unos cuantos criterios generales,' tales como
la edad (jóvenes, de mediana edad, o viejos) e ingresos (bajo, medio y
alto); 2) puesto que el entrevistador' es libre en cuanto a la selección
de individuos dentro de una cuota, puede escoger personas en localidades
convenientes, aunque dichas personas puedan no ser representativas de la
clase de población en las que se supone representan. Por ejemplo, en una
encuesta del número de niños pequeños por casas, el método de entrevistar
amas de casa podría producir una muestra con una proporción demasiado
grande de mujeres con niños pequeños, porque es más probable que tales
mujeres estén en casa durante las horas en que se realiza la encuesta, en
comparación con otras mujeres. Por 10 tanto, se debe capacitar cuidadosa-
mente a los entrevistadores para evitar esos problemas."
El muestreo por cuotas ha sido popular en las encuestas realizadas
antes de las elecciones desde la década de 1930. Las encuestas no pudieron
predecir la derrota de Dewey frente a Truman en 1948, pero han fun-
cionado bastante bien desde entonces, por lo menos a nivel nacional.
En esa forma, Gallup sostiene un error promedio de solamente dos por
ciento al predecir la proporción del ganador en el total de votos en las seis
elecciones presidenciales en los Estados Unidos de 1952 a .1972.
A menudo, se arguye que todas las encuestas en gran escala deberían
basarse en un diseño de muestreo probabilístico por su mayor objetividad.
Pero, puesto que una muestra por cuotas mucho mayor se puede tomar
al mismo costo de una muestra probabilística menor, se prefiere en algunas
circunstancias el muestreo por cuotas.

Muestreo por ~riterio

El muestreo por criterio es aquel que se selecciona de acuerdo al


criterio personal de alguien. Un muestreo por criterio puede ser superior

Algunas veces se escoge una muestra de manera que la edad, el ingreso


promedio, 1I otras características pertinentes de los individuos seleccionados es
igual al promedio de la población. Algunas veces' eso se denomina muestreo
controlado o con propósito. Sin embargo, este control no significa necesariamente
que la muestra será representativa en otros aspectos, tales como los hábitos de
compra. Aún más, este método es más difícil de administrar que el de cuotas que
es más sencillo, por lo que se le usa con menos frecuencia.
360 Métodos de encuestaspor muestreo

al muestreo probabilístico: 1) en encuestas de escala muy pequeña, 2)


en "estudios piloto" que preceden a encuestas mayores, o 3) al establecer
números índice. También son a menudo menos costosas que las muestras
probabilísticas. Sin embargo, las muestras por criterio pueden estar sesga-
das, y es difícil establecer la validez de sus resultados.
Los ejemplos de muestras por criterio en encuestas en pequeña escala
incluyen la selección de una planta industrial única (es decir, una muestra
de una unidad) en la cual probar una nueva política de personal, o la
elección de unas cuantas ciudades representativas en las cuales realizar
una investigación de mercado. En San José, California, se realizó una
encuesta de preferencia del consumidor respecto a champúes, puesto que
Se consideró a esa ciudad como típica del mercado del oeste para este
producto. Tal selección por criterio fue probablemente superior a la
elección de una- ciudad única al azar en una lista de todas las ciudades
del oeste de los Estados Unidos. Sin embargo, esta ventaja de la selec-
ción por criterio disminuye a medida que aumenta el tamaño de la
muestra, ya que hay un aumento sostenido en la precisión de una muestra
probabilística, mientras que el sesgo del investigador persiste en el mues-
treo por criterio.
En estudios piloto, que se diseñan para probar previamente un cuestio-
nario que se utilizará en una encuesta más grande, se pone énfasis en la
detección de dificultades imprevistas, que se pueden solucionar revisando
las preguntas, arreglando de nuevo el horario, o entrenando a los entre-
vistadores. Para este propósito, a menudo se escogen a base de criterio,
las personas que responderán a un estudio piloto; así tendrán mayor
representación los tipos de individuos que es más factible que causen
dificultades.
Otro tipo de trabajo estadístico en el cual generalmente se prefiere
la selección por criterio a la selección probabilística es el establecer
números índice (descrita en el capítulo 18). Considere el problema
de escoger la muestra de los 400 bienes y servicios que componen el
Indice de precios al consumidor del U. S. Bureau of Labor Statistics. Debe
haber articulos muestreados para cada una de las distintas clases amplias
de gastos realizados por la familia típica. Esos artículos deberían ser
representativos de sus clases respecto a los movimientos de precios, y
deberían tener alguna importancia en sí mismos. En vista de ésas y otras
dificultades similares, generalmente se escogen los artículos utilizados al
establecer números índice de acuerdo al criterio de los expertos en la
materia La selección probabilística en esos casos se aplica sólo a las clases
en las cuales hay muchos artículos del mismo orden de importancia.
Por 10 tanto, se recomienda la selección por criterio para muestras
demasiado pequeñas para las ventajas de métodos más objetivos, para
estudios piloto en los cuales es deseable cierto tipo de sesgo, y para la
selección de componentes al establecer números índice. Sin embargo, los
métodos objetivos de selección son necesarios para obtener un alto grado
de confiabilidad en la mayoría de las muestras' grandes.
Medición de la precisión de los estadisticos 361

Precisión de muestras no probabilísticas

Se pueden medir la precisión y los errores estándar de muestras pro-


babilísticas porque la estadística muestral sigue las leyes del azar (por
ejemplo, las medias de muestras aleatorias grandes siguen la distribución
normal), de manera que podemos fijar límites de confianza o pruebas de
hipótesis con probabilidades conocidas. Por el contrarió, el error estándar
de una muestra no probabilística no tiene ese significado, puesto que la
variación muestral refleja errores desconocidos de criterio en vez de alea-
toriedad. Sin embargo, si tomamos una muestra replicada de los artículos
en una muestra no probabilística, todas las submuestras reflejan más o
menos los mismos factores de criterio puesto que son réplicas en cuanto
a su diseño. Las medias de las submuestras variarían debido a numerosos
factores aleatorios y, por lo tanto, siguen una distribución normal. Por
consiguiente, se dice que el error estándar de la muestra replicada tiene
alguna significación probabilística.
Como ejemplo, se ha calculado el error estándar para la muestra re-
plicada de los artículos con precio del Consumer Price Index P utilizando
pares de submuestras para diferentes artículos (por ejemplo, diferentes mo-
delos de carros evaluados) y establecimientos diferentes y ciudades distintas
en diciembre de 1963. Puesto que muchos factores independientes influyen
para obtener un total de 732 grupos relativos a una ciudad. Cada una
de esas submuestras se lleva a cabo mensualmente a partir de una base
en la dispersión de las 732 medias, se supone que están normalmente
distribuidas, y que los errores estándar se calculan para cada mes me-
diante la fórmula dada a continuación para muestras replicadas. Es
controversial la validez de esos errores estándar. Sin embargo, el muestreo
replicado constituye un posible medio para realizar una estimación aproxi-
mada de la precisión de muestras no probabilísticas en general.

MEDICION DE LA PRECISION DE LOS ESTADISTICOS


MUESTRALES

En esta seccion determinaremos los errores estándar de la media


(o el total) y la proporción en varios tipos de muestra, para medir su
precision en la estimación de valores de población. Consideraremos mues-
tras aleatorias y sistemáticas, muestras estratificadas, estimación de razón,
muestras de conglomerados y muestras replicadas en ese orden.

Muestras aleatorias y sistemáticas

El error estándar de la media muestral o proporClon es la herramienta


básica para las inferencias estadísticas, tales como la determinación de
intervalos de confianza o pruebas de hipótesis. Esas mediciones se anali-

¡; Ver M. Wilkerson en Journal o{ the American Statistical Association, sep-


tiembre 1967, págs. 899-914.
362 Métodos de encuestas por muestreo

zaron en los capítulos 9 y 10 para una muestra aleatoria simple. Lo


mismo se aplica a una muestra sistemática extraída de una población
distribuida en forma aleatoria. Esta sección es, por lo tanto, sólo un
repaso.
La media muestral X =~X / n es un estimado no sesgado de ¡L, la
media de población. La variancia muestral, S2 - ¡ (X - X) 2/ (n - 1)
es un estimador no sesgado de (12, la variancia de población. Y la des-
viación estándar muestralys, es la raíz cuadrada de la variancia.
El error estándar de la media muestral se estima como

n
N
donde n es el tamaño de muestra y N el tamaño de la población. El
término y 1 - n lN es la corrección por población finita, utilizado cuan-
do se hace un muestreo sin reemplazo de una población limitada. Si n jN es
muy pequeño se puede ignorar.
La población total y su error estándar' se pueden estimar simple-
mente multiplicando la media muestral X y su error estándar sx por el
número de artículos eJ,1 la població? N. Así,

población total == T = N X
error estándar de la población total = ST = Nsg

Finalmente, la proporcián muestral p. es un estimador no sesgado de la


proporción de población p. Entonces la estimación del error estándar
de la proporción muestral es

sp _.
8
~ J J·l
pQ
8
n
8
n
N

donde q. = 1 - ps- También puede omitirse la corrección por población


finita en la derecha si n j N es pequeño.

Muestreo estratificado

Antes de introducir la fórmula de estimación para el muestreo estra-


tificado es necesario indicar la notación: sea Mi = el número total
'de elementos (artículos) en el estrato i-ésimo; N == el número total de
elementos en la población = ~Jl ¡; mi = el tamaño de muestra en el
i-ésimo estrato; y; = la media de los elementos muestreados en el i-ésimo
estrato; Si = la desviación estándar muestral en el i-ésimo estrato. En-
tonces la estimación de la media global es
Medición de la precisión de los estadísticos 363

donde Wi representa la ponderación del i-ésimo estrato, calculada como

ta¡ = (~i)
El error estándar de la media global es

donde sr. es el error estándar estimado en cada estrato. O sea que,

SY; = .
'v
Si hi
r-
m¿
1 --
Mi
(El último término es la corrección por población finita que puede igno-
rarse en cualquier estrato donde mi / M i sea muy pequeño.)
Algunos comentarios ayudarán a entender esas fórmulas. Note que
la ponderación ui; es simplemente la fracción de la población que está
en el i-ésimo estrato. La media global es simplemente un promedio pon-
derado de las medias de cada estrato, utilizando los números relativos
en cada estrato como ponderaciones'. El error estándar se pondera en
forma similar (así, la variancia se pondera por w:) .

Un ejemplo ayudará a aclarar aún más el significado de las fórmu-
las. Suponga que deseamos estimar el ingreso anual medio de una pobla-
ción que hemos dividido en dos estratos -un grupo de altos ingresos
y otro de bajos ingresos. El primer estrato se compone de 1,000 miem-.
bros, de los cuales muestreamos 100. El segundo estrato abarca 2,000
miembros, de los cuales muestreamos 500. Esos números se presentan
junto con los resultados del muestreo en la tabla 12-3.
Tabla 12.3
MUESTRA ESTRATIFICADA DE INGRESOS

Desvraci6n
_Vúmero de Artículos en Artículos en Ingreso medio de estándar de los
estrato el estrato la muestra los art í culos en artículos en la
(i) (Mi) (m.) la muestra (Y¡) muestra (s,)

1 1,000 100 $10,000 $1,000


2 2,000 500 5,000 500
Toral.. 3,000 = N 600

Para estimar el promedio (V.) para la población total determinamos


primero las ponderaciones de cada estrato, que son:

1,000
ponderación para el primer estrato = ui, = - - = Y3
3,000
.164 Métodos de encuestas por muestreo

2,000
ponderación para el segundo estrato = W2 = -- = %
3,000

o sea que, un tercio de los artículos de la población están en el primer


estrato y dos tercios en el segundo. Entonces la estimación de la media
de población es

Ys = LWiYi = (%) ($10,000) + (%) ($5,000)' = $6,667

Luego queremos calcular el error estándar para esa estimación. Para esto
debemos calcular primero los errores estándar de la media de cada estrato:

o sea que,

Si'z =

y el error estándar de la media de población es:


-
Si'. - v~/~
~W,.si'i V(~)2(9,OOO) + (%)2(375)
V1,167 = $34
Se puede demostrar -aunque no se ha hecho aquí- que una mues-
tra aleatoria simple de 600 artículos de esta misma población habría
tenido un error muestral de alrededor de' $100. Por lo tanto, en este
ejemplo la estratificación fue bastante eficiente.
Asignación de la muestra al estrato: asignación proporcional,
En el ejemplo anterior establecimos arbitrariamente tamaños de muestra
de 100 y 500 en los dos estratos, respectivamente. Ahora, nuestro cono-
cimiento' de los procedimientos de encuestas por muestreo es de utilidad
primordial en el diseño de encuestas realizadas de antemano en vez de
ex post lacto. Por lo tanto, el estudiante puede preguntarse el porqué-
de la asignación de los artículos muestrales entre los estratos. ¿ No hubiese
sido mejor haberlos distribuido más equitativamente? ¿Qué tan grande
debe ser la muestra que se tome en cada estrato?
Una respuesta simple a esas preguntas es la asignación proporcional.
o sea, la asignación de artículos en la muestra de los distintos estrato>
en la misma proporción que el total de los elementos en la población...\
menudo esto se denomina una muestra autoponderada.
Como ilustración, suponga que el ejemplo dado anteriormente repre-
Medición de la precisión de los estadísticos 365

senta una muestra tomada el año anterior y que se va a diseñar una


nueva muestra. (Suponga que el número de elementos en cada estrato
y las desviaciones estándar en cada estrato quedan iguales.) Suponga
que la nueva muestra tendrá también 600 artículos, pero que se pueden
asignar libremente entre los dos estratos.
La asignación proporcional significaría que, puesto que un tercio .de
los artículos en la población total están en el primer estrato, un tercio
de los artículos muestreados deberían provenir también del primer estrato.
Así, m« = Va de 600 = 200. Y puesto que dos tercios dé los artículos
están en el segundo estrato, 'éste debería recibir dos tercios de la muestra.
O sea, m« = % de 600 = 400. La asignación proporcional se utiliza si
1) la variabilidad en cada uno de los estratos es casi constante (es decir,
las desviaciones estándar en cada uno de los estratos -s;- son aproximada-
mente iguales) o 2) si se sabe poco acerca de la variabilidad entre los
estratos (por lo tanto, podemos suponer que es aproximadamente igual).
La asignación proporcional tiene varias ventajas. Es el método intui-
tivo o de sentido común más adecuado para la representación de dife-
rentes partes de la población (como la representación proporcional de los
decretos de la Suprema Corte para las legislaturas estatales). Además,
algunas veces facilita las fórmulas. Por ejemplo, la estimación de la
media de la población es simplemente la media de la muestra -no se
requieren ponderaciones.
Asignación de la muestra al estrato: asignación óptima. Si hay
una cantidad considerable de variabilidad dentro de los estratos (es
decir, las desviaciones estándar ae los artículos en los estratos -las
s¡- son de magnitudes diferentes), podemos obtener mejores resultados
que los que obtenemos con la asignación proporcional. O sea que podemos
tener menos errores de muestreo asignando de manera óptima los ar-
tículos muestreados entre los estratos.; Observe la asignación de los
artículos muestreados en la hoja de ruta de ferrocarril del ejemplo de la
página 353. El quinto estrato (ingreso de $40 o más) contiene el 5lh%
de la población total de las hojas de ruta y todo el estrato (100%) se
incluye en la muestra. Por otra parte, el primer estrato (ingreso de O a
$4.99) contiene el 56% de todas las hojas de ruta, pero sólo el 5%
de este grupo se incluye en la muestra.
Utilizando la asignación óptima, dividimos la muestra total entre los
estratos de tal manera que obtengamos el menor error de muestreo para
un tamaño de muestra dado. El error estándar es una función no sólo
del tamaño de muestra dentro de cada estrato, sino también de la varia-
bilidad de esos artículos. Para conseguir la asignación óptima, se divide
en proporción tanto al tamaño del estrato como a la desviación estándar
dentro del estrato. La fórmula es, por lo tanto,

Mis i
mi = n--
:E.M¡s;
366 Métodosde encuestas por muestreo

donde n es el tamaño de muestra total, M ¡ es el número total de artículos


en el i-ésimo estrato, mi es el tamaño de muestra en aquel estrato, y s¡
es una estimación de (J'.¡ (la desviación estándar de los artículos en el
i-ésimo estrato).
Pina ilustrar eso, considere el ejemplo de la página 363-364. La tabla 124

Tabla 12"4
MUESTRA ESTRATIFICADA DE INGRESOS':"'"
ASIGNACION OPTIMA

Número Desviación estándar


de estrato Artlcuios en el de los artículos en Producto
(i) estrato (Mi) el estrato (Si) (MiSi)

1 1,000 $1,000 1,000,000


2 2,000 500 1,000,000
Total 3,000 = N 2,000,000

muestra el número de artículos (M¡)la desviación estándar (s.;) , junto


con el producto Mis¡ y el total ~MiS.¡.
Tomemos una muestra de n = 6"00 artículos como antes. ¿ Cómo
deberían asignarse para minimizar el error muestral? Utilizando la fórmula
anterior, el tamaño de muestra para el primer estrato debería ser
1.000,000
ml = (600) 2.000,000 = 300

y el tamaño de muestra para el segundo estrato es también 300.


Pararevisa:r las fórmulas para: el error muestra1 con muestreo estra-
tificado e ilustrar que la asignación óptima reduce el error muestral,
realicemos el cálculo del error estándar de la media con la asignación
óptima.
Al utilizar esos tamaños de muestra y otros datos de la tabla 12-4, los errores
estándar dentro de cada estrato son
- -
de manera que
SY¡ =
Si
vi mi J
.. mi
1 - Mi

y el error estándar de la media de población es


368 Métodos de encuestas por muestreo

para estimar el inventario actual total. Esta estimación de razón del


inventario actual tiene un error de muestreo más pequeño que la basada
en una muestra aleatoria sólo del inventario actual, si los valores de un
artículo se relacionan en los dos períodos. Esta relación se muestra en la
figura 12-1. Aqui los puntos que muestran la relación de los valores
de inventario anual al actual, por artículo, se agrupan a lo largo de la
línea diagonal de regresión. Es decir, probablemente un artículo impor-
tante tenga un valor alto en ambos períodos, mientras que un artículo
menor tendrá consistentemente valores bajos. El error de muestreo de la
estimación de razón depende de la desviación estándar de los puntos
localizados arriba y abajo de esta línea (el error estándar de la estima-
ción), mientras que el error de muestreo de la media de una muestra
de los artículos del inventario actual depende de una desviación estándar
más grande de los valores de Y hacia arriba y hacia abajo de su propia
media. A continuación llevaremos a cabo esta ilustración luego de intro-
ducir la notación y fórmulas.
Notación y fórmulas. Sea Y la variable desconocida que se quiere
estimar -el valor del inventario actual por artículo. Sea X la variable
Tabla 12-5
MUESTRA DE 50 ARTICULOS DE LOS ARCHIVOS DE
INVENTARIO DE UN'A COMPA~IA
Valores en dólares para los inventarios anual y actual

Valor del Valor del Valor del Valor del


Número de Número de inventario
inventario inventario inventario
artículo artículo anual (X)
anual (X) actual (Y) actual (Y)

1 s 160 s 182 26 84 89
2 87 84 27 171 152
3 280 315 28 103 96
4 123 125 29 326 350
5 20 28 30 38 35
6 254 300 31 128 139
7 100 82 32 124 102
8 142 151 33 87 99
9 50 55 34 375 420
10 124 136 35 80 88
11 64 52 36 208 216
12 164 160 37 86 99
13 40 48 38 67 58
14 151 154 39 305 349
15 107 105 40 158 146
1ti 80 92 41 32 39
17 193 150 42 184 160
18 93 UO 43 137 100
19 231 250 44 U5 165
20 54 68 45 33 57
21 101 110 46 216 186
22 16 18 47 119 141
23 191 220 48 64 72
24- 109 120 49 312 300
25 91 95 50 27 35
Total $6,604 $6,903
Medición de laprecisión de los estadísticos 369

sobre la cual tenemos información completa- el valor monetario por artícu-


lo en el último inventario anual. Nos referimos aquí a un artículo de inven-
tario como un tipo particular de mercancía, como por ejemplo cierta clase
de bujía o martillo. El valor de un artículo es el número de los que hay
disponibles multiplicado por el costo unitario -no el costo de una unidad
única. Así, en la tabla 12-5, el valor de $160 para el artículo 1 podría
representar 80 martillos a un costo unitario de $2.
En nuestro ejemplo, tomamos una muestra de 50 artículos del inventa-
rio y encontramos el valor total en cada fecha; o sea ~X(el inventario
anual) y };Y (el inventario actual);" Entonces calculamos la razón R
};y
R=-
~X

Figura 12-1
RELACIONES ENTRE EL INVENTARIO ANUAL Y EL INVENTARIO
ACTUAL POR ARTICUI.OS, MUESTRA ALEATORIA
DE 50 ARTI<:ULOS

Inventario actual
(valor en dólares
por articulo)
y
500

400

300

200

100 Media (X, Y)

50 100 150 200 250 300 350


Inventario anual (valor en dólares por artículo)

que e- una estimación de la razón verdadera desconocida que relaciona las


poblaciones totales de X y Y. En nuestro ejemplo, la razón compara el in-
R Hay un pequeño problema que hemos ignorado en este ejemplo sencillo.
Algunos artículos pueden haberse agotado tanto en el inventario anual como en
el actual. La definición de la población tendrá que ser una lista de todos los
artículos que estén en inventario en ambos períodos.
370 Métodos de encuestas por muestreo

ventario actual con el inventario anual. Podemos utilizar esta razón para
estimar el total de los valores Y, como sigue: T y = RTx , donde T y es la
estimación de razón del total de la población Y y T x es el total de la po-
blación X que se supone conocida. La media de los valores Y se estima
en forma similar: YIl = R{Lx, donde Vil es la estimación de razón de la
media verdadera {Lr de la población. Y. Esto debe distinguirse de Y,
la media de los artículos muestreados. El valor Jl-x es la media .de la
población X, que es conocida. Note que, por lo general, la media muestral
X no será exactamente igual que ¡.Lx-
Por supuesto, el total es N veces la media. O sea que, T x = N jJ.x y
TI' = NVu , donde N es el número total de artículos. En nuestro ejemplo
(tabla 12.5), la razón del inventario actual al valor del inventario anual
para la muestra de 50 artículos es:

R = ¿y = 6,903 = 1.0453
¿X 6,604

O sea que, el inventario, por nuestra estimación, aumentó 4.53% en


valor, del inventario anual al actual. Suponga que el inventario anual
totalizó $3.447,519. Este es T x . Entonces el inventario actual total T';
se puede estimar como:

1\· = RT,r = (1.0453) (3.447,519) = $3.604,000

Suponga que había 24,167 artículos cuando se hizo el inventario anualIo sea:
N = 24,167), de manera que el valor medio era:
3.447,519
p-x = 24,167 = $142.654 por artículo

Entonces podemos estimar el valor medio por articulo para el inventa-


rio actual C01ll0:

VII = Rp., = (1.0453) (142.654) = $149.11

Note que esto es diferente de Y, el valor medio del inventario actual


en la muestra, que es $6,093/50 = $138.06. Así, nuestra estimación es
considerablemente mayor que la que se obtendría con una muestra alea-
toria simple.
Puede ser útil ponderar esta última conclusión. Estamos obteniendo
una estimación más grande utilizando el muestreo de razón que la que
habríamos tenido al considerar la muestra como una muestra aleatoria
simple. Tal vez eso sea más fácil de entender si consideramos la estima-
ción del inventario total actual. Nuestra estimación del muestreo de
razón se da antes como $3.604,000. La estimación aleatoria simple para
un total es
Medición de la precisión de los estadisticos 371

T¡· = Nf = (24,167) (138.06) = $3.336,000

Así, la estimación de razón nos da una estimación que es mayor en


$268,000 que la obtenida utilizando una estimación de muestra aleatoria,
simple. ¿ A qué se debe? La estimación de razón es más grande precisa-
mente porque nos percatamos de la variable X, ya que conocemos que
la muestra ha subestimado la población total, Note que X (el valor de la
muestra) es $132.08, mientras que el valor de población conocido es
p-x = $142.65. Por lo tanto, ajustamos el valor de f R , elevándolo para
corregir esa subestimación. Por supuesto, en algunas muestras será nece-
sario reducirlo, por las mismas razones.
También es importante notar que dependemos de una relación estre-
cha entre X y Y para que el muestreo de razón sea eficiente. Si no
existiera esa relación no tendría sentido realizar el ajuste anterior."
El sesgo y la estimación de razón. Desafortunadamente,' la estima-
ción de razón es un estimador sesgado de la razón de población. O sea
que, en general, el promedio de las razones obtenidas de muchas muestras
no es igual a la verdadera razón de población. Sin embargo, este sesgo
es muy pequeño en muestras grandes y en ese caso podemos ignorarlo.
El sesgo será despreciable también para muestras pequeñas si la
relación entre X y Y se puede describir aproximadamente por una recta
que pase por el origen. El examen de la figura 12-1 indica que eso es
lo que ocurre para nuestro ejemplo de estimación del inventario actual
a partir del inventario anual.
. Se ha sugerido la siguiente regla general para determinar cuándo es
despreciable el sesgo en una muestra de razón."

El sesgo en la estimación de razón y el error estándar asociado son


despreciables si

l. El tamaño de la muestra es superior a 30.


Sy Sx
2. Tanto _.~ como _r= - son menores que .1.
Vñy ynX

Error estándar (le la estimación de razón. El monto del error


muestral asociado a la razón R y a las estimaciones de razón YII y TI se
pueden estimar con las siguientes fórmulas:

9 La estimación de razón es más eficiente (es decir, tiene un error muestral


menor para un tamaño de muestra dado) que la muestra aleatoria simple si las
variables X y Y están muy correlacionadas. Una medida de la relación entre
X y Y es el coeficiente de correlación (ver el capítulo 16) definido como
r= Ixy/ YIx 2 YI y2 . Generalmente, la estimación de razón es más eficiente que
>
el muestreo aleatorio simple si r 112 IYxP¡./lYrPx·

t o William G. Cochran, Sampling Techniques (2' ed.; Nueva York: John Wiley,

1963), pág. 157.


572 Métodos de encuestas por muestreo

Error estándar de razón = SR

IXY es el producto cruzado y se obtiene multiplicando y luego sumando


los valores correspondientes de X y Y. El último término es la corrección
por población finita y se puede omitir si la muestra es un porcentaje
pequeño de la población.
Error estándar de la media = Sy R = SRX

Error estándar del total = ST y = NS Y R


Cuando la media verdadera p.x es conocida, se debe utilizar en. lugar
de X en las fórmulas anteriores.
Para ilustrar continuemos el ejemplo de estimación del inventario
total actual. El error estándar de esta estimación· es, como en el caso
anterior,

_ _ _ /'2;Y2 + R2'2;X. 2.- 2R'2;XY / _!!-


STy - NS Y R - N ~ n(n _ 1) ~1 N
A partir de la tabla 12-5 podemos calcular lo siguiente:

2;P = 1.365,701
2:X2 = 1.227,238
2:XY = 1.285,673

Recuerde también que:


n = 50
N = 24,167
R = 1.0453

Puesto que la muestra es una parte muy pequeña de la población total,


se puede ignorar la corrección por población finita en la fórmula de
arriba. Entonces:

(24 167) . /1,365,701 + (1.0453)2(1,227,238) - 2(1.0453)(1,285,673)


, "\.j 50(49)

( 24 16-) !IS,S20
, / ~ 2,450
66,9S0
Medición de la precisión de los estadísticos 373

Así, nuestra estimación del inventario total actual es $3.604,000 ron


un error estándar de $67,000. Este error estándar constituye sólo el dos
por ciento del total, con una muestra de SO artículos, de manera que la
estimación de razón es bastante eficaz en este caso. Para efectos de
comparación, el error muestral obtenido de una muestra aleatoria simple
es cerca de $314,000.11
Antes de utilizar el error estándar para determinar límites de confianza,
deberíamos revisar las reglas dadas anteriormente para determinar si el
sesgo es despreciable. N ate que:

1. El tamaño de la muestra es mayor que 30 (n = 50).


Sy 91.76
2 - - ~=~--- = 0.094 que es menor que 0.1, y
. V7iY -{SO. 138.06 '
Sx 85.11
V50' 132.08 = 0.091, que también es menor que 0.1.

Por lo tanto, no nos preocuparemos del sesgo en las estimaciones de T y


Y ST y '

Muestreo por conglomerados

Consideremos un ejemplo único para ilustrar los conceptos implícitos


en el muestreo por conglomerados. Suponga que existe interés en estimar
el ingreso promedio familiar en oierta ciudad. Hay 997 manzanas en la
ciudad, y están numeradas en forma de serpentina tal como se describió
anteriormente. Se seleccionan al azar treinta manzanas. E'1 cada manzana
:eleccionada, se determina el número de casas y se selecciona una muestra
le 3 casas. Se envía un entrevistador a los jefes de familia de las casas selec-
.ionadas y se determina el ingreso total familiar. Los resultados se mues-
tran en la tabla 12-6.
En este ejemplo, la unidad primaria de muestreo es la manzana y la
unidad secundaria es la casa. Note que no se puede conocer el número
de casas que hay en toda la ciudad. Sólo es necesario conocer el número de
casas en cada una de las manzanas seleccionadas, y esta información se
puede obtener fácilmente.
Fórmulas .y notación. Antes de convertir los datos contenidos en
11 Para ver esto

~Y2 _ y~y 1.365,701 (138.06) (6,903)


S~y = 49 = 8,421.9
11-

s,. = gl.76

, . Sr 91. 76
Estimación del error estándar de la media = sr = -- = -~ = 12.977
vn v50
Estimación del error en el total = s'l' y
= Ns ; = (24,167)(12.977) = 313.600
374 Métodos de encuestas por muestreo

la tabla 12-6 en una estimación del ingreso promedio en la ciudad, será


necesario presentar las fórmulas y símbolos utilizados. Sea:

N =el número de unidades primarias (manzanas en este caso) en la


población.
n = el número de unidades primarias (manzanas) en la muestra.
M = el número total de unidades secundarias (casas) en la pobla-
ción total.
Mi = el número de unidades secundarias en la i-ésima unidad primaria
--el número de casas en la i-ésima manzana.
mi = el número de unidades secundarias muestreadas en la i-ésima
unidad primaria -número de casas muestreadas en la i-ési-
ma manzana.
Y i = el promedio de las unidades secundarias muestreadas en la unidad
primaria i-ésima --el ingreso promedio de la i-ésima manzana.
Ti = Mi 'Vi la estimación del total del i-ésimo conglomerado -el
ingreso total de la i-ésima manzana.

U na estimación simple de la media de la población (ingreso promedio


por casa) para una muestra por conglomerados es:

Note que esta fórmula no contiene NI, el número total de todas las unida-
des secundarias (casas). Sólo se requiere Mi, el número de casas en las
manzanas muestreadas.
La estimación 'Ve de la muestra por conglomerados es sesgada, pero el
sesgo es pequeño si se muestrea un número bastante grande de unidades
primarias (manzanas) .12
U na estimación del error muestral para la estimación por conglomera-
dos Ye es

__ 'V(N)2
SY. - M
¿M:CYi - Y )2 ( _.!!-) .(Nlo) ¿)f¡,;;
n(n _ 1) 1 N +
c

M2
donde SY; es el error estándar de la estimación de Yi en el i-ésimo conglo-
merado (el error asociado con la estimación del ingreso promedio en una
manzana), y

Si 1m.
r r, = Vmi ~ 1 - t.di
12 También hay disponible una estimación no sesgada si M es conocida. Sin
embargo, la estimación no sesgada es generalmente menos eficiente que la estima-
ción sesgada de arriba. Ver Cochran, op, cit., págs.' 300-305, para más detalles.
Medición de la precisión de los estadísticos 375

Tabla 12-6
ESTIMACION MUESTRAL DEL INGRESO PROMEDIO FAMILIAR
EN UNA CIUDAD
Estimación del
Manzana número Número de Ingreso promedio
ingreso total de
(determinada hogares en de 3 hogares en
todos los hogares
por números la manzana la manzana en la manzana
aleatorios) (miles de dólares)
(en miles de dólares)

Mi Yi Tc > MiYi

1 643 45 10.7 480.0


2 346 63 5.7 357.0
3 960 52 7.3 381.3
4 236 54 11.7 630.0
5 730 54 9.6 522.0
6 376 65 5.3 346.7
7 25 71 6.7 473.3
8 203 62 6.3 392.7
9 639 66 5.0 330.0
10 91 55 7.7 421.7
11 505 61 11.7 711.7
12 922 71 9.0 639.0
13 310 57 6.0 342.0
14 459 ']3 7.7 559.7
15 595 67 11.0 737.0
16 936 67 9.7 647.7
17 879 63 8.3 525.0
18 707 53 8.3 441.7
19 733 66 9.3 616.0
20 166 49 11.7 571.7
21 750 65 7.0 455.0
22 550 59 6.3 373.7
23 425 60 9.7 580.0
24 576 54 10.3 558.0
25 360 57 11.7 665.0
26 721 49 8.3 408.3
27 685 55 10.7 586.7
28 440 56 8.3 466.7
29 297 47 6.3 297.7
30 107 71 7.3 520.7
- -
1,787
Total 15,038.0

donde Si es la desviación estándar de los artículos muestreados en el i-ésimo


conglomerado. Cuando se desconoce M, se utiliza en cambio N'LMiln.
Note que la ecuación para sYc' el error estándar de la estimación por
conglomerado, tiene dos partes. El primer término está relacionado aproxi-
madamente con la variabilidad entre las medias de los conglomerados, y
376 Métodos de encuestas por muestreo

el segundo término con la variabilidad dentro de los conglomerados. Ge-


neralmente el primer término es el mayor. De hecho, si los conglomerados
muestreados representan una fracción pequeña del número total (n/N
menor que 0.05), el segundo término se hace pequeño y se puede ignorar
en los cálculos.
En nuestro ejemplo (tabla 12-6) de muestreo de ingresos en una ciudad,
la estimación del ingreso medio por casa es

- };T. 15,038.0
Y = - - = ---- = 8.415 miles de dólares
e ~Mi 1,787

y el error muestral estimado de esta media es

utilizando sólo el primer término e ignorando la correccion por población


finita (1 - n/N) puesto que n es sólo el 3% de N. Aquí N = 997, n = 30,
Y M se estima como:

N 997 •
M = -};M· = - (1 787) = 59388
n • 30 '. '

Puesto que

~M:(Yi - YC)2 = 437,811 (los cálculos no se muestran)



J( .
997
59,388
)2 (437,811)
30(29)
.377 miles de dólares

Este es un error muestral bastante grande --{;erca de 4.5% de la


media- considerando el tamaño de la muestra total (90casas). Una mues-
tra aleatoria simple de 90 casas habría sido más precisa. Sin embargo, con
las 90 casas en la muestra de conglomerados sería más económica de realizar
que la muestra aleatoria simple equivalente. Además, sería imposible tomar
una muestra aleatoria sin antes haber compilado una lista completa de
todas las casas en la ciudad -lo que es todo un trabajo.
El método descrito anteriormente es una manera de formular el mues-
treo por conglomerados. Otros métodos son útiles para situaciones dife-
rentes. Por ejemplo, cuando las unidades primarias o conglomerados va-
rían mucho en tamaño, se puede utilizar una técnica que hará posible
seleccionar un conglomerado proporcional al tamaño del conglomerado.
Además, se pueden utilizar tres o más etapas, como se anotó anterior-
Medición de la precisión de los estadísticos 377

mente. Ello requiere fórmulas más complicadas, pero las ideas básicas que
se han ilustrado son las mismas.

~Iuestreo replicado

No necesitamos ilustrar el muestreo replicado, ya que las fórmulas son


sencillas. Suponga que se extraen k muestras replicadas y que para cada
una se calcula la media Y j • Cada }Ti es una estimación de la media 'de
población. La estimación muestral replicada global de la media es

- };Y;
Y=.-
. k ..

y la estimación del error muestral es

Expresado en palabras, el error estándar Sy se determina sólo a partir


de la variancia de las medias muestrales mismas Yj, 13 evitando así todos los
cálculos de variancias dentro y entre conglomerados, dentro de los estratos,
etcétera.
El número k de réplicas Que se realizarán depende de varios factores
en el diseño. Se ha sugerido que el valor de k = 10 es un buen número
para una amplia gama de aplicaciones.v'

RESUMEN

La información que se obtiene de las muestras es indispensable en la


administración de negocios moderna y en la investigación económica. Por
lo tanto, es importante planear las encuestas muestrales en forma tal que se
obtenga la información deseada con máxima precisión y costo mínimo de
tiempo y esfuerzo.
El muestreo probabilístico incluye todos los métodos (tales como el
muestreo aleatorio simple, el muestreo aleatorio estratificado, la selección
sistemática, y el muestreo por conglomerados) en donde haya una pro-
babilidad conocida de selección para cada individuo en una población.
El muestreo no-probabilístico irttluye todos los demás métodos, tales como el
muestreo de cuota y de criterio. Los métodos de muestreo probabilístico
tienen una ventaja básica que consiste en que la precisión de sus resultados

13 El error muestral estimado si' tiene k - 1 grados de libertad. Por lo tanto,


al determinar intervalos de confianza puede ser necesario utilizar la distribución t.
14 W. Edwards Deming, Sam ple Design in Business Research (Nueva York:
John Wiley, 1960), capítulo 21. Los capítulos 6 a 15 presentan un estudio completo
de los diseños de muestras replicadas.
378 Métodos de encuestas por muestreo

se puede medir objetivamente y compararse según diferentes diseños mues-


trales. Esto tiene particular importancia en muestras muy grandes.
U na muestra aleatoria simple de n unidades es la que se selecciona
de la población de modo que cada combinación de n unidades tiene la
mismo probabilidad de selección. Generalmente se utiliza una tabla de
números aleatorios para seleccionar artículos al azar.
El muestreo sistemático es el proceso por el cual se hacen observaciones
a intervalos iguales en una lista. Cuando las partes cercanas de una po-
blación son parecidas, el muestreo sistemático con un comienzo aleatorio
es superior al muestreo aleatorio simple al espaciar de manera más uniforme
las unidades muestreadas sobre toda la población.
Una muestra aleatoria estratificada es aquella en la cual la población
se divide en grupos o estratos bastante uniformes. Luego se toma una
muestra aleatoria de cada estrato seleccionado. Si los diferentes estratos
se pueden hacer más homogéneos que la población como un todo, la
muestra estratificada dará resultados más precisos que una muestra alea-
toria simple del mismo tamaño.
Se debe prorratear la muestra total entre los diferentes estratos. Me-
diante la asignación proporcional se dividen los elementos .muestrales entre
los estratos, en las mismas proporciones respecto a la muestra total que las
que ocurren en la población. Si la variabilidad de los estratos es muy dife-
rente, la asignación óptima mejorará Hl estimación. La asignación óptima
asigna la muestra a los estratos en proporción al tamaño de éstos y
a la desviación estándar dentro de los estratos. Si el costo del muestreo varía
considerablemente entre los estratos, debe emplearse entonces la asigna-
ción de costo mínimo para maximizar la precisión en relación al costo.
La estratificación de la población en personas que responden y otros,
y el submuestreo de los que no responden, es un método para tomar en
cuenta a los que no responden en las encuestas.
La estimación de razón enfoca las proporciones y no en las medias.
U na estimación de razón se puede utilizar también para estimar la media
(o total) de una población, utilizando la razón entre la variable que se
vaya a estimar y una variable auxiliar relacionada con la primera y acerca
de la cual se tiene disponible una información completa.
La eficiencia de la estimación de razón depende de la correlación entre
las dos variables utilizadas en la estimación. Si las dos variables están
estrechamente relacionadas, la estimación de razón puede tener un error
muestral mucho más pequeño que el de una muestra aleatoria simple. La
estimación de razón es sesgada (el promedio de muchas estimaciones de
razón no dará exactamente el valor de población), pero el sesgo es des-
preciable si el tamaño de muestra es grande.
El muestreo por conglomerados implica 1) seleccionar grupos o con-
glomerados como unidades primarias de muestreo, y 2) tomar un censo
o muestrear las "unidades elementales de muestreo" o unidades secundarias
dentro de esos grupos. El muestreo por conglomerados se denominará
muestreo de área cuando el conglomerado coincide con alguna división
Problemas 379

geográfica tal como la manzana en una ciudad. Una muestra por conglo-
merados conduce a resultados menos precisos que una muestra aleatoria
simple del mismo tamaño, pero el costo es mucho menor. Los conglome-
rados se escogen a menudo por selección sistemática realizada en un mapa
en el cual las áreas se han numerado en orden de serpentina. •
Hay varios métodos de muestreo por conglomerados. Uno es muestrear
las unidades primarias con probabilidades iguales y submuestrear las uni-
dades secundarias. Se presentaron fórmulas y una ilustración de esta téc-
nica. Si las unidades primarias varían mucho en tamaño, se pueden selec-
cionar con probabilidad proporcional al tamaño. Hay también disponibles
otros> métodos. La técnica del muestreo replicado implica extraer varias
submuestras independientes de la población, todas utilizando el mismo di-
seño rnuestral. El uso de muestras replicadas hace que la estimación del
error muestral sea relativamente fácil.
El muestreo no probabilístico (que incluye el muestreo por cuotas y la
selección por criterio) es la selección de una muestra de acuerdo a la selec-
ción personal, criterio experto, o en condiciones donde la falta de datos
impide la selección probabilística. Se recomienda algunas veces cuando no
es factible el muestreo probabilístico.
En el muestreo por Cuotas el investigador puede escoger a los entrevis-
tados de una cuota o número asignado de individuos en cada clase desig-
nada. U na muestra por cuotas es más barata por unidad que el muestreo
aleatorio estratificado y es popular en encuestas de mercado y de opinión
pública, a pesar de los serios peligros latentes inherentes a este método.
El muestreo por criterio es la selección de una muestra basada en el
criterio experto. Se recomienda para encuestas en las cuales la muestra
es muy pequeña, para estudios piloto que preceden a encuestas más gran-
des, y para muchos números Índice económicos.
El error estándar de una muestra no probabilística posiblemente se
puede estimar con el muestreo replicado, como en el caso del Indice de
Precios del Consumidor.
Se debe calcular el error estándar de una estadística muestral para
determinar su precisión como estimador del valor de población. El cálculo
de medias, totales, proporciones, y sus errores estándar se ilustra para varios
tipos de muestras en la segunda mitad del capítulo.

PROBLEMAS
1. Comente las siguientes afirmaciones:
a) Los errores muestrales se deben a que los métodos para seleccionar la
muestra son inadecuados,
b) Los resultados de una encuesta se pueden hacer tan precisos como sea
necesario al aumentar el tamaño de la muestra.
e) Si el tiempo y el dinero lo permiten, siempre es preferible efectuar un
censo completo en lugar de una muestra.
d) El muestreo probabilístico debería utilizarse en todas las encuestas de gran
escala para obtener resultados válidos.
2. Distinga entre:
380 Métodos de encuestas por muestreo

a) Muestreo probabilístico y muestreo no probabilístico.


b) Muestreo probabilístico y muestreo aleatorio simple.
c) Muestreo estratificado y muestreo por cuotas.
d) Muestreo proporcional y no proporcional en muestras estratificadas.
e) Unidades primarias y elementales en el muestreo por conglomerados.
3. Usted desea realizar una encuesta de estudiantes en la universidad para deter-
minar qué instalaciones prefieren (por ejemplo: la piscina, el juego de bolos,
la cafetería) en un nuevo edificio estudiantil que se planea. Con este propósito
compare las ventajas de cada uno de los tres pares de métodos de muestreo en los
problemas 2a), 2c) y 2d).
4. Time lnc. realizó una encuesta de graduados de universidad para determinar
su éxito y satisfacción en la vida relacionados con su currículum académico
y varias otras características que ayudarían a Time Magazine a analizar a sus
lectores. Utilizando las listas proporcionadas por las universidades, Time
Magazine envió cuestionarios a los 15,700 graduados cuyos nombres comenza-
ban con "Fa" (Farley, Farrner, etcétera). Se recibieron más de 9,500 res-
puestas.
a) ¿ Qué método de selección muestral es éste?
b) ¿ Qué fuentes de error podrían distorsionar los resultados?
e) Sugiera otro método de selección de una muestra de este tamaño que le
. parezca preferible, e indique por qué ese método reduciría los errores de
respuesta sin aumentar mucho el costo de la encuesta.
5. Cada estudiante debe seleccionar una muestra de 25 valores de una variable
cuantitativa y calcular el promedio mediante la adición de los valores y divi-
diendo la suma entre 25. Para asegurar la comparabilidad de los resultados
obtenidos por los distintos miembros, la clase debe estar de acuerdo en la
elección de la variable y el método de selección a utilizar. Los problemas a
considerar incluyen:
a) ¿ Se tiene fácil acceso a los datos?
b) Si los datos están registrados en tarjetas ¿ se pueden mezclar las tarjetas
para que queden en orden aleatorio?
c) ¿ Están listados y numerados los valores en orden para facilitar la selec-
ción por medio de una tabla de números aleatorios?
d) ¿ Sería efectiva la selección sistemática?
e) ¿Qué estratos se podrían construir para muestreo estratificado?
6. Como distribuidor de los principales artículos para el hogar, usted desea
realizar una encuesta sobre el mercado potencial para nuevos artículos en su
ciudad, mediante entrevistas a una muestra de amas de casa. Planee una
muestra por conglomerados del área como sigue:
a) Consiga un mapa reciente de la ciudad o de un distrito de una ciudad
más grande.
b) Numere las manzanas, o áreas equivalentes, en forma de serpentina de
manera que se siga una secuencia de manzanas que tengan aproximada-
mente los mismos ingresos familiares.
e) Escoja una muestra sistemática, con un comienzo aleatorio, de 20 mano
zanas en ese mapa.
d) Visite la décima manzana seleccionada (como ejemplo) y liste todos los
números de casa o apartamentos en la manzana.
e') Seleccione una muestra aleatoria de seis casas o apartamentos en esta
manzana, utilizando una tabla de números aleatorios.
/) Comente brevemente la validez de este procedimiento para el problema
en cuestión.
7. Una población se divide en dos estratos, y se torna una muestra de cada
estrato en la forma que se muestra a continuacíón:
a) Estime la media de toda la población.
b) Estime el error estándar de la media de toda la población.
Problemas 381

Estrato I Estrato 2

Número de elementos en el estrato, Mi ..... 1,000 4,000


Número en la muestra, mi ....•••.••...• 100 225
Media muestral del estrato, Y¡ . 85 75
:5.;y en el estrato donde Yi == (Y, ~ Y)
2
. 9,900 89,600
- - - - - - _ _ ---------------------
..

8. En una fabrica se está realizando una elección para determinar si los tra-
bajadores deberían estar representados por un sindicato. Para estimar de
antemano la preferencia de los trabajadores, la gerencia contrató una firma
consultora para que tome una muestra de los trabajadores. Los resultados
se muestran en la siguiente tabla:

Número de Número de Número de trabajadores


trabajadores trabajadores en la muestra
por en la que votaron
Departamento departamento muestra por la- sindicalización

1.. ... 5,000 100 60


2 .. 5,000 50 lO
Total ........... 10,000 150 80

a) ¿ Qué estimación debería hacer la gerencia sobre la proporcion de tra-


bajadores en toda la fábrica que votaron por la sindicalización?
b) ¿ Cuál es el error muestral de esa estimación?
Sugerencia: El error estándar de la proporción en cada estrato es:

Utilice esa fórmula en la misma manera que el error estándar Sr,'


9. Como comerciante detallista usted está considerando comprar el inventario
de un comerciante que está liquidando su negocio. Usted tiene una lista de
los artículos que ese comerciante tenía en inventario, pero no se ha realizado
un inventario detallado. Además, existe el problema de evaluar el valor de
esos artículos puesto que muchos están obsoletos, son muy viejos o están tan
dañados que no tienen valor. Por lo tanto, usted decide tomar una muestra
de los artículos, revisar el número, y valorar cuidadosamente los artículos
muestreados.
El inventario se descompone en tres grupos de productos, incluyendo un
grupo especial de artículos de alto valor. El número de artículos en cada
grupo se muestra abajo. Además usted hace las siguientes estimaciones gruesas
de las desviaciones estándar de los valores de los artículos paar cada grupo
de productos.

Artículos en Desvia~ión
n la categoría estándar
de producto aproximada
Categorla de producto
01
Artículos de elevado valor . 100 $120
e 400 20
Pinturas y otros productos .
Artículos en general . 500 10
Total . 1,000
382 Métodos de encuestas por muestreo

Suponga que considere una muestra total de 50 artículos.


lE) ¿ Cómo asignaría los artículos según la asignación proporcional? ¿ Según
1'\ asignación óptima?
b) Estime el error estándar de la media muestral utilizando la asignación
proporcional y la asignación óptima.
10. Una firma 'que investiga mercados ha realizado una encuesta para estimar el
porcentaje de la población en cierta ciudad que prefiere una marca particular
de bebida gaseosa.
Para obtener información adicional, se dividió la ciudad en tres áreas,
correspondientes aproximadamente a los grupos de ingresos bajos, medios y
altos, respectivamente. Se tomó una muestra en cada área. Los resultados
se muestran en la tabla:

Número Número que Porcentaje


Area de aproximado de Número prefiere la que prefiere la
ingresos consumidores muestreado marca X man-a X

Altos ............. 20,000 80 16 20


Medios ............ 120,000 150 75 50
Bajos ............. 60,000 120 72 60
Total ............. 200,000 350 163

a) Haga una estimación del porcentaje global de consumidores que prefie-


ren la marca X. •
b) ¿ Cuál es el error muestral asociado con la estimación anterior? Calcule
un intervalo de confianza del 95 por ciento alrededor de esa estimación.
Nota: Recuerde que la fórmula para el error muestral de una proporción es

s
p,
= Ip8q~
~ n
Eso es equivalente al Sy, en la fórmula para la estimación del error están-
dar en muestras estratificadas.
e) Si usted tuviera que diseñar una encuesta para un producto similar (por
ejemplo: se espera que los porcentajes dentro de los diversos grupos sean
similares a los mostrados arriba), ¿ cómo asignaría una muestra propuesta
de 400 entre los tres grupos de ingreso? (Sea s, = ..¡ p,q.-)
11. La Compañía A & B de artículos deportivos está interesada en la estimación
de los gastos anuales en equipo de campamento de las 100,000 unidades fa-
miliares del área de San José, ·California. Para obtener información y diseñar
el plan de muestreo, se escogió al azar una muestra piloto de 100 familias.
Los gastos anuales estimados para equipo de campamento (V.) y el ingreso
anual familiar (Z;) se obtuvieron para cada unidad familiar. Un resumen
de esas cantidades se muestra a continuación:
ü = gasto promedio = $26
zu, = 2,600
-z.u: = 130,000
s. = $25
Z = $10 = ingreso promedio (miles)
sz, 1,000
zz: f 13,600
s. $6 (miles)
-z.U.Z. = 40,000
Problemas 383

a) Haga una estimación de los gastos totales en equipo de campamento de


las 100,000 unidades familiares en San José, por (1) muestreo aleatorio
simple y (2) estimación de razón. Suponga que se sabe que el ingreso anual
total de las 100,000 unidades familiares es de $900 millones.
b) Compare las dos estimaciones. ¿ Por qué difieren? ¿ Cuál es la más precisa?
¿Por qué?
e) Como alternativa, el área de San José pudo haberse estratificado por áreas
geográficas en tres grupos de área económicos. Se muestran estimaciones
de las desviaciones estándar de los gastos para equipo de campamento den-
tro de cada área. ¿ Cómo asignaría su muestra de 100 artículos entre los
grupos? ¿ Qué precisión estimaría? Compare esto con sus estimaciones ante-
riores aleatoria simple y de razón.

Desviaciones
Número de estándar
unidades estimadas de
Atea familiares los gastos

Ingreso alto . 30,000 $25


Ingreso medio . 40,000 15
Ingreso bajo . 30,000 5
Total .•.................... 100,000

)] 12. Mr, Worthy, presidente de Productos Worthy, está considerando el mercadeo


de un nuevo producto -un artículo ornamental que se puede pegar a las
defensas, parachoques o cubiertas de automóviles. El artículo podría venderse
puerta por puerta y algunos dueños de automóviles podrían comprar dos, tres,
o aún más de esos artículos.
Hay cerca de 200,000 casas y cerca de 250,000 automóviles en el territorio
que intenta cubrir Worthy. Para hacer una estimación de las ventas en ese
territorio, el señor Worthy tornó una muestra aleatoria de 50 casas y mandó
vendedores a las mismas. Los resultados de su encuesta se muestran en la tabla.
a) Tomando los datos rnuestrales como una muestra aleatoria simple de las
casas, estime el total 'de ventas para todos los 200,000 dueños de casa.
bi. Utilizando la razón de ventas a número de automóviles en una casa, estime
el total de ventas.
e) Compare las dos estimaciones. ¿Por qué difieren? Considerando el sesgo
posible, ¿ cuál estimación piensa usted que es la más precisa?
384 Métodos de encuestas por muestreo

Número de Artículos Automóviles Número de Artículos Automóviles


casas vendidos por casa casas vendidos por casa

1 O O 26 O O
2 O 2 27 O 2
3 2 4 28 2 4
4 O 1 29 O 1
5 O O 30 O O
6 O O 31 O O
7 O O 32 O O
8 O 2 33 O 2
9 O 2 34 O 2
10 1 3 35 1 3
11 O 1 36 O 1
12 O 1 37 O 1
13 O 1 38 O 1
14 O 2 39 O 2
15 O 3 40 O 3
16 O 2 41 O 2
17 O O 42 O O
18 O 1 43 O 1
19 O 1 4,.4 O 1
20 O 2 45 O 2
21 1 3 46 1 3
22 2 3 47 2 3
23 1 1 48 O 1
24 O 2 49 1 2
25 O 1 50 O 1
Total
-
14
-
76

13. Se realizó un estudio en cierta ciudad para estimar el número total y tipos
de los principales artículos del hogar (refrigeradores, estufas, lavadoras, seca-
doras, lavadoras de trastos, congeladores). La ciudad se dividió primero en
600 manzanas. Por medio de fotografía aérea y recorridos en automóvil rea-
lizados alrededor de la ciudad, se estimó el número de casas en cada man-
zana.: Por este proceso, se estimó que había 10,000 casas en la ciudad. Luego
se seleccionaron al azar 30 manzanas. En cada una de esas manzanas se
obtuvo información en todas las casas acerca de sus artículos. Los resultados
se muestran en la tabla.
a) Estime el número total de artículos importantes del hogar utilizando la
estimación de razón (razón del número de artículos al número de casas
en una manzana).
b) Considere las manzanas como conglomerados, con un muestreo del 100%
en. la segunda etapa, y haga una estimación del número total de artículos
Problemas 385

Manzana Número de Número estimado


número artículos de casas

1 64 16
2 48 14
3 42 5
4 94 20
5 70 13
6 40 11
7 31 12
8 21 6
9 49 12
10 73 22
11 85 23
12 47 17
13 39 8
14 60 14
15 66 20
16 32 8
17 53 12
18 64 24
19 110 27
20 95 28
21 137 40
22 49 9
23 63 15
24 54 15
25 59 11
26 • 80 19
27 64 17
28 110 24
29, 73 26
30 103 33
Total
--
1975
-521

importantes, utilizando el enfoque de muestreo por conglomerados. ¿ Di-


fiere su estimación respecto al inciso (a)? Explique.
e) ¿ En qué otra forma podría usted hacer una estimación del número total
de artículos en la ciudad con los datos anteriores?
14. Una compañía petrolera deseaba hacer una estimación de las ventas mensuales
promedio de los siguientes meses para sus clientes con tarjeta de crédito, que
son aproximadamente 104,000. Se archivaron las cuentas de tarjeta de crédirc
por número de cuenta en 500 cajas, cada una contenía aproximadamente
200 cuentas.
Se decidió extraer primero una muestra aleatoria de 30 cajas y luego ::r.3-
muestra sistemática de 10 cuentas de cada caja seleccionada. Los res» :r",j~.
se .muestran en la tabla.
386 Métodos de encuestas por muestreo

Cuentas en! Ventas mensual es


Caja la caja promedio
en la muestra

1 220 21.67
2 184 19.26
3 200 3.20
4 176 12.17
5 210 5.42
6 208 13.10
7 198 7.15
8 202 10.85
9 206 12.50
10 194 15.47
11 218 17.29
12 217 6.18
13 192 24.53
14 212 8.22
15 202 6.33
16 225 19.13
17 209 7.57
18 208 1.12
19 215 14.71
20 224 6.83
21 216 12.92
22 22~ 7.21
23 234 34.17
24 196 8.47
25 218 11.16
26 242 9.28
27 200 17.42
28 215 9.64
29 210 22.77
30 204 14.98

a) Estime el promedio global de ventas mensuales para las 104,620 cuentas


y el error muestral asociado con esta estimación.
b) ¿ Qué otros métodos de muestreo piensa que podrían ser más eficientes
en este caso (porque tengan menos errores muestrales? ¿ Cómo se com-
para su método con el procedimiento anterior en CUanto a lo que cuesta
tomar la muestra?
15. Considere como población a todos los estudiantes de su Universidad o depar-
tamento o todos los empleados de su compañía. Determine alguna variable
que usted desearía medir en esa población, tal como el ingreso esperado
10 años después de la graduación, la distancia promedio de viaje de la uni-
versidad o el trabajo a sus casas, o el número de horas semanales que ven
la televisión.
a) Diseñe un plan de muestreo para estimar la información deseada. Esté
seguro de definir su población exactamente. (¿ Cómo consideraría a los
estudiantes o empleados de tiempo incompleto?) Indique dónde podría
obtener listas y otras informaciones necesarias para el diseño de la en-
cuesta. Decida cuán precisos deben ser los resultados y cuán grande debe
ser la muestra que necesita para conseguir esa precisión.
b) Prepare un cuestionario para obtener la información deseada. Pruebe pre-
viamente el cuestionario con un grupo o grupos de personas. ¿ Debe hacerse
la encuesta en forma personal o por correo? .¿ Cómo considerará a los que
no contestan?
Problemas 387

e) Realice la encuesta y tabule los resultados. Estime la información que


desea y determine el error muestral asociado con su estimación.
d) Describa este proyecto en una hoja de reportes indicando: (1) el plan
de muestreo escogido y el porqué de la escogencia, (2) cómo se reali-
zará la encuesta, y (3) los resultados de la encuesta.

BIBLIOGRAFIA
COHRAN, WILLIAM G. Sampling Techniques. 2da. ed. Nueva York: John Wiley,
1963.
Este es un libro de texto y referencia sobre teoría y técnica del muestreo.
Es de un nivel relativamente avanzado y sería útil a los estudiantes que
quieran estudiar el tema más a fondo.
CYERT, R. M., ANO DAvIDsON, N. J. Statistical Sampling for Accounting Informa-
tion. Englewood Cliffs, N. J.: Prentice-Hall, 1962.
Los primeros capítulos tratan la teoría general del muestreo. El capítulo 7
aborda la estimación de razón y el capítulo 8 el muestreo estratificado. El
estudio se hace a nivel intermedio, y se incluyen ejemplos de muestreo en
la contabilidad.
DEMING, W. EDwARDs. Sample Design in Business Research. Nueva York: John
Wiley, 1960.
Contiene varios ejemplos de muestreo en la administración de negocios,
profundizando en el muestreo .replicado. Sin embargo, el nivel es avanzado
y difícil de. seguir en muchos lugares.
HANSEN. M. H., HURWITZ, 'W. N.; AND Mxoow, W. G. Sam ple Suruey Methods
and Theory.' Nueva York: John Wiley, 1953, 2 vols.
El volumen 1 es un tratamiento autorizado y completo de los métodos y
aplicaciones del muestreo.
KISH, LESLIE. Survey Sumpling, Nueva York: John Wiley, 1965.
Constituye un tratamiento moderno y comprensivo que incorpora la ex-
periencia del Survey Research Cenjer de la Universidad de Michigan.
MENDENHALL, W.; OrT, L.; ANO SCHAEFFER, R. L. Elementary Survey Sam pling,
Belmont, Calif.: Wadsworth, 1971.
Un tratamiento completo de los métodos de muestreo de encuestas a un
nivel elemental.
SLONIM, MORRIS J. Sampling in a Nutshell. Nueva York: Simond and Schuster,
1960.
Un tratamiento corto y de fácil lectura del muestreo. Abarca muchos
tópicos importantes incluyendo los muestreos estratificados, por conglomerados,
y sistemático, con aplicaciones.
YAMANE, T. Elementary Sampling Theory. Englewood Cliffs, N. J.: Prentice-
Hall, 1967.
Una buena fuente de referencia que trata el muestreo de encuestas a un
nivel medio.
CAPITULO 13
El teorema de Rayes y el muestreo

EN ESTE CAPíTULO Y el siguiente se investigará el proceso de la toma de


decisiones con base en información, parte de la cual se obtiene de una.
muestra. Estos capítulos agrupan los elementos de la toma de decisiones
en condiciones de incertidumbre -tema de los capítulos 7 y 8, junto con
los conceptos de inferencia estadística- tratados en los capítulos 9 y 10.
Hay entonces tres factores que pueden contribuir a tomar una decisión:
1) las consecuencias económicas derivadas de las diversas acciones; 2) la
distribución de probabilidad original de quien toma la decisión; y, luego,
3) la información adicional obtenida de la muestra. Los capítulos 13 y 14
muestran cómo revisar las probabilidades a la luz de la información
muestral y cómo evaluar 'esta información antes de determinar si debe-
mos tomar una muestra -y si la debemos tomar, de qué tamaño-- antes
de actuar. Este capítulo trata el caso de muestreo de una distribución.
binomial. En el capítulo 14 se aplica este análisis al caso de distribuciones
de probabilidad normales.
En el capítulo 8 se introdujo el concepto de valor esperado de la
información perfecta (EVPI). Esta representaba la importancia econó-
mica, en una toma de decisión dada, de tener un predictor perfecto del
evento que ocurrirá. El capítulo 8 mostró también cómo evaluar en ge-
neral el valor de la información parcial, siempre que se pudiera deter-
minar la eonfiabilidad de la información. En muchas situaciones de
decisión es posible tomar una muestra para obtener información parcial.
Cualquier estimación muestral tiene asociado un error de muestreo
y posiblemente sesgo, de tal forma que no es un predictor perfecto. Pero
la muestra nos da alguna información adicional y, por lo general, debe
mejorar la decisión que se toma. Ya que una mejora en la toma de deci-
siones tiene una ventaja económica, la información muestral tiene U.1
valor mesurable para quien toma la decisión; cuanto más grande sea la
muestra, . mayor será el valor, ya que las muestras más grandes son más
precisas. Pero las muestras más grandes son más costosas que las pequeñas.
Y entonces el problema que tiene que afrontar quien toma la decisión
es escoger el tamaño óptimo de la muestra con el que se equilibren las
389
390 El teorema de Bayes y el muestreo

ventajas de la información muestral con los costos de 'muestreo. Este


tamaño muestral podría ser cero, lo que significa que debe actuarse ahora
sin tomar una muestra. Por otro lado, la muestra no puede ser tan grande
que su costo exceda EVPI.
El segundo problema relacionado con lo anterior consiste en cómo
debe actuar el que toma la decisión después de haber tomado una mues-
tra. ¿ Qué ponderación debe dar a la información muestral relativa a sus
probabilidades a priori? ¿ Debe cambiar su decisión a causa de 1'1 mues-
tra? Existen pues dos problemas que debe encarar quien toma una deci-
sión en condiciones de incertidumbre: 1) Debe tomar una muestra y
si la toma, ¿ qué tan gr ande debe ser? 2) Dado que se ha tomado una
muestra, ¿ qué acción debe tomar con base en los resultados de la mues-
tra? Ya que generalmente esta segunda pregunta -el efecto del mues-
treo en la toma de decisiones- es más fácil de contestar que la primera,
empezaremos con ella y luego retornaremos a la primera pregunta -la
selección de la muestra misma- al final del capitulo.'

DISTRIBUCIONES DE PROBABILIDAD A PRIORI


Y A POSTERIORI

Con objeto de introducir los conceptos de toma de decisiones a priori


y a posteriori o distribuciones "postuladas", consideremos un ejemplo fic-
ticio. Suponga que hay dos vasijas casi idénticas en una mesa que está
frente a usted. Cada una de estas vasijas contiene cincuenta pelotas de
ping-pong. La vasija A contiene todas las bolas rojas; la vasija B contiene
todas las bolas .blancas. Se escoge una de las vasijas mediante el siguiente
procedimiento aleatorio; se lanza un dado no cargado. Si resulta un
1 ó 2, se selecciona la vasija A; si resultan un 3, 4, 5 ó 6, se selecciona
la vasija B. Usted no ha sido testigo del lanzamiento del dado. Ahora,
se le pide participar en un juego en el que usted adivine qué vasija se
seleccionará. Es razonable asignar una probabilidad de 1'3 al evento "se selec-
ciona la vasija A" ya que la probabilidad de obtener un 1 o un 2 de seis
caras del dado es 1'3, De manera similar, la probabilidad del evento "se
selecciona la vasija B" es %' Llamemos a esto nuestras probabilidades
a priori. Estas probabilidades representan postulados probabilísticos acerca
de qué vasija se seleccionará.
Ahora, supongamos que hemos seleccionado una vasija (que usted no
sabe cuál es), y se le permite tomar una pelota de ella y verla antes de
actuar -esto es, antes de adivinar "A" o "B". El hecho de tomar una
pelota de la vasija significa esencialmente tornar una muestra de tamaño 1.
Después de la muestra, ¿ cuáles serían sus postulados probabilísticos (de-
l Consideramos aquí la toma de una sola muestra y luego la acción. Este
procedimiento es a menudo deseable, por ejemplo, para hacer un análisis comer-
cial .a nivel nacional que involucra un gran costo fijo. Alternativamente, podemos
tomar una serie de muestras y llegar a una decisión siempre que la evidencia
acumulativa se torne convincente de una manera u otra. Esas muestras se deno-
minan planes de muestreo secuencial.
Distribuciones de probabilidad a priori y a posteriori 391

nominados la distribución de probabilidad a posteriori) acerca de qué


vasija fue seleccionada? Ello dependería del color de la pelota que se
tomó. Ya que la vasija A contiene solamente pelotas rojas y la vasija
B contiene solamente pelotas blancas, el color de la pelota nos daría
un indicador sin errores de qué vasija fue seleccionada. Las distribuciones
postuladas se muestran en la tabla 13·1.
Los puntos importantes de esta ilustración son: 1) tenemos una dis-
tribución de probabilidad para la toma de decisiones (columna 2) -esta
se designa como la distribución a priori ya que se construye antes de que se
tome la muestra; 2) la distribución de probabilidad se revisa después
de la inclusión de la información muestral -esta distribución revisada
se denomina la distribución de probabilidad a posteriori; y 3) la distri-
bución a posteriori depende del resultado rnuestral. Existe una distribución
a posteriori diferente para cada resultado muestra!.

Tabla 13·1
DlSTRIBU~IONES DE PROBABILIDAD A PRIORI Y A POSTERIORI

Probabilidad Probabilidad
a priori a posteriorl
(antes de Si la pelota _ Si la pelo la
Enent a: rasi¡a
tomar la <que se Lomó que se tomó
seleccionada
pelota) ___suse. l'S blanca

A 333 1.0 0.0


B '.' .667
. --
1.00<'
0.0
1.0
1.0
1.0

Teorema de Bayes

El ejemplo anterior puede parecer trivial cuando una vasija contiene


todas las pelotas blancas y la otra todas las pelotas rojas. Pero no es tan
trivial si cambiamos un poco el problema. Por ejemplo, suponga que la
vasija A contiene un 70% de pelotas rojas y un 30% de pelotas blancas, y
la vasija B contiene un 20% de pelotas rojas y un 80% de pelotas blancas.
Veamos cómo determinar las probabilidades a posteriori en este caso.
Aunque ya hemos estudiado en general el teorema de Bayes para el trata-
miento de tales problemas (ver página 226), es útil revisarlo aquí y
aplicarlo al contexto específico del muestreo. Si se extrae solamente una
pelota, puede ser roja o blanca. Podemos determinar las probabilidades
conjuntas en la tabla 13·2, como se hizo en los capítulos 5 y 8. Recuerde
que una vasija (ya sea A o B) fue seleccionada al azar tirando el dado,
y luego se seleccionó una pelota al azar en la vasija designada. Por lo
tanto, podemos determinar la probabilidad conjunta de obtener al mismo
tiempo Una vasija en particular y un color de pelota en particular. Por
ejemplo, la probabilidad conjunta de seleccionar la vasija A y luego ex-
traer una pelota roja es P (A, R). Con base en la página 121, podemos
escribir la probabilidad conjunta como -
392 El teorema de Bayes y el muestreo

peA, R) = P(A) P(RIA)


= (0.333) (0.70) = 0.233

donde P(A) = 0.333 es la probabilidad de obtener la vasija A, y P(RIA)


es la probabilidad condicional de obtener una pelota roja dada la vasi-
ja A; es igual a 0.70 ya que la vasija A contiene el 70% de pelotas rojas.
Las otras probabilidades conjuntas en la tabla 13-2 se calculan de
una manera similar. Los datos de la parte inferior de la tabla son las
probabilidades marginales de obtener un color de pelota dado. Esto es,
se puede obtener una pelota roja ya sea tomando la vasija A y luego
una pelota roja o seleccionando la vasija B y luego una pelota roja. Así,
la probabilidad de sacar una pelota roja es la suma de esas probabilidades
con juntas, o sea,

P(R) ~ P(A, R) + P(B, R) = 0.233 + 0.133 = 0.366.

Ahora podemos revisar la distribución postulada a priori. Suponga que


hemos tomado una pelota roja. Hacemos estatpregunta: ¿ cuál es la proba-
bilidad de que hayamos seleccionado la vasija A, dado que hemos tomado
una pelota roja? Simbólicamente, deseamos encontrar la probabilidad con-
dicional P(AIR). De la definición de probabilida-d condicional (capítulo 5),

P(AIR) = P(A, R) (1)


P(R)

Tabla 13·2
TABLA DE PROBABILIDAD CONJUNTA

VaJija Extracción de bola roja Extroccíó n de bola blanco

A peA, R) = peA) peRlA) peA, W) = peA) P(WjA) peA) = .3331


= (.333)(.70) = .233 = (.333)(.30) = .100

B P(B, R) = P(B) p(RIB) P(B, W) """. P(B)p(WIB) P(B) = .667 1


= (.667)(.20) = .133 = (.667)(.80) = .534
!
peA, R) + P(B, R)

J
P(R) = P(W) = peA, W) +P(B, W)
= .233 + .133 = .100 + .534
= .366 = .634 1.000

o sea" la probabilidad condicional de la vasija A, dado que se extrajo


una pelota roja, es igual a la probabilidad conjunta de la vasija A y una
pelota roja dividida entre la probabilidad marginal de una pelota roja.
Pero se puede tomar una pelota roja ya sea de la vasija A o de la B y,
por lo tanto, la probabilidad marginal puede expresarse como la suma de
las probabilidades de tomar una pelota roja de las vasijas A y B esto es.

P(R) = P(A, R) + P(B, R)


Distribuciones de probabilidad a priori y a posteriori 393

Pero ahora las probabilidades P (A, R) Y P(B, R) se pueden escribir como en la


tabla 13-2, columna 1:

P(A,R) =P(A) P(R[A) y P(B, R) = P(B) P(R[B)

Entonces podemos escribir de nuevo 1) como

prAl P(RIA)
P (A IR) - -P-(A---)-P---(-=-R---¡A---)-+-.P-(-=B---)-=-P(iR---IB=-:-) (2)

Tal como se dijo en el capítulo 8, la probabilidad condicional expre-


sada en la forma de la ecuación (2) se conoce como Teorema de Bayes.
Note que ésta expresa la probabilidad a posterioride la vasija A, dado que
se haya tomado una pelota roja P (A IR), en función de las probabilidades
a priori para las vasijas A y B, P (A) Y P( B), Y las probabilidades condi-
cionales de tomar una pelota roja de las vasijas A y B [P(R[A) Y P(R[B)].
Sustituyendo los valores numéricos en la ecuación (2), tenemos

(0.333) (0.70) 0.233


P(AIR) - = - - = 0.637
. - (0.333)(0.70) + (0.667)(0.20) 0.366

La fórmula análoga del teorema de Bayes para P(B[R) es

P(B1R) .
P(B) P(RIB)
prAl P(RIA) + P(B) P(RIB)
(0.667) (0.20)
0(333) (0.70 + (0.667) (0.20)

Los valores P(A[R) = 0.637 Y P(BIR) = 0.363 son las probabilidades


revisadas o a posteriori de seleccionar la vasija A o la vasija B, respec-
tivamente, dado que la bola de la muestra fue roja. Si la pelota que se
ha tomado es blanca, entonces las probabilidades a posteriori se podrían
obtener de una manera similar. Ellas son P(A[It') = 0.158 y P(B¡W) =
0.842.
Estas probabilidades a posteriori representan "postulados probabilís-
ticos" en el mismo sentido que las probabilidades a priori. Había una
oportunidad de lh de seleccionar la vasija A antes de tomar una pelota.
Después de extraer una pelota roja, la oportunidad de haber seleccionado
la vasija A se incrementó a más de % (o sea, 0.637); si se extrajo una
pelota blanca, las probabilidades bajaron a 15.8 oportunidades en 100.
Esos resultados son generalmente lo que esperaríamos del sentido común:
el tomar una pelota roja debe incrementar las oportunidades de haber
seleccionado la vasija A ya que en ella predominan pelotas rojas; y el
obtener una pelota blanca debe incrementar las oportunidades de haber
seleccionado la vasija B (y disminuir las de A), ya que contiene predo-
394 El teorema de Boyes y el muestreo

minantementc pelotas blancas. El uso del teorema de Bayes nos permite


obtener los valores numéricos exactos de las probabilidades de toma de
decisiones o postulados.

Tabla 13·3
TEOREMA DE BAYES: CALCULO DE LA
PROBABILIDAD A POSTERIORI
(Resultado muestral: una pelota roja)
{l} (2) (3) (4) (5)
Probabilidad Probabilidad conjunta Probabilidad a posteriori
EURlo: Probabilidad condicional Pi resultado P(eventolresultado
'CdSija a priori P( resultado mueslral "evenlo) muestral¡
Mlunonada P(evenlo) muestralierentov . (col. 2 X col. 3)· (col. 4 + :¡; col. 4)

A 333 .7 .233 .233/.366 = .637


B 667 .2 .133 .133/.366 = .363
Total. 1.000 .366 1.000
j
Probabilidad
marginal = P
(resultado rrníestral )

Será útil para análisis posteriores poner los cálculos de la distribución


a posteriori en forma de tabla. La forma- general de la tabla y los cálculos
específicos que se realizaron anteriormente se repiten en la tabla 13-3.
En la columna 1 de la tabla 13-3 se listan los eventos posibles; en
este caso, la vasija A o R. La columna 2 muestra las probabilidades
a priori (o sea, antes del muestreo): Y:3 y % para las vasijas A y R, respec-
tivamente. La columna 3 muestra la probabilidad del resultado muestral,
dado cada uno de los eventos. En este caso muestra la probabilidad de
tomar una pelota roja de las vasijas A y R, respectivamente. La columna
4 es la probabilidad conjunta de que ocurran tanto el evento como la
muestra. Se obtiene multiplicando los valores de la columna 2 por los
de la columna 3.
La suma de los valores de la columna 4 es la probabilidad marginal
del resultado muestral dado. En este caso, es la probabilidad de tomar
una pelota roja, obtenida sumando las dos probabilidades -una pelota
roja tomada de la vasija A y una pelota roja tomada de la vasija R.
La columna 5 muestra las probabilidades a posteriori, obtenidas divi-
diendo los valores individuales de la columna 4 entre el total de la
columna 4. El total de la columna 4 es la probabilidad de una pelota
roja, pero ya que de hecho se ha tomado una pelota roja, esta proba-
bilidad debe "crecer" a 1.0. Por lo tanto, los otros valores de la columna
4 han "crecido" o se han incrementado en la misma proporción, y la
columna 5 contiene las probabilidades a posteriori.

Revisión de probabilidades: muestreo binomial

Continuemos el ejemplo anterior en un paso más. Supongamos que


Distribuciones de probabilidad a priori y a posteriori 395

debemos tomar una muestra de 3 pelotas de la vasija no identificada


que se seleccionó (reemplazando la pelota después de cada intento).
Ahora supongamos que de las tres pelotas, dos fueron rojas y una fue
blanca. ¿ Cómo obtendríamos las probabilidades a posteriori? Primero
preguntemos cómo podemos obtener las probabilidades condicionales de
esta muestra (2 rojas, 1 blanca), esto es, P (muestrajvasija A) y P (mues-
tralvasija B). Ya que la vasija A contiene el 70 por ciento de bolas rojas,
la probabilidad de tomar una muestra que contenga 2 pelotas rojas y
una pelota blanca es simplemente la probabilidad binomial P (r = 2 ¡n = 3,
P = 0.7) =0.441 (del apéndice F). De manera similar, la probabilidad
de la muestra dada la vasija B (con 20% de pelotas rojas) es la
probabilidad binomial P( r = 2jn = 3, P = 0.2) = 0.096. Con estos nú-
meros podemos llenar el resto de la tabla 13-4 para determinar las pro-
babilidades a posteriori.

Tabla 13-4
CALCULO DE LAS PROBABILIDADES A POSTERIORI
(Muestra de 2 pelotas rojas y 1 pelola blanca)

(3)
Probabilidad (4) (5)
(1 ) (2) condicional Probabilidad Probabilidad
Erent o: la rasiia Probabilidad P(r '" 21 conjunta a posteriori
seleccionada es tr priori n '" 3, P) (col. 2 X col. 3) (col. 4 + ~ col. 4)

A (con p = .7) :333 .441 .147 .147/.211 .697


B (con p = .2) .667 :096 .064 .064/.211 .303
1.000 .211 1.000
t .
Probabilidad
marginal de
esta muestra

Es importante entender que las distribuciones a priori y a posteriori


son distribuciones postuladas. Antes de cualquier información muestral,
nosotros postularíamos la vasija B con probabilidades de 2 sobre 3. Des-
pués de esta muestra, las probabilidades cambian considerablemente en
favor de la vasija A (a 0.697 de probabilidad).
En la tabla 13-4, la suma de la columna 4 es 0.211. Esta es la proba-
bilidad de obtener esta muestra en particular (:) rojas, 1 blanca) cuando
tomamos tres pelotas. En la tabla 13-5 se muestran otros resultados posi-
bles de muestras.
Por lo tanto, la probabilidad marginal de obtener una muestra con tres
pelotas rojas es 0.120. Y si ocurriera esta muestra, las probabilidades
a posteriori serían 0.950 para la vasija A y
0.050, para la vasija B. Se
dan los cálculos de los resultados que aparecen en la tabla 13-5, pero
se pueden obtener los números el'aborando una tabla, tal como la tabla
13-4 para cada posible resultado muestral.
396 El teorema de Bayes y elmuestreo

Tabla 13·5
MUESTRAS POSIBLES DE TAMAR"O TRES y DISTRIBUCIONES
A POSTERIORI

Probabilidad a posteriorí di'


Resultado Probabilidad
muestral marginal Fasija A Vasija B

3 bolas rojas . 0.120 0.958 0.042


2 rojas, 1 blanca . 0.211 0.697 0.303
1 roja, 2 blancas . 0.319 0.197 0.803
3 blancas ...•............... 0.350 0.026 0.974
Total ......•................ 1.000

PROBABILIDADES A POSTE¡RIORl y TOMA DE


DECISIONES

El análisis anterior se concentró en la revisión de probabilidades y


olvidó la información económica en ~l proceso de decisión. Reintroduz-
camos los resultados económicos por medio de un -ejemplo, Un fabricante
de equipo electrónico opera dos fábricas; una que manufactura compo-
nentes y la otra que ensambla los componentes en unidades completas.
Cierta parte se embarca de la planta de manufactura a la planta de
ensamble en lotes de 5,000 unidades. Ha sido muy difícil uniformar la cali-
dad de esta parte en particular; se han recibido lotes con sólo un pequeño
porcentaje del 1 por ciento de partes defectuosas, hasta otros con un
alto porcentaje del 20 por ciento de partes defectuosas. La fracción defec-
tuosa p (o sea, porcentaje dividido entre 100) en los últimos 20 lotes
revisados se muestra en la tabla 13-6. Supongamos que la gerencia

Tabla 13-6
FRACCION DEFECTUOSA DE LOTES DE LA PARTE
ESPECIFICADA

Número de lotes
Fracción con esta Frecuencia
defeetuosa (p) fracción defectuosa relotira

.01 3 .15
.02 : 5 .25
.05 7 .35
.08 , , .. 3 .15
.10,., .. ,."." , .. ," 1 .05
.20, , 1 .05
Total , .. , ,20 1.00
Probabilidades a posterioriy toma de decisiones 397

desea usar esta historia de frecuencias como una distribución postulada


en torno a la fracción defectuosa en el próximo lote.~
Análisis económico antes del muestreo
Cuando no se detectan las partes defectuosas y se ensamblan en la
unidad final, afectan la funcionalidad de la unidad final. En tales casos,
i se debe desarmar la unidad final y cambiar la parte defectuosa. El Costo
de desarmar y ensamblar otra vez una unidad es $1.50 por unidad.
Una alternativa es inspeccionar todo el ingreso de lotes de partes y
quitar todas las partes defectuosas antes de ensamblar. El costo de esta
inspección al 100% es 10 centavos por parte, o sea $500 por lote. Ha
llegado un lote de una parte específica y el director debe decidir si inspec-
cionar el 100% o usar el lote tal como llegó. Hagamos primero una
tabla de resultados para este problema de decisión. Esto se hace en la
tabla 13-7.
Tabla 13·7
TABLA DE RESULTADOS DE ACCIONES "INSPECCION AL 100o/~"
y "ACEPTACION DEL LOTE COMO VIENE"
(Tamaño del lote 5,000; costo de inspección 10 centavos;
costo de reemplazo $1.50)

Costos* Costos de oportunidad


Evento:
fracción Probabilidad -Inspección Aceptación Aceptación
Lnspeccion
defectuosa P(p) del lote del lote
al 100% al 100%
en el lote (p) como viene como viene
(2) (3) (5)
(l) (4) (6)

.01 ....... .15 $500 ~ $ 75.00 $425 O


.02.,...... .25 500 150.00 350 O
.05 ..... .35 500 375.00 125 O
.08 ....... .15 • 500 600.00 O $ 100.00
.10 ....... .05 500 750.00 O 250.60
.20 .... .. .05 500 1,500.00 O 1,000.00
---- ---
Valores esperados ....... $500 $ 382.50 $195 $ 77·50
* Note que tenemos ecuaciones de costos lineales en este ejemplo. Costo de inspección = $500.
Costo de aceptación corno viene = ($1.50) (5,OOO)P, dondep es la variable desconocida (fracción
defectuosa), E(p) se puede calcular y es 0.051 y, por lo tanto, se puede determinar el costo
esperado como E(c) = ($I.50)(5,OOO)E(p) = $7,500(0.051) = $382.50, como anteriormente.

Las columnas 1 y 2 provienen de la tabla 13·6. Los costos en las


columnas 3 y 4 se determinan como sigue: para la inspección al 100%,
el costo es de 10 centavos por unidad en 5,000 partes = $500; para la
aceptación del lote como viene, el costo es $1.50 por unidad reemplazada
multiplicada por el número defectuoso (5,000 X p). Por ejemplo, cuando
p = 0.05, esperamos 0.05 X 5.000 = 250 defectuosos y 250 X $1.50 =
$3.75. Los de oportunidad en las columnas 5 y 6 se obtienen sustrayendo
el menor de los costos en cada .renglón del costo más alto. Los valores

2 Quizás un procedimiento más razonable consiste en suavizar esta distri-


bución de frecuencias con objeto de dar alguna probabilidad a valores interme-
dios de p. Para seguir este procedimiento vea el capítulo 2, páginas 49-50.
398 El teorema de Bayes y el muestreo

esperados son los promedios ponderados de las cifras en cada columna


multiplicados por sus probabilidades y totalizados.
Como podernos ver en esta tabla, la acción óptima es aceptar el lote
como viene, ya que esta acción tiene el más bajo costo esperado, aunque
necesitará algún trabajo de reemplazo posteriormente. El EVPI es $77.50
por lote (el costo de oportunidad esperado de la mejor alternativa). Ya
que esto es un monto bastante sustancial, quien toma la decisión debe
encontrar maneras de obtener información adicional.
Análisis económico después del muestreo
Un método para obtener cuando menos información parcial en esta
situación es tomar una muestra al azar de partes en el lote e inspeccionar
los elementos de la muestra. Del número de partes defectuosas en la
muestra podemos hacer algunas inferencias sobre la fracción defectuosa
en todo el lote.
Supongamos que el director decide arbitrariamente muestrear 25 ele-
mentos del lote y que encuentra que 2 de los 25 fueron defectuosos. Ahora
querernos investigar qué acción se debe tornar con base en sus probabi-
lidades a priori y la información muestral combinadas. La persona que
toma la decisión puede revisar su distribución postulada original o a priori
de alguna manera como en la tabla 13-4. Esto se hace en la tabla 13-8.
Compare las probabilidades a posteriori con las probabilidades a priori.
La fracción defectuosa en la muestra fue 2/25 = 0.08. Note que las
probabilidades a posteriori para valores de p cercanos a 0.08, se han
incrementado (con relación a los valores a priori) y han disminuido las
probabilidades a posteriori cuando p está alejada de 0.08.
Ahora podemos usar las probabilidades a posteriori, junto con los
costos originales en la tabla 13-7 para revisar nuestra tabla de resultados,
usando los mismos cálculos de antes." (Ver tabla 13-9). La acción óptima
sigue siendo aceptar el lote tal como viene, ya que esta acción tiene el
mínimo costo esperado. Sin embargo, el costo esperado es un poco mayor
que anteriormente, ya que la fracción defectuosa de la muestra (0.08)
excede la fracción esperada defectuosa (0.051) anterior a la toma de la
muestra (ver nota al pie de la tabla 13-7) Note que el EVPI posterior
es todavía bastante grande ($68.60 de la tabla 13-9), indicando que el
resultado de la muestra en particular sirvió de muy poco para resolver
la incertidumbre sobre qué acción tomar. La persona que toma la decisión
podría considerar el tomar una segunda muestra antes de actuar.
El resultado rnuestral "2 defectuosas de 25" es sólo uno de los muchos
que podrían haber ocurrido. Los otros resultados posibles se muestran
en la tabla 13-10. La acción decisiva cambia sise encuentran 3 o más
partes defectuosas en la muestra; entonces la inspección al 100 por ciento
viene a ser la decisión más económica. Note que los diferentes resultados
muestrales tienen valores muy distintos en la EüL, una acción posterior de

. 3 Podemos encontrar que la E(p) para la distribución posterior = 0.0609.


Como un método alternativo para encontrar el costo esperado, tenemos que
E(c) = ($1.50) (5,000)E(P) = $7,500 X (0.0609) =$456.75 como en la tabla 13-9
Probabilidades a posterioriy toma de decisiones 399

Tabla 13-8
CALCULO DE LAS PROBABILIDADES A POSTERIORI MEDIANTE
EL TEOREMA DE BAYES
(Muestra de 25 partes, con 2 defectuosas)
Probabilidad
Evento: Probabilidad a posteriori
fracción Probabilidad coníunta P(p)P(r = 21n = 25, p)
defectuosa Probabilidad condicíonal* P(p)P(r = 21n =
a priori P(r = 21n = 25, p) 'l.P(p)P(r = tln = 25, P)
del lote
P(p) 25, P) (Col. 2 X Col. 3) (Col. 4 + ~ Col. 4)
p
(1) (2) (3) (4) (5)

.OL 15 .024 .00360 .022


.02 25 .075 .01875 .115
.05 35 .231 .08085 .498
.08 15 .282 .04230 .261
.10 ; 05 .266 .01330 .082
.20 05 .071 .00355 .022
Total. 1.00 .16235 1.000
t
Probabilidad
marginal de
esta muestra
* Los valores en la columna 3 se obtuvieron de las tablas binomiales, apéndice F.

y menos eficaz que la EVPI. Cuando en la muestra se encuentran muy


pocos o demasiados defectos la decisión que se debe tomar es relativa-
mente clara (es decir, aceptar si r es O ó 1; rechazar si r > 4). Cuando
el número de artículos defectuqso está "en medio" (alrededor de 2 Ó 3
en 25), todavía existe considerable incertidumbre acerca de cuál es la
acción correcta. Esto es cierto en el muestreo en general. Resultados
muestrales muy buenos o muy malos llevan a una decisión claramente
determinada; mientras que los resultados limítrofes son indefinidos y
pueden requerir un muestreo posterior.
Tabla 13-9
TABLA DE RESUl"TADOS AL USAR PROBABILIDADES
A POSTERIORI
(Muestra de 25 partes con 2 defectuosas)

Evento:
fracción Costos. Costos de oportunidad
defectuosa Probabilidad
a posteriori Inspección Aceptación Inspección Aceptación
del lote
P(f) al 100% del lote al 1000; ', del lote
f! como viene corno viene

.01 ........ .022$500 $ 75.00 $425.00 O


.02 ........ .1lS 500 150.00 350.00 O
.05 ........
.498 500 375.00 125.00 O
.261
.08 ........ 500 600.00 O $ 100.00
.10 ..........
.082 500 750.00 O 250.00
.20 ........
.022 500 1,500.00 O 1,000.00
Valores esperados ......... $500 $ 456.75 $111.85 $ 68.60
400 El teorema de Bayes y el muestreo

Tabla l3-10
RESULTADOS POSIBLES PARA UNA MUESTRA DE 25 ELEMENTOS

Resultado Costo de
muestral Costo oportunidad
(número de esperado a esperado a
Acción a
defectuosos) -posteriori posteriori
posteriori
r

o . aceptar sin inspección $212.25 s 8.05


1 aceptar sin inspección 333.22 26.95
2 aceptar sin inspección 456.75 68.60
3 inspeccionar 500.00 63.92
4 inspeccionar 500.00 32.55
5 inspeccionar 500.00 13.00
6 inspeccionar 500.00 4.38
7 o más . inspeccionar 500.00
Muy pequeño

VALOR ESPERADO DE LA INFORMACION lVIUESTRAL

En la sección anterior, nos referimos al problema "dado que se ha


extraído una muestra de cierto tamaño, ¿ qué acción se debe tomar en base
a la información a priori y la información muestral?", En esta sección
examinaremos el problema "¿Debemos tomar una muestra, y si la toma-
mos, de qué tamaño debe ser?" Cemo notamos anteriormente, el muestreo
puede ser muy costoso, y cuanto mayor sea la muestra mayor es el costo.
Por lo tanto, para tomar una muestra, debemos determinar que el valor eco-
nómico de la información contenida en la muestra es superior a su costo.
Una muestra tiene valor porque se espera reducir la incertidumbre.
Generalmente, después de tomar la muestra estamos más seguros que
antes acerca de qué evento ocurrirá. Por lo tanto, estamos menos expuestos
a cometer un error costoso. Para ver esto, compare el EVPI anterior a la
toma de la muestra que es $77.50 (tabla 13-7) con los costos de oportu-
nidad esperados a posteriori (o E VPI) en la tabla 13-10. Después de
la muestra, el E VPI varía de cerca de cero (cuando r = 7 o más) a un
máximo de $68.60 (cuando r = 2). Todos los valores son menores de
$77.50, lo cual indica que, aún el resultado muestral más inconcluso
(r = O) tiene un EVPI posterior de 8.05 dólares, lo cual es una reduc-
ción considerable. .\sí, un resultado muestral de "O defectuosas en 25"
casi asegura que la acción correcta es aceptar el lote tal como viene. En
este caso la información muestral es bastante conclusiva.:'
Otra forma de determinar el valor de un tamaño dado de muestra
antes de tomar la muestra es comparar el costo esperado (o utilidad) antes
ele muestrear con el costo esperado (o utilidad) luego de tomar la muestra.
, Es posible obtener un resultado muestral específico que en la realidad
aumente el EVPI a posteriori aunque eso no ocurre en este ejemplo. Sin embargo,
el EVPI posterior esperado sobre todos los resultados muestrales será menor que el
EVPI a priori.
Valor esperado de la información muestral 401

El valor económico de la muestra es igual a la cantidad en que se re-


duce su costo de antes del muestreo a después de tomada la muestra.
El costo esperado a priori se determina, en nuestro ejemplo, como $382.50
de la tabla 13-7. Sin embargo, el costo esperado a posteriori, depende del
resultado uriuestral particular que pudiera ocurrir. Por ejemplo, el costo
esperado a posteriori sería $456.65 para un resultado muestral de 2 defec-
tuosos en 25 (ver tabla 13-9). Los valores similares de costos esperados
se pueden calcular a partir de las distribuciones a posteriori asociadas con
otros resultados muestrales. Estos cálculos no se dan, pero los resul-
tados se presentan en la tabla 13-10. El costo esperado a posteriori mínimo
sería $212.25, si se observaron O partes defectuosas en la 'muestra. E¿ el
otro extremo, si se observaran 3 o más partes defectuosas, se escogería la
inspección al lO0o/c- con un costo cierto de $500.
¿ Cómo podemos nosotros comparar los costos esperados a priori con
los a posteriori si los costos esperados a posteriori se representan por varios
valores posibles? La respuesta se obtiene mediante el uso de un promedio
o esperanza de los costos a posteriori. Recuerde que podemos determinar la
probabilidad marginal de cualquier resultado muestral particular para un
conjunto dado de probabilidades a priori. Así, la probabilidad de sólo 2
defectuosos en 25 se encuentra en la tabla 13-8 (suma de la columna
4) que es 0.162. De manera similar se encuentra que la probabilidad del
resultado muestral "O defectuosos en 25" es 0.387 (los cálculos no se
dan); la probabilidad para la muestra "un elemento defectuoso en 25
es 0.286; Y así sucesivamente, como se muestra en la columna 2 de la
tabla 13-11.
Estas probabilidades se pueden usar como ponderaciones para la espe-
ranza o promedio de los costos esperados a posteriori asociados con cada
resultado muestral posible. Estos cálculos se realizan en la tabla 13-11.
El monto de 333.93 dólares de la tabla 13-11 es nuestra esperanza antes
de tomar la muestra, de lo que será el costo esperado a posteriori. El
valor de la muestra, denominando autor esperado de la información muestral
o EVSI es la diferencia que existe entre el costo esperado a priori (382.50
dólares) y este valor. Es por lo tanto $382.50 - $333.93 = $48.57. Este es
el monto en el que podemos esperar reducir el cosco tomando una muestra
de 25 elementos y entonces actuando con base en el resultado muestral.
Si el costo de tomar la muestra de 25 elementos es menor de $48.57, se
debe tomar la muestra. En nuestro ejemplo, el costo de inspección es sola-
mente de 10 centavos por parte, o $2.50 por 25 partes, por lo que la
muestra sería mucho más valiosa.
Note que el valor esperado de la información muestral es U!I valor que
se obtiene antes de muestrear -de hecho, antes de tomar la decisión
acerca de si se debe tomar una muestra o no. Es un valor esperado. Antes
de muestrear no conocemos cuánto ahorrará la muestra; no sabemos ni
siquiera cuál será el resultado de la misma y, por lo tanto, nos encontramos
en condiciones de incertidumbre sobre la acción que tomaremos basados en
el resultado muestral, Utilizando las probabilidades de los diferentes resul-
402 El teorema de Boyesy el muestreo

Tabla 13·11
COSTO ESPERADO ESTIMADO A POSTERIORI, ANTES DEL
MUESTREO
Resultado
muestral Probabilidad
(número de áel resultado Costo Valor esperado
dejectuososv muestra! esperado a (columna 2 X
r P(r) posteríori columna 3)
(1) (2) (3)

O .... o ................. 0.387 $212.25 s 82.14


1 ............. o' •• 0.286 333.22 95.30
2 .......... ....... , 0.162 456.75 73.99
3 ...................... 0,1l82 500.00 41.00
4- ................. 0.039 500.00 19.50
:¡ •.•• o' ............. 0.020 500.00 10.00
6 ........ 0 o. . . . . . 0.011 500.00 5.50
7 O más .. 0,0' ..... 0.013 500.00 6.50
1.000 $333.93

tados muestrales y calculando el valor esperado, estamos determinando


el "mejor postulado" para actuar en la toma de decisiones.
A través de este ejemplo hemos examinado solamente la posibilidad
de una muestra de 25 elementos, ¿ no sería mejor una muestra de 20 ele-
mentos, de 50 elementos o de 100 elementos? El bajo costo de inspección
(10 centavos por parte en comparación con $1.50) Y la incertidumbre
inicial de la fracción defectuosa (como se muestra en la distribución de
probabilidad difusa en la tabla 13-7) sugiere que el tamaño óptimo de la
muestra debiera ser mayor de 25. Por otro lado, no sería redituable tomar
una muestra tan grande que su costo excediera el valor esperado de la
información perfecta, que fue $77 .50. Por lo tanto, el tamaño de la mues-
tra no debe exceder 775 (ya que $77.50 -;- 0.10 = 775), del total de
5,000 partes del lote. Entonces podríamos tomar unos cuantos tamaños
de muestra -digamos, de 50 a 700- y calcular el EVSI, menos el
costo de muestreo para cada tamaño para determinar el tamaño óptimo.
Estos cálculos podrían ser tediosos y más costosos de realizar que el ahorro
que representa tomar una muestra si no hubiera computadoras electrónicas."
Afortunadamente, poseemos técnicas para el caso especial de mues-
treo normal (o de aproximación normal a la binomial en este caso) que
reduce todos estos cálculos a una simple fórmula. Sin embargo, ya que es
necesario entender el concepto del valor esperado de la información
muestral (EVSI) y como se puede obtener en un caso general, hemos
realizado el procedimiento detallado anterior. El caso especial será el
terna del siguiente capítulo.

[, Ver R. Schlaifer, Corn pui er Programs for Elementary Decision Analysis


(Boston : Division of Research, Harvard Graduate School of Business Adminis-
tration,1971).
Métodos bayesiano y clásico 403

METonos BAYESIANO y CLASICO

Existe cierta controversia en la profesión estadística sobre la validez


del enfoque de toma de decisiones sugerido en este capítulo. Nuestro en-
foque está de acuerdo con el pensamiento de la escuela bayesiana. El
enfoque más tradicional o "clasico" para la evaluación de la información
muestral se presentó en los capítulos 9 y 10. La controversia se centra
en si al estadígrafo, como científico, debiera importarle sólo la evidencia
objetiva de la muestra (escuela clásica) o si debiera importarle todo el
proceso de decisión, incluyendo cualquier juicio subjetivo de quien toma
la decisión sobre las probabilidades de los diferentes eventos. El análisis
bayesiano toma en cuenta las probabilidades subjetivas y los valores de
utilidad de manera muy similar a como los considera intuitivamente
el ejecutivo.
Nuestro juicio a priori es particularmente significativo si la informa-
ción muestral es deficiente. como en la mayoría de las muestras peque-
ñas. Al tomar muestras muy grandes, cuando la evidencia de la muestra
es incontrovertible, bien se puede descartar el juicio a priori. ¿Qué tanta
información adicional se necesita para que la evidencia "eche a pique" las
probabilidades a priori? El teorema de Bayes proporciona una respuesta
en forma de a juste automático: si la muestra es pequeña. el resultado se
puede modificar mediante las probabilidadea a priori, pc:-o I:1UY poco;
pero conforme la muestra incrementa el tamaño, las probabilidades a
posteriori se acercan a las indicadas en la muestra, independientemente
del juicio a priori. .
Los métodos bayesianos también toman en cuenta las utilidades eco-
nómicas o costos de las decisiones, así como las probabilidades involu-
cradas. Así, en la prueba clásica de hipótesis analizada en el capítulo 10,
rechazamos una hipótesis si el riesgo de cometer un error del tipo 1 -re-
chazo de una hipótesis cierta- excede cierta probabilidad crítica, por
ejemplo, el 5 por ciento. Esta cifra es más bien arbitraria, y no constituye
una comparación de los costos relativos de errores del tipo 1 y los errores
del tipo n. Es difícil balancear estos errores en la teoría clásica. La
estadística bayesiana añade la dimensión económica al proceso de toma
de decisiones y ofrece un criterio objetivo para tomar decisiones, es. decir,
construir una distribución de probabilidad y una tabla de resultados, y
entonces maximizar las utilidades esperadas.
El enfoque' bayesiano sirve así como complemento de la teoría clásica
de la inferencia estadística, proporcionando a quien toma las decisiones
un procedimiento lógico con el cual aplicar tanto su juicio como la evi-
dencia de la muestra, en proporciones adecuadas, a las consecuencias
económicas de sus posibles acciones.

RESUMEN
El tema de este capítulo es la aplicación del teorema de Bayes a la
toma de decisiones en condiciones de incertidumbre. Ello incluye la
404 El teorema de Bayesy el muestreo

combinación de una distribución de probabilidad a priori (que puede


ser subjetiva) con los resultados de' una muestra para formar una distri-
bución de toma de decisión a posteriori.
El teorema de Bayes es una forma de expresar la probabilidad condi-
cional de un evento, dado un resultado muestral, en términos de la pro-
babilidad a priori del evento y las probabilidades condicionales del resul-
tado muestral, dado el evento.
En el ejemplo de un componente electrónico, hemos. dado probabili-
dades a priori para varios niveles de fracción defectuosa (conforme a la
distribución binomial), pero si luego tomamos una muestra de 25 y en-
contramos 2 defectuosos, podemos modificar las probabilidades a priori
con el resultado muestral, como en la tabla 13-8, para encontrar las pro-
babilidades a posteriori. Estas probabilidades revisadas se usan entonces en
una tabla de resultados, en la misma forma que se usaron las probabilidades
a priori, para encontrar el costo esperado (o utilidad) de cada acción posi-
ble. En nuestro ejemplo, la mejor decisión antes de muestrear fue aceptar
el lote tal como viene en vez de inspeccionar al 100%. Sin embargo, después
de tomar una muestra de 25, llegamos a una mejer regla de decisión: acep-
tar 'el lote si la muestra tiene 2 o menos partes defectuosas; de otra
manera, inspecciones al 1OOifr. Cada resultado muestral posible tiene una
distribución a posteriori diferente y un "'alar esperado a posteriori diferente.
U na muestra tiene ventajas económicas porque reduce la incertidum-
bre asociada con la toma de decisiones. El valor específico, denominado
valor esperado de la información muestral, se determina sustrayendo el
costo Esperado a posteriori a la muestra del costo esperado a priori. El costo
a posteriori esperado se obtiene como una esperanza o promedio de los
costos esperados asociados con los diferentes resultados muestrales posi-
bles. Podemos determinar si se debe tomar una muestra de un tamaño
dado comparando el costo de la muestra con el valor esperado de la
información muestra!. El tamaño óptimo de una muestra se puede obtener
haciendo esta comparación para varios tamaños de muestra, de O al
tamaño de muestra cuyo costo iguala EVPI.

PROBLEMAS
1. Explique:
a) Las distribuciones a priori y a posteriori.
b) El teorema de Bayes.
e) Las probabilidades condicional y conjunta.
d) El costo a post eriori esperado.
e) El valor esperado de la información muestra\.
2. Verifique las probabilidades posteriores P(AIW) = 0.158 Y P(B W) = 0.842
para el ejemplo dado en las páginas 391-393.
3. Verifique las probabilidades posteriores de la tabla 13-5.
4. Verifique los cálculos que se muestran en la tabla 13-10, para los renglones
que se indican a continuación;
a) El renglón de O defectuosos.
b) El renglón de 1 defectuoso.
e) El renglón de 3 defectuosos.
d·) El renglón de 4 defectuosos.
Problemas 405

5. En cierta cartera, el 70% de las acciones industriales tuvieron un incremento


de valor durante el año pasado, mientras que el 40(1<, de las acciones de
instalaciones incrementaron su valor. La cartera contiene \m 800/< de acciones
industriales.
a) Si se escoge una acción al azar, ¿cuál es la probabilidad de que sea de las
que han incrementado su valor?
b) Suponga que se saca una acción de las que aumentaron su valor. ¿ Qué
probabilidad existe de que ésta sea del sector industrial?
6. La edad promedio de los gerentes de oficina de una compañía, es de 50 años.
De aquellos que son menores de 50 años, el 65% llegaron a la gerencia pa-
sando por ventas. De aquellos que son mayores de 50 años, sólo el 45(;'
llegaron a la gerencia a través de ventas.
Si se escoge un gerente de oficina al azar, y es de los que no llegaron a la
gerencia pasando por ventas, ¿ cuál es la probabilidad de que sea mayor de
los 50 años?
7. Una asociación de hoteleros realiza una encuesta entre sus miembros para
ver si aceptarían o no el uso de tarjetas de crédito. El secretario ejecutivo de la
asociación considera que sabe cuáles moteles (es decir, qué porcentaje) están
a favor de las tarjetas de crédito. Suponga que asigna las siguientes probabi-
lidades a diferentes porcentajes de moteles a favor:
Porcentaje Probabilidad
de hoteles de que ocurra
a tauor exact ametüc
de la tarjeta dicho
de crédito porce nt a]c
30 10
40 30
50 .40
60 ID
1.00

a) Tomando como base dicha tabla, ¿qué probabilidad existe de que un


voto cualquiera sea a favor o en contra ?
b) ¿ Qué' probabilidad' asignará al "porcentaje de hoteles que están a favor
de la tarjeta de crédito" si de 15 hoteles, 8 están a favor y 7 en contra?
z) Con el ejemplo anterior, ¿ cuál es la probabilidad de que una de las dos
posiciones posibles tenga una mayoría a favor?
8. Se va a realizar una votación en una industria con objeto de ver si los obrero,
se unen para formar un sindicato. Unos días antes de la votación, la gerencia
hace una tabla de probabilidades referente a la proporción de obreros que
votarán por la sindicalización.
l Proporción de
obreros a favor
del sindicato Probabilidad
.35 15
.40 30
.45 " .20
.50.... . .. . . .20
.55 " .10
.60 05
1.00

Se tomó una muestra de 20 obreros escogidos al azar y se les pidió su opinión


al respecto. Los resultados fueron los siguientes: l 1 votarán por el sindicato
y 9 votarán en contra del sindicato.
Según la muestra, ¿ qué probabilidades asignará la gerencia a los eventos
"proporción de obreros que votan por el sindicato?"
9. Con base en experiencias anteriores, un gerente de producción afirma que la
406 El teorema de Boyes y el muestreo

fracción de mercancía defectuosa tiene la siguiente distribuición :


Se tomó una muestra de 15 artículos y no se encontró defecto alguno. ¿Qué
probabilidad a posteriori asignaría usted a la "fracción defectuosa del lote"?
Evento:
fracci6n
defectuosa Frecuencia
del lote relativa
.01. 50
.02 ' .30
.05 ; 10
,10 , 05
.15 05
1.00

10. Una compama cubre las demandas de piezas No. 805 con .lotes de 1,000
unidades. Ha sido muy difícil controlar la calidad de dicha pieza sin realizar'
un complicado reajuste al equipo de producción. El costo de dicho reajuste es
de $400. Cuando el equipo estaba ajustado,sólo el 2% de las piezas tenía
defectos; sin el ajuste la calidad ha sido muy variable, como lo muestran los
datos de los últimos 20 lotes:
Fracción
defectuosa N? de
sin ajuste lotes
.02 S
.05 8
.10 4
.15 2
.20 1
20
Está por fabricarse un lote de dicha pieza y la gerencia estudia si vale la
pena gastar en el ajuste o si se corre el riesgo de tener ,un alto porcentaje
de piezas defectuosas. Ei Costo de reemplazo por unidad. defectuosa es de $5.
a-) Haga una tabla de resultados y' 'calcule el valor esperado' de cada caso.
¿ Cuál caso es preferible?
b) ¿Cuál es el EVPI?
e) Suponga que se decide poner el equipo a funcionar y que de las primeras
20 piezas 2 están defectuosas. ¿ Detendría usted la fabricación yrnandaría
ajustar el equipo o dejaría que continuara el proceso de fabricación?
11. (Continuación del problema 10). Suponga que de las 20 primeras piezas nin-
guna estaba defectuosa. ¿ Cuál es el costo a posteriori esperado para cada caso?
¿ Qué caso es preferible? ¿ Cuál es el EVPl a posteriori?
12. (Continuación de los problemas 10 y 11.)
a) Encuentre el costo a post eriori esperado para otros resultados muestrales
relevantes.
b) ¿ Cuál es el valor esperado de la información muestral para una muestra
de 20 piezas en esta situación decisiva?
e) Suponga que el muestreo cuesta $20, más $2 por elemento muestreado. ¿ Se
debe de tomar una muestra de 20 piezas?
13. Como presidente de la sociedad de alumnos usted está planeando el banquete
anual. Hay 1,000 miembros de la sociedad de alumnos. Basándose en la asis-
tencia de años anteriores, usted da la siguiente probabilidad al número de
alurnnos que asistirán este año al banquete:
El organizador del banquete le informa que debe usted proporcionarle el
número de asistentes en fecha próxima. El costo por cubierto es de $6 para
la asistencia que se especifique. Habrá opción a un número extra de cenas
si es que la asistencia rebasa el número especificado el día del banquete
(después del registro, cuando se conoce el número exacto de asistentes), pero
Problemas 407

N' de
asistentes Probabilidad
100........... .2
200 ~2
300.... .3
400.............. .2
500...... ....... .1

para ello el costo será' de $8 por cena; Si el número de asistentes es menor


que el especificado, 'se reembolsará un total de $2 por cada cubierto sobrante,
o sea, se cobrará $4· por cada cena ordenada que no sea servida. La tarifa
que usted fijó es de $10 por persona. Debido al corto tiempo disponible,
no es posible utilizar el sistema de reservaciones por correo.
a) Basándose únicamente en la información anteriormente dada, ¿ cuántas
cenas debe usted ordenar? ¿Cuál es el EVPI? (Considere únicamente órde-
nes de cenas en múltiplos de 100.)
b) Suponga que toma una muestra de 20 alumnos y 8 de ellos le aseguran
que irán. En base a esta información y con las condiciones del problema,
¿ cuál sería el número de cenas que ordenaría? ¿ Cuál sería el EVP.I?
14. Un producto se manufactura en 10 máquinas. Cuando esas máquinas están
apropiadamente ajustadas, producen con un 8% de partes defectuosas, nivel de
calidad que es aceptable para los clientes. El producto se almacena en lotes
de 1,000 unidades, conteniendo cada lote unidades de la misma máquina. Se ha
descubierto que una de las máquinas ha estado desajustada por varios días, y
que eso no se había detectado debido a la inexperiencia del inspector asignado
a .la máquina. La máquina producía, mientras estaba desajustada, un 40% de
partes defectuosas. Un décimo (10%) de los lotes almacenados tienen 40%
de partes defectuosas; y puesto que los lotes se mezclan durante la transfe-
rencia de la fábrica al almacén, no hay manera de saber, sin pruebas, cuáles
son los lotes buenos (con 8 % de partes defectuosas) y cuáles son los malos
(con 40 % de partes defectuosas},
Los clientes protestarán cuando reciban un lote que resulte malo al tratar
de utilizarlo, y se estima que el costo de enviar un lote malo (con 40<;'<', depar-
tes defectuosas ) a un cliente es de $500 por lote (costo del reemplazo de las
partes defectuosas y pérdida de, la buena voluntad del cliente).
Se podrían vender los lotes como lotes de calidad inferior, pero se recibirían
$100 menos por lote que si se vendieran como lotes de buena calidad,
Un asistente ha sugerido tomar una muestra de un artículo de cada lote,
y decidir a partir de la base de la muestra si vender el 'Iote como lote de
buena calidad o de mala calidad. El muestreo implica la destrucción del pro-
ducto, y el costo es de $15 por artículo muestreado.
Suponga tres alternativas. Se puede: 1) vender todos los lotes como si
fueran de buena calidad, e incurrir en el costo de $500 en aquellos que resul-
taran ser de mala calidad; 2) vender todos los lotes como si fueran de calidad
inferior con un descuento de $100 respecto al precio de un lote de buena
calidad; o 3·) tomar una muestra de un artículo de cada lote, decidir sobre
la base de la muestra si el lote es bueno o es inferior, y venderlo como tal.
a) Elabore una tabla de resultados para las primeras dos posibilidades. Sin
muestreo, ¿ cuál sería su decisión?
b) Suponga que se toma una muestra. Si el artículo muestreado es bueno,
¿ debe venderse el lote como lote de calidad buena o inferior? ¿ Qué debe
hacerse si el artículo muestreado es defectuoso?
e) ¿ Cuál es el costo esperado de cada una de las tres alternativas anteriores?
¿ Cuál debe seleccionarse?
15. Una compañía ha desarrollado una nueva máquina para cosechar ciruelas. La
máquina tiene grandes ventajas sobre los métodos en uso. Es una compañía
pequeña y sabe que si introduce al mercado su nueva máquina y tiene éxito,
408 El teorema de Bayes y el muestreo

las grandes compañías en la industria construirán máquinas similares y absor-


berán la mayor parte del mercado. Por lo tanto, la compañía desea tornar su
decisión respecto a la introducción de la nueva máquina sólo respecto a cuántas
espera vender en el primer año (o sea, antes de que las compañías más grandes
tengan tiempo de reaccionar).
La compañía decide concentrar sus esfuerzos de ventas en los dueños de
huertos grandes. Conforme a las listas disponibles, hay cerca de 1,000 huertos
lo suficientemente grandes como para beneficiarse con el uso de la máquina.
Los costos asociados con la puesta en marcha .de la línea de producción,
promoción, etcétera, son aproximadamente $280,000. La compañía planea ven-
der la máquina en"'$12,000 de los cuales el costo de producción y venta será
de $8,000.
El juicio a priori concerniente al número de máquinas que la compañía
podría vender en el primer año se muestra en la siguiente tabla:

Número de Porcentaje Probabilidad


máquinas de de vender
vendidas huertos este número el'

50 5% .40
so '" S .30
100 10 .20
]20 12 .10

Suponga que la gerencia decide seleccionar una muestra de huertos de la


lista de 1,000, ponerse en contacto con los propietarios, e intentar vender la
nueva máquina (cualquier venta sería manufacturada como orden especial si
la decisión que se tome es la de no introducir la máquina al mercado completo).
Se seleccionó una muestra de 18 huertos.
a) Suponga que el dueño de uno de los 18 huertos compró la nueva máquina.
¿ Qué probabilidades posteriores deberían asignarse al porcentaje de propie-
tarios de huertos que comprarían la máquina?
ir) ¿ Qué decisión debería tomar la compañía? ¿ Cuál es la ganancia esperada
a posteriori?
e) Responda a las preguntas a) y b), suponiendo que se tomó una muestra
de 10 huertos y ninguno de los propietarios compró la nueva máquina.
16. Tome como referencia el problema 15. Suponga que la gerencia aún no
ha tomado la muestra, pero está considerando si se debe o no tomar dicha
muestra. Los posibles tamaños de muestra son 10" 15, 20, o 25 huertos. Su-
ponga que la muestra cuesta $1,000 más $100 por huerto. ¿Cuán grande debe
ser la muestra que se toma, considerando sólo las cuatro posibilidades dadas
arriba? (Nota: Este problema requiere numerosos cálculos.)

BIBLIOGRAFIA
La bibliografía de este capítulo se incluye en la lista que aparece en la

página 437.
CAPITULO 14
La toma de decisiones y el
muestreo: la distribución normal

EN LOS CAPÍTULOS 7 y 8 se introdujeron los conceptos necesarios para


la toma de decisiones en condiciones de incertidumbre y para la evalua-
ción de la información adicional. En el capítulo 13 se ampliaron dichos
conceptos al caso de la información adicional proveniente de una muestra
binomial. En este capítulo consideraremos un caso especial que implica
la distribución normal. El capitulo : trata tres tópicos: 1)· la toma de
decisiones cuando el criterio a priori del que toma las decisiones se puede
expresar por medio de una distribución normal, 2) determinación de la
distribución a posteriori a partir de la información muestral, y 3) eva-
luación de la información muestral.

LA DISTRIBUCION NORMAL EN LA TOMA DE


DECISIONES

En la toma de decisiones en condiciones de incertidumbre, quien


toma las decisiones puede expresar sus creencias subjetivas sobre la va-
riable aleatoria como una distribución de probabilidad. En muchas situa-
ciones es razonable usar la distribución normal para este propósito.
Cuando se hace aSÍ, el procedimiento de decisión se simplifica. En esa
forma, el valor esperado de la información perfecta (EVPI) se puede
encontrar mediante una fórmula única. La elección de la distribución
normal como una distribución de apuestas (postulada) o de toma de deci-
siones, implica que el encargado de tomar las decisiones cree que algún valor
de la variable desconocida es el más probable (la media de la distribu-
ción); que es más probable que la variable esté más cerca que lejos de
ese valor supuesto (el área de la distribución normal se concentra alre-
dedor de la media) ; y que es tan probable que la variable aleatoria esté
en cualquier lado (arriba o abajo) de ese valor (puesto que la distri-
bución normal es simétrica respecto de fL).
La distribución normal tiene dos parámetros, la media y la desviación
estándar. Por razones que se aclararán posteriormente en el capítulo,
utilizaremos el símbolo M¿ para representar la media de esta distribución
409
410 La toma de decisiones y el muestreo: la distribución normal

normal postulada, y So para representar la desviación estándar. También


y representará la variable desconocida. En la estimación de los valores
que se consideren apropiados para estos parámetros en una situación
particular, la persona que decide debe formularse algunas preguntas. Para
estimar la media M,o, debe localizar el punto medio de su distribución de
apuestas. Debe estar dispuesto a apostar que la variable aleatoria - y
puede quedar probablemente tanto arriba como abajo de M o • Además,
ya que dos tercios del área de la curva normal están situados entre una
desviación estándar a la derecha y una a la izquierda de la medai, quien
toma las decisiones debe especificar un rango alrededor de M¿ en forma
tal que haya una probabilidad de dos tercios de que Y quede en este
intervalo.' Es decir, la persona debe estimar el valor de So de manera
que esté dispuesto a apostar que Y quedará en el intervalo M¿ +- So con
una proporción de 2 de cada 3.
Antes de usar esta distribución normal, quien decide debe graficarla
y contrastar con' su criterio las probabilidades que esa distribución im-
plica." Por ejemplo, debe juzgar si las probabilidades son 95 de cada 100
de que Y quede en el intervalo M¿ +- 2S o•

Valor esperado de la información perfecta

Ahora se considerará que los problemas que implican dos alternativas,


cada una de las cuales ofrece una ganancia (7T) que es una función lineal
de la variable desconocida Y; o sea que, 7T = a + bY.
En el capítulo 8 se vio que en este caso el beneficio esperado para cada
acción alternativa es también una función lineal del valor esperado de Y;
es decir, E(7r) = a + bE(Y), no importando que la distribución de
decisión sea normal o de cualquier otra forma. Recuerde también que
en este caso las funciones de costo de oportunidad se pueden representar
por dos líneas rectas unidas tal como se muestra en la figura 14-1. En
general, es algo tedioso el cálculo del costo de oportunidad esperado o

1 Un procedimiento alternativo es el de especificar un intervalo simétrico


respecto a M o (v.g., M¿ + Q, la desviación cuartilica ) tal que haya la misma
probabilidad de que la variable desconocida esté o no en el intervalo. Entonces
Q = 2.13 So ó So = 3.12 Q. Esto se deduce del hecho de que la distribución normal
tiene cerca de la mitad de su área en el intervalo M¿ ± 2.13 So (ver el Apéndice B
en el capítulo 5 para más detalles).

2 La distribución normal es a lo sumo una aproximación a la distribución


postulada propia. Esta distribución es continua, mientras que muchas de las dis-
tribuciones de la toma de decisión son discretas (por ejemplo: las ventas son
en unidades enteras). También la distribución normal tiene extremos que van en
ambas direcciones indefinidamente, aunque las probabilidades en esos extremos
son muy pequeñas. Generalmente, nos gustaría truncar nuestra distribución de
decisiones en ciertos puntos (por ejemplo: las ventas no pueden ser negativas, de
manera que las probabilidades de ver.ras negativas deberían ser cero). A pesar
de esas pequeñas incongruencias, la distribución normal es bastante adecuada en
muchas situaciones.
La distribución normal en la toma de decisiones 411

EVPI. Sin embargo, cuando la distribución de decisión es normal, el costo


de oportunidad esperado y el EVPI se puede: expresar en forma sim-
plificada.

Costo de la
'lj
acción 1
Cl)'-
'lj
oa
'"l::
-e
¡ ......
........
'" o ..................... ~
o c.
U o ............... Costo de la
-> acción 2
---------_/
o K = punto de equilibrio
variable desconocida y
Figura 14-1
Funciones de costo de oportunidad para un problema de dos
alternativas con funciones lineales de beneficio

Considere la figura 14-2. Aquí se superpone una distribución normal


a una función de costo de oportunidad para una acción dada (la que
tiene la mayor ganancia esperada). El Costo de oportunidad esperado
se obtiene sumando (integrando) sobre el área total, los productos de
los valores de la función de. probabilidad por los valores correspondientes
de la función de costo de oportunidad. La fórmula simplificada para el
valor esperado de la información perfecta (el EOL de la acción óptima)
es en este caso:

(1)

donde
K':':'M o
D= (2)
So
En las fórmulas anteriores, t ss la pendiente de la función de costo
de oportunidad; M¿ y S¿ son los parámetros de la distribución normal de
L(Y) y P(Y)

O'-==-------~-.I"'----J..----==:...-- y

Figura 14-2
Función del costo de oportunidad L(Y)
y la distribución normal P(Y)
412 La toma de decisiones y el muestreo: lo distribución normal

decisión; K es el punto de equilibrio; y L N (D) es la función normal


unitaria de costo de oportunidad, que se encuentra al buscar D en el
Apéndice E. El símbolo I I significa el valor absoluto (es decir, ignorar
el signo negativo del cociente).

Un ejemplo. Un distribuidor tiene la oportunidad de comercializar


su producto en una nueva zona. El costo fijo de esta acción es 4,000
dólares por publicidad, medios de transporte, etcétera. Por cada unidad
vendida el distribuidor logrará una utilidad de 0.10 dólares. Por lo tanto,
se requiere vender 40,000 unidades para alcanzar el punto de equilibrio
(K = 40,000).

p!yl
Probabilidades
de venta

Figura 14-3
Distribución normal de decisiones sobre ventas
posibles en un nuevo territorio

El distribuidor no tiene mucha seguridad sobre cuántas unidades po-


dría vender. Está de acuerdo en representar su incertidumbre sobre las
ventas con una distribución normal. Suponga que él cree que existe la
misma probabilidad de que las ventas superen las 50,000 unidades como
que no alcancen esa cantidad (esto es M¿ = 50,000). Además, supon-
ga que asigna una probabilidad de dos tercios a la posibilidad de que las
ventas reales queden en el rango de 25,000 a 75,000. Ya que este rango
es 50,000 (óM o) -t- 25,000, se tiene que la desviaciórf estándar es So =
25,000, Y el que decide está de acuerdo en que la figura 14-3 representa
adecuadamente su distribución de apuestas (o distribución postulada).

Abrir la nueva zona: 71' = -4,000 dólares + (0.10) y


No abrir la nueva zona: 71' = °
donde Y es el número de unidades vendidas. Las utilidades esperadas son:

Abrir la nueva zona: E(71') = -4,000 dólares + (0.10) (50,000)


= 1,000 dólares
No abrir la nueva zona: E(71') = O.
La distribución normal en la toma de decisiones 413

y así, con estos resultados, quien toma las decisiones debería vender en
la nueva zona.
La función de costo de oportunidad para esta decisión óptima es:

Si y;::: 40,000
Costo de oportunidad = L( Y) = O
ó L(Y) = (0.10) (40,000) - 1") dólares
Si Y < 40,000
= 4,000 dólares - (0.10) Y.
Usando las ecuaciones 1 y 2, podemos determinar el costo de oportu-
nidad esperado para esta decisión (el cual es el EVPI, ya que ésta es la
decisión óptima):

K- M o 40,000 - 50,000
D= - - - - - = 0.40
So 25,000
(0.10) (25,000) . L N(0.40)
(0.10) (25,000) . (0.2304) = 576 dólares

En las ecuaciones anteriores, los valores de M¿ = 50,000 Y So = 25,000


representan la distribución normal de apuestas de la persona que decide.
El valor de equilibrio de las ventas es K = 40,000 unidades. La pendiente
de esta función de costo de oportunidad es t = 0.10; esta es la pérdida por
cada unidad abajo del nivel de equilibrio de 40,000. Y, finalmente, el
valor de L N(0.40) se obtiene el Apéndice E.
Interpretación del EVPI. En el ejemplo anterior, el valor esperado
de la información perfecta es 576 dólares. Esto significa que el distribuidor
no debería pagar más que esta cantidad por la información exacta acerca
de sus ventas futuras. La información queel distribuidor podría conseguir
('estudios de ingresos, mercado potencial, etcétera) vale bastante menos
de 576 dólares, ya que tal información no puede dar una predicción
exacta.
Al analizar de nuevo las fórmulas 1 y 2, podemos ver cuáles son los
factores que influyen en el valor del EVPI

EVPI = t SO LN(D) (1)


K - M;
D= - - - - (2)
So

Observe lo siguiente: a) El símbolo t representa el costo de oportuni-


dad unitario. Por tanto, a mayor t, mayor EVPI. Si t es pequeña, las
consecuencias económicas de tomar la decisión errónea no son serias, pero
pueden serlo si t es grande. b) Cuanto más grande es So; mayor es el
EVPI. La desviación estándar So es una medida del grado de incertidum-
bre en la toma de decisión. Cuanto mayor es la incertidumbre, más
414 La toma de decisiones y el muestreo: la distribución normal

valiosa es la información perfecta. e) Cuanto más se aleja el punto de


equilibrio (K) de las ventas esperadas (Mo o ), (en unidades de desviación
estándar) mayor esel valor de D y menor es el de Lx(D) (ver Apéndice
E) y el de EVPI. Obviamente, si el punto de equilibrio está muy arriba
o debajo de las ventas esperadas, la decisión es relativamente cierta y la
información adicional tiene poco valor. Por otra parte, si (K - .Mo ) es
pequeña, aun una pequeña información puede cambiar la decisión y,
en consecuencia ser valiosa.
Otra forma de ver el EVPles como el precio máximo que la persona
que decide puede pagar por un seguro que lo cubra contra una pérdida."
En el ejemplo del distribuidor, quien decide debe estar dispuesto a pagar
por concepto de prima de seguro, hasta un máximo de 576 dólares.
La póliza de seguro cubrirá la diferencia entre el ingreso prove-
niente de la nueva zona (0.10 dólares por el número de unidades ven-
didas), y el gasto de 4,000 dólares si el ingreso fuera menor que esta
cantidad.
Otro ejemplo. Un fabricante debe reemplazar maquinaria que está
desg-astada. Hay dos tipos alternativos de maquiríaria que pueden ser selec-
cionados para reemplazar el equipo gastado. La maquinaria tipo A es
convencional: cuesta 200,000 dólares,'y tiene un costo variable de ope-
ración de 12 dólares por hora (mano de obra directa, mantenimiento,
etcétera). La maquinaria tipo B es muy automatizada; cuesta 400,000
dólares, peTO tiene un costo variable de operación de sólo 7 dólares por
hora. Ambas máquinas tienen la misma productividad por hora en cuanto
a cantidad y calidad
Debido a los factores económicos, el .mercado para el producto se halla
en un estado de transición, por lo cual, el número de horas de tiempo
de operación es incierto. La gerencia expresó esta incertidumbre en térmi-
nos de una distribución normal con media M¿ = 50,000 Y So = 20,000
horas.'
3 O para garantizarle una ganancia si decide no actuar, cuando de hecho
se podría haber obtenido una ganancia. En otras palabras, el seguro pagaría el
costo de oportunidad. Como ejemplo práctico de una situación tal, considere
lo siguiente de un artículo tomado de primera plana de! The Wall Street [ournal
del 6 de diciembre de 1966: "La compañía Good Weather, lnc., agencia de
seguros de Long Island que se especializa en riesgos poco usuales, dice que en los
pasados seis años, un importante fabricante de dulces ha comprado una póliza
de seguros contra lluvia o nieve en e! Día de San Valentín. Henry Fax, el presi-
dente de la compañía, dice: «puesto que la compra de dulces es impulsiva, las
tiendas minoristas de la compañía quedarían con una gran cantidad de dulces si e!
tiempo fuera malo. Además la gente, después del Día de San Valentín no com-
praria dulces en las cajas en forma de corazón, por temor a que estuvieran
pasados». De manera que se asegura al fabricante contra el gasto de transferir
los dulces a las cajas normales. La póliza es por casi $250,000 y la prima es de
$10,000.. Cubre varias ciudades en el Noreste y la compleja fórmula de pago está
basada en la' cantidad de nieve o lluvia y en e! número de horas que neva o
llueve.'"
4 Puesto que quizá esas horas estarían .distribuidas en varios años, es apro-

piado utilizar procedimientos de. descuento. Además, los factores tributarios asocia-
La distribución normal en la toma de decisiones 415

Las funciones de costo para las dos alternativas son:

Maquinaria tipo A: Costo C(Y) = $200,000 + $12Y


Maquinaria tipo B: Costo C(Y) = $400,000 + $ 7Y

donde Y es el número de horas en que opera la máquina.


Las funciones de costo se muestran en la figura 14.4. Nótese que igua-
lando las ecuaciones y despejando el punto de equilibrio (cuando los dos

Costo (en millares)


C(Y)

--
Sl.200

1,000 ,...
_,...
,...----
Tipo B
800 ., (automático)

600 I
1
I
400 I
I
Pun to de equilibrio :
200
-, K 50
Horas de trabajo requeridas (en millares)

Figura }4-4
Costos de las dos máquinas en función de las
horas de operación

tipos de máquina tienen el mismo costo) ocurre en 40,000 horas. Si se


requieren .rnenos de 40,000 horas de operación, la maquinaria conven-
cional (tipo A) es la menos costosa. Para más de 40,000 horas, la maqui-
naria automatizada (tipo B) es la más ventajosa. Y ya que el número
esperado de horas es E(X) = 50,000, la decisión óptima es comprar la
maquinaria B.
Se puede obtener la misma conclusión determinando el costo espe-
rado de la elección de cada máquina:

Tipo A: E(C) = $200,000 + $12 (50,000) = $800,O()Ü


Tipo B: E(C) =$400,000 +$ 7 (50,000) = $750,000

dos con la depreciación son pertinentes a la decisión. Hemos omitido esos factores
para concentrarnos en el. análisis de las decisiones. Ver N. Harlan, C. Christenson,
andR. VanciI, Managerial Economics: Text and Cases (Homewood, IlI.: Richard
D. Irwin, 1962), pp. 239-265, para un estudio sobre esos tópicos.
416 La toma de decisiones y el muestreo: la distribución normal

La maquinaria tipo B tiene SO,OOO dólares menos de costo esperado


que la maquinaria tipo A.
Las funciones de costo de oportunidad son

tipo A: L(Y) = $S (Y - 40,000) = $SY - $200,000 SI y> 40,000


ó
tipo B:
L(Y)
L(Y)
=
=
°° si Y ::; 40,000
si Y ¿ 40,000
ó L(Y) = $S (40,000 - Y) = $200,000 - $SY SI Y < 40,000
Se presentan gráficamente en la figura 14-S.
Costo de
oportunidad
(millares)
$600 r - - - - - - - - - - - - - - - - - - ,

400 Tipo A

-.
(convencional)
TipoB
(automático)
200 ,/
,
.......... , K, punto de equilibrio

............... l
50
Horas de trabajo requeridas (en millares)

Figura 14-5
Funciones de costo de oportunidad para las
dos máquinas

En las funciones anteriores, el punto de equilibrio K es 40,000 horas.


La pendiente t de las funciones de costos de oportunidad diferentes de
cero, es S dólares (O -S dólares para la maquinaria tipo B). Esto re-
quiere una explicación. Los S dólares son la diferencia. existente entre el
costo variable de operación de los dos tipos de maquinaria (12 dóla-
res - 7 dólares = S dólares). 5 Si se compra maquinaria tipo B y las horas
realmente requeridas son menos de 40,000, el fabricante incurre en costos
de S dólares por hora por cada hora faltante para alcanzar los 40,000
(adicionales a los costos en que incurriría si hubiera actuado óptimamente) .
El valor esperado de la información perfecta es
5 En los problemas de dos acciones, la pendiente de las partes que no son
cero de la función de costos de oportunidad es siempre la diferencia existente
entre las pendientes de las funciones de ganancia o costo. En los ejemplos ante-
riores la pendiente de una de las funciones de ganancia era cero, por lo que no
tuvimos que hacer este punto.
Determinación de la distribución a posteriori 417

donde D
K - M
So o
I
=
I
D =l~o'ooo - 50,00°1_
20000
, - 0.50

EVPI = (5 dólares)(20,000) L N (0.50) (100,000 dólares) (0.1978)


= 19,780 dólares.

Es obvio que el fabricante debe considerar obtener información adi-


cional antes de llegar a una decisión. Por ejemplo, podría realizar una
encuesta por muestreo de consumidores, siempre que el costo esté muy
por debajo de $19,780.

DETERMINACION DE LA DISTRIBUCION
A POSTERIORI

Consideraremos ahora la posibilidad de obtener información adicio-


nal por muestreo. Suponga que la variable desconocida Y en una situa-
ción de decisión es realmente la media p. de alguna población. Por
ejemplo, Y podría representar las ventas promedio por cliente de un
nuevo producto, o las ventas promedio por tienda en respuesta a una
campaña de publicidad. En esta situación, es posible obtener información
adicional seleccionando una muestra de artículos en la población y esti-
mando la media de población p.' desconocida. En los capítulos 9 y 10
estudiamos el problema de estimación muestral de ,p" el error muestral
y los intervalos de confianza. Nos enfrentamos ahora al problema de in-
corporar esas ideas al marco de la toma de decisiones.

Distribuciones implicadas
Puesto que el análisis implica cuatro distribuciones, las resumiremos
a continuación, junto con los símbolos utilizados. Las primeras dos dis-
tribuciones fueron descritas en el capítulo 9. Ellas representan la con-
ducta de la variable aleatoria X y la media muestral X. Las últimas
dos distribuciones representan la incertidumbre de quien toma las decisio-
nes respecto a la localización dep" la media poblacional, tanto antes
como después de que obtiene la información adicional de una muestra.
Las distribuciones se listan en la tabla 14-1 y se explican abajo.
1. Población donde se toma la muestra. La población de la cual
se toma una muestra es una recopilación de elementos del mundo real
(personas, casas, cuentas, etc.) que se pueden clasificar por alguna carac-
terística (ingreso, número de ha bitaciones, dólares resultantes, etc.). Al
tomar una muestra de estos elementos, quien toma la decisión puede
obtener alguna información quele ayudará a tomar su decisión. En par-
ticular, la media muestral X da una estimación de p, que es la media
desconocida de la población.
418 La toma de decisiones y el muestreo: la distribución normal

Tabla 14-1

Variable Desviación
aleatoria Media estándar*

1. Población de la cual se toma


la muestra (puede ser cual-
quier tipo de distribución). x u
2. Distribución de las medias
muestrales (normal para mu-
chas muestras)
3. Distribución a priori de la me-
dia poblacional (normal su-
puesta)
4. Distribución a posteriori de las
medias poblacionales (normal si
2 y 3 son normales)

* Generalmente se desconoce pero se puede estimar a partir del valor muestral:


s ::::::: 17. La I7x es el error estándar de la me1ia que también se puede estimar de
una muestra: .IX::::: O"x'

Esta distribución de población puede tener cualquier forma. Muchas


veces será asimétrica a la derecha en fenómenos económicos. Así como
la media p., generalmente también es desconocida la desviación están-
dar 17, pero para muestras grandes se puede estimar a partir del valor
muestral s con un error mínimo.

2. Distribución de las medias muestrales, La media muestral X,


se usa para estimar la media de la población ,1' que queramos muestrear.
La distribución muestral de X es una distribución teórica que está for-
mada por todas las medias posibles muestrales de un tamaño dado ex-
traídas de la población.
Supuesto 1: la distribución muestral de X es normal. Esto no es
una suposición muy restrictiva. Del teorema del límite central conocemos
que para muestras moderadamente. grandes la distribución de la media
muestral X es aproximadamente normal con media iJ. (la media pobla-
cional) y una desviación. estándar 17X, .donde 'O"}' = 0"1 vn.
El valor de
uf es una medida del error de muestreo de }{ Cuando vx es pequeña,
la muestra contiene información relativamente precisa acerca de jl; cuando
(Ti es grande, .la información muestra! da una estimación más difusa
de 1'''
Cuando la desviación estándar de la población 17 se estima mediante
la desviación estándar muestra] s, el error estándar de la media muestral
se calcula como .\1' = si vn.
Determinación de la distribución a posteriori 419

3. Distribución a priori. La distribución a priori de la toma de


decisiones es una distribución postulada que representa la incertidumbre
de quien toma la decisión acerca del valor desconocido de la media 0 de
la población que se va a muestrear. La media de esta distribución a
priori M{J es la mejor suposición de quien toma la decisión de la 0 y la
desviación estándar So es la medida de su incertidumbre acerca de p..
Mientras mayor sea el rango de valores que él crea que 0 pueda tener,
mayor será la desviación estándar que establezca.
Note que la desviación estándar de la distribución a priori So no es
una estimación de la desviación estándar a de la población que se va
a muestrear. Muchas veces se necesita tal estimación de a, pero no está
siempre relacionada con las estimaciones para la distribución a priori
Para reiterar So es la medida de la incertidumbre de quien toma la de-
cisión solamente acerca de 0, o sea, la media de la población muestreada.
Supuesto 2: La distribución a priori es normal. El uso de una dis-
tribución normal de toma de decisiones es bastante apropiada en muchas
situaciones. La distribución normal es simétrica, indicando que quien
toma la decisión acerca de 0 cree que es igualmente probable que se
aleje en un momento dado en cualquier dirección de M". La distribución
normal tiene una probabilidad agrupada cerca de M o , indicando que
quien toma la decisión supone que es más probable que esté cerca de
la verdadera media It a que se aleje, y usando la distribución normal
implica probabilidades postuladas de aproximadamente 2 de cada 3 de
que ,0 quede en un rango .'1 0 +So y probabilidades de más o menos 95
.
por ciento de que p. se encuentre en el rango M¿ + 2S o •
4. Distribución a posteriori; La distribución a posteriori, al igual
que la distribución a priori, es una distribución de toma de decisión ,pos-
tulada. Ella representa la- incertidumbre de quien toma la decisión acerca
del valor desconocido de 0 después de tomar en cuenta la evidencia
de la muestra. Si la disirib ucián a priori y la distribución de las medias
maestrales son ambas normales, entonces la distribución a posteriori tam-
bién es normal." Esto es, si los postulados (1) y (2) de arriba se satis-
facen, la distribución a posteriori es normal. Su media M 1 Y su desviación
estándar S 1 se determinan como sigue:
Mo X
- -
S2,,,
+ -
tr..f2
Ml=---~' (3)
1 1
- + - -z
SZn <TI
." En realidad, la normalidad de la distribución posterior es algo insensible
a violaciones en la normalidad de las distribuciones a priori. Schlaifer hace la
siguiente afirmacién: "Si la variancia de la verdadera distribución_a priori del
que decide es grande en comparación con la variancia muestral de X, puede sim-
plificar sus cálculos sin pérdidas significativas de exactitud sustituyendo la media
y la variancia de su verdadera distribución a priori en las fórmulas que se aplican a
distribuciones normales a priori."
Ver R. Schlaifer, Lntroduction. to Statistics [or Business Decisions (Nueva
York: McGraw--Hill 1961,), pág. 309.
420 La toma de decisiones y el muestreo: la distribución normal

1 1 1 (el denominador en
-
S\
= -S2- +ox- 2
(4 )
0 la fórmula 3)

Note que:
a) La media a posteriori es un promedio ponderado de la media a
priori y la media muestral, con ponderaciones que son los recíprocos de
las variancias de las dos distribuciones. Una pequeña variancia significa
una alta precisión de la media y por lo tanto una mayor ponderación.
Así, si la distribución a priori es relativamente reducida (o sea, So es
menor que al: y por lo tanto 1/S 0 2 es mayor que 1/a:x2 ) , la media a
priori recibe mayor ponderación. Pero si la muestra es relativamente pre-
cisa (o sea, ox es más pequeña que So, y por lo tanto 1/ ox2 es mayor que
1/S02 ) , la media muestral recibe una mayor ponderación. Si hubiera cierto
conocimiento a priori, la desviación estándar a priori S'0 sería muy grande,
y la distribución a posteriori reflejaría casi por completo el resultado
muestral,
b) El parámetro de ponderación que recibe la media muestral depen-
de de n, el tamaño de la muestra. Recuerde queux = avn.
Mientras
n se incremente, ox decrece, y la muestra se vuelve más precisa. Así,
mientras el tamaño de la muestra se incrementa, eÍ parámetro recibido
por la rndia rnuestral (1/ ox2 ) , se incrementa, Y. el resultado muestral
influye más en la distribución a posteriori. Para muestras muy grandes,
la distribución a priori "se va a pique" y virtualmente no tiene efecto
sobre la distribución a posteriori.
e) El recíproco de la variaricia a posteriori es la suma de los recí-
procos de las variancias de las distribuciones a priori y muestra]." Esto
implica que la variancia a posteriori (o desviación estándar) es más pe-
queña ya sea que la variancia a priori o la variancia muestral (o desvia-
ción estándar). En otras palabras, hay menos incertidumbre en la dis-
tribución a posteriori que en cualquiera de las otras.
Supuesto 3: Problema de doble acción con funciones de utilidad lineal.
Los postulados (1) Y (2) anteriores son suficientes para garantizar que
lad istribución a posteriori es normal. Este resultado puede ser suficiente
para tratar con ciertas situaciones ded ecisión. Sin embargo, como lo
hicimos anteriormente en este capítulo, restringiremos el análisis a pro-
blemas en que hay solamente dos acciones, y las utilidades (o costos)
de cada acción se pueden representar por una función lineal. Este su-
puesto nos permitirá reducir a simples fórmulas el cálculo de la utilidad
esperada, el valor esperado de la información perfecta y el valor esperado
de la información muestral,

7 Para consulta, ver R. Schlaifer, Introduction for Business Decisions, pág. 302
y siguientes.
Determinación de la distribución a posteriori 421

Ejemplo

Un mayorista tiene la oportunidad de comprar un lote especial de


mercancía por $10,000. El lote contiene 100,000 artículos de novedad a
un costo unitario de 10 centavos que el mayorista puede vender a los
consumidores a 20 centavos cada uno. El mayorista no pensó que podría
vender los 100,000 elementos pero notó que tenía que vender sólo 50,000
para no tener pérdidas. Su juicio a priori fue que vendería 54,000, pero
tenía cierta incertidumbre acerca del nivel de ventas. El mayorista ex-
presó su incertidumbre sobre las ventas en la forma de una distribución
normal en una media de 54,000 unidades y una desviación estándar de
10,000 unidades. Esto significaba que el mayorista estaba decidido a
apostar con iguales probabilidades, que las ventas serían mayores (o me-
nares) de 54,000, y creía que las oportunidades de que las ventas estarían
entre 44,000 a 64,000 unidades de rango (54,000 -+- 10,000) eran de dos
a una. Tales probabilidades reflejaban su experiencia en vender mer-
cancías similares.
Expresemos estas estimaciones preliminares en términos de ventas por
consumidor dividiendo las estimaciones anteriores entre 2,000 (el número
de sus clientes). Así, la media a priori es M¿ = 54,000/2,000 = 27y la
desviación estándar a priori es S() = 10,000/2,000 = 5. En estos términos,
la suposición óptima de quien toma la decisión (.M,o) es que venderá un
promedio de 27 unidades por consumidor, y la desviación estándar sobre
su predicción (So) en 5 unidades por consumidor. El punto de equilibrio
del nivel de ventas (K) es un promedio de 25 unidades por consumidor.
Podemos expresar las ecuaciones de utilidad como sigue:

Utilidad para la acción "compra del lote": 7r = -10,000 + (0.20) (2,000),{-t


-10,000 + 400,u. en dólares
U tilidad para la acción "no comprar" 7r = O.

En la primera ecuación, p. representa el promedio desconocido de


ventas por consumidor para los 2,000 clientes del mayorista.
Ya que la media a priori M¿ = 27 es mayor que el valor del punto
de equilibrio K = 25, sabemos que la alternativa "comprar el lote" es
preferible. La utilidad esperada es:

E(7r) = -10,000 + 400M g = 10,000 + 400(27)


= 800 dólares

Además, podemos determinar el valor esperado de la información


perfecta, como lo hicimos anteriormente.

EVPI = tSoLN(D) donde D =lK ~oMol


422 La toma de decisiones y el muestreo: la distribución normal

Aquí M" es la media de la distribución postulada; S" es la desviación


estándar; t es la pendiente de la función de costos de oportunidad; y
L.,-{ D) se encuentra en el Apéndice E. Utilizando la media a priori,
M" = 27,)1 la desviación estándar, So = 5, tenemos

=1 ~ 1= 0.4
25 27
D
LN(D) = L s(O.4) = 0.2304 del Apéndice E
y

EVPI = 400(5.0) (0.2304) = 461.

Esto es, el valor esperado a priori de la información perfecta es $461-


Suponga que el mayorista en cuestión decide obtener información
adicional en este problema de decisión seleccionando una muestra al azar
de 50 clientes (del total de 2,000 clientes) y preguntar a cada cliente
cuántas unidades compraría. Supongamos que el promedio de estas 50
"órdenes de compra" es 26.0 unidades por consumidor con una desvia-
ción estándar de 14.14 unidades; o sea que X = 26.0, s = 14. H, Y n = 50
(tamaño de la muestra ).; El error estándar de la media muestral se puede
estimar como:'
s
ox·5}' =6
14.14
-- V5ü-- 2.0 unidades

Ya que la media a priori (M,,) Y la media muestral (X) están sobre


el valor del punto de equilibrio (K= 25 unidades), no habría razón
para revertir la decisión a priori de comprar el lote de mercancía. Sin
embargo, determinemos la distribución a posteriori de IOdos modos.

M" X 27 26
-S2 +---;-
o 111' 5~ + 22
~---'---' = - - - - = 26.14
1 1 1 1
- + -.. - + -2
S¡, 0"k 5" 2

De la ecuación 2,

1 1 1
- - - + - = .;L;; + - == 0.29
Si s¡, I1f 52 2"
B Note que si la muestra contiene más del 5% de población, se debe incluir

el factor de corrección de la población finita al calcular SX. Esto es, SX = (J:/vn)


( y 1 .. n/N), donde N es el tamaño de población.
Evaluación de la información muestral 423

Entonces

Si = 1/0.29 = 3.45
y
s, = V 3.45 = 1.86

El valor de M, = 26.14 Y S, = 1.86 caracterizan la distribución pos-


tulada a posteriori, Después de la muestra, la mejor suposición de quien
toma la decisión del valor de ,¡L (ventas medias por cliente) es 26.14
unidades con una desviación estándar de 1.86 unidades por cliente. La
distribución a posteriori es normal, indicando por ejemplo que quien toma
la decisión estaría dispuesto a apostar, con oportunidades de 2 de cada 3,
que JL se encontrará en el rango 26.14 -t- 1.86 ó 24.28 a 28.00.
Esta utilidad esperada a posteriori es

E( 7T) -10,000 + 400M,


10,000 + 400(26.14) = $456

Yel EVPI a posteriori se determina como sigue:

D
=IK- M'I =1
S,
. - 26.14 ~ _
25 0
1.86 I-0.61
LN(D) = 0.1659 del Apéndice E
EVPI = tS,LN(D) = (tOO) (1.86) (0.1659) = $123

Note que el EVPI a posteriori es considerablemente reducido respecto


al EVPI a priori, aunque' la media M, a posteriori se acercó al punto
de equilibrio K. Esto resultó de la gran reducción en la desviación están-
dar de So = 5.0 a S,= 1.86, de tal manera que es considerablemente
menor la oportunidad de una gran pérdida «osea, para un valor de
It considerablemente menor de K = 25)..
Es importante recordar que la distribución a posteriori en el ejemplo
anterior es el resultado de una muestra particular (X = 26, s = 14.14,
n = 50). Un resultado muestral diferente hubiera llevado a una distri-
bución a posteriori diferente.

EVALUACION DE LA INFORMACION MUESTRAL

En la sección anterior contestarnos la siguiente pregunta: "dado que


se ha tornado una muestra, ¿ cómo debe utilizarse la información en el
proceso de decidir?" Ahora volveremos a una pregunta diferente: "¿ Se
debe tomar una muestra, y si, lo hacemos, qué tan grande debe ser la
muestra?" Esta pregunta se contestará en dos etapas: primero, se calcu-
lará el valor económico de una muestra de un tamaño dado; segundo
(en la siguiente sección), se determinará el tamaño óptimo de la muestra,
que puede ser cero, de modo que no se garantiza una muestra. La infor-
424 La toma de decisiones y el muestreo: la distribución normal

mación adicional, incluyendo las pruebas de la muestra, tiene valor para


quien toma la decisión sólo si existe alguna oportunidad de que la infor-
maciónpodría cambiar la decisión a priori. Esto implica que la informa-
ción muestral generalmente nos permite reducir la incertidumbre (o sea,
los costos de oportunidad esperados a posteriori).

Valor esperado de la información muestral

Bajo los supuestos que se han utilizado en este capítulo (problema de


doble alternativa, funciones de utilidad lineal, distribuciones de muestreo
y a priori normales), la evaluación del valor económico de la muestra
se puede obtener en seis pasos que se enlistan abajo, culminando en la
fórmula 6.
Paso 1: determinar la distribución a priori. Quien toma la deci-
sión debe primero encontrar la media M" y la desviación estándar So
de su distribución postulada a priori.
Paso 2: determinar. las funciones de utilidad. Las funciones de
. utilidad lineal (o costo) son determinadas después. Esto incluye el cálculo
del punto de equilibrio K y la pendiente t de las funciones de costo de
oportunidad. •
Paso 3: estimar la recisión de la muestra" propuesta. La exacti-
tud se mide en términos del error de muestreo (ax) que esperamos
obtener con la muestra. Ya que el error estándar ax es igual a al Y/1,
debemos tener alguna estimación de a, la desviación estándar de la
población de la que la muestra se torna." Esta estimación se puede obtener
de estudios anteriores de la población o de poblaciones similares, de una
muestra piloto tomada para hacer cada estimación, o por un juicio
apropiado.
Paso 4: estimar la »ariancia de la distribución a posteriori.
Esta se determina a partir de la variancia a priori S~ (paso 1) y el error
de estimación de muestreo ax (paso 3) ; esto es, de la fórmula (4 ) :

111
-=~+-
Si S~ at
Paso 5: determinar la reducción de la »ariancia. Designe una
Cantidad S:, que se obtiene como sigue

S,; = S~ - Si (5)

Note que SJ. es una medida de la reducción de la vartancia a priori

~ La fórmula anterior para el error muestral es para muestreo aleatorio sim-


ple. Son necesarias fórmulas más complicadas para distintos métodos de muestreo
(v.g., estratificación o muestreo por conglomerados); ver el capítulo 12.
Evaluación de la información muestral 425

como un resultado de tomar la muestra. Así, es una medida del valor de


la muestra en la reducción de la incertidumbre a priori.
Paso 6: calcular EJ'SI. El valor de la muestra en términos econó-
micos está dado por el valor esperado de la información muestral o EVSI.

EVSI = tS* LN(D) donde D =


t
K
-
S*
M
o I
.
(6)

El símbolo t representa la pendiente de las funciones de costo de


oportunidad; M¿ es la media a priori; K es el punto de equilibrio; L s
(D) está tabulado en el Apéndice E; Y S* se obtiene del paso 5 anterior.
Esta fórmula es idéntica a la del EVPI, reemplazando S* a Sl'
El valor esperado de la información muestral es una medida de la
utilidad adicional esperada que se obtendrá al actuar después de tomar
la muestra (y utilizando la información muestral) y no antes de muestrear.
Es un valor esperado ya que resultados muestrales diferentes incremen-
tarán la utilidad posterior en diferentes montos o también pueden dis-
minuir la utilidad posterior esperada.

Ejemplo

Continuemos el ejemplo del mayorista de la pagma 421-423. Suponga


que el mayorista no ha tomado la muestra analizada anteriormente pero
está considerando la posibilidad de tomar tal muestra, digamos de 50
elementos, de sus 2,0.00 clientes. Obtendría pedidos adelantados de sus
50 clientes muestreados. Sigamos "los pasos para obtener el EVSI en esta
ilustración.
Paso 1. Recuerde que el mayorista tenía una distribución a priori
ncrmal con media M¿ ~ 27 artículos por cliente y desviación estándar
S.O = 5 elementos.
Paso 2. Las ecuaciones de utilidad fueron

Acción "comprar el lote" tt = - 10,000 + 400/), en dólares


Acción "no comprar" tt = O

donde JL es el promedio de ventas desconocido por cliente. Hemos deter-


minando previamente la utilidad esperada a priori, E (1f) = $800,ye1 EVPI
a priori = $46.1. El valor de punto de equilibrio K es 25 artículos por
cliente, y la pendiente de la función de costos t = $400.
Paso 3. En seguida es necesario estimar a, la desviación estándar
de las órdenes potenciales de la población de 2,000 clientes. Suponga
que a partir de la experiencia pasada con artículos similares el mayorista
estima a en 25 unidades por cliente. Entonces es posible estimar el error
de muestreo para un tamaño de muestra de n = 50 como

iCt a y = ~ "'" 25 H = 3.54


. vn~'jO
416 La toma de decisiones y el muestreo: la distribución normal

Paso 4. Ahora podemos estimar la variancia posterior como


1
----= ~c-----_ = 8.33

La desviación estándar a posteriori es

Paso 5. La reducción en la variancia a priori debida al muestreo es

S~ = S~ - Si = (5)2 - (2.89)2 = 16.67


S* = -y'T6.67 = 4.08

Paso 6: El cálculo de EUSI es el siguiente:

D =fK - MoIJ25 - 271=1_~J=·0.490


1- s, I I 4.08 14.0SI
Lx(D) = L",( (0.490) = 0.2009 del Apéndice E
EVSI = tS*Lx(D) = (400) (4.08) (0.2009) = $328

El valor de la muestra de 50 elementos para quien toma la decisión


rel mayorista en este ejemplo) es $328. Esto es, esperaríamos que una
muestra de este tamaño reducirá la incertidumbre e incrementaría la
utilidad esperada a posteriori en $328. Recuerde que el valor esperado
de la información perfecta es $461. Por tanto, aun con un tamaño de
muestra tan moderado obtenemos una información muy cercana a la
perfecta (ya que $328 es cerca del 70 por ciento dé $461).

Los factores que influyen en el EVSI

El tamaño del valor esperado de la información muestral depende de


los mismos factores que influyen en el EVPI. En particular, tanto el
EVSI COrno el EVPI varían directamente en relación con la pendiente
de la función de costos de oportunidad (t), el grad~ de incertidumbre
mostrada por la desviación estándar a priori (So) y la cercanía a priori
al punto de equilibrio (IK - Mili). Además el EVSI depende del tamaño
de la muestra (n) y la dispersión en la población muestreada Ca). Cuanto
más grande es n, es mayor el EVSI; pero cuanto mayor es a, menor es el
EVSI ya que la muestra tendrá relativamente men~s precisión.

TAMA~O OPTIMO DE LA MUESTRA


En la sección anterior supusimos un tamaño fijo de la muestra y
determinamos el valor económico de la muestra. Ahora proponemos la
Tamaño óptimo de la muestra 427

pregunta: "¿ qué tan grande debe ser la muestra, incluyendo la posibilidad
de n = 0, no tomar ninguna. muestra?" Esto consiste en comparar el
valor de la muestra (EVSI) con el costo del muestreo.
Generalmente, el costo del muestreo, aumenta como función lineal
del tamaño de la muestra tal como se indica en la figura 14-6.

Costo del
muestreo
C (n)

} Costo fijo
O:"--------------n
, Tamaño de la muestra

Figura 14-6
Costos del muestreo

,
Tabla 14·2
CALCULO DE EVSI PARA VALORES SELECCIONADOS DE n
(Decisión d~ un mayorista respecto a la compra de mercancía)

n q:x = n~ S2= _._1_


1 1
.._
1
S*= vS;~. S; D = IK ~* Mol EVSI=
tS*LN(D)
52+'
o u..f:

20* 31.25 13.89 3.33 .600 $225


50 12.50 8.33 4.08 .490 328
80 7.81 5.95 4.36 .458 369
100 6.25 5.00 4.47 .447 384
200 3.12 2.78 4.71 .424 419
* Realmente, para muestras tan pequeñas como n = 2(':, la distribución muestral de ...\'"
puede no ser normal cuando se muestrea una población distribuida asimétr-icamente. Por consi-
guiente, este cálculo del EVSI no es, estrictamente hablando, exacto ya que se está suponiendo
la normalidad de la distribución muestr-a! de X.

El valor esperado de la información muestral también es una función


del tamaño de la muestra. Mientras mayor es la muestra, mayor es el
EVSr. En la tabla 14-2, se muestran los cálculos para el EVSI para
valores seleccionados de tamaños de muestras del ejemplo anterior (el
mayorista que decidirá la compra de un lote de mercancía).
En la figura 14-7 el EVSI se grafica como una función del tamaño
428 La toma de decisiones y el muestreo: la distribución normal

de la muestra n, con una curva suavizada trazada a mano que une los
puntos calculados en la tabla 14-2, junto con el punto n = 0, para el
que EVSI = O. Note que el EVSI se aproxima al valor esperado de la
información perfecta (EVSI) para valores muy grandes de n.

e (n) <costo del


muestreo
- -: - - -=- - - - EVSI
_,...¿=-----.-o-----EVPI
400

100

O 20 40 60 80 100 120 140 160 180 200 n


Tamaño de la muestra

Figura 14-7
VALOR ESPERADO DE LA INFORMACION MUESTRAL
y CO~TOS DEL MUESTREO
(Decisión de Un mayorista respecto a comprar mercancía)

Supongamos que costara $100 tomar la muestra (un costo fijo) más
$2 por elemento incluido en la muestra. ASÍ, el costo de muestreo se
puede expresar con la ecuación:

C(n). = $100 + $2 n
Esta ecuación se muestra también en la figura 14-7. En esta figura
se puede ver que el valor de la muestra (EVSI) es mayor que el costo
para valores de n entre aproximadamente n = 5 y n = 150. Por lo tanto,
será preferible tener una muestra entre 5 y 150 a no tomar ninguna.

Utilidad esperada al muestrear

Definamos ENGS como las ganancias netas esperadas del muestreo,


donde
Tamaño óptimo de la muestra 429

ENGS = EVSI - C(n) (7)

para un valor dado de n.


ENGS representa la diferencia entre el valor económico de la infor-
mación muestral y el costo de obtener la información. Una pequeña
muestra no puede proporcionar suficiente información para justificar su
costo. Y ya que el valor adicional de la información muestral tiende
a declinar conforme se incrementa el tamaño de la muestra, se alcanza
un punto para valores grandes donde, otra vez, el valor muestral no
justifica su costo. Y entre ellos, es valioso el muestreo (siempre que se
justifique alguna muestra).
Para nuestro ejemplo, las ENGS se marcan en la figura 14-8 como
una función del tamaño de la muestra n. ENGS se maximiza aproxima-
damente al valor de n = 50. Este es el tamaño óptimo de la muestra.'?
Así, el valor de la muestra es mayor que el costo de la misma y la
diferencia es más grande en este punto (n = 50) que en cualquier otro.
Note que ENGS está más bien suavizado en el rango n = 40 a n = 80,
indicando que cualquier tamaño muestral en este rango sería casi tan
valioso como el óptimo.

200

Tamaño óptimo de muestras


~

Figura 14-8
GANANCIA NETA ESPERADA DEL MUESTREO
(Decisión de un mayorista respecto a la compra de mercancía)

Puede suceder que C (n) sea mayor que el EVSI para todos los
valores de n, como se ilustra en la figura 14-9. Ya que el valor obtenido
del muestreo (EVSI) nunca excede los costos del muestreo, no se debe
tomar muestra alguna.

1'0 En situaciones semejantes a la anterior, la determinación del tamaño óptimo


de la muestra puede hacerse con mayor exactitud. Ver R. Schlaifr--, Introduction
to Statistics for Business Decisions, capítulo 21. El óptimo calculado para el
problema anterior es n = 49.
430 La toma de decisiones y el muestreo: la distribución normal

Dólares

e (n) = Costo del muestreo

EVSI

I<.-------- n

Tamaño de la muestra
Figura 14-9
VALOR ESPERADO DE LA INFORMAClON MUESTRAL
y COSTO DEL MUESTREO: CASO ESPECIAL

Quien toma la decisión debe actuar solamente con su información


a priori (o encontrar algunos medios menos costosos de obtener infor-
mación) .

RESUMEN

En los capítulos anteriores se desarrolló la estructura básica para com-


binar las probabilidades, la información económica, y los resultados
muestra1es para determinar las decisiones óptimas. Este capítulo presenta
un caso especial de este proceso general, que tiene gran aplicabilidad.
En primer lugar, el uso de la distribución normal como distribución
de decisión o "postulada" (de apuesta) implica una distribución de
forma unimodal simétrica con la probabilidad concentrada cerca del centro.
En ciertas condiciones -un problema de dos acciones, funciones de
utilidad lineal, y una distribución postulada norma1- el EVPI se puede
expresar como una simple fórmula. En este caso, el EVPI depende direc-
tamente de la desviación estándar de la distribución postulada y del costo
de oportunidad unitario; el EVPI depende inversamente de la distancia
del punto de equilibrio a la media de la distribución postulada. Una for-
ma de obtener información en situaciones de decisión es tomar una muestra.

En este procedimiento están incluidas cuatro distribuciones:


1. La población de la cual se toma la muestra puede ser de cualquier
tipo, si se desconoce la media de esta distribución.
2. La distribución muestral es la distribución de las medias muestrales
X alrededor de la verdadera media poblacional p.. Representa el
Resumen 431

error de muestreo asociado con la estimación de ¡;. de la media


muestral.
3. La distribución a priori representa el JUlClO de quien toma la
decisión acerca de la verdadera media ¡;. de la población que se
va a muestrear.
4. La distribución a posteriori representa el juicio de quien toma la
decisión acerca de la verdadera media ¡;. después de que se ha
incorporado la información de la muestra.

Los supuestos que se hacen en este capítulo son:


1. La distribución a priori es normal.
2. La distribución muestral de J[ es normal. Este supuesto se satis-
fará si se toman muestras grandes.
3. El problema de decisión consiste en una elección entre dos alter-
nativas posibles, y las utilidades (o costos) se pueden expresar como
función lineal de la media poblacional 1)" desconocida.
Si se satisfacen los supuestos 1 y 2, la distribución a pos.teriori es
normal. Y añadiendo el supuesto 3 estamos en posibilidad de expresar
la utilidad esperada y el valor esperado de la información perfecta en
fórmulas simples.
Con el objeto de determinar si se debe tomar una muestra, y qué
tan grande debe ser ésta, estimamos el valor esperado de la información
muestral (EVSI). Este monto representa el valor económico esperado de
la muestra cuando se escoge la mejor. Con los postulados anteriores, los
cálculos del EVSI para un tamaño dado de muestra n se puede reducir
a fórmulas simples.
Para determinar el tamaño óptimo de la muestra, el valor debe com-
pensar el costo de la 'misma. La ganancia neta esperada del muestreo
(ENGS) es la diferencia entre EVSI y el costo del muestreo para un
tamaño dado de muestra n. Si el ENGS se marca en una gráfica para
valores diferentes de n, el tamaño óptimo de la muestra se puede deter-
minar en el punto donde ENGS es mayor. Si el ENGS es siempre nega-
tivo el costo del muestreo excede su valor para toda n y no se debe
tomar ninguna muestra.

Fórmulas

Las fórmulas de este capítulo se resumen a continuación.


El valor esperado de la información perfecta para problemas de dos
acciones con una distribución postulada normal y funciones de beneficio
lineales es:

EVPI = tS"L.\(D)
donde:

D=-~ IK=M\
432 La toma de decisiones y el muestreo: la distribución normal

Media de la distribución a posteriori obtenida con dos tipos de distri-


buciones normales: la de muestreo y la a priori.

Recíproco de la variancia obtenido con dos tipos de distribuciones


normales: la de muestreo y la a priori.

111
--=-+-
S; S~l u}

Valor esperado de la información muestral:

donde

Ganancia neta esperada del muestreo

ENGS = EVSI - C(n)

PROBLEMAS
1. Exponga:
a) El significado de una distribución de toma de decisiones norma!.
b·) Por qué tiene valor la información muestra!.
e) La diferencia que existe entre una distribución a priori y una a posteriori.
d) El efecto del tamaño de la muestra sobre el EVSI.
2. En los incisos (a) hasta (d) calcule el EVPI, utilizando los valores indicados
de la media M¿ y la desviación estándar So de la distribución normal postu-
lada, el valor de equilibrio K, y la pendiente de la función de costos de
oportunidad t.

a) M¿ = 100, S,) = 40, K o;=: 160, t = .S.


b) M¿ = 6S, So = IS, K = SO, t = 60.
e) M¿ = 4S, So= 20, K = SO, t = .OOS.
d) M¿ = 120, So = 30, K = 110, t = 1.

3. Determina los parámetros de la distribución a posieriori desde a hasta d.


Suponga una normal a priori con una media M o y una -.gesviación estándar
S'o; siendo n el tamaño de la muestra, con una media X y una desviación
estándar s,
460 Los métodos de Montecarlo en la toma de decisiones

Nivel de ventas Probabilidad de un costo unitario de:


(miles de uni-
dades) $1.50 $2 $2.50 $3 $3.50 $4 $4.50

Menos de 10 ... O O .10 .20 .40 .20 .10


10 Y meno; de 20 O .10 .20 .40 .20 .10 O
20 y más ., .. .10 .20 .40 .20 .10 O O

Haga 20 pruebas de Montecarlo para este ejemplo, utilizando ese supuesto


(o sea, haga una tabla similar a la tabla 15-10). Determine la distribución
de frecuencia de las ganancias (similar a la tabla 15-11,) y calcule la ganancia
esperada estimada. ¿ Cómo influye este nuevo supuesto en el riesgo del proyecto?

5. La ganancia (Y) para el resultado de cierta decisión tiene una distribución


normal con media de $20,000 y. desviación estándar de $10,000. Suponga que,
para quien decide, la función de utilidad monetaria se puede expresar como
sigue:
u(Y) = 0.5 log (Y + 20) -10 s Y:$ 60

donde Y es la ganancia en miles de dólares. Utilizando 15 pruebas de Monte


'Cario estime la utilidad esperada para esta decisión.

6. Un inversionista con $300 considera la compra de 3 series A, B, y C; que se


venden a $100 cada acción. En la tabla que se muestra a continuación, están
las probabilidades que dio al valor de las series (dividendos mas precio de
mercado) al final de un año.

Probabilidad
Valor al final
del año A B e
$ 90 .." ,.. .20 .30
100 " , 50 .20 .10
no , ., .40 .20 .10
120. .10 .20 .10
130 . .20 .40
Totales 1.00 1.00 1.00

a) Suponga que el inversionista desea comprar una accion de cada serie. Su-
ponga que las series son .independientes (es decir, el valor de una al final
del año no está relacionado con el valor de ninguna otra). Utilice el
análisis de Montecarlo para calcular la distribución de probabilidad aso-
ciada al valor de la cartera de tres series al final del año. Calcule la media
y la variancia de esta distribución.
b) Compare la media y la variancia de la cartera obtenidas en el inciso a
con las series A y B, pero sí está relacionada con la serie C como se muestra
tres acciones de la serie A, tres acciones de la serie B, o tres acciones de la
serie C.

7. Tome como referencia el problema 6. Suponga que una cuarta serie, la serie D,
está disponible a un precio de $100 por acción y que no está relacionada
con las series A y B, pero si está relacionada con la serie C como se muestra
por la probabilidad dada en la tabla.
Análisis del riesgo 461

Valor de la serie D al final del año


Valor de la
serie e al Probabilidad
[mal del añ o $90 $100 $110 $120 $130 total

$ 90 .........
100 ...... ..
no ... ,
. . . . .. . .
.............
.10
.20 .10 .30
.10 .
.10 .10
120 .... '.""" o •••• .10 .10
130 ... " ..... .. .20 .10 .10 .40
Probabilidad total .. '" .20 .10 .40 .20 .10
--
1.00

a) Usando e! análisis de Montecarlo, calcule la distribución de! valor al


final de! año de una cartera compuesta de una acción de cada una de las
series A, C y D. Determine el valor esperado y la variancia de esta dis-
tribución.

b-) Usando el análisis de Montecarlo, calcule la distribución del valor al


final del año de una cartera compuesta por una acción de cada una de
las series B, C }' D. Determine el valor esperado y la variancia de esta
distribución.

C) Se define como "eficiente" una cartera de series si no existe otra cartera


con la misma variancia que tenga mayor valor esperado --o, alternativa-
mente, si no existe otra cartera con el mismo valor esperado y que tenga
una variancia más baja. ¿ Cuál de las carteras consideradas en los pro-
blemas 6 y 7 son "eficientes" en este sentido? ¿ Cuáles no son eficientes?
(Nota: sólo se han considerado las carteras AAA, BBB, CCC, ABC, ACD,
y BCD. Existen, desde luego, otras tales como AAB --dos acciones de la
serie A y una de la B, etcétera. Para simplificar, ignore estas posibilidades

8. En la situación típica de inventario de dos alternativas, una orden de reabas-


te cimiento se hace cuando el nivel de inventario llega a una cantidad b. La
orden se hace por una cantidad q, llamada cantidad ordenada. Transcurren
varios días, llamados "tiempos de demora; para que se reciba la orden. Si
durante este tiempo de demora las ventas exceden el nivel de orden b, sobre-
viene la carencia de inventario y las ventas se pierden con un costo k. Gene-
ralmente, el costo de colocar una orden es Co y el costo de mantenimiento de
una pieza en inventario por una periodo de tiempo (por ejemplo, un año)
es Ch'
En situaciones normales, se conoce la distribución de probabilidades de
demanda para e! producto, así como el tiempo de demora. Se estiman las
constantes c o' ch y k. Luego se deben determinar los valores de! nivel de
orden b y la cantidad ordenada q para minimizar el costo en un período
de tiempo.
Un método para resolver este problema es simular el sistema de inventario
para: diferentes valores de b y q y utilizar los resultados de la simulación
para determinar los valores óptimos de b y q.
Suponga que la demanda diaria para cierto producto es como se muestra
en la tabla.
462 Los métodos de Montecarlo en la toma de decisiones

Demanda en
unidades Probabilidad

o . 0.10
1 0.30
2 .. . .. .. . . ... .. .. .. ..
~
0.20
3 '0.10
4 0.10
5 0.10
6 0.05
7 0.05
Total 1.00

El tiempo de demora (el tiempo desde que se hace la orden hasta que
se recibe) es de 20 días. Suponga que los costos por carecer de inventario son
k = $3 por unidad para cada artículo que esté agotado. El costo de un pedido
es en = $10, Y el costo por mantenimiento de una pieza en inventario es 50
centavos por mes (30 días).

a) Suponga que la cantidad ordenada q Sil' fija en 55 unidades. Simule las


operaciones de 300 días para cada uno de los 3 distintos valores de b,
o sea, el nivel de inventario. Calcule el costo para cada sistema. ¿ Cuál
es el mayor óptimo de b? ¿ Cree usted que el valor óptimo de b es mayor
o menor que el valor que usted obtuvo?

b) Seleccione tres distintos conjuntos de valores para q y b. Simule opera-


ciones de 300 días para cada conjunto y calcule el costo del sistema de
inventarios para cada conjunto. ¿Cuál de los conjuntos dio un costo menor?

9. La Compañía Lakes Ore (LOC) desea ampliar a otras zonas el número de


embarques de mineral de hierro. Sin embargo, las instalaciones portuarias son
inadecuadas y sería necesario equipo nuevo. Durante la siguiente estación, la
LOC espera embarcar aproximadamente 108 cargas de mineral durante los
180 días de operaciones máximas, de abril 15 a octubre 12.
La LOC tiene espacio en el muelle para un solo barco y desea minimizar
el tiempo de espera ya que el costo de operación de un barco es de $200
por día.
Se consideraron dos métodos de descarga de barcos. En un método, A, se
utiliza gran cantidad de mano de obra, y se requiere un día y un tercio
(cuatro turnos de 8 horas» para descargar un barco. Este método costaría
$500 por barco descargado. Por otra parte, el método B es mucho más meca-
nizado y costaría $700 por barco descargado. Sin embargo, los barcos se
descargarían a razón de uno por día (tres turnos).
Suponga que el número de barcos que llegan durante un turno de ocho
horas sigue una distribución de Poísson, con media m = 0.20. Simule 60 días
de operaciones de este sistema, y estime el costo esperado de cada método.

10. Tome como referencia el problema 9. Suponga que en vez de utilizar respec-
tivamente cuatro y tres turnos para la descarga de un buque utilizando los
métodos A y B, los tiempos de descarga siguen las siguientes distribuciones
de probabilidad:
Análisis del riesgo 463

Probabilidad del número


de turnos requerido
Número de
t-urnos Método A Método B

2.... O .20
3 , 30 .60
4 , . . .. . .. . . . ..40 .20
S 30 O
Total.. 1.00 1.00

Simule 60 días de operaciones del sistema bajo este supuesto y estime el


costo esperado para cada método. Compare los resultados con los obtenidos
en el problema 9.
11. La gerencia de una compañía de juguetes planea el horario de producción
para un nuevo juguete con anticipación a la Navidad. La producción se debe
completar durante e! verano, antes de conocer la demanda del nuevo juguete.
Hay dos modelos del juguete, la versión estándar y la de lujo. La de lujo
es básicamente el mismo producto con algunos adornos y pequeñas modifi-
caciones. El costo (C) de producción del juguete se estima como:

C(X) =$15,000 + $2X SI O::::; X ::::; 10,000 unidades


C(X) = $25,000 + $2X SI 10,000 < X ::::; 25,000 unidades

donde X es el número total de unidades (estándar y de lujo) producidas. Tam-


bién, hay costos adicionales de $1 por cada unidad de lujo producida.
El precio de venta es de $5 por unidad del modelo estándar y $7 por unidad
del modelo de lujo. El juguete es una novedad y no se fabricará de nuevo el
próximo año. Cualesquiera unidades no vendidas deberán venderse a una gran
tienda de descuento a un precio de $2 por unidad regular y $2.50 por la
de lujo.
La gerencia no conoce la demanda total del producto. Esta incertidumbre
se expresa por medio de una distribución de probabilidad continua subjetiva,
Abajo se dan cinco puntos de esta distribución acumulativa. Complete la dis-
tribución acumulativa trazando a pulso una curva que pase por esos puntos.

Probabilidad de que la demanda


total sea ~ Y . 1.0 0.75 0.50 0.25 o
y ( unidades) . 20,000 12,000 8,000 6,000 3,000

Además, la gerencia expresa su incertidumbre acerca del porcentaje de la


demanda total que alcanzará el modelo de lujo con los siguientes cinco puntos
de una distribución de probabilidad acumulativa. De nuevo, complete la dis-
tribución acumulativa con una curva trazada a pulso.

Probabilidad' de que el porcentaje


del modelo de' lujo sea ~ Z . 1.0 0.75 0.50 0.25 o
Z (porcentaje del total) . 30% 20% 15(fr 13(fr, 10%

El porcentaje del modelo estándar es 100% menos el porcentaje del modelo de


lujo. La gerencia cree que el porcentaje del modelo de lujo es independiente
de la demanda total.
Si la demanda excede a la producción de! modelo de lujo, no es posible
aprovechar dicho exceso de demanda. Sin embargo; cualquier demanda excesiva
sobre la producción del modelo estándar se puede satisfacer vendiendo el modelo
de lujo (si hay alguno disponible) a un precio estándar de $5 por unidad.
464 Los métodos de Montecarlo en la toma de decisiones

a) Condicione el problema para su solución por el método de Montecarlo.


Seleccione un horario de producción para las unidades de lujo y estándar
e ilustre su política haciendo cinco pruebas para la política seleccionada.
b) Lleve a cabo el procedimiento para 25 pruebas adicionales y estime la
ganancia esperada para su política.
c) Seleccione otra política y realice 30 pruebas de Montecarlo para estimar
la ganancia esperada. Compare .este resultado con el obtenido en el in-
ciso (b).

BIERMAN, H., JR., BONINI, C. P. y HAUSMAN, W. H. Quantitative Analysis for


Business Decisions. 4~ ed. Homewood, 111.: Richard D. Irwin, 1973.
El capítulo 20 trata de la simulación y el análisis de Montecarlo, inclu-
yendo un ejemplo de su uso en sistemas de inventario.
HERTZ, D. B. New Power [or Management: Com puter Systems and Management
Science. Nueva York: McGraw-Hill, 1969.
Los capítulos 5 y 6 constituyen un buen estudio del análisis del riesgo
desde el punto de vista del gerente.
KEMENY, J. G., SCHLEIFER, A., JR., SNELL, J. L. Y THOMPSON, G. L. Finite
Mathematics with Business Applications. 2~ ed. Englewood Cliffs, N. J.: Prentice-
Hall, 1972.
MEIER; R. C., NEWELL, W. T., y PAZER, H. L. Simulation in Business and
Economics. Englewood Cliffs, N. J.: Prentice-Hall, 1969.
En el capítulo 8 se examinan las técnicas avanzadas de Montecarlo de
una manera no matemática.
NAYLOR, T. H., BALINTFY, J. L., BURDICK, D. S., Y CHU, K. Técnicas de simu-
lación en computadoras. Editorial Limusa, México, 1971.
El capítulo 4 es una revisión avanzada de las técnicas de muestreo de
Montecarlo.
SCH:LAIFER, R. Analysis of Decisions Under Uncertainty. Nueva York: McGraw-
Hill, 1969.
En el capítulo 13 se hace un análisis detallado de la aplicación del análi-
sis de Mantecado a los problemas de decisión.
VI. Predicción y
~.-
control
CAPITULO 15
Los métodos de
montecarlo en la toma de decisiones

El método de Montecado es un medio para simular una situación real que im·
plique elementos probabilísticos. El método se utiliza para determinar proba·
bilidades complejas y estimar beneficios esperados o costos por procedimientos
empíricos en vez de utilizar el análisis teórico. Muchas decisiones administrativas
importantes implican probabilidades que serían difíciles de obtener por otros
métodos. Algunos problemas no admiten una solución directa; otros tendrían
una solución muy costosa o que se tardaría mucho tiempo en obtener y en otros
casos, las condicion~s experimentales no se pueden reproducir. Por lo tanto, el
método de Montecado tiene gran aplicación en áreas tales como problemas de
inventario, organización de operaciones en el tiempo, publicidad, asignación de
recursos y planeación a largo plazo.
El método es una técnica simple que no requiere fórmulas, sólo una tabla de
números aleatorios o una computadora. Sin embargo, agrupa los principios de las
distribuciones de probabilidad, el muestreo y la toma de decisiones (ya estudia-
dos) para dar soluciones a problemas complejos.
Considere por ejemplo ul).a situación de línea de espera o problema de colas,
tal como en el mostrador de una línea área. Los clientes llegan en forma variable
de acuerdo a algún proceso probabilístico. Pueden ir a cada uno de varios mos-
tradores disponibles. El tiempo necesario para atender un cliente es variable
(probabilístico) y depende de la cantidad de equipaje, la complejidad de la con·
traseña y así sucesivamente. El administrador de esta operación puede estar in·
teresado en las probabilidades de tener distinto número de clientes en espera,
o la probabilidad de que el cliente tenga que esperar en la fIla más de cinco mi·
nutos. Debido a la complejidad de un sistema tal, es imposible-excepto en casos
muy sencillos-estimar dichas probabilidades por métodos analíticos. 1 Por otra
parte, es posible simular tal sistema de espera y estimar las probabilidades con
el método de Montecado. En las próximas páginas se dará un ejemplo.
Para entender la idea de Mantecado, considere un problema muy sencillo,
como es determinar las probabilidades de las varias cantidades de caras que se

1. Un procedimiento alternativo es el de especificar un intervalo simétrico respecto aMo


(v.g., M o + Q, la desviación cuartilica) tal que haya la misma probabilidad de que la va-
= =
riable desconocida esté o no en el intervalo. Entonces Q 2/3So o So 3/2 Q. Esto se
deduce del hecho de que la distribución normal tiene cerca de la mitad de su área en el
intervalo Mo ± 2/3 So (ver el Apéndice B en el capítulo 5 para más detalles).

439
440 Los métodos de Montecarlo en la toma de decisiones

obtienen en cinco lanzamientos de una moneda no cargada. En el capítulo 3


calculamos tales probabilidades utilizando la distribución binomial. En con-
traste, el enfoque del método de Montecarlo podría ser un procedimiento co-
mo el que sigue: 1) obtener una moneda no cargada; 2) tirar la moneda cinco
veces, anotando el número de caras que ocurren; 3) repetir ese paso 10,000
veces. La frecuencia relativa de ocurrencia de una cara, dos caras, etc., en las
10,000 series de lanzamientos debería ser una estimación cercana a las proba-
bilidades correspondientes.
En esa forma el método de Montecarlo provee estimaciones empíricas de-
terminadas por algún procedimiento aleatorizado tal como los lanzamientos de
monedas o las vueltas de una ruleta (lo que dio origen al nombre de Monte-
carlo).
Por supuesto que el proceso de Montecarlo no se utilizaría en un pro-
blema tan trivial. Además, el uso de dispositivos aleatorizados tal como las
monedas que se lanzan o las ruedas giratorias de una ruleta, no es práctico, por
lo que generalmente se utilizan tablas de números aleatorios o números
aleatorios generados por computadora. Puesto que se requieren muchas prue-
bas, el desarrollo de las computadoras ha estimulado mucho la utilización de es-
te método de simulación en la industria.

MUESTREO DE MONTECARLO OBTENIDO A PARTIR DE UNA DISTRIBU-


CION mSCRETA
Para ilustrar el procedimiento de Montecarlo y su aplicación a los proble-
mas de decisión en la administración de negocios, considere un ejemplo en el
control de producción. Una compañía ha recibido una orden especial de nueve
unidades de una pieza dada. La parte en cuestión se fabrica en dos etapas, sien-
do la primera la operación de fundición, y la segunda, el proceso de fresado de
acuerdo a ciertas especificaciones. La fundición de un conjunto de unidades se
realiza a un tiempo, con un costo de iniciación del proceso de $300 más $100
por cada unidad fundida. Luego se realiza el fresado individual a un costo adicio-
nal de $100 por unidad. Al final de la operación de fresado de cada parte, se la
inspecciona para determinar si cumple con las especificaciones. Cuando se han
producido nueve unidades en forma satisfactoria se interrumpe el fresado.
La operación de fresado es difícil de controlar, y anteriormente el 30°,b
de los artículos resultaban defectuosos (o sea que no cumplían con las especifi-
caciones). Los defectos ocurren al azar, por lo que el gerente espera el mismo pa·
trón de ocurrencia para esta nueva orden.
El problema es determinar qué tan grande debe ser el conjunto de unida-
des fundidas y el costo total de surtir la orden.
Si se funden demasiadas partes, se pierden los $100 del fundido de cada
parte perdida, puesto que las que sobran no tienen valor.
Por otro lado, si se funden muy pocas, y no se logra fresar nueve unidades
buenas, se debe fundir un nuevo conjunto, incurriendo de nuevo en el costo de
iniciación de $300. Suponga que el gerente decide que se fundirán 13 partes.
Examinaremos las implicaciones de esta política eOn cuanto a costo, utilizando
el método de Montecarlo.
Muestreo de Montecarlo en una distribución discreta 441

En la tabla 15-1, se escoge un dígito aleatorio entre O y 9 del Apéndice L


para cada artículo a fin de simular la operación de fresado. Puesto que
la probabilidad de que una unidad esté defectuosa es 30%, se asignan
los dígitos 1, 2 Y 3 a la categoría defectuosa y el resto (del 4 al 9 y el O)
se asignan a la categoría buena. Por ejemplo, en la prueba 1 el primer
número aleatorio es 7, lo que indica que se ha fresado una parte buena;
el segundo dígito es 2 indicando que hay una parte defectuosa (marcada

Tabla 15-1
SIMULACION DE MONTECARLO DE UNA OPERACION
DE PRODUCCION
Política: fundir un grupo de 13 unidades

Costos

Fundición

por P,-esa.do
Prueba Números aleatorios* Iniciación pfJr unidad Total
unidad

1 7 (6) 7 6 4 5 <D 6 9 4 (6) 9 - $300 $1,300 $1,200 $2,800


2 5 (] 5 6 6 8 5 (] 4 O O - - 300 1,300 1,100 2,700
3 O 9 a>(] 7 O 8 4 O 7 Q)Q)Q) 300 1,300 1,300} 3,500
Segunda ronda: 8 - 300 200 100
4 9 d}6 a>40 8 9 9 6 4 300 1,300 1,100 2,700
5 Q)Q)Q) 7 4 a> 9 5 7 6 (] 5 <D 300 1,300 1,300} 4,000
Segunda ronda: (6) 6 <D O 300 400 400

Promedio (5,000 pruebas) = $3,136

* Los números encerrados en círculos indican partes defectuosas; los guiones indican partes
fundidas pero no fresadas.

con un círculo), y así sucesivamente. Cuando se ha obtenido el doceavo


número, se ha obtenido la novena parte buena, por lo que se ha com-
pletado la orden. La treceava parte fundida no se fresa. El costo total
para la prueba 1 se calcula en la parte derecha de la tabla 15-1. Este
costo incluye el costo de inicio de la fundición ($300), el costo de fun-
dición de 13 unidades (13 veces $100), y el costo del fresado de 12
unidades que se requirieron para producir 9 partes buenas (12 veces
$100) .
En la prueba -2 se repite este proceso, pero en este caso sólo se nece-
sitó fresar 11 partes para producir las nueve buenas. En la prueba 3,
sólo 8 partes del primer conjunto de 13 resultaron buenas. Por lo tanto,
debe repetirse la operación de fundición. El gerente afronta entonces
la decisión de cuántas partes fundir en la segunda vuelta. Supongamos
que utiliza la regla de decisión de que fundirá en la segunda ronda, el
doble del número de partes que le faltan -en este caso deberá fundir
dos, puesto que le falta una parte-o En la segunda ronda, la primera
442 Los métodos de Montecarlo en la toma de decisiones

parte de las dos que se han fundido se fresa satisfactoriamente. El costo


total de esta prueba es $3,500. La tabla 15-1 muestra sólo las pruebas
1 a 5, pero el proceso en la computadora se repite 5,000 veces (5,000
pruebas). El costo promedio para esas 5,000 pruebas para la política
dada (fundir 13) es $3,136. Esta es la estimación de Montecarlo del
costo esperado de utilización de esa política. 2
En este ejemplo no se utilizó el proceso de Montecarlo para estimar
directamente las probabilidades de varias cantidades de partes defec-
tuosas, sino para estimar el costo esperado como función de esas proba-
bilidades, puesto que es el costo el que interesa al gerente.
Los costos esperados para otras tres políticas, estimados en forma
similar a partir de 5,000 pruebas, se muestran en la tabla 15-2. Los
costos de fundir menos de 12 partes o más de 15 aumentan progresi-
vamente. Note que la política de fundir 14 unidades tiene el menor
costo estimado y por tanto constituye la mejor decisión para la gerencia
utilizando el método de Montecarlo. 3

Muestreo a partir de una distribución de


probabilidad acumulativa

En el ejemplo anterior se utilizó el procedimiento de M on tecarlo


para disimular pruebas binomiales ( defectuoso o bueno). Podemos ir
más adelante y aplicar el mismo método a cualquier distribuci6n de
probabilidad. Primero lo hacemos para distribuciones discretas, y en la
próxima sección para distribuciones continuas.

2. La distribución normal es a lo sumo una aproximación a la distribución postulada pro-


pia. Esta distribución es continua, mientras que muchas de las distribuciones de la toma
de decisión son discretas (por ejemplo: las ventas son en unidades enteras). También la
distribución normal tiene extremos que van en ambas direcciones indefinidamente,
aunque las probabilidades en esos extremos son muy pequeñas. Generalmente, nos
gustaría truncar nuestra distribución de decisiones en ciertos puntos por ejemplo:
las ventas no pueden ser negativas, de manera que las probabilidades de ventas negativas
deberían ser cero). A pesar de esas pequeñas inconveniencias, la distribución normal es
bastante adecuada en muchas situaciones.

3. O para garantizarle una ganancia si decide no actuar, cuando de hecho se podría haber
obtenido una ganancia. En otras palabras, el seguro pagaría el costo de oportunidad.
Como ejemplo práctico de una situación tal, considere lo sigiente de un artículo to-
mado de primera plana del The Wall Street Journal del 6 de diciembre de 1966; "La
compañía Good Weather, lnc., agencia de seguros de Long lsland que se especializa
en riesgos poco usuales, dice que en los pasados seis años, un importante fabricante de
qulces ha comprado tina póliza de seguro contra lluvia o nieve en el Día de San Valen-
tín. Henry Fox, el presidente de la compañía, dice: "puesto que la compra de dulces es
impulsiva, las tiendas minoristas de la compañía quedarían con una gran cantidad de
dulces si el tiempo fuera malo. Además la gente, después del Día de San Valentín, no
compraría dulces en las cajas en forma de corazón, por temor a que estuvieran pasados.
De manera que se asegura al fabricante contra el gasto de transferir los dulces a las cajas
normales. La póliza es por casi $ 250,000 Yla primera es de $10,000 Cubre varias ciu-
dades en el noreste y la compleja fórmula de pago está basada en la cantidad de nieve o
lluvia y en el número de horas que nieva o llueve."
Muestreo de Montewrlo en una distribución discreta 443

Tahla 15·2
COSTOS ESTIMADOS PARA CUATRO POLITICAS
Simulación de Montecarlo para una. operación
de producción
Política Costo {'stimado

Fundir 12 unidades $3,165


Fundir 13 unidades 3,136
Fundir 14 unidades 3,132
Fundir 15 unidades 3,178

Como ejemplo, suponga que sabemos que las ventas diarias de un


producto tienen la distribución de probabilidad discreta, dada en la
tabla 15-3 y que las ventas son independientes día a día. Nuestro pro-
blema es muestrear a partir de esa distribución para obtener un registro
específico de ventas. El primer paso es calcular la distribución de pro-
babilidad acumulativa como se muestra en la tabla 15-3. Luego selec-
cionamos una tabla de números aleatorios tal como el apéndice L. Puesto
que las probabilidades en la tabla 15-3 tiene tres dígitos significativos,
seleccionamos un conjunto de números aleatorios utilizando también tres
dígitos (o sea números aleatorios -del 000 al 999). Entonces se asignan
los. números aleatorios a los distintos eventos (unidades vendidas) que
correspondan a las probabilidades acumulativas. En esa forma, los 25
números aleatorios del 000 al 024 se asignan al evento "50 unidades
vendidas"; los siguientes 225 números aleatorios, del 025 al 249 se asignan

Tabla 15·3
DISTRIBUCION DE PROBABILIDAD DE VENTAS

Ventas Asignaciones
Probabilidad
diarias, de números
Probabilidad acumulativa
unidades aleatorios

SO .025 .025 000 to 024


51 .225 .250 025 to 249
52 .350 .600 250 to 599
53 .250 .850 600 to 849
54 .125 .975 850 to 974
55 .025 1.000 975 to 999
1.000

al evento "51 unidades vendidas"; y así sucesivamente. Procedemos en·


tonces a extraer números aleatorios de 3 dígitos de una tabla de números
aleatorios. Cada número aleatorio determinará una cautídad de ventas
diarias, puesto que cada número de 3. dígitos está asignado a un nivel
de ventas. El primer número aleatorio extraído es 504. Este número
queda dentro del grupo 250 a 599 que corresponde a ventas de 52 uni-
dades (ver tabla 15-3). El segundo número aleatorio es 113, que está
444 Los métodos de Montecarlo en la toma de decisiones

en el grupo 025 a 249 y corresponde a ventas de 51 unidades. Continua-


mos con este proceso de extracción de números aleatorios y generación
de un registro de ventas tal como se muestra en la tabla 15-4.
Note que la probabilidad de extraer, por ejemplo, 52 unidades vendidas
en una fecha dada es exactamente igual a la probabilidad mostrada en
la tabla 15-3, puesto que 350 números en 1,000 se asignaron a este evento
-ventas diarias de 52-. La columna 3 en la Tabla 15,4 representa una
historia de ventas generada artificialmente.
Esta historia de ventas podría utilizarse en un modelo de simulación
para estudiar control de inventarios o de producción, o la política de
compras para un producto dado. También podría ser una entrada para
un modelo de simulación complejo de toda la firma.
Tabla 15-4
SIMULACION DE MONTE CARLO DE VENTAS DIARIAS

Númer-o
Dia aleatorío Ventas

1 504 52
2 113 • 51
3 360 52
4 559 52
5 149 51
6 837 53

MUESTREO DE MONTE CARLO OBTENIDO A PARTIR


DE UNA DISTRIBUCION CONTINUA

Cuando tratamos de obtener situaciones aleatorias de una distribución


continua, el análisis es básicamente el mismo que para las distribuciones
discretas. El primer paso es determinar la distribución de probabilidad
acumulativa para la variable aleatoria en cuestión. Como ejemplo, su-
pongá. que el gerente de las operaciones de revisión de boletos de una
aerolínea sabía que los pasajeros llegaban al azar para que se les revisara
la contraseña: a una tasa promedio de 18 por hora. Si las llegadas fueran
deveras al azar e independientes, el tiempo entre llegadas sucesivas (el
tiempo ,entre llegadas t) sigue una distribución exponencial (ver el capí-
tulo 6). Con una tasa de llegada de 18 por hora, el tiempo medio entre
llegadas es 1/18 = 0.0556 -horas ó 3.33 minutos. La t se puede describir
por la distribución exponencial acumulativa mostrada en la figura 15-1.
La figura muestra la probabilidad de que el tiempo entre llegadas sea
igual o menor que el número indicado de minutos.
Note que para cada valor de la probabilidad acumulativa existe un
valor correspondiente de t. También la probabilidad acumulativa va de
O a 1. Seleccionando un número aleatorio entre O y 1, podemos encontrar
Muestreo de Montecarlo en la distribución continua 445

Probabilidad
,1
acumulativa
(tiempo t)

~
1.00
(

.50

II.........._L-......L._.L.J.......L._'--......L._'---'-_'--......L._'--- t
2 3 4 5 6 7 8 9 10 11 12
Tiempo entre llegadas (minutos)

Figura 15·1
DISTRIBUCION EXPONENCIAL ACUMULATlVA
Tiempo entre llegadas

un valor asociado de t. En esa fo,rma, si seleccionamos el número alea-


torio 73 ó 0.73, el valor asociado de t es 4.3, como se muestra mediante
las líneas punteadas en la figura 15-1. Mediante la selecciónTepe~ida
de números aleatorios, podemos generar series completas de valores de t.
La serie de tiempos entre llegadas (columna tercera en la tabla 15-5)
Y la respectiva cronología de llegadas (última columna) representan
una muestra aleatoria para la distribución exponencial.
Veremos ahora cómo esta cronología de llegadas se puede utilizar
para tomar decisiones administrativas concernientes a la organización de
las operaciones de revisión de boletos de avión.

La toma de decisioneil en problemas de líneas


de espera (colas)
Las colas, o líneas de espera, s(>n fenómenos comunes en muchas
situaciones donde hay eventos aleatorios o no programados. Las líneas
de espera son fenómenos familiares en las b2lrberías, supermercados, alma-
cenes de herramientas en las fábricas, conmutadores telefónicos, talleres
de reparación, y otra gran variedad de situaciones. En todos estos casos,
la gente, las llamadas telefónicas o, las máquinas "llegan" en forma un
poco aleatoria a una "estación de servicio" donde deben esperar su tur-
no para ser "atendidas". El tiempo que toma la espera o el servicio de
un individuo puede ser también una variable aleatoria. La teoría de
446 Los métodos de Montecarlo en la toma de decisiones

las colas es el estudio de las probabilidades asociadas con el largo de la


cola y el tiempo que debe esperar un individuo en el sistema de colas.
Tabla 15-5
SIMULACION DE UNA SECUENCIA DE LLEGADAS
Utilizando números aleatorios y una distribución de probabilidad

Tiempo de /legada =
Tiempo aleatorio tiempo de la /legada
entre llegadas de anterior + tiempo
Número de llegada Número aleatorvo la figura 15--1 entre llegadas

o 0:00.0
1 .73 4.3 0:04.3
2 .04 0.1 0:04.4
3 .97 11.3 0:15.7
4 .38 1.6 0:17.3
5 .68 3.8 0:21.1
6 .26 1.0 0:22.1

Como ejemplo, suponga que el gerente de la operaclOn de revisión


de boletos descrita en la sección anterior trata de decidir la apertura de
un nuevo mostrador en un momento dado del día. En el lenguaje de la
teoría de colas, cada mostrador de revisión de boletos se denomina
un canal. Por lo tanto, el administrador está tratando de decidir entre un
un sistema de un canal y otro de dos canales. Suponga que él sabe que
el tiempo entre llegadas tiene una distribución exponencial, como en el
caso anterior. Suponga además, que el tiempo necesario para atender a
un cliente (el tiempo de servicio, en la terminología de colas), es una
constante de tres minutos por cliente. Veamos en la tabla 15-5 los
efectos que tiene en este sistema la secuencia de llegadas generada por
el método de M on tecarlo.
Esto se muestra primero para el caso de un canal en el diagrama
esquemático, figura 15-2. El tiempo se ha marcado sobre una escala
continua que va hacia abajo del diagrama. Las llegadas se muestran
en el momento en que entran al sistema; van directamente al servicio
sin espera (por ejemplo, las llegadas 1 y 3) o deben esperar en la cola
hasta que el canal de servicio está libre. Por ejemplo, la llegada 2 entra
al sistema en el instante 0:04.4. Pero el servicio empezó en el No. 1 a
O: 04.3 y continúa hasta O: 07.3, un tiempo de servicio de tres minutos.
Así, el canal de servicio queda libre a las O: 07.3 Y la No. 2 puede ser
atendida. El tiempo de espera para la No. 2 es entonces 2.9 minutos
(su tiempo de inicio de servicio O: 07.3 menos su tiempo de llegada
0:04.4). Note que cuando ocurre una llegada puede haber ya más de
un individuo. Por ejemplo, en el momento O: 30.0 cuando ocurre la
llegada No. 11, ya hay tres individuos antes (además del que está siendo
atendido )..
Muestreo de Montecarlo en la distribución continua 447

Ya que sería muy tardado continuar el procedimiento esquemático


empleado en la figura 15-2, hagamos lo mismo de otra forma, según la
tabla 15-6. En esta tabla el "tiempo de inicio del servicio", columna 3,
para el caso de un canal es simplemente 1) el tiempo de llegada o 2)
el "tiempo de inicio del servicio" para la llegada anterior más tres
minutos, no importa cuál se considere después. Esto implica que una
llegada puede ir directamente al servicio si el canal está libreo debe
esperar hasta que la inmediatamente anterior termina con su servicio. El
tiempo de espera (columna 4) es la diferencia que hay entre el tiempo
de llegada y el "tiempo de inicio del servicio".

llegada
No. Tiempo Escala Tiempo de Tiempo en que
0:00.0 de Tiempo espera (minutos) se inicia el servicio
000
:

1 0:04.3
0:04.3
0:04.4
1:'9
2 0:05

0:07.3

0=10 0:10.3*

0:15
3 0:15.7 O 0:15.7
4 0=17.3
, 11.4
0:18.7
0:20
5 0:21. 1 0;6
6 0:22.1 0:21.7

12.6
0:2'> 0:24.7
7 0:25.4
8 0:26.3
9
10
0:27.4
0:27.5
12.3 0:27.7

11 0:30.0 0:30- 4.4


0:30.7

6.3
0:33.7
0:35
9.2
O:36.7

9.7
0:40 O:39.7

Tiempo en que se completa el servicio para el segundo pasajero 0:42.7

Figura 15-2
DIAGRAMA ESQUEMATlCO DE LA SITUACION DE COLAS
EN UN CANAL
Tabla 15-6
SIMULACION DE UNA SITUACION DE ESPERA (COLAS)

Llegada Caso de un canal Caso de dos canales


(1) (2) (3) (4) (5) (6)
lVúmero de Tiempo de Tiempo ·de inicio Tiempo de Tiempo de inicio Tiempo de
llegada llegada del servicio espera del servicio espeTa

1 0:04.3 0:04.3 O 0:04.3 O


2 0:04.4 0:07.3 2.9 0:04.4 O
3 o: 15.7 O: 15.7 O O: 15.7 O
4 O: 17.3 O: 18.7 1.4 o: 17.3 O
5 0:21.1 0:21.7 0.6 0:21.1 O
6 0:22.1 0:24.7 2.6 0:22.1 O
7 O: 25.4 0:27.7 2.3 O: 25.4 O
8 0:26.3 0:30.7 4.4 0:26.3 O
9 0:27.4 0:33.7 6.3 0:28.4 1.0
10 0:27.5 0:36.7 9.2 0:29.3 1.8
11 0:30.0 0:39.7 9.7 o: 31.4 1.4
12 0:35.5 0:42:7 7.2 0:35.5 O
13 0:40.2 0:45.7 5.5 0:40.2 O
14 0:48.2 0:48.7 0.5 0:48.2 O
15 0:48.4 0:51.7 3.3 0:48.4 O
16 0:48.5 0:54.7 6.2 O: 51.2 2.7
:17 0:49.0 0:57.7 8.7 O: 51.4 2.4
18 0:49.1 1 :00.7 11.6 0:54.2 5.1
19 0:49.6 1: 03.7 14.1 0:54.4 4.8
20 0:50.1 1 :06.7 16.6 0:57.2 7.1
21 0:53.6 1 :09.7 16.1 0:57.4 3.8
22 1 :00.5 1: 12.7 12.2 1 :00.5 O
23 1 :04.0 1: 15.7 11.7 1 :04.0 O
24 1 :06.7 1: 18.7 12.0 1: 05.7 O
25 1 :07.0 1:21.7 14.7 1: 07.0 O
26 1: 12.0 1: 24.7 12.7 1: 12.0 O
27 1: 12.1 1: 27.7 15.6 1: 12.1 O
28 1: 16.8 1: 30.7 13.9 1: 16.8 O
29 1: 18.0 1: 33.7 15.7 1: 18.0 O
30 1: 24.7 1: 36.7 12.0 1: 24.7 O
31 1: 25.7 1: 39.7 14.0 1: 25.7 O
32 1: 28.2 1 :42.7 14.5 1: 28.2 O
33 1: 31.8 1 :45.7 13.9 1 : 31.8 O
34 1 : 31.9 1:48.7 16.8 1:31.9 O
35 1 : 35.4 1 :51.7 16.3 1 :34.8 0.6
36 1: 36.0 1: 54.7 18.7 1 :36.0 O
37 1: 36.1 1: 57.7 21.6 1: 37.8 1.7
38 1: 51.2 2:00.7 9.5 1: 51.2 O
39 1: 53.1 2:03.7 10.6 1: 53.1 O
40 4:05.2 2:06.7 1.5 2 :05.2 O
41 2: 11.3 2: 11.3 O 2: 11.3 O
.42 2: 21.5 2: 14.3 1.8 2: 12.2 O
43 2: 21.5 2: 21.5 O 2: 21.5 O
44 2: 21.9 2: 24.5 2.6 2: 21.9 O
45 2:26.9 2: 27.5 0.6 2:26.9 O
46 2: 36.0 2: 36.0 O 2: 36.0 O
47 2: 38.0 2: 39.0 1.0 2:38.0 O
48 2:44.2 2:44.2 O 2:44.2 O
49 2:44.7 2 :47.2 2.5 2:44.7 O
50 2: 45.5 2:50.2 4.7 2:45.5 O
Suma de los últimos 40 elementos ........ 370.6 29.6
Promedio de espera ..................... 9.62 0.74
Muestreo de Montecarlo en la distribución continua 449

Para el caso de dos canales, usamos la misma secuencia de llegadas.


Sin embargo, el "tiempo de inicio del servicio" (columna 5). por ejemplo
para la n-ava llegada es ahora descrito como 1) el tiempo de llegada
o 2) el "tiempo de inicio del servicio" para la (n - 2) -ava llegada (o
sea, la llegada antes de la última) más tres minutos, sin importar cuál
se consid,ere después.
Ya que existen dos canales, una llegada tendrá que esperar solamente
si hay dos canales que están siendo utilizados. Y si ambos canales están
en uso, debe esperar solamente hasta que la penúltima llegada haya
terminado antes de que pueda empezar a ser servida.
El tiempo de espera (columna 6) para el caso de dos canales es,
como anteriormente, la diferencia que hay entre el tiempo de llegada
y el "tiempo de inicio del servicio" para cada llegada.
En la tabla 15-6, simulamos los tiempos de espera de 50 llegadas
cubriendo 165 minutos. Por supuesto, podríamos continuar la simula-
ción para cualquier número de llegadas. Deseamos comparar el compor-
tamiento del sistema de un canal con el de dos canales. Debiéramos
hacer esta comparación cuando ambos sistemas están en equilibrio, o
sea, cuando han estado en operación lo suficientemente para que sean
independientes de las condiciones iniciales (por ejemplo, el comienzo
del proceso de colas sin que haya líneas de espera). Por esta razón
excluiremos de nuestra consideración las primeras diez llegadas. Com-
parando el comportamiento de los dos sistemas para las llegadas 11 aSO,
vemos que el promedio de espera. es de 9.62 minutos con el sistema de
un canal y se reduce a 0.74 minutos con el sistema de dos canales. Por
supuesto, estas estimaciones están basadas en una muestra relativamente
pequeña de legadas y debemos llenar la tabla 15-6 con muchas más obser-
vaciones antes de tomar una decisión acerca de los méritos relativos de
los sistemas de uno y. dos canales.
Note que, en este ejemplo, la simulación significa la representación
en el papel de un sistema del mundo real. El modelo de simulación, así
como otros modelos, solamente puede aproximarse a los elementos del
mundo real, pero la experiencia real es difícil o imposible de obtener
(por ejemplo, ¿por qué construir un nuevo canal para determinar si
éste es necesario?); un conjunto de modelos que incluyen diferentes
postulados pueden proporcionar una serie de representaciones muy va-
liosas.

Análisis de Montecarlo en los árboles de decisión


En muchos problemas de decisión, las probabilidades de los eventos
en un nudo dado del árbol de decisión se puede expresar por una dis-
tribución de probabilidad continua (denominada abanico), en vez de
un conjunto de eventos y probabilidades discretos. En este caso, no es
posible calcular valores esperados por el proceso normal de multiplicar
probabilidades por beneficios y sumar. Sin embargo, en estos casos, se
450 Los métodos de Montecarlo en la toma de decisiones

puede utilizar el método de Montecarlo pMa estimar los valores esperados.


Como ejemplo, considere a un fabricante que debe comprar equi-
po para fabricar un nuevo producto. Hay disponibles dos tipos de equipo.
La máquina tipo A se opera principalmente en forma manual. Cuesta
sólo $20,000 pero tiene un costo variable alto de $4.50 por unidad.
Además, esta máquina sólo puede producir 10,000 unidades anuales.
Se pueden producir 5,000 unidades adicionales en tiempo extra a un
costo de $6.75 por unidad.

Probabilidad acumulativa
(Demanda X)
1.0

.75

.50

.25

5 10 j5 20 25 X
Demanda (miles de unidades)

Figura 15-3

Por otra parte, la máquina tipo B es más automatizada pero cuesta


$40,000. Puede producir· hasta 15;000 unidades anuales a un costo de
$2.50 cada una, y 7,500 unidades adicionales entiernpo extra a un
costo de $3.75 cada una.
El precio de venta del nuevo produCto se ha fijado en $8.50 por
unidad, pero hay una considerable incertidumbre respecto a la demanda
Muestreo de Montecarlo en la distribución continua 451

del producto. La administración ha expresado esta incertidumbre subje-


tivamente en forma de distribución de probabilidad continua acumu-
lativa mostrada en la figura 15-3. Note que esa gráfica implica que hay
un 50% de probabilidades de que la demanda sea de 7,000 unidades o
menos, un 25% de probabilidades de que la demanda sea 4,000 uni-
dades o menor, y un 75% de probabilidades de que la demanda sea
12,000 unidades o menos. Sin embargo, hay alguna probabilidad de que Ja
demanda pueda ser hasta de 25,000 unidades.

D:~--+------Ganancia

~_ _co_m...:p_ra_r_la_m_á...:q_ui_na_B_, );~:-.-+ Ganancia

La ganancia es O

Figura 15-4.

El árbol de decisión para este problema se muestra en la figura 15-4.


Aquí se expresa en forma de abanico la incertidumbre respecto a la
demanda, indicando que la demanda puede adoptar cualquiera de los
valores que van de O a 25,000 unidades.
El beneficio que se encuentra al final de las ramas de la figura 15-4
depende del nivel específico de demanda. El ingreso es $8.50 por unidad,
pero el costo depende de si la unidad fue producida o no en tiempo
extra. Además, una vez que se llega al límite del tiempo extra, na se
pueden producir más unidades y se pierden ventas. En particular, la
452 Los métodos de Montecarlo en la toma de decisiones

máquina A no puede producir más de 15,000 unidades.


Las funciones específicas de beneficio esperado se muestran abajo
y están graficadas en la figura 15-5. Note que "las funciones de beneficios
se componen de segmentos lineales. 4 La variable X representa la deman-
da desconocida en unidades.

Beneficios
(miles de dólares)
100

,--
60 /
/
//,
/ Máquilla B
60 /
/
/
/
/
40 / Máquina A
/
/
/
20

-20

-40 I'- L.._ _--'L--_ _--l --L -l._


O 5 10 15 20 25
x
Demanda (miles de unidades)

Figura 15-5

4. Puesto que quizá esas horas estarían distribuídas en varios años, es apropiado utilizar
procedimientos de descuento. Además, los factores tríbutariosasociados con la depre-
ciación son pertinentes a la decisión. Hemos omitido esos factores para concentrarnos
en el análisis de las decisiones. Ver N. Hadan, C. Christenson, and R. Vallcil, Managerial
Economics: Text and Cases (Homewood, 1Il.: Richard D. Irwin, 1962), pp. 239-65,
para un estudio sobre esos tópicos.
Muestreo de Montecarlo en la distribución continua 453

Funciones de beneficios para la máquina A


71" = 8.50 X - 4.50 X- 20,000
= -20,000 + 4.00 X si Xs 10,000
71" = 8.50 ( 10,000) - 4.50 (1 ° 1°00)
+8.50(X -' 10,000)
-6.75(X - 10,000) -- 20,000
= 20,000 + 1.75(X - 10,000) SI 10,000 < X S 15,000
7r = 28,750 SI X> 15,000

Funciones de beneficios para la máquina B

7r = 8.50X - 2.50X - 40,000


= - 40,000 + 6.00 X SI X S 15,000
71" = 8.50(15,000) ~
2.50(15,000)
+8.50(X - 15,000)
-3.75(X-"' 15,000) --- 40,000
'== 50,000 + 4.75(X - 15,000) si 15,000 < X :S 22,500
'71" = 85,625 SI X >22,500

El método de Montecarlo para este problema implica la extracción


de números aleatol'ios; muestreo de valores de demanda de la figura
15-3, utilizando el procedimiento descrito en la página 427; Y el cálculo
del beneficio asociado con cada nivel de demanda para cada máquina.
Algunas de estas pruebas de Montecarlo se muestran en la Tabla 15-7. 15-7.
Tabla 15-7
ANALIS1S DE MONTECARLQ PARA LA DECISION DE COMPRA
DE UNA MAQUINA
Beneficios
Número lJemanda (unidades)
Prueba aleatorio de la figura 15-3 Máquina A Máquina B

1 .48 6,700 $ 6,800 $


800
2 .38 5,600 2,400 -6,400
3 .75 12,000 23,500 32,000
4 .93 17,700 28,800 62,800
5 .29 4,600 -1,600 -12,400

ómedio (5,000 pruebas ........ 8,290 $ 8,730 $ 9,100

El procedimiento se llevó a cabo por computadora en 5,000 pruebas,


y los resultados se muestran en la última fila de la tabla. Esas son esti-
maciones de la demanda esperada y los b~neficios esperados para las dos
máquinas. Note que la máquina B tiene un beneficio estimado, ligera-
mente mayor que la máquina A. Por lo tanto, si el administrador basara
su decisión en el valor monetario Esperado ( sin considerar el riesgo),
podría escoger la máquina B.
454 Los métodos de Montecarlo en la toma de decisiones

Este método se utilizó para ilustrar el caso de un árbol sencillo (fi-


gura 15-4) pero se puede utilizar exactamente en la misma forma para
árboles más complejos. Además no está limitado a las funciones de bene-
ficios lineal~s por segmentos utilizadas en este ejemplo, sino que se lo
puede usar en funciones de cualquier forma. De hecho, una aplicación
importante es el cálculo de la utilidad esperada, utilizando funciones
de beneficio curvilíneas tales como las que se ilustran en las páginas
180 a 184.

ANALISIS DEL RIESGO

En los ejemplos analizados, se ha utilizado el procedimiento de Monte-


carlo para estimar el beneficio esperado o costo para una alternativa
de decisión dada. Ello es adecuado si se puede utilizar el criterio de
decisión del valor monetario esperado (EMV). Sin embargo, si las can-
tidades de dinero son grandes, y particularmente si hay la posibilidad
de pérdidas, a quien decide, le preocuparán las probabilidades de los
diversos pagos totales así como el beneficio esp!(rado. 5 Cori.ociendo esas
prob~bilidades, puede determinar la cantidad de riesgo implicada en
una decisión dada. El .análisis del riesgo es un procedimiento para esti-
mar las probabilidades de obtener ganancias utilizando el método de
Montecarlo.

Un ejemplo de inversión de capital

Una de las aplicaciones más importantes del ananSlS del riesgo es


la evaluación de las inversiones importantes decapita!. Tales inversiones
pueden implicar estimaciones de varios factores desconocidos. Por ejem-
plo, el departamento de mercadeo de una compañía puede estimar el
precio de venta y la demanda del mercado para el nuevo producto,así
como el crecimiento del mercado, la posible captación de una parte del
mercado, y la vida del producto. Los departamentos de contabilidad e
ingeniería pueden suministrar estimaciones del costo de la inversión, y
costos variables y fijos de manufactura. Cada una de esas estimaciones
es incierta, pero la incertidumbre se puede describir por medio de una
distribución de probabilidades para cada factor.
El problema del gerente general es evaluar la rentabilidad global del
proyecto y determinar el riesgo. O sea, debe agrupar las estimaciones
de probabilidad para los diversos factores, para poder estimar las pro-
babilidades de los distintos niveles de ganancia y el beneficio esperado.
Para ilustrar esta técnica, considere una inversión que tiene sólo
dos factores inciertos, el costo unitario y el nivel de ventas para el nuevo

5. En los problemas de dos acciones, la pendiente de las partes que no son cero de las
funci6n de costos dc oportunidad es siempre la diferencia existente entre las pendientes
de las funcioncs dc ganancia o costo. En los cjemplos anteriores la pendiente de una de
las funciones de ganancia era cero, por lo que no tuvimos que hacer este punto.
Análisis del riesgo 455

producto. Suponga que las estimaciones para esos factores se dan como
las distribucion~s de probabilidad de las tablas 15-8 y 15-9. Suponga
también que el precio de venta es alrededor de $5 por unidad, que el
costo de la inversión es conocido y alcanza una cantidad de $10,000. Si
e representa el costo unitario y S las ventas (en miles de unidades), la
ganancia (en miles de dólares) es:

Ganancia = S(5 - C) - 10

Supongamos que el nivel de ventas y el costo unitario son indepen-


dientes. Este es un supuesto importante, que podría no ser cierto si, por
ejemplo, hubiera economías de escala (a más unidades producidas, de-
crece el costo unitario). El supuesto de independencia nos permite mues-
trear independientemente, por medio del método de Monte Carlo, las
wntas y el costo.

Tabla 15·8
DISTRIBUCION DE PROBABILIDAD PARA EL COSTO
VARlABJ_E POR UNIDAD

Probabilidad l\l úmero aleatorio


Costo Probabilidad acumulativa asignado

$2.00 . .10 .10 Ol a la


2.50 . .20 .30 11 a 30
3.00 " .40 .70 31 a 70
3.50 . .20 .90 71 a 90
4.00 .. '.10 1.00 91 a 99
1.00 (y 00)

Por lo tanto extraemos dos números aleatorios, utilizando las tablas


15..8 y 15-9, Y encontramos los valores asociados para las ventas y el costo.
Esos valores se combinan, utilizando la fórmula anterior para obtener la
ganancia como se muestra en la tabla 15-10. Este proceso se repite 25
veces. En la práctica, haríamos más pruebas, pero las 25 servirán para
ilustrar el procedimiento.
El siguiente paso es clasificar las 25 cifras de ganancias (última co-
lumna de la' tabla 15-10) en una distribución de frecuencias. Esto se
hace en la tabla 15-11.
Las frecuencias relativas (última columna de la tabla 15-11) repre-
sentan estimaciones de las probabilidades de los distintos niveles de
ganancia. En esa forma hay una. probabilidad de los distintos niveles
de ganancia. En esa forma hay una probabilidad estimada del 12% de
tener una pérdida y un 16% de probabilidad de una ganancia de $20,000
o más. El encargado de decidir puede utilizar esta información, junto
456 Los métodos de Montecarlo en la toma de decisiones
Table 15-9
DlSTRIBVCION DE PROBABILIDAD PARA VENTAS
UNITARIAS
Probabilidad Número aleatorio
Ventas Probabilidad acumulativa asignado

2,500 .... .05 .05 01 a 05


5,000 ... '. ........ .10 .15 06 a 15
7,500 ............ .25 .40 16 a 40
10,000 ............ .25 .65 41-a 65
12,500 ............ .15 .80 66 a 80
15,000 ............ .06 .86 81 a 86
17,500 ........... .05 .91 87 a 91
20,000 ........... .03 .94 92 a 94
22,500 .......... .02 .96 95 y 96
25,000 ..):'. ....... .02 .98 97 y 98
27,500 . ........ .01 .99 99
30,000 ........... .CI 1.00 00
--
LOO

c¿n el beneficio esperado estimado de $12,4-50 en la tabla 15-10,6 para


decidir si esta inversión se realiza o no.
En la práctica, la mayoría de l¿s estudios de riesgo abarcan más de
los dos factores considerados en el ejemplo anterior. Además, la inver-
sión tiene generalmente una vida de varios años e impide cálculos de
descuento o de valor actuaJ.7 Pero la idea básica es la misma de nues-
tw ejemplo, o sea, la de combinar estimaciones de pwbabilidad para
diversos factores componentes y así obtener probabilidades para dife-
rentes niveles de ganancia para la inversión como un todo.

Ejemplo de planeacíón de producción


Como otro ejemplo del mismo enfoque, retorne otra vez al. ejemplo
de las máquinas A y B analizado anteriormente. Suponga que., para la
tabla 15-7 y su extensión a 5,000 pruebas, hemos realizado una distri-
bución de frecuencias para la ganancia de cada máquina, en vez de
calcular solamente el valor esperado. Esas frecuencias para las 5,000
pruebas se muestran en la figura 15-6 en forma de curvas de frecuencia
acumulativa. Mientras que con las dos máquinas se obtenía más o menos
la misma ganancia esperada, hay una diferencia sustancial en el riesgo.

6. En realidad, la normalidad de la distribución posterior es algo insensible a violaciones


en la normalidad de las distribuciones a priori. Schlaifer hace la siguiente afirmación.
"Si la variancia de la verdadera distribución a priori del que decide es grande en compa-
ración con la variancia muestral de X, puede simplificar sus cálculos sin pérdidas signifi-
cativas de exactitud sustituyendo la media y la variancia de su verdadera distribución a
priori en las fórmulas que se aplican a distribuciones normales a priori. ".
Ver R. Schlaifer, Introduction to Statistics for Business Decisions Nueva York:
McGraw-Hill1961), pág. 309.

7 Para consulta, ver R. Schlaifer, Introduction for Business Decisions. pág. 302 y siga.
Análisis del riesgo 457
Tabla 15-10
ANALISIS DE MONTE CARLO PARA LA DECISION DE INVERSION

Primer Segundo Ganancia


número número C"'to S(;,-C)
Prueba aleatorio Ventas S aleatorio unitario e -10,000

1 97 25,000 02 $2,00 $65,000


2 80 12,500 66 3.00 15,000'
3 96 22,500 55 3.00 35,000
4 50 10,000 29 2.50 15,000
5 58 10,000 51 3.00 10,000
6 04 2,500 86 3.50 -6,250
7 24 7,500 39 3,00 5,000
8 77 12,500 51 3,00 15,000
9 09 5,000 01 2.00 5,000
10 61 10,000 24 2.50 15,000
11 67 12,500 70 3.00 15,000
12 84 15,000 36 3.00 20,000
13 06 5,000 54 3.00 O
14 69 12,500 54 3,00 15,000
15 44 10,000 59 3.00 10,000
16 77 12,500 28 2.50 21,250
17 75 12,500 61 3.00 15,000
18 46 10,000 71 3.50 5,000
19 24 7,500 96 4.00 -2,500
20 79 12,500 83 3.50 8,750
21 16 7,500 24 2.50 8,750
22 76 12,500 78 3.50 8,750
23 14 5,000 43 3,00 'o
24 60 '10,000 20 2.50 15,000
25 25 7,500 92 4.00 -2,500
Promedio = $12,450
II

d Por ejemplo, la máquina A tiene un 67% de probabilidad de alguna


ganancia, con un 33% de tener pérdidas, mientras que la máquina B
tiene un 47% de probabilidad de pérdidas. Note también que la máqui-
na B tiene un 20% de probabilidad de una pérdida de más de $20,000,
mientras que no hay probabilidad de tener una pérdida tan grande para
la máquina A.. Por otra parte, la máquina A está limitada a una ganan-
cia máxima de $28. 750 debido a su capacidad limitada (note el abrupto
l(
descenso en la curva acumulativa en este punto), mientras que la má-
1:
:( quina B tiene un 20% de probabilidades de tener ganancias superiores
si a $40,000. Dependiendo de su actitud hacia el riesgo, quien decide puede
le preferir la máquina que le represente menos riesgo, a pesar de que la
ganancia esperada sea ligeramente menor. De hecho, si es enemigo de
correr riesgos, puede preferir la tercer alternativa de la figura 15-4, que
consiste en no introducir del todo el producto y decidirse por una ganan-
cia de cero.
458 Los métodos de Montecarlo en la toma de decisiones

Tabla 15-U
DISTRIBUCION DE FRECUENCIA PARA
LAS GANANCIAS

Ganancia Frecuencia
(miles) Frecuenci:a relativa

-$lOY menos de O 3 .12


Oy menos de$lO 8 .32
$lOy menos de $20 10 040
$20y menos de $30. . . . . . . . . . . . . .. 2 .08
$30y menos de$40 1 .04
$40y menos de $50. . . . . . . . . . . . . .. O O
$50y menos de $60 O O
$60y menos de $70 : 1 .04
Total •......................... 25 1.00

La probabilidad acumulativa de
beneficios es por lo menos X
1.0

.80

.60

.40

.20

o'-- L-. L..-_ _.......L - . - - l _ - - l - - l _......._--1_-...;::.:... X


-40 -20 O 20 • 40 60 80
Beneficios (miles de dólares)

Figura 15·6
PROBABILIDAD ACUMULATIVA DE LAS UTILIDADES
Decísión sobre la adquisición de maquinaria
Problemas 459

RESUMEN

El método de Montecado es un medio sencillo de analizar deci-


siones complejas en la administración de negocios. Este método estima
probabilidades y ganancias esperadas. (o costos) por muestreo empírico
de procesos o distribuciones probabilísticos.
El muestreo de Mon tecarlo a partir de una distribución diflcreta
implica la asignación de números aleatorios a resultados específicos en
proporción a su probabilidad de ocurrencia, la extracción de una se-
cuencia de números aleatorios, y la tabulación de los respectivos resul-
tados. En esta forma, se genera una cantidad de pruebas o una secuencia
de resultados que se pueden usar para estimar valores esperados o pro-
babilidades de eventos complejos. Para distribuciones continuas, el pro-
cedimiento de Mon tecarlo es muy parecido, utilizando números alea-
torios entre cero y uno y una distribución de probabilidad acumulativa.
Una aplicación del análisis de Montecarlo es la solución a problemas
de árboles de decisión, donde la incertidumbre en un nudo dado está
representada por una distribución continua, denominada abanico, y la
función de beneficios (o utilidades) uo es lineal.
Finalmente, el análisis del riesgo es la aplicación del método de
Montecarlo a la determinación del riesgo de un proyecto, mediante
la combinación de las probabilidades de los diversos factores compo-
nentes para formar una distribución de probabilidad para diferentes
niveles de ganancia global.

PROBLEMAS

1. Seleccione una polític~ (es decir, el número de partes a fundir) y realice


20 pruebas de Montecarlo para el ejemplo mostrado en la tabla 15-1, en
el supuesto de que la tasa de partes defectuosas es 40% y el costo de ini-
ciación es sólo $200. A partir de esas 20 pruebas estime el costo esperado
de su política.

2. Refiérase al ejemplo de las pagmas 431-436. Suponga que la demanda iD-


cierta se expresó como una distribución normal con una media de 9,~
unidades y una desviación estándar de 4,000 unidades. Utilice 25 pruebas
de Montecarlo para estimar el costo esperado de cada máquina.

3. Tome como base el problema 2. Para las 25 pruebas, calcule una distri-
bución de ganancias para cada máquina. Luego trace una curva de frecuel:-
cia acumulativa (tal como la de la figura 15-6) para comparar el ~
relativo a cada máquina.

4. Con base en el ejemplo de las pagmas 437-439, suponga que el nn-a tIr
ventas y el costo unitario no eran independientes, sino que estaban rda-
cionados como se muestra en la siguiente tabla:
460 Los métodos de Montecarlo en la toma de decisiones

N iveZ de ventas Probabilidad de un costo unitario de:


(miles de uni~
dades) $1.50 $2 $2.50 $3 $3.50 $4 $4.50

Menos de 10. 11
O O .10 .20 .40 .20 .10
10 Y meno!> de <!O .... O .10 .20 .40 .20 .10 O
20 y más .. .10 .20 .40 .20 .10 O O

Haga 20 pruebas de Montecado para este ejemplo, utilizando ese supuesto


(o sea, haga una tabla similar a la tabla 15-10). Determine la distribución
de frecuencia de las ganancias (similar a la tabla 15-11-) y calcule la ganancia
esperada estimada. ¿ Cómp influye este nuevo supuesto en el riesgo del proyecto?

5. La ganancia (Y) para el resultado de cierta decisión tiene una distribución


normal con media de $20,000 y desviación estándar de $10,000. Suponga que,
para quien decide, la función de utilidad monetaria se puede expresar como
sigue:
u(Y) = 0.5 log (Y + 20) -10 S y::; 60

donde Y es la ganancia en miles de dólares. UtilIzando 15 pruebas de Monte


Cario estime la utilidad esperada para esta decisión.

6. Un inversjonista con $300 considera la .compra de 3 series A, B, y e, que se


venden a $100 cada acción. En la tabla que se muestra a continuación, están
las probabilidades que dio al valor de las series (dividendos mas precio de
mercado) al final de un año.

Probabilidad
Valor al final
del año A B e
$ 90 .. _ . .20 .30
100 ........•........50 .20 .10
110 .40 .20 .10
120 10 .20 .10
130 . .20 .40
Totales 1.00 1.00 1.00

a) Suponga que el inversionista desea comprar una aCClOn de cada serie. Su-
ponga que las series son independientes (es decir, el valor de una al final
del año' no está relacionado con el valor de ninguna otra). Utilice el
análisis de Montecado para calcular la distribución de probabilidad aso-
ciada al valor de la cartera de tres series al final del año. Calcule la media
y la variancia de esta distribución.
b) Compare la media y la variancia de la cartera obtenidas en el inciso a
con las series A y B, pero sí está relacionada con la serie e como se muestra
tres acciones de la serie A, tres acciones de la serie B, o tres acciones de la
serie C.

7. Tome como referencia el problema 6. Suponga que una cuarta serie, la serie D,
está disponible a un precio de $100 por acción y que no está relacionada
con las series A y B, pero si está relacionada con la· serie como se muestra e
por la probabilidad dada en la tabla.
Análisis del riesgo 461

Valor de la serie D al final del año


Valor de la
serie e al Probabilidad
f,nal del año $90 $100 $110 $120 $130 total

$ 90 .......... .20 .10 .30


100 ......... .10 .10
no ...... . . .. ... . .
. .10 .10
120 .......... ... ......
. .10 .10
130 .. ......... .20 .10 .10 .40
-
Probabilidad total .. ...... .20
-.10 -.40 .20 .10 1.00

a) Usando el análisis de Montecarlo, calcule la distribución del valor al


final del año de una cartera compuesta de una acción dPo cada una de las
series A, C y D. DeternlÍne el valor esperado y la variancia de esta dis-
tribución.

bo) Usando el análisis de Montecarlo, calcule la distribución del valor al


final del año de una cartera compuesta por una acción de cada una de
las series B, C y D. Determine el valor esperado y la variancia de esta
distribución.

e) Se define como "eficiente" una cartera de series si no existe otra cartera


con la misma variancia que tenga" mayor valor esperado ---{), alternativa-
mente, si no existe otra cartera con el mismo valor esperado y que tenga
una variancia más baja. ¿ Cuál de las carteras consideradas en los pro-
blemas 6 y 7 son "eficitmtes" en este sentido? ¿ Cuáles no son eficientes?
(Nota: sólo se han considerado las carteras AAA, BBB, cec, ABC, ACD;
y BCD. Existen, desde luego, otras tales como AAB --dos acciones de la
serie A y una de la B, etcétera. Para simplificar, ignore estas posibilidades

8. En la situación típica de inventario de dos alternativas, una orden de reabas-


tecimiento se hace cuando el nivel de inventario llega a una cantidad b. La
orden se hace por una cantidad q, llamada cantidad ordenada. Transcurren
varios días, llamados "tiempos de demora; para que se reciba la orden. Si
durante este tiempo de demora las ventas exceden el nivel de orden b, sobre-
viene la carencia de inventario y las ventas se pierden con un costo k. Gene-
ralmente, el costo de colocar una orden es cO' y el costo de mantenimiento de
una pieza en inventario por una período de tiempo (por ejemplo, un año)
es Ch'
En situaciones normales, se conoce la distribución de probabilidades de
demanda para el producto, así como el tiempo de demora. Se estiman las
constantes c o' ch y k. Luego se deben determinar los valores del nivel de
orden b y la cantidad ordenada q para minimizar el costo en un período
de liempo.
Un método para resolver este problema es simular el sistema de inventario
para: diferentes valores de b y q y utilizar los resultados de la simulación
para determinar Jos valores óptimos de b y q.
Suponga que la demanda diaria para. cierto producto es como se muestra
en la tabla.
462 Los métodos de Montecarlo en la toma de decisiones

Demanda en
unidades Probabilidad

O . 0.10
1 0.30
2 0.20
3 0.10
4 0.10
5 0.10
6 0.05
7 0.05
Total 1.00

El tiempo de demora (el tiempo desde que se hace la orden hasta que
se recibe) es de 20 días. Suponga que los costos por carecer de inventario son
k = $3 por unidad para cada artículo que esté agotado. El costo de un pedido
es Co = $10, y el costo por mantenimiento de una pieza en inventario es 50
centavos por mes (30 días).

a) Suponga que la cantidad ordenada q se' fija en 55 unidades. Simule las


operaciones de 300 días para cada uno de los 3 distintos valores de b,
o sea, el nivel de inventario. Calcule el costo para cada sistema. ¿ Cuál
es el mayor óptimo de b? ¿ Cr~ usted que el valor óptimo de b es mayor
o menor que el valor que usted obtuvo?

b) Seleccione tres distintos conjuntos de valores para q y b. Simule opera-


ciones de 300 días para cada conjunto y calcule el costo del sistema de
inventarios para cada conjunto. ¿Cuál de los conjuntos dio un costo menor?

9. La Compañía Lakes Ore (LOC) desea ampliar a otras zonas el número de


embarques de mineral de hierro. Sin embargo, las instalaciones portuarias son
inadecuadas y sería necesario equipo nuevo. Durante la siguiente estación, la
LOC espera embarcar aproximadamente 108 cargas de mineral durante los
180 días de operaciones máximas, de abril 15 a octubre 12.
La LOC tiene espacio en el muelle para un solo barco y desea minimizar
el tiempo de espera ya que el costo de operación de un barco es de $200
por día.
Se consideraron dos métodos de descarga de barcos. En un método, A, se
utiliza gran cantidad de mano de obra, y se requiere un día y un tercio
(cuatro turnos de 8 hora".) para descargar un barco. Este método costaría
$500 por barco descargado. Por otra parte, el método B es mucho más meca-
nizado y costaría $700 por barco descargado. Sin embargo, los barcos se
descargarían a razón de uno por día (tres turnos).
Suponga que el número de barcos que llegan durante un turno de ocho
horas sigue una distribución de Poisson, con media m = 0.20. Simule 60 días
de operaciones de este sistema, y estime el costo esperado de cada método.

10. Tome como referencia el problema 9. Suponga que en vez de utilizar respec-
tivamente cuatro y tres turnos para la descarga de un buque utilizando los
métodos A y B, los tiempos de descarga siguen las siguientes distribuciones
de probabilidad:
Análisis del riesgo 463

Probabilidad del número


de turnos requer:ido
Número de
turnos Método A Método 11

2.... O .20
3 30 .60
4 , , .40 .20
5 · 30 O
Total. .. .. l.00 1.00

Simule 60 días de operaciones del sistema bajo este supuesto y estime el


costo esperado para cada método. Compare los resultados con los obtenidos
en el problema 9.
ta (
11. La gerencia de una compañía de juguetes planea el horario de producción
rio ~
para un nuevo juguete con anticipación a la Navidad. La producción se debe
ped
completar durante el verano, antes de conocer la demanda del nuevo juguete.
es
Hay dos modelos del juguete, la versión estándar y la de lujo. La de lujo
es básicamente el mismo producto con algunos adornos y pequeñas modifi-
caciones. El costo (C) de producción del juguete se estima como:
ule C(X) = $15,000 + $2X si O ::; X ::; 10,000 unidacl~s
de
¿Cu
C(X) =$25,000 + $2X si 10,000 <
X ::; 25,000 unidades
may donde X es el número total de unidades (estándar y de lujo) producidas. Tam-
bién, hay costos adicionales de $1 por cada unidad de lujo producida.
El precio de venta es de $5 por unidad del modelo estándar y $7 por unidad
oper del modelo de lujo. El juguete es una novedad y no se fabricará de nuevo el
~ma 1
próximo año. Cualesquiera unidades no vendidas deberán venderse a una gran
meno tienda de descuento a un precio de $2 por unidad regular y $2.50 por la
de lujo. •
La gerencia no conoce la demanda total del producto. Esta incertidumbre
lera I
se expresa por medio de una distribución de probabilidad continua subjetiva.
'las Sl
Abajo se dan cinco ptlntos de esta distribución acumulativa. Complete la dis-
;ión, tribución acumulativa trazando a pulso una curva que pase por esos puntos.
nte l
Probabilidad de que la demanda
total sea ;2i Y . 1.0
nimi:
~ $~
y ( unidades) . 20,000
0.75
12,000
0.50
8,000
0.25
6,000 °
3,000

Además, la gerencia expresa su incertidumbre acerca del porcentaje de la


, A,
ter demanda total que alcanzará el modelo de lujo con los siguientes cinco puntos
:osta de una distribución de probabilidad acumulativa. De nuevo, complete la dis-
tribución acumulativa con una curva trazada a pulso.
me
'cos
Probabilidad de que el porcentaje
~ ot
del modelo de lujo sea ~ Z . 1.0 0.75 0.50 0.25 o
jO d Z (porcentaje del total) . 30% 20% 15(;' 13% 107<
nétol
El porcentaje del modelo estándar es 100% menos el porcentaje del modelo de
lujo. La gerencia cree que el porcentaje del modelo de lujo es independiente
de la demanda total.
res¡ Si la demanda excede a la producción del modelo de lujo, no espc.sible
ido aprovechar dicho exceso de demanda. Sin embargo, cualquier demanda excesiva
ucic sobre la producción del modelo estándar se puede satisfacer vendiendo el modelo
de lujo (si hay alguno disponible) a un precio estándar de $5 por unidad.
464 Los métodos de Montecarlo en la toma de decisiones

a) Condicione el problema para su solución por el método de Mantecado.


Seleccione un horario de producción para las unidades de lujo y estándar
e ilustre su política haciendo cinco pruebas para la política seleccionada.
b) Lleve a cabo el procedimiento para 25 pruebas adicionales y estime la
ganancia esperada para su política.
c) Seleccione otra política y realice 30 pruebas de Mantecado para estimar
la ganancia esperada. Compare este resultado con el obtenido en el in-
ciso (b).

BIERMAN, H., JR., BONINI, C. P. y HAUSMAN, W. H. Quantitative Analysis for


Business Decisions. 4~ ed. Homewood, IlI.: Richard D. Irwin, 1973.
El capítulo 20 trata de la simulación. y el análisis de Mantecado, inclu-
yendo un ejemplo de· su uso en sistemas de inventario.
HERTZ, D. B. New Power for Management: Computer Systems and Management
Science. Nueva York: McGraw-Hill, 1969.
Los capítulos 5 y 6 constituyen un buen estudio del análisis del riesgo
desde el punto de vista del gerente.
KEMENY, J. G., SCHLEIFER, A., JR., SNELL, J. .L. Y YHOMPSON, G. L. Finite
Mathematics with Business Applications. 2~ ed. Englewood Cliffs, N. J.: Prentice-
Hall, 1972.
MElER, R. C., NEWELL, W. Y., Y PAZER, H. L. 'Sin211lation in Business and
Economics. Englewood Cliffs, N. J.: Prentice-Hall, 1969.
En el capítulo 8 se examinan las técnicas avanzadas de Montecarlo de
una manera no matemática. •
NAYLOR, T. H., BALINTFY, J. L., BURDICK, D. S., Y CHU, K. Técnicas de simu-
lación en computadoras. Editorial Limusa, México, 1971.
El capítulo 4 es una revisión avanzada de las técnicas de muestreo de
Montecarlo.
SCH:LAIFER, R. Analysis 01 Decisions Under Uncertainty. Nueva York: McGraw-
Hill, 1969.
En el capítulo 13 se hace un análisis detallado de la aplicación del análi-
sis de Mantecado a los problemas de decisión.
VI. Predicción y
~.-
control
CAPITULO 16
Correlación y regresión simple

LAS RELACIONES EXISTENTES entre variables son fundamentales en la cien-


cia. Las ciencias físicas han tenido mucho éxito al establecer relaciones
funcionales o "leyes" que relacionan variables tales como temperatura y
presión de un gas en un recipiente cerrado, la distancia de un objeto
de la tierra y la fuerza gravitacional ejercida sobre él. Las ciencias bioló-
gicas y sociales han tenido que tratar con situaciones mucho más com~
plicadas en las que existe menos razón para esperar que haya una relación
exacta entre las variables. Las herramientas estadísticas de correlaci6n
y análisis de regresión se. desarrollaron para establecer la estrechez con la
que dos o más variables se asociaban y el monto promedio de cambio
en una variable que estaba asociada con un incremento unitario en el
valor de otra variable. El, término "regresión" se refiere específicamente
, a: la: medición de esta interrelación. El término "correlación"', que e~
más general, incluye el análisis de regresión así como ciertas medidas,
tales como el coeficiente de correlación y determinación. Es importante
explorar tanto las aplicaciones como las limitaciones de estas herramientas
poderosas de análisis en el estudio. de las relaciones económicas.
En particular, consideraremos el diagrama de dispersión, el ajuste
de curvas, el coeficiente de determinación, la estimación de las relaciones de
la población, a partir de los datos muestrales y problemas especiales
de . series cronológicas.
Cuando solanlente participan dos variables, el análisis se describe
como correlación o regresión simple. La correlación o regresión múltiple
Se refiere al análisis de tres o más variables. Este capítulo se refiere a las
relaciones simples (de .dos variables). El caso de la variable múltiple
se considerará en el capítulo 17.

DIAGRAMAS DE DISPERSION

El prImer paso en el análisis de las relaciones existentes entl'e dos


variables es la graficación de los datos en una figura o gráfica denomi-
465
466 Correlación y regresión simpk

nada diagralnll disperso. En la figura 16-1 A, cada punto representa la


relación entre el ingreso familiar y los gastos para vivienda. Como es
evidente, las' familias con mayores ingresos tienden a gastar más en
vivienda. Así, las dos variables están relacionadas, o correlacionadas.
Cuanto más cerca se agrupen los puntos alrededm:t de una línea die regre-
sión central, como en la figura 16-2A, mayor será la correlación. Por
otra parte, si los puntos están dispersos al azar, en forma de perdigones,
describiremos tales variables como no correlacionadas o como que. tienen
<:orrelación cero.

A B
Ingreso familiar y gastos Millones de cerdos
para vivienda de criados y precio de
familias seleccionadas los mismos, por años
Gastos para vivienda Precio de los cerdos
(en millones de dólares) (en dólares)

3 • • •
• 20

• • • ..•
2 • • • •• •
• • • •
• •
• •
• • 10 •
• • ..
• •

o O'----..J.S,------,..LO---,I-S - 100
Ingreso familiar (en millares
de dólares)
Figura 16-1
Correlaciones positivas y negativas

La correlación entre dos variables se puede describir como positiva,


indicando que los valores altos de una variable tienden a asociarse con
los valores altos de otra variable y similarmente con valores bajos. Por
ejemplo, en la figura 16-1A los puntos marcados se mueven hacia arriba
a la derecha. Cuando los valores altos de una variable ocurren con los
valores bajos de la otra, las variables e~tán correlacionadas inversa o,
negativament,e. Así, en la figura 16-1B, un mayor número de cerdos
significa un precio menor, entonces los puntos se mueven hacia abajo de
izquierda a derecha.
Si los puntos marcados en un diagrama disperso generalmente siguen
una línea recta, decimos que existe una relación' lineal entre las dos
variables. Esto ocurre en la figura' 16-2A, donde cada 100 millas de
viaje requieren más o menos el mismo número de galones de gasolina.
Note que la línea recta tiene un buen ajuste a los puntos marcados. Si
Análisis de regresión 467

A B
Galones de gasolina usada y millas Ingreso familiar y edad
viajadas en viajes del jefe de familia
tipo (familias seleccionadas)
Ingreso familiar
Galones de gas usada (en millares de dólares)
15

I •

.. . ...• -...., .
'''''''',
~

""

.....
/
.'~:\
20
10 '.'-;'
ti ,. • •

• ••
10 • •
5 •

o '-;1'-'2:':0--f.
30o---'4'=-0--'5:':0"--6-:l:0o---:::!7'=-0--:8:':0-
Edad del jefe de familia
Figura 16-2
Correlaciones lineal y curvilínea

una línea curva da un mejor ajuste, se dice que la correlación es cur-


vilínea o no lineal. En la figura 16-2B, el ingreso inicialmente aumenta
con la edad del jefe de familia, después permanece constante y, final-
mente decrece cuando éste alcanza la edad de retiro. La curva, como
se ha dibujado, sigue los datos más de cerca que una línea recta.

ANALISIS DE REGRESION

En la seCClOn anterior, introducimos el diagrama disperso LOmo un


medio gráfico para presentar la relación entre dos variables. Sin em-
bargo, en la mayoría de las situaciones económicas y comerciales, se
quiere utilizar una de las variables para predecir o controlar la otra
variable. Por lo tanto, son necesarias técnicas de predicción y de medi-
ción del error en nuestras predicciones. Estas técnicas se denominan
análisis de regresión.

Ajuste de una línea¡, de regresión

El primer paso es expresar la relación que hay entre las dos variables
como una línea o ecuación matemática. La variable que se va a predecir
se designa como Y, variable dependiente. La otra variable, X, es la
variable independiente o de predicción. Entonces, la variable dependiente
se expresa como alguna función de una variable independiente; o sea,
y = [(X).
468 Correlacion y regresión simple

La forma funcional más simple es la línea recta. La fórmula para


una línea recta es Y,. = a + bX, donde Y,. es el valor calculado o espe-
rado, de Y (o sea, el valor' en la línea para un valor dado de X y la
relación descrita por la línea). La constante a es el valor de Yo en el eje
de las Y donde X = 0, y b es el incremento en Yo pitra cada unidad de
incremento en X. El valor de b es por lo tanto la pendiente de la línea.
Cuando la línea recta se utiliza para relacionar dos variables, se dice
que la ecuación dp ~"",nt'i 'ión es líneal. La pendiente b se denomina
entonces el t ,;~\<,.?;,...:~~ . tegresíón. Describiremos cómo ajustar tanto
una 1,rnea d,~ 1. 'éA'''',-' .e, e r'rnea 1 como una curvr'1'rnea.

Un ejeI~\ploservirá para introducir los conceptos y técnicas del


análisis de regresión. El gerente de personal de una fábrica de artículos
electrónicos prepara un manual de pruebas de aptitud para candidatos,
a fin de predecir su productividad en el departamento de ensamble.
Para esto, selecciona una muestra aleatoria de 20 candidatos, quienes
presentan la prueba y posteriormente se les aSigna una tasa de produc-
ción. Es una práctica común realizar pruebas de aptitud para los aspi-
rantes a un trabajo, especialmente para ciertos tipos de trabajo que

Tabla 16-1
Calificaciones obtenidas por 20 trabajadores
en las pruebas de destreza manual y de productividad

Calificación
en la prueba Productividad
Trabajador X y

A ' 53 45
B 36 43
C 88 89
D 84 79
E 86 84
F 64 66
G 45 49
H. .48 48
1. 39 43
J 67 76
K 54 59
L 73 77
M 65 56
N 29 28
O 52 51
P 22 27
Q; 76 .76
R 32 34
S , 51 60
T 37 32
Análisis de regresión 469

requieren habilidades similares y para los cuales se pueden obtener pos-


teriormente mediQas objetivas satisfactorias.
Los resultados se muestran en la tabla 16-1 y en la figura 16-3, donde
cada punto representa a un empleado. La calificación de la prueba es
variable independiente. Parece existir una estrecha relación lineal, con los
datos agrupados a lo largo de la línea recta, y sin desviaciones extremas.
Nuestro objetivo es encontrar los valores de a y b en la línea recta,
Ya = a + bX, que predecirán la tasa de producción (l~) para cualquier
calificación en las pruebas de los aspirantes (X).
Ya que los puntos en la figura 16-3 están algo dispersos, no podernos
predecir las tasas de producción (Y) con exactitud. Para cualquier
calificación de una prueba dada, el valor predicho Ya es aproximada-
mente el promedio de las tasas de producción (Y) con la calificación
dada de la prueba. Así, la línea de regresión se denomina a menudo
la línea del promedio de relación, indicando que es una graficación del
promedio de valores de Y para distintos valores de X. Las desviaciones
de las tasas reales del promedio (Y - Y c ) se deben a varias diferencias
personales y fallas en la prueba como recurso predictivo, y la omisión
de otros factores que influyen en las\ calificaciones de la prueba:
Métodos gráficos y métodos matemáticos. Más adelante se des-
criben dos métodos para ajustar una línea de regresión: el método
gráfico "a pulso" y el método de los mínimos cuadrados.
Los métodos gráficos en el análisis estadístico tienen tres ventajas
sobre los cálculos matemáticos:

1. Ahorran tiempo y trabajo, a menos que haya disponible un programa


de computadora.
2. Las curvas gráficas son flexibles, de manera que se pueden ajustar
mejor a ciertas relaciones curvilíneas que las funciones matemáticas
que Son más rígidas. El analista gráfico puede también eliminar va-
lores extremos que distorsionan el ajuste de mínimos cuadrados.
3. Los métodos gráficos permiten tener un cuadro continuo de los pasos
sucesivos en el análisis. Ese cuadro ayuda al o1;>servador a planear
operaciones y juzgar los resultados. También constituye una ayuda
visual en la enseñanza.
Sin embargo, los métodos gráficos tie.nen también tres desventajas:
1. Reflejan los errores subjetivos del analista. El sesgo personal, los
errores de juicio, y los errores ópticos afectan los resultados. Sin
embargo, las técnicas matemáticas requieren también que el analista
escoja el tipo de ecuación y los datos a utilizar; los métodos mate-
máticos no son "sustituto para el criterio personal.
2. Debido al elemento subjetivo que hay en los métodos gráficos, se
requiere que el analista experimentado dibuje curvas con la sufi-
ciente precisión. El principiante puede cohfundirse. También hay
disponibles programas de computadoras de alta velocidad que se pue-
den ajustar a una gran variedad de situaciones.
470 Co"e1ación y regresión simple

Productividad
y

100

80

60
I
I
I
I
147
40

20
o
....-----50 puntos
Jl,1

~---..L-----I----....J..----.l.--__,_----l--,x
20 40 60 80 100
Califaciones obtenidas en
Fuente: Tabla 16-3 las pruebas

Figura 16-3
Método gráfico para estimar la productividad
(a partir de las calificaciones obtenidas en las
pruebas hechas a 20 trabajadores)

3. Las curvas matemáticas se pueden expresar mediante ecuaciones que


constituyen el "mejor" ajuste conforme a algún criterio establecido.
Además, con una ecuación es un poco más fácil resumir las relaciones,
evaluar los resultados y predecir nuevas observaciones.

Los métodos gráficos y matemáticos se pueden usar combinados para


aprovechar las ventajas de cada uno de ellos. Por ejemplo, se puede tra-
zar regresión gráfica, para establecer su forma y localización general;
luego se puede seleccionar una ecuación matemática apropiada para
hacer una medición más objetiva. La curva gráfica sirve también como
verificación aproximada 'de la precisión y racionalidad de la ecuación
matemática. En un departamento de investigación, el director puede
esquematizar una curva preliminar gráficamente, luego preparar el pro-
Análisis de regresión 471

grama para los cálculos matemáticos apropiados y, finalmente revisar


los resultados comparándolos con su propio esquema gráfico.
Método gráfico. Los pasos a seguir en el método gráfico se pueden
resumir como sigue. Trazar a ojo una línea que pase por los puntos
marcados, de tal manera que las desviaciones verticales de los puntos
que quedan arriba y por debajo" de la línea sean exactamente iguales
para la serie en su conjunto y más o menos iguales para cada segmento
importante de los datos marcados. Estas desviaciones se pueden marcar
acumulativamente en la orilla de una tira de papel, una sobre la otra
para hacer comparaciones.
Cuando los puntos en el diagrama de dispersión son numerosos o
están muy dispersos, se deben graficar los valort's promedio de grupos
de datos para que sirvan como puntos de guía objetiva al dibujar la
línea o curva de regresión. Primero divida los datos en varios grupos
de acuerdo a los valores de X, cada grupo debe tener el mismo número
de elementos. Si se utilizan demasiados grupos se llegará a un patrón
zigzagueante en los promedios de grupo; si se usan muy pocos, ya no
será posible usar los promedios como guías de la forma de la línea esti-
mada;
Segundo, tome los ¡alores de la media de X y Y en cada grupo y
marque el promedio de ese grupo en el diagrama disperso.
Tercero, dibuje una línea o curva suavizada (utilizando una regla
transparente, una plantilla o un curvígrafo) entre los promedios marca-
dos, de modo que en todo el rango, las desviaciones verticales de los
promedios que quedan arriba de la línea sean eXOJCta¡men'te iguales a
aquellas que están por debajo de la línea y sean aproximadamente igua-
les para cada uno de los segmentos amplios situados sobre la línea. En
particular, si los promedios de grupo siguen aproximadamente una línea
recta (excepto en los zigzag), ~arque la media total (X, y) y trace
una línea recta que palSe por este punto con una pendiente tal que
iguale aproximadamente las desviaciones verticales de los promedios de
los grupos que se localizan a la izquierda de este punto y, por separado,
a los de la derecha. Se debe dibujar una curva solamente si los pro-
medios de grupo siguen inequívocamente una curva que se apoya en la
lógica económica.
La mayoría de los principiantes tienen la tendencia a dibujar curvas
gráficas de regresión con demasiada pendiente porque ellos juzgan la
bondad del ajuste por la distancia más corta (o perpendicular) del
punto a la línea en vez.de la distancia vertical (la dirección en q).1e
se mide la variable dependiente Y) del punto a la línea. El uso de los
promedios de grupo reduce este error.
En nuestro ejemplo de las calificaciones de prueba y tasas de pro-
ducción, los pasos descritos anteriormente se han realizado en la figura
16-3. Las cruces indican los promedios de cuatro grupos de, puntos, y
el promedio total (X': Y) está en un círculo. Esos promedios siguen
aproximadamente una línea recta y no hay razón a priori por la cual la
472 Correlllción y regresión simple

regresión debe ser curva. Por tanto, se ha dibujado una línea recta a
través del promedio global y tan cerca de los promedios de grupo como
es posible. Los valores de a y bpara la línea de regresión se estiman en
la gráfica. La línea cruza el eje Y (cuando X = O) aproximadamente
en 4.0.. Así, la intersección a es 4.0. Sobre 50 puntos de calificaciones de
pruebas (de 20 a 70), el valor de Yc aumenta de 23 a 70, una diferencia de 47
unidades en la escala de tasa~ de producción. Así, la pendiente se estima que es
47/50 = 0.94. Este es el coeficiente de regresión b.Laestimación gráfica de la
línea de regresión se puede escribir ahora como

Yc = 4.0 + 0.94X
El método de los mínimos cuadrados. U na recta ajustada me-
diante mínimos cuadrados tiene las· siguientes características:
1. Permite el mejor ajuste de datos porque con ella la suma de las
desviaciones al cuadrado de la línea, }; (Y - Y c ) 2, es menor que la
obtenida con cualquiera otra recta, Esta propiedad da origen al
nombre de "mínimo.s cuadrados".
2. Las desviaciones arriba de la línea son iguales a las desviaciones bajo
la línea, en promedio. Esto significa que el total de las desviaciones
positivas y negativas es cero, o }; (Y - Y c ) = O.
3. La línea recta pasa a través de la media total de los datos (X, Y).
4. Cuando los datos representan una muestra de una población mayor
la línea de mínimos cuadrados es una estimación "óptima" de la línea
de regresión de la población. Esta propiedad se analizará con mayor
detalle posteriormente.

Es importante asentar que las desviaciones (Y - Y c ) se miden ver-


ticalmente (o sea, a lo largo del eje Y). Las desviaciones no son per-
pendiculares a la línea de regresión.
Para la I.ínea de los mínimos cuadrados los valores de a y b en la
ecuación Y c = a + bX se obtienen resolviendo las dos ecuaciones nor-
males

};Y = na + b};X
};XY = a};X + b};X2
donde n es el número de pares de elementos en la muestra.
Los cálculos se pueden simplificar en la mayoría de los problemas
uúdiendo tanto X como Y, como las desviaciones de sus medias X y Y.
Estas desviaciones se designan por letras minúsculas x y y, donde x = X - X
y y 7"'. Y-Y. Sin embargo, no es necesano sustraer la media de cada
valor de X y Y. Un procedimiento más simple es como sigue:
1. Calcule el producto XY, y calcule o busque los cuadradbs X2 y P en
el·. Apéndice G para cada par original de observaciones.
Análisis de regresión 473

2. Sume esas col~mnas. (Los pasos 1 y 2 se pueden combinar en una


operación única en la calculadora.)
3. Reste a cada suma la media multiplicada por la su'ma de las variables
respectivas para encontrar las sumas ajustadas de las x y y expresadas
como desviaciones de sus medias. Esto es 2 ,

Suma ~XY
Menos media por la suma -X~Y
Igual suma ajustada =~xy

La suma de las desviaciones respecto a las medias, ~x y };y, debe ser


igual a cero, entonces se eliminan de las dos ecuaciones normales ante-
riores, que se reducen a
};xy
b = -2
};x
a = Y - bX
donde b se deriva de la segunda ecuación normal cuando };x = O, Y a se
obtiene resolviendo la primera ecuaci6n para expresarla en las unidaQes
originales.
Como ejemplo de calificaciones de pruebas y tasas de producción, los
cálculos se muestran en la tabla 16-2. Se calcula XY, X2 y Y2 para cada
trabajador, se suma esto, y se resta la media respeCtiva multiplicada por
la suma (mostrada en el cuadro bajo X y Yj para encontrar };xy, ~x2
y };y2. Entonces

};xy 6,974
b =- = - - = 0.943
~X2 7,395
a = Y- bX = 56.10 - 0.943(55.05) = 4.2
Por lo tanto, la línea de regresión es

Y,. = 4.2 + 0.943X


Por lo tanto, si un aspirante al trabajo de la población muestreada
recibió una calificación en la prueba de 40, su tasa de producción se
estimaría como

Y" = 4.2 + 0.943(40) = 42

Alternativamente, este valor se podría leer gráficamente en la figura


16-4 (líneas punteadas).

1 Note que };x~ == ~(X - X)2 == ~(X2_ 2X + X2) == IX2 _ 2X:EX + nX2.
~ro puesto que nX == :2X, tenemos :Ex 2 == :EX2 - 2X:EX + (nX)X =IX2 _
XIX. Las fórmulas para :Ey 2 y Ixy se pueden deducir en una mane.ra similar.
474 Correlación y regresión simple

Tabla 16-2
Regresión. entre las calificaciones obtenidas por 20 trabajadores en las
pruebas de destreza manual y la de productividad

Calificaci6n -
obtenida en Productividad Xy Y2
Trabajador
la prueba Y
X2
X -
A 53 45 2,385 2,809 2,025
B 36 43 1,548 1,296 1,849
e 88 89 7,832 7,744 7,921
D 84 79 6,636 7,056 6,241
E 86 84 7,224 7,396 7,056
F 64 66 4,224 4,096 4,356
G 45 49 2,205 2,025 2,401
H 48 48 2,304 2,304 2,304
1 39 43 1,677 1,521 1,849
J 67 76 5,092 4,489 5,776
K 54 59 3,186 2,916 3,481
L 73 77 5,621 5,329 5,929
M 65 56 3,640 4,225 3,136
N 29 28 812 841 784
o 52 51 2,652 2,704 2,601
P 22 27 594 484 729
Q 76 76 5,776 5,776 5,776
R 32 34 1,088 1,024 1,156
S 51 60 3,060 2,601 },600
T 37 32 1,184 1,369 1,024

Suma 1 1 ,101 1, 122 1 68,740 68,005 69,994


Media 55.05 56.10

Menos la media por la suma .......... -61,766 -60,610 -62,944

Igual a la suma aj ustada ............. 6,974 7,395 7,050

Es decir ......................... 2:xy 2:x2 2:y 2

Regresión curvilínea

Se deben utilizar medidas de regreslOn curvilínea siempre que 1) la


lógica de la situación demande una relación curvilínea; y 2) la curva
realmente ajuste mejor los datos que la línea recta. La bondad del ajuste
se puede estimar a simple vista en el diagrama de ~ispersión y se deter-
mina en forma más precisa a partir del error estándar de estimación, tal
como se describe en la siguiente sección.
Podemos ajustar una curva de regresión por cualquiera de estos tres
Análisis de regresión 475

Productividad
y
lOO

00

60

20

20 40 60 80 lOO X
Calificaciones obtenidas en las pruebas
Fuente: Tabla 16-2

Figura 16-4
Línea de regresión ajustada a partir de mínimos cuadrados y error estándar
de estimación (calificaciones y estimaciones de 20 trabajadores)

métodos: 1) el análisis gráfico, dibujando una curva "a pulso" o utili-


zando tal vez instrumentos de dibujo; 2 ) ajuste de una parábola u ·otro
polinomio por mínimos cuadrados; o 3) transformando los datos en loga-
ritmos u otras funciones de manera que la ecuación lineal se pueda
ajustar apropiadamente a esas funciones.
Análisis gráfico. Suponga que un fabricante de fertilizantes .realiza
un experimento para determinar los efectos del nitrógeno en las cosechas
de maíz. Selecciona 16 campos y planta cada uno con maíz. Cuatro
campos no reciben nitrógeno, cuatro campos reciben 40 libras cada uno,
cuatro campos 80 libras, y los cuatro restantes 120 libras. Los resultados
476 Correlación y regresión simple

Tabla 16-3
Fertilizante nitrogenado y cosechas de maíz en dieciséis campos

Cantidad de nitrógeno (Libras)


o 40 80 120

Cosecha de maíz

Cosecha total
Cosecha promedio
12
(bushels por acre) 18
36 r72
18
40
80
80
96

296
74
72
112
112
128

424
106
110
122
130
142

504
126

de este! experimento se muestran en la tabla 16·3 y la figura 16-5. La


cosecha promedio para jos cuatro grupos de campos se listan al pie de
la tabla y se grafican como círculos en el diagrama. Resulta que los pro-
medios de los cuatro grupos siguen una línea curva, cóncava hacia abajo.
Eso es lógico, puesto que cantidades crecientes de fertilizante tendrán
sucesivamente menores efectos en la cosecha de maíz, hasta que se llega
a un nivel en el cual se estabiliza la cosecha o aún puede decrecer.
Se ha dibujado a pulso una curva de regresión a través de los pro-
medios de los cuatro grupos en la figura 16-5 con la ayuda de un curví-
grafo. Si hubiera más puntos dispersos a lo largo del eje X, la curva
iría más cerca de los promedios de grupo, aunque no necesariamente pa-
sando a través de todos ellos. Si la relación es realmente curvilínea,
es posible que una curva dibujada a mano ajuste mejor que una
línea recta ajustada por mínimos cuadrados, no importa lo impresionante
que pueda ser el resultado impreso de la computadora. El analista debe
dibujar siempre sus datos, checar su curvilinealidad y, considerar si la re-
lación es lógicamente curvilínea en vez de utilizar automáticamente algún
programa de computadora de línea recta.

Ajuste de una parábola. El grado de éxito al ajustar una curva


matemática depende del cuidado que se pon~a al escoger la forma fun-
cional de la ecuación. Hay polinomios, funciones logarítmicas y muchas
otras. .
Una curva simple es la parábola de la forma Y c = a + bX + CX2. En
esta ecuación, a es la altura de la curva en el eje Y, b es la pendiente
de la curva en ese punto, y e determina la dirección y el grado de
curvatura. La forma general de una parábola es la del faro delantero
de un automóvil, apuntando en su forma usual ya sea hacia arriba o hacia
abajo. Los valores de los datos determinarán automáticamente cuál seg-
mento de la parábola será el que se ajuste.
Análisis de regresión 477

Cosecha de maíz
(bushels por acre)
y
140

• •
120


PARABOLA~ ~
100 7
~

BO ••
Curva gráfica ~ •
/;
/;
60 h
/,
h
!J
¡)
¿
40 ~ •

20

0 L - - - - - - - - -L - - - - - - - -: . ! . 0 - - - - - - - - -l..:-0 X
0 4O e 12
Cantidad de nitrógeno (libras)
Fuente: Tabla 16.3
Figura 16-5
Fertilizan te nitrogenado y cosechas de maíz en
di'ecis~s campos

Se puede ajustar una parábola a los datos de cosechas de maíz de la


tabla 16-3 con el siguiente resultado: 2

2 Si utilizamos x y y para representar desviaciones de X y Y de sus medias,


podemos resolver las siguientes dos ecuaciones normales para determinar los valores
de b y e en la ecuación original:
2xy = b2x 2 + c2x"
2x 2 y = b2x'¡ + c2x 4
478 Correlación y regresión simple

Y,. = 18.6 + 1.565X - .üü5625X2

La parábola se ha graficado en la figura 16-5. La curva no pasa pre-


cisamente por las medias de los cuatro grupos, aunque está muy cerca de
ellos. La parábola y las curvas gráficas ajustan igqalmente bien los datos.
La parábola es más objetiva, mientras que la curva gráfica es más flexible
para calcular tipos de funciones que no se pueden representar por fórmu-
las matemáticas simples.
Uso de logaritmos. Si la relación parece curvilínea cuando se' gra-
fica en papel cuadriculado, los datos se pueden volver a graficar en papel
semilogarítrnico (con cualesquiera de las variables en la escala logarítmica)
o en un papel logarítmico. Luego, si los datos siguen aproximadamente
una línea recta en cualquiera de esas figuras, la línea se puede dibujar
gráficamente con una regla o ajustarse por medio de mínimos cuadrados.
En el método de mínimos cuadrados, los logaritmos de las variables
apropiadas se utilizan en lugar de los valores originales y se ajusta una
línea recta tal corno se describió antes. En esta forma, si la relación es
líneal cuando se grafica en papel semilogarítmico (con Y en la escala
logarítmica), la ecuación de la línea de regresión es lag Y" = a + bX. El
método de ajustar esta ecuación en el análisis de. tendencia se ilustra en el
capítulo 19. Inversamente, una línea recta en papel semilogarítmico con
X en la escala logarítmica tiene la forma Yo = a + b lag X. Finalmente,
si la relación es lineal cuando se grafica en papel logarítmico doble, la
ecuación es lag Y,. = a + b lag X. Esta ecuación es adecuada cuando Y
tiende a cambiar en un porcentaje constante para cada cambio del 1%
en X sobre todos los valores de X.
En el caso del fertilizante nitrogenado, el graficar las cosechas de maíz
en la escala logarítmica de un papel semilogarítmico no alinea los pro-
medios de grupo. Tampoco se pueden graficar las cantidades de nitrógeno
en la escala logarítmica porque algunos de sus· valores son cero. Por lo
tanto, no sirven los logaritmicos en este caso. Sin embargo, hay una buena

El término constante a se puede calcular con la fórmula:

a =y- bX - c:EX~/n

Aquí, X, Y, :Ex~, y :Ex)' se han definido ya y

:Ex" = :EX" - J{;Ex~


:Ex" = :EX4 - (:E~p')"/n
:Ex~y = :EX~Y - Y:EX~

Este método no se ilustra aquí, puesto que en la práctica es más simple utilizar
regresión múltiple, tal como se describe en el capítulo 17. O sea, podemos tratar
X~ como si fuera una nueva variable X"' Luego, si a la variable original la llama-
mos Xl y cambiamos las constantes b y e a b 1 y b~, respectivamente, la ecuación
de la parábola se vuelve Y" = a + b1X¡ + b"X~, Esta es idéntica a la ecuación
de la regresión múltiple, de manera que podemos utilizar las mismas técnicas para
encontrar a, b 1 Y b l'
Análisis de regresión 479

relación lineal entre los logaritmos de las ventas de Sears Roebuck y los
ingresos ya deduCidos de los Estados Unidos, ilustrada en la figura 16-11
que aparece más adelante en este capítulo.
Otras transformaciones. El uso de logaritmos es un caso especial
de la técnica más general de transformación de variables para conseguir
relaciones de línea recta. Si la relación logarítmica no es lineal, podemos
transfonnar una variable en otra función, tal como el cuadrado, la raíz
cuadrada, el recíproco o combinaciones de esas funciones. Muchos pro-
gramas de cOliiputadora incorporan automáticamente esas transfonnacio-
nes en el cálculo de ecuaciones de regresión. a El problema de cuál trans-
formación utilizar en una situación específica se resuelve por medio del
criterio y la experiencia. El analista debe seleccionar funciones que sean
lógicas y luego probar varias hasta encontrar la que produce un ajuste
lineal satisfactorio.

Error estándar de estimación

La utilidad de la línea de regresión para los propósitos de predicción


y control depende de la extensión de la dispersión de las observaciones
alrededor de ella. Si los valores observados de Y varían ampliamente alre-
dedor de la línea, las estimaciones de Y basadas en esta línea no serán
muy exactas. Por otro lado, si los valores observados de Y quedan muy
cercanos a la línea, las estimaciones basadas en esa línea pueden ser
muy cercanos a la línea, las estimaciones basadas en esa línea pueden
ser muy buenas. La medida de dispersión de las observaciones reales
alrededor de la línea de regresión se denominan error estándar de esti-
mación. El error estándar de estimación para la población se puede
estimar a partir de una muestra en el análisis de regresión como sigue:
, J2.(Y - Y c )2
SyX =
n-k
donde n es el tamaño de la muestra, y k el número de constantes en la
ecuación de regresión. 4 Para una línea recta, k = 2, para una parábola
k = 3. Si se usa una curva gráfica, se estima k como el número de cons-
a Ver BMD Biomedical Computer Programs, páginas ISa 21, para una lista
de más de 20 transformaciones o "transgeneraciones" disponibles en esos progra-
mas (Health Services Computing Facility, Universidad de California, Los Angeles,
1968).
; El error estándar de. estimación para la mu~stra en sí misma es .
y I( Y - Y,.) 2/n. El ¡,Iso de n-k es un ajuste para el sesgo de muestra. Este
número representa los grados de libertad alrededor de la línea de regresión, de la
misma manera que se usó n = 1 como el número de grados de libertad alrededor
de la media al calcular la desviación estándar. Mientras que la selección de la
media muestral como punto respecto al cual medir Y - Y requiere únicamente
un grado de libertad, la selección de una línea de regresión recta como base
respecto a la cual medir la dispersión, requiere dos grados de libertad: uno al
requerir que la línea pase a través del punto de las medias (X, Y) y la otra
al determinar la pendiente de la línea de regresión.
480 Correlación y regresión simple

tantes que ocurrirían en una curva, matemática de lá misma forma


general.
El valor (Y - Ye)2 se puede obtener gráficamt:nte leyendo la desvia-
ción vertical (no perpendicular) de cada punto (Y) de la línea de regre-
sión (Ye) en la escala Y, elevando al cuadrado cada desviación, y suman-
do estos cuadrados. El valor Y ese puede calcular también con la ecuación
de regresión para cada valor dado de X, para encontrar };(Y - Y e )2.
Cuando la línea recta de! regresión se ha ajustado mediante. el método
de los mínimos cuadrados, por lo general es más simple calcular el error
estándar de estimación con la siguiente fórmula:

Syx -
-J};y'n-2
- b};x.y

Así, en nuestro ejemplo de las calificaciones de pruebas y tasas de


producción (tabla 16-2) :

s =j_};.c...Y_
YJ(
2
_b_};_xy:-
-,--,.

n-2

== }7'050 - 0.943(6,974)
20 - 2
= 5.13
El error estándar· de estimación· se ha obtenido en la figura 16-4 arriba
y abajo de la línea de regresión (ver ·líneas punteadas). Si los puntos
están dispersos al azar alrededor de la línea de regresión (o sea, si
epsilon E = Y - Yo sigue más o menos una distribución normal), enton-
ces aproximadamente dos terceras partes de los puntos deben quedar
dentro de esta banda. Por lo tanto, la gerencia podría predecir que un
aspirante que presenta la prueba y obtiene 40 de calificación en ella
podría conseguir una tasa de producción de 42 -1- 5, o entre 37 y 47, con
dos oportunidades en tres de estar en lo cierto. Este error estándar tam-
bién se puede comparar con el error estándar de estimación que se
obtiene al usar pruebas de aptitudes como medios de predicción; entre
estas pruebas están las de aptitud mecánica, habilidad matemática, etc.
(El intervalo de confianza anterior se ampliará un poco si se toma en
cuenta el error, de muestreo de la línea de regresión misma.)
El error estándar de estimación también es útil para determinar cuál
de las dos curvas tiene el mejor ajuste. Así en el experimento de la
cosecha de maíz (tabla 16-3 y figura 16-5), el error estándar de estima-
ción respecto a la parábola es:

(i.(Y - Ye)2 {4:S2l


Sl"X =;J - n-k =.J .~ = 18.6 búshe)s por acre
Coeficiente "de determinación 481

También se ajustó una línea recta (que no se muestra) por mínimos


cuadrados a las mismas 16 observaciones. Su ecuación es Y c = 27.6 +
0.89X, y su error estándar es

.J(5;8f7
16="2= 20.4 bushels por acre

Es evidente que la parábola arroja estimaciones más precisas que la


línea recta, puesto que la dispersión promedio es menor para la curva
aún después de. permitir que aumente k, el número de constantes en la
ecuación.
En otras situaciones el mismo porcentaje de aumento en Y puede
seguir lógicamente al por ciento de aumento en X como se anotó antes.
Aquí, es racional ajustar una línea recta a los logaritmos de los datos.
Sin embargo, al comparar la bondad del ajuste para curvas ajustadas
respecto a Y con el log Y, tendríamos que comparar un valor natural
de SyX con un logaritmo. Aquí es más fácil utilizar los coeficientes de
determinación que enseguida se estudia, puesto que están relacionados
y son por lo tanto directamente comparables.

COEFICIENTE DE DETERMINACION

El coeficiente de determinación (r 2 ) es una medida relativa de la


relación entre dos variables. Varía de cero (ninguna correlación) a uno

No se
explica
Desviación total
·de la media
Explicada
porX

o x
Figura 16-6
Componentes del coeficiente de determina-
ción

(correlación perfecta). Este coeficiente se puede definir como una me-


482 Correlación y regresión simple

dida del grado en que la variable independiente explica la variabilidad


de la variable dependiente. El concepto se ilustra en la figura 16-6. Note
que la desviación total de la variable dependiente Y de su media Y puede
dividirse en dos partes: la desviación del valor en la línea de la media
(Y~ - Y), que se explica por el valor dado en X, yla desviación de Y
de la línea de. regresión (Y - Y,,), que no se explica por X. Esto es,
(Y -:- Y)= (Y,o - f) + (Y - Ya).
Ya que las dos' partes son independientes, la variación total de Y
se puede expresar como la suma de las variancias de las' dos partes:

2 2 2
Sy = sYc-Y + SYX
El error estándar de estimación (Syx) mide las desviaciones de los
puntos alrededor de la línea. Su cuadrado representa la variancia de Y
que permanece (o sea, la variancia no explicada) después de que se ha
ajustado la línea de regresión a los datos. El término S2Yc- -y es .lavariancia
de los puntos en la línea de regresión alrededor del valor medio Y (o la
variancia explicada por la línea de regresión).
Al expresar la variancia explicada como una razón de la variancia
total de Y, obtenemos el coeficiente de det,erminación:

2
Sy _:¡; variancia explicada
1"'2 = _c_ =
s~ variancia total

El coeficiente de determinación se define en la ecuación anterior


como la proporción de la variancia total en la variable dependiente que
se explica mediante la variable independiente. El coeficiente de oorrela-
ción (r) es la raíz cuadrada del coeficiente de determinación. Varía de
cero (no hay correlación)' a + 1 (correlación perfecta). El signo res
igual al signo b en la ecuación de regresión. Así, si r = -- 1, todos los
puntos están en uná línea de regresión con pendiente hacia abajo y a
la derecha. El coeficiente de determinación se prefiere al coeficiente de
correlación para la mayoría de las aplicaciones en los negocios y la econo-
mía debido a que es una forma más abreviada y clara para formular la
proporción de la variancia en Y que se asocia con X. El coeficiente de
correlación puede sugerir u'n grado mayor de correlación del que real-
mente existe. Así, si el 50% de la variancia en Y se explica por X (yen
el otro 50% no se explica), r 2 = 0.50, pero r = VO.50 = 0.71, j un valor
rr:ucho más alto que 0.50!
El coeficiente de determinación también se puede expresar como 1
menos la proporción de la variancia total que no se explica. Esto es,

2
S}·x variancia no explicada
r2 ---=
S2l' vananCla total
Coeficiente de determinación 483

Esta fórmula es más, conveniente para los cálculos que la primera, ya


que la variancia no explicada es el cuadrado del error estándar de esti-
mación (Sn), que ya ha sido calculado en el análisis de regresión.
Así, en el ejemplo de las tasas de producción:
Variancia no explicada es

s~x = (5.13)2 = 26.3 (pág. 480)

Variancia total es

~y2 7,050
S2 = - - = - - = 371 (Tabla 16-2)
l' n - 1 19

o sea:

26.3
1 - 371 = 0.929

Es decir, 92.9% de las variancia en las tasas de producción explica


la variancia en las calificaciones de las pruebas; solamente 7.1 % de la
variancia no se explica. El coeficiente de correlación es

r = v' 0.929 = 0.964


Los coeficientes de determinación para una muestra se pueden definir
también por las siguientes fórmulas:

El término ~x.y mide el grado en el que X. y Y varían una con la otra, y


los términbs LX2 y ~y2 miden la variación individual en X y en Y, res-
pectivamente. Los coeficientes de determinación y correlación son enton-
ces una medida de la covariancia de X y Y relativa a la variación de
X y Y en sí.
En ciertos estudios preliminares, particularmente en la aplicación a
problemas de psicología en la administración de negocios, puede ser abso-
lutamente necesaria una medida relativa del grado de relación entre X
y Y. Por ejemplo, un psicólogo industrial puede interesarse en encontrar
qué factores están relacionados con la moral de un grupo de empleados.
Tal vez no esté interesado en predecir explícitamente la moral de los
empleados por los otros. factores. Así, quizá no desee utilizar el análisis
de regresión, pero puede usar el coeficiente de correlación para medir
484 Correlación y regresión simple

el grado de la relación entre la moral y cada uno de los otros factores.


Note que la fórmula anterior proporciona un método abreviado para
calcular el coeficiente de determinación y el coeficiente de correlación.
En el caso de las tasas de producción (tabla 16-2):

(6974\2
, J - 0933
7,395 X 7,050 - .

Sin embargo, este valor muestral está sesgado cOmo estimación del ver-
dadero valor poblacional de r2 • La mejor estimación de este último es,
en este ejemplo,

n -
r2 = 1 - (1 - r) ( - -
1)
• n - 2

r = 1 - (1 - 0.933)C:) = 0.929

Es el mIsmo resultado que en la fórmula 5 :

Para resumir lo que se ha visto en este capítulo, hay tres medidas


básicas que describen diferentes aspectos de una relación entre X y su
variable dependiente Y:

1. La línea de regresión da una estimacióz\ de Y para cualquier valor


de X. El coeficiente mismo de regresión b da el cambio promedio en Y
para un cambio unitario en X.
2. El error estándar de estimación (S l"X) indica el error promedio en la
estimación de Y a partir de X.
3. El coeficiente de determinación (r2 ) muestra qué proporción de la
variancia en Y se explica por la variancia en X.
Así, al comparar los méritos de las tres pruebas de aptitud para la
predicción de tasas de producción de los trabajadores, una prueba podría
producir la ganancia mayor en producción por unidad de calificación de
la prueba (es decir, el mayor valor de b, suponiendo que existe igual dis-
persión en las calificaciones) ; la segunda prueba podría predecir tasas. de
producción en forma más precisa (menorS¡·x); mientras que la tercera
daría cuenta de la variación mayor en las calificaciones (mayor r 2 ). La
medida a utilizar depende del propósito de la investigación.

5 En esta fórmula ajustamos para el sesgo muestral utilizando n = 2 y n - 1,


en vez de n, al calcular Sl"X y SI"> respectivamente, para compensar la pérdida
de grados de libertad al medir desviaciones de la línea de regresión y Y.
Inferencias hechas a partir de las muestras 485

INFERENCIAS HECHAS A PARTIR. DE LAS MUESTRAS

Hasta este momento hemos considerado las medidas de regresión y


correlación meramente como descripcion.es de la relación existentes entre
dos variables.
Sin embargo, generalmente no nos interesan sólo los resultados de la
regresión ya que se derivan de 'una muestra específica. Casi sin excepción
buscamos una relación que nos permita controlar o predecir los nuevos
valores de la variable dependiente del conjunto original de datos.
Así, el análisis de regresión de las estadísticas comerciales y económicas
debe enfocarse desde el punto de vista de inferencia (estadística) de una
muestra particular a una "población original" que incluye la muestra dada
y también las observaciones adicionales o futuras que deseamos controlar o
predecir. Tanto la muestra dada que analizarnos como los valores reales
futuros o "elementos" que intentamos controlar o predecir representan
solamente una fracción de todos los valores posibles que se podrían tomar
de la población en cuestión. La aplicación de la inferencia estadística al
análisis de regresión nos lleva al descubrimiento y verificación de relaciones
entre las variables. Este es uno de los problemas básicos más desaJiantes
de la investigación científica.
La línea de regresión de una muestra es solamente un mIembro de
una familia de líneas de regresión de diferentes muestras que podrían
tomarse de la misma población. Es decir, las medidas de regresión están
sujetas a errores de muestreo. Aún así, podemos estimar dentro de qué
límites es probable que quede la "verdadera" línea de regresión de la
población. La teoría de la estimación de los parámetros de la población
para estadísticas muestrales se presentó en los capítulos 9 y 10. Ahora
podemos aplicar esta teoría para realizar inferencias estadísticas acerca
de los verdaderos valores de los parámetros de correlación y regresión!;

Postulados básicos

Con el objeto de hacer inferencias válidas a partir de una muestra


de datos concerniente a las relaciones de la población, se deben satisfacer
ciertos postulados.
Postulado 1. Cuando ajustamos una línea recta a los datos mues-
trales para estimar la relación verdadera de pobl<lción, esta última debe
también ser lineal. (l} n supuesto similar se aplica al caso curvilíneo.)
Esta relación se puede expresar en la forma

y = A + BX +E
donde A Y B son los verdaderos (pero desconocidos) parámetros de la

ti Vea M. Ezekiel y K. A. Fox, Methods 01 Correlation and ReEfession


Analysis (3'1 ed.; Nueva York; John Wiley, 1959), capítulos 17 y 19, para un
estudio más completo de este tópico.
486 Correlación y regresión simple

línea de regresión, y E (épsilon) es la desviación de un valor real de


y de la verdadera línea de regresión. Esto es, € = Y - YO) (El pro-
medio o valor esperado deE es cero). Este es el postulado de linealidad.
Postulado 2. La desviación est"ndar de las E es la misma para
todos los valores de X. Esto significa que existe upa dispersión uniforme
de puntos alrededor de la línea de regresión. Esta propiedad se denomina
homoscedasticidad. Los ejemplos de la figura 16-7 ilustran cuándo es
válido este supuesto y cuando no. (ClJando Ja dispersión no es uniforme,
puede servir una transformación de los datos para producir una disper-
sión más pareja. Por ejemplo, si la dispersión respecto a la línea de
regresión tiende a ser un porcentaje constante de la variable indepen-
diente X, el uso de log Y hará más uniformes las desviaciones respecto
a la línea.)

Dispersión uniforme Dispersión no uniforme


y ,/
... -:;.
"
/
...
,.o"
. . "0
...
,,~.

o 0 0

/0 • • • • ••
,..;:.... • • • • • • 0_,-

0_-e_---0_-
/ • • e • • 19. :"'.- __ '- •

-- e.

Valor extremo.----""

'-----,----..,..----x '-----------x
Figura 16-7
Dispersión de puntos alrededor de la línea de regresión

Postulado 3 •. Las ·E son independientes unas de otras. Esto significa


que la desviación de un punto a la línea no tiene relación con la desvia-
ción de ningún otro punto. Este postulado de independencia no es válido
para la mayoría de las series cronológicas. Las series cronológicas se
mueven en fomIa cíclica más bien que en fonna aleatoria alrededor
de la tendencia, de tal. manera que los valores adyacentes (por ejemplo,
dos años de auge), están estrechamente relacionados. En la figura 16-8
se ilustran valores E ipdependientes y dependientes.
Postulado 4. La distribución de los puntos arriba y abajo de la
línea de regresión sigue una curva casi,norma1. Esto significa que los
valores E están normalmente distribuidos. 7
• El supuesto de normalidad no es necesario si se desea estimar sólo los valores
de a y b en la línea de regresión. El supuesto es necesario para hacer inferencias
respecto a a y b, utilizando los errores estándar sb y SyC considerados más adelante,
en muestras pequeñas, pero no en muestras grandes (debido al teorema del límite
central'). El supuesto de normalidad es también necesario (no importa el tamaño
de la muestra) para poder hacer proposiciones probabilísticas utilizando el error
estándar de estimación S l' X Y el error estándar de predicción S f' Ver A. M. Mood
Inferencias hechas a partir de /os muestras 487

Independencia Series cronológicas (dependencia)


Y:

'-----------x
Tiempo
Figura 16-8
Independencia de observaciones

Cuando estos cuatro postulados se satisfacen, son eficientes el coefi-


ciente de regresión lineal y el error estándar de estimación calculados
a partir de una muestra, y los tomamos como estimadores lineales, no
sesgados de los verdaderos valores de la población.
Además de estos postulados generales, .es importante distinguir entre
dos casos, denominados el modelo de correlación y el modelo de re-
gresión.
Modelo de correlación. En el modelo de correlación, tanto X como
y se consideran muestras aleatorias tomadas de una población normaP
Los valores muestrales son independientes uno de otro y están normal-
mente distribuidos alrededor de sus respectivas medias. Si esta condición
se cumple ; junto con los cuatro postulados generales listados anterior-
mente, todas las medidas de correlación y regresión en este capítulo pueden
considerarse válidas.
Modelo de regresión. En el modelo de regresión, Y es una variable
aleatoria, pero X es fijada o predeterminada en valores específicos. Esto
es muchas veces cierto en los experimentos controlados. Por ejemplo, al
medir los efectos de varias cantidades de fertilizante en campos de maíz,
los valores X se pueden determinar como O, 40, 80 Y 120 libras de nitró-
geno, respectivamente, en los cuatro grupos de puntos. En este caso, el
análisis de regresión es válido solamente para otras muestras o una po-
blación en la que los valores X se seleccionan exactamente de la misma
manera que en la muestra original, por ejemplo, para puntos de 0,40,
80 Y 120 libras de fertilizantes tomadas con la misma frecuencia relativa
que en esta muest~a. Los coeficientes de determinación y correlación ge-
neralmente son válidos en el modelo de regresión.
y F. A. Graybill, lntroduction to the Theory 01 Statistics (2'" ed., Nue\ia York:
McGraw-Hill, 1963), cap. 13, para más detalles sobre las propiedades de esos
estimadores.
, Más especHicamente, la pareja de datos (X, Y) debe representar una
muestra aleatoria tomada de una población que es normal respecto a ambas
variables. .
488 Correlación y regresión simple

Ahora volvemos al problema de la medición del error de muestreo


asociado con las estimaciones de a y b, Y las inferencias estadísticas que
se pueden realizar basadas en estas estimaciones.

Error estándar del coeficiente de regresión

Se puede realizar una inferencia acerca del coeficiente de regresión


ya sea como una prueba de significación o como un intervalo de con-
fianza, de la misma forma que en el caso de una media o una proporCión.
Cualquier tipo de inferencia. depende del error estándar del c.oeficiente
de regresión, como se describe más adelante.
Prueba de la significación de una relación. En primer lugar,
podría ser útil saber si existe alguna relación significativa entre las varia-
bles X y Y. Por mera casualidad, alguna muestra particular puede indicar
una relación, aun cuando ésta no exista. Si no existe relación, se supone
que el verdadero valor de B (el coeficiente de regresión de la población)
sería cero. Entonces se formula la hipótesis B = O. Si el valor muestral b
es significativamente diferente de cero, rechazamos la hipótesis y afirma-
mos que existe una relación definida entre las variables. Para hacer todo
esto, calculamos el error estándar del coeficiente de regresión. Es decir,

Aquí, Syx es el error estándar muestral de estimación; x = X - X


Y ~.r describen ·la dispersión de los valores de X alrededor de su media.
El valor Sb es una medida del. monto del error muestreal en b, igual que
sx fue una medida del error de muestreo alrededor de la media X.
En el ejemplo de las tasas de producción (tabla 16-2):

5.13
v'7:395
,395
= 0.060

El procedimiento para determinar si una relación pOSItiva existe entre


las tasas de producción y las calificaciones de las pruebas se puede des-
cribir como sigue:

Hipótesis nula: B ~ O (Ninguna relación o una negativa)


Hipótesis alterna: B > O (Se incrementa la t~sa de producción a medida
que se incrementan las calificaciones de las
pruebas)
El valor de b es 0.943. Si la hipótesis nula es cierta, B ~ O Y b es
+0.943 unidades de B. En términos de sus errores están~ar, es 0.943/s b =
0.943/0.060 = ffi. Entonces b es 16 errores estándar de B = O.
Si este análisis se basara en una muestra grande, la probabilidad de
un extremo asociada con cualquier desviación dada se podría encontrar
Inferencias hechas a partir de los muestras 489

en la tabla de ár~as bajo la curva normal en el Apéndice D. Para mues-


tras pequeñas como ésta (con n ::; 30), debe utilizarse la distribución t
del Apéndice M con n - 2 grados de libertad. En cualquier caso una
desviación de más de tres errores estándar es muy significativa (excepto
para muestras muy pequeñas). Por lo tanto,. se puede despreciar la posi-
bilidad de que ocurra una desviación tan grande como 16 errores estándar
si B::; O. Por esto -rechazamos la hipótesis nula y aceptamos la hipótesis
alterna de que existe una relación significativa entre las variables.
El factor b/ Sb se denomina a menudo en la razón crítica. En esa
forma en nuestra prueba de un extremo, si b /Sb > 1.73 (para 20 - 2 = 18
grados de libertad en el Apéndice M) se dice que b es significativo al
nivel del 5%.
Intervalos de confianza. Un intervalo de confianza para el coefi-
ciente de regresión (b) de una muestra es una zona. situada alrededor
del valor muestral que creemos que incluye el verdadero coeficiente de
regresión (B) de la población, con una probabilidad específica -digamos
95% de ser correcta~. El intervalo de confianza del 95% para el coefi-
ciente de regresión de una muestra grande es

b ± 1.96sb (Apéndice D)

Sin embargo, en el ejemplo de tasas de producción, con n = 20,


buscamos en el Apéndice M. con n = 18 grados de libertad y P = 0.05
para encontrar el intervalo de confianza

b -1- 2.10s b
O sea 0.943 -1- 2.10(0.060)
= 0.943 -1- 0.126

Por lo tanto, el fabricante podría afirmar que B esta entre 0.817 y 1.069,
con una probl;i.bilidad de 0.95 de que esa afirmación sea correcta. Por
supuesto, se podría escoger cualquier otro grado de confianza en vez
del anterior, con referencia al Apéndice D o M.

Error estándar de una predicción

Muchas veces es importante encontrar dentro de qué límite puede


esperarse que quede una nueva observación. Por ejemplo, la línea de
regresión de la figqra 16-4 se utiliza para pronosticar la tasa de produc-
ción para Un nuevo aspirante que recibió una calificación de 40 en su
prueba. La tasa estimada fue de 42 -1- 5, donde 5 era el error estándar
de estimación.
Esta medida describe la dispersi6nde las tasas de producción por
arriba y por debajo de la línea de regresión ajustada a esta muestra
de 20 ~rabajadores, pero no toma en cuenta el error muestral en la
línea d@ regresión misma. Este variarla tanto en el nivel promedio, como
490 Correlación y regresión simple

en la pendiente a medida que fueran probados diferentes grupos de


trabajadores.
El error estándar de predicción (S¡ ) es una medida del error total
de muestreo para cualquier nueva observación... Se obtiene combinando el
error estándar de estimación con el error estándar de la línea de regre-
sión. Al igual que con las desviaciones estándar, lá suma de los errores
estándar se obtiene sumando sus cuadrados. La fórmula para calcular
el error estándar de predicción es:

s¡ = SyxJ·1 + ~ + ~2 para cada valor de x = X - X


n ¡x

Aquí, el 1 que está dentro del radical es en sí el error estándar de


estimaci.ón, y los otros dos términos representan el error estándar de un
punto sobre la línea de regresión. 9
En el ejemplo de tasas de producción, Su = 5.13, n = 20, Y ¡x2 =
7,395 (tabla 16-2). Por lo tanto,

S¡ = 5.131 J +- + __
1
20
2
x
7,395
Los errores de predicción para cinco calificaciones de pruebas seleccio-
nadas (X) se dan en la tabla 16-4, columna 5.
Si los cálculos para el error de predicción -se basan en una muestra
grande, y si los valores están distribuidos aproximadamente en forma
normal alrededor de la línea de regresión, entonces las oportunidades
SOil del 0.95% de que la nueva observación tomada de la misma pobla-

v Podemos expresar la ecuación de regresión en la forma Y(' = ji" + bx. El


error estándar de Y(' para cualquier valo~de x (la desviación de la media) incluirá
entonces los errores estándar tanto ,de Y, la altura media de la líne~ como de
b (x), la pendiente multiplicada por la· distancia .de un punto X a X. El error
estándar de Y(' para cualquier valor de x se puede expresar a partir de la suma
de los cuadrados de los errores estándar:

El error estándar de un punto de la línea de regresión es por lo tanto

JI- +
n
~
,"",x 2
.. x= -
~.para cada valor de X - X

Esta medida provee un intervalo de confianza bueno para estimar el valor promedio
de Y(' (o sea, la línea de regresión misma') para un grupo de observaciones
nuevas en vez de un valor individual de Y. Así, podría ser utilizado para predecir
las calificaciones promedio de las pruebas de otro grupo de trabajadores, en vez
de la calificación de un trabajador en particular.
inferencias hechas a partir de las muestras 491

Tabla 16-4
Error estandar en una predicción específica
Calífícacíones de las pruebas y productividad de 20 trabajadores

Error estandar de
Valor selec- Desviación .... 2
cionado de de la Estimación Predicción
X media X 7,395 SXI' s¡
(1) (2) (3) (4) (S)

15 -40 .2164 5.13 5.77


35 -20 .0541 5.13 5.39
55 O O 5.13 5.26
75 20 .0541 5.13 5.39
95 40 .2164 5.13 5.77
Nota: Para obtener intervalos de confianza de 959'0, multi·
plíquense las columnas 4 y 5 por 2.10 Fuente; Tabla 16.2
Clan esté dentro de 1.96 errores de predicción a cualquier lado de Yc.
O sea un intervalo de confianza del 95% para una nueva observación
(Y) es Y,. -1- 1.96 Sr.
Sin embargo, en el presente ejemplo, con un tamaño de muestra de
solamente 20, el intervalo de confianza del 95% para una nueva obser-
vación es Y c -1- 2.10 Sr. En la figura 16-9. corresponde a la banda ancha
este intervalo. Las oportunidades son 95 en 100 de que el nuevo aspi-
rante obtenga una tasa de producción dentro de estos límites.
Deben observarse cuidadosamente ciertas características de la figura
16·9. Los límites de los intervalos de confianza son curvos. Mientras
más alejados estén los valores X de su media aritmética, mayor es la
amplitud de los intervalos de confianza. Este hecho puntualiza el peligro
de extrapolar para valores 'de X que se encuentren a distancia consi-
derable de X. Cuando n es pequeño, también el error estándar de
predicción excede considerablemente el error estándar de estimación y
refleja mejor los errores de predicción de las muestras pequeñas.
El error de predicción es útil no solamente para el pronóstico sino
también para el control. Si una observación queda fuera de los límites
de confianza, esto indica que es muy probable que se encuentren "fuera de
control" y debe ser investigada. Como una gráfica de control, la figu-
ra 16·9 sirve en mucho para el mismo propósito que las gráficas de
control estadístico de calidad descritas en el capítulo 10. En el presente
ejemplo, el gerente puede no solamente predecir que un aspirante con
una calificación de 40 en la prueba.. obtendrá una tasa de producción
en tre 31 y 53 (con un 95% de probabilidad), sino que puede utilizar
estos puntos como límites de control. Si l~s tasas de producción reales
de quienes han presentado la prueba quedan fuera de los límites, la
gráfica indica al supervisor que debe investigar. Si la producción de los
e¡np1e<;dos es menor de 31, es posible que identifique y remedie la causa
de esta deficiencia; si es mayor de 53, también deben identificarse los
492 Correlación y regresiórt simple

Tasa de producción
(

100

Intervalo de
confianza del 95 qb
eo en la predicción

60

40

oo;-...L.-L.--::-----:40l.:-----6Lo----.JeoL---1Jo~0 X
Calificaciones obtenidas en las pruebas
Fuente: Tablas 16-2 y 16-·4

Figura 16-'9
Intervalos de confianza en una predicción específica
Calificaciones y tasas de producción de los trabajadores

factores del comportamiento y desempeño de este supervisor, ya sea


como base para calificar al empleado o para mejorar las prácticas gene-
rales de trabajo.

Error estándar del coeficiente de determinación


o correlación

No tomaremos el error estándar del coeficiente de determinación (rl!)


o de correlación (r) directamente, ya que este concepto ocasiona difi-
cultades que son desproporcionadas en comparación con su utilidad más
bien limitada en los negocios y la economía. lo
El error estándar del coeficiente de correlación se· puede calcular como
10
sr = (1
- r 2 ) -:- .,¡n:.. 1. Esta fórmula se aplica solamente a muestras grandes,
y aun entonces la distribución de las r de la muestra es bastante asimétrica cuando
el valor real de r está muy alejado de cero. Sin embargo, el valor r se puede
Inferencias hechas a partir de las muestras 493

La variabilidad muestral de los coeficientes de correlación se puede


ilustrar gráficamente, en la figura 16-10. Esta figura muestra el valor
mínimo del verdadero coeficiente de correlación para cualquier valor
muestral de"r, al nivel del 95% de confianza.
Por ejemplo, en el caso de las tasas de producción, el coeficiente
de correlación para el grupo de 20 trabajadores es ...¡ 0.929, Ó 0.964. Con
este valor en el eje X, usamos la curva n = 20 para encontrar 0.93
Correlación real
1.00

.90

.80

.70

.60

.50

40

. 11
.30

.20

'10,.
~ ~ ~ M ~ S m
Correlación observada en la muestn.
~ ~ ~
Figura }6-} O
Correlación de población mínima para correlación observada (r) y
tamaño de muestra variables
En condiciones del muestreo aleatorio, una muestra de cada 20 suele tener un coeficien-
te de correlación con un valor tan alto como el "observado en la muestra", cuando ésta se
deriva de una población; con una correlación verdadera dada.
Fuente: Tomada de M. Ezekiel y KA. Fox, Methods ai correlations and Regression
Analysis (+3-a.,cd., Nueva Ymk: JohnWiley, 1959) pág. 294.
transformar en una cantidad denominada la z de Fisher, cuyas distribuciones
muestrales son casi nonnales. Para un tratado de los intervalos de confianza y
pruebas de hipótesis que utilizan z, vea W. A. Spurr, L. S. Kellog y .J. Smith,
Business and Economic Statistics (Homewood, IlIinois: Richard D. Irwin, 1954),
págs. 292-293, y el Apéndice I.
494 Correlación y regresión simple

en el eje Y,. Por lo tanto, podemos decir que la verdadera correlación


para la población es cuando menos 0.93, con un 95% de probabilidad
de estar en lo correcto.
Sin embargo, si la r de la muestra fuera 0.60, con n = 10, podríamos
solamente decir que el verdadero valor es cuando menos cero, con el
mismo grado de· confianza. Esto es, aun si no existe correlación en la
población misma, es posible que el 5% de todas las muestras de tamaño
10 tuviera un coeficiente de correlación de ±O.60 ó mayor. Esta grá-
fica demuestra el peligro de realizar inferencias sobre el grado de corre-
lación cuando ron son pequeños.

REGRESION DE SERIES CRONOLOGICAS

La regresión de da tos mensuales o anuales se puede llevar a cabo


en la misma forma que se describió anteriormente. Sin embargo, las
series cronológicas no son muestras probabilísticas, sino que están sujetas
a tendencias, ciclos y fuerzas irregulares importantes así como a movi-
mientos puramente aleatorios. Por lo tanto, surgen problemas de inter-
pretación y trampas tontas que evitar.
La mayoría de las medidas de regresión y correlación son teórica-
mente COrrectas sólo si los residuos (Y - Y,.) están distribuidos al azar,
con dispersión uniforme, alrededor de cada sección de la línea de regre-
sión (como se describió antes en "Postulados básicos"). Esto no se
aplica para las series cronológicas. En primer lugar, la presencia de un valor
extremo alto o bajo (ocasionado, digamos, por' una amenaza de guerra
o huelga) influye en la línea de regresión y los diversos errores estándar
en proporción al cuadrado de su desviación y puede distorsionar los
resultados. .
Segundo, los residuos absolutos tienden. a ser mayores a medida que
la industria crece al pasar el tiempo. Más adelante se ilustra el uso de
logaritmos para reducir esta tendencia.
En tercer lugar, puesto que la mayor parte de las series cronológicas
se mueve en forma aleatoria y no en ciclos, es probable que resulten
corridas de varios residuos sucesivos positivos o negativos en fila. Esto
ocurre también si una línea recta se ajusta a una relación curva. O sea,
cada valor anual está relacionado con el del año contiguo en vez de
ser independiente de él. Esto se denomina aut,ocorrelacián. Si los residuos
están autocorrelacionados, el error estándar de estimación subestimará
la cantidad de error que es probable se proQuzca al hacer predicciones.
Citaremos una prueba para apreciar la extensión de la autocorrelación
en el ejemplo que sigue. Si el grado de autocorrelación es mayor del
que podría atribuirse i:tI azar, no son aplicables las fórmulas usuales para
el error estándar.
La misma línea de regreslOn es a menudo una herramienta válida
y útil para el control y la predicción a despecho de sus limitaciones. Pero
es necesario un estudio cuidadoso al proyectar esta línea en el futuro,
Regresión de series cronológicas 495

para determinar si es probable que persistan las relaciones pasadas. La


extrapolación es peligrosa pero necesaria en la predicción. En cualquier
caso las dos series deben estar relacionadas en forma lógica. De otra
manera la correlación sería falsa, debida al azar, tendencias similares, o
la influencia común de factores exteriores.
.Por otra parte, el error e~tándar de estimación puede tener un valor
dudoso si su significación estadística está en dudá ya sea por la autoco-
rrelación o la distribución errática de los residuos (Y - Y e ) en series
cronológicas; por tanto, un rango de un error estándar de estimación
respecto a la línea de regresión no incluye necesariamente cerca del
68% de los elementos. Lo mismo se aplica a los errores estándar del
coeficiente de regresión, el error estándar de predicción y los intervalos
de confianza basadós en esos valores. Sin embargo, sc mostrará que esas
medidas pueden ser válidas al correlacionarse cambios porcentuales de
~ño a año.
Finalmente, si dos series aumentan a través de los años, el coeficiente
de detemiinación puede sobreestimar en mucho el grado de relación,
simplemente porque ambas series tienen valores pequeños en los prime-
ros años, y mayores en los últimos años.

Ejemplo: la predicción de ventas

Suponga que se nos encarga la planeación de Sears Roebuck y Cía.,


y deseamos establccer· una base cuantitativa para la proyección de las
ventas futuras de la compañía. Puesto . que la compañía distribuye una
gran variedad de productos de consumo en una escala nacional, sus ventas
guardan una estrecha relación con el ingreso personal neto en los Esta-
dos Unidos. Hay predicciones autorizadas de este último. Por lo tanto,
correlacionaremos las venta~ y el ingreso para el periodo de post-guerra
coreana de 1953 a 1971, mostrado en la Tabla 16-5, y utilizaremos esta
regresión para predecir las ventas de Sears en los años 1972 a 1975.
Primero graficamos los datos en la escala aritmética (que no se
muestra) corno en ·Ia doble escala logarítmica (figura 16-11). La rela-
ción resulta lineal en ambos casos, de manera que ajustarnos líneas
de regresión por mínimos cuadrados tanto a los valores naturales como
.a los logaritmos. Los ajustes SOn buenos, y los coeficientes de determi-
nación son los mismos (0.994). Hemos escogido la línea logarítmica
(log Y,o = - 2.3681 + 1.1785 log X) puesto que las desviaciones por-
centuales (logarítmicas) a lo largo de la línea de regresión tienden a
ser más uniformes ~ como lo requiere la teoría de mínimos cuadrados)
que las desviaciones absolutas, que tienden a incrementarse con el aumen-
to de las ventas a través de los años.
La figura 16-11 sirve tanto de diagrama de control como de herra-
mienta de predicción. Como control de los resultados de 1971, note que
la recesión de ese año hizo decrecer las ventas de Sears un 3.8(* bajo su
relación "normal" con el ingreso, pero este no es un resultado particu-
496 Coro"elación y regresión simple

Tabla 16-5
Las ventas netas de Sears Roebuck y el ingreso personal disponible
en los Estados Unidos en el período 1953-71, con proyecciones pa-
ra 1972-75
Ingreso dispo- =
nible (en miles Ventas de Sears * Cambio porcentual con respecto
de millones de (miles de millones al año anterior
Dls.) de Dls.)
Año X Y X Y

1953 252.6 2.982


1954 257.4 2.965 1.9 -.6
1955 275.3 3.307 7.0 11.5
1956 293.2 3.556 6.5 7.5
1957 308.5 3.601 5.2 1.3
1958 318.8 3.721 3.3 3.3
1959 337.3 4.036 5.8 8.5
1960 350.0 4.134 3.8 2.4
1961 364.4 4.268 4.1 3.2
1962 385.3 4.578 5.7 7.3
1963 404.6 5.093 5.0 11.2
1964 438.1 5.716 8.3 12.2
1965 473.2 6.357 8.0 11.2
1966 511.9 6.769 8.2 6.5
1967 546.3 7.296 6.7 7.8
1968 591.0 8.178 8.2 12.1
1969 63404 8.844 7.3 8.1
1970 689.5 9.251 8.7 4.6
1971 744.4 10.006 8.0 8.2
Projections
1972 795. 11.219 6.8 7.8
1973 870. 12.477 9.4 11.4
1975 965. 14.100 1O.9t 13.4t
* Considerando ello. de febrero como principio del año
t Cambio porcentual en dos años
Fuente: Survey o/Current Business, Sears.. RoebuckAnnual Report. Proyecciones de ingreso
tomados de Predicast, julio 28, 1972; las proyecciones de Sears se obtuvieron de la ecuación
de regresión.

larmente malo puesto que es sólo 1.2 veces el error estándar de estima-
ción del 3.1 %'
Para predecir las ventas de Sears para los años 1972 a 1975, podemos
prolongar la línea de regresión y utilizar el consenso sobre proyecciones
del ingreso disponible realizado por economistas prominentes publicado
en Predicasts de julio 28, 1972 (tabla ] 6·5, colum~a 3). Sustituyendo
esos valores en la ecuación de regresión, conseguimos las estimaciones
de ventas de Sears mostradas en la tabla 16.5, columna 2 y figura 16-11.
(La gran depresión de la progresión lineal corresponde a la recesión de
Regresión de series cronológicas 497

ZO
18

16

p>
,,
14 75

,...., 12 ,¡;In
6 ll)
,¡;fn
't:l
'"
ll)
10

S
=
o
9
El
ll)
't:l 8
'"
ll)

5== 7
'"
~
ll)
CIl
ll) 6
't:l

....,,;'"
>= 5
_ 62
_ 61
-60 Predicciones (i)
4 59
e58
57

3 53

zL...,. -L.. ...L._ _...L._-J....,---"_--L_J---L __


200 300 400 500 600 700 800 900 1,000
Ingreso personal disponible (miles de millones de Dls.)
Fuente: Tabla 16-5
Figura 16-11
Ventas de Sears Roebuck e ingreso personal disponible en los Esta-
dos Unidos, e)l el período 1953-71, con proyecciones para 1972-
75
(Escala logarítmica doble)

los años 1970-71; esta depresión originó predicciones un poco menores.)


Note que puesto que las ventas de 1971 están 3.8% bajo la. línea de
regresión, la predicción implica que los clientes de Sears tendrán que
aumentar sus compras por un porcentaje correspondiente, en relación a
498 Correlación y regresión simple

su ingreso, para alcanzar nuestras estimaciones futuras. Por tanto, esas


estimaciones deben ajustarse, luego de una valuación del estado de los
negocios. ¿ Qué tan válidos son el error estándar de estimación y medidas
relacionadas para juzgar la precisión de esas predicciones? La validez
depende en gran parte del grado de autocorrelac:ún .• Desafortunadamente,
la figura 16-11 muestra claramente ondas de z.utocorrelación: los puntos
de 1957 a 1962 y 1970-1971- están debajo de la línea de regresión y los
puntos de 1964-1969 sobre ella.
Podemos probar la extensión de la autocorrelación en los residuos
respecto a la línea de regresión calculanc10 el estadístico (d) de Durbin-
Watson. Si su valor es 2, no hay autocorrelación, si su valor es cercano
a cero hay un alto grado de autocorrelación positiva.
En el caso de Sears, d = 0.85, lo que indica autocorrelación significa-
tiva, por lo que las fórmulas usuales' de error estándar no son aplicables.,u
Por lo tanto, no podemos estimar los errores de predicción en términos
probabilísticos, aun suponiendoql'P conocemos con certeza el ingreso
disponible futuro. Y dicha proyección de ingreso tiene un error descono-
cido, que podría aumentar o disminuir .el error en la predicción de ventas.
Otra forma de estimación del error en las predicciones es hacer varios
supuestos y comparar la dispersión de las predicciones basadas en cada
uno de ellos. En esa forma, el U. S. Census Bureau hace cuatro distintas
"proyecciones ilustrativas" de la población futura basadas en varios su-
puestos respecto a la tasa de nacimientos, y el lector puede escoger en la
mejor forma que pueda entre ellas.
Uso de los cambios porcentuales para proveer medidas válidas
de los errores de predicción. .\ menudo podemos reducir la autoco-
rrelación de las series cronológicas, y tener así una medida más válida del
error estándar de estimación y medidas relacionadas, ajustando una regre-
sión a los cambios porcentuales de año a año, en vez de a los datos
reales. Los resultados son útiles para la predicción de corto plazo.
Por lo tanto, se ha ajustado una línea de regresión por mínimos cua-
drados a los ca~bios anuales de las ventas de Sears Roebuck y del
ingreso disponible mostrados en la tabla 16-5, columnas 4 y 5. Los resi-
duos graficados (que no se muestran) están distribuidos en forma más
aleatoria que los de la figura 16-11, y el estadístico de Durbin-Watson de
1. 70 indica que no hay autocorrelación significativa. Los diversos errores
estándar {'alculados para esos cambios porcentuales (v. g., Srx, Sb y S,),
son, por lo tanto, más válidos que los. calculados para los valores origi-
nales. Esto no significa, por supuesto, que la,. predicción misma es necesa-
riamente más prl'cisa que la basada en los datos originales.
La predicción para 1972 ohtenida al correlacionar cambios porcentua-
les es de un 7.8%· de aumento en las ventas de Sears con respecto al
año 1971 (tabla 16-5), más o menos un error estándar de estimación
'11 Para detalles sobre esta prueba, ver Charles R. Fra~k, Jr., Statistics and
Econometrics (Nueva York: Holt, Rinchart & Winston, 1971), págs. 276-281, y
el Apéndi(:e E, que muestra si la auto(:orrelación es signifi(:ativa para varios va-
lores de d. .
La correlación no implica causalidad 499

de 2.9 puntos porcentuales. El aumento real para 1972 fue de 9.80/<: que
eftá dentro de ese rango. Asimismo, el coeficiente de determinación, 0.447,
es más válido que la cifra 0.994 que es muy espúria, obtenida al correla-
cionar las series originales, que tenían ambas tendencias crecientes. Sin
embargo, significa que el ingreso disponible explica sólo el 44.70/c de la
variancia de los cambios pomentuales anuales de las ventas de Sears.
Alternativamente, podríamos correlacionar las cantidades absolutas
de cambio cada año, pero los residuos (Y - Y,.) tienden a aumentar con
las ventas (Y) a través de los años. Por tanto, la utilización de cambios
absolutos viola la teoría de mínimos cuadrados, y tiende a exagerar la
influencia de las últimas cifras.
Finalmente, podríamos correlacionar porcentajes de la curva de ten-
dencia secular (capítulo 19). Esos valores se muestran en la tabla 19-3,
columna 8, y en la figura 19-7 para las ventas de Sears Roebuck; para
el ingreso disponible se podrían determinar desviaciones similares. Los
resultados muestran las relaciones cíclica~ y otras de corto plazo que hay
entre las dos series. La línea de tendencia es una base más estable para
calcular pClrcentajes que el nivel del año anterior, puesto que la disper-
sión de los porcentajes tiende a ser menos errática. Sin embargo, a largo
plazo las proyecciones obtenidas al correlacionar porcentajes de la ten-
dencia, los resultados son más susceptibles de error al extrapolar la curva
de tendencia.
Un análisis más completo utilizaría reg¡resión múltiple (capítulo 17)
para relacionar las ventas de Sears simultáneamente con varios factores
que afectan las ventas (v. g., el ingreso disponible, el número de tiendas
y el tiempo). Podríamos también proyectar la tendencia futura de las
ventas de Sears sobre el tiempo (capítulo 19). Finalmente, sería necesario
un estudio detallado de la política de la gerencia, las preferencias del
consumidor, y las perspect~vas generales de la economía, para modificar
las proyecciones estadísticas. De ser posible, el análisis debería llevarse a
cabo por separado para cada línea de mercancía, para territorios dife-
rentes, y para las ramas de tiendas de departamento y de venta por
correo para analizar con detalle los componentes del orecimiento.

PRECAUCION: LA CORRELAOON NO IMPLICA


CAUSALIDAD

Antes de concluir este capítulo debe enfatizarse un error de lógica.


El hecho de que dos variables estén correlacionadas no implica de nin-
guna manera que ¡{na sea causa de la otra. En particular, es un non
sequitl(r inferir que porque un evento precede a otro en el tiempo, es
por ello la causa del otro. Un estudiante escribió a un instituto de cur-
sos por correspondencia: "estoy contento con el curso de leyes. Un mes
después de iniciarlo, mi salario aumentó en un 200/<:." Non sequitur.
También, el consumo de cerveza y la asistencia a la iglesia muestran
una estrecha correlación a través de los años. Ello no significa que los
500 Correlación Y regresión simple

bebedores de cerveza buscan solaz en la religión, I1l que la piedad pro-


duce sed. Ambas variables simplemente han aumentado junto con la po-
blación.
En ,el pasado, muchos teóricos de los ciclos comerciales han descubierto
que algún factor económico estaba correlacionado con la actividad eco-
nómica general y por lo tanto supusieron que este fabor era "la causa"
de los ciclos comerciales. Desafortunadamente, los asuntos económicos y
comerciales representan un complejo de fuerzas que interactúan entre sí.
La búsqueda de relaciones sencillas de causa y efecto es ingenua y poco
realista.
En forma similar, los estudios en gran escala han establecido una
correlación entre el hábito de fumar y el cáncer del pulmón. Sin em-
bargo, es un tema que causa enconadas discusiones el creer que fumar
provoca el cáncer del pulmón, puesto que tantos otros' factores correla-
cionados (el ambiente urbano, el smog, las tensiones, etc.) pueden tam-
bién producir el cáncer.
En general, si los factores A y B están correlacionados, puede ser que
1) A causa B, sin duda, pero también podría ser que 2) B causa A,
3) A Y B influyen el uno en el otro continua o intermitentemente, 4) A
y B están ambos influidos por C, o 5) la correlación se debe al azar.

RESUMEN
La regresión simple y el análisis de correlación tienen que ver con el
estudio de dos variables relacionadas lógicamente y la forma de cómo
cambian en conjunto de observación a observación. En muchos estudios,
el interés se concentra en estimar la variable dependiente Y a partir de
la variable independiente X. Ambas se grafican en un diagrama de dis-
persión, que muestra si la relación es o no cercana, si es positiva o nega-
tiva, y si es lineal o curvilínea.
Las medidas básicas de relación son: la línea de regresión o curva,
que describe la relación promedio entre X y Y; el error estándar de esti-
mación,que es la desviación estándar de los residuos (Y - Y(') ah'ededor
de esta línea; y el coeficiente de determinación,. medida relativa de rela-
ción que varía de O a 1.
El análisis de regresión se utiliza en la administración y la economía
principalmente para predecir y controlar. Así al correlacionar las ganan-
cias por acción (X) con el precio de cada acción (Y) para un número
determinado de series, podemos predecir el precio de una acción a partir
de la línea de regresión, basados en ganancias,futuras estimadas, o pode-
mos utilizar el error estándar de estimación para construir un intervalo
de confianza alrededor de esta línea y considerar que el precio de las
series es excesivamente de precio alto o bajo si están fuera de esos límites
de control.
Las líneas o curvas de regresión se pueden ajustar g'ráJica o matemá-
ticamente. En el análisis gráfico, se elaboran los ordenamientos agrupando
observaciones para las cuales los valores de X son aproximadamente igua-
La correlación no implica causalidad 501

les; se estima un punto medio para cada ordenamiento y se indica me-


diante un pequeña cruz o círculo; y se dibuja una curva suavizada para.
ajustar los puntos de las medias. Si la regresión es lineal, la línea, se di-
buja a través de (X Y), punto de las medias de todas las observaciones.
La5 dos constantes de la línea de regresión lineal son su intersección
a con Y y fU pendienteb, el coeficient.e de regresión.
Elmetodo. de losmínimo'S cuadrados es un medio paraca1cular las
constantes de la línea de regresión de tal manera que se minimice la
suma de los cuadrados de los residuos de la línea. Así, al ajustar a una
recta, :¿( Y -' Y(') 2 .. es menor que para cualquier otra línea recta. Una
línea recta ajustada mediante ,mínimos cuadrados también cruza las me-
dias de todos los datos y reduce la suma de las desviaciones positivas y
negativas a cero: L (Y -Te) = O.Los cálculos se pueden simplificar
ujlizando las desviaciones de las variables y sus medias (o sea, usando
x yy en vez de X y Y).
Las relaciones curvilíneas se pueden expresar por medio de ,una curva
gráfica, una parábola, una recta logarítmica o alguna otra función '. ma~
temática.
Una parábola,esuna:curva 'oeIa' forma., Yc=.a.-': lJÁ-t:cX2.8e
puede ajustar mejor tratando el término X2 éomo una nueva variable X 2
y luego resolviendo las ecuasiones norm<,lles para regresiónmúltiple,uti-
lizando las variables redefinidas tal como se clesúibe en el· captit11017;; .
Para ajustar una recta logarítmica, los datos se pueden graficar en
papel gráfico. semilogarítmico o logarítmico y luego se dibuja una línea;
recta gráficamente. Alternativamente se pueden utilizar logaritmos en
lugar de cualquiera de las variables o ambas en' los cálculos. de la línea
de regresión de mínimos cuadrados; 'El us.o de logaritmos en ecuadonesde
regresión es un ejemplo de la transformación de variables. Otras trans-
formaciones como el uso de raíces cuadradas O recíprocos, se pueden uti"
lizartambién en el análisis de regresión para permitir l.majuste lineal.
. Los métodos curvilíneos de regresión se deberían utilizar cuando:
1) la lógica de la relación justifica un tipo particular de curva y 2) el
error estándar de estimación es menor para esta curva que para una
recta.
El error estándar. de esNmaciónmideel error promedio de la línea
de regresión :alproporcionát-estimaciones.de Y para valores dados de,' X.
Se puede calcular como la desviación estándar de los residuos (Y..,.. yer,
alrededor de la línea de regresión o por medio de una fórmula abreviada.
El coeficiente de determinación ( r2 ) es una medición realtiva deJa
relación. Es la razón de la variancia explicada a la variancia: total, o 1
menos la razó~. de .la.no explicada a la variancia totaL Su raíz cuadrada
(r) es el coeficiente de c()rrelación.
Lavariancia total es la desviación estándar (cuadrada) de los valores
y respecto asumedia (Y - Y). La, variancia explicada es la desviación
estándar (cuadrada) de los valores Y e alrededor de la media (Y('- Y),
puesto que esta parte de la variaciQn en Y se puede explicar por los cam-
bios correspondientes en X. La varianciano explicada es la desviación
502·. Correlación y regresión simple

estándar (cuadrada) de los valores Y respecto a la línea de regresión


(Y....,. Y c ) - la variación enY no explicada por X. Este es el error es~
tándar de estimación, cuadrado. Elcóeficientede. determinación es una
medida más directa e inequívoca de la proporción de variancia en Y
explicada por X que el valor más sobreestimado dél coeficiente de corres-
lación. .
Enresumen, la línea de regresión, eLerror estauuarde estimación, Syx,
y el coeficiente de determinación r 2 miden cada uno un aspecto diferente
de una relación dada.. Para muchos, problemas de control y predicción,
serán suficientes las dos primeras medidas.' El coeficiente de determinación
es necesario sólo si el problema necesita una medida· de importancia pro-
porcionada.
Cuando los. datos utilizados para el análisis de regresión se pueden
considera.r como una muestra probabilística de una población, podemos
realizar inferencias estadísticas basadas en los datos muesfrales. Los postu-
lados en un análisis de i regresión lineal son 1) relación lineal entre :X
y Y en::la población; 2) dispersión uniforme alrededor de la línea de fe-
gresión; 3) la independencia de las desviaciones alrededor de la línea de
regresión; .y 4) una distribución aproximadamente normal· de los puntos
alrededor de la línea de regresión. Cuando se, satisfacen estos postulados,
los valores muestrales a y b son estimadores "óptimos", de los valores
poblacionales A y B.
También debemos distinguir.. entre el modelo de correlación y el mo-
delo'deregr,esión. En el modelo de correlación, Se supone que, tanto' X
como y están: normalmente distribuidos y todos los estadísticos de Corre"
lación y regresiónsonestimadO'resválidos. En el modelo de. regresión,los
valores Y están normalme.nte distribuidos, pero .los valores X pueden estar
limitados arbitrariamente, como en un experimento controlado. En este
caso, los resultados de la regresión son válidos solamente. para estos· mis-
mos valores de X, y el ·coeficiente de determinación no es generalmente,
válido.
Podemos aplicar pruebas de significación e intervalos de confianza a
los resultados de regresión de muestras probabilísticas con objeto de rea-
lizar inferencias estadísticas acerca de la población original. Así, podemos
detenninar si existe alguna relación significativa entre Xy y probando
la hipótesis nula de que el coeficiente de regresiónpoblaeíonal Bes 'cero.
Si el valor muestral b, dividido entre su error estándar, es suficientemente
grande, de acuerdo con' una tabla de la distribución normal o ti la rela-
ción se toma como significativa. Podemos calculartari1bién intervalos' de
confianza para b.
Combinando además el error estándar de la línea de regresión con el
error estándar de estimación, obtenemos el error estándar de predicción,
que proporciona límites de confianza dentro de los cuales se puede es-
perar que quede cada nueva observación. Esas bandas de confianza son
más angostas en X, y se amplían en cada dirección. Esto indica el peligro
de estimar Y para valores de X que están alejados de su media, espe-
cialmentecon muestras pequeñas.
Problemas 503

El error de predicción es valioso tanto en la predicción de Y como


para dar un diagrama de control de Y.
Los límites de confianza para r se muestran en la figura 16-10. La
figura ilustra los peligros de realizar inferencias cuando ron son pe-
queños.
Las series cronológicas presentan problemas especiales en. la regresión.
Para ilustrar, se correlacionar.on las ventas de Sears, Roebuck con el in-
greso personal disponible para 1953-1971 y la regresión se utilizó para
predecir las ventas de 1972-1975. Graficando los datos originales en una
escala logarítmica-doble (figura 16-11), encontramos una relación lineal
muy estrecha. Sin embargo, los residuos respecto a la línea estaban auto-
correlacionados (es decir, los valores para años sucesivos son demasiado
parecidos), de manera que las fórmulas del error estándar no eran apli-
cables.
Para reducir la autocorrelación, utilizamos cambios porcentuales de
año a año, y encontramos que las distintas fórmulas para error estándar
(yr 2 ) eran más válidas que al correlacionar los datos originales.
Para determinar si las relaciones' de regresión se aplican al futuro, se
deben estudiar cuidadosamente la política administrativa, las preferencias
del consumidor y las tendencias. econ6micas generales. La extrapolación
de las curvas de 'regresión es peligrosa, pero necesaria. para laplarrea-
ción hacia el futuro '
Al utilizar el análisis' de regresión se debe notar algo engañoso: la
correlación entre dos variables, no significa en sí que haya una relación
causal entre ellas.

PROBLEMAS
1. Distinga entre:

a) Regresión lineal y curvilínea.


b) El error estándar de estimación y la desviación estándar de la variable
dependiente.
e) El uso del análisis de regresión. en la predicción. y .~1 ¿ontro!.
d) El coeficiente de regresión y el coeficiente de corrélación.

2. Explique:

a') El método de mmlmos cuadrados, aplicado al análisis de regreSlOn.


b) Cómo probar si hay una relación significativa entre dos variables.
e) Cómo' obtener un intervalo de confianza del 99% para, coeficientes de
regresión. en una muestra 'grande. ,
d) Cómo se deriva el error estándar. de pronóstico del error ,estándar,de esti-
mación.
e) El coeficiente de determinación en términos de la variancia explicada, va-
riancia no expIlcada .Y vari~mcia tota!.

3. Las cosechas de trigo en Kansas, en bushels por acre (cuadrado') tienen una
variancia total de 25 en muchos años, de la cual se puede explicar una va-
riancia de 16 por las variaciones en la lluvia estacional. La cosecha de este
504. Correlación y regresión simple

año se estima en 26 bushels por acre, basada en una lluvia estacional de 18


pulgadas.
¿ Dentro de qué rango prediciría usted la cosecha de esta estación en una
finca dada, con un ~5 % de probabilidad de estar en lo correcto? (Ignore el
error de muestreo de la línea de regresión misma.)
4. Suponga que se está realizando 1,m experimento en 8 campos en los cuales se
ha plantado maíz: cuatro campos' no tienen,flfltilizante hidrogernll,do y' cuatro
tienen 80 libras de fertilizante' nitrogenado. Los resultados de las cosechas de
maíz se mu~stI'an' en la tabla, en bushels por acre.

Nitr6geno, Cosecha de malz


Campo (libras) . bushels/acre
,1 O 12
2 O 36
3 O 6
4 O 18
5 80 128
6 80 112
7 80 112
8 80 ,72
Totales :320. -",. , 4;,96

N Ola: Esta buestra "s denfasIaao pequli<ña. como pará,' proporcionar infe';'
rencias realmente válidas, pero sirve para ihistraÍ' 10s métopos.,:':q,ue implican'
un :Jpínimo de cá1clllc!'~i'"
a) En una tabla aritmétIca :grafique Jos.. datos como un diagrama aeaI'J!'-'-
sión, y trace una línea de regresión por el método gráfico, usal].do pro-
medios de grupo como guías.
b) Calcule la ecuación lineal de regresión por mínimos cuadrados. ¿ Cómo
se compara ésta con la línea gráfica al trazarla en la tabla? Explique el
significado de la ecuación de regresión en términos del fertilizante y la
cosecha de maíz.
c) Calcule el error estándar de estimación. Interprete este valor como ayuda
en la predicción de la cosecha de maíz. .
d) Prediga la cosecha de maíz para un campo tratado 'cort-60 libras de fer·
tilizante, y dé los límites de confianza del 95% para esta predicción. (Su-
ponga que existe una relación lineal e ignore errores de muestreo en la
línea de regresión).
e) Calcule el coeficiente estimado de determinación como 1 menos la va-
riancia no .explicada sobre la variancia total. ¿ Qué . n~s dice esta figura
acerca de la relación entre el fertilizante nitrogenado y la cosecha de maíz
en general?

5. Refiérase a los datos del problema 4.

ir) ¿ Existe una relación significativa entre el fertilizante. de nitrógeno y la


cosecha de maíz? Esto es, pruebe la hipótesis' nula B ==;;.' O en comparación
con la hipótesis alternativa B> O en una probabilidad crítica de un 5%.
b) Dé el intervalo de confianza del 95 % para el coeficiente de regresión.
e) ¿ En qué forma se ven afectadas sus respuestas a los incisos. a y b por el
hecho de que los datos básicos son unexperimento/coutrol~do'en vez de
ser una fuente en la cual X y Y están normalmente distribuidas? (Ignore
que la muestra es pequeÍía.)

6. Usando el mismo experimento de l~ cosecha de maíz (problemas 4 y 5).


Problemas 505

a) Calcule el error estándar de la línea de regresIOn y sus límites de con-


fianza al 95% para aplicaciones de fertilizante de 0, 40 y 80 libras respec·
tivamente. (Vea el pie de la página No. 9)
b) Calcule el error estándar de pronóstico y los límites de confianza del 95%
para pronósticos hechos independientemente, respecto a la cosecha de
maíz, suponiendo aplicaciones de fertilizan tés de O. 40y 80 libras respec-
tivamente.
e) ¿ Cómo influye en las respuestas a los incisos a y b el hecho de que los
datos básicos representan un experimento controlado en vez de ser una
fuente en la cual X y Y son normalmente distribuidas? (Ignore que la
muestra es pequeña.)

7.
a) Si el valor muestral de T es 0.60, con n = 20, ¿cuál es el valor mínimo
del coeficiente de correlación verdadero de la población en el nivel de
confianza del 95%? (figura 16-10).
b) Si el coeficiente de correlación verdadero fuera cero, ¿qué valor muestral
sería superado por el 5% de todas las muestras aleatorias de tamaño 20?

8. Refiérase a la tabla 17-3, pág. 515 Considere la regresión simple entre el


área de un lote (X) y su precio (Y).

a) Verifique que la ecuación de regresión por mínimos cuadrados es ...


Yc = 1.453 + 0.2194X.(Refiérase a la tabla 17-5, pág. 520.)
b) ¿ Es significativa estadísticamente larelación entre el área y el precio?
d) Un lote dado tiene 18,000 pies cuadrados. Estime el precio al cual se
e ) Calcule el coeficiente de correlación entre área y precio.
vendió. Dé un intervalo de confianza del 95% para esta estimación.

9. Refiérase a las tablas 17-3 y 17-5, páginas 515y520.


a) Calcule la línea de regresión simple entre la elevación de un lote y su
precio.
b) Calcule el error estándar. de estimación.
C') ¿Es significativa la relación entre la elevación y el precio?
d) Calcule el coeficiente de correlación entre la elevación y el precio.

10. Un analista de cierta compañía estudiaba la relación entre los gastos de Viaje
en dólares (Y) para 102 agentes de ventas y la duración en días (X) de
estos viajes. El graficaba los datos, y la relación es aproximadamente lineal.
Los datos se resumen en la siguiente tabla.

X Y X2 XY Y2

Totales 510.0 7140.0 4150.0 54,900.0 740,200.0


Medias 5.0 70.0
Ajustes -2550.0 - 35,700.0 -499,800.0
El ajuste total 166.0 19,200.0 240,400.0
,~ 2
El ajuste total es 'Y
~x
2
2;"11 -JI

a) Calcule la ecuación de regreslOn" para los' datos anteriores.


b ) ¿Cuál es el significado práctico del valor de a (la intersección len esta
ecuación?
506 Correlación y regresión simple

e) La duración de un viaje dado es de 7 días. ¿ Qué tanto dinero debe


llevar un vendedor con objeto 'de que haya únicamente una oportunidad
en diez de que se le acabe el dinero? '

11. La "Certified Foods Company" maneja una cadena de tiendas de venta de


alimentos al menudeo. Con objeto de medir la eficiencia de las tiendas, se
hizo un estudio entre la' relación del número de em'pleados (X), y el pro-
medio del volumen de ventas mensuales (Y) para todas las tiendas durante
el ai)o pasado. Cuando se graficaron los datQs, la relación era aproximada-
mente lirieal, en la cual los, puntos, tenían una' dispersión uniforme alrededor
de la línea. Los datos se puéden resumir corno sigue: X = el Ilúrnero de em-
pleados en cada tienda; Y = el promedio mensu'al de :ventas du'rante 1973
para cada tienda expresado en miles de dólares; n = 100= el número de
tiendas en la cadena; Z;X = 600; Z;Y = 1,600; ~X2 = 5,200; ~Y2 = 37,700;
~XY= 13,600.

a) Encuentre la línea de relación promedio (es decir, la línea de regresión).


Dé una explicación verbal, a esta ecuación.
b) Calc{¡le ~I coeficiente de determinación.
e) La tienda No. 64 e'mplea 10 personas y' sus ventas mensuales son de
$20,000 dólares. ¿ Difieren las actividades de esta tienda con respecto a las
de otras tiendas? ¿ Cómo 10 sabe?

12. Corno secretario del Alma Mater Alumni de una universidacj, usted es el respon-
sable de las reservaciones para la comida quincenal de alumnos. Antes de cada
reunión usted envía cartas en las cuales ,van incluidas tarjetas de contestación.
A cada alumno se le pide que devuelva esta tarjeta si es que piensa asistir.
Usted encuentra que para la fecha en que es necesario hacer las reservaciones
sólo han regresado una parte, de '¡as tarjetas, entonces usted se ve obligado a
hacer una suposición acerca del número real de cubiertos que serán necesa-
rios. Usted ha analizado los datos de los últimos dos años (48 cubiertos) yha
encontrado que existe una relación aproximadamente lineal entre el número de
reservaciones que se reciben (4 días antes de la comida,) y el número real
de asistentes a la comida. Así pues, usted ajusta una línea de regresión a los
datos y encuentra: Y(' = 20 + 1.50 X, donde Yo es la estimación de la asisten-
cia real y X es el número de reservaciones recibidas 4 días antes de la comida.
Usted también tiene SyX = 5.0; n= 48; X = 20.0; ~x2 = 4,700; j7 = 50.0;
Z; y 2 = 10,575; ~xy = 7,050.

a) Explique el significado de la ecuación de regreslon mostrada arriba.


,b) Suponga que se reciben 38 reservaciones para una comida dada. Calcule
un intervalo de pronóstico con un nivel de confianza de 95%. (Suponga
que las desviaciones alrededor de la línea de regresión están normalmente
distribuidas. )

13. Tome como referencia los datos de la tabla 12-5, paglIla 368. Calcule el coefi-
ciente de correlación entre el inventario corriente y el inventario anual to-
mando como base a los artículos. ¿ Cuál es el mínimo de correlación en el
total de la población con un nivel de confianza del 95 % ? (Use la figura
16-10, página 493.)

14. La Newspaper Agency Corporation realizó una encuesta entre los vendedores
de autos usados en el área de Salt Lake City para determinar la relación
entre la cantidad de anuncios clasificados de autos usados y las ventas de
autos. La tabla siguiente muestra los cientos de líneas de avisos clasificados
y el número, de automóviles vendidos para cada uno de los 6 negocios que
no utilizaron ningún otro medio publicitario. (En la realidad una muestra
Problemas 507

de 6 elementos es demasiado pequeña para servir de base para inferencias


válidas, pero este caso sirve para ilustrar el método de mínimos cuadrados
con un mínimo de aritmética.)

a) Grafique los datos como un diagrama disperso en una tabla aritmética,


seleccionando la variable independiente apropiada.

Cientos de líneas Carros usados


Negocio de publicidad vendidos
'A 74 139
B 45 108'
C 48 98
D 36 76
E 27 62
F 16 57
b) Calcule una ecuaClOn de regresión lineal por mlmmos cuadrados y grafí-
quela en el diagrama. Explique el significado de esta ecuación 'eh términos
de publicidad y ventas de carros.
c) Encuentre el error estándar de estimación.
d) Calcule el coeficiente de determinación. Explique el sig'nificado de r 2 apli-
cado ,a las vel1tasde autos üsados.
e') Utilice, la regresión para. predecir, las ventas de autos usados para el ven-
dedor F en el supuesto de que éste aumenta su publicidad a 5,000 líneas.
Así lo hace F, pero entonces" vende sólo 70 carros usados. ¿ Cómo podría
Ud. utilizar este análisis como dispositivo de control para que F juzgue
este resultado?
f) ¿ Podría ser que la relación ,aparente' entre la publicidad clasificada y las
ventas de carros usados se debiera al azar? ¿ O hay una relación esta-
dísticamente significativa entre 'la publicidad clasificada y las ventas de
carros ,usados? Para responder' a esta pregunta, pruebe la hipótesis de que
B, el coeficiente de regresión de población, es igual a cero.

15. Cierta firma que realizaba venta.s por correo solía pesar la correspondencia recibida
para estimar el número de órdenes que sería necesario procesar. En base a un
periodo de 25 días se recopilaron los siguientes datos:

I'eso del Peso del


con-eo correo
( cientos Miles (cientos Miles
de de de de,
Día n(.l libras) 6rdenes Día n(> libras) órdenés
1 1.8 6.4 14 4.1 13.8
2 2.0 8.0 15 4.2 12.8
3 2.0 7.2 16 4.2 16.5
4 2.1 7.5 17 4,.2 17.1
5 2.3 6.9 18 4.3 1:1.
6 2.6 10.9 19 4.6 16.2
7 2.6 10.3 20 5.0 15.8
8 2.8 9.5 21 5.4 19.0
9 3.1 9.7 22 5.8 19.4-
10 3.2 10.6 23 6.0 19.1
11 3.2 12.5 24 6.4 18.5
12 4.0 12.9 25 6.5 20.0
13 4.1 14.0
a) Calcule la ecuación de regresión lineal relacionando el número de órdenes
con el peso del correo.
508 Correlación y regresión simple

b) ¿Cuál es el error muestral asociado con 'la pendiente estimada b? ¿Está


usted seguro de que el valor verdadero de Bes mayor de 2;5?
e) Calcule el número de órdenes para una' entrega de correo' que pese 500
libras.
do) Suponiendo que los puntos tienen una, distribución casi normal alrededor de
la línea de regresión, coloque límites de pron6stico de 950/0' a la 'estimación
calculada en el inciso ( e ) . '

16. a) ¿Cómopodria determinar si ·Ia regreslOn entre las calificaciones de pruebas


y las tasas de producción de la.. tabla 16-1 es significativamente curvilínea?
b) Puesto que la fórmula para una recta es solamente un caso especial de la
relativa a una parábola en la cual e =
O, parecería que la parábola se
ajusta a casi cualquier conjunto de datos mejor que ·Ia recta que es menos
flexible. Luego, ¿ podría usted inferir que casi todas las regresiones son
significátivamente curvilíneas? Explique por qué.
17. a) Grafique las ventas de Sears Roebuck y el ingreso disponible para 1953-
1971 (tabla 16-5, .. pág. 496) en un diagrama aritmético, con la variable
independiente en el eje. de las X.
b) Puesto que la rela,ción parece razonablemente. lineal, ajuste una línea recta
por el método gráfico· ó por mínimos cúadrados, a esas figuras. Dé la
ecuación de esta. línea recta aritmética..
e) Prediga las ventas de Sears para .1972, 1973 ó 1975 (cualquiera que sea
.elúltimo año. para el cual hay 'datos de'ventas reales, disponibles) utilizando
las proyecciones de ingreso en lá tabla 16-5. Encuentre las ventas reales
ydé el porcentaje de error de esta predicción comparado con el de la
línea recta logarítmica de la tabla 16-5.
d) Calcule el error estándar de estimación. Para juzgar su validez, ¿ revela su
gráfica autocorrelacióri significativa? Más que en el caso de la línea loga-
rítmica (figura ,16-11, pág. 497). ¿ Qué otros factores podrían hacer que
. este valor subestimara. el, error verdadero de una proyección futura?
18. Como analistá de la Corporación Kraftco, usted desea proyectar la demanda
de productos alimenticios como función de la población, utilizando el índice

I>roducdón de
alimentos Población
(1967 = 100) (millones)
Afió y X

1957 70.9 172.0


1958 72.7 174.9
1959 76.3 177.8
1960 78.4 180.7
1961 80.6 183.7
1962 83.2 186.5
1963 86.2 189.2
1964 89.7 191.8
1965 92.0 194.2
1966 96.7 196.5
1967 100.0 198.6
1968 103.9 200.6
1969 108.3 202.6
1970 111.7 204.9
1971 114.5 207.0
Proyecciones
1972 208.9
1973 210.8
1.975 215.0
1980 228.5
Problemas 509

de producción del Federal Reserve para productos alimenticios y las cifras del
Census Bureau' de población de los Estados Unidos para 1957-1971, con pro-
yecciones a 1980, mostradas en la siguiente tabla. (Las cifras son de Predicasts,
junio 25, 1972, Y Business Statistics, 1971.·)

a) Grafique esas 'cifras en papel cuadriculado,. semilogarítmico, o logarítmico


para obtener, una re!l\~ión lineal, y ajuste' una línea de regresión por mí-
nimos cuadrados a los valores apropiados, naturales o logarítmicos.
b) Prediga el último año listado en la tabla para el cual está disponible el
índice real de ,alimentos. ¿ Cuál es el error de predicción como porcentaje
del valor verdadero? ¿ Qué parte de este error se debe a un error en la
proyección de población, y qué parte se debe al residuo de regresión
utilizando la población real?
e) ¿ Cómo podría usted mejorar la precisión de su predicción?
d) Dé el error estándar de estimación. ¿Resulta invalidado este valor por la
.autocorrelaciól1 significativa?
19. Un analista de la Compañía Northern Gas, estudia los siguientes datos para
predecir el uso diario de gas como función de la temperatura diaria promedio.
Las cifras muestran la temperatura promedio de 24 horas y la utilización de
gas (en miles de unidades térmicas) para 42 días hábiles de diciembre a enero,
excluyendo días feriados.

Gas Gas
Temperatura utilizado Temperatura utilizado
Día X y Día X y
1 30° 1,108 23 44° 9.89
2 29 1,091 24 32 1,114
3 34 1,046. 25 35 1,110
4 35 1,029 26 32 1,138
5 39 963 27 SO 1,155
6 15 1,297 28 31 1,091
7 16 1,280. 29 29 1,194
8 24 1,206 30 19 1,249
9 22 1,202 31 26 1,203
10 11 1,296 32 33 1,105
33 32 1,102
11
12 °
ui,
1,532
1,375 34 6 1,441
13 .. 6 1,400 35 21 1,307
14 8 1,403 36 33 1,149
15 10 1,350 37 23 1,202
16 28 1,101 38 17 1,273
17 19 1,219 39 31 1,132
18 23 1,177 40 36 1,073
19 34 1,061 41 25 1,233
20 14 1,165 42 17 1,345
21 29 1,188 Total 1,030 50,203
22 36 1,109 Media 24.52° 1,195.3

a) Par,a examinar la naturaleza de la relación, grafique un diagrama de dis-


persión en una gráfica aritmética de gran escala, seleccionando la serie
apropiada como variable independiente. Calcule cuatro o cinco promedios
de grupo (medias de grupo) y márquelas con cruces pequeñas en el dia-
grama. Marque la media global (X, Y) con un círculo.
b) Dibuje una línea de regresión recta a través de (X, y), utilizando una
regla transparente o cuerda, para igualar las 'desviaciones verticales de los
promedios de grupo a la línea en cada lado de (X, Y) separadamente.
510 Correlación y regresión simple

Dé. la ecuaClOn de esta línea.


e) Estime el. uso de gas suponiendo una predicción. de ·20 grados de .tempe-
raturapro11ledio en determinado día. ¿ Qué uso de gas esperaría si la
temperatura fuera de 40 grados?

20. Los siguientes métodos gráficos de aproximación del.error estándar qe estima-


ción y el coeficiente de determinación pueden ser de 'interés; aUnque no se
describen en el. texto. Utilice los datos del problema 1,9.

a') Estime el error estándar de estimación ( S Lr) tra'zando dos líneas paralelas
a la línea de regresión de manera que incluyan dos tercios de los puntos
(y por lo tanto, excluyan un sexto a cada lado). El ancho vertical de esta
banda, medido en el eje Y, es aproximadamente 2S yx '

b) Estime la desviación estándar (s¡.)· delos usos de gas trazando dos líneas
horizontales para incluir dos tercios de' los puntos (y por tanto excluir un
sexto ",rriba y abajo ) El alto de esta banda es. al?oximadamerte2s 1"

e) Luego calcule el coeficiente de determinación:

21. Correlacione los datos del problema 19 matemáticamente, como ayuda para
la predicción de la utilízación diaria de gas en su compañía.

a) Calcule la ecuación de regresión lineal por mínimos cuadrados. Compare


también este resultado con el del problema 19 (b). si le pidieron que lo
resolviera.
b) ¿ Cuál es la estimación de utilización de gas para un día en el cual la
temperatura promedio es. lOgrados?
e) Ca:Icule el error estándar de estimación.
d·) Se espera que la temperatura promedio para cierto día de enero sea 10
grados. Establezca límites superiores e inferiores (con 95% de confianza)
para la utilización de gas en ese d;a. Primero calcule el error estándar
de predicción y utilícelo para establecer intervalos de confianza. ¿ Cómo
se pueden utilizar esos límites para la planeación y pará. el control?

BIBLIOGRAFIA

La bibliografía para este capítulo se incluye en la lista .que apareCe- en la


página 555.
CAPITULO 11
Correlación'y regresión múltiple

EL ANÁLISIS DE correlación y regreslOn múltiple nos permite medir 'el


efecto conjunto de cualquier número de variables independientes sobre
una variable dependiente: La ecuación de regresión múltiple describe la
relación promedio entre estas variables, y esa relación se utiliza para
predecir o controlar la variable dependiente. El error estándar de esti-
mación es esencialmente la desviación estándar de esta variable de sus
valores calculados. Y, finalmente, el coeficiente de determinación múl-
tiple mide la proporción de la variancia en la variable dependien.te expli-
cada por los otros factores. Por lo tanto, los conceptos y técnicas en este
capítulo, son precisamente extensiones de los de correlación simple. Sin
embargo, al medir la influencia simultánea de varios factores, tenemos
una herramienta de análisis más poderosa y realista que al considerar
solamente una" variable independiente; el uso de programas de compu-
tadora facilita los cálculos.
Para ilustrar el usa de' varias variables, consideremos el problema de
predecir las ventas de aut6móvilesnuevos del año entrante. Existen mu-
chos factotes que influyen en las ventas, cada uno de los cuales explica
una parte del efecto total. Algunos factores que pueden tomarse en cuenta
son: el número de vehículos de motor registrados existentes al final del
año en curso; la edad promedio de los automóviles existentes; la pobla-
ción total de 16 años de edad o más; el nivel de ingreso per capita dis-
ponible; y los precios esperados al menudeo para automóviles nuevos,
relativos al nivel general de precios para servicios y bienes de consumo.
Aquí, el sentido común ( y la teoría económica) debe indicar si cada
uno de estos factores tiene un efecto positivo o negativo en las ventas
de ¡;mtomóviles nuévos.Parecería que cuando menos se necesitan cinco
variables independientes para explicar o pronosticar variaciones en las
ventas de automóviles.
La regresión múltiple se utiliza muchas veces en relación con el pro c
nóstico. Tal pronóstico puede ser tan amplio como el panorama económico
general para la nación como un conjunto, o puede estar limitado a la
estimación del precio de una sola acción. Por ejemplo, la Value Line
511
512 Correlación y regresión múltiple

Investment Survey correlaciona el precio que. tenía una aCClOn en años


pasados c<;m. StiS ,utilidades por acción y dividendos (todo en logaritmos)
pa'ra determinar el valor futuro estimado de dicha acción. Las recomen-
daciones para compras de acciones se basan en parte en esta "línea de
valor" obtenida mediante el análisis de regresión m)Íltiple.

ANALISIS DE REGRESION MULTIPLE

La ecuaci6n. de regresión múltiple representa la influencia simultánea


de un conjunto de variables independientes sobre la variable dependiente.
La ecuación lineal se puede escribir como

dond~ Yo es el valor calculado o estimado de la variable dependiente Y,


y Xl, X 2 , X 3 , • •• son las variables independientes. Se dice que la ecuación
es lineal ya que no existen términos tales como X l 2 Ó X I X 2 • El término
a es simplemente el valor de Yo cuando todas las X son iguales a cero.
Los términos b¡, b 2 , b 3 , ••• son los coeficientes netos de regresión. Cada
uno indica el cambio en Y por cambio unitario en esa variable indepen-
dienfe particular. Sin' embargo, ya que estamos midiendo la influen-
ciasimult¡inea de todas variables de y, el efecto neto .de Xl (o cualquier
otra X) debe medirse aparte de cualquier .influencia correlacionada de
otras variables. Esto usualmente se expresa añadiendo el postulado califi-
cativo: "tedas las otras variables permanecen constantes" o "ajustada
para el efecto de otras variables". Por lo tanto, diríamos que bl mide el
cambio en Y por cambio unitario en Xl, permane<:iendo l.as otras variables
independientes constantes.
Para ilustrar esto, suponga que queremos predecir el comportamiento
en el trabajo (Y) de los aspirantes a un trabajo dado con base en las
calificaciones de una prueba de acomodo (Xl) y en las evaluaciones del
entrevistador (X 2 ). Las escalas son arbitrarias. Trabajamos con una mues-
tra aleatoria de 18 nuevos empleados y posteriormente medimos su como
portamiento en el trabajo.
En la tabla 17-1 se puede ver que cada par sucesivo de observaciones
proporciona un conjunto de valores de Y para los que Xl y x 2 son cons-
tantes. Las medias de estos conjuntos de valores de Y se presentan en la
tabla 17-2. Cuando Xl se incrementa en 10, la media de Y se incrementa
en 4 (cuatro décimos de Xtl, y cuando X 2 ,se incrementa en 15 o 10,
la media de Y se incrementa en 9 ó 6, respectivamente (seis décimos del
cambio en X 2 ). De acuerdo con esto, los coeficientes netos de regresión
son b¡ = 0.4 Y b 2 = 0.6. Con el fin de determinar el valor de la ordenada
de origen a, note que el plano de regresión debe pasar a través de las
medias totales de los datos, por lo tanto, ,
Análisis de regresión múltiple 513

a = y - b}(l - b 2 X 2 = 21 - (0.4)20 - (0.6) (18.33) = 2

Por tanto,. la ecuación de regresión es

Y" = a + b 1X 1 + b2 X 2
2 + 0.04X 1 + 0.6X 2
Tabla 17-1

RELACION QUE TIENE EL COMPORTAMIENTO EN EL


TRABAJO (18 EMPI,EADOS) CON LAS CALIFICACIONES
DE PRUEBAS Y LA EVALUACION DEL ENTREVISTADOR

Comportamien to Calificación Evaluación d.1


Empleado en .el trabajo de la prueba entrevistador
y X, X.
número

.), :5 10 5
,2 .13 10 5
,} .9 20 5
4 17, 20 5
5 1~:: 30 5
6 21 30 5

7 14 10 20
8 22 10 20
9 18 10 20
10 26 20 20
11 22 30 20
12 30 30 20

13 20 10 30
14 28 10 30
15 24 20 30
16 32 20 30
17 28 30 30
18 36 30 30
Total 378 360 330
Media 21 20 18.33

El coeficiente neto de regreslOn b1 muestra el efecto promedio del


incremento de. una unidad en Xl. (calificación de la prueba) sobre Y
(comportamiento en el trabajo) ,permaneciendo X 2 constante. Esto es,
b 1 indica có~o la califi;:acióp de la prueba predice el comportamiento
laboral para hombres que fueron calificados de manera igual por el entre-
vistador. El coeficiente neto de regresión difiere así del coeficiente bruto
514 Correlación y regresión'muÜiple

Tabla 17·2
MEDIAS DE ARREGLOS DE LA VARIABLE
DEPENDIENTE Y

Xl = la 9 18 24
Xl = 20 13 22 28
Xl = 30 17 26 32
FUENTE: Tabla 17-1.

de regresión, b, en la correl<lción simple de caJific<lciones de prueb<ls y


comport<lmient6 l<lboml en que bmuestm el efecto combinado de c<llifi-
c<lciones de prueb<ls y el efecto intercorrel<lclon<ldo de 1<18 c<llificaciones
de los entrevistadores par<l predecir el comportamiento bbor<ll.
L<l ccu<lción <lnterior de regresión es 1<l ecúación de un pbno en un
esp<lcio tridimension<ll, como se muestm en b figum 17-1. Los puntos
dispersos se observ<lll arrib<l y ab<ljo del pl<lho. P<lm l<l regresión lineal
múltiple, suponemos que t<ll. pl<lno es un buen ajuste de d<ltos. Si no,
puede ser más <lpropi<ld<l <llgun<l superficie curvilíne<l, como se describe
más <ldel<lnte.

Yc = 2 + AX, + .6X 2

y
1
18

Comportamiento Comportamiento
en el trabajo en el trabajo

35 35
30 30
25 25
20 20
15 15
10 10
5 5
0
30 ....'30 O
e"'élf.25
{¡ilel - 20 25 ':0'3-i--\
ol¡ 20 :1.';).'0
e/el 15 15 c,'o \'3- "Q
el){ 1 10· 'b~
¡-e"" 5
IS{ilq, 5 -s:.'í-\c'3-C\
.. o¡- e.t C'3-
:<

Figura 17-1
Plano de regresión múltiple

Los coeficientes netos de regresión se pueden estim<lr medi<lnte un


Análisis de regresión múltiple 5 J5

método gráfico o por el método de los mínimos cuadrados. Hoy día, las
computadoras proporcionan diversos programas exactos y rápidos para
el análisis de mínimos cuadrados. Sin embargo, las técnicas gráficas son
útiles 1) para entender los conceptos básicos en regresión múltiple, 2)
para comprobar los postulados de este análisis (por ejemplo, linealidad y
lo homoscedasticidad, 3) para obtener resultados rápidos cuando no hay
computadoras disponibles, y
4) ¡'para determinar relaciones curvilíneas
cuando se desconoce la forma de la ecuación apropiada. Por estas razones
presentaremos brevemente el método gráfico. Este método es factible si
la correlación es bastante alta, 12 n'o es grande, y las variables indepen-
dientes no son demasiado numerosas ni' correlacionadas unas con otras.

Tabla 17-3
AREA; ELEVACION y PRECIO PARA 20 LOTES
RESIDENCI ALES S

Area, cientos Elevación, pies Precio,


de pies sobre el nivel miles de
cuadrados del mar dólares
Lote Nr,l X, X, Y

1 14.7 155 4.1


2 14.2 155 3.9
3 12.7 158 3.2
4 13.8 158, 2.9
5 14.4 155 3.9
6 17.4 157 4.1
7 21.8 172 5.8
8 14.0 170 5.1
9 17.5 175 6.8
10 23.0 185 6.8
II 18.3 185 6.5
12 19.4 205 7.0
13 15.2 215 ,5;8
,14 18.3 195 5.1
15 2,1.7 178 5.3
16 16.7 160 4.9
17 13.6 205 6.0
18 .14.5 190 5.3
19 12.1 203 4.8
20 17.4 125 4.3
Total 330.7 3501 101.6
Media 16.535 175.05 5.08
FUENTE: pato'S rcall's recopilados por lus autores.
516 Correlación yregresióf1 múltiple

Diagramas de dispersión "


Precio Precio
(en millares de dls.) (en millares de dls.)
y Diagrama A y ,Diagrama B

7.5
• ••
• .
'
•,; ,e
• • • •
• • .e;
5.0
'. •• • •
••
• ••
• 5.0
...
'
• • •


2.5L..-....::.·-L----'-----X' 2"~2L5---1...15-0-=---1~75---20L.0-,.--X2
10 15 20 1
Area (en millares de pies "Elevación (pies sobre el ni-
cuadrados Area(en millares de vel del mar)
pies cuadrados)
X1 Diagrama e
.",

20 •
• •
~,.

15 ,• • •


10 X
125 150 175 200 2
Elevación (pies sobre el nivel del mar)
" Figura 17-2
Relaciones existentes entre el área, la el~vación y el precio de
20 lotes

Análisis gráficos: el método de eliminación sucesiva


Consideremos el problema de un corredor de bienes raíces que ha
comprado un terreno para subdividirlo en lotes; desea conocer en qué
grado el área y la vista de estos lotes contribuyen a su valor. También
desea tener un método para asignar un precio razonable a los lotes.
Con objeto de obtener alguna información, el corredor seleccionó
20 lotes que habían sido vendidos recientemente. Obtuvo el precio de
venta para cada lote y su tamaño (miles de pies cuadrados) ya que sabía
que los lotes con mayor altitud tenían un valor mayor debido a su vista;
también estimó la elevación de cada lote (en pies sobre el nivel del mar).
En la tabla 17-3 se presentan los datos.
Los diagramas de dispersión de la figura 17-3 muestran, las relaciones
entre cada par de variab~es. Vemos que existe una correlación lineal
positiva entre el precio y el área y entre el precio y la elevación, pero
no existe aparentemente ninguna relación entre la elevación y el área
para los 20 Jotes seleccionados.
Análisis de regresión múltiple 517

El primer pasa eu el enfoque gráfico (denominado el "método de


eliminaciones sucesivas") es determinar la línea de regresión simple entre
la variable cependiente y (precio) y la variable independiente que se
considere más importante. N03otros seleccionaremos el área (Xl)'
Esta línea se puede determinar ya sea por el método gráfico o por la
técnica de los mínimos cuadrados, como se describió en el capítulo 16.
(También se puede trazar a pulso una línea curva, lógicamente, si la
relación es curvilínea). La ecuación es Y" = 1.45 + 0.219 Xl Y se muestra
en la figura 17-3. La pendiente de la línea indica que el precio de un
lote se incrementa en 219 dólares, en promedio para cada mil pies cuadra-
dos de área. Por supuesto, csta ecuación no toma en cuenta la elevación
del lote.
El siguiente paso es eliminar el efecto del área en el precio de cada
lote. Esto se realiza restando 0.219 para cada mil pies cuadrados del
precio del lote. Este ajuste a la base de "área nula" se puede realizar
gráficamente midiendo las desviaciones verticales de la línea de regresión
en la figura 17-3, o se puede realizar aritméticamente como se muestra en
la tabla 17-4.
El nuevo precio Y' (donde Y' = Y - 0.219X 1 ) representa el precio
ajustado para la diferencia en el tamaño de los lotes. Este precio ajustado
se grafica entonces en función de la segunda variable independiente, ele-
vación (X 2 ), como se muestra en la figura 17-4.
Note que el ajuste del precio por el efecto del tamaño de los lotes
mejoró notablemente la relación entre el precio y la elevación. (Compare
la figura 17-4 con la figura 17-2B). La línea de regresión entre el precio
ajustado y la elevación es Y'" = -'-4.09 + 0.0317X 2 • Esto indica que el
precio de un lote se incrementa alrededor de 32 dólares por cada pie de
elevación, después de eliminar el efecto que tiene el área en el precio;
Precio (en milla-
res de dls.)
y

7.5

5.0

2·\;---::10;---~1;';:5----:21.;:-0---2~5~--'---X,
Area (miles de pies cuadrados)
Figl~ra 17-3
Línea de regresión existen te en tre el precio y el área
Ecuación de regresión: y~ = 1.45 + .219 Xl
518 Correlación y regresión múltiple

Tabla 17·4
PRECIO AJUSTADO DE LOTES POR EFECTOS .DEL AREA

Xl Ajuste Y Y' ~ Y ~ 0.219X,


Area, miles para el Precio, Precio ajustado.
de piCf' área miles de miles de
Lote NQ cuadrados 0.219 X X, dólares dólares

1 14.7 3.22 4.1 0.88


2 14.2 3.11 3.9 0.79
3 12.7 2.78 3.2 0.42
4 13.8 3.02 2.9 -0.12
5 14.4 3.15 3.9 0.75
6 17.4 3.81 4.1 0.29
7 21.8 4.77 5.8 1.03
8 14.0 3.07' 5.1 2.03
9 17.5 3.83· 6.8 2.97
10 23.0 5.04 6.8 1.76
11 18.3 4.01 6.5 2.49
12 19.4 4.25 7.0 2.75
13 15.2 3.33 5.8 2.47
14 18.3 4.01 5.1 1.09
15 21.7 4.75 5.3 0.55
16 16.7 3.66 4.9 1.24
17 13.6 2.98 6.0 3.02
18 14.5 3.18 5.3 . 2.12
19 12.1 2.65 4.8 2.15
20 17.4 3.81 4.3 0.49
Total 29.17
Promedio 1.4585

Podemos incluir el efecto tanto del área como de la elevación en una


ecuación tomando el término de la primera ecuación que muestra el
incremento del precio por incremento unitario en el área y sumándolo
a la segunda ecuación, como sigue: Y c = -4.09 + 0.219X I + 0.0317X2 •
Esta es la primera aproximación a la ecuación de regresión múltiple.
Para perfeccionar la estimación, se debe ajustar el precio original por
los efectos de la elevación (substrayendo 0.0317 para cada pie de elevación) .
El precio ajustado resultante ~e debe entonces graficaren función del
área (Xl) para obtener una estimación más precisa del coeficiente neto
de regresión bl • Después de este paso, el valor de b2 se puede precisar,
utilizando la relación mejorada entre Y y Xl' El proceso se puede
repetir hasta que se obtengan valores estables para bl y b 2 • Sin embargo,
se requerirán pocas aproximaciones si las variables iNdependiente no están
correlacionadas unas con otras. l
l En este caso, la primera aproximaclOn es muy cercana a la ecuación de
mínimos cuadrados Y{. = -3.86 + O.203X I + O.03l9X 2 , porque X, y X 2 no están
Análisis de regresión múltiple 519

El continuar con este proceso es de poco valor. Nuestro objetivo es


meramente describir el método gráfico en regresión múltiple y aclarar el
significado del coeficiente neto de regresión. En este análisis se puede
ver cómo el valor del coeficiente neto de regresión depende de las otras
variables de la ecuación ¿e.regresión.

Precio ajustado
(en miles de dls.)
y'

2.5

ol-.-::::.--..!::----------

-2·~2L5---1~5-::-0----::17:-:5=---~2~OO:::::---;2t;2;;-5--·X2
Eleva.ción (pies sobre el nivel del ma.r)
Figura 17-4
LINEA DE REGRESION ENTRE EL PRECIO AJUSTADO
Y LA ELEVACION
Ecuación de regresión: Y'c = -4.09 + 0.0317X 2

Obtención de la ecuación de regresión mediante


mínimos cuadrados
De la misma manera que en el caso del análisis de regresión simple,
las constantes de la ecua~ión de regresión lineal múltiple se determinan
mediante el método de mínimos cuadrados, resolviendo un sistema de
ecuaciones lineales simultáneas denominadas las ecuaciones n·ormales, en
las que las incógnitas son las constantes de la ecuación de regresión. Con
el objeto de encontrar las constantes en la regresión múltiple lineal de
tres variables

se deben resolver las siguientes tres ecuaciones normales:'


,
~y =na

correlacionadas. Si Xl Y X 2 estuviesen muy correlacionadas, se necesitaría un nú-


mero de aproximaciones sucesivas antes de 'que el ajuste gráfico convergiera en la
ecuación de mínimos cuadrados. Vea M. Ezekiel y K. A. Fax, N! ethods o{ Corre-
lation and Regression Analysis, 3'-' ed. (Nueva York: JohnWi1ey, 1959), Cap. la.
Vea también los Caps. 14 a 16 para un estudio detallado de la regresión múltiple
curvilínea.
520 Correlación y regresión múltiple

¡XIY = a2:X I + b l 2:X2 1 + b 2¡X IX 2


¡X2Y = a¡X 2 + b l 2:X IX 2 + b22:X2 2

Estas ecuaciones se pueden resolver directamente, pero por lo general es


más fácil medir cada variable como una desviación de 'su media, como hi-
cimos en la regresión simple. Esto es, utilizamos x y y, donde Xl = Xl - Xl,
X2 = X 2 - X 2 y y = y - Y. Esto se realiza muy fácilmente totalizando
los cuadrados y productos de las X y Y originales como se denominaron
en las fórmulas anteriores, y substrayendo la media multiplicada por la
suma de las variables r·espectivas para encontrar la suma de las X y l¡¡.s y
como sIgue:

¡X; ¡X7, ¡Y2 ¡XIY ¡X2Y ¡X IX 2


-XI¡X I -X2¡X 2 -y¡y -XI¡Y --X2 ¡Y --XI¡X2
=¡xi =¡x~ =¡y2 =¡XIY =¡X2Y =¡X'lX2

El cálculo de las sumas ajustables de cuadrados y productos ajustados


se muestra en la tabla 17-5 para nuestro ejemplo del precio de lotes
residenciales.

Tabla 17·5

REGRESION MULTIPLE ENTRE EL AREA (Xl)' LA ELEVACION (X 2 ),


y EL PRECIO (Y) DE 20 LOTES
Cálculo de sumas ajustadas de cuadrades y productos cruzados

Suma de Símbolos
variable. . :1:X, :1:~, :1: Y :1:X,' :1:X,' :1:X,X,
Media , X, X, Y _
Menos* -X,:1:X, -X,:1:X, -Y:1:Y -X,:1:X,
Que da -:-::1:x,' :1:x,' :1:y' :EXIX2

Ejemplo de lote residencial


Suma ....... 330.7 3501. 101.6 5,657.41 622,729 543.440 1,721.480 18,119.90 57,985.3
Media ....... 16.535 175.05, 5.08
Menos* ................... '. ....... -5,468.12 -612.850 -516.128 -1,679.956 -17,785.08 -57,889.0
Que da .......................... --189.29 9,879 27.312 41.524 334.82 96.3

FUl;NTE: Tabla 17-3.


* Media por suma.

Los cuadrados y productos particulares no se muestran porque usual-


mente se acumulan en una máquina calculadora y sólo se necesita regis-
trar los totales. 2
2 Puesto que la ecuaClOn normal para un problema de tres variables com-
prende gran número de sumas de cuadrados y productos, es muy importante elegir
un sistema de verificaciones internas, al usar una máquina calculadora manual. En
estos casos, la siguiente variable de suma es muy útil:

además, tenemos otra verificación simple:


Análisis de regresión múltipl 521

Cuando expresamos la segunda y tercera ecuaciones normales en x


los términos ¡Xl y. ~X2 son iguales a cero y las ecuaciones se convierten en

~X1Y = b¡¡x2¡ + b2~XIX2


~X2Y = b¡¡X¡X2 + b2~X22
Sustituyendo los valores" numéricos de la tabla 17-5, tenemos

41.524 = 189.29b¡ + 96.3b 2


334.82 = 96.3b¡ + 9,879.b 2

Estas ecuaciones se pueden resolver simultáneamente' para encon-


trar b 1 y b 2 cOmO sigue: multiplicar la primera ecuación por 96.3/189.29,
la razón de los coeficientes b¡. El resultado es

21.225 = 96.3b 1 + 48.992b 2


Sustraer ésta de la segunda ecuación normal para eliminar b¡. Entonces

313.605 = 9,830.0b 2

b2 = 0.03191
Sustituya este valor de b2 en la primera ecuación normal. Resolviendo

bi, = 0.2031

Finalmente, sustituya ambos valores en la segunda ecuación como un


método de chequeo aritmético.
El valor de la constante a es

a = y - b¡X¡ - b~X2
= 5.080 - (0.2031) (16.535) - (0.03191) (175.05)
= -3.864
Ahora, sustituya las tres constantes en la ecuación de regresión múl-
tiple

la suma de cuadrados de X., sirve para la verificación


522 Correlación y regresión múltiple

Y c = a + blX l + b2 X 2
=, --,-3.864 + 0.2031X l + 0.03191X 2
Así, para un lote con 15 mil pies cuadrados de área (Xl = 15.0) Y una
elevación de 180 pies (X 2 = 180), el precio estimado sería

Y e = -3.864- + 0.2031(15.0) + 0.03191,180)


= 4.926 de moles de dólares, o cerca de $5,000

Curvilinealidad. En caso de que se crea que alguna de las variables


en la regresión múltiple tenga una relación curvilínea es posible incluir
potencias mayores de X en la ecuación de regresión. Generalmente no se
recomienda el uso de tales términos, puesto que es difícil seleccionar la
forma algebraica apropiada de la ecuación, a partir de los diagramas
de dispersión de pares de variables debido a las interrelaciones entre las
variables independientes. También deberían añadirse más términos a la
ecuación de regresión. Generalmente es mejor transformar los datos en
logaritmos, cuadrados u otras funciones, si es posible, de manera que
se puedan ajustar las ecuaciones lineales por mínimos cuadrados. El uso
de logaritmos se ilustra en el ejemplo de Sears, Roebuck, en las páginas
495498. Muchos programas de computadora, como el BMD02R que se
describe más adelante, proporcionan una selección de transformaciones
para ese propósito.
Variables ficticias. Es posible incluir datos cualitativos en el análisis
de regresión múltiple mediante el uso de variables ficticias que toman
solamente valores de cero o uno. Por ejemplo, en un estudio de órdenes
de producción en una planta manufacturera, un elemento podría ser la
determinación del efecto de designar una orden como "urgente". Este
atributo puede incluirse en un análisis de regresión añadiendo una variable
ficticia que tiene el valor de uno para las órdenes urgentes y cero para
las demás. El coeficiente neto de regresión para esta variable ficticia me-
diría el efecto relativo de la designación de orden urgente.
Es posible incluir un factor que tiene varias categorías de atributos
en forma similar. Por ejemplo, suponga que un atributo dado puede ser
A, B o C. Para manejar eso definimos dos variables ficticias (siempre
una menos que el número de categorías) que toman 'valores de cero y uno
como sigue:
Primera variable Segunda variable
Categoría ficticia ficticia .
A O O
B 1 O
C O 1

La categoría A se considera la base de la comparación y los coeficientes


de regresión de las dos variables medirán entonces las diferencias existentes
entre B y A, y entre C y A respectivamente.
Análisis de regresión múltiple 523

Coeficientes beta

En la' regresión sirhple, fue relativamente fácil interpretar la línea de


regresión, el error estándar de estimación, y otros valores calculados, En la
regresión múltiple, la interpretación es más difícil, ya que debemos sepa-
rar la importancia de cada variable y las interacciones entre ellas,
Los coeficientes de regresión. bl , b2 , etcétera, miden el efecto neto de
cada variable en la variable independiente Y. Pero puesto que cada una
de estas variables Xl, X 2 , etcétera, pueden estar en unidades distintas
(en nuestro ejemplo Xl en miles de pies cuadrados y X 2 en pies sobre
el nivel del mar), es difícil determinar la importancia relativa de cada
X en su influencia sobre Y Un medio para determinar esa influencia es
utiliz~r coeficientes f3 (beta), Estos se definen como sigue

(3r brC:1) =
br J~xl
~y2

(32 b2 C:2) =
b J~x;
2 ~y2

Los coeficientes de f3 son solamente los coeficientes netos de regre-


SlOn ajustados mediante la expresión de cada variable en unidades de su
propia desviación estándar. Este ajuste elimina los efectos de los distintos
tamaños y tipos de variables y calcula los coeficientes de regresión en
forma comparable, Así, f3 indica el cambio en Y (expresado en unidades
de desviación estándar) que se produce por un cambio de una desviación
estándar en la variable independiente, En nuestro ejemplo:

{3r br J~~i
--
~y2 (.2031)
J189.29
27.312
.535
y

{32 b
2.
J~x;
~y2
'\ J9,879
-
(.03191/ 27.312
.607
Es decir, para cada 'incremento de una desviación estándar en Xl
(área), el precio se incrementa en 0.535 desviaciones estándar, mientras
que para cada incremento de una desviación estándar de X 2 (elevación),
el precio se incrementa en 0.607 desviaciones estándar. Las dos betas son
números puros y son comparables. Por lo tanto, la elevación es un poco
más importante que el área en la determinación del precio de un lote.
524 Correlación y regresión múltiple

Error estándar de estimación

Al igual que en la regresión simple, el error estándar de estimación


es en efecto la desviación estándar de los residuos, Y - Yc. Ella mide la
dispersión media de los valores Y alrededor del plano de regresión. El
error estándar de estimación es

donde n es el número de observaciones y k es e! número de constantes en


la ecuación de regresión. AqUÍ, n = 20 Y k = 3. El símbolo SY'12 denota
el error estándar de estimación de la variable dependiente Y cuando se
cálcula .su regresión en función de las dos variables independientes Xl
Y X 2•
Es difícil calcular ~ (Y - Y,,) 2 directamente, por lo tanto en líneas
de regresión utilizamos la siguiente fórmula equivalente con propósitos de
cálculo:

~y2 - bl~XlY - b2~X2Y


n-k
En nuestro ejemplo,

SY'12 =)27.312 - (0.2031) (41.524)· - (0.03191) (334.82)


20 - 3
= yl0.4820
= 0.694 o cerca de $700

o sea, si los precios están normalmente distribuidos alrededor de!


plano de regresión, cerca de dos terceras partes del precio deben quedar
dentro de una distancia de $700 alrededor del valor estimado para la
ecuación de l'egrcsió:¡ (ignorando el pequeño error muestral en e! plano
de regresión mismo).

COEFICIENTE DE DETERMINACION MULTIPLE

Como en la correlación simple, el coeficiente de determinación múl-


tiple es la razón de la variancia explicada a la variancia total o uno
me':":.os la variancia no explicada sobre la variancia total. Esto es,
Inferencia estadlstica en la regresión múltiple 525

donde s~, es la variancia total de la variable dependiente Y, En nuestro

ejemplo, encontramos que la variancia no explicada (S:' 12) es 0.4820.


La variancia total estimada (de la tabla 17-5) es

LY Z 27.312
S2 = - - - = - - - = 1.4375
y "n - 1 20 - 1

Por lo tanto,

0.4820
R2 = 1 - - - = 0.6647
1.4375

Por ende, alrededor del 66% de la variancia en el precio' se explica me-


diante la variancia en el área y elevación de los lotes.
El coeficiente de correlación múltiple es la raíz cuadrada del coeficiente
de determinación múltiple. Aquí,

R = Vü.6647 = 0.815

El coeficiente de correlación múltiple siempre es positivo, sm importar


los. signos de los coeficientes de regre~ión.

INFERENCIA ESTADISTICA EN LA REGRESION MULTIPLE

Cuando los datos utilizados en la regresión múltiple representan una


muestra probabilística de alguna población específica, es posible realizar
inferencias estadísticas acerca de los parámetros poblacionales. En particu-
lar, si la relación poblacional es de la forma

donde B 1 Y B2 son los "verdaderos" coeficientes de regreslOn, A es la


verdadera intersección, y E es la desviación o el error residual; entonces,
las estimaciones de mínimos cuadrados .a, b 1 y b 2 son estimaciones no
oesgadas, lineales y eficientes de los parámetros poblacionales correspon-
dientes.
Lcs supuestos implícites en este procedimiento de estimación son los
misaios de la regrc:sión simple, o sea,

1. Linealidaa: para valores fijos de Xl Y X 2, los valores medios de


y quedan en un plano lineal. Esto implica que E (€) = 0, donde
E = Y - Y e•
2. [n dep'endencia: los residuos (valores de E) son independientes uno
del otro.
526 Correlación y regresión múltiple

3. Dispersión uniforme: los puntos tienen una dispersión uniforme


alrededor del plano de regresión.
4. Normalidad: los valores cieE están normalmente distribuidos (un
supuesto no necesario para muestras grandes).

Error estándar del coeficiente de regresión

El coeficiente de regresión &1 es una estimación del parámetro pobla-


cional B l • El error de muestreo asociado con esta estimación denominado
error estándar del coeficiente de regresión, para el caso de dos variables
independientes (Xl y X 2 ) es

donde r~2 es el coeficiente de determinación el~tre Xl y X 2 • Asimismo,

En nuestro ejemplo (ignorando la corrección para sesgos muestrales),

2
(:¿X1 X2) (96.3) 2
,.-"
12
( LX~) (};X~) (189.29) (9,879)
= 0.0050
y los errores estándar de los coeficientes de regresión son

0.6942
v':¿X~ (1 .- r~J Y(189.29) (0.995)

= 0.0506
y
0.6942
\/(9,879) (0.995)

= 0.0070

Podemos probar la hipótesis de que el área o la elevación tienen un


efecto cero o negativo (esto es, ya sea B l ::::; O Ó B 2 ::::; O) comparando
b ,./ .lb, Ó b 2 /'>/}2' En el caso de B l , el valor muestral de b 1 es 0.2031/0.0506 =
4.01 errores estándar alejados de cero. Y el valor muestral de b 2 está
0.03l91./C1.0070 = 4.56 errores estándar alejado de una B; = O hipotética.
El valor t (Apéndice M) con n-k grados de libertad se utiliza para
Uso de programas de computadora 527

realizar esta prueba. Aquí, n = 20 y k = 3, es el número total de cons-


tantes, entonces n-k = 17. El valor t de un extremo al nivel de pro-
babilidad es 2.567 para 17 grados de libertad. Por lo tanto, tanto B,
corno B 2 son significativamente mayores que cero al nivel de significación
de 0.01. .
El error estándar de pronóstico se puede calcular para la regresión
múltiple igual que en la regresión simple. Por los cálculos refiérase el
lector al Apéndice B que está :3.1 final de este capítulo.

USO DE PROGRAMAS DE COMPUTADORA

En el ejemplo anterior, el análisis para tres variables podía realizarse


fácilmente con calculadoras manuales. Sin embargo, con más· de tres
variables, el análisis se vuelve cada vez más complicado, ya que el número
de ecuaciones normales a resolver para la ecuación de regresión lineal se
incrementa con el número de variables independientes. (No podernos vi-

Tahla 17·6
CARACTERlSnCAS (.lIJE AFECTAN EL PRECIO DE 20 LOTES
ELEVACIÓN ViSTA
ÁREA pies Escala 1 PRECIO
miles de sobre el PENDIENTE (deficiente) miles de
piCE' nivel grados a 9 dólart$
Lote NQ cuadrados del mar X4 (excelente) X,
X3 X•.
1 14.7 155 1.5 2 4.1
2 14.2 155 1.8 2 3.9
3 12.7 158 2.9 1 3.2
4 13.8 158 1.0 1 2.9
5 14.4 155 0.5 2 3.9
6 17.4 157 1.0 2 4.1
7 21.8 in 5.7 4 5.8
8 14.0 170 5.4 6 5.1
9 17,5 175 17.5 9 6.8
10 23.0 185 14.5 9 6.8
11 18.3 185 14.4 9 6.5
12. 19.4 205 12.2 9 7.0
13 ·15.2 215 5.0 8 5.8
14 18.3 195 13.1 6 5.1
15 21.7 178 15.2 8 5.3
16 16.7 160 10.1 8 4.9
17 1}.6 205 7.4 7 6.0
18 14.5 190 5.8 7 5.)
19 12.1 203 5.1 7 4.8
20 17.4 125 17.3 1 4.3
--- ---
Total 330.7 3501. 157.4 108. 101.6
Media 16.535 175.05 7.87 5.40 5.08
528 Correlación y regresión múltiple

sualizar un plano de regresión, como en la figura 17-1, para más de tres


dimensiones, pero podemos todavía considerar la ecuadónde regresión
como un hiperplano en cualquier número de dimensiones.) Una solución
es utilizar métodos matriciales, como los descritos en los apéndices A y B'
al final de este capítulo. Existen también disponibles muchos programas
de regresión múltiple para computadoras.
Aquí describiremos un programa típico de co~putadoras, específica-
mente el programa de regresión múltiple BMDü2R, 3 e interpretaremos su
hoja de impresión. Este método ilustra también la regresión por pasos o
por Etapas donde la computadora realiza la regresión para cada variable
independiente, en orden de importancia, de tal manera que se pueden
descartar las variables sin importancia. El programa también permite la
transformación de variables en logaritmos u otras funciones para obtet.er
linealidad (sin embargo, aquí no se requiere de transformaciones). Para
ilustrar el programa ampliaremos nuestro ejemplo.
Suponga que nuestro corredor ha realizado estimaciones de la pen-
diente (en grados) de cada lote y ha calificqdo la vista en una escala de
1 (deficiente) a 9 (excelente), además del área, la elevación y el precio
mostrados en la tabla 17-3. Los resultados se presentan en la tabla 17-6.
Ahora se desea estimar el peso o importancia de cada factor para deter-
minar el precio de un lote.
El programa BMD asigna los números 1 a 5 a nuestras variables:
precio, área, elevación, pendiente y vista. (Estos números difieren de los
subíndices utilizados anteriormente.) Los datos impresos en la tabla 17-7
muestran primero las medias y desviaciones estándar de cada variable. 4
Luego, la "matriz de correlación" muestra el coeficiente de correlación
simple entre cada par de variables. Note que todas las variables están
relacionadas positivamente con la variable dependiente -precio- con
coeficientes de correlación que varían de 0.578 a 0.879 (aunque el efecto
neto de la pendiente (XI) en el precio sería negativo).
En el procedimiento p8r etapas, el programa calcula primero la re-
gresión simple entre el precio y la variable independiente que explica la
mayor parte de la variació:-¡ en el precio (la variable dependiente). En
este caso la variable "vista" (número 5) se incluye primero, ya que
rl" = .879 -que es el valor más alto en el renglón superior de la matriz
de correlatión. Las siguientes líneas muestran este valor, el error estándar
de estimación, los coeficientes a y b" y el error estándar de este último.
En el siguiente paso, se incluye en la regresión una segunda variable'
independiente. El factor escogido es aquel que hace la mayor contribu-
a Descrito en BMD Biomedical ComjJUter Programs, Health Services Computing
Facility, Escuela de Medicina, Universidad de California, Los Angeles, l '! de enero
de 1964, pp. 233-253. La salida del programa ha sido modificada con el objeto de
eliminar algunos detalles y ciertas medidas estadísticas que no se explican en este
tc;;to.
4 En este programa las desviaciones estándar, variancias. y coeficientes de co-
rrelación son valores muestrales, no ajustados por grados de libertad. Sin embargo.
d crror estándar de estimación sí está ajustado.
Uso de programas de computadora 529

Tabla 17-7

BMD02R - REGRESION POR PASOS O ETAPAS


SISTEMAS DE COMPUTACION, CIENCIAS DE LA SALUD, UCLA

CODIGO DEL :'ROBLEMA PRECIO


NUMERO DE CASOS 20

NUMERO DE VARIABLES ORIGINALES 5


NUMERO DE VARIABLES AÑADIDAS O
NUMERO TOTAL DE VARIABLES 5

VARIABLE MEDIA DESVIACION ESTANDAR


PRECIO 1 5.08000 1.19895
AREA 2 16.53500 3.15633
ELEVACION 3 175.05000 22.80229
PENDIENTE 4 7.87000 5.87198
VISTA 5 5.40000 3.13553

MATRIZ DE CORRELACION

VARIABLE 2 3 4 5
NUMERO
1 1.000 0.578 0.645 0.664 0.879
2 1.000 0.070 0.630 0.396
3 1.000 0.152 0.749
4 1.000 0.608
5 1.000

ETAPA NUMERO 1
VARIABLE INTRODUCIDA 5

REGRESION MULTIPLE 0.8787


ERROR ESTANDAR DE ESTIMACION 0.5881

VARIABLES EN LA ECUACION VARIABLES QUE NO ESTAN EN LA ECUACION


VARIABLE COEFICIENTE ERROR ESTANDAR VARIABLE CORRELACION PARCIAL

(CONSTANTE 3.36574 1
VISTA 5 0.33597 0.04303
AREA 2 0.52309
. ELEVACION 3 -0.04302
PENDIENTE 4 0.34439

ETAPA NUMERO 2
VARIABLE INTRODUCIDA 2

REGRESION MULTI PLE 0.9135


ERROR ESTANDAR DE ESTIMACION 0.5158

VARIABLES EN LA ECUACION VARIABLES QUE NO ESTAN EN LA ECUACION


VARIABLE COEFICIENTE ERROR ESTANDAR VARIABLE CORRELACION PARCIAL

(CONSTANTE 1.77976 )
AREA 2 0.10333 0.04083 ELEVACION 3 0.19185
VISTA 5 0.29475 0.0411 O PENDIENTE 4 0.09071
530 Correlación y regresión múltiple

Cont. Tabla 17-7

ETAPA NUMERO 3
VARIABLE INTRODUCIDA 3

REGRESION MULTIPLE 0.9168


ERROR ESTANDAR DE ESTIMACION 0.5218

VARIABLES EN LA ECUACION VARIABLES QUE NO ESTAN EN LA ECUACION


VARIABLE COEFICIENTE ERROR ESTANDAR VARIABLE CORRELACION PARCIAL

(CONSTANTE 0.62111 )
AREA 2 0.11629 0.04451
ELEVACION 3 0.00668 0.00854
VISTA 5 0.25321 0.06746
PENDIENTE 4 0.:11297

ETAPA NUMERO 4
VARIABLE INTRODUCIDA 4

REGRESION MULTI PLE 0.9207


ERROR ESTANDAR DE ESTIMACION 0.5265

VARIABLES EN LA ECUACION VARIABLES QUE NO ESTAN EN LA ECUACION


VARIABLE COEFICIENTE ERROR ESTANDAR VARIABLE CORRELACION PARCIAL

(CONSTANTE 0.24021 )
AREA 0.09873
2 0.04950
ELEVACION 3 0.01068 0.00983
PENDIENTE 4 0.02950 0.03464
VISTA 5 0.20487 0.08896

LISTA DE RESIDUOS

CASO RESIDUO
1 0.29968 11 0.20937
2 0.14019 12 0.45214
3 -0.27132 13 -0.02269
4 - 0.62388 14 - 0.64444
5 0.15879 15 -1.07031
6 0.02650 16 -0.63405
7 0.58357 17 0.57611
8 0.27414 18 -0.00541
9 0.60367 19 -0.38660
10 0.04239 20 0.29218
ClOn a la variancia explicada. La columna de la derecha denominada
"Correlación Parcial" o coeficiente de correlación parcial nos da una
indicación parcial en cada etapa de la importancia relativa de cada una de
las variables que no se han incluido aún en la ecuación de regresión."

;, Mediante la adición de una variable dacia, el cuadrado del coeficiente de


corre1acién parcial determina el aumento de la variancia explicada, con respecto
a la variancia que quedaba por explicar antes de que se añadiera dicha variable.
Ver Ezekiel y Fax, op. cit., págs. 192-196, para una explicación más amplia.
Uso de programas de computadora 531

Así, el coeficiente de correlación parcial indica qué variable tendría el


mayor efecto (de reducción de la variancia no explicada) si se suma a
la regresión.. En este paso, se añade la variable "área" (número 2). Esto
es útil, puesto que reduce el error de estimación de los precios de los
lotes a .5158 miles de dólares.
Las variables 3 y 4 (efevación y pendiente) se añaden también, pero
sirven sólo para aumentar el error de estimación a 0.5218 y 0.5265, res-
pectivamente. u (Esto es razón suficiente para abandonar esas variables.)
Gráfica de los residuos (eje. Y)
y de la variable 2 (eje. X)
12.100 14.324 16.549 18.773 20.998 23.222 ••
13.212 15.437 17.661 19.886 22.110

-1.07

-0.90

-0.73 •

-0.56 •

-0.39 .1

-0.22

-0.05

0.13 1
1

C.30

0.47

12.100 14.324 16.549 18.773 20.998 23.222 ••


13.212 15.437 17.661 19.886 22.110
Figura 17-5
<;Paradójicamente, la "R múltiple" también aumenta, pero sólo porque este
programa no corrige la R pcr la pérdida de grados de libertad.
532 Correlación y regresión múltiple

Al final del paso 4 se introducen todas las variables en la ecuación de


regresión.
La "lista de residuos" da la variación en precIO de cada lote no expli-
cada mediante la ecuación de regresión múltiple. Como característica
opcional, la computadora graficará estos términos resitluales en función
de cada una de las variables independientes. La. gráfica se muestra en
la figura 17-5 para la variable 2 (área) y es una verificación útil de los
supuestos de linealidad y de homoscedasticidad (dispersión uniforme). La dis-
persión parece aproximadamente unifonne en el rango de la variable
independiente, y no hay pruebas de curvilinealidad. (Sucede lo mismo en
las otras tres gráficas, que no se muestran.) Por lo tanto, podemos con-
cluir que los supuestos de linealidad y de homoscedasticidad se satisfacen
(aunque el tamaño de la muestra de 20 es demasiado pequeño para que
tengamos certidumbre).

Pruebas de significación. La inclusión de los errores estándar de


los coeficientes netos de regresión pennite probar su significación. En par-
ticular, podemos probar si cada coeficiente es significativamente superior
a. cero. La prueba se realiza utilizando el valor t (Apéndice M) con
(n - k) grados de libertad, donde k es el número de constantes. Para
20 - 5 = 15 grados de libertad, el valor t de un extremo al nivel de 0.05
es 1.753. La variable "vista" es significativa a este nivel ya que el coefi-
ciente de regresión está a 2.30 errores estándar (0.20487/0.08896 = 2.30)
de cero. Y "el área" es también significativa (0.9873/0.04950 = 1.99). Sin
embargo, ni la "elevación" ni la "pendiente" se acercan a la significación
al nivel 0.05 (para. la elevación, 0.01068/0.00983 = 1.10; para la pendiente,
0.02950/0.03494 = 0.844). No es necesario mantener la "elevación" ya que
la "vista", por lógica, mide mejor ese factor; la pendiente debería tener
un efecto negativo en el precio. Esas son otras razones para descartar esos
factores y expresar el precio sólo como una función del área y la vista
(tabla 17-7):

Precio = 1.77976 + 0.10333 X área + 0.29475 X vista

en miles de aólares, con un error estándar de estimación de $516.

PRECAUCIONES pARA EL USO DE LA REGRESION


MULTIPLE

Pm;tulados básicos

El uso de las fónnulas de regreslOn múltiple para realizar inferencias


implica la suposición de que los residuos E = Y - Y,. 1) 'cstán agrupados
alrededor de un plano lineal (no curvo), 2) son independientes uno de
otro, 3) son unifonnes en su dispersión, y, para. muestras pequeñas, 4) es-
tán nonnalrnente distribuidos. Si estos postulados no son válidos, las con-
Precauciones para el uso de la regre,sión múltiple 533

clusiones del análisis de regresión múltiple pueden estar muy distorsionadas.


Sin embargo, muchas veces no se verifican estos postulados debido a la
fácil utilización de un programa de computadora y a la dificultad de
verificar los postulados matemáticamente. Una simple verificación gráfica
consiste en graficar primero las variables originales una en función de cada
una dé las demás, como en la figura 17-2, y entonoes, después de correr
el pr?grama, marcar los residuos en relación con cada variable indepen-
diente, como en la figura 17-5. Entonces se pueden comprobar visual-
mente las condiciones para estos residuos.
Se debe hacer la misma distinción entre el modelo de regresión y el
modelo de correlación como en la correlación simple (ver el capítulo 16).
Una segunda fuente importante de errores al utilizar el análisis de re-
gresiónes extrapolar más allá del rango de los datos sobre los que· se
estimó la ecuación de regresión. La ecuación misma no nos indica lo que
queda fuera del rango de esos datos ~por ejemplo, la superficie puede
convertirse en curvilínea. De cualquier modo, algunas veces es necesario
extrapolar, como cuando realizamos pronósticos económicos, o aplicamos
una relación para una región a otra región comparable. Para que tal pro-
yección sea válida, es esencial que las condiciones económicas pertinentes
en el periodo extrapolado o en la región extrapolada sean esencialmente
similares a las que sirvieron de base para el análisis de regresión.

Colinealidad

Cuando las variables independientes en el análisis de regreslOn múl-


tiple están muy correlacionadas, los coeficientes netos de regresión pueden
ser inexactos; 7 Esto se puede ver fácilmente en la fórmula del error estándar
del coeficiente de regresión en el caso de dos variables independientes :

donde r~2 es el coeficiente de determinación entre las variables indepen-


dientes Xl y X 2 •

El error estándar es el mllllmo cuando r~2 es cero, pero conforme r12


se acerca a uno (correlación perfecta), el denominador de la ecuación
se aproxima a cero, y el error estándar se vuelve muy grande; entonces
el coeficiente de regresión mismo se vuelve inexacto. Por lo tanto, el
error estándar es sensible a la colinealidad o correlación entre Xl y X 2 •
Ello está de acuerdo con el sentido común: si Xl Y Xli varian conjun-
tamente, es difícil distinguir sus efectos separados sobre Y. Una solución

Para mayores detalles, ver). Johnston, Econcmetric Methods (2~ ed.; Nueva
York: McGraw-Hill, 1972), pág. 160.
534 Correlación y regresión múltiple

es simplemente eliminar la X que' parece menos importante, a menos que


haya una fuerte razón lógica para retenerIa. 8
Mientras la colinealidad afecta la exactitud de las variables indivi-
duales en la regresión, puede no alterar la capacidad de predicciÓnde la
ecuación de regresión total. Esto es, el error estándar de estimación pue-
de incrementarse. Los errores de muestreo de los coeficientes de regresión
tienden a compensarse entre sí, en la estimación de la variabledepen-
diente. Asimismo, el error de muestreo de R2 no es sensible a la coliI1ea-
lidad entre las variables independientes. .
La colinealidad puede producir algunos resultados peculiares en el
análisis de regresión además de su efecto en el error de muestreo 'del
coeficiente neto de regresión. Por ejemplo, dos variables Xl y X 2 pueden
estar muy correlacionadas· en forma positiva con Y y una con la otra.
Pero el efecto neto de X 2 tomando en cuenta Xl, puede ser neg:úivo.
Esto se ilustra más adelante en .el ejemplo de Sears,Roebuck.

Regresión de .series cronológicas

Debe tenerse especial cuidado cuando se manejen series cronológicas.


En el capítulo 16 correlaciommos las ventas de Sears, Roebuck con los
ingresos ya deducidos de los Estados Unidos para los años 1953-1971. En
la regresión múltiple, podemos incluir también el número de tiendas Sears
al comienzo de cada año y el tiempo (años) para ver si podemos mejo-
rar la predicción. Se utilizan logaritmos, excepto para el tiempo, debido
a que 1) los logaritmos de las ventas y el ingreso tienen una relación
lineal (capítulo 16), 2) el logaritmo de las ventas tiene una relación li-
neal con el tiempo mismo (capítulo 19), y 3) los residuos logarítmicos
tienen una dispersión más uniforme que los residuos absolutos (que,
aumentan con el crecimiento de las ventas), tal como lo requiere la teoría
de los mínimos cuadrados.
Desafortunadamente, el coeficiente de regresión de cada una de las
nuevas variables es negativo (y no son significativamente diferentes de
cero). Esto no es lógico, puesto que implica que para un nivel dado de in-
greso, el abrir nuevas tiendas (o el paso del tiempo) haría disminuir las.
ventas. Tampoco sirven las nuevas variables para reducir el error estándar
de estimación, debido a la colinealidad. Por tanto abandonamos esas
variables y volvemos a la ecuación de regresión simple.
Este ejemplo ilustra tres dificultades que surgen con la regresión múl-
tiple, y cómo evitarlas:

8 Los efectos de colinealidad pueden ser apreciados en el ejemplo de regresión


de computadora (tabla 17-7). La correlación entre la elevación (X'J') y la vista
(X 5 ) es 0.749 y entre la pendiente (X 4 ) )' la vista (X,;) es 0.608. Note qué
le pasa al error estándar de Xc, cuando estas otras dos v~riables entran en la
ecuación de regresión. En el paso 3, el error estándar de X 5 aumenta de 0.041
a 0.067 cuando se incluye X'J> y más adelante aumenta hasta 0.089 cuando se
incluye X 4 en el paso 4.
Resumen' 535

l. La colinealidad, que se evita abandonando las variables superfluas.


2. La curvilinealidad, que se rectifica mediante el uso de logaritmos.
Esta transformación también produce una dispersión más uniforme
de los residuos (E) .
3. La autocorrelaCión en las series cronológicas que invalida el error
estándar de estimación y medidas relacionadas." Algunas veces esto
se puede remediar utilizando cambios porcentuales anuales,' como
se describe en la página 498.

RESUMEN

La regreslon múltiple mide la influencia simultánea de muchas de las


variables independientes sobre la variable dependiente. Un coeficiente neto
de regresión (por ejemplo, bi) mide el efecto que tiene sobre la variable
dependiente un incremento ';mitario en la variable indpendiente, perma-
neciendo constantes las otras variables independientes. La ecuación de
regresión representa un plano en el espacio tridimensional o un hiper-
plano en más de tres dimensiones. '
La ecuación de regresión múltiple se puede estimar gráficamente o
pOr el método de los mínimos cuadrados. En el métodó gráfico se gra-
ficaprimero la' variable dependiente en función de alguna de las va-
riable~ independientes yse traza a pulso una curva de regresión; luego'
se grafican los residuos verticales de esta curva CE = y - Y c ) arriba y
abajo de la línea' cero, con la segunda variable independiente como
abscisa. Se dibuja una segunda curva, y a su vez se grafican los resi-
duos de esta curva contra una tercera variable independiente (si la
hay) o si no, se ponen alrededor de la primera curva de regresión. Esta
curva se traza de nuevo y el proceso se hace más preciso transfiriendo
los residuos hacia atrás y adelante hasta que ya no ocurra ninguna mejora
adicional en las curvas de regresión.
El método de los mínimos cuadrados se puede realizar con una calcu-
ladóra 'manual para tres variables, pero para más variables es preferible
utilizar métodos matriciales (descritos en los apéndices del capítulo) o
un programa de computadora. Para calcular la ecuación' de mínimos cua~
drados, se debe resolver un conjunto de ecuaciones normales. Para faci-
litar el proceso se ajustan las sumas de Jos cuadrados y productos cruzados
sustrayendo la media multiplicada por la suma de variables apropiadas
para reducirlas a desviaciones de sus medias.
Las relaciones curvilíneas se, pueden manejar mejor transformando las
variables en logaritmos u otras funciones que hagan lineales las relaciones
y luego ajustando"una ecuación de regresión lineal por mínimos cua-
drados.
El error estándar de estimación es esencialmente la desviación están-
dar de los residuos E = Y - Y,. alrededor del plano de regresión. Y el
coeficiente de d,etermirtación múltiple es la proporción de la variancia
de la variable dependiente, explicada por las variables independientes.
536 Correlación y regresión múltiple

Su raíz cuadrada es el coeficiente de correlación, múltiple. Estos concep-


tos son equivalentes a los de correlación simple.'
Cuando se satisfacen los postulados de linealidad; dispersión uniforme,
independencia y normalidad,' es posible medir el error de muestreo de
los,coeficientes netos, de regresión. Entonces esas medidas ,se pueden uti-
lizar para realizar inferencias estadísticas acerca d~. las .ve~daderas rela-
ciones de regresión. .' . '
Los coeficientes netos de regresión se pueden ,expresar en unidades
de desviación estándar comunes, multiplicando cada uno por la desviación
estándar de la variable independiente apropiada entre la desviación es-
tándar de la variable dependiente. Estos coeficientes f3 pueden compararse
para variables independientes diferentes, revelando la importancia rela-
tiva de cada variable en la ecuación de regresión.
Es fácil conseguir los programas de computadora para el análisis de
regresión múltiple; aquÍ se describe un programa típico.
Antes de· utilizar. los resultados de regresión múltiple, es importante
,verificar los postulados sobre los que está basado el análisis. La grafi~
cación de las variables originales y de los residuos finales en función de
las variables independientes proporciona un método gráfico para com-
probar estos postulados.
La colinealidad ocorl'elación entreyariables independientes reduce la
exactitud de los coeficientes netos de regresión, pero puede no afectar
la predictibilidad de la ecuación de regresión total. ,
Las series cronológicas plantean problemas especiales. El caso de Sears,
Roebuck ilustra algunos métodos para tratar la autocorrelación de re-
siduos, así como la colinealidad y la curvilinealidad.

APENDICE A: INTRODUCCION A I_AS OPERACIONES


MATRICIALES

Definición de una matriz

Una matriz es un ordenamiento rectangular de elementos (números


o símbolos). A continuación se muestra el ejemplo de una matriz, de~
notada por el símbolo A:

Esta matriz es el arreglo de los símbolos au, hasta a'H' Tiene tres ren-
glones y cuatro columnas. Cada símbolo ai j se refiere al elemento en el
i-ésimo 'renglón y la j-ésima columna. Una matriz es 7'ectangular, indi-
cando que tiene el mismo número de elementos en cada renglón y en
cada columna (sin embargo, el número de renglones puede no ser igual
al número de columnas). '
Una matriz con un solo renglón o columna se denomina generalmente
Apéndice A. Introducción a las operaciones matriciales 537

un vector. El vector [al, 02' a o, .•• , Un] es un ejemplo de un vector ren-


glón (un renglón), y

a"

es un ejemplo de un vector columna.


El número de renglones y de columnas define las dimension.es de una
matriz. Se dice que una matriz con 3 renglones y 4 columnas tiene la
dimensión 3 X 4 o, simplemente, es una matriz 3 X 4. Una matriz con
el mismo número de renglones y columnas es una matriz cuadrada.

Adición y sustracción de matrices

Dos matrices se pueden sumar (o restar) simplemente añadiendo (o


sustrayendo) los elementos correspondientes, elemento por elemento. O sea,
el elemento en la primera colurrma y renglón de A se añade (o sus-
trae) al elemento en la primera columna y renglón de B y así sucesiva-
mente. Sin embargo, para poder sumar (o restar) las matrices, éstas
deben ser de las mismas dimensiones.
Utilizando un ejemplo, S1

Transposición de una matriz


La transp.osición de una matriz A (la transpuesta se designa A') se
obtiene intercambiando los renglones y columnas. Así, para
,
I A= (matriz 3 X 2)

la transpuesta

A' = ran
La 12
::~J (matriz 2 X3) .
538 Cqrrela<:i,ón y regresión múltiple

Utilizando un ejemplo numérico, si

B = [~ ~J entonces B ' = [i ~J
El uso de la operación transposición convierte un vector reng16n en
un vector columna y viceversa.

Multiplicación de matrices

Las matrices también se pueden multiplicar. Sin embargo, las reglas


para la multiplicación de matrices son más complicadas que la suma de
matrices. Considere las matrices

El producto A X B es

A X B = [an a 12 a 13 ] X
a21 a22 a23
[t:31 ~21:J32
b b

(anbn + a 12b21 + a13b3¡) (anh2 + a 12b22 + a13b32)]


[ (a 21bn + a22b21 + a 23 b31) (a 21 b12 + a 22 b22 + a 23 b32)

Es decir, el elemento del primer rengión, primera columna, de la matriz


producto (A X B) se obtiene multiplicando y luego sumando los elemen-
tos del primer renglón de A y la primera columna de B; el elemento en
el primer renglón, segunda columna, de la matriz producto (A X B) se
obtiene multiplicando y después sumando los elementos del primer ren-
glón de A y la segunda columna de B; el elemento del segundo renglán)
primera columna, de (A'X B) se obtiene multiplicando y después su-
mando los elementos del segundo renglón de A y de la primera columna
de B, y así sucesivamente.

Un ejemplo numérico ayudará a explicar la multiplicación matricial:

(5 . 2 +
e ~ [~ - n ~ G~ ~J
D

3 . 5 = 25) (5 . 1 + ' 3· 4 = 17)


CXD= (2·2+(-1)'5= -1)(2,1+(-1)'4= -2)
[
(1 ·2+ o . 5 = 2) (1 . 1 + o . 4 = 1)
Apéndice A: Introducción a las operaciones matriciales 539

(5 . 2 + 3.6 28)J
(2·2+ (-1) . 6 = -2)
(1 . 2 + O. 6 = 2)

Dimensiones. Para multiplicar dos matrices, el número de columnas


en la primera matriz debe ser igual al número de renglones de Il!t segunda
matriz. De otra manera, no está definida la multiplicación. La matriz
producto tiene el mismo número de renglones que la primera matriz y
el mismo número de columnas que la segunda matriz.
Por ejemplo, una matriz (2 X 4) (2 renglones, 4 columnas) se puede
multiplicar por una matriz (4 X 3) resultando una matriz (2 X 3):
~iguales~
[o sea , (2 X 4) X (4 X 3) ~ (2 X 3)J.
Lde~nir t I
Note que ulla matriz (2 X 4) no se puede multiplicar por otra matriz
(2 X 4).
Orden de la multiplicación. En la multiplicación ordinaria, el or-
den noirnporta. Esto es, 5 por 2 da el mismo resultado que 2 por 5. Sin
embargo, en la· multiplicación matricial el orden en que se multiplican
las matrices da resultados distintos. La multiplicación matricial B X B
generalmente no da el mismo resultado que B X A. Por ejemplo, si

A = [~~J y
B = [i ~J
entonces

(A X B)= [i 1J pero (B X A) = [~ ;J
Por lo tanto, cuando hay que multiplicar dos matrices es importante
indicar qué matriz va a la izquierda (o en primer lugar) y cuál a la
derecha (o en segundo).

La matriz identidad. La matriz identidad es una matriz cuadrada


que contiene unos en toda la diagonal y ceros en todos los demás luga-
res. Usualmente se designa con el símbolo l. Cuando se multiplica la
matriz identidad (ya sea a la izquierda o a la derecha) por otra matriz
de las mismas dimensiones, el resultado es la matriz original.
Por ejemplo,
540 Correlación y regresión múltiple

A = [~~J y I = [~ ~J
CA X I) = (I X A) = [~~J A

Inversión de matrices

La inversa de una matriz cuadrada A se define como la matriz .1-t


tal que
A XA-1 = 1

Esto es, el producto de una matriz por su inversa es la matriz iden-


tidad l. No siempre existe la inversa de una matriz dada. n Pero si existe,
la inversa .1-1 g.e puede multiplicar por A a la izquierda o a la derecha
y se obtendrá la matriz identidad. Esto es, '

A X .1-1 = .1-1 X A = 1

Existen varias formas de calcular la inversa de una matriz dada. Aquí


presentaremos un método simple sin explicar el razonamiento. Al lector
se le indican los textos avanzados para mayor detalle. En general, los
cálculos de inversas de matrices grandes (mayores de 3 X 3 ) constituyen
un trabajo tedioso y se debe dejar a las computadoras electrónicas.
Para calcular la inversa colocamos la matriz que se va a invertir a
continuación de la matriz identidad. Supongamos que queremos invertir

escribimos
[i ~J[~ ~J
Podemos entonces realizar cualquiera de las siguientes operaciones nn
este conjunto de matrices:

1. Multiplicar cualquier renglón por una constante.


2. Sumar (o sustraer) cualquier renglón de otro.
3. Multiplicar un renglón por una constante y simultáneamente su-
marlo (o sustraerlo) de otro renglón (una combinación de a y b).

Utilizando las operaciones 1, 2, Y 3, el 'objeto es reducir el conjunto


de matrices de tal manera que la primera esté en la forma de la matriz
identidad. La segunda será entonces la matriz inversa deseada. Esto
es, deseamos llegar a

u Una matriz no siempre tendrá una inversa única, si por ejemplo, dos ren-
glones son iguales. Vea D. Teichroew, Introduction to Science in Management
(Nueva York: John Wiley, 1964), capítulo 13.
Apéndice A. Introducción a las operaciones matriciales 541

[ ° 0J[C11 C12J
1
1 C21 C22

donde [C11
C21
C12J es el inverso de la matriz
~2
[51 32J, nuestra matriz origi

na!.
Para conseguir nuestro propósito el procedimiento es corno SIgue: las
matrices originales son

[~ ~J[~ ~J
Paso 1: Multiplicar el primer renglón por "Ys (usando la regla 1).
Esto da

1
%J[~~
3 ° 0J
Paso 2: Sustraer el renglón 1 del renglón 2 (usando la regla 2).
Esto da

[~ 2%%J[ -~~
~~
Paso 3: Multiplicar el segundo renglón por 1/(2%) ó o/¡a (regla 1).
Esto da

[~
-~'Í3 h3
%J[
1
~~ 0J
Paso 4: Simultáneamente multiplicar el renglón 2 por % y sustraerlo
del renglón 1 (regla 3). Esto· da

. - (- H3)(%)) °- (~'Í3)(%)J
[ °1 0J[O~
1 -H3 ~1s
ó

Por lo tanto,
[
° 0J[~'Í3
1
1-H3

[ ~Í3
-~'Í3 '-H3J es la inversa de [51 ~J
~'Í3
Para verificar este resultado multiplicamos

[i ~J X [~t'Í3 -~~:J
que da [~ ~J y es un método para verificar nuestros cálculos.
542 Correlación y regresión múltiple

Solución de ecuaciones simultáneas usando matrices

Las ecuaciones simultáneas se pueden resolver mediante el uso de


matrices. Por ejemplo, supongamos que tuviéramos las siguientes tres
ecuaciones con tres incógnitas:

5Xl + 2X2 + Xa = 10
3X2 + 2xa = 8
4Xl + Xa = 5
Este conjunto de ecuacIOnes se puede expresar en notación matricial
como

[~
2
3
O nX[::J [1~J

n
o cuando

[~ 1J [1~J
2
A 3 ~ ,X = :: and H
O
podemos escribir
AXX=B
Multiplicando ambos lados de esta ecuación por A-l. (A inversa) te-
nemas 10

A-I X A X X = A-l X B

Pero puesto que A-I X A = 1, e 1 X X = X, tenemos X = A-' X B.


Esto, en forma matricial, es la so~ución de nuestra ecuación. Todo lo
que necesitamos es A-I, la matriz inversa. Aquí la inversa de

2
3
O

es
-719
~Í9
~19

10 Se debe tener mucho cuidado de multiplicar por el mismo lado en ambos


casos.
Apéndice B: Solución al análisis de regresión múltiple 543

y el producto

-719
719 _1~197i9J X [10J8 = [lJ2
~19 1~19 5 1
Ya que

Este procedimiento se aplicará en el análisis de regresión en el Apéndice B.

APENDICE B: SOLUCION MATRICIAL AL ANALISIS


DE REGRESION MULTIPLE

En el análisis de regresión múltiple, debemos resolver un conjunto de


ecuáciones normales para los valores. de los coeficientes netos de regresión.
Para el caso de dos variables independientes expresadas como desviaciones
de sus medias, . lasecuaciones normales son

~YXl = b l 2;x; + b 22; x I X2

¡YX2 = bl2;x1X2 + b2¡X~

Esto se puede escribir en notación matricial como

Y=XXB donde

y es el vector [~YX1J
~YX2

B es el vector de coeficientes desconocldos B . = [bb


1

2
]

X es la matriz de las sumas de cuadrados y productos cruzados

~xf
[~X1X2 ~X1X2]
~x~

En el caso general de m variables independientes, las ecuaciones nor-


males son

~YXl bl~xf + b2~X1X2 + b3~X1X3 + b m~X1X m


~YX2 bl~X1X2 + b2~X~ + b3~X2X3 + b m~X2X m
544 Correlación y regresión multiple

y
~xr ~XIX2 ~XIX3 • •• ~XIXm

~XIX2 ~xi ~X2X3 • •• ~X2Xm


X= ~XIX3 ~X2X3 ~x~ • •• ~X3Xm

'.
~XIXm ~X2Xm ~X3Xm · .. ~x;.
Las ecuacIOnes normales se expresan en forma matricial, como antes,
y = X X B.
Para resclver este conjunto de ecuacione~ necesitamos la inversa de la
matriz de sumas de cuadrados y productos cruzados X. y la solución es

B = X- 1 X y

donde X-l es la Inversa buscada.

Ejemplo
Utilizando la tabla 17-5 la matriz de sumas de cuadrados y productos cruza-
dos es

x= [189.29 96.3J
96.3 9879.0
Utilizando los procedimientos descritos en el Apéndice A, encontramos
que la matriz inversa es

X-l = [ .0053092 :- .000051754J


- .000051754 .00010173
Multiplicándola por el vector Y tenemos

B --- .X-l X y -_ [ _ .000051754


.0053092 - .000051754J [41.524J
.00010173 X 334.82

ó B = [b1J
}2
= [.2031 ]
.03191
Apéndice B: Solución al análisis de regresión múltiple 545

ó ht = .2031 and b2 = .03191 como en este capítulo.

Error estándar de los coeficientes de regresión

Designaremos primero los elementos individuales de la matriz inversa


X-l con los símbolos Cijo Así

es la representación de la inversa anterior, donde CI1 = 0.0053092;


l'¡2 = C21 = -0.000051754; Y C22 = 0.00010173. ,
Note que Cij = Cji (aquí, C12 = C21)' Una matriz con esta propiedad
se denomina simétrica. Nótese que tanto X como X-I son simétricas.
Los errores estándar de los coeficientes netos de regresión se pueden
estimar como funciones de los elementos de la diagonal de la matriz
Inversa.
En el caso general,

En nuestro ejemplo

Sb¡ = S1"12~
Sb 2 = S}"12VC;;;-

Sb, = 0.6942YO.0053092 = 0.0506

Sb
2
= O.6942YO.00010173 = 0.0070
como en el capítulo.

Error estándar del plano de regresión

El error de muestreo' asociado con cualquier punto en el plano de


regreslOn también se puede me::lir. Suponga que nos interesa medir el
error del plano cn el punto (Xl' X 2, X a, ••. , X IIl ). Medimos primero la
distancia de este punto a la media de cada variable, Xl = XI - Xl,
X2 = X 2 - X 2 , X:¡ = X a - X", etcétera. El enor estándar del plano de
regresión se puede expresar entonc.es comol l

11 Esto se puede expresar en la notación matricial simplemente como


546 Corretación y regresión múltiple

donde

+ ... 2 Cl mXlXm + 2C2aX2Xa + 2C24X2X4 + ... 2 C2mX2Xm + ...


+ 2C(m-l)mX (m_l)Xm
Para nuestro ejemplo, calculemos el error de muestreo del plano para
el punto Xl = 15.5 Y X 2 = 165.0. Ya que X, = 16.535 Y X 2 = 175.05,
Xl = 1.035 Y X2 = 10.05.

he = SY'12J~ + cll i + x C22 X ; + 2 C12X ix2·

.6942 /-.!.- + (.0053092)(1.035)2 + (.00010173)(10.05)2


.-.J 20
+ 2e - .000051754)(1.035)(10.05)
.6942V.0658 = .1781

Error estándar del pronóstico

El error estándar d,el pronóstic.o es el monto de error asociado con la


realización de un pronóstico de una nueva observación. Incluye el error
estándar del plano de regresión más la dispersión alrededor del plano
(S 1'012';'" ¡¡¡). Se estima para valores específicos de las variables indepen-
dientes X" X 2 , ••• ,Xm .
El error estándar del pronóstico es

donde sr" es el error estándar del plano de regresión. como anteriormente.

y z' es la transpuesta de z. Note también que e ii = ei i debido a la simetría de


X y X-l.
Problemas 547

En nuestro ejemplo,

S1 V(0.6942)2 + (0.1781)2
VO.5l37
0.716 miles de dólares ó $716

"PROBLEMAS

l. Suponga que hemos estimado la regresión lineal de mmlmos cuadrados de Y


en Xl y X 2 es Y(' = a + blX I + b2 X Q • En cada una de las siguientes afirma-
ciones indique si está o no de acuerdo.
a) Si b 1 es 12 veces más grande que b2 , entonces podemos inferir que XI
es consider,ablemente más importante que X 2 en relación a la variación
de Y.
b) Se pretende que b I mida el cambio esperado en Y en respuesta a un
cambio unitario en XI' manteniendo constante X 2 •
Para todas las afirmaciones restantes, suponga que R2 es muy elevada, digamos
R2 = 0.98.
e) Se estima que los coeficientes a, b 1 Y b 2 son significativamente distintos
de cero.
d) La relación estimada esLina aproximación muy cercana a la relación
verdadera entre Y y Xl' X 2 •
e) Las Y observadas no difieren mucho de las Y calculadas.
/) Las va~iaciones en XI y X 2 sirven para explicar una considerable propor-
ción de las variaciones observadas en Y.
g) Los residuos observados (E = Y - Y,.) no muestran un patrón sistemático.
h) Si se despreciara X, ó X 2 Y se calculara la regresión simple de Y en la
variable restante, mucho no reduciría R2.

2. En el estudio de la demanda de automóviles, se usó el siguiente modelo de


regresión: Y,. = a + b¡X¡ + b2 X 2 + b"X,,; donde Y son los gastos (en millares
de millones de dólares) en carros nuevos durante el año t (el período abocado
fue de 1948-1961); XI, ~s el índice de precios para todos los carros, nuevos
y usados, durante el períqdo· t; X 2. es el valor estimado del inventario total
de automóviles al fin del año t - 1, en millares de millones de dólares; y X"
es el ingreso disponible p'er cap ita durante el año t (en dólares).
A partir de los datos se obtuvieron los siguientes resultados:

Y(. = 0.0779 0.0201X j 0.2310X 2 + 0.0117X,


[0.0026] [0.0472] [0.0011]
R2 = 0.858

donde los números encerrados en corchetes son los errores estándar de los
coeficientes de regresión respectivos.
Para cada una de las aseveraciones que se hacen a continuación, indique
brevemen te si usted está o no de acuerdo.
a') El precio tiene. un efecto más importante sobre las compras de autos
nuevos del que tiene el ingreso per capita ya deducido.
b) Si se registró un aumento de un punto en el índice de precios en un año
dado -manteniéndose constantes los demás factores- en promedio, las
ventas de autos nuevos descenderían en $0.0201 miles de millones de
dólares.
c) El precio no tiene una influencia significativa en las ventas dI" autos
nuevos.
548 Correlación y regresión múltiple

d) Aproximadamente el 14% de la variancia de los gastos en autos nuevos


debe ser explicada con variables distintas al inventario de automóviles,
precio, y el ingresoper capita ya deducido.
e) Los cuadrados de los coeficientes de correlación simple entre Y y las otras
variables XI' X"' y X"' respectivamente, deben ser igual a 0.858, esto es,
r"¡-'I + r"¡-," + r"j"" =. 0.858.
n El hecho de que el coeficiente de X" sea aproximadamente diez veces
mayor que el coeficiente de XI significa que X" explica mucho más la
variabilidad en Y que XI'
g) Los resiiuos (Y - Y,,) son necesariamente independientes unos de otros.

3'. Las ventas anuales de Industrias Tidewater en millones de dólares (Y) están
correlacionadas con el ingreso personal ya deducido de los Estados Unidos en
miles de millones (XI) Y los gastos en publicidad de la compañía en millones
(X"), como sigue, para 1955-1972.

Y" = 210 + 18X I (regresión simple)


Y" = 175 + 6X I + IIX" (regresión múltiple)

a) ¿ Qué factores pueden haber sido los que ocasionaron el cambio en el coefi-
ciente de ingreso disponible (XI') de 18 en la primera ecuación a 6 en
la segunda?
b) Si los gastos de propaganda fueran los mismos para el año próximo de lo
que fueron en este año (o sea, X" mantiene constante), ¿ esperaría usted que
las vtontas se incrementaran en $18 ó $6 millones en respuesta a mil
millones de dólares de incremento en el ingreso disponible? Explique
¡Jer qué.

4. El director de personal de la Compañía de Productos Apex desea determinar


si la habilidad para vender que tienen los representantes puede ser pronos-
ticada a partir de su preparación y su edad. Siendo así, este criterio nos
prcporcionará una valiosa ayuda al seleccionar a los mejores candidatos para
ser empleados. Para empezar, se seleccionó al azar a diez vendedores, los
cuales serían calificados por el supervisor en virtud de su habilidad para
vender, preparación y edad. La calificación de la habilidad de ventas cubre
una escala de siete puntos, desde "malo"(O) hasta "excelente" ,(6). 'La escala
de preparación varía desde "no terminó la secundaria" (O) hasta "tiene una
maestría" (4). La escala de edades abarca desde edad "20-29 años" (O) hasta edad
"60-69 años" (4). Los resultados se muestran a continuación.

Habilidad
Prcparaciún Edad
para.' vender
Vcndcdor X, X,
Y

A 1 O 3
B 1 1 4
e 1 O 2
D 2 2 4
E 2 l' 3
F 3 3 1
G 4 2 O
H 4 4 2
1 6 3 O
J 6
-30 4
-20 1
Suma 20
Problemas 549

a) Calcule la ecuaClOn lineal de regreslOn múltiple por el método de mínimos


cuadrados para estimar la habilidad para vender a partir de la preparación
y la edad. Indique las operaciones.
b·) ¿ Cuál es el significado del coeficiente neto de regresión b l en este caso
particular? ¿ Cómo variaría este valor en significado respecto al coeficiente
de regresión en una correlación simple entre la habilidad para vender
y la sola preparación?
e) ¿ Cómo se vería afectada ..la confiabilidad de b 1 si los vendedores más
jóvenes generalmente tuvieran más preparación que los de más edad?

5 a) Calcule el error estándar de estimación en el problema 4, e interprete su


significado cuando se aplica al pronóstico de la habilidad para vender
de futuros vendedores.
b) Calcule el coeficiente de determinación múltiple e interprete su significado
al determinar la relación que existe entre habilidad para vender, prepara-
ción y edad en los vendedores de este tipo.

6. El supervisor de la Compañía de Productos Apex (problemas 4 y 5) es amigo


del empleado K. ¿ Atribuiría a este aparente favoritismo su alta calificación
(6.5), o bien sería explicable en base a su preparación (Xl :::= 4) y su juven-
tud (X 2 :::= 1)? Explique su respuesta.

7. La Compañía de Muebles Arjay maneja una cadena de tiendas de ventas


al menudeo. Como una forma de medir la eficiencia de las distintas tiendas, la
gerencia está estudiando la relación existente entre el número de empleados,
el tamaño de la tienda, y el promedio diario de volumen de ventas del último
año. Los datos se pueden resumir como sigue:

y :::=promedio diario de ventas para cada una de las ventas en cientos de


dólares.
Xl :::= número de empleados para cada tienda.
X 2 :::= tamaño de cada tienda en cientos de pies cuadrados.
n = 103 = número de tiendas Arjay.

Los datos en bruto y los ajustes necesarios se resumen en la siguiente tabla.


, ,
y x, X, y x, x; _l'X, l'X, X,X,
Total 515 168 824 3,975 5,708 9,092 4,090. 5,620 5,944
Media 5.0 6.0 8.0
Mcnos ajuste 2,575 3,708 6,592 3,090 4,120 4,944
--- ---
Total ajustado 1,400 2,000 2,500 1,000 1,500 1,000
2 y2 2 Xl 2 2X2:~ 2yx l 2yx 2 2X.iX 2
,Que es
a) Calcule la ecuación de regresión Y,,:::= a + blX 1 + b2 X 2 , la cual predice
las ventas mensuales como función del número de empleados y el tamaño
de la tienda.
b) ¿ Está usted seguro de que los valores calculados para b 1 y b2 en la ecua-
ción anterior son estadísticamente mayores que cero?
e) ¿ Sin'e la ecuacién de regresión para predecir las ventas? (Explique su
respuesta. )
d) Una de las tiendas de Arjay más nuevas y grandes ocupa 1,600 pies cua-
drados y cmplea diez personas. Su promedio de ventas diario ha sido de
$1,500. ¿ Difiere esto de la experiencia adquirida en las otras tiendas
Arjay? ¿ Por qué?

8. Se hizo una prueba de destreza manual (X,) Y una prueba de destreza digital
j50 Correlación y regresión múltiple

(X 2 ) a 25 candidatos a ribeteadores. Después se contrató y adiestró a estos


25 candidatos y se midió su desempeño en virtud del número de ribetes que
colocaban correctamente por minuto (Y). Se hizo un análisis de regresión
múltiple con el fin de evaluar la valía de cada prueba al predecir el desem-
peño de los ribeteadores. Tenemos los siguientes datos:

y x, X,
2
YX,

Total 200 150 125 2.213 1,000 775 1,400 1,225 800
Media 8 6 5

a) Calcule la ecuación de regreslOn lineal. la cual predi2e el desempeño como


función de dos pruebas.
b) Pru~be la hipótesis de que una de las pruebas tiene valor de predicción
para el desempeño de los ribeteadores.
e) ¿ Cuál de lás pruebas cree usted que sea más importante para predecir
el desempeño de los ribeteadores?
d) Calcule el coeficiente de determinación mlÍltiple.
e) Un empleado nuevo califica con 9 en. la' prueba de destreza manual y con
8 en la prueba de destreza digital. Prediga su desempeño como ribeteador.

9. Se realizó un estudio en la. planta de maquinaria agrícola John Deere con


objeto de deterrhinar qué variables influyen en el tiempo que toma el llevar
un pedazo de ruetal plano hasta el indicador tope de una punzonadora. La
longitud y el peso del pedazo de metal se consideran como factores signifi-
cativos. POI' consiguiente, se tomaron el tiempo de manejo, el peso y el largo
de una muestra de 25 pedazos de metal y los resultados se presentan en la
siguiente tabla.

Tiempo Peso Largo


Elemento (0,001 min) (0.1 lb) (0.1 plg)

1 30 5 35 14 50 41 191
2 32 12 46 15 70 84 196
3 '15 15 63 16 64 62 198
4 30 31 67 17 64 66 204
5 25 6 70 18 70 66 208
6 25 8 83 19 80 63 238
7 42 37 88
20 88 80 295
8 35 23 104 21 105 154 308
9 42 30 134 22 85 50 310
10 30 34 151 23 85 184 319
11 52 17 153 24 105 186 324
12 50 53 164 25
13 45 56 173 . -84
- - 122
- 394
Tocal' T 1,403 1,485 4,516
Mean 56.12 59.40 180.64

a) Calcule la regresión lineal Media el tiempo de manejo y la longitud y el


peso de los pedazos de metal.
b) ¿Son significativos estadísticamente el largo y el .peso?
e) ¿ Qué factor es más importante al determinar el tiempo de manejo?
d) Calcule el error estándar de estimación y el coeficien te de determinación
múltiple.
Problemas 551

e) Grafique los residuos con objeto de checar la sUposlclOn de linealidad y


de homoscedasticidad (di~persión uniforme de residuos).

10. Un analista de una compañía manufacturera desea explicar las variaciones


que han ocurrido periódicamente en el costo de manufactura por unidad del
producto. Por lo tanto recopila datos de los últimos veinte trimestres. El
analista sabe que el precio de la materia prima. )' el costo de la mano de
obra varió considerablemente durante este período, y calcula un índice para
estos costos. Asimismo el ritmo de producción .f1uctuó ampliamente en res-
puesta a la demanda del consumidor y los inventarios. El nivel de producción
para cada período se mide como porcentaje de la capacidad fijada. Los datos
se muestran en la tabla siguiente:

Nivel de Indice de
producción los costos de
Costo uniforme como
porcentaje, mano de obra
promedio de
de la Y materia
Período manufactura capacidad prima
fijada
1 $3.65 85 80
2 4.22 78 93
3 4.29 82 107
4 5.43 64 115
5 6.62 50 130
6 5.71 62 128
7 5.09 70 116
8 3.99 90 92
9 4.08 94 94
10 4.38 100 110
11 4.28 104 115
12 4.42 82 117
13 5.11 75 128
14 4.88 84 134
15 4.99 86 135
16 4.57 90 135
17 4.84 94 139
18 5.16 80 142
19 5.67 72 147
20 6.26 60 150

Media $4.882 80.10 120.35

a) Determine la ecuaclOn de regreslOn múltiple relacionando el costo unitario


con el nivel de producción y el costo de materia prima.
b) Explique el significado de los coeficientes en la ecuación de regresión.
e) Diga, ¿ qué tan bien explican o predicen esos factores al costo unitario?
d) Grafique los residuos (Y - Y,,) en función de las variables independientes.
¿ Existe alguna prueba de curvilinealidad en esta gráfica?
e) Para el siguiente trimestre, se espera que los costos de mano de obra
y materia prima bajen a 145, y se espera que el nivel de producción suba
al 80% de la capacidad. ¿ Qué costo de manufactura unitario promedio
esperaría usted? ¿ Calificaría su apreciación como resultado de su respuesta
al inciso (d)?

11. Nota: Este problema requiere el uso del método matricial de regreslOn múlti-
ple (Apéndice B de este capítulo) o un programa de computadora.
552 Correlación y regresión múltiple

a) Ajuste una función de la forma Y" = a + bX I +CX l 2 + dX 2 a los datos


del problema 10. (Y es el costo de manufactura, Xl es el nivel de pro-
ducción, X 2 es el costo de la materia prima y mano de obra.)
b) Grafique los residuos en función de las variables independientes. ¿ Hay
algo que indique si no se tomó en cuenta alguna curvilinealidad?
c) ¿ Es estadísticamente significativo el coeficiente c?· (Sugerencia: encuentre
el error estándar de c.) .
d·) Compare las resultados de este problema con los del problema 10.

12. La compañía Value Line Investment Survey calcula una ecuación de regre-
ción múltiple para cada acción común que muestra la relación típica entre su
precio (Xl)' ganancias por acción (X 2') , y dividendos por acción (X:j ) en
añoJl anteriores. La siguiente ecuación resultó para la Compañía Boeing Airplane:

Valor log normal promedio en los próximos 12 meses


= 1.355 + 0.440 log (0.22 X ganancias + 1.00 X dividendos)

a) Explique el significado de la ecuación y su uso para el inversionista.


b) ¿ Qué tipo de transformaciones lineales ilustra esta ecuación?
c) ¿ Qué otras medidas o calificaciones serían convenientes en esta encuesta
para ayudar al inversionista a determinar la confiabilidad de la ecuación?
13. Un analista está interesado en estimar las ventas futuras de las Industrias
PPG (antes Pittsburgh Plate Glass Company). Una parte sustancial de los
negocios de la compañía es· la fabricación de parabrisas y ventanillas para
automóviles nuevos. Además, la compañía fabrica vidrio y productos de pin-
turas utilizados en la construcción. Por tanto, el analista recoge los datos
siguientes para los años 1953-1970 (en miles de millones de dólares):

Ventas de Venta~de los


Industrias fabrican tes de
PPG automóviles Construcción
Año y X, X,

1953 .452 24.9 39.1


1954 .431 21.8 41.4
1955 .582 31.5 46.5
1956 .597 26.1 47.6
1957 .621 28.4 49.1
1958 .5J.4 21.4 50.2
1959 .607 27.5 55.3
1960 .628 30.9 53.9
1961 .603 26.8 55.4
.1962 .657 33.7 59.7
1963 .778 37.2 63.4
1964 .828 38.6 66.2
1965 .898 47.7 72.3
1966 .942 47.2 75.1
1967 .943 40.4 76.2
J.968 1.044 49·6 84.7
1969 1.147 51.5 90.9
1970 1.094 42.5 94.0

FUfo:NTt~: Informes de la Compañía. Business Statistics, 1971


Survey o/ Current Business, junio de 1972.

a) Encuentre la relación entre las ventas de PPG y las variables independientes


por medio del an:ílisis de regresión múltiple.
Problemas 553

b) Explique el significado de la ecuaClOn de regreslOfl múltiple.


e) ¿ Existe alguna relación significativa entre las ventas de PPG y cada una
ele las variables independientes? Explique por qué.
do) ¿ Cuál variable tiene más influencia en las ventas de PPG -las ventas
de automóviles o la construcción? Dé cifras.
e) ¿ Hay alguna prueba de cllrvilinealidad o autocorrelación indicada por los
residuos (Y - Yo)?

H. a) En el problema 13, la predicción de ventas de PPG en 1971 basada en


las ventas reales de automóviles de 49.7 mil millones y construcciones de
109.4 mil millones.
b) Dé un intervalo de confianza del 95 por ciento para esta predicción, basa-
do sólo en el error estándar de estimación. ¿ Qué calificaciones tendría
que hacer al reportar esta cifra· a' la gerencia?
e) Las ventas reales de PPG fueron de 1.238 mil millones en 197 L ¿ Cuál
fue el error de SU predicción? ¿ Estaba ese error dentro de su intervalo
de confianza?

15. a) Para tomar en cuenta el efecto de las tendencias de crecimiento así como
el ingreso personal en las ventas de Sears, Roebuck, estinle la regresión
múltiple entre el logaritmo de las ventas de Sears, Roebuck y el logaritmo
del ingreso personal disponible (ver tabla 16-5 y el análisis del texto) así
como el valor natural del tiempo para los años 1953-1971.
b) .¿Cómo compara esta ecuación con la ecuación de regresión simple, exclu-
yendo el tiempo (ver el texto len la estimación de los cambios en las
ventas de Sears? Explique porqué.
16. Parte de la variabilidad de las ventas de Sears, Roebuck se puede atribuir
al hecho de que se han abierto muchas tiendas nuevas de menudeo. El número
de tiendas al comienzo de cada año fiscal (febrero .1Q) se muestra aconti-
nuación:

A';io Tiendas Año Tiendas Año Tiendas


1953 684 1960 741 1967 , 801
1954 694 1961. 747 1968 809
1955 699 1962 747 1969 818
1956 709 1963 748 1970 826
1957 721 1964 " , 761 1971. , 827
1958: 732 1965 777
1959 736 1966 : 786

a) Calcule la regresión múltiple entre las ventas deSears, Roebuck y las


variables independientes -ingreso personal ya deducido y el número de
tiendas para los años 1953-1971- utilizando los logaritmos de todas las
variables listadas en la tabla 16-5 y la tabla anterior.
b) ¿ Cómo compara esta ecuación con la ecuación de regresión simple exclu-
yendo el número de tiendas (ver el texto) en la estimación de los cambios
de las ventas deSears? Explique por qué.
e) Siesta ecuacién es mejor que la de regresión simple excluyendo las tiendas,
prediga las ventas de Sears de 1972 utilizando la proyección de ingreso
de 795,000 millones en la tabla 16-5 y el informe de la -compañía de 836
tiendas abiertas al comienzo del año fiscal 1972.
17. a) Para proyectar la ,demanda de productos alimenticios, ajuste una parábola
por mínimos cuadrados al :índicede producción de alimentos (Y) y la
población para 1957-1971, tal como se dan en el capítulo 16, problema 19.
O sea,cambie Xa Xl' transforme X 2 a una segunda variable indepen-
diente X 2 , y proceda como en la regresión 1inealmúltiple. '(También
puede resolver las ecuaciones normales dadas en la :nota de la página 478
554 Correlación y regresión múltiple

para encontrar las constantes en la ecuaClOn de regresión.)


b) Encuentre el error estándar de estimación.
e) Compare este valor con el encontrado en el capítulo 16, problema 19 (d),
si resolvió usted ese problema. ¿ Cuál curva da el mejor ajuste según este
criterio?

18. La ciudad de Gotham mantenía una pequeña f1ot~ de automóviles en un


conjunto especial. Esos autos los utilizaban varias agencias cuando surgían
necesidades especiales para su uso temporal por parte del personal que no
tenía asignado coche propio.
El administrador de la flota de autos trató de determinar qué factores
contribuyeron a los costos de reparación y mantenimiento de los autos que
están a su cargo. Supuso que factores tales como las millas viajadas,edad del
auto y posiblemente la marca del mismo, determinan los costos de manteni-
miento y reparación. En esa .forma, reunió los datos para 15 autos selecciona-
dos al azar dentro del conjunto total. Los datos se muestran a continuación:

Costos de
mantenimiento Millas viajadas Edad del auto
" reparación en 1972 en años Marca
Auto NQ en 1972 (miles de millas) (O es auto nuevo) ( codificada)
1 $643 18.2 O A
2 613 16.4 O B
3 673 20.1 O A
4 531 8.4 1 B
5 518 9.6 2 B
6 594 12.1 1 A
7 722 16.9 1 B
8 861 21.0 1 A
9 842 24.6 O A
10 706 19.1 1 A
11 795 14.3 2 B
12 776 16.5 2 B
13 815 18.2 2 A
14. 571 12.7 2 A
15 673 17.5 O B

Como primer paso en el análisis de esos datos, el gerente calculó el costo


de reparación y mantenimiento promedio, para autos nuevos, de un año, y de
dos años. Los resultados fueron::
Costo promedio de
re!Jaración y
Edad Número de autos mantenimiento
O 5 $688.4
1 5 682.8
2 5 695.0
Aunque a.lgo sorprendido por los resultados, el gerente concluyó que la
edad del coche no influía en forma significativa en los costos de reparación
y mantenimiento.
Como siguiente paso, el gerente calculo los costos por marca de auto. Los
resultados fueron:
Costo promedio de
reparación y
Marca Número de autos mantenimiento
A 8 $713.1
B 7 661.1

Llegó a la conclusión de que en el futuro debería dar preferencia a com-


Problemas 555

pras de coches de la marca B puesto que así ahorraría $52 cada año en gastos
de reparación y mantenimiento.
¿ Esta usted de' acuerdo con el gerente? ¿ Cómo sugeriría usted que ana-
lizara los datos? ¿ Cuáles son sus conclusiones?

BIBLIOGRAFIA

BRYANT, EDWARD C. Statistical "Analysis. Ed. Rev. Nueva York: McGraw-Hill,


1966.
Les capítulos 7 y 10 tratan en forma concisa la regresión simple y múltiple.
Se utiliza la notación matricial en el tratamiento de la regresión múltiple.
CROXTON, F. E.; COWDEN, D. J. y BOLcH B. W. Practical Business Statistics. 4l¡l. ed.
Englewood Cliffs, N. J.: Prentice-Hall, 1969, caps. 14-16 y 21.
Trata diversos tópicos en la correlación simple y múltiple.
DRAPER, N. R. Y SMITH, H. Applied Regression Analysis. Nueva York: John
Wiley, 1966.
Estudio avanzado. Cubre muchos problemas prácticos en la economía y
ciencias naturales.
EZEKIEL, MORDECAI y Fox, KARL A. Methods o{ Correlation and Regression
analysis, 3~ ed. Nueva York: John Wiley, 1959.
Este es el libro estándar en la materia. En la tercera edición, su mayor
énfasis ha cambiado de la correlación a la regresión. Se enfatiza el análisis
gráfico de las relaciones curvilíneas.
Fox, KARL A. Inte1'1nediate Economic Statistics. Nueva York: John Wiley, 1968.
Los capítulos 4, 6 Y 7 cubren el análisis de regresión y los capítulos 10
a 13 tratan los modelos económicos de ecuaciones múltiples.
FRANK, C. R., JR. Statistics and Econometrics. Nueva York: Holt, Rinehart &
Winston, 1971.
Cubre tanto los modelos de regresión como los de ecuaciones múltiples.
Goldberger,. ARTHUR S. Econometric Theory. Nueva York: John Wiley, 1964.
Un estudio avanzado de la regresión lineal, incluyendo álgebra de matrices
y sistemas de relaciones lineales simultáneas.
JOHNSTON, J. Econometric Methods. 2'·1 ed. Nueva York: McGraw-Hill, 1972.
Un estudio amplio del modelo de regresión lineal normal, autocorrelación
y problemas de ecuaciones simultáneas.
WILLIAMS, E. J. Regression Analysii. Nueva York: John Wiley, 1959.
Proporciona al estadígrafo práctico un compendio de. las técnicas clásicas
asociadas con el análisis de regresión.
VII. Análisis de series
crologógicas
CAPITULO 18
Número índice

Los NÚMEROS ÍNDICES expresan los cambios' relativos de una' variable com-
parada con alguna base, que se toma como 100.1 La variable puede ser
una serie única, tal como la producción de energía eléctrica, o una
serie agregada, tal como un grupo de precios de acciones comunes. El
número índice usualmente representa una muestra de tal grupo. Los
cambios medidos pueden ser los que ocurren en un período de tiempo
entre un lugar y otro.
Muchos aspectos de los negocios modernos se describen mediante el
uso de números índices. Tanto' el gobierno como las agencias privadas
se esfuerzan cada día más a la determinación de números índices como
ayudas a la dirección y en la interpretación de cambios en la vida
económica ,general. Muchos negocios' utilizan diversos números índice
para propósitos de administración interna. Algunas publicaciones esta-
dísticas, sobre todo el Survey of Current Business,2 Economic Indicatoi's,
Business Condition Digest, Federal Reserve Bulletin, y el boletín Trade
and Securities Statisticsde la Standard and Poor's Corporation contienen
cientos de series cronológicas económicas expresadas en forma de nú-
meros índice.
El ingenio estadístico ha desarrollado una lista casi enciclopédica de
usos de indicadores comerciales. Los más importantes de estos son 1)
medidas del buen comportamíento de la economía, un área geográfica,
una industria, o negocios específicos; 2) las comparaciones de series
relacionadas para propósitos administrativos; (3) el uso de índicd de
precios como deflactores para expresar una s~rie de valores en dólares
constantes; 4) el uso de índices de precios como escalas de salarios y
I El término "ínaice" se utiliza en ocasiones como indicador comercial expre-
sado en cualquier unidad. Así pues, se puede referir a la producción en toneladas
de lingotes de hierro como UD "índice" de actividad comercial. Sin embargo, en
este capítulo el término "números índice". o "índice" se refiere específicamente
a una raión qüe tenga alguna base como 00, o a una serie de dichas razones.' '
2 Un resumen de descripciones de 2,500 series se pUede encontrar en las
referencias de pie de página del bienal Business Statistics suplemento del Survey
o{ CurTflnt Business.
557
558 Números 'índice

otros contratos ; 5) guías específicas o "disparadores" para la iniciación


de negocios ad¡;ninistrativos o acciones gubemamentativas; y 6) las
bases u orientación para pronosticar.
Los números índice son ampliamente usados porque tienen las SI-
guientes ventajas importantes, en contraste con los datos reales:
1. Proporcionan un método simple para comparar cambios de pe-
ríodo a período o de lugar a lugar. Es fácil comparar 89 centavos de
una libra de jamón con 38 centavos de un cuarto de galón de leche, pero
no es tan fácil comparar precios cambiantes en dos artículos en un
período de tiempo. Los números índice de los precios del jamón y la
leche indicarían los cambios relativos en cada precio a partir de algún
precio dado Y cuál de los dos precios habría mostrado el mayorcamb¡o
(ver tabla 18-4). Conforme se incrementa el número dea:rtículos, estas
ventajas vienen a ser aún más aparentes.
2. Los números índice facilitan comparaciones de cambios en series
de datos expresados en distintas unidades -por ejemplo, dólares, tonela-
das, o galones. Los datos que pertenecen a la producción, ventas, inven-
tarios, costos u otros aspectos de los negocios también se pueden formular
como números índice y compararlos.
3. Permiten la obtención de números compuestos que representan en
una Cifra única alguna medida sumaria de los negocios. Esto simplifica
las comparaciones con otros tipos de datos. En febrero de 1973 el índice
de precios al mayoreo de la Oficina de Estadísticas de Trabajo ,de los
Estados Unidos Ilegó a 126.9. Esta cifra única indica la relación promedio
de precios de febrero de 1973 a los precios de 1967; considerando que
el período base para este índice es 100. O sea, costó $12.69 comprar el
mismo monto de bienes específicos que podríamos haber -comprado por
$10 en 1967.
Algunas veces, las series en diferentes tipos de unidades pueden com-
binarse en una agregada significativa, siempre que las combinaciones ten-
gan sentido. Ml1chos ejemplosde tales combinaciones aparecen en este
capítulo.
4. Describen los patrones estacionales típicos de los negocios. Por
ejemplo,el máximo anual en las ventas de tiendas de departamentos,
generalmente se registra en diciembre, mientras las ventas de bebidas
embotelladas son mayores en verano. Estos "Indices de variación 'esta-
cional", se describen en el capítulo 20.

CLASES DE NUMEROS INDICE

Un examen de ,cualquier publicación de estadísticas comerciales reve-


lará muchos números índice diferentes que describen cambios en varios
aspectos de los negocios y la economía. Estos número; índice se pueden
clasificar como 1) índices de precio, 2) índices de cantidad, y 3)
índices de valor. En la tabla 18-1 se listan algunos de los índices más co-
Clase de números índice 559

múnmente usados de estos tres tipos, y sus fuentes principales. La mayo-


ría de éstos, pero no todos, se expresan en forma relativa.

Tabla 18-}

FVENTES BE UTILIZADOS *

N ombre del índice Preparado por Publicado 'I'egularmente en

A. ÍNDICES DE PRECIO

1. Indice de precios U. S. Bureau of M SCB, FRB, MLR, Business Week,


al consumidor Labor Statistics S&P, Ec. Ind., BCD
2. Indice de precios U. S. Bureau of M SCB, FRB, MLR, BCD
al mayoreo Labor Statistics S&P, Ec. Ind.
:1. Precios de mercado U. S. Bureau of M SCB, S&P
de 22 artículos bá- Labor Statistics
sicos
4. Indices de costos Engineering M SCB, S&P
de construcción News Record
:">. Promedio de pre- Dow-Jones & H, D, S, M SCB, Barron's, S&P, C&FC
cios de acciones Co.
6. Indice de precios Standard and H, D, S, M SCB, FRB, S&P, Ec. Ind.,
de acciones, 500 Poor's Corp. Barron's, Business Week, BCD
acciones

B. ÍNDICES DE CANTIDAD

l. Producción indus- Federal Reserve M SCB,FRB, S&P, BCD


trial Board Ec. Ind
2. Indice semanal de Business Week S Business Week
comercio
3. Producción de .\lH<:rican Iron S, M SCB, Barron's, C&FC, Ec. Ind.
acero and Steel Instit
4. Anuncios ofreéien- Conference M
do empleos.
SCB, CBSB, BCD
Board

C. INDICES DE VALOR

J. Producción manu- U. S. Bureau of M FRB,S&P


facturada-nóminas Labor statistics
de trabajadores
2. Contratos de cons- F. W. Dodge M SCB, FRB, Ec. Ind.
trucción obtenidos Corp.
(Valor)

.:~ Abreviaturas:
H-cada hora o períodos menores; D-:-diariament<'; S-scllLanalnH~nt('; M-··IlIt·nsualmrHtt~
SCB-Surve)' o/ Current Business (and weekly supplement)
FRB_Federal Resen'e Bulletin
MLR-Monthl), Labor Rel';elO
C&FC-Commercial and Financial Chronicle
S&P~tandard and Poor's Trade and Sefurilies ,)'latístles
E. Ind.-President's Council oC Economic Advisf:'rs, Enmo.mic 11ldit'ato,..~
CBSE-Con/erellee Board Statistit'al Bulle/in
BCD-Business COllditiolls Digrsl
560 Números índice

Indices de precios
Algunos de los índices mejor conocidos ~n los relativos a los precios.
Los precios han sido de gran interés por siglos como barómetros sensibles
de la industria y el comercio.
Los datos necesarios para los números íl1dicede precios se obtiepen
del intercambio de artículos 1) en diferentes etapas de la producción
-materias primas, productos semielaborados y productos completamente
fabricados; 2) en varios niveles de producción -industrial, al mayoreo
y al menudeo y 3) para. diversos grupos de eleJ;Ilentos -bienes de
consumo, bienes de producción, acciones y bonos, bienes <;!uraderos y no
duraderos.
Un índice de poder de compra es el recíproco de un índice de precios,
cuando ambos índices se expresan como razones con base 1 y no 100.
Tomando el índice de precios al mayoreo de 126.9 para febrero de 1973
como 1.269, su recíproco es 1/269 = 0.788, de tal manera que el índice
de poder de compra correspondiente (con base 100) es 78.8. Esto signi-
fica que lo que se podrá comprar con un dólar en febrero de 1973 -a
precio de mayoreo-- equivalía a lo que en 1967 se podía adquirir por
78.8 centavos.

Indices de cantidad

Los índices de cantidad miden el volumen físico de producción, cons-


trucción, o empleo. Se calculan pa.ra 1) la industria en géneral, 2)
industrias específicas o 3) operaciones específicas o bien, etapas de la
producción o distribución. Los datos pueden representar el país como
un todo o en áreas comerciales locales.
Con frecuencia debido a la naturaleza de los datos, los números índice
de cantidad son menos exactos que aquellos basados en cifras de dólares.
Históricamente, los registros comerciales se diseñaron para incluir prin-
cipalmente aquellos aspectos de los negocios que podrían expresarse en
ucidades monetarias y, consecuentemente, era difícil obtener los datos
de ucidades reales para períodos grandes de tiempo.

Indices de valor

Los índices de valor muestran el volume total de ingreso, nóminas,


ventas, etcétera. El valor es el resultado de multiplicar la cantidad por
el precio; por lo tanto, los números índiee de valor reflejan cambios
tanto en las cantidades como en el precio.
Los estimados del producto nacional bruto hechos por el Departa-
mento de Comercio de los Estados U nidos se elaboran de manera muy
similar a otros índices de valor, pero se expresan ~n miles de millones
de dólares y no como porcentajes de una base para evitar la "aureola de
normalidad" que se atribuye al período base.
Cabe hacer notar que los índices del Federal Reserve Board y Business
Métodos básicos para determinar números indice 561

Week de la actividad comercial general miden cambios en volúmenes


físicos, tales como toneladas de acero y kilovatios de electricidad pro-
ducida, mientras muchos índices regionales miden volumen de dólares,
tales como nóminas de fábricas y ventas de tiendas de departamentos.
Algunos barómetros comerciales regionales inclusive combinan medidas de
cantidad y valor, pero estps índices son más difíciles de interpretar.

METünos BASICOS PARA DETERMINAR NUMEROS INDICE

Números índice simples

Un número índice simple se determina a partir de una serie simple


o única de datos que abarca un período o representa simultáneamente
diferentes localidades. Al construir tal número índice, se selecciona un
período particular o un lugar particular como la base; el valor para esta
base se toma como 100.' Entonces los otros valores en las series se expre-
san como porcentajes de esta base. Un índice simple frecuentemente se
denomina precio relativo, cantidad relativa, o valor relativo.
Como ejemplo de una cantidad relativa, un ejecutivo de una aero-
línea puede tratar de comparar los cambios en los viajes aéreos y en
automóvil de 1966 a 1971. Ya que el volumen de millas-pasajero que
viajaron entre ciudades en automóvil es unas 10 veces mayor que el de
los viajes por aire, el propósito del ejecutivo no se conseguiría comparando
los cam,l>ios en las millas-pasajero reales. Las dos series se pueden comparar
más fácilmente si se expresan como po~centaje del mismo periodo base
de millas-pasajero recorridas, digamos, en 1967.
La construcción de estos índices simpl.es o cantidades relativas se
muestran en la tabla 1.8-2. Los tres pasos son 1) escoger el periodo base
(1967); 2) dividir la cifra de viajes de cada año entre la cifra base; y
3) multiplicar al resultado' por 100 (o sea, recorrer el punto decimal
dos lugares a la derecha) para expresarlo como un porcentaje o número
índice. Un número índice se escribe exactamente igual que un porcentaje,
excepto por el signo (%) que. no se usa. Así, el índice de 1971 para
el viaje por aire es 106.3 -;- 75.5 X 100 = 141.
Este índice significa que los viajes por aire en 1971 fue 141 por ciento
del volumen de 1967, un incremento del 41 %.Por Jo tanto, mientras
los viajes por automóvil aumentaron más que los viajes por aire en
millas-pasajero durante este período (203 mil millones comparados con
38.8 mil millones), su incremento relativ.o fue solamente del 21 % com-
parado con el 41 % para viajes aéreos.
El incremento en el índice de viajes aéreos de 1966 a 1971 fue 61
puntos de índice, pero esto no es un 61 % ya que la base es 80 y no
100. El incremento de porcentaje fue 61 -;- 80 = 765!cJ.
Se puede calcular un índice simple con cualquier serie simple de
datos, tal como el precio de las acciones de la General Motors o las ventas
de una tienda de departamentos. Los libros de estadísticas incluyen muchos
índices de este tipo. Por ejemplo, el Bureau Labor Statistics de 10Si Esta-
562 Números indice

dos Unidos, publica mensualmente precios relativos para cerca de 2,500


artículos, como una ayuda para comparar los cambios en cada precio,
además de sus índices compuestos de precios al mayoreo. a

Tabla 18·2
NUMEROS INDICE SIMPLES DE VIAJEROS POR AIRE
Y VIAJES EN AUTOMOVIL ENTRE CIUDADES
EN LOS ESTADOS UNIDOS, 1966.1971
Indicc
Millas-pasaje /'0
(millones) (1967 = 100)

Viajes Viajes en Viajes Viajes en


Año aéreos automól!il aéreo$ automóvil

1966 60.6 902 80 93


1967 75.5 967 100 100
1968 87.5 1,016 116 105
1969 102.7 1,071 136 111
1970 104.1 1,120 138 116
1971 106.3 1,170* 141 121
-:t Estimado.
FUgNTE:. Air Transporl Pacts ulld Fi¡¿ul'l'.S. 1972, pág. 41.

Números índice compuestos


La mayoría de los números índice de uso común son compuestos. Se
detenninan de acuerdo a los principios ya descritos para los índices sim-
ples, pero combinan varios conjuntos de datos diferentes. En las páginas
siguientes, se describen dos métodos básicos de determinación de números
índice compuestos: 1) el promedio de los índices relativos y 2) el ín-
dice agregado. Las fórmulas para ambos tipos de índices se presentan
en la página 568, pero no es necesario memorizarlas para entender el
procedimiento utilizado.

Necesidad de parámetros de ponderación. Siempre que se com-


binan los precios y otros datos en un número índice, la importancia rela-
tiva de cada uno se debe tomar en cuenta asignándole parámetros de
ponderación adecuados a cada elemento. Esto es necesario ya que, en
realidad, ningún índice compuesto carece de ponderación. Si un conjunto
de parámetros de ponderación no se aplica explícitamente, cada elemen-
to del índice· automáticamente (o implícitamente) recibe algún parámetro
de ponderación. Por ejemplo, si los precios unitarios de diferentes alimentos
se agregasen juntos en la preparación de un índice compuesto de precios
al consumidor, un cambio relativo dado en el elemento con más alto
precio, tal corno un kilo de jamón, influirá más en el total de lo que
haría el mismo cambio relativo en un elemento de bajo precio, como un
" Vea U. S. Bureau of Labor Statistics, Wholesale Pricl's and Price Indexes,
julio de 1971.
Métodos básicos para determinar números índice 563

cuarto de galón de leche. Sin embargo, la leche debería realmente pon-


derarse más altamente ya que la gente la consume más; así se debe utili-
zar un sistema de parámetros a fin de dar a la leche su importancia
adecuada en el índice. Por lo tanto, un índice compuesto es un promedio
pona:erado" de sus componentes.
Método de promedio de relativos. Se han desarrollado muchos
métodos· para determinar números índices, pero el promedio de relativos
se Usa ahora en la mayoría de los índices más comunes, tales como el
índice del Federal Reserve Board de producción industrial y los índices
de precio al mayoreo del Bureau of Labor Statistics. En este método las
series individuales de precios o datos de cantidades se expres¡;¡n como
índices simples, que se multiplican entonces por un parámetro de ponde-
raáón de valor en dólares fijo y se totalizan para encontrar el índice
compuesto.
Para ilustrar la construcción de un índice de cantidad, consideremos
una compañía petrolera que produce gasolina para avión y gasolina para
automóvil. Más o menos dos terceras partes de sus ventas son típicamente
de gasolina para avión. y una tercera parte se vende en gasolineras. Un
ejecutivo desea determinar un índice compuesto de viajes en automóvil
y avión y proyectarlo al futuro como una medida del mercado potencial
para sus productos. El método se ilustra en la tabla 18-3. Los pasos son
los siguientes:
1. Expresar cada serie como un índice simple o relativo, dividiendo entre
el valor base. Este paso se describió anteriormente. (Las columnas
1 a 3 en la tabla 18-3 se toman de la tabla 18-2).
2. Seleccionar un parámetro de ponderación de valores de dólares para
cada serie como una medida de su importancia en el año base o
algún otro período típico. Dividir estos parámetros de pon,deración
entre su total para expresarlos como parámetros de ponderación rela-
tivos cuya suma es igual a' l. En este caso la importancia 'relativa
que los viajes en avión y en .automóvil tienen para la compañía se
mide mediante la proporción de sus ventas en dólares para cada in-
dustria (2/3 y 1/3, respectivamente). Como ejemplo más .Eeneral, el
Federal Reserve Board pondera sus índices compuestos de manufac-
turas mediante "el valor agregado por manufactura", del censo de
fabricantes, expresado como porcentaje del parámetro de ponderación
total.
,1 La media aritmética ponderada se usa casi universalmente para calcular
números índice, aunque la media geométrica ponderada es teóricamente superior
para promediar relativos, par'ticularmEnte porque tiende a seguir una distribución
normal logarítinica,con un límite inferior de cero y un límite superior infinito.
La media geométrica también minimiza la influencia de relativos extremadamente
grandes, que pueden distorsionar la media aritmética parauo número pequeño de
artículos. Sin embargo, la media aritmética se usa porque es más fácil de calcular
y de entender que la media geométrica. Asimismo, un índice de precios aritmético
representa los cambios en el costo total de una lista de existencia en forma más
precisa que un índice geométrico, el cual refleja las razones promedio del cambio
en precio. Pcr tanto, la media aritmética tiene más sentido en este contexto.
564 Números indice

3. Multiplicar los índices simples por los parámetros de ponderación rela-


tivos para obtener los índices ponderados (t';tbla 18-3, columnas 4 y 5).
4. Añadir los índices ponderados para obtener el índice compuesto (co-
lumna 6) . Esto debe ser igual a 100 en el año base, ya que los' índices
simples son iguales a 100 y los parámetros de ponderación totalizan 1.
(Si los parámetros de ponderación de valor nó se ajustan a totalizar 1,
las suma de. los índices ponderados se puede dividir entre su valor del
año base para obtener el mismo valor que en la columna 6 de la tabla.)

Tabla 18·3
DETERMINACION DEINDICES COMPUESTOS DE VIAJES
EN AVION y AUTOMOVIL MEDIANTE EL METODO
DE PROMEDIO DE RELATIVOS
(1967 = 100)
lndice simple l~dice ¡ndice
(1967 - 100) ponderado compuesto

Viajes
Viaj,es Viajes en aéreo y en
ae,:eos automóvil aulonióvil
Viajes Viajes en (columna ( columna (Columnas S
A,ío aéreos automóvil 2 X 'j,) 3 X 'j,) 4 + 5)
(1) (2) (3 ) (4) (5) (6)

1966 80 93 53 31 84
1967 100 100 67 33 100
1968 116 105 77 35 112
1969 136 111 91 37 128
1970 138 116 92 39 131
1971 141 121 94 40 134
FUENTE: tabla 18·2.

Los índices compuestos proporcionan al ejecutivo una medida suma-


ria del aumento de la demanda poteIlcial con la que puede comparar
o predecir sus propias ventas.
Con este método un índice de precios compuesto se determina en la
misma fom1a que el índice de cantidad. La tabla 1.8-4 ilustra el cálculo de
un índice de precios al consumidor para tres tipos de carne en 1967 (el pe-
ríodo base) y tres períodos posteriores, utilizando los datos de precios de la
tabla 18-5. Se ha escogido el filete como típicamente representativo del com-
portamiento de los precios de carnes de res y ternera, mientras que el
jamón ahumado representa los productos porcinos y el pollo frito repre-
senta los precios de aves de corral. Enton~es el precio de la II).ercancía
individual se pondera de acuerdo con la importancia de todo el grupo
de artículos que. representa, en vez de su propia importancia individual.
Por supuesto, los índices reales abarcan cientos de artículos y muchos
datos. Los pasos a seguir son similares a los citados anteriormente.
1. Dividir cada serie de precios entre su precio en el período base (pro-
medio de 1967) para expresarlo como un índice simple (tabla 18-4,
columnas 2 a 4).
Métodos básicos para determinar números indice 565

2. Medir la importancia relativa de cada grupo de artículos en dólares


para algún período normal .Los parámetros de ponderación relativos
en los encabezados de las columnas 5 a 7 se basan en un análisis
del consumidor hipotético que muestra que por cada dólar que la
familia típica gasta en carne, 59 centavos fueron para res y ternera,
29 .centavos para productos porcinos y 12 centavos para aves de corral.
De preferencia, las ponderaciones se aplican al periodo base, pero esto
no es siempre factible. Así, el Departamento de Estadísticas Laborales de
los Estados Unidos repola su índice de precios al consumidor con la
base 1957-1959 = 100, pero desde enero de 1964 ha obtenido sus
ponderaciones de un análisis de los patrones de gastos del consumidor
realizado en 1960-1961. (Note que en vez de los precios o'cantidades,
los valores en dólares, se utilizan como parámetros de ponderacion en el
método de media ponderada de relativos para calcular ya sea índices
de precio o cantidad. También, el parámetro de ponderación debe
permanecer constante en un período de años; de otra manera los
cambios en el parámetro de ponderación afectarían el nivel del índice
mismo) .
3. Multiplicar los índices simples (columnas 2 a 4) mediante los pará-
metros de ponderación para obtener los índices ponderados (columnas
5 a 7).
4. Añadir los índices ponderados par acada período para encontrar el
índice compuesto (columna 8). Si los parámetros de ponderación no
se ajustan para totalizar 1, la última columna se debe dividir entre el
valor de su período base para ajustar este valor a 100.
Tablu 18-4
DETlmMINACION DE UN INDICE COMPUESTO PARA TRES PRECIOS
HE CARNI~ AL MENUDEO POR EL METODO DE PROMEDIOS
DE RELATIVOS
(1967 = 100)

lndicc simple
(1697 = 100) lndice ponderado
lndice
File/e jaman Pollo compuesto
Jamón Pollo Col. 2 (Col. 3 (Col. 4 (To/al,
Período Filete ahumado ¡rito X 0.59) X 0.29) X 0.12) Col .. 5-7)
(1) (2) (3) (4) (5) (6) (7) (8)

1967 Prom. 100 100 100 59 29 12 100


1970 Prom. 118 114 108 70 33 13 116
1971 Prom. 124 103 108 73 30 13 116
1972 Aprox. 134 112 108 79 32 13 124
FUr:NTE DE LOS DATOS DE PRECIOS: lJ. S. BurNlU 01 Labor St,ttistics, Estima/ed Retail Food
Prices by <;itie.r.

Método agregado. Al revisar el cálculo de índices simples el método


agregado es· más directo que el método de promedio de relativos. La
tabla 18-5 ilustra la determinación de un índice de precios mediante el
566 Números índice

método agregado. Los pasos son:


1. Escoger como parámetros de ponderación las cantidades físicas de cada
artículo producido o consumido en un período ,típic.o. En este caso, es
la cantidad de cada uno de los tres elementos consumidos por una
familia promedio en una semana: 5 libras de res y ternera, 4 libras
de productos porcinos y 3 libras de aves de corral.

Tablá 18-5
OETERMINAc!O~~ DE UN INDICE COMPUESTO PARA TRES PRECIOS
DE CARNES AL MENUDEO POR El. METODO AGREGADO
(1967 = 100)

Precio ·por libra, Costo del 'consumo semanal,


liólares dólares
Filete Jamón Pollo
(Col. 2 X (Col. 3 x, (Col. 4 X Indice
5 lbs.) 4 lbs.) 3 lbs.) Total compuesto
Pollo (Col. 2 (Col .. 3 (Col. 4 (Cols. (Col.
Período Filete Jamón fr ilo X 5 lbs.) X '4 lbs.) X 3 lbs.) !>-7) 8 ... 9.40)
(1) (2) (3) (4) (5 ) (7) (8) (9)
(6)

Prom. 1967 1.10 .69 .38 5.50 2.76 1.14 9040 100
Prom. 1970 1.30 .79 .41 6.50 3.16 1.23 10.89 116
Prom. 1971 1.36 .71 .41 6.80 2.84 1.23 10.87 116
Aprox. 1972 1.47 .77 .41 7.35 3.08 1.23 11.66 124

FUENTE DE LOS DATOS DE P'IECIOS: U. S. Bureau of Labor Statistics, Eslimated Retail Food
Prices by Cities.
2. Multiplicar cada precio (columnas 2 a 4) por su parámetro de pon-
deración para obtener los precios ponderados (columnas 5 a 7). El
producto del precio por la cantidad es el costo total de cada artículo
enel "paquete" ya que su precio cambia de período a período.
3. Totalizar estos productos (columna 8) para obtener el costo de todo
el paquete.
4. Seleccionar un período base (promedio 1967) Y dividir los totales
entre el total en el período base ($9.40). Los resultados (columna 9)
son los números índice agregados. Aquí indican que en abril de 1972
el costo combinado de los tres grupos de artículos fue alrededor de
124% de lo que fue en 1967.

Como una muestra más realista del método agregado, Standard and
Poor's construye sus índices de precio de 500 acciones multiplicando el
precio corriente del mercado de cada acción por el número de acciones
en circulación en el período base (modificada por los cambios posteriores
de capitalización). Este precio ponderado, o valor de mercado agregado
de las ac.ciones originales, se totaliza entonces para las 500 acciones, y el
gran total se divide entre el valor de mercado agregado en el período
base para obtener el índice.;
¡; La base se fija en 1941-1943 = lOa fin de que el índice actual se aproxime
al costo promedio de todas las acciones enlistadas en el Mercado de Valores de
Nueva York.
Métodos básicos para determinar números índice 567

Los índices de cantidad se calculan mediante el método agregado en la


misma forma de los índices de precios, excepto q'le el precio y la cantidad
se intercambian. Las cantidades variables producidas o consumidas cada
mes se multiplican por un precio fijado en el año base o algún otro
período típico. Por lo tanto, solamente los cambios en volúmenes reales
influyen en el movimiento del índice, y el precio fijado sirve para dar a
c"da artículo la importancia apropiada. Entonces la suma de las canti-
dades ponderadas de cada mes se divide entre la suma del mes promedio
del año base para encontrar el índice de cantidad agregado ponderado.
Los índices de valor-dólar (por ejemplo, ventas de tiendas de depar-
tamento, reflejan el movimiento tanto de precios como de cantidades, de
tal modo que ninguno de ellos necesita ser constante. Aún más, los datos
originales ya se encuentran disponibles en la fomla de valores en dólares.
En el método agregado, los valores estimados para cada componente del
índice san simplemente añadidos cada año. Los totales mismos se pueden
reportar, como en las estimaciones del produoto nacionaT bruto, o se
pueden dividir entre el valor de un año base y reportarse como números
índice, como en el índice F. W. Dodge del valor de los contratos de cons-
trucción otorgados.
El método de promedio de relativos se usa cuando los componentes
no son comparables, como en activos bancarios y ventas de tiendas de
departamento utilizados en los índices regionales comerciales. Aquí los
componentes se expresan como relativos y entonces se multiplican por
parámetros de ponderación arbitrarios para llegar al valor final de los
índices.

Fórmulas para calcular índices compuestos

Los dos métodos básicos para calcular números índice ponderados se


pueden expresar en fórmulas utilizando los siguientes símbolos:

Para cada artículo,

po = precio en el período base (por ej., 1967).


Pn = precio en el año actual de la serie (por ej. 1974, 1975, ... ).
qo = cantidad en el período base.
q" = cantidad en el año actual de la serie.
:i.(P"q¡()) = suma de (precio del primer artículo en el año actual por
cantidad del período base) más (precio del segundo artículo
en el año actual por la cantidad del año base), etcétera.

Las fórmulas son:"

" Estas fórmulas, que usan parámetros de ponderación del año base, son va-
riantes de las "fórmulas de Laspeyres", en oposición a la "fórmula de Paasche",
que usa parámetros de ponderación del año actual, () al índice "ideal" de Irving
Fisher, que es la media geométrica de los dos.
568 Números indice

M étodo de promedio Método


de relativos agregado

~(pnqo)
~(poqó)
~(poqn)
~(poqo)
~(pnqn)
~CPoqo)

Las dos fórmulas de cada columna son idénticas cuando el precio,


cantidad, o valor del período base,' se utiliza como parámetro de ponde-
ración. o. sea, multiplicando los precios por las cantidades del año base
da el mismo resultado algebraico que multiplicar los precios relativos
por el mismo valor del año, etcétera. Si .se ,utiliza algún otro período
como parámetro de ponderación, com() es muchas veces el caso, los resul-
tados diferirán un poco. Así, los principales índices del gobierno de Jos
Estados unidos utilizan todos el mismo período bas,e 1957.-1959 paracom-
parabilidad, mientras que los parámetros de ponde1fláón para los índices
de precios al consumidor se determinaron de un. análisis de los gasetos del
consumidor en 1960-1961, los parámetros de ponderación para los índices
de precios al mayoreo representan las ventas de artículos reportados en los
censos de 1958, y los parámetros de ponderación del índice deproduc-
ción industrial del Federal Reserve Board dependen del "valor agregado"
por la industria en 1957, en los Estados U nidos.
Las fórmulas para los índices de cantidad son las mismas que para
los índices de precio con p y q intercambiadas.

Comparación de los métodos de promedio


de relativos y agregado

Muchas veces, los métodos de promedio de relativos y el agregado


llegan a resultados idénticos, como se describe posteriormente. ¿ Cuál es
entonces el mejor?
El método agregado es el más simple y más fácil de entender de
los dos; por consiguiente, se puede usar cuando haya disponibles paráme-
tros de ponderación apropiados (o sea, cantidades para un índice de
preCio) y cuando solamente se necesiten índices compuestos.
Por otro lado, el método de promedio de relativos se debe utilizar
cuando:

1. Se desea comparar cada componente en la forma, de relativos, como


en el índice de precios de mayoreo. El primer paso en este método
produce estos relativos directamente.
2. Los parámetros de ponderación están disponibles en la fonna de valor,
Pruebas para un número indice adecuado 569

como en el índice de Federal Reserve Board de los Estados Unidos


que aplica el "valor agregado por manufactura" para un grupo de
elementos relacionados como un parámetro de ponderación para la
producci<Sn de un elemento representativo único. Usualmente es más
fácil obtener los valores en dólares como parámetros de ponderación
que encontrar las cantidaQes.
3. Las series de componentes están ya en forma de relativos como al
combinar varios segmentos del Indice de Producción Industrial del
Federal Reserve Board de los Estados Unidos para compararlas con
una industria en particular.
Ya que usualmente, una o más de estas condiciones existen, es más
ampliamente utilizado el promedio de relativos que el método agregado.

PRUEBAS PARA UN NUMERO INDICE ADECUADO

Muchas veces, un hombre de negocios se debe referir a los números


índice para describir el estado de la economía y realizar las decisiones
diarias para el control y planeación de sus operaciones. Por lo tanto, no
puede aceptar un índice inopinadamente sin inquirir acerca de sus carac-
terísticas y limitaciones. Las apariencias son engañosas, y los nombres
oficiales de los índices muchas veces son algo más que una guía general
de su naturaleza.
Por tanto, si uno hace cualquier uso regular de un índice, seguramente
vale la pena escribir al editor solicitando una descripción, o al menos
consultar una de las publicaciones que se encuentran listadas al final
de este capítulo que proporcionan un análisis crítico de los principales
Índices. Uno debe tomar en cuenta la reputación y confiabilidad del
compilador. Por ejemplo, las principales agencias estadísticas federales
han ajustado mucho sus índices, mientras que por otro lado, ciertas
agencias regionales publican índices demasiado primitivos de las activida-
des comerciales de sus áreas.
Al estudiar la naturaleza de un índice es particularmente importante
aplicar las siguientes pruebas, que determinan si el índice es apropiado
para su necesidad: 1) finalidad del· índice, 2) selección de la muestra,
3) elección del período base, 4) selección de los parámetros de ponde-
ración, y 5) ajustes estadísticos.

Finalidad del índice

El lector debe entender perfectamente la finalidad del número índice.


Así, el índice de precios al consumidor intenta medir el costo de una
serie fija de bienes y servicios comprada por los trabajadores urbanos de
más bajo ingreso; no se intenta medir el costo de vida de los consumidores
en general, como muchas veces se deduce erróneamente. También, los
promedios de Dow-Jones se proponen medir los cambios relativos de pre-
cio de las acciones líderes del mercado, y no las acciones del mercado
570 Números índice'

general. De manera similar, el índice de la F. W. Dodge Corp. de con-


tratos de construcción otorgados se desarrolló para indicar los cambios
relativos en el valor de los contratos de construcción. No se puede utilizar
la medición de los cambios en el volumen físico de construcción ni los
cambios en el valor de construcción realizada.
Si el número índice es inadecuado, el uso de varios índices relacio-
nados puede satisfacer una necesidad dada. Por ejemplo, al analizar los
cambios mensuales en la actividad comercial regional, es muy útil com-
plementar un índice de negocios compuesto con ílldices de empleo, -pagos
a trabajadores, contratos de construcción, ventas al detalle, y otros pare-
cidos que reflejen los cambios en los elementos componentes de los ne-
gocios.

Selección de la muestra

La segunda prueba de un buen númer~ índice proviene del requerI-


miento estadístico de que los datos deben proporcionar una muestra
representativa, por supuesto, a menos que cubran todo el campo. Los
principios para selección de una muestra se trataron en el capítulo 12.
Es de gran importancia que los datos recopilados para construir un
número índice coincidan con estos principios. De otra manera, no se
pueden realizar generalizaciones válidas con los resultados.
Es efectivo y apropiado el siguiente plan de muestreo para seleccionar
una muestra de. elementos que se incluyan en un número índice.
Primero, dividir los artículos en un gran número de grupos pequeños
o estratos. Cada grupo debe incIuiruna línea de productos estrechamente
relacionados y es de esperarse que sus características varíen casi unifor-
memente en .precio, cantidad, o valor, según sea el caso. Se debe contar
con parámetros de ponderación para estos grupos. Esta estratificación
permite una ponderación más exacta y un agrupamiento flexible en cate-
gorías principales según se desee.
Luego se selecciona de estos grupos una lista típica de elementos que
incluyan no solamente todos los artículos más importantes, sino también
algunos que sean típicos de cada categoría de bienes en el grupo tanto
en características físicas como en el comportamiento de precios en el
caso de un índice de precio. Por supuesto, cada elemento debe identi-
ficarse en forma precisa. Los precios se ponderan entonces y los productos
totalizados forman índices de grupo, y los últimos son otra vez combi-
nados para proporcionar el índice total. El resultado se puede denominar
una muestra de criterio altamente estratificada.
En los grupos o partes de grupos donde existan pocas bases para la
selección, como cuando hay muchos elementos de menor o relativamente
igual importancia, cada décimo, veinteavo, algún otro elemento numerado
se puede tomar de la lista. 7 Esto es un muestreo sistemático y no un mues-
treo de criterio.
7 También se pueden seleccionar los elementos de "probabilidad proporcional
al tamaí'ío" rlpfinipnrlosp como tamaño la ponderación relativa del elemento. Vea
Pruebas para un número indice adecuado 571

En cualquier caso, la etapa más importante de todo el proceso es la


selección de una 'sección representativa. Muchos índices regionales "de
negocios generales" y otros fallan a este respecto ya que no miden lo que
se proponen representar.
El número de elementos seleccionados en cada grupo puede variar
de uno a veinte o más, dependiendo de la importancia de grupo y de su
situación. Para todos los grupos combinados, se debe marcar el precio
de varios cientos de elementos para construir una muestra de tamaño
adecuado. Por ejemplo, el Bureau of Labor Statistics incluye cerca de
400 elementos en su índice de precios al consumidor. 8 mientras el índice
de la Standard and Poor incluye el precio de 500 acciones comunes. Sin
embargo, se podría usar un número menor para elementos que, son casi
homogéneos tanto en tipo como en comportamiento de precios.

Elección de un período hase


La base de un número índice que muestra los cambios de un período
a otro puede ser cualquier pedodo que proporcione el estándar más ade-
cuado para comparación. Existe una serie de criterios para la selección
de tal base. Los más importantes de éstos son 1) normalidad del período,
2) validez de los datos en el período, 3) comparabilidad con números
índice existentes y (4) inclusión de años censados para datos clave.
Normalidad del período. Frecuentemente, el pedodo base debe ser
uno que sea ~'normal" o "promedio"; eso es, un período donde el nivel
de 1m; datos sea más o menm; la mitad entre los puntos máximos y míni-
mos de los ciclos comerciales en esa era. No se debe utilizar como base
un período de precim; muy altos ya que la influencia de los componentes
más inflados sería desproporcionadamente baja en otros períodos. Sin
embargo, se escogió el año pico 196.7 como base para los íildices guber-
namentales ya que 1m; censos industriales de ese año proporcionan pon-
deraciones de año base según se verá en "Inclusión de años censales".
Validez de los datos. Por 10 general, en años recientes las fuentes
materiales han sido más exactas y exhaustivas, de tal modo que un período
anterior. Por esta razón, muchos índices gubernamentales se han revisado
en años recientes para incluir nuevos productos y nuevos parámetros de
ponderación que reflejan la producción cambiante y los patrones de con-
sumo. Al mismo tiempo los períodüSbase más antiguos se remplazaron
por la base de 1967, que abarca tanto 1m; productos recientemenee des-
arrollados como los años particulares para los que se calcularon los pará-
metros de ponderación de los datos censales.
Comparabilidad con otros números. índice. La base para un nuevo

M. 'Wilkerson, Sampling Aspects of the Revised ePI (Washington, D.C.: Bureall


of Labor Statistics, octubre 1" de 1964), pág. 12.
8 Por otra parte, para asegurar la validez de los numerosos índices componen t(~S, el Bureau
incluye cerca de 2,500 artículos en su índice de precios al mayorco.
572 Números índice

número índice muchas veces se elige para que coincida con los de los
números Índice existentes con los cuales es mis probable que pueda com-
pararse el nuevo. Los números índice no son directamente comparables
a menos que sus períodos base sean idénticos. Por esta razón la Oficina
del Presupuesto (ahora Oficina de Administración y Presupuesto) ha tra-
tado de estandarizar los Índices gubernamentales can base en 1947-1949,
1957-1959 Y 1967 en esa.s décadas sucesivas.
Inclusión de los años censales. Ya que' es preferible utiliz¡:tr pará-
metros de ponderación apegándose lo más posible al año base,9 el período
base debe incluir años censales para' los cuales los datos de chequeo estén
disponibles como parámetros de ponderación. Por esta razón se seleccionó
el año base 1967 para los índices gubernamentales para coincidir con los
censos comerciales, industriales, mineros, de construcción, transporte y
otros censos que se realizaron ese año.

Parámetros de ponderación
Anteriormente en este capítulo, se definieron los parámetros de pon-
deración y se utilizaron en el cálculo de números. índice ,compuestos. Aquí
se van a analizar los problemas de selección de los parámetros de ponde-
ración, tipos de parámetros, parámetros flexibles y sesgos en los paráme-
tros de ponderación.
Selección de parámetros de p(mderación. Los parámetros de pon-
deración se pueden seleccionar para representar ya sea la importancia de
un artículo específico o la importancia del grupo económico entero del
cual es típico. En el último caso, se podría incluir en un índice de
producción de muebles para el hogar el relativo a UlltipO estándar de
tapetes de lana domésticos ponderados por el valor total de todas las
cIases de tapetes similares en vez de incluir un gran número de diferentes
tapetes y ponderar cada uno de acuerdo con su propia importancia espe-
cífica. Este sistema de ponderación agrupado se utiliza en el índice de
producción industrial del Federal. Reserve Board. y en el Indice de .Precios
al Consumidor de Bureau of Labor Statisticscomo se describe posterior-
mente en este capítulo.
Los parámetros de ponderación también deben ser apropiados al pro-
pósito de un índice. Por ejemplo, un índice de precios de promedios de
relativos para un inventario de una compañía, debe ponderarse con valo-
res de inventario; un índice de precios de bienes vendidos debe ponde-.
rarse por valores de ventas, mientras que un índice de precios al consu-
midor debe ponderarse con los gastos del cC)Jlsumidor. 10
Cantidades físicas o valores como parámetros de ponderación.
Los factores utilizados como parámetros de ponderación para un número

" u. S. Bureau of the Budget, Division of Statistical Standards, Recornmen-


dations on Postu.'ar Base Period lor Index Nurnbers (14 de marzo, 1951,), pág. 2.
111 Los parámetros de ponderación se pueden redondear a dos o tres cifras
significativas, o hasta una cifra para valores menores, puesto que una diferencia
apreciable en el parámetro influirá poco en el índice.
Pruebas para un número índice adecuado 573

índice dado dependen del método de determinación y las clases de datos


empleados. Si es un número índice de precios y se utiliza el método
agregado, esto es, un método que añade los precios ponderados reales,
las ponderaciones deben ser los datos de las cantidades de alguna clase,
nunca un valor. El valor incluye el efecto del precio, ya que es igual
al precio multiplicado por l~ cantidad. Su uso como un parámetro de
ponderación en un índice agregado realmente tendría el efecto de elevar
al cuadrado los precios, lo cual daría la importancia indebida a los
cambios en los precios más grandes. Inversamente, un índice de cantidad
agregado se ponderaría con precios. Por otro lado para un promedio ya
sea de precios o cantidades relativas, deben utilizarse parámetros de pon-
deración, de valor, comC) se ilustra en la tabla 18-4.
Sin embargo, el que los parámetros de ponderación sean cantidades
o valores puecic depender de la disponibilidad de los datos. Para la
mayoría de las clases de artículos, los valores de cambio en dólares están
muchas veces más disponibles que las cantidades. Los valores deben uti-
lizarse para agrupar los parámetros de ponderación, donde los elementos
están en unidades diferentes. En estos casos, se debe utilizar el método
de promedio. ponderado de .relativos.
Parámetros de ponderación constantes o variables. Los números
índice se diseñan para mostrar cambios únicamente en la variable que
se mide -por ejemplo, un índice de precios debe aislar los cambios en
el precio de los cambios que pueden deberse a los cambios de calidad y
otros factores. No debe permitirse que fluctúe. Los parámetros de ponde-
ración, por lo tanto, usualmente deben mantenerse constantes para un
período extenso. Si se pennitiera que los precios y los parámetros de pon-
deración variaran simultáneamente, ,los números índice resultantes refleja-
rían los cambios. debidos a ambos factores, y nadie podría decir qué
parte del resultado final se debía a variaciones en los precios y qué parte
se debía a variaciones en los parámetros de ponderación.
De aquí se formula la siguiente pregunta: ¿Si los parámetros de pon-
deración deben mantenerse constantes para períodos extensos, qué período
específico deben representar? En los ejemplos utilizados como ilustraciones
del método, los parámetros de ponderación fueron cantidades o valores
en el período utilizado como base de los números índice, pero esto no es
necesariamente el mejor procedimiento a seguir en cada caso.
La importancia de los artículos puede cambiar durante períodos rela-
tivamente cortos de tal manera que, si se utilizan los parámetros de
ponderación de un período anterior, existe el peligro de que un número
índice corriente no reneje exactamente la importancia relativa actual de
sus diferentes componentes. Por ejemplo, el costo de comprar y mantener
una televisión a color es un elemento importante en el costo de vida
de nuestros días que no existía unos años antes.
Cuando se conoce definitivamente que los componentes del índice
cambian de importancia, deben revisarse los parámetros de ponderación
de un período a otro. Sin embargo, revisiones demasiado frecuentes tien-
den a .opacar la utilidad de un número índice, de tal modo que ordina~
I
574 Números índice

riamente no se debe hacer ningún cambio mientras los parámetros de


ponderación sean aproximadamente correctos. En los índices establecidos
desde hacia mucho tiempo los parámetros de ponderación se han cambiado
en intervalos de aproximadamente diez años.
Desviaciones debidas a la ponderación. Es casi seguro que ocu-
rran en algún grado desviaciones o sesgos debidos a •los métodos de
ponderación. En este sentido "desviación o sesgo" significa que el número
índice tiende a sobrestimar o subestimar el grado de cambio debido a las
fallas de los parámetros de ponderación para representar exactamente la
importancia relativa de los cambios de los elementos incluidos. General-
mente los índices de precios se basan en el costo de un conjunto dado
de bienes, pero la gente realmente compra diferentes cantidades conforme
cambian los precios. La desviación probable de cualquier índice debida
a los cambios en los patrones de consumo y otros· parecidos deben consi-
derarse cuidadosamente antes de que se utilice .en una importante decisión
de política.
Ajustes estadísticos
La mayoría de los índices mensuales compuestos se deben ajustar
estadísticamente para mostrar los ciclos y las tendencias a largo plazo
en los datos fundamentales y para eliminar los movimientos estacionales
e irregulares. (Estos ajustes se analizarán en el capítulo 20). O sea que
1) si es necesario los datos se deben ajustar para las variaciones estacio-
nales y de calendario; 2) las cifras resultantes deben suavizarse por medio
de promedios móviles (descritos en el capítulo 20), de tal manera que las
series muestren los cambios más consistentes de las tendencias de los
ciclos de mes en mes que las irregularidades erráticas sin significado, y
3) se debe reducir una serie en valor de dólares mediante un índice de
precios, si se desea mostrar los cambios en el volumen físico (capítulo 19).
También es deseable determinar cuando el índice es un indicador princi-
pal,coincidente, o rezagado en los puntqs cambiantes de los ciclos comer-
ciales. (Ver Business Conditions Digest, del Departamento de Comercio
de los Estados U nidos, publicación mensual.)
Los índices comerciales mensuales se deben revisar también compa-
rándolos con datos anuales más completos o censos quinquenales de ma-
nufacturas y otros censos a fin de ajustar la tendencia general de las
series mensuales a estos marcos de referencia más exactos. De otra ma-
nera, un índice mensual basado en datos muestrales desarrollará desvia-
ciones acumulativas hacia arriba o hacia abajo en el transcurso de los
años, de tal manera que destruirá su validez' para comparaciones a largo
plazo.

REVISIONES DE NUMEROS INDICE

Sustitución de elementos
Los cambios en la producción, distribución, hábitos de consumo y
Revisiones de números indice 575

gran variedad de otros factores económicos muchas veces necesita sustitu-


ciones de los elemelltos incluidos en un índice, en la lista de entrevis-
tados, o en las especificaciones de los elementos incluidos. Por ejemplo, en
1971 el Bureau of Labor Statistics añadió 86 artículos (tales como un
tractor agrícola diesel) y abandonó 36 (tales como un chasis de carro
y un arado desbaratado) para el cálculo del índice de precios al mayoreo.
La disponibilidad de datos mejores y más recientes también puede hacer
que convenga revisar los números índice establecidos ·comose describe
anteriormente. Cuando interpretamos el movimiento de los números índi-
ce es esencial que estos cambios los mantengamos en mente, ya que el
método particular de revisión puede provocar una gran diferencia en
el resultado finaL

Cambios del período bas...

Se puede necesitar cambiar el periodo base de un número índice en


cualquiera de las siguientes situaciones: 1) cuando se deben comparar
los números índice basados en diferentes periodos, es necesario convertir
un índice al mismo periodo base que el otro, de tal manera que los
cambios en los dos se medirán desde el mismo punto de tiempo. 2) Tal
vez se quiera cambiar la base de una serie por alguna fecha de referencia
arbitraria tal como 1972 para comparar los cambios subsecuentes con
las condiciones de ese periodo.
U na serie se puede cambiar a una nueva base multiplicando cada
uno de sus números índice por 100/ X, donde X es el número índice para
el periodo seleccionado como base nueva. Esto es, X· 100/X = 100. Ya
que cada uno de los índices se multiplica po.r el mismo factor constante,
las fluctuaciones relativas de las sedes permanecen constantes.
Tabla 18-6
CAMBIO EN LOS PRECIOS BASE PAGADOS POR LOS
AGRICULTORES DE 1910-1914 A 1967 PARA SU
COMPARACION CON EL INDICE DE PRECIOS
AL CONSUMIDOR

Precios pagados por los agricultores


artículos de consumo familiar Indice de precios
al consumidor
1910-14 = 100 1967 = 100* 1967 = 100
(1) (2) (3)

1967 302 100 100


1968 310 103 104
1969 324 107 110
1970 336 111 116
1971 352 117 121
it Obtenido mediante. la multiplicación de la columna \ por 100/302 para
cambiar el valor de 302 del promedio de 1967 al nivel de \00.
FUF.NTF.: SUfl'e)' of CUT1't'nt Bu,~ineJS.
576 Números indice

A manera de ilustración en la tabla 18-6 el periodo base para precios


pagados por los agricultores por artículos deconsumb familiar se ha
cambiado de 1910-1914 a 1967 para compararlo con los cambios en los
índices de precios al consumidor desde ese periodo. Ya que el índice ori-
ginal de precios pagados por los agricultores promedió 30.2 en 1967 la
serie completa se ha multiplicado por 100/30.2 ~ .3311 para cambiar
el promedio de 1967 a 100 (columna 2), el mismo que para el índice
de precios al consumidor. Las dos últimas columnas· muestran que de
1967 a 1971, los precios pagados por los agricultores avanzaron solamente
el 17 % en comparación con el 21 % de los precios generales al consu-
midor, aunque el índice de precios de los agricultores original se incre-
mentó en más puntos que el índice de precios al consumidor.

Empalme de dos series

Muchas veces es necesario empalmar dos series, para formar una serie
continua, como cuando se cambian las especificaciones de un artículo en
un- índice de precios. Se pueden empalmar cualesquiera dos series siempre
que ambas estén disponibles en el mismo año. Por ejemplo, podría decirse
que el Indice de Precios al Mayoreo del BLS, incluye todo excepto el
fregadero de cocina. Esto no es cierto. Incluye un fregadero de acero
esmaltado, pero el precio que reporta una nueva compañía se añadió a
su muestra en noviembre de 1958. Como resultado, el precio típico había
cambiado de 13.39 dólares (o un índice de 100.8 en la base 1957-1959)
a 13.13 dólares en ese mes. La tabla 18-7 muestra cómo continuar el
índice de precios original (columna 2) para el fregadero, empalmando
el nuevo precio (columna 3) en ella..El nuevo precio de 13.13 dólares
en el mes traslapado de noviembre de 1958 se debe cambiar no alOa
sino a 100.8, el índice para ese mes. Por lo tanto, la nueva. serie de pre-
cios se multiplica por 100.8/$13.13, como se muestra en la columna 4.
Las series empalmadas en la éolumna 5. (combinando las columnas 2
y 4) muestran ahora los precios del fregadero de acero esmaltado conti-
nuamente en este periodo, aunque' el precio de la muestra real se cambió
en noviembre de 1958.
En otro ejemplo, el componente de un nuevo coche en el índice de
precíos al consumidor (basado en el tamaño estándar de Chevrolet, Ford
y Plymouth) pasa de moda en 1960 con la introducción de carros com-
pactos, cuyo comportamiento de precios difiere del correspondiente a
los modelos de tamaño estándar. Por lo tanto, clBureau of Labor Statis-
tics introdujo los precíos de cuatro coches pequeños (Rambler, 'Falcon,
Valiant y Corvair), ligando las nuevas series con las antiguas en octubre
de 1960 de tal modo que el nivel del índice no se afectó por el bajo
precio de los carros compactos. 11
Estrictamente hablando, un índice que se cambia a una nueva base
debe estar compuesto de los mismos elementos durante todo el periodo
11 O. A. Larsgaard y L. J. Mack, "Compact Cars in the Consumer Price
Index", Monthly Labor Rel,iew (mayo de 1961).
Algunos índices importantes 577

del índice. A pesar de eso el uso más común de la base cambiante consiste
en enlazar un ínqice actual que contiene un grupo de elementos a un
índice de un periodo anterior que contiene un número de elementos simi-
lares, pero no idénticos a.l grupo de elementos considerado. Este proce-
dimiento es legítimo si los grupos antiguos y nuevos'~ de elementos se pue-
den considerar representativos de la misma población. Esto sucede en el
ejemplo anterior. En el casó de que los componentes de un índice hayan
cambill-do en forma más radical de periodo a periodo, como en el Indice
de la Compañía Cleveland Trust de actividad comercial desde 1970
hasta la fecha, el índice pierde su carácter homogéneo.

Tabla 18·7
EMPALME DE DOS SERIES DE PRECIOS QUE CORRESPONDEN A
UN FREGADERO DE ACERO INOXIDABLE
(Precies en dólares¡ índices en la base 1957-1959)

Muestra onginal de las Muestra agrandada de la"


compa'fiías que reportan compañías que reportan
lndíce con
las series
Precio lndiee Precio ludiee empalmadas
(1) (2) (3) (4) (5)

Septiembre ·1958 . $13.194 99.4 99.4


Noviembre 1958 $13.39 100.8 $13.13 100.8 100.8
Junio 1959 $12.71 97.6 97.6
FUENTE: Departamento del Trabajo de los Estados Unidos Wholesale Priees and Priee Indexes,
1958, Boletín N", 1257 (Julio dc 1959). págs. 225 y 230 (elemento # 1053-11), cambiado a la
base 1957-1959.

ALGUNOS INDICES IMPORTANTES

Existen muchos más índices comerciales en uso :común de los que aquí
se pueden tratar. Cientos . de éstos se citan en las bibliografías al final
de este capítulo. Sólo estudial'emos tres índices muy importantes su deter-
minación, usos y limitaciones para ilustrar los problemas más comunes
relativos a ellos: los índices de precios de mayoreo y al consumidor del
U. S. Bureau of Labor Statistics, así como el índice para producción
industrial del Federal Reserve Boa.rd; para todos ellos se toma como
periodo base 1967 = 100.

Indice de Precios al Consumidor

"El Indice de Precios al Consumidor (CPI) es una medida estadística


de los cambios en los precios de bienes y servicios comprados por los tra-
bajadores asalariados urbanos y los trabajadores de oficina, que incluye
familias y personas solas" .12
12 Para más detalles Vea U.S. Department of Labor, The Consumer Price
lndex, A Short Description, 1'971.
578 Números indice

El índice se calcula por el método de promedio de relativos ponde-


rados 1 ;{ utilizando parámetros de ponderación constante. Los precios se
miden mensual o trimestralmente, y el costo agregado de una lista fija
de bienes y servicios se compara con los del periodo base 1967. Ya que
las cantidades representan no solamente el consumo de los 400 bienes y
cervicios realmente valuados sino también el .consumo de artículos afines
para los cuales no se obtiene precio, el costo total del "paquete" repre-
senta un amplio sector de los gastos totales del consumidor para bienes
y servicios.
Los precios reunidos para estos índices son precios al menudeo car-
gados a consumidores por concepto de "comida, vestido, automóviles,
casas, muebles para el hogar, utensilios para el hogar, gasolina, medicinas
y diversiones; honorarios a: doctores, abogados, salones de belleza; .renta,
costos de reparación, tarifas de transportes, tasas de servicios públicos,
etc." Estos precios incluyen ventas e impuestos sobre consumos o restas
así como impuestos a bienes inmuebles pero no impuestos al ingreso
personal o sobre bienes muebles.
Los 400 bienes y servicios que comprende el "paquete" de los artículos
muestreados son representativos de los bienes y servicios típicos comprados
por las familias de trabajadores asalariados y de oficinistas o individuos
solteros que viven en área~ urbanas con una población de 2,500 habi-
tantes o más en 1960. Estas familias y los trabajadores solteros compren-
den alrededor del 56% de la población urbana y cerca dd 40% del total
de la población de los Estados U nidos en 1960. El índice se diseña para
medir solament,e los cambios en los precios del mismo "paquete" a través
del tiempo, y 1/10 para medir los cambios en la composición de diferentes
"paquetes" o cambios en el estándar de vida de los consumidores.
Periódicamente la oficina realiza análisis de gastos del consumidor
para determinar el patrón de gastos en bienes y servicios por parte de
los trabajadores asalariados y oficinistas. El último análisis se realizó en
72 áreas urbanas, que se eligieron para representar todos los lugares
urbanos de los 50 estados. Con los datos recopilados, la oficina revisó los
parámetros de ponderación de cantidad utilizados para calcular d índice
y seleccionar objetivamente los 400 artículos que debían incluirse.
Todos los artículos comprados por los trabajadores y oficinistas se
agruparon o estratificaron en "c.lases de gastos". Los elementos incluidos
en cada una de estas 52 clases, que definen los estratos. del muestreo, se
determinaron primariamente agrupando artículos que de manera gene-
ral sirven a las mismas necesidades humanas. Los artículos se seleccio-
naron con una probabilidad proporcional a' su importancia relativa al
compararlos con .los gastos totales para todos los artículos. En impor-
tancia relativa, la vivienda determinó el 33% del índice total en di-
1:< En la práctica se usan tres variantes de este método: 1) el "promedio dI"
relativos de precio para reportes de salida", 2) el "relativo de precios promedio
para salidas idénticas", y 3) el "relativo de precios promedio para todos los
reportes de salida". Vea M. Wilkerson, Sampling Aspects o{ the Rel'ised ePI
(U .S. Bureau of Labor Statistics, I '! de octubre, 1964-).
Revisiones de números indice 579

ciembJ1e de 1963, la alimentación el 22%, la salud y las diversiones casi


el 20%, el transporte el 14%, y el vestido el 11 %'
Los lugares urbanos en los cuales la oficina recopiló .los datos de
precios para el índice de precios al consumidor también se seleccionaron
por muestreo probabilístico. Estas unidades primarias de muestreo fueron
50 áreas estadísticas estándar metropolitanas. Estas unidades se estrati-
ficaron por la amplitud de la región y el tamaño de· la población en
doce estratos.
La importancia relativa de cada área en el CPI se determina me-
diante la proporción que hay del total de la población de obreros y ofi-
cinistas que representa al total de todas las áreas repJ1esentadas en el
CPI, basado en el censo de 1960. La figura 18-1 muestra los cambios en
el índice y en los tres principales componentes para el periodo de 1966
a 1972. Además del índice total, se publica un índice separado para cada
una de las 23 áreas estadísticas estándar metropolitanas.
Precios al consumidor
Indice 1967 = 100 IndiCe 1967 = 100
\.40 1<0

,._ ...........
llOf--,---------·----~---~-----..,...¿+_--·__,.l1lO

.. -' '
/

l:zoI---------'---------:-----.....",<~-_+ ~_7~_#---_J 120

"'.~_ ......~'( ... ~ •••••••


._I.o-'._

Bienes de consumo
I1ll f-----------,---------:,..:-7t"~+""'--~-- excluyendo alimentos 110

Alimentos
\
100

Puente: Department 01 Labor, Council 01 Economic Advisers.

Figura 18-1

Usos del índice de precios al consumidor. Un uso importante del


índice es .la ayuda a los sindicatos y los patrones en el ajuste de los sa-
larios tomando en cuenta los cambios en los precios al consumidor. El
mayor impulso para el uso del índice con este propósito fue su desig-
nación como base del aumento de las tasas de' salarios en el contrato
firmado por los United Automobile Workers y la General Motors Corpo-
ration en mayo de 1948. Desde entonces el acuerdo se ha prorrogado
varias veces.]" Luego de cada acuerdo importante se han firmado muchos
1·1 Major Collective Bargaining Agreements: Detened Wage 1ncrease and
Escalator Clauses, U. S. Department of Labor Bulletin N'! 1425-4 (enero de 1966)
580 Números índice

otros contratos con la misma base, frecuentemente sin examinar la racio-


nalidad de la relación que hay de los ,cambios en las tasas salariales a
los cambios del índice en cada situación particular, o sin percatarse ple-
namente de las consecuencias de aceptar arbitrariamente una razón ba-
sada en la experiencia de alguna otra empresa o sindicato. Sin embargo,
cualquiera que sea el tipo de cláusula de ,escala diferencial empleada, es
importante para ambas partes de un grupo negociador que el procedi-
miento se ajuste a cada situación particular.
Las cláusulas de escala basadas en el CPI se utilizan no solamente
para ajustar los pagos de salarios, sino también para ajustar rentas, pen-
sión alimenticia, pagos fiduciarios, y muchos otros tipos de contratos.
Finalmente, el CPI se cita muy a menudo como un indicador de la
inflación ya que afecta al consumidor. Por lo tanto, sirve para medir
el poder de compra del dólar del consumidor.
El índice de precios al consumidor tiene también limitaciones que
se deben considerar cuidadosamente: 1) Mide solamente los cambios en
un grupo definido de bienes y servicios, y n~ los cambios del estándar o
nivel de vida. 2) No siempre refleja las ganancias debidas al mejora-
miento de la calidad de los productos manufacturados. Por lo tanto, pue-
de sobreestimar la verdadera tasa de inflación. 15 Inversamente, en las
condiciones de tiempos de guerra de racionamiento de materiales, no
refleja el gran ,efecto inflacionario de los precios del mercado negro, dete-
rioro de la calidad y sustitución' de grados más costosos por calidades
menores de productos. 3) Si bien mide los cambios en los precios al
consumidor de periodo a periodo no se puede utilizar para comparar los
precios entre lugares diferentes en un momento dado. Se pueden medir
las diferencias geográficas comparando los precios individuales recopilados
para el índice de precios al consumidor, pero nQ el índice mismo. 4) El
índice mide los cambios en los precios solamente para .el grupo traba-
jador en las áreas urbanas. No se debe utilizar sin modificación para
otros grupos de ingreso apara familias que viven en áreas no urbanas,
ni para cada familia en particular. 5) El ePI está sujeto a errores muestrales
e informes defectuosos de los entrevistados. Sin embargo, se cree que es
lo suficientemente preciso para la mayoría de los usos prácticos.

Indice de precios al mayoreo

El índice de precios al mayoreo del Bureau of Labor Statistics de los


Estados Unidos mide la tasa promedio y lar dirección de los movimientos
en los precios de artículos a los niveles primarios del mercado -esto es,
en el punto de la primera transacción comercial de cada artículo-- y
cambios específicos de precio para artículos individuales y grupos de ar-
]f, Vea W. AlIen Wallis, Journal of the American, Statistical Association
(marzo de 1966), págs. ]-10; también, Monthly Labor R""iew (septiembre y
noviembre de 196]), artículos por Milton Gilbert y Ethel Hoover, respectiva-
mente,
Revisiones de números índice 581

tÍculos. 16 Los precios utilizados en el índice son los que representan todas
las ventas de bienes de o a los fabricantes o productores, o los que operan
en los intercambios organizados de artículos. Por lo tanto, 'representa
precios de productores o precios del mencado primario y no aquellos que
se cargan a los mayoristas.
En el índice se incluyen precios para aproximadamente 2,500 especi-
ficaciones de artículos. Para obtener cambios de precios "reales" o "ne-
tos" no influidos por los cambios de calidad, se definen listas idénticas
de artículos con especificaciones precisas y se evalúan cada mes. Los pre-
cios se ajustan por descuentos comerciales y de cantidad, así como des-
cuentos por pago al contado y estacionales .cuando éstos se acostumbran. Se
excluyen los impuestos sobre consumo. Estos precios se obtienen de unas
2,000 compañías que son interrogadas para cuantificar los precios que
ellas cargan realmente por un artículo específico a un tipo dado de
comprador en un día particular, usualmente el maltes de la semana que
incluye el día 13 del mes. También se utilizan algunas cotizaciones de
publicaciones comerciales y reportes de mercado y de agencias guberna-
mentales.
Debido a la gran diversidad de artículos, el índice se basa en una
muestra de artículos, una muestra de especificaciones para los artículos
y una muestra de las fuentes que reportan los datos. Se seleccionan los
artículos individuales que sean más importantes en cada campo y aque-
llos que se cree representan los movimientos de precios de otros artículos
estrechamente relacionados. Así, la muestra es altamente estratificada, al
seleccionar grupos en vez de muestrear al azar. La amplia cobertura de
2,500 artículos permite el desarrollo de subíndices confiables para mu-
chas subdivisiones pequeñas de la economía.
El índice se calcula fundamentalmente como un promedio ponderado
de los precios relativos en el que los parámetros de ponderación se basan
en los valores de las ventas netas de los artículos reportados por los censos
industriales de 1963. Cada elemento tiene una ponderación que incluye
su propia ponderación basada en sus ventas en 1963 y la ponderación
de los otros elementos a los que representa en el índice.
El índice completo se divide en grandes categorías que son los artÍcu-
los industriales y los productos agrícolas y alimenticios, como se muestra
en la figura 18-2. Los índices de precios al mayoreo especiales se reportan
por etapas del procedimiento y por durabilidad del producto. Además,
se publican índices separados cada mes para muchos gtupos y subgrupos
de importancia y cientos de clases de productos y para la mayoría de
~series. .
El Bureau of Labor Statistics prepara también un Indice semanal de
Precios al Mayoreo basado en los precios reales semanales de una mues-
tra de varios cientos de los artículos incluidos en el índice mensual y 'en
estimaciones de los precios de otros artículos. El índice se puede utilizar
para dar estimaciones provisionales del índice mensual.
1" Vea U.S. Department of Labor, Wholesale PrieeO' and Priee In.dexes, for
Janllary, 1971 (julio de 1971), págs. 104-.. 109.
582 Números índice

Precios al mayoreo
Indice 1967
130
= 100 Illdice 1967 = 100
130

r-----------·--~---------------'-~---.:..:__1I2S

r---------,--------------------/'..d-cc_---1.20
r------.------c;~'"7"__;_----_:;_-_:;¡_----__A~
::.r1'-----jllS

-.......,_---1110

.05

95

Fuente: Department 01 Labor, Couneil 01 Economic Advisers.

Figura 18-2

Usos del 'ndice de Precios al Mayoreo. El Indic.e de Precios al


Mayoreo es uno de los barómetros comerciales básicos utilizados para
medir el bienestar económico de la nación. También se utilizan como un
deflactor de precios o como un índice del poder de compra, I'eflejando
los cambios en el valor del dólar. En el capítulo 19 se describe la aplicación
importante de los índices de precios para producir deflación en las series
de valores.
Este índice, o cualquiera de sus índices c~mponentes, se puede utilizar
para comparar con las series de datos comerciales individuales. Por ejem- .
plo, la Compañía General Electric proporciona a sus oficinas de com-
pra un índice de precios de artículos comprados por la .compañía, pon-
derados según la importancia para la compañía y compara este índice
con el índice de precios al mayoreo del BLS para artículos industriales.
Uno de los usos, más frecuentes del Indice de' Precios al Mayoreo es
como una e'scala, es decir, como la base para el ajuste del los pagos
contra.ctuales o valores para cambios en el valor del dólar. Los contratos
de producción a largo plazo incluyen cláusulas de escala diferencial como
garantías contra pérdidas debidas a incrementos en lospl'ecios de mate-
riales y otros costos. Los arrendamientos a largo plazo se ajustan también
muchas veces mediante este índice. 17
Existen limitaciones de los índices de pl'ecios al mayoreo que se deben
tener en mente cuando se utilizan; 1) miden los precios del mercado
primario, y no los precios de los mayoristas como implica su nombre.
2) La mayoría de los índices se refieren a una cobertura nacional y por
17 Vea "The Use of Price Indexes in Escalator Clallses", Monthly Labor
Review (agosto de 1963-).
Revisiones de números índice 583

lo tanto se deben utilizar con cuidado al interpretar datos locales o regio-


nales. 3) Ya que 'se 'relacionan con cambios de una especificación dada,
no se pueden utilizar con los índices de precios al detalle para calcular
márgenes. 4) Los índices no incluyen ninguno de los servicios, tales
como renta, transportes o comunicaciones.

Indices de' producción i~dustrial

El Indice Mensual de producción industrial del Federal Reserve Board


de los Estados Unidos, es uno de los indicadores económicos naciona-
les de mayor utilización en ese país. Mide los cambios en el v~lumen real
de producción de fábricas, minas y servicios de gas y electricidad desde
1919 a la fecha. lB
El índice de producción industrial incluye 227 series expresadas en
términos reales -unidades, toneladas, yardas, pies, y otros parecidos-
que reflejan la producción de la industria americana o datos que repre-
senten tales se'ries. Cuando los datos de la producción física no se en-
cuentran disponibles, se sustituyen por otras series que se cree que fluc-
túan en la misma forma de la producción. Tales series incluyen volumen
de embarques, producción del trabajador en horas-hombre, materiales
consumidos en la producción, etc. Alrededor de un tercio del índice
mensual está basado en el consumo de energía eléctrica y una quinta
parte en los datos de horas-hombre ajustados por cambios estimados en
la producción por hora-hombre. El balance se basa en datos de produc-
ción real, embarques y otras medidas varias.
Las series componentes del índice se combinan con parámetros de
ponderación basados en el valor agregado por la industria (o valor bruto
en algunos casos) en 1967. Los índices mensuales se ajustan anualmente
a las cifras más detalladas del censo Annual Survrey 01 Manufactures.
El índice compuesto se ,caltula como un promedio ponderado de relativos.
Se expresa tomando como base el promedio de 1967, para compararlo
con otros números índice. El índice se publica para varias grandes clasi-
ficaciones que tienen la siguiente importancia relativa en 1967: productos
finales, 48;'10 (incluyendo bienes de consumo, 280/0 y equipo comercial
y de defensa, 20%); productos intermedios (incluyendo construcción),
13% y materiales, 39%.
En los grupos industriales importantes de productos duraderos, pere-
cederos, minería y servicios, se realiza una clas,ificación por separado. Los
índices también se reportan para cientos de grupos industriales indivi-
duales, siguiendo el sistema de clasificación industrial estándar. Este gran
número de series de industrias permite un agrupamiento flexible para
la mayoría de las comparaciones deseadas.
Las series de producción mensual se ajustan a los niveles indicados
por los puntos de referencia' de los índices de producción basándose en
los Censos de Industria y Minería, mientras que para los años que no
lH Vea Industrial Production, 1971 Edition, Federal Reserve Board (no-
viembrf' de t 972).
584 Números índice

tienen punto de referencia, el ajuste se basa principalmente en los Censos


Anuales. Por lo general, estos ajustes se realizan periódicamnte durante
una revisión del índice. Entre una revisión· y otra, los niveles de los
índices mensuales se comparan con los datos· recopilados independiente-
mente, tales como la reducción en los embarques de fábrica -que se
ajustan por cambios en el inventario- y la energía eléctrica utilizada
por las industrias minera y manufacturera.
Usos del índice de producción industrial. El índice de produc-
ciónindustrial se utiliza principalmente como indicador de la produc-
ción económica. Es el indicadór más sensible y exacto que tenemos para
contestar las preguntas "¿está aumentando o decreciendo la producción?",
y "¿ en qué industria están ocurriendo mayores incrementos o decremen-
tos?" La figura 18-3 muestra los movimientos registrados en la produc-
ción total y sus tres principales componentes de 1964 a 1972. El índice
se utiliza ampliamente junto con otras series tanto para pronosticar como
para dirigir las decisiones administrativas. Por ejemplo, se compara con
cifras de desempleo para obtener estimaciones del número total de des-
Escala de
comparación
1967 = 100 Ajustes periódicos (mensuales)

120

100

80

120

100

80

1964 1966 1968 1970 1972


Fuente: Federal Reserve Monthly Chart Book, June 1972.
Figura 18-3
PRODUCCION INDUSTRIAL
Revisiones de números indice 585

empleados en el país, lo cual podría asociarse con diferentes niveles de


producción. Tambi,én, se compara con los datos de inventarios, pedidos
nuevos, embarques del fabricante, y ventas al menudeo.
Los índices industriales detallados sirven para hacer comparaciones
muy útiles o como puntos de referencia en el estudio de la producción
de compañías individuales. Los índices individuales también son muy
útiles al comparar las tasas de crecimiento en los diferentes sectores de
la economía.
Una limitación del índice de producción industrial es que sólo se
refiere a la manufactura, minería y servicios públicos, lo cual no permite
que sirva como una medida de la producción total. No se incluyen la
agricultura, construcción, transportes, comunicaciones y otros 'servici06.
Otra limitación consiste en que los cambios en el consumo de energía
eléctrica y en horas-hombre y otras medidas indirectas y de la actividad
industrial no reflejan exactamente los cambios en el volumen real de
producción, particularmente en tiempos de guerra, y postguerra.

RESUMEN

Los números índice expresan los cambios en una variable relativa


respecto a alguna base tomada como 100. Son particularmente útiles al
comparar series diferentes y al combinar un grupo de series en una cifra
única sumaria. La mayoría de los índices se diseñan para mostrar los
cambios en precio, cantidad o valor (precio por cantidad) ,ya sea de
un periodo a otro o de un lugar a otro.
Un índice simple o relativo se construye dividiendo una serie única
entre su cifra base y multiplicándola por 100.
Los índices compuestos ordinariamente deben ser medias aritméticas
ponderadas de sus componen,tes. Un índice de precio o de cantidad com-
puesto se puede construir mediante dos métodos: 1). en el método de
promedio ponderado de relativos, los relativos se calculan primero para
cada serie como se describió antes y luego se multiplican por el valor
de los parámetros de ponderación expresados como fracciones decimales
del parámetro de ponderación total. La suma de los relativos ponderados
es el índice compuesto. 2) En el método agregado, los precios cambian-
tes se multiplican por parámetros de ponderación de cantidad fijos (o
vioeversa para un índice de cantidad). Los productos resultantes se tota.--
lizan entonces, dividiendo entre el producto en el período o lugar base,
y multiplicándolo por 100. Los parámetros de ponderación representan
usualmente la importancia de un componente en los años base o algún
otro período normal. En un índice de valor los valores de dólares para
cada componente se añaden simplemente' en el método agregado, o si no,
se expresan los componentes como relativos y se multiplican por paráme-
tros de ponderación arbitrarios antes de totalizarse.
El. método agregado es el más simple de los d~s, pero es preferible el
de promedio de relativos cuando se deben comparar las series, individua-
586 Números índice

les, cuando hay disponibles parámetros de ponderación en la forma de


valor, o cuando las series componentes se expresan como relativos.
Se deben aplicar las siguientes pruebas para verificar la validez de un
índice para un uso específico: 1) El propósito del índice se debe definir
claramente. 2) Loselementos incluidos se deben relacionar específica-
mente al propósito y deben. ser una muestra representativa de la pobla-
ción que se está midiendo. 3 )El período base debe ser casi normal, de
tamaño adecuado, fácil de recordar, y que se use en índices compara~
bIes. Se deben tener a la disposición los datos fidedignos y los puntos de
referencia del censo. 4) Se deben utilizar cantidades apropiadas en un
índice de precios agregado, y viceversa, o parámetros de ponderación
de valor en un índice de promedios de relativos. Los parámetrps de pon-
deración deben permanecer constantes, pero deberi revisarse más o menos
cada década según sea la importancia de los cambios que se ap~ecien
en los componentes. Se deben considerar .también las desviaciones o sesgos
probables debidos a la ponderación.
Se pueden sustituir los valores del índice por otros, si es necesario,
mediante un adecuado "enlace". Un número índice se puede cambiar
a una nueva base o empalmar en una serie similar multiplicando o divi-
diendo entre un factor constante sin cambiar los movimientos relativos del
índice. ;
Se analizan, la determinación, usos y limitaciones de tres índices prin-
cipales para ilustrar ejemplos típicos. Los índices de precios al consumidor
y de precios al mayoreo del Bureau of Labor Statistics representan amplias
muestras de precios al niv~l de distribución al menudeo y del mercad.o
primario, respectivamente. Estos se utilizan ampliamente como indica-
dores económicos, como deflactores de series de valor y como escalas
en contratos. El uso adecuado del índice. de precios al consumidor en
contratos de salarios es de particular importancia.
El Indice de Producción Industrial. del Federal Research Board es una
,medida importante y sensible de la actividad industrial general. Repre-
senta el volumen real. de producción, embarque u horas-hombre en las
industrias de manufactura, minería y servicios públicos.
Se ,describen muchos otros índices en la bibliografía.

PROBLEMAS

1. a) Describa brevemente tres tipos de números índice que se usan para medir
cambios ocurridos' en los negocios y la "economía.
b) Según su opinión, ¿ cuál es uno de los usos más importantes de 1) núme-
ros índice simples y 2) números índice compuestos? Diga las razones
de su elección para cada caso.
e) Cite las principales limitaciones de los números índice.

2. a) Calcule un índice compuesto de precios de granos para los datos que se


indican abajo, usando el método de promedio de relativos, con 1969 = 100
y usando parámetros de ponderación del año base.
Problemas 587

b) Calcule un índice compuesto de precios por el método agregado usando


la misma base.
c) Compare los méritos de los dos métodos en este caso.

Producción, miles de
Precio por bushel billones de busheles
1'rigg Malz Trigo Maíz

1969 $1.75 $1.19 1.46 4.58


1970 1.79 1.33 1.37 4.10
1971 1.72 1.36 1.64 5.54

Nota: en todos los casos, los precios son un promedio de .los


precios al mayoreo; las cifras de producción son estilnados de la
cosecha.
FUEN1'E: Surlley of Current Business, febrero y junio de 1972.

3. Usando los datos del problema 2:


a) Calcule un índice compuesto de la producción de grano por el método
de promedio de relativos, con 1969 = 100, usando parámetros de ponde-
ración del año base.
b) Calcule un índice compuesto de producción por el método agregado, con
la misma base.
c) Calcule un índice del valor de la producción de grano, con la misma base.

4. Como agente de comprar de la compañía de Productos de Acero Erie, usted


desea compilar un índice compuesto de precios para las compras de acero
y hierro, basándose en los datos siguientes (los lingotes de hierro y hs dese-
chos de acero están en toneladas largas, y los lingotes de acero en toneladas
cortas) :

Precio. por toneladas Miles de toneladas compradas

Lingotes Desecho Lingoies Lingotes Desecha Lingotes


de ,hierro de acero de acero de hierro de acero de acero

1970 ............... ... $61 $54 $81 10.0 3.0 5.0


1972 ................... 66 38 94 n.o 2.1 5.5
1974 ................... 66 34 95 10.7 3.6 2.7

a) Calcule un índice compuesto para los precios de hierro y acero de cada


año por el método· de promedio de relativos con 1970 100 usando el=
valor de compra en 1970 como parámetro de ponderación.
b) Calcule un índice de precios compuesto por el método agregado usando
la base y parámetros de ponderación del inciso anterior.
c) ¿ Cómo difieren los índices obtenidos en los incisos a y b? ¿ Por qué?
¿ Cuál es la principal ventaja de cada método en este caso?

5. a) Con base en la tabla anterior, calcule un índice compuesto de la cantidad


de hierro y acero comprada cada año, usando el método de promedio de
relativos. Tome corno base 1970 y use los valores de 1970 como parámetros
de ponderación.
b) Calcule un índice compuesto de valor en dólares de las compras de hierro
y acero de cada año,lcon 1974 = 100.
c) Explique el significado de los índices de cantidad y valor calculados ante-
588 Números indice

riormente, en oposición al índice de precios.

6. Como analista de costos en una compañía petrolera, se le pide que compile


un índice anual del costo de perforación de pozos a partir de 1966, con 1967,
como base. Usted" determina que el costo de perforar un pozo petrolero está
aproximadamente compuesto del 60% de mano de obra y el 40% de materia
prima y usted opina que los siguientes datos representan adecuadamente a estos
elementos.

Promedio de sueldos lndice de precios


(en com pañ ías al mayoreo de
petroleras y metales y produc.
minas de tos de metal
Año
carbón) (1967 = 100)

1966 $3.41 98.8


1967 3.58 100.0
1968 3.75 102.6
1969 4.00 108.5
1970 4.28 1).6.7
1971 4.58 119.0

FUENTE: Suroey of Current Business (junio de 1972)


y suplemento, Business Statistics, 1971.

a:) Haga una lista de los índices de costo de perforación, así como de las
columnas de' cálculos necesarios.
b) ¿ Cuál fue el incremento porcentual del costo de perforación desde 1966
hasta 1971? Si 1971 fuese la 'base del índice de costos de perforación,
¿ cuál sería el índice de 1966? Si el trabajo y los materiales representaran
cada uno la mitad del costo de perforación, ¿ sería mayor o menor
el índice de 1971 que el mostrado? ¿ Por qué?
c) ¿ Qué otros índices más precisos podría usted encontrar, para sustituir a
los que aquí se han usado, con objeto de proporcionar un mejor índice
de los costos' de perforación para su compañía?

7. La Oficina de Investigación de Negocios de la Universidad de Texas publicó


un Indice Mensual de la Actividad Empresarial de Texas con la siguiente
descripción: "1947-1949 promedio = 100. Componentes: ventas al menudeo,
consumo de energía eléctrica industrial, fletes varios, construcciones autoriza-
das, producción de petróleo crudo, ventas de seguros de vida ordinarios, tondos
de petróleo crudo que pasan de alambiques, consumo total de energía eléc-
trica (parámetros de ponderación 46.8, 14.6, 10.0, 9.4, 8.1, 4.2, 3.9 y 3.0,
respectivamente, y ajustados en forma estacional). Cada componente se
expresó como un índice con 1947-1949 = 100 antes de ser ponderados. Apli-
que nuestras pruebas para un buen número índice con objeto de valorar este
índice, enunciando sus puntos buenos y malo,.

8. Los números índice se basan generalmente en muestras, por lo tanto se debe


tener cuidado de asegurar que los elementos incluidos en el índice son típicos
de la población.
a) Describa la población representada por: j,) un índice de precios reci-
bidos por los granjeros" ii) un índice de los costos de construcción indus-
trial, iii) un índice de producción de manufactura, y iv) un índice de
ventas al menudeo en zonas urbanas; para los Estados U nidos en cada
caso.
b) Las muestras usadas en números índice generalmente son estratificadas.
Problemas 589

¿ Por qué?
e) Compare las vehtajas de los muestreos aleatorio sistemático y de criterio
en la elección de artículos para un índice de ~recios que represente una
lista amplia de prendas de vestir para dama.

9. Si tuviera que reemplazar el período base de 1967 por otro nuevo para los
índices del gobierno federal, x¿ qué año o período de años escogería usted?
Cite las ventajas y desventajas de este período, conforme a los cuatro cri-
terios dados en este capítulo para la elección de un período base.

10. a) Convierta el siguiente índice de precios de construcción de la American


Appraisal Company,tomando como base e! promedio de 1967.
b) Compare los cambios registrados en los costos de construcción d~sde 1967,
mostrados por los índices del Engineering News Record y la American
Appraisal Company.
C') Si en los albores de 1973 el único índice de costos de construcción dispo-
nible para 1972 fuese la cifra de 140.0 del Departamento de Comercio,
comparado con 131 para 1971, use esas cifras para estimar el índice de
la American Appraisal Company (1967 = 10G) para 1972.

Engineering American
News Appraisal
Record Company
(1967 = 100) (1913 = 100)

1967 100.0 909


1968 107.8 970
1969 118.7 1,050
1970 128.9 1,132
1971 146.7 1,258

Fuente: Survey 01 Current Business, Junio 1972,


y suplemento, Business Statistics, 1971.

11. Busque un artículo en M onthly Labor Review o cualquier otro donde se


opine sobre e! último programa del Bureaucbf Labor Statistics para la revisión
del Indice' de Precios al Consumidor o el Indice de Precios de Mayoreo.
Describa los pasos principales de este programa y explique cómo las mejoras
en los resultados justifican el considerable gasto implícito.

12. El acuerdo de Ford Motor Company de! mes de septiembre de 1958 con los
sindicatosUAW-CIO pedía un salario adicional por costo de vida trimestral
de aproximadamente 1 centavo por hora de ingresos ordinarios por cada 0.5
pun tos de cambio en el· Indice de Precios del Consumidor del Bureau of Labor
Statistics (1947·1949 = 100) por arriba, pero no por abajo, del nivel de!
índice base de 119.1 comenzando con 1 centavo para e! índice 119.2 a 119.6.
(El índice de noviembre de 1958 fue de 123.7.)
En otro caso, la compañía Hacordó con el Sindicato de Trabajadores de
la Metalurgia que si el Indice de Precios al Consumidor aumentaba o decre-
cía en un 5% o más en un periodo semianual, los salarios se ajustarían ya sea
hacia arriba o hacia abajo por medio del mismo porcentaje.
Compare las ventajas de estos dos acuerdos con respecto a:

a) Ajustar los salarios a todos los niveles en 1 centavo por hora por cada
0.5 puntos de cambio en el índice de precios al consumidor o ajustar los
salarios por medio del mismo porcentaje de incremento que el del índice
dé precios al consumidor.
590 Números índice

b-) Ajustar los salarios poco a poco (es decir, trimestralmente, por cada 0.5
puntos de cambio en el índice de precios al consumidor) o de una sola
vez (es decir, semestralmente, por medio de 5% o más, dependiendo de
si el Indice de Precios al Consumidor ha variado demasiado).
e) Establecer un nivel mínimo de salarios de 4.6 centavos por hora abajo de
la tasa de septiembre de 1958, como se indicó en el primer párrafo, o
ajustar sin límite los salarios ya sea hacia arriba o hacia abajo, tomando
en cuenta el Indice de Precios al Consumidor.

13. ¿ Por qué el Indice de Precios al Mayoreo del Bureau of Labor Statistics que
excluye alimentos y productos agrícolas es frecuentemente utilizado en lugar
del Indice de todos los artículos como medida. para cambios generales en los
precios?

14. Si fuese usted el economista de una cadena nacional de farmacias y deseara


comparar los precios que paga con Jos del Indice de Precios al mayoreo
del Bureau of Labor Statistics:
a) ¿ Qué subgrupos de este índice combinaría para satisfacer sus necesidades?
b-) ¿ Qué método, aritmético, emplearía para ~ombinarlos?

15. ¿ Considera apropiado el procedimiento siguiente? Si no, sugiera mejoras. Con


el objeto de permitir cambios de acuerdo con los del costo de vida, la Com-
pañía de Maquinaria Ajax formula un contrato de salarios que estipula que
los salarios de los trabajadores serán ajustados hacia arriba o hacia abajo cada
mes en 1 centavo por hora por cada cambio de un punto en el Indice de
Precios al Mayoreo.

16. ¿ Qué subindice o grupo de subíndices del Indice Mensual para el Federal
Research Board son apropiados para comparaciones con el volumen físico· de
producción de:

a) ¿ Una gran compañía de petróleo integrada?


b) ¿Un fabricante de muebles de cocina y lavadoras?
e) ¿ Una fábrica de muebles para el hogar?

17. Presente un análisis crítico de un indice comercial compuesto o índice eco-


nómico que sea de su interés (que no sea el índice de precios del Bureau of
Labor Statistics o el Indice del Federal Reserve Board), desC'ribiendo sus
a) propósitos, b) método de construcción, y e) limitaciones. (Véase la Bi-
bliografía para consultas.)

18. Considerando las características económicas propias de su estado o zona:


a) Haga una lista de cuatro indicadores de negocios que sean significativos
para este estado o área citando fuentes exactas.
b) Describa y valore un índice general de negocios publicado para este estado
o área.

19. ¿ Qué índices o indicadores que se hayan publicado son apropiados para usarse
en las situaciones siguientes?
a) Usted desea fijar un precio al cual vender su casa, la cual le costó
$25,000 nueva hace cuatro años.
b-) El supervisor de una fábrica de textiles de lana quiere saber si la expan-
sión de su volumen de producción en los pasados 18 meses ha tenido el
mismo ritmo que la industria en general. '
e) El contralor de una compañía de gas necesita un factor de ajuste con el
cual revisar el nivel básico de pagos de pensiones, establecido hace diez
años para los trabajadores de la compañía que se han retirado.
Problemas 591

d) Un fabricante de artículos para la agricultura necesita información sobre


tendencias recientes en márgenes de operación de agricultores.
e) El presidente de una cadena de tiendas desea recibir un informe mensual
de los cambios en el poder de compra del consumidor. Desea compararlos
con las ventas de sus tiendas.

20. Justifique o critique las siguient~s acciones. Si una postura es incorrecta, in-
dique qué se debería haer:r.
a) Se le pide al economista de una compañía petrolera que compare el cre-
cimiento industrial de la compañía desde 1960 con el de la industria en.
general. Prepara una tabla en la que muestra el total de ventas en dólares
de cada año de la industria petrolera, expresada como números índices
con 1967 como base, junto con el índice de producción industrial del
Federal Reserve Board.
bo) A un ejecutivo de la ciudad de Kansas se le ofrece empleo en Cleveland,
y desea comparar el costo de vida de las dos ciudades. El último Indice
de Precios al Consumidor es de 115.3 para la ciudad de Kansas y de
108.1 para Cleveland. Así pues, concluye que el costo de vida es más
bajo en Cleveland.
e) El agente de compras de una cadena de tiendas de accesorios para autos
compra la mayoría de sus artículos directamente a los fabricantes. Necesita
un resumen del informe mensual de los cambios de precios con objeto de
comparar sus costos. Para este propósito escoge el Indice de Precios al
Mayoreo del Bureau of Labor Statistics.
d) El redactor de cierto periódico observa que el producto nacional bruto
se ha incrementado de 251 miles de millones de dólares en 194-8 a $1,047
miles de millones en 1971. Así pues, reporta que la producción de bienes
y servicios de la nación ha aumentado cerca de 4 veces en este período.

21. Usted desea determinar un índice para el período 1964-1971 que represente
el precio de la mercancía de su cadena de tiendas de ropa al menudeo. Ya
usted ha determinado un índice de precios desde 1969. También encuentra
en los archivos de la compañía un índice calculado por un gerente de ventas
anterior. Ese índice se descontinuó' en 1966, pero parece haber sido de ter-
minado correctamente para los años en que se lo utilizó. Puesto que su índice
empieza en 1969, Ud. decide que el Indiee de Precios al Consumidor (CPI) del Bureau
of Labor Statistics para vestidos sería satisfactorio sólo para los años no eubü:rtos. De-
termine el índice requerido empalmando las tres series, Mantenga 1969 como el año
base.

I7/dice de ¡"dice del Su Indic:e


precios vestido de
previo ePI precios
(1964 ~ 100) (1967 ~ 100) (1969 = 100)

1964 100.0 92.7


1965 102.0 93.7
1966 105.2 96.1
1967 100.0
1968 105.4
1969 111.5 100.0
1970 116.1 105.8
1971 119.8 110.0

FUENTE: Indice de Precios al Confumidor para el vestido de Survey


of Curl'ent Busitlcss, junio 1972, y
Business Statistics, 1971.
592 Números índice

BIBLIOGRAFIA

COMAN, EDWIN T. Sources of Business Information. Berkeley: University of Cali-


fornia Press, 1964-.
Una guía general a publicaciones que proveen un amplio rango de indica-
dores comerciales.
DOODY, FRANCIS S. Introduction to the Use of Economic Indicators. Nueva York:
Random House, 1965.
Una guía para medición económica y pronósticos, con ejercicios ,para el uso
de indicadores importantes.
MAUNDER, W. F. (ed.). Bibliography of Index Numbers. Londres: Athlone Press,
1970.
Una lista de computadora de 2,600 índices publicados en muchos países
en 1967.
MooRE, GEOFFREY H., y SHISHKIN, JULlUS. Indicators of Business Expansions and
Contr01ctions. Nueva York: National Bureau of Economic Research,Columbia
University Press, 1967.
Analiza y grafica los indicadores del National Bureau of Economic Re-
search, con clasificación en series líderes, coincidentes y rezagadas.
U. S. BOARD 01' GOVERNORS, 01' T'HE FEDERAL RESERVE SYSTEMe fndustrial Pro-
duction, 197 I Editiqn. Washington, D. C.: Board oí Governofs of the Federal
Reserve System, 1972.
Un estudio autorizado de los principios y métodos de la construcción de
un índice de cantidad. ,
U. S. BUREAU OF LABOR STATISTICS.,Major Programs (anual). Washington, D.
C.: United States Department of Labor, 1972 y siguientes.
Contiene descripciones de la recopilación de datos y métodos de prepara-
ción de 50 series importantes del Bureau of Labor Statistics.
U. S. BUREAV OE THE B1JDCET.S~atistical Services of the: United States Governc
mento Rev. ed. Washington, D. C.: U. S. Government Printing Office, 1968.
La III parte describe las principales publicaciones estadísticas de las agen-
cias federales.
U. S. CONGRESS, JOINT ECONOMIC COMMITTEE. 1967 Supplement to Economic
Indicators. Washington, D. C.: U. S. Government Printing Office, 1967.
Contiene descripciones br~ves de las series que se incluyen regularmente en
Economic Indicators y describe los, usos y limitaciones de cada ,una.
U. S. DEPARTMENT OFCOMMERGE. Business Statistics, biennial Supplement to the
Survey of Current Business. Washington, D. C.: U. S. Government Printing
Office, 1971 et seq.
Las "Notas Explicatorias a las Series Estadísticas" a las que se hizo refe-
rencia en las notas de pie de página de las tablas, cubren 2,500 series men-
suales (, trimestrales.
CAPiTULO 19
Análisis de series
cronológicas: tendencia secular

Los NEGOCIOS Y la economía moderna son de naturaleza muy dinámica,


y el analista debe estar alerta para interpretar la significación de los acon-
tecimientos actuales. Los cambios son de muchos tipos. El crecimiento a
largo plazo de la producción industrial, el ciclo de construcción de vivien-
das, las oscilaciones estacionales de las ventas de tiendas de departa-
mentos, los movimientos diarios de precios de acciones y otro gran
número de elementos de la dinámica de la empresa se deben medir y
evaluar como una ayuda para entender la experiencia del pasado y formu-
lar políticas futuras. La importancia de las fluctuaciones dinámicas, en
oposición al análisis estático, se refleja en el hecho de que el gran volumen
de datos en las publicaciones económicas y comerciales (por ejemplo,
Survey 01 Current Business, Economic Indicators) se encuentran en forma
.de series cronológicas en vez de estar primero' por tamaño, espacio u
otros criterios cualitativos en un punto dado de tiempo.

TIPOS DE FLUCTUACIONES COMERCIALES

Para el hombre de negocios no es suficiente observar meramente el


comportamiento general de un indicador económico. Existen varios fac-
toresen juego, cuyo efecto produce este resultado. Suponga que las ventas
de una compañía se incrementan un 6% sobre las del mes pasado. ¿ Se
atribuye este incremento al crecimiento normal, un auge del ciclo comer-
cial, un alza en la demanda estacional, o una campaña publicitaria? ¿ Qué
acción se debe tomar como resultado? El análisis de los datos que implican
la segregasión de estos factores de tal manera que se pueda comprender
toda su importancia por separado. Entonces, primero necesitamos conocer
qué factores están presentes en una serie cronológica. Después ¿cómo se
puede medir el efecto de cada una de las fuerzas? Y finalmente, ¿cómo
se puede predecir éste para ayudar a la planeación futura?
Los principales componentes de las fluctuaciones en una serie cro-
nológica son las siguientes:
593
594 Análisis de series cronológicas

1. Tendencia secular.
2. Fluctuaciones cíclicas.
3. Variaciones estacionales.
4. Movimientos irregulares.

Como ejemplo, la figura 19-1 muestra un análisis de la producción


mensual de productos químicos durante un período de 15 años y los
resultados correspondientes; éstos se dividen en tendencia al aumento,
ciclos ondulados que se prolongan de 3 a 5 años, variación estacional
cuyo patrón se repite cada 12 meses y un pequeño residuo irregular. El

Indice, 1957 =100


160
Serie no ajustada (U)
U=TxCxSxl
140

120
Tendencia (T)
100
(
80

60
\
Serie actual (U)

40

20

Porcentaje

~"'"' J' ' ' ' ' 'I' ' ' ' ' ' ' ' 'I' ' ' ' '~:':' : :' ' ' ' ' ' ' ' ' ' '" "' ' ' ' ' I' ' 'h' I-,.u," .",~"J
::
Porcentaje

::~l"",""J
l
Porcentaje
120 Irregular (1) ~

1:: [='I""'I"",II""l':":=::::I"~'luu'I"""'""I'""1"'""U"'"U1IU",I'"U"'U,',"u"",.IUl"hl.,I"'='lu,
1947 49 51 53 55 57 59 61
. III!''hJ
63
Puente: Federal Reserve Board indo.>: analyzed in Suroey 01 Curren! Business, September 1962, p. 25.

Figura 19-1
EL ANALISIS DE UNA SERIE CRONOLOGICA
PRODUCCION DE PRODUCTOS QUIMICOS y OTROS RELACIONADOS
Tendencia secular 595

valor de la tendencia se mide en las unidades originales de la serie (un


número índice en este, caso), mientras los otros tres componentes se expre-
san en porcentajes. El producto de los cuatro componentes forma la serie
real.
Algunas veces las series cronológicas contienen todos los elementos
anteriores; otras contienen solamente algunos de ellos. En algunas series
hay tal predominio de un tipo 'de fluctuación que se le puede reconocer
fácilmente a partir de los datos originales. Así, la producción de fibras
sintéticas y alimentos congelados tienen una fuerte tendencia ascendente,
los bienes duraderos sufren grandes cambios cíclicos, las ventas de tiendas
de departamentos son predominantemente estacionales y los inventarios de
materia prima comprada por los fabricantes son de movimientos irre-
gulares. Sin embargo, usualmente no se pueden reconocer en forma sepa-
rada los diferentes componentes de variación en los datos originales, pero
el hombre de negocios o el economista necesita conocer la influencia de
cada uno con objeto de entender las fuerzas que intérvienen y .el compor-
tamiento futuro probable de las series. Por tanto el analista del problema
se enfrenta con series cronológicas en las que debe identificar los compo-
nentes y medirlos por separado.
El trabajo de análisis se puede dividir en tres partes: 1) ajustar una
curva de tendencia secular, 2) medir las variaciones estacionales y 3)
analizar los residuos cíclicos e irregulares.
Este capítulo y el siguiente contienen: una explicación de los métodos
más, útiles para llevar a cabo estos tres pasos en el análisis de seriescro-
nológicas. En una aplicación particular, se pueden necesitar solamente
uno o tal vez dos de los pasos, dependiendo de la importancia del com-
ponente o de la finalidad del estudio.

TENDENCIA SECULAR

La tendencia secular es el crecimiento o decrecimiento gradual de


las series a través de un período grande de tiempo. El crecimiento a que
nos referirnos es de volumen como el desarrollo. biológico y en sentido
estricto no se trata de variaciones de precios a largo plazo cuyo creci-
minosos una muy antigua. Los datos se han graficado en escalas de razón
mente se aplica a series de volúmenes físicos y series de valor en dólares,
"reducidas" expresadas en dólares constantes, y no corno valor en dólares
o series de precios. Sin embargo, las curvas de tendencia algunas veces
son útiles para describir los movimientos de los precios en un período
largo, aunque las bases racionales del crecimiento no existen.
La tremenda expansión de la población y la. tecnología ,en las décadas
recientes ha estimulado el gran interés en el problema de la medición y
previsión del crecimiento económieq. La planeación a largo plazo se ha
convertido en. una "necesidad" para las compañías progresistas, y se deben
proyectar las tendencias como primer paso para realizar un pronóstico
completo y marcar objetivos viables para futuras operaciones. Es de par-
596 Análisis de series cronológicas

ticular importancia encontrar las tendencias de crecimiento para cada


producto y cada compañía, ya que varían ampliamente, desde el explosivo
crecimiento de las computadoras hasta la tendencia declinante del negocio
Gel ferrocarril de pasajeros, La mayoría de las industrias también variará
en su propia tasa de crecimiento en periúdos largos.
Las variaciones en la naturaleza de la tendencia secular se pueden
ver en las tres curvas de la figura 19-2. El producto nacional bruto en
dólares constantes representa el volumen real de la producción total; la
producción de aluminio tipifica una industria joven y los carbones bitu-
minosos una muy antigua. Los datos se han graficado en escalas de razón
idénticas, y han ajustado curvas suavizadas de tendencia realizadas por la
National Industrial Conference Board para indicar las tendencias pro-
medio de crecimiento. Las pendientes de estas curvas muestran cómo
difieren las tasas dé porcentaje de cambio en cada caso.
E!. producto nacional bruto se ha mantenido casi en línea recta o en
una tasa uniforme de porcentaje de crecimiento desde 1890. Por otro lado,
la producción de ahlminio ha crecido mucho más' rápidamente en su
corta vida, aunque la curvatura de la tendencia indica que -la' tasa de
crecimiento está disminuyendo. La industria del carbón bituminoso, que
es más antigua, se desarrolló a una tasa más gradual desde 1890 hasta
la Primera Guerra Mundial: desde- entonces ha madurado y ha permane-
cido en su nivel. Sin embargo, su curso ha sido más lento que el del
aluminio. Las tres series de producción exhiben diferencias marcadas en
1) la forma de la curva de tendencia; 2) la inclinación de la curva, o
tasa de crecimiento, y. 3 ) la estabilidad, medida en desviaciones de la
curva. El análisis de la tendencia es mucho más útil y confiable cuando
el crecimiento es uniforme y pronunciado y cuando las desviaciones con
respecto a la tendencia de la curva son pequeñas. En este caso es posible
proyectar la curva de tendencia al futuro, como un pronóstico si se
espera que los factores que continúen los factores que influyeron en el cre-
cimiento anterior.
Los tipos de tendencia que aparecen en la figura 19-2 ilustran las
aplicaciones de una útil hipótesis de crecimiento comúnmente denominada
"ley del crecimiento". De acuerdo con este principio, "si la población
crece en forma natural en un área despoblada, la tasa de crecimiento es
constante.' Si está creciendo en un área limitada, la tasa de crecimiento
tiende a ser cada vez menor conforme crezca la población ... "1 hasta
que finalmente el nivel permanece constante conforme se acerca a un
límite superior. La tasa constante de crecimiento es característica no sólo
de industrias jóvenes (por ejemplo, el almpinio), sino- de la produéción
total (por ejemplo, el PNB), que es una acumulación de las curvas indi-
viduales de crecimiento. El principio de la "ley del crecimiento" se aplicará
a la medición de tendencias industriales posteriormente en el capítulo.
Estos ejemplos son prueba suficiente de que el factor de crecimiento
1 P. F. Verhulst, "Recherches mathematiques s,lr la loi d'accroissement de la
population", Noveaux memoires de l'Academie Royale de Sciences et Belles-Lettres
de Bruxelles, Tqmo XVIII (1845)_
Tendencia secular 597
Indice (1929:100)
300

100 1----+----j---___l-----=;;;;;;;~~:_'7VT_--___l---:-_+---ti

Proyección

10 L _ _--l -J. -L ...L l- L -_ _......J. -LJ

Producción Primaria de Aluminio


millones de libras
10,000.0

1,000.0 I----I------+----'-.--+----'--I---'--H'-".>g-~---_j--'--_H

Proyección

100.0 1------j-----1--~'=----_l_....¿.L--+lo._l_-+----I__-~__+----+1

10.0 _
1---_jI---/,L-''--+----1-----~---~-l-'---I__--__+--'- _+_I

1.0 1L.._L---lL-_ _-L ...L ...L l- L-_ _---l -LJ

Producción de Carbón Bituminoso


Millones de toneladas cortas (us)
1,000

100 ~~~-I---__+----l-----I---~+---'--I__---1----+1

Proyección

10 1890 1900 1910 1920 1930 1940 1950 1960 1971


Fuente: National Indústrial Conference Board, Growth Patterns: A Reexamination,
págs. 53,40,42. "'igura 19-2 .
PATRONES DE CRECIMIENTO EN LA INDUSTRIA DE LOS
ESTADOS UNIDOS, 1890-1971
Producto nacional bruto
(Dólares constantes)
598 Análisis de series cronológicas

se puede· describir mediante una curva umca, aunque difiere para cada
serie. Sin embargo, el problema de la medición de la .tendencia no es mera-
mente el aspecto mecánico de ajustar una curva asociada a los datos;
también requiere un conocimiento de los antecedentes de la industria en
consideración. Con este conocimiento, uno puede aplicar métodos de
análisis de series cronológicas que no son sólo correctos mecánicamente
sino también lógicos.

Objetivos de la medición de la tendencia


Existen tres propósitos principales al medir la tendencia secular:
1. El primer propósito es estudiar la tendencia de crecimiento básica
de una serie, ignorando las fluctuaciones que ocurren en un período corto
debido a los ciclos comerciales, estacionales, guerras u otras causas. La
curva de tendencia es la respuesta a preguntas tales como: ¿Ha mante-
nido la compañía su tasa de expansión en: los años recientes o ha cam-
biado esta tasa? ¿Ha mantenido la compañía el mismo paso que sus
competidores o que la industria en su totalidad?
2. El segundo y más importante objetivo de la medición de la tenden-
cia secular es la proyección de la curva en el futuro como un pronóstico
a largo plazo. Si el crecimiento pasado ha sido constante y si se puede
eSperar 'razonablemente que las condiciones que determinan este creci-
miento prevalezcan en el futuro, se puede proyectar una curva de ten-
dencia en períodos de cinco a diez años en el futuro como un pronóstico
preliminar. Luego se puede aplicar el análisis de regresión (capítulos 16-17),
y se debe realizar un estudio cualitativo de otros factores tales como
ciclos comerciales, demanda específica y condiciones de abastecimiento,
para modificar la tendencia pronosticada.
Al tomar una decisión sobre aceptar un trabajo en una compama
dada o invertir en sus acciones, es conveniente un pronóstico a largo
plazo. Es aún más esencial en la decisión gerencial respecto a la expan-
sión de su planta, el desarrollo de un nuevo producto, o la entrada en
un nuevo mercado regional con el fin de jtlstificar la expansión de
capital. La proyección de curvas de tendencia en el futuro está sujeta
a errores considerables y muchos lo lamentan, ya que además de las
inexactitudes dependen de juicios subjetivos. De todas maneras es un
expediente necesario, ya que cualquier decisión importante de negocios
que influyen operaciones futuras implica un pronóstico, ya sea explícito
o implícito, y es preferible una proyección explícita, por lo menos como
una primera fase de la planeación.
3. El tercer propósito de la medición de 'la tendencia secular es eli-
minarla, para aclarar en los datos los ciclos y otros movimientos a corto
plazo. Al dividir los datos entre sus valores de tendencia obtenemos razo-
nes que hacen fluctuar la curva sobre una línea horizontal, poniendo
de relieve los ciclos.
El índice de la Cleveland. Trust Company de actividad comercial
en los Estados Unidos desde 1790 es un ejemplo. Sin embargo, esos ciclos
Tendencia secular 599

relativos pueden, recibir una influencia arbitrarla del tipo de curva de


tendencia utilizado. También se pueden discerr\ir generalmente los ciclos
sin ajustar la tendencia, de manera que en la práctica a menudo no se
elimina la tendencia.

Período de años seleccionado


Al ajustar una curva de tendencia se deben observar las siguientes
reglas al seleccionar el período de años a utilizar:

1. El período debe ser tan largo como sea posible, preferiblemente al


menos de 15 años. En un período largo la curva de tendenCia recibe
poca influencia de las modificaciones a corto plazo tales como auges
y depresiones mientras que en un período corto la medición de la
tendencia se puede distorsionar por esos factores.
2. Si la naturaleza de un producto o industria cambia abruptamente
por una guerra, o se introduce un nuevo producto, o alguna otra
fuerza fundamental, se deben separar las series en este punto y graficar
las curvas para cada segmento por separado. Un examen de la grá-
fica de los datos será muy valioso para revelar tales cambios.
3. Cada extremo de la serie debe representar la misma fase de los ciclos
comerciales. Así, si los años recientes son prooperos, la serie debe ini-
ciarse con un período próspero. Si las series empezaron en un período
de depresión, la línea de tendencia se inclinaría hacia arriba debido

150 rr---,----,----,---,---,---,---.,.---.,.---.,----, 150


140 140
130 130
120 120

110 110

100 I+~--'-_j_--_j_---'-+--+--+--+- -If---+--l100

90 I+--_j_--+--+--+--+~- 90

801+--_j_--+--+--+- 80

70 t+---+---_j_---1,...~~--:._ 70

60 H - - - - t - - - - j - -....I r - - j - - - - j - - - - j - - - + - - - - t - - - - . , . - - t - - - - t - - - j 60

50

4 O L-,.1..J.,O-!...JW-f-,.1..J.-!...J-7"-..L-L..J....J'-t--:-'--'-'-t-J-I...1..J.-t-:'-'-..L-LT-'.'-'-"'--'-7:-'.W-J-I..-t:-:'--'-J....l-;'-:'--'-;'5!:-'a 4 O
g 15
Fuente: Joint Economic Committee.
Figura 19·3
TASAS ANUALES DE CAMBIO EN LA PRODUCTIVIDAD POR
HORA-HOMBRE EN EL SECTOR PRIVADO TOTAL
(1947 = 100)
600 Análisis de series cronológicas

a la recesión registrada al principio y a la prosperidad del final del


período, de forma que exageraría el verdadero crecimiento básico.
Se han cometido serios errores al graficar curvas de tendencia en pe-
ríodos cortos de años dominados por ciclos y otras distorsiones temporales.
La figura 19-3 muestra las tendencias a justadas a varios períodos de
años en la productividad por hora-hombre, un factor importante· que de-
termina incrementos en las tasas de salarios en los contratos. En períodos
cortos la "tendencia" promedio ha variado de un crecimiento del 4.1 %
por año hasta disminuir a más de 3%. En particular, el sindicato de
trabajadores de la industria automovilística ha citado el promedio anual
de crecimiento de más del 3% desde 1947 para apoyar sus demandas de
futuros incrementos en las tasas de salarios. Por otro lado, el crecimiento
a largo plazo desde 1909 ha sido un promedio de solamente 2.2% anual,
de acuerdo con los estadígrafos del Joint Economic Committee.

Deflación de precios

Muchas series de volumen de ventas, producción y otras actividades


económicas se enCllentran disponibles sólo en forma de valor en dólares.
Estos valores se ven afectados no solamente por las cantidades físicas de
bienes en cu.estión sino también por sus precios, y los precios han variado
ampliamente a través de los años. Para muchos propósitos es necesario
conocer qué tanto de los cambios del valor en dólares representa el cambio
real en las cantidades reales y cuánto se debe a meras alzas y bajas en
las etiquetas de precios. Las cantidades reales se pueden estimar divi-
diendo los valores en dólares entre los precios de los bienes representados
para eliminar el efecto de los cambios de los precios (Es fáCil encontrar
las datos de precios.) Esto es, ya que el valor. es igual al precio por la
cantidad, entonces el valor dividido entre el precio es igual a la can-
tidad. Este. ajuste se denomina deflación. de precios o expresión de una
serie de dólares constantes.
Por ejemplo, supóngase que las ventas en una zapatería aumentaron
de 20,000 dólares en abril a 20,900 en mayo. ¿ Cuál fue el cambio en el
volumen físico? Si afirmamos que el precio promedio de los zapatos se
incrementó de 20 a 22 dólares el par. en este período, podemos dividir
el valor entre el precio y nos daremos cuenta que hubo una declina-
ción real en las ventas de zapatos dé 1,000 a 950 pares como se muestra
a continuación:

Abril Mayo
1. Ventas en dólares . $20,000 $20,900
2. Precio promedio por par . $ 20 $ 22
3. Número estimado de pares vendidos (1 +- 2) 1,000 950

De manera similar, se pueden reducir los salarios monetarios para en-


contrar los salarios "reales", esto es, los salarios en términos de bienes y
Tendencia secular 601

servicios reales que se pueden comprar por un monto dado de dinero


El proceso de deflación es muy simple; el problema principal seleccio-
nar el índice de precios apropiado. La regla a seguir es "utilizar un número
índice calculado a partir de los precios de los bienes cuyos valores dis-
minuirían". Por ejemplo, las ventas de ferretería deben reducirse con
un índice de precios de ferretería, y no con un índice general de precios.
Al .reducir valores en dólares que representan diversos artículos, se
puede elaborar un índice de precios apropiados a partir de las fuentes
disponibles para representar esta "combinación" particular. Por ejemplo,
quizá el gerente de una sociedad de capital variable quiera estudiar el
crecimiento que tuvo la compañía Sears Roebuck en un período largo.
La curva de tendencia secular se debe ajustar al volumen físico de
ventas, ya que los cambios en los precios reflejados en las ventas en
dólares no siguen un patrón consistente y es difícil apreciar el creci-
miento real. Por lo tanto, las ventas en dólares se deben dividir entre
un índice de precios de los bienes comprados por la compañía.
Tabla 19·1

VENTAS NETAS ANUALES DE SEARS ROEBUCK, 1953.1971


Venfas netas
Ventas netas*·)E- In dice de deflacíonadast
(Miles de mil/on"s preciost (miles de millones
Alio·:+ de dólares) (/967= 100) de dólares
de 1967)
1953. , 2.982 88.6 3.366
1954 2.965 88.3 3.358
1955 3.307 87.6 3.775
1956 3.556 88.3 4.027
1957 3.601 90.1 3.997
1958 3;721 90.4 4.116
1959 4.036 91.1 4.430
1960 4.134 92.1 4.489
1961 ; 4.268 92.4 4.619
1962 4.578 92.6 4.944
1963 5.093 93.5 5.447
1964 " 5.716 94.1 6.074
1965 6.357 94.7 6.713
1966 " 6.769 96.6 7.007
1967 7.296 100.0 7.296
1968 8.178 104.8 7.803
1969 , 8.844 110.0 8.040
1970 ; 9.251 114.5 8.079
1971 10.006 118.8 8.423
* Años fiscales que comienzan ello. de febrero.
** Tomada') de los informes a los accionistas.
t Elaborado con base en el Indice de Precios al Consumidor -para ropa- del Departa-
mento de Comercio de los Estad,," Unidos (10% de ponderación) y enseres para el hogar (60%
de ponderación).
:j: Ven.tas netas divididas entre el indice de precios y multiplicadas por 100.
602 Análisis de series cronológicas

Tal índice se. puede construir marcando los precios de una muestra
de artículos importantes comprados por la tienda y ponderando estos
precios según el volumen de ventas de los departamentos representados.
Sin embargo, es más sencillo y adecuado pa~aeste fin, utilizar índices
de precios al mevudeo ya existentes. El Indice de Precios al Consumidor
en sí mismo no es apropiado, ya que contiene elementos tales como
comida, renta y servicios personales no vendidos por la ,tienda; pero
pueden ser muy apropiados los componentes de vestido y enseres para
el hogar de este índice. Un análisis de las ventaS de Sears Roebuck
indica que aproximadamente el 40% de las ventas son de ropa y otros
bienes de uso personal, y el 60% de enseres para el hogar, herramientas
y otros bienes duraderos. Por lo tanto, podemos ponderar el componente
de vestidos del Indice de Precios al Consumidor con 0.40, el compo-
nente de enseres para el hogar con 0.60 y añadir ambos para conseguir
el índice de precios combinado apropiado para las ventas de Sears
Roebuck. Podemos mantener la base de 1967 (expresando las ventas en
dólares con el poder de compra de 1967) para comparabilidad con otros
índices. Dividiendo las ventas netas reportadas entre este índice, obte-
nemos las ventas deflacionadas o reducidas (aunque aumentaron antes de
1967. En la tabla 19·-1 se comparan las ventas reales, las reducidas y el
índice de precios de ÚJ53 a 1971. El volumen real de negocios se ha
incrementado en forma más gradual que las ventas reportadas debido
a la inflación de los precios. Aún más, gran parte de las ganancias
aparentes en ventas de 1956 a 1957 y de 1969 a 1970 se debió a las
alzas en los precios del mercado; hubo poco cambio en las ventas "rea-
les". Por otra parte, casi todo el aumento en las ventas de 1957 a 1965
representó un aumento real en el volumen físico ya que los precios
fueron bastante estables en ese período. En la siguiente sección se ajus-
tarán varios tipos de curvas de tendencias para ventas reducidas.

METODOS DE MEDICION DE LA TENDENCIA


Se ,puede considerar al análisiscie tendencia como un caso especial
de la regresión simple, en el cual la variable independiente Xes el
tiempo. En esta forma, podemos correlacionar las ventas de Sears Roe-
buck, con el ingreso personal de los Estados U nidos, corno en el capítulo
16, o ajustar una línea de tendencia a las ventas de Sears, en la cual
los años (X) sirvan corno una "variable sustituto" que represente el
efecto combinado en las ventas del crecimiento del ingreso personal
de los Estados Unidos, el número de tiendas Sears, y otros factores. Así
podemos utilizar los mismos métodos gráfico o de mínimos cuadrados
tanto al ajustar una curva de tendencia como al ajustar una curva de
regresión.
Sin embargo, en el análisis de tendencia, los supuestos implícitos en el
método de mínimos cuadrados pueden no ser válidos, tal como se describe
en "regresión de series cronológicas", del capítulo 16. Los residuos de la
Métodos de medición de la tendencia 603

línea de tendencia (Y - Y c ) no son independientes sino que están


correlacionados debido a los ciclos. Asimismo, los residuos pueden no
tener una dispersión uniforme; no están normalmente distribuidos, sino
que a menudo reflejan irregularidades marcadas, tales como períodos
de auge, guerras y crisis. Esos valores extremos pueden tener una influen-
cia exagerada en las medidas de regresión, puesto que el efecto es pro-
porcional al cuadrado de los residuos.
Por lo tanto, mientras la línea de tendencia misma puede ser válida,
el error estándar de estimación y las medidas afines están sujetos a las
mismas limitaciones que se describen en las páginas 494-498. Esos erro-
res estándar sirven algunos propósitos, tales como a la comparación de
la bondad del ajuste entre dos curvas, pero generalmente no son válidos
para establecer intervalos de confianza o probar hipótesis en ténninos
de probabilidades. (Una posible excepción podría ser el ajuste de ten-
dencias a los cambios porcentuales anuales para reducir la autocorrela-
ción, como en la página 498). Por lo tanto, no repetiremos el análisis
de esas medidas. Más bien, se concentrará la atención ·en los tipos racio-
nales de curvas de tendencia y su validez en la predicción.
El método gráfico puede ser preferible para el análisis preliminar o
para series muy irregulares (puesto que' se pueden ignorar los valores
extremos), o para series cuyo crecimiento no sigue funciones matemáti-
cas sencillas. 2 Por otra parte, el método de mínimos cuadrados tiene la
ventaja de ser obj ~tivo y preciso, y se lleva a cabo fácilmente en la
computadora, utilizando un programa de regresión. En cualquier caso
la técnica estadística se debe complementar con un conocimiento de las
fuerzas económicas que intervienen y con la naturaleza racional del factor
de crecimiento representado.
Primero se deben marcar las series en una gráfica para determinar el
tipo apropiado de la curva de tendencia. La tendencia se puede calcular
y graficar para verificar s~ ajuste. La escala aritmética es apropiada para
ajustar ecuaciones de tendencia a los valores naturales de los datos por
mínimos cuadrados.
Sin embargo, para el análisis de tendencia en general se recomienda
que los datos se marquen en una escala semilogarítmica ya que esta grá-
fica muestra los dos tipos importantes de curvas de tendencia en su fonna
más sencilla: 1) la curva exponencial, con un porcentaje constante de
tasa de crecimiento, aparece como una línea recta. Esta línea recta loga-
2 Tal como lo dice Simón Kuznets: "Debemos tener en mente la incertidum-
bre esencial de todo el proceso de separación o recibiremos la influencia indebida
de métodos mecánicos de ajuste. El método de mínimos cuadrados puede ahorrar
al investigador el problema de decidir en el ajuste de los puntos selectos y puede
parecer. más objetivo en el sentido de que resultados idénticos serán alcanzados
por diferentes investigadores. Pero las arbitrariedades mecánicas, no son mejores
por el hecho de ser mecánicas, y el método de mínimos cuadrados ~o nos asegu~a
una satisfacciórt de los dos criterios más obvios de bondad de un aJuste; es deCIr,
el balance y la minimización de desviaciones relativas de la tendencia en cada
ciclo". Secular Movements in Production and Prices (Nueva York: Houghton
Mifflin, 1930), pág. 62.
604 Análisis de series cronológicas

rítmica caracteriza muchas industrias Jovenes y permite realizar compa-


raciones fáciles de tasas de promedio de cambio en series diferentes. 2)
La curva de "crecimiento';', con una tasa <;Iecreciente de ganancias; aparece
como una curva simple que se dobla hacia la derecha, como en la figu-
ra 19·5, y no como una S alargada en una escala aritmética.
Los datos anuales ordinariamente se utilizan en el análisis de tendencia
secular, en vez de las cifras mensuales. o trimestrales, porque los movi-
mientos a corto plazo generalmente son insignificantes en la medición del
crecimiento o descenso de una industria y porque el uso de tales datos tan
detallados se traducen en mucho trabajo extra. Sin embargo, los métodos
aplicados en este capítulo a los datos anuales se pueden adaptar fácil-
mente a cifras. mensuales o trimestrales si se desea.

Medición gráfica

El método más simple para encontrar una curva de tendencia es tra-


zarla a ojo haciéndola pasar por el centro de los datos marcados. 8 Si la
tendencia general de los datos sigue aproximadamente una línea recta,
se puede utilizar una regla transparente o un pedazo de hilo para localizar
la tendencia. central aproximada. Si la tendencia es curva, se puede utili-
zar un curvígrafo grande transparente o una regla triangular de goma
flexible.
La curva de tendencia se debe trazar en la gráfica de los datos en
tal· forma que sean iguales las desviaciones verticales (no perpendiculares)
hacia arriba y hacia abajo de la tendencia. Deben ser exactamente iguales
para las series en total y aproximadamente igual para la primera mitad
y la última mitad de las series separadamente y para cada ciclo impor-
tante. Las desviaciones se pueden marcar acumulativamente en una tira
de papel, una sobre la otra, para compararlas.
Uso de promedios de grupo. Los valores promedio de grupos de
datos se pueden marcar como puntos guía para dibujar una curva de
tendencia suavizada. Estos promedios se pueden calcular para períodos
sucesivos de tres o cinco años o se pueden calcular para cada ciclo, mar-
cado de mínimo a mínimo y graficado en el año central del ciclo. Enton-
ces se dibuja la tendencia como una curva suavizada entre los promedios
marcados, pero no necesariamente que pase por cada uno.
Ejemplo: marcaje y proyección de curvas gráficas. La figura
19-4 muestra dos curvas de tendencia secular ajustadas por el método
gráfico para ventas deflacionadas de Sears Ro~buck de 1926 a 1956. Las
ventas para los siguientes 15 años, hasta 1971, se han marcado a fin
de verificar la validez de las proyecciones de tendencia que podrían
haberse hecho en 1957 como pronósticos a largo plazo. Se eligió la escala
:¡ Para un método más preciso, pero más .detallado para el ajuste de una
recta, vea S. I. Askovitz, "A Short-Cut Graphic Method for Fitting the Best
Straight Line to a Series of Points According to the Criterion of Least Squares",
fournal of the American Statistical Association (marzo de 1957), págs. 13·17.
Métodos de medición de la tendencia 605

semilogarítmica porque la tasa de porcentaje de crecimiento ha sido


casi constante durante este período y, por tanto, se puede representar
sencillamente con una recta, mientras que en papel aritmético la línea
que representa la tendencia, se curvaría cada vez más hacia aniba.
Ventas en millones de
dólares (1947-49)
10, 00 O r-r-r-T-r-1-,...,....,...,....,..-r-r-nr-r""'-.,....,..-r-T--r-'-'-""'-"1""T-r-T-,-,-,...,...,-""'-TT-,-,--r-rrrt:>,
6,000
6,000
5,000
4,000
3,000
Curva de
crecimiento~,
p .,
royeeelOn >1
2,000
1,500 Ventas ..- ..-'

1,000

500
400
300
Tendencia
(porcentaje)
Movimientos irregulares y cíclicos
como porcentaje de la curva de crecimiento 150
125
1-:7---'~----,.c::>.riO-.--\---f----'''''''''b''''''<7'"''''--'''"-'-------;
1OO
75

1925 1930 1935 1940 1945 1950 1955 1960 1965 1970

Figura 19-4
CURVAS DE TENDENCIAS AJUSTADAS POR EL METODO GRAFICO
Ventas reducidas de Sears Roebuck, 1926-1956, y proyectadas a 1971

El período de años es lo suficientemente largo como para que la' ten-


dencia de, crecimiento domine los movimientos irregulares y cíclicos a
corto plazo. Este período también balancea los niveles de prosperidad en
los años 1926-1929 y 1952-1956 en sus dos extremos. Finalmente, repre-
senta la era completa de la expansión de la compañía en tiendas de
departamentos urbanas, la primera de las cuales se estableció en 1925.
Ya que la tendencia general de crecimiento fue casi lineal en 1926-
1956 se ha trazado con una regla transparente una "recta logarítmica"
que pase por los datos de tal forma que biseque aproximadamente cada
uno de los principales ciclos. Luego se han acumulado las desviaciones
606 Análisis de series cronológicas

arriba y abajo de la línea y se ha ajustado ligeramente la línea para


igualar la suma de estas desviaciones para las dos mitades de la serie.

A. Escala aritmética vertical B. Escala logarítmica vertical


unidades originales unidades originales
100.....------------==-_ 100~-----~-====="'-_

50

50 10
5

O"'"""~---------...J
Años Años
Figura 19-5
LA CURVA LOGISTICA DE CRECIMIENTO
La tasa promedio de crecimiento anual se ha medido como sigue:
se ha tomado el crecimiento vertical en la línea de tendencia en cualquier
año (ver 1940-1941 en la figura 19-4) mediante divisores en la escala
de porcentaje al lado derecho de la figura. Esta distancia se prolonga de
100% hasta alcanzar el 107%, indicando un crecimiento promedio del 7%
anual en las ventas reducidas para este período. Esta tasa se puede compa-
rar directamente con la de las ventas reducidas de otros almacenes, si se desea, o
con el ingreso personal real.
La medición gráfica de la tasa promedio de crecimiento está sujeta
a errores al dibujar la pendiente de la línea de tendencia y al leer el
resultado de la gráfica. Sin embargo, el error en la pendiente es pequeño
si la tendencia es lineal y las desvia'Ciones de la línea de tendencia son
pequeñas. El error en la lectura de valores de la gráfica también es
pequeño si la escala es grande. La línea recta indica que la Sears-Roebuck
se ha expandido a una tasa casi sostenida en este período de 30 años,
aunque es evidente cierto aminoramiento después de 1947. Por lo tanto,
se ha dibujado una funCión de "crecimiento" con un curvímetro para
incorporar una tasa decreciente en la ganancia. Esta curva es más alta
en el centro y más baja en los extremos de la línea recta. La curva de
erecimiento también puede ser preferible para la proyección a largo plazo
en el futuro, ya que sigue el principio característico de retardo de'! creci-
miento de muchas industrias. '
Se puede proyectar una línea recta logarítmica para un período limi-
tado -digamos cinco a diez años- ya que la tasa de expansión puede
ser casi constante para tal período, y así se evita el problema molesto
de la curvatura. Sin embargo, en un período más grande la recta loga-
rítmica se vuelve demasiado optimista ya que crece indefinidamente a
una tasa geométrica.
Las ventas del período 1957-1971 graficadas en la figura 19-4 muestran
Métodos de medición de la tendencia 607

cómo habrían resultado las proyecciones de la tendencia para estos años.


La extensión de la curva de crecimiento sirvió para predecir casi a la per-
fección una tasa promedio de crecimiento en las ventas, mientras la
recta fue siempre demasiado alta, como se indicó que podría serlo, levan-
tando sobre la curva real en el período 1954-1956. Por otro lado, una recta
logarítmica marcada solamente para los años de la posguerra de 1947 a
1956, hubiera pronosticado \lentas para el período 1957-1971 bastante
bien. Más adelante este tipo de tendencia se ajusta mediante mínimos
cuadrados para los años posteriores a la guerra de Corea. Por supuesto,
las proyecciones de tendencia no pronostican fluctuaciones cíclicas e irre-
gulares, tales como la expansión de la compañía al establecer nuevas tien-
das. Estos factores se deben analizar por separado.
Eliminación de la tendencia. El componente de crecimiento de las
ventas de la Sears Roebuck se puede eliminar gráficamente en un dia-
grama semilogarítmico con el fin de aislar los movimientos cíclicos irre-
gulares en la forma que sigue: trace una línea horizontal a algún nivel
conveniente lejos. de la cUrva original digamos opuesta al número 2
impreso más abajo. Luego marque una escala de porcentaje con 50, 100
Y 150% frente a los números de la escala impresos J, 2, y 3, respectiva-
mente. Llame a esta escala "porcentaje de tendencias". Ahora tome las
distancias verticales de cada punto a la tendencia original (la curva de
crecimiento en la figura 19-4) con una tira de papel, y ponga estas dis-
tancias en los mismos años arriba y abajo de la línea horizontal de 100%.
Una estos puntos con líneas rectas.
La curva resultante representa los movimientos cíclicos e irregulares
en las ventas, ya que se ha eliminado la tendencia o ha disminuido. (No
existen fluctuaciones estacionales en los datos anuales ). Las ventas se
encuentran ahora "ajustadas a la tendencia" o expresadas como porcen-
tajes de los valores de la tendencia. Este ajuste gráfico es un método
abreviado para dividir los datos de venta entre los correspondientes valores
de la tendencia y marcar los resultados.
El pico cíclico en 1929, la depresión en 1932-1934, el pico de 1941,
el período de restricciol1es de la Segunda Guerra Mundial, y los suaves
ciclos de la posguerra se muestran todos claramente. Sin embargo, los
niveles cíclicos de los extremos de la serie, son algo inciertos, ya que la
curva de tendencia tiene un error mayor mientras que los datos pasados
o futuros sean desconocidos.
Curvas de crecimiento. Las curvas de "crecimiento" se pueden
marcar ya sea gráficamente como se describe antes, o matemáticamente
con ,tres puntos seleccionados. Aquí no se presentará el procedimiento
(las ecuaciones de estas curvas son demasiado complejas para que se
puedan obtener fácilmente por el método de los mínimos cuadrados).4
·1 Ver F. E. Croxton, D. J. Cowden, y B. W. Bolch, Practical Business Sta-
tistics (4a. ed.; Englewood Cliffs, N. J.: Prentice-Hall, 1969-), págs. 327-338, para
una descripción de 108 métodos matemáticos para ajustar curvas logísticas, de
Gompertz y otras curvas de crecimiento. Ver también W. A. Spurr y D. R. Arnold,
"A Short-Cut Method at Fitting a Logistic Curve", Journal 01 the American
608 Análisis de series cronológicas

Estas curvas son útiles para representar las tendencias futuras' probables,
las tendencias pasadas, ya que ellas enmarcan la ley "racional del cre-
,cimiento" ya descrita. Es decir, una población o una industria tienden
a crecer a una tasa más o menos constante de crecimiento durante su
juventud; pero en su madurez, esta tasa tiende a disminuir.
Existen varios tipes de curvas de crecimiento -la logística (Pearl"
Reed) y la de Gompertz que son las más comunes- pero todas tienen
las características generales mostradas en la figura 19-5. Aquí la misma
curva logística se grafica en una escala aritmética en el cuadro A de la
gráfica y en una escala semilogarítmica en el cuadro B. Durante el
período mostrado, las curvas crecen de 1 a 99 y se aproxima al límite
superior de 100.
La curva en forma de S alargada en el cuadro A muestra el des-
arrollo de una industria típica o un producto en unidades absolutas. La
primera etapa es de expetimentación y de lento desarrollo inicial. La se-
gunda, es un período de explotación rápida del producto, y la tercera,
cuando se estanca el desarrollo comercial del lJroducto porque lademan-
da llega a su máximo y se satura. La antigüedad relativa de las dife-
rentes industrias se puede determinar por medio de esta curva. Así, las
industrias de energía atómica y de electrónica se localizarán cerca del prin-
cipio, mientras que los molinos y los ferrocarriles 'estarán cerca del nivel
de saturación. '
La misma curva marcada en una escala semilogarítmica (cuadro B)
es más sencilla, siendo cóncava hacia abajo en toda su longitud. Esta es
una gráfica que, ilustra mejor el ptincipio -de desarrollo que es casi cons-
tante al principio, seguido por un porcentaje de ganancias cada vez
menor conforme avanza la edad de la industria. '
Antes de ajustar una curva de crecimiento, se deben satisfacer dos
condiciones: 1) el proceso representado debe tener las características
de crecimiento biológico para justificar el uso de esta curva con una
base lógica. Los precios, razones, quiebras comerciales, o series de desem-
pleo no están compr~ndidas en esta característica. 2) Cuando los datos
se marcan en una escala semilogarítmica deben mostrar una tasa decli-
nante de crecimiento o decrecer (es decir, las curvas deben tender a
suavizarse cada vez más) empíricamente, de la siguiente forma: series
-de curvas de crecimiento; series declinantes. De otra manera no se
puede ajustar una función de crecimiento.
La figura 19-2 muestra las curvas de Gompertz ajustadas matemáti-
camente por la National IndustrialConference Board para tres series de
más de medio siglo hasta 1958. Hemos graficado los datos reales hasta
1971 prolongando las curvas de tendencia para probar su validez como
proyecciones. El producto nacional bruto excedió con mucho su tenden-
cia de extrapolación en la década de 1960 y primeros años de esta dé-
cada, pero el aluminio y el carbón sorpresivamente continuaban muy
cerca a la ~'urva de tendencia proyectada. '
Statistical Association, marzo 1948, págs. 127-134. Este artículo presenta una grá-
fica en la cual se puede trazar una CIl:'.a logística en forma de recta.
Métodos de medición de la tendencia 609

Método de los mínimos cuadrados

Al escoger el tipo de ecuat:ión de tendencia que mejor se ajusta a


los datos, la bondad del ajuste se puede juzgar de varias maneras. Por
ejemplo, puede escogerse obtener el promedio de los valores de la ten-
dencia igual a los correspondientes promedios de los datos no sólo para
la serie en conjunto sino también para partes seleccionadas de ella (por
ejemplo, mitades o terceras partes) o podría preferirse tener la curva
ajustada que pasara a través de ciertos puntos clave, tales como prome-
dios del ciclo.
El criterio más ampliamente usado es el de los mínimos cuadrados.
Este criterio propone que la mejor curva de ajuste de un tipo dado es
aquella en que se minimiza la suma de las desviaciones de los datos
elevados al cuadrado. Este criterio también requiere que la suma de
las desviaciones de los datos (Y) arriba y abajo de la línea de tendencia
(Y,,) debe ser igual a cero.
El método de los mínimos cuadrados se aplica aquí a la recta arit-
mética, la parábola y la recta logarítmica sucesivamente. La suma de
las desviaciones al cuadrado de la recta de los mínimos cuadrados es
menor que la de cualquier otra recta. De manera similar, la suma
de las desviaciones al cuadrado de la parábola de mínimos cuadrados es
menor que la de cualquier otra curva descrita por un polinomio en
X y X2. Ya que la recta logarítmica se ajusta con los logaritmos de los
datos, la suma de los cuadrados de las desviaciones logarítmicas se mini-
miza. Estas usualmente corresponden a las desviaciones relativas o por-
centajes de la tendencia y no a las desviaciones absolutas.
El método de los mínimos cuadrados es el más apropiado para datos
que tienen una variancia uniforme en las desviaciones a 10 largo de la
línea de tendencia, pocas desviaciones extremas, y desviaciones que son
independientes una de la 'otra, especialmente en períodos adyacentes.
Como se anotó antes, estas condiciones no se cumplen en las series cro-
nológicas. Las desviaciones de la tendencia son c~.clicas e irregulares más
que aleatorias. Por 10 tanto, no se deben atribuir virtudes especiales al
método de los mínimos cuadrados en el ajuste de tendencias, excepto
simplicidad desde un punto de vista práctico.
No importa qué métodos se utilicen para ajustar la tendencia, el tipo
de ecuación debe permitir la descripción de la tendencia básica de la
~erie. Muchas veces se ajustan las líneas rectas a series con tendencias
curvas, con resultados ridículos. Aún si la línea recta o la parábola se
ajustan exactamente con el crecimiento pasado, es una descripción pura-
mente empírica y no necesariamente se relacionará con el crecimiento
futuro. Debiera existir alguna justificación lógica para las curvas utili-
zadas en el pronóstico, tales como la tendencia de muchas industrias al
crecimiento a una tasa constante de porcentaje en su juventud y a una
tasa decreciente en su madurez. Estas' tendencias se describen mediante
rectas logarítmicas y curvas de crecimiento, respectivamente.
610 Análisis de series cronológicas

Progresión aritmética. La ecuaClOn general de una tendencia de


crecimiento lineal, o sea de progresión aritmética, es Y c = a + bX, donde
Y" es la tendencia o valor calculado para la serie cronológica Y en el
año numerado X. La constante a es el valor de Y c cuando X = 0, y la
constante b es la pendiente de la línea de tendencia --el cambio en Yc
por unidad de cambio en X. En el método de los mínimos cuadrados,
se ajusta la línea de tendencia encontrando los valores de a y b que mini-
mizan la suma. de las desviaciones al cuadrado de la I línea de tendencia.
Para hacer esto, podemos utilizar un programa de computadora, poniendo
el origen X en cualquier lugar, tal como el primer año de la serie. O
podemos resolver las mismas ecuaciones normales de la regresión simple.
Estas ecuaciones son

~Y = na + b:i;X
~XY = a~X + b~X2
donde n es el número de elementos en las series.
El método abreviado del capítulo 16 (utilizando x yy minúsculas)
se puede simplificar algo en el análisis de tendencia, escogiendo un
número impar de años con el origen X en el punto medio del tiempo.
Entonces los valores negativos de X en la primera mitad de la serie se
balancean y eliminan con los valores positivos en la segunda mitad, de
tal manera que ~X = O. En otras palabras, la variable de tiempo se
mide como una desviación de su media. De acuerdo con esto, X se
cambia por la letra minúscula x, donde x =X - X. 'Ya que ~X = 0,
los términos que contienen ¡X se eliminan de las ecuaciones normales,
y se convierten en

!,Y
a =--
n
!,xY
b=-
:Sx2

donde x se mide a partir del año central como origen. Aquí, la constante
a es la media. aritmética de las series y b es una razón simple.
Ahora se puede ajustar una recta de tendencia por el método de los
mínimos cuadrados. como sigue:

l. Elabore una tabla con colu~nas para los años (x), el valor de la serie
cronológica (Y), el producto xY, y x 2 para' cada año. (La lolumna
x 2 se puede omitir, si se desea, buscando !,x2 en el Apéndice K).
2. Sume las columnas y sustituya los totales :i;Y, !,xY y :Sx2 en las fórmu-
las anteriores para encontrar las constantes a y b de la ecuación de
tendencia Y" = a + bx.
3. Tome cualesquiera dos valores de x, bastante alejados; encuentre el
valor de Y" de la ecuación de tendencia de cada caso, marque los
Métodos de medición de la tendencia 611

puntos correspondientes y trace una recta que pase por los mismos.
Esta es la línea de tendencia.

Si la curva de tendencia se debe ajustar a un número par de años,


la x del origen se debe poner entre el punto medio de los dos años
centrales con objeto de hacer $X = O. A partir de este origen hay % año
hasta la mitad del otro año, '1 % años hasta la mitad del siguiente, y así
sucesivamente. Por lo tanto, con el objeto de evitar fracciones, iguale la
unidad x a seis meses. Entonces marquemos los valores de x de los años
siguientes al origen 1, 3, 5, 7 ... , y los valotes de x a la izquierda del
origen - 1, - 3, - 5, - 7 .... Los cálculos se realizan como antes, y ~X2
se puede encontrar en el Apéndice K. Entonces a es otra vez el valor de la
tendencia en seis meses y no en un año.
Si se desea, los valores de la tendencia (Y c) se pueden listar
para cada año, calculando el valor del primer año y añadiendo la b
sucesivamente para encontrar los otros valores de la tendencia. Note que
~Yc = ~Y para verificar. Si se desea eliminar la tendencia, con el objeto
de aclarar las variaciones cíclicas e irregulares, calcule y grafique Y/Y c
para cada año. Como en los demás ajustes estadísticos, al dividir entre un
factor (Y c = tendencia) se elimina la influencia de ese factor.
Como ejemplo, se ajusta una recta aritmética: a las ventas reducidas
de Sears Roebuck en la tabla 19-2. En nuestro análisis gráfico de las
tendencias de las ventas de 1926 a 1971 (figura 19-4), observamos que
la tasa de crecimiento en las ventas de Sears Roebuck declinó ligeramente
desde 1947. Luego los años de la guerra de Corea se caracterizaron por
compás de pánico erráticos. Por lo tanto, medimos la tendencia de los
años posteriores a la guerra de Corea desde 1953 hasta 1971. Este período
de 19 años es suficientemente largo para que el factor de crecimiento
domine las influencias cíclicas e irreg·ulares; también las fuerzas cíclicas
están balanceadas por recesiones en 1954 y 1970 próximos a los años
terminales (ver tabla 20-5) Y no son evidentes las irregularidades mar·
cadas. Por lo tanto, el período seleccionado de años es razonable.
Para calcular la ecuación de tendencia, marque los valores de x como
enteros tomando como origen el año central de 1962, y sea Y igual a las
ventas, calcule x Y y x 2 (o busque ~X2 ene! Apéndice K), y totalizamos
estas columnas. Entonces

a = ¡~ = í06.003 = 5.5791 (ventas promedio en miles de millones


n 19
de dólares)

b = ¡xY = 174.698 = 0.30649 (incremento anual promedio en miles de


¡x 2 570
millones de dólares)

y la ecuaClOn de tendencia es Yo = 5.5791 + 0.30649x. Esta ecuaClon se


grafica en la figura 19-6. Este no es un buen ajuste; la línea está dema-
612 Análisis de series cronológicas

siado alta en los años que corresponden a la parte central y demasiado


baja en sus extremos. Al continuar esta línea hasta el pasado, pasa hacia
abajo de cero en 1943.
Tabla 19-2
RECTA ARITMETICA AJUSTADA POR MINIMOS CUADRADOS
Ventas netas deflacionadas de Sears Roebuck, 1953-1971

Ventas deflacionadas
(miles de millones)
Año "y x"
(1 ) "
(2)
-y
(3)
(4) (5)

1953 -9 $ 3.366 -30.294 81


1954 -8 3.358 -26.864 64
1955 -7 3.775 -26.425 49
1956 -(). 4.027 -24.162 36
1957 -5 3.997 -19.985 25
1958 -4 4.116 -16.464 16
1959 -3 4.430 -13.290 9
1960 -2 4.489 -8.978 4
1961 -1 4.619 -4.619 1
1962 O 4.944 0.000 O
1963 1 5.447 5.447 1
1964 2 6.074 12.148 4
1965 3 6.713 20.139 9
1906 4 7.007 28.028 16
1967 5 7.296 36.480 25
1968 6 7.803 46.818 36
1969 7 8.040 56.280 49
1970 8 8.079 64.632 64
1971 9 8.423 75.807 81
- --
Total O 106.003 174.698 570
FUENTE: Tabla 19.1.

El uso indiscriminado de la recta aritmética es un error común en el


análisis de tendencia. Por ejemplo, una gran compañía de acero utilizó
esta ecuación de tendencia "estándar" en un desplegado publicitario de una
plana para enfatizar el crecimiento en la producción per capita en los
productos de acero desde 1901. El resultado fue similar al de la figura
19-6; los datos de producción se curvaban cada vez más hacia arriba,
mientras la recta de tendencia tocaba esta curva en dos puntos solamente
y se encontraba muy por debajo de ésta en' los extremos. Una recta arit-
mética es una medición válida para la tendencia de una serie que tiende
a incrementarse por incrementos constantes absolutos, pero no puede des-
cribir el crecimiento a largo plazo de una industria que se expande en
incrementos mayores a medida que la industria misma aumenta de tamaño.
Se debe elegir un tipo de curva de tendencia que siga la tendencia de la
serie a través de su curso y pase lo más cerca posible del centro de los
ciclos individuales.
Métodos de medición de la tendencia 613

La parábola. Como medición de la tendencia, la parábola es más flexi-


ble que la línea recta debido a su curvatura. Al ajustar una parábola, su

10 -
/
I
/ ,/
/ ,/
9
I
/ ,/
I /
I ,
I .
I
8

,
7 '1
/I-'PARABOLA
/
I
/
/
/

I Proyección>

O L-.....L.--J...-.II..--l.--.L--l..--L--.i--'--..L.--.l.-.-1--l,~1--1--'-.-,---,--,-1-.i-..L.--I.-
1953 1955 1960 1965 1970 1975

Figura 19·6
LINEA RECTA Y PARABOLA AJUSTADAS POR MINIMOS CUADRADOS
Ventas netas deflaeionadas de Sears Roebuck, 1953·1971, proyectadas i975
614 Análisis de series cronológicas

ecuación, Y" = a + bX + CX2 se puede expresar como Y" = a -+- b1X 1 +


b2X 2, transformando X2 en X 2, una segunda variable independiente. Los
valores de a, b 1 y b2 se pueden determinar corriendo un programa de
computadora de regresión lineal múltiple. También, la ecuación de la
parábola se puede escribir como Yc = a + bx + cx 2 donde se marca el
origen x en el año central. Las tres constantes a, b y e se pueden encontrar
como sigue: primero calcule b con la misma fórmula que para la recta:

~xY 174.698
b = ---
~~~
= 570
= O. 30649
~X2
Luego encuentre a y e resolviendo las siguientes ecuaCIOnes normales
simultáneamente:

¡y = + C~X2
na (1)
~x2Y = ~X2 + C~X4 (2)

Además de los totales mostrados en la tabla 19-2, necesitamos ~x2y


(columna 2 X columna 4, que no están detalladas) y ~X4 (del Apéndi-
ce K). Aquí, ~x2Y = 3,304.59 Y !:x4 = 30,666. Sustituya esos valores en
las ecuaciones anteriores, multiplique la ecuación 1 por 30, para igualar
los coeficientes de a, y sustraiga la ecuación 1 de la ecuación 2 para
encontrar e = 0.009177. Insertando este valor en la ecuación 1, encon-
tramos a = 5.3038.
Por lo tanto, la ecuación de la parábola ajustada a las ventas de Sears
Roebuck es

Yc = 5.3038 + 0.30649x + 0.009177x2 (origen, 1962)

Finalmente, calcule Yo a intervalos de tres años y grafíquelos como


-en la figura 19-6. Aquí, a es la altura de la curva en el origen (pero no la
media aritmética) ; b es la pendiente de la curva en este punto solamente,
y e determina el monto y dirección de la curvatura. Los valores nUI,néricos
están en miles de millones de dólares a los precios de 1967.
Podemos comparar la bondad del ajuste entre la parábola y la línea
recta (o entre dos curvas cualesquiera) inspeccionando la figura, acumu-
lando tal vez las desviaciones verticales de cada curva en una tira de
papel para determinar cuál suma es menor. En forma más precisa pode-
mos calcular el error estándar de estimación' (Sn) o el coeficiente de
determinación (r 2 ) que se describió en el capítulo 16, páginas 479484.
La curva con el menor Sn o el mayor r 2 es la de mejor ajuste.
Se ve que la parábola de la figura 19-6 se ajusta mucho mejor que
la recta a los valores reales. Por otro lado, la forma de la parábola
podría ser influida indebidamente por valores extremos y' no es muy lógico
que las ventas aumenten con el cuadrado del tiempo. Finalmente, la
parábola tiende a crecer demasiado rápido (o a decrecer, si la e es ne-
Métodos de medición de la tendencia 615

gativa) cuando se proyecta muy hacia el futuro.


La reda logarítmica. U na recta trazada en una gráfica semiloga-
rítmica (algunas veces denominada exponencial o curvá de interés com-
puesto) muchas veces es más útil para el análisis de tendencia que cual-
quier recta aritmética o parábola descritas anteriormente. Muchas indus-
trias nuevas tienden a expandirse a una tasa de porcentaje constante de
crecimiento y no a un monto constante de crecimiento por año que
aparece como una recta en una gráfica aritmética. Aún más, la recta
aritmética muchas veces es ilógica porque el monto constante de creci-
miento cada año es independiente del tamaño de la industria misma.
Finalmente, las pendientes de las rectas logarítmicas muestran las tasas de
porcentaje promedio de crecimiento, y entonces son comparables para
series de unidades diferentes o muy diversas en tamaño, mientras que las
pendientes de las líneas en las escalas aritméticas no son comparables en
tales casos.
Aun si la tasa de crecimiento tiende a disminuir en un período largo,
la recta logarítmica se puede utilizar para promediar la tasa de algún
intervalo más corto, donde la tasa de cambio puede ser casi constante.
Se puede ajustar una recta logarítmica ya sea gráficamente o por el
método de los mínimos cuadrados. El método gráfico se aplicó a las
ventas de Sears Roebuck en la figura 19-4, para los primeros treinta años
de su período de expansión en tiendas de departamentos 1926-1956. Sin
embargo, debido a la disminución de la tasa de crecimiento después de la
Guerra de Corea, pareció deseable ajustar una línea recta separada para
el período de posguerra 1953-1971. Esta línea se ajusta más adelante
por el método de mínimos cuadrados.
Primero se puede instruir a una computadora para que transforme Y
en log Y y resuelva la ecuación log Yc = a + bX en forma lineal. De
otra forma se buscan los logaritmos de las ventas, y luego se ajusta la
ecuación log Y c = a + bx de la misma manera que una recta aritmética,
donde x se mide a partir del año central, y log Y reemplaza a Y.
En la tabla 19-3, se listan los años (x) en la columna 2 con el origen
centrado en 1962, y se muestran las ventas en la columna 3 en miles de
millones, los logaritmos de las ventas (log Y), aparecen en la columna 4,
y el producto para cada año (x log Y) aparece en la columna 5. Entonces
se totalizan las columnas 4 y 5 y se encuentra ~X2 en el Apéndice K.
Para determinar a y b (que son ambos logaritmos en esta ecuación),

~ log Y 13.7941 O" 6


a=--= = .12 O
n 19
b = ~x log Y = 13. 765~ = 0.02415
~X2 570

La ecuación de tendencia es por lo tanto

log Yc = 0.7260 + 0.02415 (origen, 1962)


616 Análisis de series cronológicas

Tabla 19-3
RÉCTA LOGARITMICA AJUSTADA POR MINIMOS CUADRADOS
A las venias nelas .deflacionadas de Sears Roebuck, 1953-1971

Ventas Ajuote
deflacionadas* de la
(miles de tenden.
millones) Tendencia cía
Año x Y log Y x logY log y, y. Y/Y.
(1) (2) (3) (4) (5) (6) (7) (8)

1953 -9 3.366 0.5271 -4.7439 0.5087 3.226 1.043


1954 -8 3.358 0.5261 -4.2088 0.5328 3.410 0.985
1955 -:7 3.775 0.5769 -4.0383 0.5570 3.605 1.047
1956 -6 4.027 0.6050 -3.6300 0.5811 3.812 1.057
1957 -5 3.997 0.6017 -3.0085 0.6053 4.030 0.992
1958 -4 4.116 0.6145 -2.4580 0.6294 4.260 0.966
1959 -3 4.430 0.6464 -1.9392 0.6536 4.504 0.984
1960 -2 4.489 0.6521 -1.3044 0.6777 4.761 0.943
1961 -1 4:619 0.6645 -0.6645 0.7019 5.033 0.918
1962 O 4.944 0.6941 0.0000 0.7260 5.321 0.929
1963 1 5.447 0.7362 0.7362 0.7501 5.625 0.968
1964 2 6,074 0.7835 1.5670 0.7743 5.947 1.021
1965 3 6.713 0.8269 2.4807 0.7984 6,287 1.068
1966 4 7.007 0.8455 3.3820 0.8226 6.646 1.054
1967 5 7.296 0.8631 4.3155 0.8467 7.026 1.038
1968 6 7.803 0.8923 5.3538 0.8709 7.428 1.050
1969 7 8.040 0.9053 6.3371 0.8950 7.853 1.024
1970 8 8.079 0.9074 7.2592 0.9192 8.302 0.973
1971 9 8.423 0.9255 8..3295 0.9433 8.777 0.960
-
Total O 13. 7941 13. 7654
* Ventas en miles de millones de dólares de 1967, en años que comienzan el 1q de febrero
t'>m,do de la tabla 19-1.

Para graficar la tendencia en un diagrama de razón, se grafican cuales-


quiera dos puntos bastante separados, utilizando los valores naturales de
Y c y dibujando una línea recta que pase por éstos como en la figura 19-7.
En 1953, x = -9,

lag Yo = 0.7260 - 0.2173 = 0.5087 entonces Y" = 3.226


En 1971, x = +9,

lag Yo = 0.7260 + 0.2173 = 0.9433 entonces Yo = 8.777


Como un pronóstico para 1975, x' = 13, log Yo = 1.0400, Y la tendencia
pronosticada Yo es 10.965 miles de millones de dólares. La pendiente
de la línea de tendencia de los mínimos cuadrados es el logaritmo b.
Métodos de medición de la tendencia 617

Esto significa que la razón del valor de la tendencia del año a la del año
precedente es antilog b, ó 1.057. La tasa promedio de crecimiento es
entonces para 1953-1971 1.057 - 1 = 0.057 ó 5.7 por ciento.
Ventas en miles de millones de
dólares a los precios de 1967
12

/
/
10 /
/
/
9
l¿'
8
..L. ~

7
Ventas," f
6
)/ I
I
Proyección

5
Tendencia "YÍ
;/
4

V
/
3
/ Porcentaje de
tendencia
Movimientos irregulares y cÍclicos\ (Y/Yc X 100)

'" ~ ;>r-- - -
110

~
/
~
~
...........

- -
100

90

I I I I I I I '1 I I I I I I I I I I
2
1953 1955 1960 1965 1970 1975

Figura 19-7
RECTA LOGARITMICA AJUSTADA POR MINIMOS CUADRADOS
A las ventas' netas deflacionadas de Sears Roebuck, 1953-1971,
mediante el método de los llÚnimos cuadrados, proyectadas a 1975

Esto se compara con la tasa de crecimiento del 7% determinada


gráficamente para el período 1926-1956.
Si se desea, se puede eliminar la tendencia calculando y graficando
Y/Y e, O antilog (log Y - log Y c ), para cada año. Los cálculos se
muestran en la tabla 19-3, columna 6' a 8. La curva resultante se parece
618 Análisis de series cronológicas

al ajuste gráfico de la .cuÍva en la parte inferior de la figura 19-4,


excepto que la base de la tendencia es la recta logarítmica en vez de la
curva de crecimiento.
Parece que la parábola y la recta logarítmica sirven igualmente para
ajustar la tendencia de las ventas de Sears Roebuck en el periodo 1953-
1971.
Sin embargo, es preferible utilizar la recta en vez de la parábola. ya
que es más sencillo y más racional el expresar el crecimiento como un
porcentaje constante por años, en vez de una función aritmética del
tiempo (x) y el cuadrado del tiempo (x 2 ). Los métodos gráficos y de
mínimos cuadrados para ajustar una recta logarítmica dan casi los mis-
mos resultados. El método gráfico se recomienda para lograr mayor
rapidez, resultados apropiados y para verificar otros métodos, mientras
que el método de los mínimos cuadrados es preferible para obtener
mayor detalle y un estudio. objetivo, cuando se dispone de computado-
ras. El método logarítmico de los mínimos, cuadrados tiene las mismas
ventajas y limitaciones que el método aritmético de los mínimos cua-
drados, excepto que es más probable que la recta logarítmica se distor-
sione con valores muy bajos que con valores muy altos.
En síntesis, el análisis de tendencia de la figura 19-7 muestra que
1) las ventas reales de Sears Roebuck tuvieron un incremento a una
tasa promedio del 5.70% anual desde 1953 hasta 1971; 2) no hay
pruebas recientes de que la tasa de crecimiento esté disminuyendo (a
pesar de la recesión de 1970-1971, 3) hubo dos grandes ciclos, con
mínimos en 1954, 1961 Y 1971, Y máximos en 1956 y 1965, aunque la
amplitud fue pequeña, 4) las ventas reales se pueden proyectar hacia algunos
cuandos años venideros a un incremento anual del 5.7% si se espera que persis-
tan las fuerzas que influyeron en el crecimiento pasado.
La proyección de la recta logarítmica nos da un pronóstico para 1975
de 10.965 miles de millones de dólares a los precios de 1967, como se
anotó anteriormente. Pero esto es sólo un paso en la proyección a largo
plazo. Suponga que predecimos una recuperación cíclica (como se descri-
bió antes) de 96% de la tendencia en 1971 (tabla 19-3, columna 8) a
105% de la tendencia en 1975. La predicción tendencia-ciclo es entonces
10.965 X 1.05 = 11.513 miles de millones de dólares a precios de 1967.
Finalmente, si se desea tener el pronóstico en dólares actuales, se deben
proyectar también las tendencias de los precios. Así, si se predice el
incremento del 3% anual de los precios de Sears Roebuck, basado en un
análisis separado, el índice de precios de)a tabla 19-1 aumentaría a
133.7 en 1975 y el pronóstico sería 11.513 X 1.337 = 15.393 miles de
millones de dólares a los precios actuales (a menudo se omite este'
último paso debido a las dificultades en pronosticar los cambios en los
precios, y usualmente se expresan los pronósticos en términos de dólares
constantes. )
El pronóstico real del elemento cíclico-irregular requiere .el análisis
de las perspectivas de cambios en la población y su composición de
Resumen 619

edades;5 la regresión de las ventas con el ingreso personal ya deducido


y otros factores económicos (como se describe en el capítulo 16), junto
con los pronósticos disponibles de estos últimosH cambios en las prefe-
rencias del consumidor y las propias políticas de expansión de la com-
pañía. La proyección de la tendencia se debe modificar entonces mediante
un estudio de todos los factores económicos pertinentes.'

RESUMEN

Es esencial comprender la naturaleza y las causas de las fluctuacio-


nes comerciales en una economía dinámica. Estas fluctuaciones se pueden
entender mejor analizando las series cronológicas económicas en sus
componentes principales -tendencia secular, variaciones estacionales, fluc-
tuaciones cíclicas y movimientos irregulares.
Los componentes de tendencia y estacionales se miden directamente,
mientras los movimientos cíclicos e irregulares se tratan usualmente como
un residuo en forma combinada.
La tendencia secular ,es el incremento o decremento gradual a largo
plazo en una serie como resultado de factores básicos tales como el cre-
cimiento demográfico, la tecnología y la productividad. Este desarrollo
se puede representar mediante una curva suavizada de tendencia ajustada
a los datos graficados. Las diferentes series varían grandemente en cuanto a
la forma e inclinación de estas tendencias, así como en las variaciones de los
datos de la curva de tendencia. Las industrias jóvenes y la producción
total tienden a crecer a una tasa constante de porcentaje. La tasa de cre-
cimiento muchas veces es retardada en las industrias maduras, siguiendo
el principio de la "ley del crecimiento", y eventualmente tiende a nivelarse
y aun a decrecer.
La medición de las tendencias seculares sirve para tres fines. 1) El
estudio de tendencias recientes, 2) pronóstico a largo plazo, y 3) la eli-
minación de la tendencia para aislar los ciclos. El período de años selec-
cionado para el análisis de la tendencia debe ser tan grande como sea
posible para minimizar las variaciones a corto plazo; se debe separar en
los puntos donde haya cambios bruscos y debe empezar y terminar en la
misma etapa del ciclo comercial.
5 Ver U. S. ,Bureau of Census, Current Population Reports, Population Esti-
mates and Projectors, Series P-25, No. 470 (1971), et seq. para proyecciones a
2020.
6 Ver Predicasts Inc. Predicasts (trimestral) para pronósticos de ingresos
personales, otros componentes del PNB y muchas cifras relativas a la industria
a 1985 o después.
7 VerW. S. Butler y R. A. Kavesh, How Business Economists Forecast (En-
glewood Cliffs, Nueva Jersey: Prentice~Hall, 1966); y H. D. Wolfe, Business
Forecasting Methods (Nueva York: HoIt, Rinehart & Winston, 1966); H. O.
Stekler, Economic Forecasting (Nueva York: Praeger, 1970,); R. K. Chisholm y
G. R. Whitaker, Jr., Forecasting Methods (Homewood, Ill.: Richard D. Irwin,
1971); o las fuentes que se listan en J. B. Woy, Business Trends and Forecasting
(Nueva York: Gale Research, 1965) para estudios más avanzados de métodos de
predicción.
620 Análisis de series cronológicas

La deflación de precios es el proceso de dividir una serie de valor en


dólares entre un índice deprecias pertinente con objeto de revelar los
cambios. en el volumen físico, expresado en "dólares constantes". Se puede
compilar a partir de un índice de precios apropiado de segmentos de otros
índices existentes adecuadamente ponderados, como en el ejemplo de Sears
Roebuck. La deflación de precios es particularmente necesaria en tiem-
pos de grandes cambios en los precios, ya que los cambios "reales" en la
producción pueden diferir radicalmente de los reportados en las cifras
en dólares.
La tendencia se puede medir ya sea por el método gráfico o por mí-
nimcs ouadrados, como en el análisis de regresión.
De hecho, la tendencia se puede considerar un caso especial de la
regresión en el cual los años X, representan todas las fuerzas que afec-
tan a Y. También, el error estándar de estimación y el coeficiente de
determinación pueden no ser válidos en términos probabilísticos (ver "re-
gresión de series cronológicas" en el capítulo i 16), pero pueden servir
para comparar la bondad del ajuste ,entre dos curvas.
Al ajustar tendencias, se usan generalmente datos anuales, grafica-
dos de preferencia en un diagrama semilogarítmico.
1. Para ajustar una curva de tendencia mediante el método gráfico,
se dibuja con un curvímetro que iguale las áreas o desviaciones verticales
arriba y abajo de cada segmento principal de la curva. Los promedios
de los grupos de años se pueden utilizar como ayuda para localizar la
tendencia. La tasa promedio de crecimiento de una recta logarítmica
se puede leer en la escala porcentual en la gráfica. Para ,eliminar la
tendencia, se marcan las desviaciones verticales de la línea de tendencia
sobre una línea horizontal en una gráfica semilogarítmica y a la escala
se le denomina "porcentaje de tendencia".
Los métodos gráficos son 'rápidos, flexibles y permiten verificar los
cálculos, mientras que los métodos matemáticos son más objetivos y
muchas veces más precisos; los últimos se pueden realizar mediante el
trabajo de oficina o por medio de computadoras y los resultados se
pueden expresar en forma concisa. Los dos métodos se pueden combinar
para lograr una efectividad óptima.
Las curvas de crecimiento del tipo logístico o de Gompertz represen-
tan la tendencia racional de muchas industrias y poblaciones a crecer a
una tasa de porcentaje decreciente conforme maduran. En un diagrama
semilogarítmico se puede representar gráficamente -utilizando un curví-
grafo- una curva de este tipo, 'cóncava hacift abajo. Una curva de cre-
cimiento también se puede ajustar matemáticamente a tres puntos selec-
cionados, pero ,este procedimiento no se describe aquí. Tales curvas cons-
tituyen una base lógica para el pronóstico.
2. El método. de los mínimos cuadrados ajusta una curva matemá-
tica a los datos de tal manera que el total de las desviaciones al cua-
drado de la curva sea menor que en cualquier otra curva similar. Las
desviaciones positivas y negativas en sí mismas totalizan cero. Este mé-
Problemas 621

todo ,es objetivo y razonablemente preciso, siempre que los datos sigan
la ecuación del tipo, seleccionado y no sean muy erráticos. Sin embargo,
d~safortunadamente las condiciones óptimas para el método de los mí-
nimos cuadrados no ocurren en las series cronológicas.
Se puede ajustar una ecuación de tendencia utilizando un programa
de 'Computadora de regresión lineal, transformando X2 en otra variable
X 2 en el caso de la parábola o transformando Y en log Y para una
recta logarítmica. Para ajustar una recta mediante los mínimos cua-
drados, se oentra la X del origen en el año central; se hace una tabla
de x, Y, x Y Y x 2 y se sustituyen los totales de las columnas en las ecua-
ciones dadas para encontrar a y b en la ecuación Yo = a + bx. Para
eliminar la tendencia y aislar los movimientos cíclicos irregulares, se
calculan. y maI'ean las Y/Y" para cada año. Una línea recta es simple,
pero puede ser ilógica por el hecho de que los incrementos constantes
son independientes de la variable misma.
Para ajustar una parábola, se suman las columnas para x 2 Y y Xi a
las anteriores y se sustituyen los totales en las tres ecuaciones para en-
contrar a, b y e en la ecuación Y" = a + bx + cx 2 : Usualmente esta es
una forma de ajustar los datos mejor que la línea recta, aunque puede ser
indebidamente afectada por los valores extremos. Es también algo iló-
gica -como ftlDción d,el cuadrado del tiempo y su proyección hacia el
futuro tiende a ser demasiado pronunciada.
La recta logarítmica es superior a los otros dos métodos descritos para
representar un crecimiento racional de la tendencia de industrias jóve-
nes y al comparar tasas de cambio relativas. Se puede dibujar gráfica-
mente como la línea recta en una gráfica de razón o se puede calcular
pore1 método de los mínimos cuadrados. El procedimiento de los mí-
nimos cuadrados es el mismo que el descrito para la recta aritmética,
excepto que log Y se utiliza en lugar de Y. La proyección de esta fun-
ción es muchas veces e1pritner paso razonable al realizar pronósticos a
mediano .plazo para unos pocos años en el futuro. Sin embargo, en el
largo plazo, sería preferible una proyección de curva de crecimiento,
puesto que la tasa porcentual de crecimiento tiende a declinar.

PROBLEMAS

1. a) Si usted fuese economista de la compañía Kodak, fabricante de rollos y


cámaras fotográficas (u otra compañía seleccionada), ¿ cuál sería el obje-
tivo principal de separar .las ventas mensuales en dólares de la compañía
en sus fluctuaciones componentes? Dé argumentos que apoyen su opinión.
b) Describa brevemente las causas de los cuatro componentes principales de
esta serie cronológica en particular.
e) Anote las ventas anuales de la compañía para los últimos. 15 Ó 20 años,
o bien obténgalos de un diagrama disponible.
d) Describa las características de las tendencias de esta serie: ¿ es la ten-
dencia una línea recta, cóncava hacia arriba, o cóncava hacia abajo?
¿ Qué significa esto en cuanto al crecimiento? ¿ Es el crecimiento uniforme
o errático?
622 Análisis de series cronológicas

2. Seleccione en el Survey of Current Business un índice de precios que pueda


ser apropiado para deflaciones de los ingresos brutos de cada uno de los si"
guientes:
a) Un fabricante de medicamentos y artículos farmacéuticos.
b) Un contratista de construcciones de Cleveland.
e) U na tienda de ropa.
d) Una tienda de abarrotes.

3. La publicación Business Statisties, 1971, del Departamento de Comercio de los


Estados Unidos da los siguientes datos de ingresos personales ya deducidos
(en miles de millones) y salarios promedio por hora de los trabajadores de
la industria de manufactura. Estos se muestran junto con el índice de precios
al consumidor para los mismos años:

Indice
Ingreso Salario de precios
Año personal promedio al consumidor.
disponible por hora (1967 = 100)

1950 $206.9 $1.44 72.1


1955 275.3 1.86 80.2
1960 350.0 2.26 88.7
1965 473.2 2.61 94.5
1970 687.8 3.36 116.3

a) Calcule el ingreso real, deflacionado por medio del índice de precios al consumi-
dor y liste los resultados.
b) Tabule los ingresos reales y los deflacionados en una pequeña gráfica.
e) Explique el significado de los datos deflacionados y compare la tendencia
de las dos curvas.

4. Como economista de un sindicato laboral, usted desea preparar un informe


que resuma los cambios de los salarios reales por hora en industrias manu-
factureras desde 1950 hasta 1970, en iutervalos de cinco años. Aparte de eli-
minar los cambios de costo de vida, usted opina que los resultados serán más
significativos si se expresan usando el poder de compra del dólar en 1970,
puesto que es más fácil de recordar los aumentos de precio recientes. Con
base en los datos del problema 3:

a) Calcule los. salarios reales por hora en dólares de 1970.


b) Compare el incremento porcentual de 1950-1970 del salario promedio por
hora con el del poder de compra real de estos salarios.
e') ¿ Cuántas horas tuvo que haber trabajado en 1950 el padre de un emplea-
do con el fin de comprar la misma cantidad de alimentos y servicios que
compra dicho empleado con lo devengado en una hora de trabajo en 1970?

5. a) ¿ En qué condiciones es válido hacer una predicción por extrapolación de


una curva de tendencia ajustada a d'itos anteriores? Explique breve-
mente.
b) ¿ Por qué el propósito particular al medir una tendencia afecta la elec-
ción de una curva de tendencia?
e) ,'. Qué factores determinan el periodo de años que se debe usar al ajustar
una curva. de tendencia secular a las ventas de una industria?
d) Describa el uso de los promedios de grupos en el ajuste de tendencias.
e) ¿ Cuál es una de las ventajas principales en el análisis de tendencias de
los métodos matemáticos y los métodos gráficos, respectivamente? ¿ Por
qué?
Problemas 623

6. a) Explique el princIplO de la "ley de crecimiento" implícita en el uso de


curvas de crecimiento.
b) Describa brevemente el gráfico para ajustar una curva de crecimiento.
e) ¿ Cuál es la justificación lógica, si la hay, de ajustar y proyectar una
curva tal como la del pronóstico de producción de aluminio en 10 años
(figura 19-2)?

7. Como parte de un estudio de planeación para la Kraft Co. Corp., se le pide


que analice y proyecte la tendencia de crecimiento de la producción de pro-
ductos alimenticios manufacturados tal como los mide el Indice de Producción
del Federal Reserve mostrados en el capítulo 16, problema 18.
a) Dibuje esta serie en una gráfica aritmética. Puesto que el creCImIento es
aproximadamente lineal, ajuste una tendencia rectilínea por el método de
mínimos cuadrados.
b) Establezca el crecimiento promedio anual desde 1957 hasta 1971 (indique
la unidad). Calcule Y/Y" para 1971 para encontrar la componente cíclica
e irregular, o bien el valor "ajustado por la tendencia" en este año (in-
dique la unidad).
e) Dibuje la línea de tendencia en la gráfica y prolónguela más allá de 1971,
hasta el año del último índice disponible. Multiplique la tendencia pro-
yectada por la componente cíclica y regular para 1971 (suponiendo que
este factor se mantiene constante·) a fin de obtener un pron6stico. Busque
el índice real de manufactura de alimentos de este año y dé el porcentaje
de error del pronóstico. Explique las posibles causas de este error.

8. a) Tal vez una parábola ajustaría mejor los datos del problema 7 que una
línea recta. Ajuste una parábola para los índices de productos alimenticios
de 1957 a 1971 por mínimos cuadrados, y grafique el resultado en un
diagrama aritmético.
b) ¿ Cuál tiene el mejor ajuste, la parábola o la línea recta? Para responder
a esta pregunta, en vez de comparar los errores estándar de estimación
vi ( Y - Yc )2,/ (n ..,-- k) como en el capítulo 16, simplemente acumule las
desviaciones verticales (no perpendiculareEo) ~e cada curva de tendencia
en una tira de papel y encuentre 2; I Y - Y" I /(n - k), donde n son 15
años y k es el número de constantes (2 para una línea recta y 3 para una
parábola). La curva con 'la menor desviación media es la de mejor ajuste,
según este criterio.

9 a 12. Al estudiar la proyección de tendencia, algunas veces es conveniente man-


tener fuera los últimos añ.os y utilizarlos para probar la proyección de ten-
dencias ajustadas a los primeros años. Suponga, por lo tanto, que usted es un
economista de la industria química en 1966, y desea hacer una proyección
de 6 años de la producción de cloro (mostrada aquí en millones de toneladas
cortas) basada en las tendencias de post-guerra de 1947 a 1965. Luego en
1972 usted desea revisar cómo resultó su proyección para los años 1966-1971.
Producción Producción Producciólt
Alío de ClOfO Año de cloro
de cloro
1947 1.45 1957 3.95 1966 7.20
1948 1.64 1958 3.60 1967 7.68
1949 1.77 1959 4.35 1968 8.44
1950 2.08 1960 4.64 1969 9.41
1951 2.52 1961" . ..4.60 1970 9.76
1952 2.61 1962. . . . 5.14 1971 9.35
1953 2.80 1963 5.46
1954 2.90 1964 5.94
1955 3.42 1965 6.44
1956 3.80
FU¡':NTF.: Sun'ey 01 Current Busiuf!SS '(junio dl" 197~) Y Busillt',I'.\' Stati.l'tics, 197/.
624 Análisis de series cronológicas

9. a) Grafique las cifras de 1947-1965 solamente en un diagramasemilogarít-


mico de un ciclo prolongando la escala de tiempo hasta 1971.
b) Dibuje a ojo una curva suave de crecimiento (ligeramente cóncava ha-
cia abajo) que pase por los datos y ajústela de tal manera que las des-
viaciones verticales hacia arriba o hacia abajo se igualen para cada
segmento principal (las desviaciones se pueden acumular en una tira
de papel). Prolongue la curva hasta 1971 como un pronóstico, suponiendo
que el ritmo de crecimiento se retarde después de 1965.
e) Trace a ojo una recta logarítmica que pase por los datos de 1951 a 1965
y prolónguelas hasta 1971 suponiendo de la manera más optimista que
el promedio de ritmo de crecimiento 1951-1965 se mantendría constante.
Encuentre gráficamente el promedio de ritmo de crecimiento anual y
exprséselo como porcentaje.
d) Pronostique la producción de cloro en 1971, usando 1) la tendencia del
inciso b o e que parece más razonable y 2) un ajuste cíclico irregular
(ya sea corno porcentaje de la tendencia o bien como distancia vertical
desplegada en la gráfica) basándose en la producción de 1965 relativa a
la tendencia, modificada según su mejor criterio. Explique las razones
de su proceder. ,
e) Grafique la producción real de cloro para los años 1966-1971 y observe
el error porcentual de' su pronóstico para 1971. ¿ Cuál es la causa posible
de este error?

10. a) Elimine gráficamente la tendencia hasta 1965 del problema 9 usando la


curva de tendencia que usted prefiera), y trace los relativos cíclicos, irre-
gulares en la parte inferior de la gráfica.
b) Describa el periodo cíclico y amplitud de la producción de cloro y las
principales fuerzas irregulares que intervienen, durante este periodo.

11. a) Grafique la producción de cloro para 1951-1965 en papel aritmético.


b) Ajuste, ya sea una línea recta o una parábola, por mínimos cuadrados,
dependiendo de cual parezca dar un mejor ajuste.
e) Usando esta tendencia; proyecte la producción de cloro a 1971 y com-
pare con los resultados reales, como se indicó en el problema 9 incisos
(d) y (e).

12. a) Aj uste una recta logarítmica por mmlInos cuadrados a la producción de


cloro, 1951-1965 y prolónguela a 1971. ¿Cuál es el porcentaje de error
en el pronóstico de tendencia para 1971?
b) Encuentre el promedio anual del ritmo de crecimiento,. usando loga-
ritmos.
c·) Compare la bondad del ajuste de una recta logarítmica ajustada gráfica-
mente con la que se ajustó por mínimos ,cuadrados.

13 a 16. Los problemas 13 a 16 se pueden asignar ya sea para análisis extensos,


como están dados, o bien como ejercicios ilustrativos cortos cubriendo única-
mente los siete años a partir de 1959.
Como se anotó antes, podemos probar diferentes tipos de proyección de
tendencia conservando los últimos años para determinar la exactitud futura
de la curva de tendencia ajustada a los primeros años. Suponga que usted es
un analista que desea probar los varios tipos de tendencias ajustados a la
producción de electricidad de Jos Estados U nidos (en miles de millones
de kilovatios-hora) ajustada a los años 1947-1965, contra los resultados rea-
les de 1966 a 1971.

13. a) Grafiquc las cifras de 1947 a 1965 en un diagrama scmilogarítmico de un


Problemas 625

Producción de Producción de Producci()n di'


Alto e!ectri'Cidad Aiio electricidad Aiio electricidad
1947 256 1957 ..... , " . . . .. 632 1966 1,144
1948 283 1958. . . . . . . . . . . .. 645 1967 1,214
1949 , 291 1959. . . . . . . . . . . .. 710 1968 ; 1,329
1950 329 1960. . . . . . .. . .. .. 753 1969 1,442
1951. 371 19.61. '" 792 1970 1,530
1952 399 1962. . . .. . . ... 852 1971. 1,614
1953 443 1963 " .. 914
1954 472 1964. . . . . . . . . . . .. 984
1955 547 1965 1,055
1956 601
FUENTE: Survey 01 Curret Business, junio de 1972 y Business Statistics, 1971.

ciclo, con la escala vertical comenzando en 200 mil millones de kilovatios-


hora y la escala horizontal prolongada a 1971.
b) Trace a pulso una línea o curva de tendencia suave que pase por los datos,
trazando promedios de grupo como guías e igualando las desviaciones hacia
arriba y hacia abajo de la tendencia como se describe en el texto. Proyecte
la tendencia a 1971.
e) Describa la naturaleza del crecimiento en esta industria. ¿ Cuál ha sido
la tasa porcentual promedio anual de crecimiento de 1959 a 1965? (Mues-
tre en la gráfica cómo se obtuvo este valor).

14. a) Grafique la producción de electricidad en papel aritmético, con la escala


de tiempo prolongada a 1971 y calcule una recta aritmética por el método
de mínimos cuadrados. Ajústela ya sea a los 7 años (1959-1965) en que
la producción de electricidad ha crecido a una tasa casi constante o a todo
el período de post-guerra 1947-1965, como se asignó. Muestre los cálculos
y la ecuación de la tendencia. Trace esta curva en la gráfica aritmética y
proyéctela a 1971.
b) Grafique los datos reales de 1966-1971 corno comprobación. ¿Cuál es el
porcentaje de error en la proyección de tendencia para 1971? Explique
este error.

15. a) Ajuste una recta logarítmica a los datos de electricidad por mínimos cua-
drados, ya sea para 1959-1965 ó 1947-1965; trácela en el diagrama semi-
logarítmico y prolongue la línea de tendencia a 1971.
b) ¿ Cómo difiere el criterio de mínimos cuadrados en la bondad de ajuste
al aplicarse a la Tecta aritmética y a la recta logarítmica?
e) Explique el significado de la constante a y b en cada una de estas ecua-
ciones.
d) . Grafique los datos reales de 1966 a 1971 en el diagrama para probar su
proyección. Calcule la proyección de la tendencia para 1971. Cuál es el
porcentaje de error comparado con el valor real de 1.614 billones de kilo-
vatios-hora. Explique la probable razón de ese error.

16. a) Compare la bondad de ajuste de una tendencia a pulso, la rec,ta aritmé-


tica, la recta logarítmica en la descripción del crecimiento de la produc-
ción eléctrica.
b) ¿ Cuál de estas tres curvas es la más indicada para usarse en pronósticos?
¿Por qué?

17. A usted, como economista de la Pacific Gas & Electric Co., se le ha pedido
proyectar los requerimientos futuros de gas natural de la compañía basados
en el siguiente registro de compras de ga5natural, en millones de MCF, to-
626 Análisis de series cronológicas

mado del informe anual de la compañía, 1971. (El período de años es corto,
pero parece adecuado en este caso debido a la constancia de la tasa de c.reci-
miento.)
a) Ajuste una recta logarítmica a los datos por mínimos cuadrados.
b) Encuentre la tasa porcentual promedio de crecimiento (del antilogaritmo
de b).
e) Proyecte esta tendencia al último año disponible, y compare con el gas
real comprado (la cual se puede obtener del informe anual de la com-
pañía:) .
Gas Gas
Año comp"ado Año comJ}rado
1961.. 581 1967 802
1962 612 1968 888
1963 654 1969 878
1964 737 1970 951
1965 749 1971.. 1,005
1966 808

18. Usted desea pronosticar la demanda de gasolina en los Estados Unidos para
1971, utilizando los siguiente datos, en miles de millones de barriles. (Las cifras
anteriores no eran comparables; ver las notas de la pág. 167 del Business
Statistics, 1971.)

Aumento
Demanda de
Año gasolina Cantidad Porcentaje

1964 1.658
1965 1.720 62 3.7
1966 ; 1.793 73 4.2
1967 1.843 50 2.8
1968 1.956 113 6.1
1969 2.042 96 4.4
1970 2.131 89 4.4

a) Puesto que la demanda crece a un buen nivel de tasa porcentual, corno


se muestra arriba, ajuste una recta logarítmica por mínimos cuadrados a la
serie de demanda de gasolina. (Si los incrementos hubieran estado más
nivelados, en vez de aumentar, una progresión aritmética habría ajustado
mejor.)
b) Encuentre el porcentaje promedio anual !le crecimiento a partir de log b.
(Usted no puede promediar los porcentajes anteriores, puesto que la base
de cada uno de ellos es diferente.)
e) Proyecte la demanda de 1971 aplicando ese aumento porcentual a la de-
manda de 1970. La demanda real de 1971·fue de 2,213 millones de barri-
les. ¿ Cuál es el error porcentual?
d) Proyecte la demanda de 1971 prolongando la línea de tenencia. ¿ Por qué
difiere esta estimación de la del inciso (e)? ¿ Qué método es mejor? ¿ Por
qué?

BIBUOGRAFIA
Las bibliografías para este capítulo se han incluido en la lista que aparece
en las páginas 671-672.
CApiTULO 20
Variaciones estacionales y cíclicas'

EN EL CAPÍTULO 19 se estudió el análisis de la tendencia como uno de los


tipos de fluctuaciones en las actividades económicas. En ,éste analiza-
remos las fluctuaciones cíclicas y.estacionales.
En el análisis de las tendencias, se utilizan generalm~nte datos anuales.
Sin embargo,' para el estudio de los movimientos a corto plazo estaGionales
y dclicos, se necesitan datos semanales, mensuales o trimestrales. Las cifras
mfnsuales son las más comunes.

NATURALEZA DE LA ESTAClüNALlDAD

Las yariaciones estacionales son de dos clases: 1) lasque resultan


de las fuerzas naturales y 2) las que resultan de las convenciones he<::has
por el hombre. Por ejemplo, en la parte norte de los Estados Unid9,s y
Canadá, el trabajo. de la. construcción disminuye notablemente durante el
invierno. Por lo tanto, los datos referentes a la COI).strucciqJldeca:rre-
teras, actividades, de construcción de edificios y otras similares. tienen
variaciones e~taciolples que están directamente relacionadas con el, clima.
Por otro lado, las tiendas de departamentos aumentan sus ventas,antes
de la Pascua y en la. temporada navideña, circunstancia relacionada,con
festividades ,creadas ,por el hombre más bien que, con el ,clima.
Lils variaciones estacionales influyen en casi .todas las. actividades
económicas. Tal parece que el impacto de las influencias estacion,ales,
es mucho mayor en los puntos de origen y consumo.ymuchq menor en .el
punto intermedio que es el proceso de manufactura. Por ,ejemplo, la
producción' de algodón es estacional, al igual que las. ventas de qproduc-
tos manufacturados con algodón (siguiendo patrones diversos)" pero, ,las
fábriéas textiles operan .a una tasa más estable manufacturando pro-
ductos que, guardan en existencia para las variac~ones estacionales.' Sin
embargo, en algunas industrias solamente los suministros (por ,ejeIItplo,
trigo y pan) o la demanda (bienes de consúmo duradero) .olosWloc~so~
mismos de fabr~cación (construcción de ,edificios) son marcadamente:
estacionales. En general los inventarios son ¡más estacionales y los precios
627
628 Variaciones estaciona/es y cíclicas

menos estacionales que la producción o las ventas. El patrón típico esta-


cional incluye ya sea un máximo o un mínimo por año, como en la in-
dustria de la construcción, o máximos y mínimos en períodos menores
como en p'rimavera e invierno, verano y otoño, como en el comercio al
menudeo en general.
El último patrón se ilustra mediante las ventas mensuales de Sears
Roebuck mostradas en la figura 20-2. El año empieza con el declive de
mitad de invierno, seguido por la recuperación comercial de primavera,
un máximo en junio, un descenso y un gran incremento en Navidad. Las
mediciones exactas del comportamiento estacional por productos son de
gran valor para la dirección de esta compañía al planear las compras,
el control de inventarios y los pronósticos de ventas.
Se deben notar dos aspectos importantes del ritmo estacional: 1)
ocurre año tras año can un período fijo y 2) los incrementos y decre-
mentos en las ventas ocurren más o menos en la misma época y en la
misma proporción todos los años} Parlo tanto el ritmo estacional tiene
un período fijo y una amplitud casi regular, mientras que el ritmo cíclico
es variable en ambos aspectos. Por consiguiente, los inovimientos estacio-
nales, se pueden medir y proyectar al futuro en forma mucho más exacta
que los ciclos.

Variaciones de calendario

Una causa de los trastornos "estacionales" en los datos semanales y


mensuales no son los hábitos ni el clima sino la excentricidad del calen-
dario misrno. Los meses no solamente varían de 28 a 31 días, sino que
algunos tienen cuatro sábados) y dorningos, mientras otros tienen cinco.
Algunos también tienen uno o varios días feriados, mientras otros no
tienen ninguno. Aún más, ciertas series de datos se obtienen de activida-
des que se desarrollan cinco días a la semana, otras 5~, 6 ó aun 7 días.
Todos estos factores ocasionan falsos movimientos en los datos mensuales
que no se pueden eliminar por completo mediante ajustes estacionales.
Usualmente es deseable eliminar el efecto de las variaciones del calen-
dario,como un paso preliminar antes de medir los movimientos estacio-
nales regulares. 'El método para ajustar las variaciones del calendario
es dividir cada total mensual entre el número de días hábiles durante el
mes, para ,reducir aun promedio diario uniforme. La regla general
es contar el número de días en los que se realizó la actividad particular
durante el' mes. En algunos casos esto significará todos los días del mes;
en otros se eliminarán los sábados o domingos, los domingos o los días
festivos. Si un día de la semana es excepcionalmente activo o bajo en
volumen, se pueden ponde;rar adecuadamente. Así, la Oficina de la Re-
serva Federal, pondera el domingo como 11/2 días para ajustar la pro-
1 Existen dos J:!otables excepciones porque (10) la fecha de la Pascua varía
y (2) la producción automotriz y las ventas están afectadas po'r las fechas variables
de ofrecimiento de nuevos modelos. Estas irregularidades requieren correcciones
especiales en mediciones estacionales.
Naturaleza de la estacionalidad 629

ducción mensual de periódicos -un componente del índice de produc-


ción industria1. 2 También se observan varios días de fiesta en varios
campos de las actividades comerciales y en diferentes área~.
La figura 20-1 muestra los efectos de los ajustes del calendario en los
retiros monetarios mensuales de un banco en un año bisiesto en que no
se trabajaron los domingos y once días festivos. Los totales mensuales se
dividen entre el número de día~ trabajados al mes (curva iriferior) para
encontrar los promedios diarios (línea punteada, escala de la derecha).
Es evidente que la mayoría de las fluctuaciones de un mes a otro en los
retiros totales -particularmente las disminuciones de febrero y noviem-
bre- se debieron meramente al calendario errático y no a cambios sig-
nificativos en la actividad bancaria.
El método de reducir a una base de promedio diario se debe utilizar
solamente para cantidades que se acumulen durante el mes, tales como
retiros bancarios, producción o ventas; Estas series suman siempre mon-
tos mayores en los meses largos que en los meses cortos. Por otro lado,
series tales como depósitos bancarios, precios, empleo u otros "datos
punto" no se deben reducir a una base de promedio diario, porque ellos
no se acumulan o suman a mayores valores en los meses más largos. Los
datos trimestrales y anuales en general no se ajustan tampoco por el
Totales mensuales Promedios diarios
$175 $7

150
Totales mensuale~~~~1I"
J, ~ .. -1
\V
6

,.' ............. "

125
f\.. ./.. ,...-~;'''
_--fo-- .. \ . Promedios diarios
5
\V

días Días hábiles por mes


26
............. V ........... / '
24 r\\V/ \ I
22 f---
\/
ene. febo mar. abr. mayo Jun. JU!. agos. sept. oct. nov. dic.
Figura 20-1
Ajuste por variaciones del calendario
Compensaciones bancarias mensuales
(Millones de dólares)

2 Generalmente se utiliza el método Census II como se describe posterior-


mente. Ver también A. Young, Estimating Trading-Day Variation in Monthly
Economic Time Series (Technical Papel Np. 12. Washington, D. C. :U. S. Bureal!
of the Census, 1964).
630 Variaciones estaciona/es y cíclicas

calendario, ya que la irregularidad es despreciable en estos períodos más


largos.
En el caso de los datos semanales el núm,ero de los días trabajados
es constante y solamente causan irregularidades los días feriados. Esto se
puede corregir 1) ajustando las semanas que contienen días feriados
a base de tiempo completo (por ejemplo, agregando una cuarta parte
de la cifra para una sem¡3.11a de cuatro días y hacerla comparable con
datos de semanas de cinco días) o 2) graficando curvas superpuestas
en una gráfica múltiple de tal manera que las semanas que contienen días
feriados se encuentren alineadas verticalmente para comparabilidad direc-
ta en diferentes años, como en la figura 20-5.
Cuando se deben ajustar los datos por variaciones estacionales, como
se describe más addante, los ajustes del calendario algunas veces se
pueden omitir, ya que. la corrección estacional elimina la diferencia entre
el número promedio de días hábiles en enero y el de febrero. Sin embargo,
no se eliminan las diferencias en días hábiles entre un enero y el siguiente.
Así,si un enero tuvo 26 días laborables y el, siguiente tuvo 27, y dividi-
mos los dos totales de enero entre el mismo, los datos ajustados mostra-
rán aún una diferencia aparente debida al calendario. El ajuste de calen-
dario está incorporado en ciertos programas de computadora -como el
Census II que se describe más adelante- que automáticamente toman
este factor en cuenta.

Otros ritmos

Muchas actividades económicas muestran movimientos rítmicos que


tienen un período menor que las variaciones estacionales. Los dividendos
y pagos de impuestos de la venta trimestrales y las nóminas mensuales
causan fluctuaciones regulares en el flujo de fondos bancarios y en los
gastos de los consumidores. Los ritmos semanales se pueden ilustrar con
las ventas de tiendas departamentales. Los lunes generalmente son días
de poca actividad, excepto después de un largo fin de semana; la venta
en los comercios va creciendo gradualmente durante la semana y llega
a su punto máximo el sábado. Las ventas promedio en un determinado
número de lunes se pueden comparar con los promedios de otros días
de la semana (con normas separadas para días anteriores y posteriores a
vacaciones) para obtener un patrón normal de variación semanal conio
ayuda en la programación de las compras, publicidad y obtención de
horas extras de trabajo.
Los ritmos diarios ocurren en tales datos como en el número de men-
sajes que se cruzan en un conmutador tel~fónico a determinada hora
del día, el número de personas por hora que viajan .en autobús, y la
cantidad de energía eléctrica usada por hora. Estos y muchos otros datos
similares tienen tales fluctuaciones irregulares que los ingenieros las utili-
zan para determinar el monto de equipo que se debe tener en servicio
a las diferentes horas del día y de la noche.
Vale la pena analizar los ritmos que tienen períodos menores que
Naturaleza de la estacionalidad 631

el estacional como ayuda en la programación a corto plazo. Sin em-


bargo, ya que no requieren el uso de otras técnicas estadísticas más avan-
zadas que los promedios, no les prestará mayor atención aquí.

FINALIDADES DEL ANALISIS ESTACIONAL

Exist'en tres finalidades principales para medir los movimientos esta-


cionales: 1) analizar el comportamiento ,estacional actual, 2) predecir
los movimientos estacionales como ayuda en la planeación a corto plazo
y 3) eliminar laestacionalidad con objeto de revelar los movimientos
cíclicos.
1. La medición del comportamiento típico estacional en la produc-
ción, ventas, inventarios y precios es indispensable para obtener las fluc-
tuaciones características de un negocio durante el año y para comprender
el significado de las cifras reales. Los índices estacionales sirven como
respuesta a preguntas tales como: ¿el descenso en las ventas del último
mes fue mayor o menor que el monto estacional usual? ¿ Usualmente
cuánto baja el precio de un producto dado entre julio y agosto? ¿Cuál
es la variación normal en los inventarios de mes a mes?
2. Las mediciones estacionales también son útiles en las operaciones
de planeación del año siguiente o de los dos años siguientes. Todo nego-
cio exitoso está respaldado por un presupuesto, en el que se estiman los
ingresos y gastos del año próximo, y después se checan comparándolos
con los resultados reales. Por medio de los índices estacionales, el presu-
puesto del año siguiente se puede realizar por meses. Los índices estacio-
nales también son particularmente útiles al programar las compras, re-
querimientos de personal, financiamiento estacional y programas de pu-
blicidad. Los movimientos ~stacionales, como los ciclos, tienen repercu-
siones muy costosas debido a que el equipo y los hombres que se nece-
sitan en el momento de máxima actividad de la estación son innecesarios
en el período de inactividad. Un conocimiento exacto del comportamiento
estacional es una ayuda, para aminorar y suavizar los movimientos esta-
cionales en las políticas comerciales. Esto se puede hacer introduciendo
productos diversificados que tengan diferentes máximos estacionales, acumu-
lando la existencia en las estaciones inactivas, con objeto de fabricar a
una tasa más regular, reduciendo los precios en las estaciones inactivas,
y realizando publicidad sobre usos del producto fuera de la estación.
3. Otro propósito de la medición de las variaciones estacionales es
eliminar estas últimas. Los ciclos comerciales son ,de importancia; crítica,
pero estos ciclos frecuentemente impiden apreciar los movimientos esta-
cionales largos. Ordinariamente se debe medir y eliminar dichos cam-
bios para conocer los ciclos. Muchas series estadísticas mensuales de pu-
blicaciones económicas se "ajustan por variaciones estacionales" para este
propósito. Por ejemplo, 'el Survey 01 Current Business lista los siguientes
datos y muchos otros con base' en un ajuste estacional o simplemente
en "un ajuste": producto nacional bruto, producción industrial, ventas
632 Variaciones estacionales y cíclicas

comerciales e inventarios, Órdenes a la fábrica, construcción nueva, ven-


tas al menudeo, y desempleo. Por lo tanto, es esencial un conocimiento
de los ajustes estacionales para el análisis en economía.

METOOOS DE MEDICION DE LAS VARIACIONES


ESTACIONALES

Las variaciones estacionales se han definido como un movimiento


rítmico que, ocurre cada año con más o menos la misma intensidad' rela-
tiva. Este movimiento se puede resumir por un patrón estacional que se
supone típico en cualquier año de una serie que cambia gradualmente
de año en año. El patrón consta de doce índices mensuales (o cuatro
índices trimestrales) cuyo promedio es 100%. El problema de medir la
variación estacional es determinar entonces ,estos índices para una serie
dada.
Se han desarrollado muchos métodos para calcular los índices estacio-
nales. Sin embargo, los métodos más perfeccionados llegan a un índice
estacional para un mes dado promediando sus razones a una base de
tendencia-cíclica en varios años (o ajustando una curva de tendencia
a esas razones) para suprimir los factores no estacionales.
En cualquier método se ponen primero las series en una gráfica para
mostrar la naturaleza general del patrón estacional y para ayudar en el aná-
lisis posterior. A menos que exista un ritmo muy pronunciado y casi
regular a primera vista, no se puede obtener una medición estacional
rápidamente. Se debe utilizar una escala de razón en el método, gráfico
descrito abajo y usualmente también es conveniente en otros métodos, ya
que los movimientos estacionales en la mayoría de los datos económicos
son más estables como porcentajes que como cantidades absolutas. Por
lo tanto, los índices' estacionales en sí se expresan como porcentajes.
El período de tiempo cubierto debe ser cuando menos de seis o siete
años para series que tengan un patrón regular estacional y mayor para
datos irregulares, para promediar las particularidades de los años indivi-
duales. El ritmo estacional nortnal se puede romper por guerras, huelgas.
decretos gubernamentales, depresiones y cambios bruscos en las políticas
comerciales. Tales períodos erráticos se deben excluir, siempre que sea
posible. Algunas veces la naturaleza estacional de una serie se modificará
gradualmente con los años. En este caso se debe utilizar un período de
años relativamente largo, como en el análisis de tendencia, y se deben
calcular índices "cambiantes" de la variación estacional corno se describe
más adelante en este capítulo.

Método gráfico

En el .método gráfico abreviado. la illayoría de los pasos se realizan


directamente en la gráfica. Esta técnica se aplicará a las ventas men-
Métodos de medició.l de las variaciones estacionales 633

suales de Sears Roebuck de 1966 a 1971." Lo:> pasos son:


1. Grafique los 'datos en papel semilogarítmico, preferiblemente con
una escala de un ciclo. Con una escala {¡!lie; _ las mediciones son más
exactas que en el papel de dos ciclos, y la escala semi logarítmica per-
mite medir y promediar los porcentajes de la gráfica. Como se muestra
en la figura 20-2 las ventas <;le Sears Roebuck tienen un ritmo estacional
pronunciado, de tal manera que vale la pena realizar el análisis esta-
cional.
Millones de dólares
1,600
Pronóstico
de ventas
1 ,400 I - - - - I ' - - - - - f - - - Ventas ajustadas por
Variaciones estacionales

l,2001----I----f--------l---I---f----I--_-III!----!I

1 ,000 1----I--~,---+-----II---I---_Hl__------j*"---___HiI'_-""'"'H'I

600 '-""~D!...._ll_\______,{_--+I___I__---+--_Y__---I-.!..---+--_

400~----JL-----l.-----L----L.---..I...----1...---........I
1966 1967 1968 1969 1970 1971 1972
Fuente: Tablas 20-1 y 20-2
Figura 2U-2
METOIJO CRAFICO ESTACIONAL
Ventas de Sears Roebuck, 1966-1971, (~()n pronóstil'o I)ara 1972
(Gráfica de razón)

3 Las ventas de Sears, Roebuck _& Ca; no han sido ajustadas por la variación
de calendario porque los mismos índices estacionales reflejarán la diferencia en
longitud promedio de meses y corregirá para esto en los datos ajUstados. Se man-
tienen variaciones pequeñas debidas al número variable de días de la semana entre
un enero y el siguiente, etcétera, y deben ser corregidas- con tÍn ajuste de calen-
dario separado en un estüdio más detallado, amenos que se utilice un programa
de computadora que realice ese ajuste.
No precisa usar las ventas deDacionadas por variación de precios en análisis
estacional, puesto que tienen poco efecto sobre el ritmo estacional y tienden a su-
primirse en el proceso de promedio.
634 Variaciones estacionales y efe/icas

2. Marque el promedio anual de las ventas mensuales en el centro


de cada año (entre junio y julio) y dibuje a pulso una curva de ten-
dencia cíclica que pase por estos puntos. La curva debe seguir no sola-
mente la tendencia sino también los movimientos extensos cíclicos e irre-
gulares como por ejemplo los causados por una guerra. El conocimiento
de las condiciones económicas en este período también ayudará a locali-
zar los máximos y mínimos de los ciclos.
En esa forma, el período 1966-71 se caracterizó por una continua
expansión, excepto por una recesión general en los negocios, que va de
un pico en noviembre de 1969 hasta un mínimo en noviembre de 1970. 4
Con un curvígrafo se ha dibujado la curva de tendencia-cíclica de la
figura 20-2 a través de los promedios anuales en una tendencia crecien-
te, con sólo un ligero achatamiento durante la recesión de 1970. El ajuste
de esta curva implica un error subjetivo, pero parte del error se suprime
en las operaciones subsecuentes y el ajuste de la curva se puede mejorar poste-
rionnente. tal como se explica en la siguiente sección.
ESCALA
3. Tome otra hoja de papellogatítmico de un ciclo. En el margen dere-
cho prepare una escala de porcentaje, como se ilustra. Frente al núme-
ro "5" impreso en el papel ponga el 100D,6 y una flecha roja, el 120°ft:¡
frente al "6", el 80 0 ft:¡ frente al "4" etc. Ahora, corte una tira vertical
que usará para medir el porcentaje de ventas a la base de tendencia cí-
clica para cada mes, en la gráfica de ventas. Coloque la flecha sobre la
curva de tendencia cíclica y lea, en la escala, el valor correspondiente a
las ventas marcadas. Tabule los porcentajes, como en la tabla 20-1. Di-
vida las ventas entre la base de tendencia cíclica para eliminar el efecto
de las tendencias y los ciclos, de modo que los porcentajes reflejen pri-
mariamente el de los movimientos estacionales e irregulares. Alprome-
dial' estos porcentajes para un mes dado (paso 4), los factores irregula-
res se suprimen y el promedio refleja únicamente la influencia estacio-
nal.

4. Calcule una media "modificada" de" los porcemajes para cada


mes en los distintos años, omitiendo los valores máximos y mínimos ya
que reciben una influencia indebida de factores irregulares (tales como
huelgas o las bajas en el mercado de valores).
En la tabla 20-1 se han tachado los valores máximos y mmlInos en
cada columna y los cuatro elementos restantes se totalizan y se dividen
entre cuatro para dar la media modificada que se muestra en el siguiente
renglón en la parte inferior de la tabla. Estas medias son índices está-

ol- Según las fechas de referencia de puntos críticos de ciclos comerciales de la


Oficina Nacional de .Investigaciones Económicas que se muestran en la tabla 20-5.
G El error se suprime ya sea que el nivel promedio de la curva trazada a pulso
sea muy alto o muy bajo (puesto que los índices estacionales se ajustan para pro-
mediar 100 por ciento) o bien si los errores positivos y negativos son iguales (puesto
que se promedian las razones para cada mes).
Métodos de medición de las variaciones estacionales 635

cionales preliminares. Por definición, ellas deberían promediar 100%,


o totalizar 1,200 para los 12 meses. Sin embargo, el total 'en la tabla 20-1
{~~ 1,196.1, debido a que se han eliminado los valores extremos antes de
promediar el resto.

Tabla 20-1

PORCENTAJES DE LA GRAFICA DE CURVA DE TENDENCIA


CICLICA y CALCULO DE LOS INDICES ESTACIONALES

- En.
Veutas de Sears Rüebuck, 1966-1971

/;·eh. Mal'. Ahl'. May. jU1l. .fui. AROS. Se!'. Oc/. Nm'. ' Dic. To/al

1966 79 72 92 96 96 01 97 102 98 .wi 114 ]M'


1967 ;p( X 92 .w-' 96 01 )1« 104 ))1jÍ 101 116 146
1968 80 X 92 .9ff 97 5f{) J.M wf % 102 117 !.M
1969 M 73 % 97 Wr' 98 99 J-OO 96 1-00' W 147
1970 81 73 .9-t' 95 97 98 98 102 97 102 113 147
1971 78 72 93 96 % M 96 101 99 100 u« 146

Total cuatro
valores centrales 318 290 369 :~84 :~86 98 :)90 409 :)90 405 r60 586
Media de cuatro
valores centrales 79.5 72.5 92.2 96.0 96.5 99.5 97.5 102.2 97.5 101.2¡115.0 146.5 1,196.1
[ndice estacional 79.8 72.7 92.6 96.3 96.8 99.8 97.8 102.5 97.8 101.5 115.4 147.0 1,200.0
_. 1

5. Por lo tanto, si multiplicamos cada una de las 12 medias modi-


ficadas por el cociente de 1,200 sobre el total, encontrarnos los índices
estacionales finales. .\quí, cada media se multiplica por 1,200 1,196.1 Y
los índices resultantes se listan en el ÚltilllO renglón. Ellos totalizan 1.,200
y por lo tanto, promedian 100%.
Los porcentajes individuales de los índices estacionales de la tabla
20-1 se marcan en la figura 20-3, uniendo los índices estacionales me-
diante líneas rectas.
Estos índices de variación estacional proporcionan una medición cuan-
titativa del comportamiento cíclico estacional y una base para planeacio-
nes futuras. La disminución en enero y febrero junto con el aumento
·de otoño y el máximo de diciembre son claramente evidentes. El rango del
volumen va desd(' el mínimo de 73% del mes promedio, en febrero, hasta
más d('l doble del volumen, 147%, en diciembre. El crecimiento normal
estacional de noviembre a diciembre es 28%, esto es, (147-115)/115 ·--Ia
declinación dI" diciembre a enero es 46?k y así sucesivamente. (Los índi-
ces estacionales se Tedondean aquí ya que ellos son exactos solamente al
porcentaje más cercano.)
En la figura 20-3 las irregularidades en el comportamiento estacional
{'stán reflejadas por la dispersión de los porcentajes de la tendencia-cíclica
para un mes dado. Si los porcentajes se encuentran agrupados cerrada-
mente, eso significa . que la estacionalidad de los meses es regular año
con año y el .índiceestacionaL es adecuado para utilizarlo ·en pronósticos.
636 Variac:iones es,tacionales y cíclicas

Si todos los puntos dispersos se centraran alrededor de la línea del 100%,


Como en octubre, no habríaestacionalidadsignificativa. Sin embargo,
en este caso la fluctuación estacional promedio mostrada por el despla-
zamiento de los grupos lejos de la línea base, no deja lugar a dudas.

Porcentaje de
tendencia cíclica
160

=~
140

120
1\ I
\00
\ ~
-=
-
- ~ "7
-
-...;:¿ f.....
~
7
-='"
1)
80
\ 7 ~

:~
V
60
Dic. En. Feb. Mar. APR. May. Jun. Ju!. Agos. Sep. Oct. Nov. Dic.
Fuente: Taba120-1

Figura 20-3
INDlCES ESTACIONALES y PORCENTAJES DE LA TENDENCIA-CICUCA
DEL METODO GRAFICO
Ventas de Sears Roebuck, 1966.1971

6. Si desea ajustar los datos para eliminar las variaciones estaciona-


les, marque el índice estacional de enero en una escala de medición, se
pone esta marca en cada una de las ventas de enew en la figura 20-2,
y se grafica el valor ajustado en la gráfica opuesto a la Hecha del 1000/0
de la escala de medición. Esto tiene el efectp de dividir las ventas reales
entre el índice estacional (por ejemplo, para enero de 1971, 681 779.8%'
= 853). Repita esto para todos los meses, aumentando los valores para
meses con índices estacionales menores de 100 Y disminuyendo los valores
con los índices estacionales mayores de 100. (La medición entre el índice
estacional y el 100 se puede poner en una hoja en 'blanco para conve-
niencia de ajuste en los diferentes rnesC's.)
Las ventas ajustadas para todos los Illeses, dibujada con una línea
puntC'adaen la figura 20-2, reflejan los movimientos de tendencia, cícli-
Métodos de medición de las variaciones estacionales 637

cos e irregulares de, los datos, eliminando solamente el ritmo típico mo-
derado estacional. Esta curva muestra un aumento constante de las
ventas de Sears Roebuck, con un ciclo marcado por un ligero declive
durante el descenso general de los negocios de noviembre de 1969 a
noviembre de 1970. Las irregularidades de mes a mes se deben a las
variaciones del calendario, el cambio de fecha de la Pascua, las condiciones
insólitas del clima, ventas especiales y numerosas causas no identifica-
bles. Estas irregularidades se pueden suavizar gráficamente o por un
promedio móvil de corto plazo como se describe más adelante en este
capítulo, para aclarar el patrón de tendencia-cíclica de las ventas.
Revisión para obtener mayor precisión. Para obtener mayor exac-
titud, el método gráfico se puede mejorar como sigue: trace una curva de
tendencia-cíclica revisada en una gráfica semilogarítmica de tal forma
que biseque los datos est.acionalmente ajustados, siguiendo la tendencia
cíclica e ignorando solamente los movimientos erráticos mensuales. La
curva de tendencia-cíclica, revisada se muestra en la figura 20-6. Luego
repita los pasos 3 a 5 (y el paso 6 si se quieren ajustar los datos para
estacionalidad), utilizando la nueva curva. La curva de tendencia-cíclica
revisada es más sensible a las posiciones cíclicas de los meses individuales
que la curva originaL Por lo tanto, son mejores los índices estacionales.
Sin embargo, en este caso la corrección no parece justificar la revisión.
Se puede utilizar el mismo procedimiento para mejorar los resultados del
método de promedios moviblés de 12 meses descrito posteriormente.

Método de promedio!; movible!;

El método de promedios movibles de medición de las variaciones


estacionales abarca los mismos pasos básicos que el método gráfico e;'cep-
to que los pasos se realizan, aritméticamente. Este método se ilustrará con
los mismos datos de ventas deSears Roebuck anteriormente usados. Los
pasos son como sigue:
1. Grafiquelas, series en una l'scala aritmética, para un marcaje
más fácil, o en una escala logarítmica. para mostrar las ondulaciones
estacionales de' amplitud más uniforme.
2., Calcule un promedio movible de 12 meses para representar la
base de tendencia-cíclica. Esto es simplemente un promedio anual que
cambia un mes cada vez. Un promedio movible de 12 meses incluye tanto
los meses prósperos como los críticos del año, y así se suprimen las' in-
fluencias estacio~ales y queda sólo la tendencia y los cidos. El promedio
movible de 12' meses es más objetivo que la curva manual de tendencia-
cíclica, aunque tiende a eliminar los puntos cíclicos de cambio."
'v El promedio movible de 12 meses no muestra realmente la posición de ten-
dencia cíclica de sus meses centrales sino más bien el nivel promedio de los 12
meses adyacentes. Por lo tanto, no pueden alcanzar los máximos mínimos y extre-
mos de la serie: este promedio no indica la verdadera' dirección de la curvatura
de la tendencia' o del ciclo, y distorsiona los 12 meses centrados en un punto de
cambio brusco.
638 Variaciones estacionales y cíclicas

Para calcular un promedio movible de 12 meses, encuentre primero


el total movible como sigue: . en una máquina sumadora, sume las pri-
meras 12 cifras, liste el total con la tecla de "subtotal" en la cinta de
papel, luego sume el siguiente mes y reste el primer mes, liste otra vez
el subtotal, y así sucesivamente con toda la serie. Verifique el último
subtotal contra un total independiente de los 12 meses para verificar
todos los totales.
Liste cada total en una tabla frente al séptimo de sus 12meses. 7
Entonces divida entre 12 los totales para encontrar los promedios movi-
bles. Esto se puede hacer más fácilmente introduciendo el recíproco
de 12 -0.083333- en una máquina calculadora y multiplicándolo suce-
sivamente por cada uno de los totales sin borrar en la máquina. 8
En la tabla 20-2, se han listado las ventas de Sears Roebuck de julio
de 1965 a mayo de 1972 para determinar los promedios móviles del pe-
ríodo de seis años de enero de 1966 a diciembre de 1971, ya que no se
pueden calcular para los meses finales. El total de los 12 primeros meses,
julio de 1965-junio de 1966, se lista en la columna 3 frente al séptimo
mes, o sea, enero de 1966. Empezando por el· siguiente mes, el total
para los 12 meses de agosto de 1965-julio de 1966 se calcula como
7,222 + 601 - 563 = 7,260 y se lista frente al séptimo mes, es decir,
febrero de 1966, y así sucesivamente. Estos totales se multiplican enton·
ces porJ1íÍz = 0.083333 con una máquina calculadora. Los promedios
movibles resultantes se listan en la tabla 20-2, columna 4.
3. Divida cada cifra mensual de los. datos originales entre el corres-
pondiente promedio movible de 12 meses, y liste los cocientes como "por-
centaje de promedio movible". En la tabla 20-2, se ha dividido la columna
2 entre la columna 4 y el resultado está en la columna 5. Aquí la división es
preferible a la sustracción puesto que la variación estacional tiende a repe-
7 Un total de 12 meses o su promedio se puede centrar en cualquiera de
los meses sexto o séptimo, pero el último es un mes más actualizado. El centro
exacto está a la mitad del camino entre los dos, por lo tanto, algunas veces se
promedian los totales de 12 meses adyacentes para centralizar exactamente un mes
dado. Así, un total de julio de 1971 a junio de 1972 y de agosto de 1971 a julio
de 1972 centrarían precisamente en enero de 1972. Los pasos son como sigue: (1)
cálcule un total movible de 12 meses, listando el primer elemento frente al sexto
mes. (2) Calcule un segundo total movible a partir de esos totales, poniendo el
primer elemento frente al séptimo mes de los datos originales. (3) Divida entre 24.
Este es el prcmedio movible centralizado. Sin embargo, en el mejor de los casos,
el promedio movible es sólo una regular aproximación de la tendencia cíclica y
este mínimo perfeccionamiento no justifica la gran ,cantidad de trabajo.
., Los promedios movibles de 12 meses se utilizan aquí para aclarar el método,
pero los totales movibles en sí se pueden utilizar más fácilmente en los pasos sub-
secuentes para ahorrar el trabajo de multiplicar por 1/12, como sigue: (1) Divida
las ventas de cada mes entre el total movible, y los resultados serán exactamente
1/12 de los porcentajes de promedios movibles. (2) Calcule la media modificada
de estas razones para cada mes y totalice las 12 medias. (3) Multiplique cada
media por 1,200 sobre su total para llegar a los índices estacionales idénticos a los
del texto, los factores de multiplicación final son 12 veces mayores a los del método
del texto.
Métodos de medición de las variaciones estacionales 639

Tabla 20.2
CALCULO DE PROMEDIOS MOVIBLES DE 12 MESES
Ventas de Sears Roebuck, 1966-1971
Porcen- P()rcell~

taje taje
de pro· de pro-
V';l'tQs Total Promedio medios Ve1llaJ Total Prom,edío
Mes Mes medios
(millo- movible movible movibles (;"i/lo- movible movible movibles
nes) de 12 de 12 nis) de 12 de !~
(col. 2 (col. 2
meses meses~
meses meses ~

(1) (2) (3) (4) col. 4) (1) (2) (3) (4) col. 4)
(5) (5) _

1965: 1969:
Jul. 563 .. . .. . ... En. 628 9,318 776.5 80.9
Agos. 590 .. . . .. ... Feb 575 9,372 781.0 73.6
Sep. 595 .. . .. . ... Mar. 731 9,386 782.2 93.5
Oct. 611 .. . .. . ... Abr. 769 9,458 788.2 97.6
Nov. 682 .. . ... . .. May. 804 9,509 792.4 101.5
Dic. 908 .. . .. . ... Jun. 784 9,542 795.2 98.6
1966: Jul. 797 9,651 804.2 99.1
En. 478 7,222 601.8 79.4 Agos. 817 9,693 807.7 101.1
Feb. 439 7,260 605.0 72.6 Sep. 781 9,725 810.4 96.4
Mar. 563 7,304 608.7 92.5 Oct. 823 9,754, 812.8 101.3
Abr. 586 7,320 610.0 96.1 Nov. 926 9,779 814.9 113.6
May. 588 7,343 611.9 96.1 Dic. 1,216 9,787 815.6 149.1
Jun. 619 7,378 614.8 100.7 1970:
Jul. 601 7,416 618.0 97.2 En. 670 9,828 819.0 81.8
Agos. 634 7,427 618.9 102.4 Feb. 607 9,863 821.9 73.9
Sep. 611 7,443 620.2 98.5 Mar. 760 9,907 825.6 92.1
Oct. 634 7,471 622.6 101.8 Abr. 794 9,950 829.2 95.8
Nov. 717 7,492 624.3 114.8 May. 812 10,001 833.4 97.4
Dic. 946 7,532 627.7 150.7 Jun. 825 10,053 837.7 98.5
1967: Jul. 832 10,111 842.6 98.7
En. 489 7,581 631.7 77.4 Agos. 861 10,122 843.5 102.1
Feb. 455 7,604 ,633.7 71.8 Sep. 824 10,146 845.5 97.5
Mar. 591 7,668 639.0 92.5 Oct. 874 10,205 850.4 102.8
Abr. 607 7,730 644.2 94:2 Nov. 978 10,268 855.7 114.3
May. 628 7,785 648.7 96.8 Dic. 1,274 10,304 858.7 148.4
Jun. 668 7,868 655.7 101.9 1971 :
Jul. 624 7,926 660.5 94.5 En. 681 10,397 866.4 78.6
Agos. 698 7,991 665.9 104.8 Feb. 631 10,442 870.2 72.5
-Sep. 673 8,058 671.5 100.2 Mar. 819 10,504 875.3 93.6
Oct. 689 8,121 676.7 101.8 Abr. 857 10,588 882.3 97.1
Nov. 800 8,220 685.0 116.8 May. 848 10,642 886.8 95.6
Dic. 1,004 8,300 691.7 145.2 Jun. 918 10,765 897.1 102.3
1968: Jul. 877 10,858 904.8 96.9
En. 554 8,342 695.2 79.7 Agos. 923 10,925 910.4 101.4
Feb. 522 8,461 705.1 74.0 Sep. 908 11,OF 917.7 98.9
Mar. 654 8,566 713.8 91.6 Oct. 928 11,119 926.6 100.2
Abr. 706 8,602 716.8 98.5 Nov. 1,101 11,143 928.6 118.6
May. 708 8,685 723.7 97.8 Dic. 1,367 11,242 936.8 145.9
Jun. 710 8,778 731.5 . 97.1 1972:
Jul. 743 8,881 740.1 100.4 En. 748 .. . ... . ..
Agos. 803 8,955 746.2 107.6 Feb. 718 .. . .. . ...
Sep. 709 9,008 750.7 94.4 Mar. 926 .. . ... . ..
Oct. 772 9,085 757.1 102.0 Abr. 881 .. . ... . ..
Nov.' 893 9,148 762.3 117.1 May. 947 . .. . ..
Dic. 1,107 9,244 770.3 143.7
640 Variaciones estacionales y cíclicas

tirse año con año con la misma intensidad 1,elativa. O sea, el crecimiento
normal estacional en un mes dado tiende a permanecer en el mismo
porcentaje conforme crece la empresa, sin embargo, los valores en
dólares aumentan en este mes al mismo ritmo que la envergadura de los
negocios. Ya que el promedio movible de 12 meses describe grosso modo
el patrón de las fluctuaciones combinadas de tendencias y ciclos, los
porcentajes de los datos originales divididos entre este promedio repre-
sentan principalmente los componentes estacionales e irregulares, como
en el método gráfico. O sea, ventas reales = tendencia (T) X ciclo (C)
X componente estacional (S) X componente irregular (1) en nuestro
modelo de series cronológicas. (La tendencia se expresa en las unidades
originales, por. ejemplo dólares, mientras que los otros componentes se
formulan conio porcentajes). Entonces, en el paso 3, TCST/TC == SI,
Y promediando las razones ST en el mismo mes para diferentes años (paso
4) se cancelan la mayoría de los factores 1.
4. Calcule la media modificada de los porcentajes de promedios mo-
vibles para una mes dado en los diferentes anos, omitiendo los valores
máximos y mínimos ya que estos están dominados por factores irregula-
res, exactamente COIIlO en· el método gráfico. ,
Los porcentajes de la tabla 20-2, columna 5', se agrupan en la ta-
bla 20-3. Entonces se tachan los valores máximos y mínimos, en 'cada
columna, como se hizo antes, y los valores restantes se totalizan y dividen
entre 4 para dar las medias modificadas, o los índices estacionales pre-
liminares.
5. Ya que las medias modificadas de los 12 meses totalizan 1,202.0
y no 1,200 (última columna), cada cifra se multiplica por 1,200/1,202.0
para obtenerlos índices estacionales finales mostrados en el renglón
inferior. Estos Índices totalizan 1,200 Y por lo tanto, promedian 100%.
Ya que los pasos 4 y :> son los mismos que en el lllétodo gráfico, la
tabla 20-3 es muy similar a la tabla 20 c l, y una gráfica de las cifras
de la tabla 20-3 (no mostrada aquí) mostraría casi el mismo patrón de
índices estacionales e irregularidades estacionales que la figura' 20-3. Los
índices estacionales obtenidos por los dos métodos se comparan en la
parte inferior de la tabla 20-3. El promedio de diferencias absolutas
entre las dos es solamente 0.1 puntos para los 12 meses, que es trivial,
ya que los índices estacionales son exaCtos solamente con un punto de
aproximación, a menQs que se utilicen métodos más perfeccionados.
6. Con objeto de ajustar los datos con base en las variaciones esta-
cionales (para eliminar sus efectos), divida las ventas reales entre los
índices estacionales. Así, en diciembre de 1971, las ventas reales de
1,367 millones de dólares (tabla 20-2) divididas entre 147% (tabla 20-3)
nos dan 930 millones de dólares como las ventas ajustadas por varia-
ciones ,estacionales. Esto es, TCSl/ E = TCl. Estas cifras no se listan
aquí, ya que su gráfica sería casi idéntica a la línea punteada en la
figura 20-2 que muestra las ventas ajustadas por el método gráfico.
Métodos de medición de las variaciones estacionales 641

Tabla 20-3

PORCENTAJES' DE PROMEDIOS MOVIBLES DE 12 MESES


Y CALCULOS DE LOS INDICES ESTACIONALES
Ventas de Sears Roebuck, 1966-1971
- En. Feb. Mar. Abr. May. JUII. .fui. Agos . Sep. T"tal
Oct. NOl'. Dilo

1966 79.4 72.6 92.5 96.1 96.1 00.7 97.2 102.4 98.5 101.8 114.8 ~
1967 .JM ~ 92.5 .94:'2' 96.8 01.9 ..945 104.8 1.00:"2' 101.8 116.8 145.~
1968 79.7 .14-:'6" ,9.};() .9&:5' 97.8 .9-r.r J..OO:<t: 1W':'6 ..94:'4 102.0 117.1 ~
1969 80.9 73.6 93.5 97.6 J..G.l::5' 98.6 99.1 J,.l}t:'f 96.4 101.3 U3:1> 149.1
1970 ..8Hl'. 73.9 92.1 95.8 97.4 98.5 98.7 102.1 97.5 .J..W:'8' 114.3 148.4
1971 78.6' 72.5 .9%:6' 97.1 ~ ~ 96.9 101.4 98.9 .lOO:'Z J-.Hl':& 145.9

Total cuatro
valores centrales 318.6 292.6 370.6 386.6 388.1 99.7 391.9 410.7
391.3 406.9 463.0 588.6
lvIedia, cuatro
valores centrales 79.6 73.1 92.6 96.6 97.0 99.9 98.0 102.7
97.8 101.7 115.8 147.2' 1,202.0
Indice estacional 79.5 73.0 92.5 96.5 96.9 99.7 97.8 102.5 97.6 101.5 115.6 146.9 1,200.0
lndice estacional
(gráfico) * 79.8 72.7' 92.6 96.3 96.8 99.8 97.8 102.5 97.8101.5115.4 147.0 1,200
Diferencia -0.3 0.3 -0.1 0.2 0.1 -0.1 0.0 0.0 -0.2 0.0 0.2 -0.1

- .. De la tabla 20-1.

Estacionalidad cambiante

El ritmo estacional puede cambiar gradualmente en el curso de un


período de años. Los cambios se pueden deber a políticas comerciales o
a los hábitos de consumo. Así, nuevas costumbres, tales como el aumento
en los viajes vacacionales en verano, estimulan muchas actividades en
esta estación. Este cambio gradual en el comportamiento estacional
se denominaestacionalidad cambiante (movible o progresiv,a), en oposi-
ción a la estacionalidad "constante" analizada anteriormente.
La estacionalidad cambiante se puede medir como sigue en cualquiera
de .los. métodos ya sea gráfico o de .promedios movibles 1) Elabore
12 gráficas pequeñas con la escala vertical marcada "Porcentaje de
Tendencia-Cíclica" o "Porcentaje de Promedio Movible de 12 meses", y
marque los años en la escala horizontal. Se pueden usar escalas aritmé-
ticas o logarítmicas. Se marcan los porcentajes .de enero de, la tabla 20-1
o de la tabla 20-3 en la primera gráfica como una serie de tiempo,
los porcentajes de febrero en la segunda gráfica, y así sucesivamente.
Entonces si los puntos de enero muestran una tendencia sostenida ascen-
dente o descendente a través de los años, dibuje a pulso una curva
suavizada de tendencia que pase por los puntos m~rcados. Ahora, lea los
índices estacionales preliminares de la curva de tendencia, un índice
diferente para enero en cada año. Corrija los 12 índices en cada año de
calendario para promediar lOO%, si es necesario, como en el pa~o 5
anterior.
642 Variaciones estacionales y dclicas

Porcentaje del promedio


movible de 12 meses I pronóstico~
125

120
Noviembre

115

110
Octubre

105

100

95 L-._..I.-_...L-_..J..._ _'-_-L.----'-I...__..;..--L_---l_ _ L-~,L___..;....L__...l...__'___'

1960 1962 1964 19661968 1970 1972


Fuente: Tabla 20-3 y datos anteriores
Fil1;ura 20-4
ESTACIONALIDAD CAMBIANTE
Ventas de Sears Roebuck. 1960-1971

Es necesario utilizar un número considerable de años para determi-


nar tendencias confiables en los índices estacionales de un mes dado.
La figura 20-4 contrasta las tendencias de octubre y noviembre relativas
al promedio movible de 12 meses en un período de 12 años, de 1960 a
1971. Octubre tiene tendencia a declinar, mientras que noviembre sigue
una tendencia ascendente. Por. lo tanto, hemos trazado a pulso curvas
de pendiente a través de estos cuadros para suavizar las irregularidades
y así determinar los índices estacionales cambiantes preliminares en estos
años. Con esta curva se obtiene un índice anual en vez de usar el índice
estacional constante para los dos períodos de seis años que se grafican
como una línea horizontal. Las curvas se han proyectado al futuro hasta
1973 para usarlo en la planeación posterior.
Este ajuste de la tendencia es justificable siempre que exista alguna
explicación conocida para ('1 desplazamiento y se incluya un período
Metodos de medición de las variaciones estacionales 643

de años suficienten~ente prolongado para asegurar que nuestras pen-


dientes no representan meramente corridas aleatorias. En este caso los
clientes pueden estar aplazando el comienzo de sus compras navideñas
de octubre a noviembre, pero se requeriría un estudio especial para veri-
ficar la razón de ese desplazamiento.
Para checar esta tendencia en un período mayor, se presentan en la
tabla 20-4 los índices de estacionalidad constante para C\latro períodos
de seis años desde la Segunda Guerra Mundial, calculados todos me-
diante el método de promedios movibles. Septiembre y octubre siempre
han disminuido en importancia, mientras que en julio y noviembre se
han obtenido ganancias (desde la década de los cincuenta).
Otros. meses no muestran tendencias persistentes. Para un análisis
más detallado debemos ampliar la figura 20"4 para cubrir los 12 meses
graficados anualmente para todo el período desde 1946.

Tabla 20-4
CAMBIOS EN EL PA1:'RON ESTACIONAL DE
LAS VENTAS 'DE: SEARS ROEBUCK
(Indices estacionales constantes en cuatro períodos 1946-1971)
[Jedado Ell. P,b. Mar. Abr. May. Jun. Jul. Agns. Se/J. Oct. Nov. Dic.

1946-51 81.8 71.9 93.5 98.7 98.7 98.9 87.1 97.5 105.7 109.9 114.9 141.4
1953-58 no 70.2 86.4 96.8 104.8 105.8 94.4 102.3 101.1 107.0 109.6 144.8
1960-65 77.1 70.1 88.6 96.7 100.6 102.5 96.3 103.5 99.5 104;7 111.4 149.0
1966-71 79.5 73.0 92.5 96.5 96.9 99.7 97.8 102.5 97.6 101.5 115.6 146.9

La medición de la estacionalidad cambiante se recomienda para un


análisis más preciso, ya que toma en cuenta los cambios graduales en
el comportamiento estacional. Sin embargo, todavía no toma en cuenta
totalmente los cambios cíclicos en la estaCionalidad, tales como el incre-
mento en las estaciones flojas durante los auges cíclico.s, o los cambios
bruscos, tales como los causados por la guerra. Las 'complicaciones se
pueden evitar mucho mejor omitiendo simplemente los períodos anor-
males al calcular los índices estacionales. Más aún, los índices de esta-
cionalidad cambiante son algo engorrosos debido a que difieren de un
mes a otro cada año. Por lo tanto, para propósitos ordinarios es adecuado
el uso de índices estacionales constantes para períodos homogéneos de
años.

Uso de las computadoras


En los últimos años se han desarrollado programas de computadoras
electrónicas para medir las variaciones estacionales y así acelerar los
cálculos y permitir varias mejoras en la técnica. Los principales métodos
son el Programa de .\juste Estacional Census II,!' el Método del Factor
.~ Vea U. S. Bureau of the Census, "The X-II Variant of the Census II
SeasonaJ Adjustment ProgramO', Technical Papel No. 15 (Rev. febrero de 1967).
Incluye un ejemplo impreso y bibliografía. Ver también Lawrence Salzman,
Computerized Economic Ana/ysis, Nueva York: McGraw-Hill, 1968.
644 Variaciones estacionales y cíclicas

Estacional BLS/o y el uso de la regresión múltiple con una variable


"ficticia" para cada mes. l1 El primero de esos métodos se resume más
adelante.
El programa Census II se basa en el método de razón de promedios
movibles de 12 meses, utilizando índices estacionales cambiantes, pero
el programa ofrece ofrece diversas mejoras opcionales, medidas sumarias, y
pruebas de significación. Este programa está disponible en el lenguaje
FORTRAN IV, que se puede utilizar en muchas computadoras de me-
diana y gran escala. La corrida típica requerirá menos de cinco minutos
del tiempo de la computadora.
El Método Census II, (Variante X-ll) tiene éstas características im-
portantes: 1) Se puede realizar una corrección preliminar del calen-
dario correlacionando las series originales con el número de veces que
ocurre cada día de la:' semana en cada mes, en vez de tener que intro-
ducir explícitamente el número de días de trabajo en el mes. 2) En-
tonces se ajusta la serie por la variación estacional mediante el método
de razones de promedios movibles de 12 meses centralizados. 3) Las
series ajustadas (TCr) se suavizan entonces ponderando los promedios
movibles de 9, 13 ó 23 términos (dependiendo de cómo son las irregu-
laridades de las series), para suavizar las irregularidades y proporcionar
una curva de tendencia cíclica revisada. Este tipo de curva de tendencia-
cíclica es mucho más sensible a los movimientos cíclicos que 'el promedio
movible original de los 12 meses. 4) Los promedios diarios originales
se dividen entonces entre esta nueva base de tendencia cíclica y se repite
el proceso de medición estacional como se hizo anteriormente. 5) Las
razones estacionales-irregulares para un mes dado de años diferentes se
suavizan mediante un promedio movible ponderado (obtenido tomando
un promedio de tres términos de un promedio movible de cinco términos)
para estimar los índices de estacionalidad cambiante. 6) A los valores
extremos se les da una ponderación reducida o no se les da, dependiendo
de cuántas desviaciones estándar se desvíen de la norma. 7) Se prepara
un conjunto de medidas sumarias, tales como contribuciones porcentua-
les de tendencia-cíclica, del calendario, de la estacionalidad e irregula-
res de una serie cronológica y la razón del componente irregular pro-
medio en los cambios de mes a mes al componente de tendencia-cíclica
promedio. También proporciona varias pruebas de significación. 8) Los
resultados se imprimen en forma gráfica.
Por lo tanto, la computadora electrónica permite muchos más per-
feccionamientos en el método de rezones de promedios movibles de lo
10 U. S. Bureau of Labor Statistics, mayo de 1966. Tal como el Census II,
el método BLS se basa en razones de promedios móviles de 12 meses y provee
índices estaciúnales cambiantes, con númerosos perfeccionamientos. Este programa
se ha adaptado a muchos sistemas de computadora.
11 Ver Michael C. Loven, "Seasonal Adjustement of Economic Time Series
and Multiple Regressión Analysis", Journal o{ the American Statistical Association,
Vol. 58 (1963), págs. 993-1010. Este método es apropiado en algunas circuns-
tancias, pero por lo general se prefieren en forma más generalizada Jos métodos
de computadora de razones a promedios movibles.
Métodos de medición de las variaciones estacionales 645

Miles de millones de kw/h


38

32

26
7 21 4 18 3 17 31 142812 26 9 23 7 21 4 18 15 2913 27 10 24 8 22

E F M A M J J A s o N D
FUENTE: Federal Reserve Chart Book, junio 1972. Esta publicación contienetam-
bién datos con ajuste estacional que aclaran los movimientos no estacio-
nales.
Fig.20-5
Producción de potencia eléctrica

que sería factible por otro medio. Más aún, se puede analizar la estacio-
nalidad en muchas más series cronológicas económicas de lo que era
posible anteriormente. ,
La computadora electrónica no puede manejar ciertos problemas
tales como los cambios bruscos en las programaciones de vacaciones o las
fechas cambiantes. de oferta de nuevos modelos de automóviles. Estas
situaciones se deben ajustar manualmente antes de que los qatos se in-
troduzcan a la computadora, o también se pueden cortar las series en
los puntos de discontinuidad y analizar separadamente los dos segmentos.
Las computadoras proporcionan resultados rápidos .y precisos en manos de
un analista experimentado, pero aún no han desplazado al hombre.

¿ Qué método. utilizar?

Pueden ser útiles las siguientes sugerencias al seleccionar un método


apropiado de medición de las variaciones estacionales:
l. Se recomienda el método gráfico como un método abreviado, ya
que sustituye con mediciones gráficas los tres pasos laboriosos (2, 3 Y 6)
del método de promedi.os movibles; La curva de tendencia-cíclica trazada
a pulso puede seguir movimientos cíclicos más de cerca que los promedios
móviles de 12 meses, si se dibuja con cuidado y criterio, en particular.
646 Variaciones estacionales y cíclicas

cuando se revisa para que siga los datos ajustados estacionales. La grá-
fica también constituye una comprobación visual en cada fase, revelando
las irregularidades en los datos y proporcionando las variaciones necesa-
rias en la técnica.
2. El método de los promedios movibles tiene la ventaja de ser un
procedimiento objetivo y general que puede realizar el personal de oficina
con una calculadora manual y una máquina de sumar. Es el más común-
mente usado de los métodos aritméticos simples propuestos para analizar
la estacionalidad. Como el método gráfico, sus resultados son general-
mente exactos y suficientes' para propósitos ordinarios.
3. Los métodos de computadora electrónica proporcionan tanto el
máximo ahorro de tiempo como una medición estacional mucho más
exacta, cuando se desea analizar muchas series, y tenemos disponible el
programa y la computadora. Sin embargo, tales programas son comple-
jos y requieren un analista creativo para seleccionar las opciones apro-
piadas e interpretar los resultados.

Otros métodos para tomar en cuenta la estadonalidad

Existen varios métodos usados comúnmente para tomar en cuenta la


estacionalidad sin medirla realmente:
1. Los movimientos estacionales algunas veces se refíeren meramen-
te a términos direccionales. Por ejemplo, "las ventas al menudeo con-
siguieron una ganancia estacional, en septiembre ,sobre el nivel· de agos-
to". Sin embargo, este postulado no dice si la ganancia fue mayor o
menor que el monto normal estacional y cuato difirió. Sería más signifi-
cativo decir: "Las ventas id' menudeo se incrementaron ,un 8 por ciento
en septiembre respecto al nivel de agosto, un incremento mayor que el
incremento estacional usual". .
2. La práctica común de comparar un mes con el mismo mes del
año anterior sirve para eliminar el factor estacional común a ambos
meses. Sin embargo, este uso aún puede distorsionar el panorama cíclico
por cualquiera de estas dos razones: a) El presente mes se juzga en
comparación con un mes histórico único que podría ser errático en sí
mismo. Así, el postulado "la producción en marzo superó en un 3% la del
año anterior del mismo mes" parece favorable, pero podría representar
una situación desfavorable si en marzo del año pasado hubo una dismi-
nución indebida de la producción. (b) La comparación con el año ante-
rior ignora las tendencias en los once meses pasados. Por ejemplo, las
ventas de Sears Roebuck en noviembre de 1970 fueron 61<- sobre las
de noviembre de 1969. Este reporte parece favorable, pero sería más
significativo hacer notar que las ventas aJustaclas f'stacionalmente han
aumentado desde julio de 1970, corno se muestra en la figura 20-2.
3. El marcar los datos semanales o mensuales de' varios años, super··
poniéndolos en una gráfica con la escala horizontal de enero a diciembre
nos permite comparar las tendencias actuales con aquellas de las mismas
estaciones de otros años sin realizar ningún cálculo. Pero la comparación
Pronóstico estacional 647

con varios años en esta forma puede ser confusa y no ofrecer un ajuste
preciso para el factor estacional. Por ejemplo, en la figura 20-5 el nivel
general de la producción de energía eléctrica en 1972 es obviamente
superior a la de los dos años anteriores, pero las comparaciones semanales
no cíclicas no son claras. En particular, ¿ fue la declinación en la pro-
ducción de febrero a mayo de 1972 mayor o menor que el monto esta-
cional usual? .
Estos métodos algunas veces son útiles para presentación simple. Sin
embargo, para un análisis cuidadoso deben calcularse los índices esta-
cionales como se describió anteriormente en este capítulo.

PRONOSTICO ESTACIONAL

Los índices estacionales juegan un papel· importante en la planeaeión


de los negocios a corto. plazo. La figura 20-2 muestra que las ventas de
Sears Roebuck se pueden pronostiéar (al final de 1971) para cada mes
de 1972 proyectando la curva de tendencia-cíclica y multiplicando estos
valores por los índices estacionales.
La curva de tendencia cíclica se ha proyectado a partir de la regresión
entre las ventas netas anuales de Sears y el ingreso disponible (tabla 16-5),
así como la proyecCión de la tendencia en las ventas reducidas (figura 19A),
combinado con una predicción del índice de precios de Sears( tabla
19-1) y la perspectiva cíclica basada en indicadores estadísticos (figu-
ra 20-S) y otros métodos que se describen más adelante en este capítulo.
Podemos entonces pronosticar las vel1tas mensuales multiplicando los
valores de la curva de tendencia cíclica prolongada, por los índices esta-
cionales (es decir, TC X S = TCS).· 0, utilizando el método gráfico,
podemos .marcar el lugar que ocupa el 100% en la tira de medición
sobre lá curva de tendencia-cíclica, y establecer dónde van los índices
estacionales de la tabla 20-1 por arriba y por abajo de ella para prede-
cir los efectos combinados de tendencia, cíclicos y estacionales. (El de-
mentO irregular no se puede estimar.)
En la figura 20-2 se grafica esta proyección como una línea de puntos
que pasa· pOr 1972 y se compara con las ventas reales hasta julio de
1972 para verificar su precisión. Así el pronóstico de enero es el valor
de la tendencia cíclica de· 946 .millones qe dólares multiplicaclo por
79.8% (el índice estacional) o sea 755rnillones de dólares, comparado
con las ventas reales de 748 millones de dólares, ul1 error del 1%' (El
pronóstico de febrero se puede mejorar admitiendo un día extra de
comercio en años bisiestos, y las cifras de marzo y abril se pueden ajus-
tar por la fecha cambiante de la Pascua, en un análisis más detallado.)
El error del pronóstico incluye el. de la proyección de tendencia-
cíclica (que se incrementa con el tiempo) y el de la irregularidad en
la estacionalidad misma, que se puede estimar a partir de los puntos
dispe~sos de los ordenamientos en la figura 20-3 .. Cuando las. fluctuacio-
nes estacionales son grandes y regulares, mi~ntras los movimientos cícli-
648 Variaciones estacionales y cíclicas

cos a corto plazo son moderados como en el comercio al menudeo en


general, los pronósticos a corto plazo son relativamente precisos.

VARIACIONES CICLICAS

Las fluctuaciones, o alteraciones cíclicas entre la expanslOn y la rece-


sión, son de primera importancia en el análisis comercial y la planeación
a corto plazo.

Los ciclos comerciales son un tipo de fluctuación que se encuentra en la


actividad económica agregada de las naciones cuyo trabajo está organizado prin-
cipalmente en empresas comerciales; un Ciclo consiste en expansiones que ocu-
rren más o menos con un mismo intervalo de tiempo en muchas actividades
económicas, seguidas por recesiones generales similares, contracciones y recupe-
raciones que se intercalan con la fase de expansión del siguiente ciclo; esta
secuencia de cambios es recurrente. pero no periódica; los ciclos comerciales
varian en duración de más de un año hasta diéz o doce años. 12

Los ciclos comerciales se han desarrollado en los países modernos indus-


trializados que tienen estructuras comerciales estrechamente integradas.
Los ciclos se ven afectados por factores ajenos a los negocios, tales como
guerras, decretos gubernamentales y el monto de Jascosechas, pero son
las condiciones internas del sistema comercial mismo que causan una
ruptura en la prosperidad para dar paso a la depresión, y viceversa, en
una forma más o menos rítmica. Casi todas las actividades económicas
se ven afectadas por las fuerzas cíclicas, pero la industria pesada y .la
banca son las más susceptibles, mientras el comercio al menudeo, los
servicios personales y la producción agrícola son los menos afectados.
La duración promedio de los ciclos comerciales en los Estados U nidos
desde 1945 hasido de alrededor de 3,112 años, en que la fase de expan-
sión ha durado en promedio, 3 veces más que la fase de contracción.
La tabla 20-5 muestra los puntos de cambio de los cicloscome:rciales en
general, promediados de miles de series individuales, por la Oficina Na-
cional de Investigación Económica de los Estados Unidos. A pesar de las
guerras de' Corea y Vietnam la amplitud de los ciclos ha sido más mo-
derada e neste. período que en épocas anteriores.
Los ciclos de series individuales también difieren marcadamente en
estos aspectos de los ciclos comerciaks generales. En la figura 19-2 con-
sidere las ondulaciones cíclicas del producto. nacional bruto, la producción
de aluminio y la producción de carbón, como. las principales desviacio-
12 Esta definición deWesley C. Mitchell se utiliza como punto de partida en los
estudios de ciclos .comerciales en la Oficina Nacional de Investigaciones Económicas
de los Estados Unidos. Vea Arthur F. Burns y Wesley C. Mitchell, M easuring
Business Cycles (Nueva York: Oficina Nacional de Investigaciones E¡;onómicas,
1946), pág. 3. Ver también Wesley C. Mitchell, What Happens during Business
Cycles: A Progress Report (Nueva York: Oficina Nacional de Investigacione~
Económicas, 1951).
Variaciones cíclicas 649

nes de las líneas de tendencia. El producto nacional bruto es relativa-


mente insensible al ciclo, ya que contiene muchos tipos est"bles de gastos,
tales como pagos de interés, mientras que la producción de aluminio es
pasajera, y la de carbón es al mismo tiempo moderada en amplitud y
más sensitiva a las condiciones generales de los negocios que el aluminio.
Sin embargo, estas tres series reflejan el auge de las dos guerras mun-
diales y las depresiones de 192'1 y 1932. El estudio de los ciclos es más
crucial en las industrias "cíclicas" o sensibles que en las actividades
estables.
Tabla 20-5
PUNTOS DE CAMBIO EN LOS CICLOS COMERCIALES
EN I~OS ESTADOS UNIDOS, 1945·1970

Número de meSes
Contracción Expansión Ciclo total
(del mínimo (mínimo a (máximo al
al 'máximo máximo) máximo
Mínimo Máximo anterior) anterior)

Octubre 1945 Noviembre 1948 8 37 45


Octubre 1949 Julio 1953 11 45 56
Agosto 1954 Julio 1957 13 :{5 48
Abril 1958 Mayo 1960 9 25 34
Febrero 1961 Noviembre 1969* 9 105 114
Noviembre 1970* 12
Promedio, 5 ciclos, 1945·1970 11 49
Promedio, 3 ,ciclos en tiempos de paz,
1945-1961 10 32

Nota: las cifras escritas ('n cursivas indican expansiones durante la gUf'rra, contrac.eiOlu's de
postguerra .y ciclos completos que incluyen expansiones clt" tit'mpo de glH'rra .
.)(- 'Preliminar.
t 5 ciclos 194.,-1969.
t 3 ciclos 1945-1960.
FUF.NTE: Oficina Nacional de Investigación Económica, reportada ('n Business Conditiofls Digest,
apéndice E. Febrero de 1973. E~ta fuenh' también nos ofrece algunos puntos de cambios anteriores,
a partir d,' 1854.

Las fluctuaciones irregulares en las series cronológica~ económicas son


causadas por fuerzas tales como gastos del gobierno, impuestos, condi-
ciones no usuales del clima, motines laborales, guerras y todas las formas
de eventos no previsibles. Estas fuerzas son de dos tipos.
El primer grupo se clasifica como "fuerzas generadoras" que inducen
o alteran los movimientos cíclicos de los negocios. Por ejemplo, la guerra
y sus consecuencias posteriores, tienden a producir la depresión conocida y
la fase de crecimiento de un período cíclico en tiempos de paz. Por otro
lado, una prolongada huelga de los trabajadores del acero crea una
condición similar a la depresión cíclica en esa industria. Estas fuerzas
generalmente son imprevisibles, aunque muchos "servicios" de 'Washing-
ton previenen a las empresas de lo que el gobierno proyecta' hacer, y si
650 Variaciones estacionales y cíclicas

habrá una guerra, huelga, grandes o pequeñas cosechas, etcétera, con


cierto éxito parcial.
El segundo grupo de factores irregulares comprende un conjunto de
fuerzas diversas que actúan en una .forma más o menos aleatoria para
que al graficar la curva, ésta tenga el conocido perfil de zig zag. Estos
factores generalmente son numerosos, no identificables e imprevisibles;
El elemento aleatorio varía ampliamente en las diversas series, desde
cero en la tasa de redescuento de la Reserva' Federal hasta la mayor
influencia en el valor de los permisos de construcción expedidos.
Los componentes irregulares de las series cronológicas representan el
residuo de las fluctuaciones después de que se han tomado en cuenta
los factores de tendencia secular, cíclicos y los movimientos estacionales.
Sin embargo, en la práctica, el ciclo mismo es tan errático y se encuentra
tan mezclado con los movimientos irregulares que es imposible separarlos,
excepto al suavizar algunos de los factores aleatorios del segundo tipo.

Razones por las que se miden

Se cumplen tr~s propósitos importantes al aislar los componentes cí-


clicos o cíclicos e irregulares en una serie cronológica.
1. Las mediciones del comportamiento cíclico pasado constituyen va-
liosas ayudas al estudiar las fluctuaciones características de los negocios.
Estas mediciones contestarán preguntas tales como: ¿Qué tan sensible
es este negocio a las influenci<ls cíclicas generales? ¿ Cuál es la duración
típica, amplitud y patrón cíclico general de la producción de la compa-
ñía, sus ventas, inventarios, o precios de materia prima? ¿ Cómo se com-
paran estos factores con los de otras compañías o con los de la industria
en general? ¿ Se comparan estos factores con otras series que pudieren
ayudar en el pronóstico?
El estudio de los ciclos comerciales es también una de las principales
ramas de la economía. Los economistas de hoy día generalmente reco-
nocen la necesidad no solamente de la teoría, sino también de las medi-
ciones estadísticas precisas con objeto de obtener claridad. en el enten-
dimiento de este fenómeno. Por lo tanto, la Oficina Nacional de Inves-
tigaciones Económicas de los Estados Unidos y otras agencias han dedi~
cado años de estudio a: esta medición.
2. El hombre de negocios planea por adelantado; la planeación re-
quiere del pronóstico y el pronóstico impli~a un conocimiento tanto del
comportamiento típico cOmo de los ciclos recientes. Las mediciones de los
ciclos típicos se utilizan en la escuela de planeación de "ritmos económi-
cos", que proyecta los ciclos pasados al futuro de una f0il11a periódica.
Tales mediciones también aparecen en el método de la "analogía histó-
rica específica" de relacionar las condiciones actuales' con otras en perío-
dos comparables en el pasado para anticipar desarrollos similares. Las me-
diciones del comportamiento cíclico recient,e son necesarias en un punto
Cómo medir los ciclos 651

inicial en cualquier clase de pronóstico. En la mayoría de las revistas


comerciales se pueden encontrar artículos sobre este tópico, particular-
mente a principio del año, las cuales contienen pronósticos basados en
los indicadores cíclicos.
3. Las mediciones cíclicas son herramientas muy útiles al formular
'políticas para estabilizar el nivel de la actividad económica. Los princi-
pales esfuerzos los realizan el gobierno federal y las empresas privádas
para suavizar los ciclos económicos, ya que las depresiones son desastrosas
para la economía. El Consejo Presidencial de Asesores Económicos y el
Comité Económico del Congreso son orgánismos importantes en los Esta-
dos Unidos que evalúan los indicadores cíclicos como ayuda para la pre-
vención de la depresión. Las mediciones cíclicas precisas son tan nece-
sarias en la planeación preventiva como para prever lo que sucederá sin
tal acción.
A pesar de la importancia de los ciclos comerciales, son el tipo de fluc-
tuación económica más difícil de medir. Esto se debe a que los ciclos
sucesivos varían ampliamente en su presentación, amplitud (porcentaje
de alza y baja) y patrón, y debido a que los ritmos cíclicos se encuen-
tran estrechamente ligados con los factores irregulares.

COMO MEDIR LOS CICLOS

El método típico para aislar, tanto corno 'sea posible, los ciclos de
los datos económicos, consiste: en eliminar los movimientos estacionales,
seculares e irregulares y graficar los residuos para mostrar las fluctuacio-
nes cíclicas. l .s Sin embargo, no todos estos movimientos necesitan elimi-
narse en la práctica, cuanto más pronunciado es un factor no cíclico,
más tiende a distorsionar el patrón cíclico y es mucho mayor la necesi-
dad de su eliminación. Así, l,lna gran ondulación estacional, una' tenden-
cia pronunciada o un violento zigzagueo irregular requiere un mayor
ajuste que si cada uno de estos factores fuera neutral. De ordinario, los
ajustes estacionales son los más importantes de los tres. Con frecuencia,
solamente se realiza este ajuste en los datos, junto con la suavización
de algunas irregularidades de tipo aleatorio. Esto se debe a que la ten-
denciasecular no permite apreciar ordinariamente los ciclos a corto
plazo, y el ajuste de tendencia introduce un error que proviene del ajuste
de la curva de tendencia misma. Además, los ciclos no se: pueden separar
con éxito de los movimientos irregulares causados por las fuerzas gene-
radoras.
Es necesario ajustar los datos anuales solamente para la tendencia
secular, ya que las fluctuaciones irregulares a corto plazo y estacionales
tienden a eliminarse en los totales anuales. Las figuras 19-4 y 19-7 mues-
tran las ventas ahuales reducidas de Sears Roebuck, ajustadas por la
tendencia. Los ciclos de los datos anuales se describieron en las páginas
J:< Un métcdo para promediar los ciclos en datos ajustados estacionalmente

se describe en Burns and Mitchell, op. cit., cap. 2'; ver también Mitchel1, op cit.
652 Variaciones estacionales y cíclicas

607 Y 616-618. Sin embargo, ya que los ciclos son de corta duración,
usualmente se necesitan datos mensuales para dar un panorama más
detallado.

Ajuste gráfico

Los ciclos se pueden aislar gráficamente como sigue:


l. Ajuste los datos por la variación estacional como se describe ante-
riormente. Como ejemplo, la figura 20-6 se reproduce de la figura 20-2
para mostrar las ventas de Sears Roebuck ajustadas por la estacionalidad
mediante el método gráfico (línea punteada).
2. Trace a pulso una curva que pase por los datos ajustados, si es
necesario, para suavizar las irregularidades de zig zag y obtener el com-
ponente de tendencia-cíclica en un claro relieve. Las desviaciones que
queden arriba de la curva deben ser iguales a las desviaciones que estén
bajo la curva. Usualmente, esta curva de tendencia-cíclica en sí es sufi-
ciente para el análisis de los ciclos. Así, la curva de tendencia cíclica
de las ventas de Sears Robuck (figura 20-6) previno sobre una posible
recesión nivelándose en la última parte de 1969 y 1970, mientras que las
ventas no ajustadas en la figura 20-2 podrían haberse utilizado errónea-
mente, ya que aumentan bastante de septiembre a diciembre de cada
año debido a las influencias estacionales. Sin embargo, no hubo baja
cíclica en las ventas en dólares, a pesar de la recesión comercial general
de 1970. (Esta curva también se puede usar en lugar de la curva de
tendencia-cíclica trazada a pulso o del promedio movible de 12 meses
al calcular los índices estacionales, como se describió en la página 637,
bajo el título de "revisión para obtener mayor precisión").
3. La curva de tendencia-cíclica de la figura 20-6 se puede ajustar
posteriormente por la tendencia marcando una curva de tendencia suavi-
zada (por ejemplo, una línea recta logarítmica) y trazando las desvia-
ciones verticales de la curva de tendencia-cíclica a partir de la tendencia
alrededor de la línea horizontal. El resultado es el componente cíclico
expresado como porcentaje de la tendencia. Este procedimiento no se
muestra aquí ya que se ilustró para las ventas anuales de Sears Roebuck
en la figura 19-7, y generalmente el ajuste de la tendencia no es necesario
para el análisis a corto plazo.

Ajuste aritmético

Los ciclos también se pueden aislar aritméticamente en tres pasos:


l. Ajuste los datos por las variaciones estacionales y del calendario
como fe describió en el método de razón de promedios movibles de
12 meses.
2. Si es necesario, calcule un promedio movible de 3 meses, para
suavizar los movimientos irregulares a corto plazo. Es decir, el promedio
Cómo medir los ciclos 653

de enero a marzo se marca en el mes central, o sea febrero; d promedio de


febrero a abril, se utiliza para marzo; y así sucesivamente. Si los datos
son extremadamente erráticos, puede ser preferible un promedio movible
de cinco, meses. Esto genera una curva más suavizada pero que es menos
sensible a los movimientos de mes a mes que el promedio movible tri-
mestral. Por supuesto, los movimientos irregulares no se compensan exac·
tamente cada tres o cinco meses, y entonces algunas de las irregulari-
dades permanecen en la curva suavizada. Ordinariamente, los valores
de tendencia-cíclica resultantes se pueden utilizar para el análisis de los
ciclos sin ajustes posteriores.

Millones de dólares
1,600

1.400

uoo
Tenden\a cíclica-Te
1,000 Ventas ajustadas por
,,,¡,cion "ta'\,cl- TC1
A.

lY DJt1
~-<?"C
-
~ --
800

600 --~
/
IV

400
1966 1967 1968 1969 1970 1971 1972
Fuente: Figura 20-2.

Figura 20-6
Movimien tos de tendencia cíclica en las ven tas de Sears Roebuck, 1966 -7 2
Método gráfico
Tabla comparativa

3. Si se desea ajustar por la tendencia, ajuste una curva de tenden-


cia apropiada a los datos mensuales mediante los mínimos cuadrados y
divida los datos ajustados estacionalmente entre los valores de la tenden-
cia antes de calcula.r los promedios movibles de tres y cinco meses. (Sin
654 Variaciones estacionales y cíclicas

embargo, el orden de las operaciones representa una diferencia mínima


o nula). O sea, suponiendo que las ventas representan el producto de
T X C X S X 1,14 el ajuste estacional es TCS1/S = TC1; dividiendo entre
los valores de la tendencia obtenemos TC1/T = Cl; y un promedio
movible de tres o cinco meses suprime parte de los movimientos irregu-
lares para dejar C como residuo. Todos los pasos se pueden realizar con
calculadoras manuales.
Aquí no ilustraremos el método aritmético de aislamiento de los ciclos
en las ventas de Sears Roebuck, puesto que ya hemos descrito el paso 1;
el paso 2 es complicado y el paso 3 generalmente es innecesario; y las
curvas TCl y TC resultantes de los pasos 1 y 2, respectivamente, serían
bastante similares a las mostradas en la figura 20-6. La principal dife-
rencia es que el promedio movible a corto plazo sería un poco más irre-
gular, aunque más objetivo, que al curva TC trazada a pulso.

Métodos por computadora

Los programas para computadoras electrónicas descritos antes, no


solamente ajustan los datos mensuales o trimestrales por la estacionalidad,
sino que también suavizan las irregularidades por medio de promedios
movibles a corto plazo. Un promedio de uno a seis meses se utiliza en
el método Census II dependiendo de la amplitud relativa de los cambios
irregulares de mes a mes comparados con los cambios ciclicos en una
serie. Esto, es, el número de "meses de dominio cíclico" se calcula como
MCD = l/C, donde 1 es el movimiento promedio absoluto irregular por
mes y C es el cambio promedio absoluto cíclico. 15 Este es el intervalo de
meses en el cual el elemento cíclico acumulativo en la serie excede típica-
mente el elemento irregular de un mes. En series muy irregulares taJes como
riesgos de fracasos en los negocios, se requiere un promedio movible
semestral para que el elemento cíclico domine sobre los movimientos
irregulares. Por otro lado, un cambio de un solo mes en el índice de
Producción Industrial del Federal Reserve Board contiene típicamente
un elemento cíclico mayor que el irregular, así las cifras mensuales reales
se utilizan sin promediar varios meses.
La figura 20-7 ilustra la eliminación de la estacionalidad y la suavi-
zación de las irregularidades en el número de hombres desempleados desde
1948 hasta 1965, utilizando el método de computadoras BLS. El cuadro
superior muestra los datos reales y el componente final de tendencia-
cíclica, luego de eliminar el patrón estacional ,cambiante y las irregulari-

J4 Es decir, TeSI, no T + C + S + I, puesto que C, S y aun I, tienden a


ser más constantes como porcentajes que corno cantidades absolutas, Sin embargo,
estos factores se pueden sumar (o resta!') en una gráfica semilogarítmica, puesto
que esta cperación equivale a sumar los logaritmos o multiplicar los valores natu-
~9, .

L-, e
incluye la componente de tendencia, pero ésta es despreciable en un mes,
V(a Business Conditions Digest para una explicación más detallada,
Cómo medir los ciclos 655

dades marcadas separadamente en los cuadros inferiores. Observe la cla-


ridad con que se destacan los ciclos de desempleo en la curva de tenden-
cia-cíclica, en comparación con los datos reales, que están dominados por
influencias muy irregulares y estacionales. En particular, los máximos y

Millones Millones
3.5 3.5

~J
L

3.0 ---- - r\
~I ~ 1)"''I'i'cidi" 3.0

2.5 -
/ .~~ 2.5

2.0
~
~
,~~~~ " :~.~ ..
2.0

~.~.~
..

1.5 -
.... ~~ ¡,
1.5

~~
~
1.0 - - 1-- 1.0

.5 .5

o O
Porcentaje Porcentaje
140 140
130 130
120 120
110 110
100 100
90 90
SO BO
7O '--J~-J.._-'-_...L..._ _-L-__L-~_-.J..~-'--
_ _..L...._l.---'_---L_-'-_...L..._-L-_L---' 711
Razón Ratio
1.30 · - , - - - , - - , - r - - - - ¡ - - , - , - - , - - - r - - r - , . - - - r - - r - - r - r - - - , 1.30
Irregular
1.20 1.20

1.10 1.10

UIO 1.00

.00 .SO
'48 'Al9 '50 '51 '52 '53 '54 '55 '56 '57 '58 '59 '50 '61 '62 '63 '64 'S5
* Edad: 20 años o más
FUENTE: U.S. Bureau of Labor Statisties, Th, BLS Seasonal Factor Mc/lwd (1966), pág. 2
Figm'a 20-7
COMPONENTES DE TENDENCIA-CICUCA, ESTACIONALES
E IRREGULARES
Hombres desempleaclos* en los Estados Unidos,
Abril de
194-8-junio de 1965
656 Variaciones estacionales y cíclicas

mínimos del ciclo de desempleo ocurren en épocas bastante diferentes


de aquellos que aparecen en los datos reales.

PRONOSTICO CICLICO

Podemos pronosticar los cambios mensuales en las series de datos para


el siguiente año combinando su tendencia, estacionalidad y componentes
cíclicos. La proyección de los elementos de te!ndencia y estacionales es
un proceso estadístico directo, pero la predicción de los cambios cíclicos es
mucho más difícil. Los ciclos son recurrentes, pero no periódicos; sus
períodos de expansión o contracción se deben invertir en puntos de
cambio que se deben prever o, cuando menos, hay que identificarlos
cuando ocurren para que sea exitosa la planeación en los negocios. Tam-
bién, a diferencia de los movimientos de tendencia y estacionales, los
ciclos en series específicas reciben la influeIlcia por el ciclo general de
los negocios, y así su previsión requiere un estudio de toda la economía.

Métodos ingenuos
Existe una serie de métodos simples que se utilizan implícita o explí-
citamente para predecir el futuro a corto plazo. Algunos de ellos son los
siguientes:
1. Suponga que el nivel más probable de actividad futura será el
del pasado reciente. Esto es una falacia; la condición normal es la de
cambio. Por ejemplo, una persona compra bonos con la esperanza im-
plícita de que el poder de compra del bono permanecerá relativamente
estable durante su vida. Si las probabilidades son de que haya una ten-
dencia inflacionaria en los precios, puede: en cambio sufrir una dismi-
nución costosa del poder de compra de su bono.
2. Suponga que los negocios del próximo año ,aumentarán (o dismi-
nuirán) a la misma tasa porcentual que el año en curso. Algunos ejecu-
tivos tienden a proyectar el estado actual de los ciclos comerciales en el
futuro. Suponen que si existe prosperidad hoy, continuará mañana. La
recesión presente hace que los hombres se vuelvan cautelosos respecto a
compromisos futuros. A pensar de eso la experiencia pasada muestra que
a la prosperidad sigue frecuentemente la recesión, y viceversa.
3. Suponga que los negocios en el siguiente año se desarrollarán a la
tasa promedio de la tendencia secular de un cierto número de años
pasados.
4-. Estime que la duración de la fase actual de expanslOn o con-
tracción del ciclo será igual al promedio de los ciclos pasados. Sin em-
bargo, los ciclos individuales varían tanto en la duración de la fase,
como se muestra en la tabla 20-5, que la duración' promedio de los
ciclos pasados es de poco valor para predecir.
5. Envíe un cuestionario preguntando las opiniones sobre la pers-
pectiva de los negocios a una gran lista de personas que pueden intere-
Pronóstico ciclico 657

sarse, tales como los suscriptores de la revista Fortune o los miembros


de la Sección Económica y Comercial de la Asociación Estadística Ame-
ricana. Así, de una cantidad de respuestas informales uno espera desarro-
llar un pronóstico preciso. El uso de encuestas para estimar el consenso
de opiniones y conjeturas es un pasatiempo muy eomún en los asuntos
económicos, políticos y sociales.
Con mayor frecuencia algunos de estos métodos, particularmente el
1 y el 3, resultan más acertados que equivocados, ya que la estimación
usual del crecimiento continuo refleja el crecimiento a largo plazo de la
economía y porque las expansiones cíclicas duran más que las contrac~
ciones. Pero ese éxito es ilusorio. Se necesita un análisis estadístico más
elaborado para tener una base adecuada de planeación para operaciones
futuras.

Promedios movibles ponderados exponencialmente

Se puede utilizar un programa sencillo de computadora para pro-


nosticar las ventas de un gran número de productos para algunos meses
próximos, para la planeación a corto plazo y para el control de inven-
tarios. La estimación es un promedio movible de los meses pasados, con
ponderaciones que declinan exponencialmente. O sea, al último mes se
le da un parámetro de ponderación de más peso y. el parámetro de pon-
deración para cada mes precedente se reduce en un porcentaje constante.
(La suma de los parámetros de ponderación debe totalizar 1.) Tal pro-
cedimiento parece fastidioso, pero realmente es sencillo para la compu-
tadora, ya que todos los datos anteriores se pueden resumir en un solo
número y solamente se suma el último mes para obtener el promedio
movible hasta la fecha. El resultado es muchas ~eces una estimación razo-
nable para el mes siguiente ya que el promedio movible proporciona
mucho mayor ponderación al último mes pero además suaviza la mayoría
de las irregularidades promediando un número de valores anteriores.
Los ajustes de tendencia y estacionales también se pueden incorporar en el
programa. lG
Los métodos .anteriores tienen la limitación de basarse esencialmente
en las tendencias pasadas y no en las perspectivas del futuro. Sin em-
bargo, no 'es predecir una continuidad de la fase actual, sino más bien
reconocer los puntos de cambio. Los siguientes métodos pueden ser útiles
para este propósito.

Indicadores anticipados y retrasados

La mayoría de los procesos comerciales se incrementan o decrecen


lfl Vea Peter R. Winters, "Forecasting Sales by ExponentiallyWeighted Moving
Averages", en F. M. Bass et al., Mathematical Models and Methods o[ Marketing
(Hamewood, Illinois: Richard D. Irwin, 1961), págs. 482-514. Vea también Robert
G. Brown, Smoothing, Forecasting, and Prediction o/ Discrete Time Series (Engle-
wood Cliffs, Nueva Jersey: Prentice-Hall, 1963), capítulos 7 y 12.
658 Variaciones estacionales y cíclicas

más o menos al mismo tiempo conforme al ciclo comercial, pero algunos


son más sensibles que otros, o representan etapas iniciales de la produc-
ción, y entonces alcanzan sus máximos y mínimos antes de los indica-
dores agregados. Así, la semana promedio de trabajo de los trabajadores
de la producción en manufacturas responde más rápidamente a los es-
tímulos económicos que el total de los trabajadores no agrícolas. Los
nuevos pedidos de bienes duraderos y contratos de construcción preceden
a las erogaciones comerciales reales para· nuevas plantas y equipo. Los
precios de las acciones comunes se anticipan a los cambios futuros en
utilidades. Finalmente, los precios de artículos sensibles tales como dese-
chos de acero se mueven más rápidamente que los precios compuestos
al mayoreo de productos no agrícolas.
La Oficina Nacional de Investigaciones Económicas de los Estados
Unidos ha seleccionado un número de series mensuales y trimestrales que
tienden a adelantarse al ciclo general de los negocios en sus puntos de
cambio, otro grupo que es aproximadamente coincidente en su presenta-
ción con los negocios en. general, y algunos indicadores que tienden a
retrasarse. 1 7 Estos se ajustan por. variaciones estacionales e irregularida-
dades por métodos de computación, y se reportan mensualmente en
Business Cond'itions Digest. Así,· durante una expansión cíclica, una cri-
sis marcada de la mayoría de los índices anticipados nos previene para
impedir una posible crisis de los negocios en general. Si la mayoría de los
índices coincidentes declinan entonces, esto confinna los movimientos de
los índiees anticipados, y si los indicadores retrasados. siguen la misma
trayectoria, es casi segura una recesión general de los negocios.
Desafortunadamente, ninguno de estos indicadores es coincidente en
el tiempo, y mientras que la mayoría de ellos en realidad tienen dirección
contraria a los máximos y mínimos reales de los negocios, muchas veces
nos dan señales falsas debido a los movimientos menores intermedios, por
lo que se deben utilizar con precaución.

lndices de difusión

Un índioe de difusión también se basa en el prinCIpIO de que los


distintos procesos en los negocios alcanzan sus máximos y mínimos en
diferentes épocas, pero este recurso no nos obliga a identificar cuáles
series en particular son anticipadas y cuáles son retrasadas. Un índice
de difusión es simplemente el porcentaje de todas las series ajustadas
estacionalmente que aumentan en un mes dado. (Algunas veces se utiliza
también un lapso de seis a nueve meses). Así,si el 60% de las series se
incrementan de octubre a septiembre, y el 40% estuvieron estacionarias
o declinaron, -el índice de difusión sería 60.
Durante el período de expansión media, tal vez el 80% o más c~~
todas las series aumenta. Pero en el máximo de la a¿:tividad agregada,
j .. Para una. descripción más detallada, ver G.H. Moore and J. Shishkin,
lndícators 01 Business Exprl7lsions and Contractions (Nueva York: Columbia Uní·
versi ty Press, 1967).
Pronóstico ciclico 659

alrededor de la mitad de los indicadores del volumen comercial indicará


un momento de crisis, mientras que la otra mitad se encuentra todavía
incrementándose, de tal modo que el índice de difusión auzará la lí-
nea del SO% en dirección descendente. Asimismo, en el período me-
dio de recesión el índice de difusión puede bajar hasta un 20%. Pero
en el mínimo de los negocios en general, alrededor de la mitad de
las series del volumen de negados se encontrará en un momento de re-
cuperación mientras que la otra mitad estará todavía declinando, y el
índice de difusión habrá aumentado aun SO%aproximadamente. Por
10 tanto, un índice de difusión señala un máximo o un mínimo de la
actividad comercial general al cruzar la línea del SO% ya sea hacia
abajo o hacia' arriba. Por lo tanto, teóricamente un índice de difusión
se puede adelantar a las series agregadas en que se basa tal vez con un
cuarto de ciclo. Los índices de difusión de muchas industrias se publican
mensualmente (por ejemplo, pedidos nuevos de bienes duraderos en 36
indus!trias) en Business Conditions Digest. En forma similar ,en Jos indi-
cadores anticipados y retrasados, los índices de difusión usualmente mar-
can bastante bien los puntos de cambio de los ciclos comerciales reales,
pero muchas veces nos dan señales falsas al cruzar la línea del SO%
debido a movimientos irregulares a corto plazo.

Duración promedio del recorrido

Los índices de difusión descritos anteriormente no son ponderados


porque cada serie tiene el mismo peso. Un método de ponderación es
asignar a cada .serie durante un mes dado un número de + 6 a - 6,
dependiendo del número de meses en que su componente de tendencia-
dclica ha aumentado o disminuido sin interrupción. Así, si los contratos
de construcción se han incrementado durante 6 o más meses desde enero
se marca con +6, mientras si el empleo ha declinado durante dos meses
desde el último incremento se cuenta como - 2. Entonces, estos números
se promedian para todas las series en un mes dado, y se grafica entonces
la "duración promedio del recorrido" resultante. Esta serie señala un
máximo o mínimo en los negocios cuando cruza la línea de 0, yendo
hacia abajo o hacia arriba, respectivamente, en la misma forma que el
índice la difusión lo hace al cruzar la línea del SO por ciento.
La figura 20-8 muestra un grupo de indicadores· anticipados, coinci-
dentes y retrasados" índices de difusión ("porcentaje de expansión") y la
duración mensual promedio, según datos recopilados por Statistical Indi-
catar Associates. En 1966, los indicadores anticipados dieron una alarma
preliminar respecto a una posible disminución de los negocios en general,
pero ello no fue confirmado por los indicadores coincidentes y no ocurrió
una recesión. Sin embargo, la'baja de tres indicadores anticipados fue
mnfirmada por la mayoría de los indicadores coincidentes para señalar
la contracción de los negocios de noviembre de 1969 a noviembre de
660 Variaciones estaciona/es y cíclicas

1970 (tabla 20-5). Los indicadores también dieron una señal temprana
de la recuperación siguiente.

Examen de datos de anticipación

Este método se basa en la premisa de que los hombres de negocios,


y en menor cantidad los consumidores, hacen planes al futuro para los
gastos en bienes de capital, y que un análisis de estas intenciones tendrá
significación para pronosticar. Las encuestas sobre los planes de los hom-
bres de negocios para gastar en nuevas plantas y equipo, l'ealizada por·
el Departamento de Comercio y la Comisión de Cambios y Valores de
los Estados U nidos y por McGraw"Hill, se siguen ampliamente. La Ofi"
cina de la Conferencia Industrial Nacional analiza las compras de capital
de grandes firmas. El Centro de Investigaciones y Análisis de la Univer-
sidad de Michigan y la Oficina del Censo de los Estados Unidos inves-
tigan los planes de los consumidores respecto a compI'as de casas, auto"
móviles y equipo duradero. 18

122
Compuesto anticipado

120
Compuesto coinciden~te~_4--_ _ -t--__..J,.".""'-'T
94

126

Compuesto retrasado ~-~---+--

19

Figura 20-8
][NDICES COMPUESTOS

18 Vea The Quality and Economic Signilicance 01 Anticipations Data de la


Oficina Nacional de Inw",tigaciones Económicas (Princeton, N. J.: Princeton Uni-
versity Press, 1960) ,para una apreciación de estos métodos. El Business Conditions
Digest reporta datos actuales.
Indicadores anticipados

Indicadores retrasados

DURACION MENSUAL (PROMEDIO)

:1
Irtdicadores coinciden tes

Meses Indicadores retrasados

~Etij,EEt
1966 1961 1968 1969 1910
Fuente: St.tistic.l Indie.tor Associ.tes. North Egremont. M.ss.
1..911 1912
I
Figura 20-8 (Continuación) Expansión (porcentaje)
661
662 Variaciones estacionales y cíclicas

Por ,supuesto, las encuestas de opiniones de los pronosticadores pro-


fesionales son valiosos, en oposición a las encuestas por listas generales
de correos, que fueron clasificadas como métodos ingenuos con anterio-
ridad. Así, la Oficina de la Conferencia Industria] Nacional de los Esta-
dos Unidos publica las conclusiones de una conferencia anual de los
principales pronosticadores. El Servicio Come,rcial Unido resume las opi-
niones de otros ocho servicios financieros cada mes. Los Bancos de la
Reserva Federal de Filadelfia y Richmond seleccionan y compilan cientos
de pronósticos al principio, del año. Si usted se confunde con la multi-
plicidad de las opiniones de expertos, siga entonces el consenso general.

RESUMEN .DE LOS METOnOS ESTADISTICOS

En este punto podemos resumir los métodos ,estadísticos que son útiles
en los pronósticos comerciales. Se necesitan los métodos de eneuestas por
muestreo (capítulo 12) para analizar las expectativas de los hombres de
negocios y los consumidores para el futuro próximo. El análisis de regre-
sión de las series cronológicas (capítulos 16-17) nos permitirá relacionar
nuestro propio proceso (por ejemplo, las ventas de una compañía o
industria) con alguna serie agregada (por ejemplo, ingreso personal)
para la cual existen proyecciones. Así, Predicasts recopila de muchas fuen-
tes,pronósticos para muchos agregados económicos y totales industriales
para 20 o más años en el futuro.
Los números índice (capítulo 18) sirven para resumir agregados eco-
nómicos y sus características (v. g. índices de difusión) y hacen compa-
rables series distintas. Finalmente, el análisis d,e series cronológicas (capí-
tulos 19 y 20) constituyen un método de proyección de tendencias secu-
lares, movimientos estacionales y ciclos de una serie comercial para obte-
ner un pronóstico compuesto. '
No todos los métodos estadísticos utilizados en el pronóstico a corto
plazo se necesitan en el pronóstico a largo plazo, que abarque tal vez
de cinco a diez años en el futuro, implica típicamente una proyección de
tendencia secular y análisis de regresión, para comparar las series con
agregados económicos básicos. Sin embargo, el pronóstico a largo plazo
no está relacionado con las variaciones estacionales ni es posible pronos-
tic,:tr, la fase de los ciclos comerciales con más de un año o dos de anti-
cipación, las encuestas de provisiones o expectaciones tampoco son válidas
en el pronóstico a largo 'plazo.
En d pronóstico a corto plazo, generalmente incluyen estimaciones
mensuales para el año próximo, todos los métodos estadísticos anteriores
son aplicables. En particular, es útil extrapolar la tendencia y los movi-
mientos estacionales de una serie mensual mediante el análisis estadístico
y económico si es factible que la fase actual del ciclo comercial continúe o
si existe la posibilidad de un punto de cambio. Finalmente, los compo-
nentes cíclicos de las series individuales (por ejemplo, ventas industria-
les) se pueden correlacionar con los elementos cíclicos en alguna serie
Resumen 663

básica tal como el ingreso personal, para el cual exister estimaciones


disponibles. Todos los métodos anteriores se pueden llevar a cabo de ma-
nera eficiente y exhaustiva mediante computadoras electrónicas en aná-
lisis de gran escala.
Aunque los métodos estadísticos son herramientas necesarias en los
pronóiticos comerciales, no son en sí mismos suficientes para completar
el trabajo. Es necesario complementar los resultados estadísticos con un
análisis económico de los factores cíclicos de crecimiento a nivel nacional,
industrial y de empresas. De acuerdo con esto, a menudo al especialista
de la corporación responsable del pronóstico se le denomina economista
comercial y no estadígrafo. Por supuesto que, en éste no se estudia la
economía del pronóstico. lv

RESUMEN
Las v.ariaciones estacionales son fluctuaciones rítmicas regulares en
un periodo de un año resultantes del clima y de las convenciones hechas
por el hombre como en el caso de las fiestas. Afectan casi todos los pro-
cesos económicos en diferentes grados, particularmente en el punto de
origen y en el punto de consumo. Las variaciones estacionales pueden
cambiar en su carácter a través de los años. Sin embargo, las fluctua-
ciones estacionales son mucho más regulares que los ciclos y en conse-
cuencia se pueden medir y proyectar mucho más exactamente. Los rit-
mos regulares también ocurren trimestral, mensual, semanalmente o en
periodos diarios. Finalmente, el calendario mismo causa variaciones cuasi-
estacionales en los datos semanales y mensuales, ya que el número de
los días hábiles en el mes varía de un mes a otro o de una semana a la
siguiente.
El ajuste por las .variaciones del calendario se realiza como un paso
preliminar en las mediciones estacionales con objeto de eliminar las fluc-
tuaciones en los datos causados por la longitud variable en los meses de
trabajo. Los datos se dividen entre el número de días hábiles que hay
en cada mes para poner las series en una base promedio diaria uniforme.
Las variaciones estacionales se miden con el propósito de entender
las fluctuaciones pasadas, pronosticar y realizar presupuestos, o ajustar los
datos y así revelar los ciclos. El patrón estacional se describe mejor con
los índices estacionales que representan el valor promedio de cada mes
relativo al promedio' de los 12 meses como 100%. El período analizado
debe ser lo suficientemente largp para eliminar las particularidades de
años individuales, pero se deben' omitir los períodos anormales.

19 Vea W, F. 'Butler y R. A. Kávesh, How Business Economists Forecast


(Englewood Cliffs, Nueva Jersey: Prentice-Hall, 196&); H. D. Wolfe, Business
Forecasting Methods (Nueva York: Holt, Rinehart y Winston, 1966); H. O.
Stekler, E.conomic Forecasting(Nueva York Praeger, 1970); R. K. Chisholm y
G. R. Whitaker, Jr., Forecasting Methods (Homewood, 111.: Richard D. Irwin,
1971); o las fuentes que se indican en J. B. 'Woy, Business Trends and Forecasting
(N lleva York: Cale Research, 1965) para estudios posteriores.
664 Variaciones estacionales y cíclicas

Se describen varios métodos de cálculo de los índices estacionales.


Los métodos gráfico y de proJ:I:ledios movibles se resumen. en la tabla, con
~ímbolospara indicar cómo los factores de tendencia (T), ciclo (C) e
irregulares (1) se eliminan para aislar el índice estacional (S).

Método Método de Muest'ra


Paso gráfico promedios móviles
Marcar en una gráfica se· Marcar en una gráfica semi- TCSI
milogarítmica logarítmica

2 Trazar a pulso una curva Calcular el promedio moví- TC


de tendencia cíclica (TC) ble de 12 meses

3 Leer las razones de los da- Dividir los datos entre el SI


tos a la curva de tenden- promedio movible
cia cíclica (TC) con una
tira de medición

4 Promediar las razones para Promediar las razones para S (preliminar)


cada mes cada mes

5 Multiplicar la suma de los Multiplicar. la suma de los S


índices por 1,200 índices por 1,200

6 Para ajustar por estaciona- Para ajustar por estaciona- TeI


lidad, desplazar los datos lidad, dividir los datos
marcados desde el índice entre los índices estacio-
estacional hasta. la línea nales
base de la tira de me-
díción

Se pueden mejorar los resultados trazando de nuevo la curva de


tendencia cíclica a través de los datos ajustados estacionalmente y repi-
tiendo los pasos 3 a 5 (y el 6 si se desea).
Si el patrón estacional cambia a través de los años, se pueden calcu-
lar índices estacionales movibles o cambiantes. con cualquiera de los mé-
todos anteriores marcando las razones de cada mes en el paso 3 crono-
lógicamente y leyendo los índices preliminares en las curvas de tendencia
trazadas a pulso, las cuales pasan por estos puntos.
Hay programas de computadora electrónica tales como el Census JI
que incrementan grandemente la velocidad de los cálculos necesarios y
permiten varios perfeccionamientos en la técnica, tales como ajustes del
calendario para evidencias internas, mejoramiento de las estimaciones
de tendencia cíclica utilizando promedios movibles ponderados, ponde-
raciones reducidas para valores extremos, cálculo de índices estacionales
cambiantes y varias medidas sumarias y pruebas de significación.
Los métodos se comparan como sigue: el método· gráfico es rápido,
flexible y permite un control continuo de las operaciones, mientras que
el método de los promedios movibles es objetivo y se puede realizar
mediante trabajo de oficina en calculadoras manuales. Se recomiendan
Resumen 665

programas de computadoras electrónicas cuando hay que tratar muchas


series, ya que nos da resultados rápidos y e {actos en' manos de un
analista experimentado.
La estacionalidad algunas veces se toma en cuenta sin mediciones
reales por medio de 1) .descripción cualitativa, 2) comparación de un
mes con el mismo mes del año anterior, .o 3) marcando los datos de
varios años en una gráfica con la misma escala de tiempo mensual. Esos
recurs.os son útiles para una presentación simple, pero los índices esta-
cionales se necesitan para análisis perfeccionados.
Para realizar un pronóstico a corto plazo, proyecte la curva de ten-
dencia cíclica (ver pronóstico de ciclos) y multiplique estos valores por
los índices estacionales de cada mes (o sea, Te x s = TCS) u obtener
estos índices en la curva de tendencia cíclica (TC) con la tira de me-
d:ción gráfica.
Las fluctuaciones dclicas son los movimientos rítmicos que alternan
prosperidad y depresión y que se han desarrollado en las economías in-
dustrializadas. Los ciclos varían ampliamente en sus momentos de apa-
rición, sus patrones y amplitud, tanto de un ciclo al siguiente romo de
industria a industria. Sin embargo, los principales puntos de prosperidad
y depresión afectan a casi todas las actividades económicas.
Las fluctuaciones irregulares son el componente residual de una serie
cronológica después de que se han tomado en cuenta la tendencia secu-
lar, los ciclos y los movimientos estacionales. Sin embargo, usualmente
es imposible separar los movimientos cíclicos y las fluctuaciones irregu-
lares de una manera satisfactoria. Los factores irregulares pueden ser
"fuerzas exógenas" importantes (tales como las guerras y las decisiones
gubernamentales) que influyen en los ciclos comerciales, o pueden ser
factores varios desconocidos e imprevisibles de naturaleza aleatoria.
La medición de los ciclqs comerciales es importante para el estudio
del comportamiento cíclico pasado, para pronosticar la actividad co-
mercial y para planear una política de estabilización. Los ciclos se pueden
aislar 1) eliminando la estacionalidad y tal vez la tendencia división o
ajuste gráfico y 2) suavizando las irregularidades mediante promedios
movibles a corto plazo o curvas trazadas a pulso. El componente cíclico
queda como un residu.o. Algunas veces solamente es necesario el ajuste
estacional. Los programas de computadoras tales como el Census II eli-
minan los componentes estacionales y de calendario en pasos sucesivos y
luego suavizan los residuos con un promedio movible de uno a seis meses,
dependiendo de la irregularidad de los datos, para llegar al componente
de tendencia cíclica. La tendencia se deja, ya que no impide apreciar
el patrón cíclico a corto plazo.
Es importante pronosticar las ondulaciones cíclicas de los negocios
particularmente en los puntos de cambio. Se han analizado una serie
de métodos de pronóstico estadístico: 1) varios métodos sencillos de
uso común, 2) promedios movibles exponencialmente ponderados, 3) in-
dicadores anticipados y retrasados, 4-) .índices de difusión, 5) duración
promedio del recorrido, y 6) encuestas de datos de anticipación. Sin
666 Variaciones estacionales y cíclicas

embargo, los métodos estadísticos, se deben complementar con análisis


económicos cuidadosos para obtener un pronóstico adecuado.
El pronosticador estadístico debe estar familiarizado con los mate-
rialesexpuestos en los capítulos 12, y 16a 20 de este libro, así como de
textos de economía apropiados,como. base para llegar a ser un perito
en el arte estratégico del pronóstico comercial. .

PROBLEMAS

1. a) Obtenga una fotocopia de !lna gráfica publicada de datos mensuales en


que predominan movimientos estacionales. No use los ejemplos del libro
de texto.
b) Describa las características estacionales: ¿ es la amplitud estacional gran-
de o pequeña? ¿ Es el patrón estacional regular o ir'reguhir? ¿ Cuáles
son los meses altos y bajos y la tendencia estacional de otros meses? Dé
razones para estos movimientos.

2. a) Obtenga una fotocopia de una gráfica publicada de. datos mens!lales en


los' cuales predominen las .fl!lctuaciones cíclicas e irregulaes sobre los
movimientos sec!llares o estacionales. No use los ejemplos del libro de
texto.
b) Describa sus características cíclicas: ¿ es la amplitud grande o pequeña?
¿ Cómo se compara la oportunidad de máxÍmos y mínimos ,con la de los
puntos críticos en los negocios en general (tabla 20-5)? ¿ Cuál es la fase
actual del ciclo expansión o contracción?
C') Describa los movimientos irregulares: ¿ cuál fue el comportamiento de
estas series durante las guerras recientes? ¿ Qué otras influencias no co-
merciales han originado fluctuadones irregulares prolongadas? ¿ Son las
fuerzas aleatorias de zigzag de mes a mes marcadas o moderadas?

3. ¿ Cuáles de los siguientes ejemplos se deben cambiar a una base de promedio


diario, y cuáles no? ¿ Por qué?
a) Datos mensuales de promedio de ventas por vendedor en una cadena de
tiendas de artículos para dama.
b) Un registro mensual de los inventarios de una tienda de departamentos.
e) El total de préstamos de un banco comercial en el último día de cada
mes.

4. a) Con base en los informes de Standard and Poor, haga una lista, de las
ventas de Sears Roebuck para los primeros cinco períodos de 4 ó 5 se-
manas cada uno, para este año o el pasado.
b) Ajuste estas ventas a una base diaria promedio, contando el sábado como
1 Y2 días y omitiendo los domingos, el 1Q de enero, y el 30 de mayo.
(Vea el calendario.)
e) Trace las ventas reales y el promedio di¡¡.rio de ventas en una pequeña
gráfica, usando dos escalas.
d) ¿ Cómo influye el ajuste de calendario a los movimientos de mes a mes?
5. a·) Defina "índices estacionales". Distinga entre índices estacionales constan-
tes y varia,bles.
b) Habiendo éalculado índices estacionales, describa brevemente cómo hacer
un pronóstico estacional.
e) En una gráfica se lee "ajustada por variación estacional". ¿ Por qué?
d) ¿ Por qué es a veces necesario ajustar los datos mensuales por variacio-
nes de calendario antes de medir la estacionalidad?
Problemas 667

6. Los índices de ventas estacionales para la Holloway Company son enero, 97;
febrero, 89; marzo, 101; abril, 104; mayo, 120; etc.
a) Las ventas de la compañía se incrementaron de $2.910,000 dólares en
enero de 1973 a $2.964,000 dólares en abril del mismo año. ¿ Cuál fue
el cambio porcentual en las ventas ajustadas estacionalmente entre enero
y abril? .
b.) El tesorero de la compañía ha pronosticado ventas de 36 millones de
dólares para el sigujente año calendario. Considera que para mayo el
componente de tendencia cíclica deberá estar aproximadamente un 5%
arriba del nivel prcmedio mensual. Con base en esas suposiciones, diga
¿ cuál es el pronóstico de ventas del tesorero para el mes de mayo?

7. La. siguiente tabla' muestra la prcduceión de cemento Portland (en miles de


sacos) de la Compañía de Cemento Costera de 1968 a 1972:

TRIMESTRE

Promedio
Año Primero Segundo "l'ercero Cuarto anual

1968 100.3 148.5 147.6 128.7 131 ..3


1969 111.5 162.9 164.6 147.2 146.6
1970 142.5 171.2 170.8 162.5 161.8
1971 151.0 174.8 167.6 155.1 162.1
1972 147.3 168.8 167.7 153.6 159.4
Total 652.6 826.2 818.3 747.1 761.2
Promedio
trimestral 130.5 165.2 163.7 149.4 152.2

a) Calcule índices de variaclOn estacional para los datos de producción de


cemento por el método gráfico.
b) Ajuste estas series por la variación estacional gráficamente.
e) Pronostique gráficamente la producción de cemento para los cuatro tri-
mestres de 19.73, prolongando su curva trazada a pulso de tendencia
cíclica.

8. a) Calcule índices de variaclOn estacional para los datos de prod ucción de


cemento del problema 7 por el método de promedios, movibles, centrando
el pron:edio movible en el tercer trimestre. Use estas cifras de producción
adicionales: 1972, tercer trimestre, 156.0 miles de barriles; cuarto trimestre,
132.2; y 1973, primer trimestre, 137.3 miles de barriles.
b) ¿ Qué tanto difieren estos índices de aquellos del método gráfico? Dé
razones para esas diferencias.
e) Ajuste estas series aritméticamente por variación estacional y grafique los
resultados. ¿ Cuál es el propósito de este ajuste?
do) Pronostique la producción de cemento en el segundo trimestre de 1973,
suponiendo una disminución en la tendencia cíclica de 2'f¡- respecto al
primer trimestre.

9. Usando los datos de los problemas 7 y 8:


¿Qué factores son los que determinan si se debe calcular índices estacionales cons-
tantes o variables?
668 Variaciones estacionales y cíclicas

b) ¿ Cómo difiere el cálculo de un índiCe estacional variable del cálculo de


un índice estacional constante?
e ) ¿Existe evidencia de . estacionalidad cambiante en la producción de ce-
mento? Haga pequeñas gráficas para cada uno de los cuatro trimestres
con objeto de sustentar su respuesta.

10. Como analista de la Compañía de Petróleo Extron, usted desea medir la


variación estacional de las ventas de gasolina de la compañía por el método
gráfico, usando los datos siguientes:

VENTAS DE GASQLINA, PROMEDIOS DIARIOS EN CIENTOS DE BARRILES

1967 1968 1969 1970 1971 1972 1973

Enero ......... 252 264 269 274 330 327 361


Febrero ....... 271 263 278 295 330 335 398
Marzo ........ 264 283 298 318 336 348 382
Abril ......... 287 300 320 3:H 357 397 407
Mayo ......... 287 307 321 359 374 398 406
Junio ......... 317 340 351 368 406 410 425
Julio o •••••••• 298 328 342 377 399 429 438
Agosto ........ 320 335 355 376 408 428
Septiembre 304 342 344 367 380 416
Octubre ....... 298 298 319 348 401 411
Noviembre ..... 275 311 320 332 349 376
Diciembre o •• 0,'·0 296 292 308 324 344 387
Promedio ...... 289 305 319 339 368 390··

a) Trace los datos en una gráfica semilogarítmica de un ciclo; trace una .curva
de tendencia cíclica de los promedios anuales de 1967-1972 (prolongándola
hasta 1973·), Y determine los 12 índices estacionales por medio de una tira
de medición.

b) Describa brevemente el comportamiento estacional típico en las ventas de


una compañía. ¿ Es la estacionalidad regular o irregular?
e) Pronostique la demanda de gasolina para los siguientes cuatro meses (agosto-
noviembre de 1973) estableciendo los índices de estacionalidad a partir de
su tira de medición hacia arriba o hacia abajo .de la prolongación de la
curva de tendenda cíclica en la gráfica. Grafique su pronóstico con una
línea punteada, y grafique también las cifras reales que se muestran abajo
(determinadas posteriormente) con una línea continua con el objeto de com-
parar los resultados. Las ventas reales fueron: agosto, 433; septiembre, 438;
octubre, 411; noviembre, 392.
d) Ajuste gráficamente los datos por la variacicf>n estacional y grafique los re-
sultados en rojo. Describa los movimientos principales no estacionales en la
demanda de gasolina para este período. ¿ Cuál de esos movimientos domina
la serie ajustada-tendencia, ciclos o fluctuaciones irregulares?

venta~ de la Compañía de
11. Con el objeto de analizar los factores que afectan las
Petróleo Extron, usted decide calcular índices de variación estacional para los
datos del problema 10 con el método de promedios movibles. Primero calcula
un promedio movible de 12 meses para cada mes, y luego divida las ventas
originales entre estos promedios; obteniendo los siguientes porcentajes:
Problemas 669

VENTAS MENSUALES DE GASOLINA COMO PORCENTAJE DE PROMEDIOS


MOVIBLES DE 12 MESES

Enero o ••••••••• 91.5 89.0 86.1 83.1 92.9 86.7 89.4


Febrero ......... 97.8 88.0 88.7 88.9 92.2 93.5 98.1
Marzo .......... 94.5 94.1 94.7 95.4 93.4 91.0 91.5
Abril ........... 101.8 ~9.2 101.1 99.3 98.4- 103.4 101.6
Mayo •••• o ••••• 101.0 101.0 101.3 106.4- 102.4 103.1. 98.5
Junio .... ' ..... 110.3 111.3 110.2 108.7 110.7 105.5 108.1
Julio ........... 102.8 107.5 107.4 110.2 108.4- 109.6 108.1
Agosto .......... 110.6 109.4 111.1 108.9 110.8 108.5
Septiembre ...... 104.8 111.1 107.1 105.5 102.6 104.6
Octubre ...... -. 102.1 96.3 98.9 99.6 107.6 103.0
Noviembre •• o· • • • 93.8 100.2 98.4 94.6 93,1 93.9
Diciembre ....... 100.4 9'3.6 94-.1 91.7 91.5 96.2

a) Si los datos originales representan T X e X s X 1 (tendencia X ciclo X es-


tacionalip,ad X fuerzas irregulares), ¿ qué tipos de fluctuaciones representan
los datos de la tabla mostrada arriba? ¿ Cómo se derivaron estos elementos
a partir de las cifras originales?
b) Calcule una media modificada de estos porcentajes para cada uno de los
12 meses (omitiendo en cada caso el porcentaje más alto y el más bajo
consicieraI:\do que son los más erráticoSo) con objeto de promediar los ele-
mentos irregulares. Si es necesario, luego multiplique esta media por
(1,200/su total), para que promedien 100. Haga una lista de los índices
resultantes de estacionalidad redondéandolos al entero más próximo.
e) En julio de 1973 el economista de la compañía predice que una recesión
cíclica durante el balance del año desviará la tendencia secular usual del
crecimiento. Con esa suposición, pronostique el promedio de venta diarias
de gasolina para noviembre de 1973 basado en el cambio estacional normal
desde julio (el último cuyes datos están disponibles). Dé el error por-
centual del pronóstico, comparado con la cifra real de 392 miles de ba-
rriles diarios promedio en noviembre.
d) Usted desea analizar el cambio en las ventas de gasolina entre febrero y
julio ,de 1973. Las ventas reales se incrementaron de 398 a 438, o sea
10%' en este período. Aju'ste los datos de estos dos meses por variación
estacional y calcule el cambio porcentual en las figuras ajustadas.
e) Muestre cómo se obtuvieron las cifras ajustadas de febrero.y julio en fun-
ción de los conceptos TSCI, y explique el significado del' cambio en la
demanda ajustada.

12. Se dice que la demanda de gasolina es menos estacional que antes, puesto
que la gente de áreas más frías que antes guardaba su carro durante el invier-
no, ahora maneja durante todo el año; los viajes de vacaciones que inicialmen-
te eran confinados al verano ahora se hacen durante todo el año. ¿ Confirman
esta teoría las cifras de los problemas 10 y 11? Es decir, ¿ tiende a elevarse
la demanda de gasolina en un mes invernal expresada como razón al promedio
mensual,. y en consecuencia lá razón para, un mes de verano a descender a
través de los años? Pruebe esta hipótesis de variación estacional para los
meses de febrero y junio como sigue:

a) Grafique los porcentajes de promedios movibles para febrero y junio del


problema 11 en una tabla aritmética de 2 cuadros.
b) Trace a pulso una línea de tendencia en cada uno de estos diagramas,
ignorando puntos erráticos.
e) ¿ Apoyan estas gráficas la teoría de que la demanda de gasolina se está
haciendo menos estacional ? Explique por qué.
670 Variaciones estacionales y ciclicas

d) Lea a partir de sus líneas de tendencia, y haga una lista de los índices
estacionales cambiantes para febrero y junio de 1973.

13. a) Cite la principal ventaja de los métodos gráfico y aritmético, respectiva-


mente, en el análisis estacional, y explique por qué lo escogió.
b) ¿ En qué tipo de estudio puede ser preferible el método de la calculadora
electrónica?
e) ¿ Cómo podría usted médir la irregularidad de las fluctuaciones estacio-
nales en su negocio?

14. a) Busque una serie de datos de meses. recientes que hayan sido publitados
con y sin ajuste estacional en el Survey of Current Business, o cúalquier
otra fuente. Describa la cifra del último mes en términos' de 1) el cambio
porcentual en el valor no ajustado de hace un año y 2) la relación del
valor' ajustado estacionalmente a aquellos de meses recientes. Compare
estos dos métodos para tomar en cuenta la estacionalidad.
b) Busque un indicador comercial semanal en forma de gráfica miíltiple para
varios años anteriores y describa su comportamiento reciente, iridicando
qué tipos de· componentes de fluctuaciones se' pueden distinguir.. (Una fuen-
te es el Federal Reserve Chart Book).

lS. a-) Haga una lista de los má.."'<imos y mínimos en negocios generales que hayan
ocurrido desde noviembre de 1970 (del Business ConditionsDigest, Apén-
dice E) para actualizar la tabla 20-S.
b) Cómo obtuvo estos "datos de referencia" la Oficina Nacional d~ Investi-
gaciones Económicas.

16. En su opinión, ¿cuál de los tres objetivos de la medición de ciclos es más


importante, para a) el ejecutivo de negocios y b) el Consejo de a~esores
económicos del presidente?· Explique sus preferencias.

17. 0:) Haga una lista de los pasos gráficos y aritméticos necesarios para aislar
la componente de tendencia cíclica de una serie cronológica.
b) ¿En qué medida eliminan estos procedimientos las influencias estacionales
e irregulares? ¿ Qué indicios de estos elementos pueden quedar en los
residuos de la tendencia cíclica?

18. Usualmente los ciclasen las series mensuales se estudian examinando datos
que están ajustados únicamente por variación estacional, puesto que la ten-
dencia secular raras veces impide apreciar ciclos de corto plazo y .los movi-
mientos cíclicos irregularés no se pueden separar completamente unos de otros.
Sin embargo, en el análisis de venta de gasolina (problemas 10 y 11), los ci-
clos en los datos ajustados estacionalmente (problema 10 [e]) resultan confusos
debido a la tendencia secular y elementos irregulares. Usted decidió eliminar
en lo posible estos factores, con el objeto de determinar, si la había, la natu-
raleza del ciclo que pudiera existir en esta industria.

a) Trace la curva de demanda de gasolina aj~stada estacionalmente del pro-


blema 10 (11'), sobre otra gráfica semilogaritmica y ajuste a ojo una ten-
dencia de línea recta (puesto que la tendencia es prácticamente lineal)
usando los promedios anuales como guía.
b) Ajuste las series por la tendencia secular trazando las desviaciones verti-
cales (no p~rpendiculares) arriba o abajo de la línea de tendencia, con
una tira de papel, alrededor de la línea horizontal impresa con "2" en
la gráfica. Marque una escala vertical "porcentaje de tendencia" con SO,
100 y 150 opuestas a las líneas impresas "1", "2", y "3", respectivamente.
La curva ahora está ajustada por estacionalidad y tendencia, de tal ma-
Problemas 671

nera que representa la fluctuación cíclica irregular estimada en la demanda


de gasolina.
e) Trace a pulso una curva flexible a través de la serie ajustada con el ob-
jeto de suavizar los zig zag de mes a mes, pero haga que siga de cerca
las variaciones cíclicas de corto plazo. Esta curva se aproxima por sí sola
al ciclo (incluyendo prolongadas influencias irregulares-).
d) Describa las. fluctuaciones cíclicas, si las hay, en la demanda de gasolina.
¿ En qué meses ocurrieron máximos o mínimos cíclicos?

19. Si se tiene disponible un programa de computación (por ejemplo, Censlls I1,


Variant X-U), analice las ventas de Sears, Roebuck en la tabla 20-2 para:
a) Ajustar las variaciones de calendario y estacionales.
b). Suavizar la irregularidad con un promedio movible de corto plazo, con
objeto de aislar la componente de tendencia cíclica.
e) Interpretar todos los resultados de su hoja impresa.

20. Analice las ventas de gasolina en el problema 10, usando el método de compu-
tadora indicado en el problema 19 a, b y c.

21. Estime el cambio porcentual en el producto nacional bruto de este año com-
parado con el del año pasado, usando tres de los cinco métodos "sencillos"
de pronóstico cíclico descritos en este texto. Haga un breve comentario de
la validez de los resultados.

22. Busque un artículo que \trate el uso de promedios movibles ponderados expo-
nencialmente en el pronóstico de corto plazo y prepare un reporte breve que
explique este método (ampliando la descripción del texto), indicando los' 'pros
y los contras.

23. ¿ Cuál es el estado actual de la expansión o contracción cíclica de los ne-


gocios en general? ¿ Existe algún prospecto de punto crítico? Cite pruebas
que sustenten o modifiquen su punto de vista a partir de:
a) indicadores de adelanto o. retraso.
b) índices de difusión.
e) Una fuente de datos de anticipación (por ejemplo, los planes de los hom-
bres de negocios de gastos para nuevas plantas y equipo').

24. Seleccione un indicador de adelanto del Business Conditions Digest (como se


indicó) y:
a) Explique con argumentos lógicos por qué este indicador se adelanta a los
negocios generales en puntos críticos cíclicos.
b) Describa su desempeño y confiabilidad en años recientes como barómetro
comercial.

25. Prepare una revisión crítica sobre el uso de índices de difusión (incluyendo
la duración promedio del recorrido) como método de pronóstico cíclico. La
explicación debe ser mucho más profunda que la indicada en este texto.
Vea las publicaciones de la Oficina Nacional de Investigaciones Económicas,
Statistical Indicators Reports, o Business Conditions Digest.

26. Seleccione una fuente de datos de anticipación, como se indicó y reporte la


validez de este método como instrumento de pronóstico. Cite no solamente
la fuente original, sino un estudio crítico externo de su eficiencia.

BIBLIOGRAFIA
ANDER8oN, T. W. The Statistical Analysis 01 Time Series. Nueva York: John
Wiley, 1971.
672 Variaciones estacionales y cíclicas

. Un texto matemático sobre regresión, tendencias y. ciclos.


Box, G. E. P., y JENKINS, G. M. Time Series Analysis, Forescasting and Control.
San Francisco: .Holden-Day, 1970.
Un estudio avanzado de los modelos de series cronológicas y su utilización
en el pronóstico.
BRY, G., y BOSCHAN, C. Cyclical Analysis of Time Series: Selected Procedures
and Computer Programs. Nueva York: Columbia University Press, 1971.
Resume el análisis programado de los ciclos comerciales de la Oficina Na-
cional de Investigaciones Económicas de los Estados Unidos .
CROXTON, F. E., COWDEN, D. J., y BOLSCH, B. W. Practical,Business Statistics.
4<' ed. Englewood Cliffs, N. J.: Prentice-HalI, 1969, Caps. 19-21.
Explora varios métodos de aislamiento de las fluctuaciones cíclicas, las
estacionales y las tendencias, incluyendo el uso de polinomios y curvas de cre-
cimiento.
HrCKMAN, B. G. (ed.). Econometric Models of Cyclical Behavior, 2 vols. Nueva
York: National Bureau of Economic Research and Social Science Research
Council, Columbia University Press, 1972.
Varios artículos sobre modelos econométricos de ciclos comerciales y sobre
evaluación de predicciones.
NETER, J., WASSERMAN, W. Y WHITMORE, G. A. Fundamental Statistics for Bu-
siness and Economics. 4~ ed. Boston: AlIyn & Bacon, 1973.
Cubre el análisis de series cronológicas para la predicción, planeación y
control.
SHISKIN, JULIUS. Signals of Recession and Recovery. An Experiment with Monthly
Reporting. Nueva York: National Bureau of Economic Research, 1961.
Hace una introducción de los indicadores mensuales reportados hace algún
tiempo en Business Conditions Digest.
- - - - , . et al. The X-ll Variant of the Census Method JI Seasonal Adjustment
Programo U. S. Bureau of the Census, Technical Paper No. 15, nov. 1967.
El último método de Censos, resumido en el Business CjJcle Developments,
octubre de 1965.
ZARNOWITZ, V. (ed.). The Business Cycle Today. Nueva York: National Bureau
of Economic Research, Columbia University Press, 1972.
Un coloquio sobre la medición de ciclos comerciales recientes,predicción,
y el uso de modelos econométricos.
Areas bajo la curva normal
APENDICE o
Cada número de esta tabla es la proporClon del área total bajo una
curva normal que queda bajo el segmento entre la media y x/a o z desvia-
ciones estándar de la media. Ejemplo: x = X - 0 = 31 Y u = 20, enton-
ces z = x/u = 1.55. Luego el área requerida es 0.4394. El área en el extre-
mo hasta el punto x = 31 es entonces 0.5000 - 0.4394 = 0.0606.
Z
%/" .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
- - - - - - --- ---
.0120 .0160 .0199
---
.0239
---
.0279
--- ---
.0319 .0359
0.0 .0000 .0040 .0080
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .133·1 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2518 .2549
0.7 .2580 .2612 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4532 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4126 .4732 .4738 .4144 .4750 .4756 .4761 .4767
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 ..4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857
2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
2.4 .4918 .4920 .4922 .4-925 .4927 .4929 .4931 .4932 .4934 .4936
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
2.6 .4953 ,4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
2.8 .4974 .4975 .4976 .4977 .4977 .4978 . .4979 .4979 .4980 .4981
2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986
3.0 .49865 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990
:~~2~
3.1 .49903 .4991 .4991 .4991 .4992 .4992 .4992 .4992 .4993
3.2 .4993129 .4993 .4994 .4994 .4994 .4994 .4994 .4995 .4995
3.3 .4995166 .4995 .4995 .4996 .4996 .4996 .4996 .4996 .4996 .4997
3.4 .4996631 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4998 .4998
3.5 .4997674 .4998 .4998 .4998 .4998 .4998 .4998 .4998 .4998 .4998
3.6 .4998409 .4998 .4999 .4999 .4999 .4999 .4999 .4999 .4999 .4999
3.7 .4998922 .4999 .4999 .4999 .4999 .4999 .4999 .4999 .4999 .4999
3.8 .·1999277 .4999 .4999 .4999 .4999 .4999 .4999 .5000 .5000 .5000
3.9 .4999519 .5000 .5000 .5000 .5000 .5000 .5000 .5000 .5000 .5000
4.0 .4999683
4.5 .4999966
5.0 .4999997133

FUF..NTI:.: Fredt"ric.k E. CroxtoI1 y Dudley J. Cowden, Practical Business StatiJ'tics (21:t t~d.;
Nueva York; Pre-ntice-Hall, lne., 1948), pág. 511. Reproducido con l>cnniso del autor.
Hasta x/O" = 2.99, tomado de Rugg's Slatistical Methods Applied to Educarion. mediante
convenio con el editor, Houghton A:fifflin Company.. Una tabla mucho máJ. eh"tallada de. las árt~as
bajo la curva normal se da"" en Fcdt~ral Works Agency, Admini¿tración de Proyectos de Trabajo
para la Ciudad de Nueva York, Tables al Prabability Functions (Nueva York: National Bureau
of Standards, 19+2), Vol. n, págs. 2-238. En este apéndice los valores para x/O" = 3.00 ha,,;ta
5.00 se calcularon a partir de la fuente anterior.

699
APENDICE E
Función de costo de oportunidad normal unitario
El valor L N (D) es el costo de oportunidad esperado (o EVPI) para
una función de costos de oportunidad lineales con pendiente uno y una
distribución nonnal unitaria. El valor D representa la posición relativa
del punto de equilibrio.
Cuando se utiliza L N (D) para una distribución nonnal general, el
valor D representa la desviación absoluta del punto de equilibrio K ele la
media M Q , expresada en unidades de desviación estándar, So. Esto es

D .00 .01 .02 .03 .04 .05 .06 .07 .08 .09

.0 .3989 .3940 .3890 .3841 .3793 .3744 .3697 .3649 .3602 .3556
.1 .3509 .3464 .3418 .3373 .3328 .3284 .3240 .3197 .3154 .3111
.2 .3069 .3027 .2986 .2944 .2904 .2863 .2824 .2784 .2745 .2706
.3 .2666 .2630 .2592 .2555 .2518 .2481 .2445 .2409 .2374 .2339
.4 .2304 .2270 .2236 .2203 .2169 .2137 .2104 .2072 .2040 .2009

.5 .1978 .1947 .1917 .1887 .1857 .1828 .1799 .1771 .1742 .1714
.6 .1687 .1659 .1633 .1606 .1580 .1554 .1528 .1503 .1478 .1453
.7 .1429 .1405 .1381 .1358 .1334 .1312 .1289 .1267 .1245 .1223
.8 :1202 .1181 .1160 .1140 .1120 .1100 .1080 .1061 .1042 .1023
.9 .1004 .09860 .09680 .09503 .09328 .09156 .08986 .08819 .08654 .08491

1.0 .08332 .08174 .08019 .07866 .07716 .07568 .07422 .07279 .07138 .06999
1.1 .06862 .067~7 .06595 .06465 .06336 .06210 .06086 .05964 .05844 .05726
1.2 .05610 .05496 .05384 .05274 .05165 .05059 .04954 .04851 .04750 .04650
1.3 .04553 .04457 .04363 .04270 .04179 .04090 .04002 .03916 .03831 .03748
1.4 .03667 .03587 .03508 .03431 .03356 .03281 .03208 .03137 .03067 .02998

1.5 .02931 .02865 .02800 .02736 .02674 .02612 .02552 .02494 .02438 .02380
1.6 .02324 .02270 .02217 .02165 .02114 .02064 .02015 .01967 .01920 .01874
1.7 .01629 .01785 .01742 .01699 .01656 .01617 .01578 .01539 .01501 .01464
1.8 .01428 .01392 .01357 .01323 .01290 .01257 .01226 .01195 .01164 .01134
1.9 .01105 .01077 .01049 .01022 .02 9957 .02 9698 .02 9445 .0 2 9198 .028957 .028721

2.0 .02 8491 .02 8266 .02 8046 .02 7832 .0 2 7623 .02 7418 .02 7219 .02 7024 .0 2 6835 .02 6649
2.1 .0 2 6468 .02 6292 .02 6120 .02 5952 .02 5788 .02 5628 .02 5472 .02 5320 .02 5172 .02 5028
2.2 .0 2 4887 .02i,750 .02 4616 .02 4486 .02 4358 .02 4235 .024114 .02 3996 .02 3882 .02 3770
2.3 .02 3662 .02 3556 .023453 .0 2 3352 .02 3255 .02 3159 .02 3067 .02 2977 .02 2889 .02 2804
2.4 .0 2 2720 .02 2640 .02 2581 .02 2484 .02 2410 .02 2337 .02 2267 .022199 .02 2132 .02 2067
2.5 .0 22005 .02 1943 .02 1883 .0 2 1826 .0 2 1769 .02 1715 .02 1662 .02 1610 .02 1560 .02 1511

3.0 .03 3822 .03 3689 .0 3 3560 .0 3 3436 .0 33316 .0 3 3199 .033o¡l7 .0 3 2978 .03 2873 .0 32771
3.5 .04 5848 .04 5620 .0 4 5400 .045168 .0 4 4984 .0 4 4788 .04 4599 .04 4417 .04 4242 .04 4073
4.0 .05 7145 .05 6835 .0 5 6538 .0 5 6253 .05 5980 .05 5718 .0 5 5468 .05 5227 .05 4997 .054777

Reproducido COn permiso de Robert Schlaifer) lntrodllctioll lo Statirtics lor RUJ;neJ,r J)eci.rions
(Nueva York: McGraw-HiIl 1961) págs. 370-371.

70l
APENDICE F
Distribución binomial-términos individuales

La tabla presenta probabilidades binomiales individuales para el nú-


mero de éxitos, r, ,en n intentos, para valores seleccionados de p, la proba-
bilidad de éxito en cualquier intento.
Ejemplos y detalles del uso de esta tabla para p mayor que 0.50 se
dan en las páginas 154-155.
El símbolo O+ indica un valor, positivo pero menor de 0.0005.

703
704 Apéndice

DISTRIBUCIÓN BINOMIAL-TÉRMINOS INDIVIDUALES

D r .01 .02 .04 .05 .06 .08 .10 .12 .14 .15 P.16 .16 .20 .22 .24 .25 .30 .35 .40 .45 .50 r

2 o 980 960 922 902 884 846 810 TI4 740 722 706 672 640 608 578 562 490 422 360 302 250
1 020 039 0T7 095 113 147 160 211 241 255 269 295 320 343 365 062375 420 455 480 495 500 1
2 0+ 0+ 002 002 004 006 010 014 020 022 026 032 040 048 058 090 122 160 202 250 2

o 970 941 885 857 831 TI9 729 681 636 614 593 551 512 475 439 422 343 275 216 166 125 o
1 029 058 111 135 159 203 243 279 311 325 339 363 384 402 416 422 441 444 432 408 375 1
2 0+ 001 005 007 010 018 027038 051 057 065 080 096 113 131 141 169 239 288 334 375 2
3 0+ 0+ 0+ 0+ 0+ 001 001 002 003 003 004 006 008 011 014 016 027 043 064 091 125 3
4 o 961 922 849 815 781 716 656 600 547 522 498 452 410 370 334 316 240 179 130 092 063 o
1 039 075 142 171 199 249 292 327 356 368 379 397 410 416 421 422 412 384 346 299 250 1
2 001 002 009 014 019 033 049 067 087 098 108 131 154 1TI 200 211 265 311 346 368 375 2
3 0+ 0+ 0+ 0+ 001 002 004 006 009 011 014 019 026 033 042 047 076 111 154 200 250 3
4 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 001 002 002 003 004 008 015 026 041 062 ~

o 951 904 815 TI4 734 659 590 528 470 444 418 371 328 289 254 237 168 116 078 050 031 G

~
1 048 092 170 204 234 287 328 360 383 392 398 407 410 407 400 360 312 259 206 156 1
2 001 004 014 021 030 050 073 098 125 138 152 179 205 230 253 309 336 346 337 312 2
3 0+ 0+ 001 001 002 004 008 013 020 024 029 039 051 065 080 088 132 181 230 276 312 3
4 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 002 003 004 006 009 013 015 028 049 OTI 113 156 ~

6 o 941 886 783 735 690 606 531 464 405 3TI 351 304 262 í!25 193 178 116 075 047 028 016 o
1 057 108 196 2]2 264 316 354 ]80 395 399 401 400 393 381 365 356 303 244 167 136 094 l.
2 001 006 020 031 042 069 098 130 161 176 191 220 246 269 288 297 324 328 311 278 234 2
3 0+ 0+ 001 002 004 008 015 024 035 041 049 064 082 101 121 132 165 235 ~ 303 312 3
4 0+ 0+ 0+ 0+ 0+ 001 001 002 004 005 007 011 015 021 029 033 060 095 ...,.., 166 234 ~

5 0+0+0+0+0+0+0+0+0+0+~~002002004004~=~*094 5
6 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+' 0+ 0+ 001 002 004 008 016 6

7 o 932 868 751 648 558 478 348 321 295 249 210 176 146 133 082 049 015 008 o
1 066 124 219 290 340 372 396 396 393 383 367 347 ]24 311 247 185 087 055 1
2 002 008 027 055 089 124 194 210 225 252 275 293 307 311 316 298 214 164 2
3 0+ 0+ 002 006 013 023 053 062 071 092 115 138 161 173 227 268 292 273 :;
4 0+ 0+ 0+ 0+ 001 003 009 011 014 020 029 039 051 058 097 144 239 273 ~

5 0+ 0+ 0+ 001 001 002 003 004 007 010 012 025 047 0T7 111 164 5
6 Ot 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 001 004 008 017 032 055 6
7 0+ 0+ 0+ 0+ Ot 0+ 0+ 0+ 0+ 0+ 0+' 0+ 001 002 004 008 T
8 o 923 851 721 663 610 513 430 360 299 272 248 204 168 137 111 100 058 032 017 008 004 o
1 075 139 240 279 311 357 383 392 390 385 378 359 336 309 281 267 198 137 090 055 031 1
2 003 010 035 051 070 109 149 167 222 238 252 276 294 305 311 311 296 259 209 157 109 2
3 0+ 0+ 003 005 009 019 033 051 072 084 096 121 147 172 196 208 254 279 279 257 219 :;
4 0+ 0+ 0+ 0+ 001 002 005 009 015 018 023 033 046 061 0T7 087 136 188 232 263 273 ~

0+ 0+ 001 002 003 003 006 009 014 020 023 047 081 :1'24 172 219
~
0+ 0+ 0+ 0+
0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 OO! 002 003 004 010 022 041 070 109 ~
7 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ Ot 0+ 0+ 0+ 0+ 0+ 0+ ~ 003 008 016 031 7
8 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ Ot 0+ 0+ 0+ 0+ 0+ 0+ 001 002 004 8
9 o ~~~~m~~~m~208~~m~~*~~~OO2
1 ~m~299.~~.m368mm_m~~~~o6o~~
2 ~~~~084~m=~~nm __ ~_.~*111m
3 O+~OO4008~~~*~ml2l~~~_~.nm=.
4 O+O+O+~~~OO7~~~~~o66~~mmmm~~

5 0+ 001 C02 004 005 007 011 017 024 033 039 071> 116 167 213 ~
6 0+ 0+ 0+ 0+ 001 001 002 003 005 007 009 021 042 oyI¡ 116 164
7 0+ 0+ 0+ u+ 0+ 0+ 0+ 0+ 001 001 001 004 010 ~ 041 070
8 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 009 018
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ~ 002
10 o 904 817 665 599 539 434 349 279 221 197 175 137 107 083 064 056 ~ 013 006 003 001
1 091 167 2T7 315 344 378 387 ]80 360 347 333 302 268 235 203 188 121 072 040 ~ 010
2 004 015 052 075 099 148 194 233 264 276 286 298 302 298 288 282 233 176 121 076 044
0+ 001 006
3
4 0+ 0+ 0+
010
001
017
002
034
005
057
011
085
020 033 *
115 130 145 174 201
048 067 088
224 243 250
111 134 146
267 252 215 166
200 238 251 238
117
205
5 0+ 0+ 0+ 0+ 0+ 001 001 003 006 008 011 018 026 037 051 058 103 154 201 234 ~
6 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 002 003 006 009 013 016 037 069 111 160 205
7 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 002 003 009 021 042 075 117
8 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 011 023 044
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 004 010
Distribución binomial-Términos individuales 705

DISTRIBUCIÓN BINOMIAL-TÉRMINOS INDIVIDUALES (Continuación)


per) = nC. prqn-•

D r .01 .02 .04 .05 .06 .08 .10 •12 .14 .15 P.16 .18 .20 .22 .24 .25 .30 .35 .40 .45 .50

10 10 ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ w
u O ~~~.~~~~~~~~~~~*=q~~~ o
1 ~~~mm.~.~m~m~_mm~~m~~ 1
2 ~~~~~~wmm~~~m_d~~~~~m 2
3 ~~~~=~m~mm~~~fu~~m~m~~ 3
4 ~~~~~~~-~~~~~~~m=~~~~ 4
5 ~ ~ ~ ~ ~ 001 002 005 010 013 017 027 039 054 071 080 132 183 221 236 226 5
6 ~ ~ ~ ~ ~ ~ ~ 001 002 002 003 006 010 015 022 027 057 099 147 193 226 6
7 ~ ~ ~ ~ ~ ~ ~ 0+ ~ ~ ~ 001 002 003 005 006 017 036 070 113 161 7
8 ~ ~ ~ ~ ~ ~ ~ ~ 0+ ~ 0+ ~ ~ ~ 001 001 004 010 023 046 081 8
9 ~ ~ ~ ~ ~ ~ ~ ~ ~ 0+ ~ ~ ~ ~ ~ ~ 001 002 005 013 027 9
10 ~ ~ ~ ~ ~ ~ ~ 0+ 0+ ~ ~ 0+ ~ ~ ~ ~ ~ 0+ 001002005 lO
u ~ ~ ~ ~,~ ~ ~ 0+ 0+ 0+ 0+ ~ 0+ ~ ~ 0+ ~ ~ ~ ~ ~ J.l

12 o -~~~~.-~~~w~*~rn~~~=~~ o
1 ~ m _ ~ ~ ~ m m ~ ~ - ~ ~ m f u m m ~ m ~ ~1
2 ~ = ~ ~ ~ ~ ~ ~ - m ~ ~ ~ _ ~ ~ ~ ~ ~ ~ ~2
3 ~ ~ ~ m m ~ ~ ~ m m ~ ~ ~ ~ m ~ ~ ~ ~ ~ ~3
4 ~ ~ ~ = ~ ~ = ~ ~ d o 8 o ~ m ~ ~ ~ s m w ~ ~4

5 ~ 0+ ~ ~ ~ 001 004 008 015 019 025 037 053 072 092 103 158 204 227 222 193 5
6 ~ ~ ~ ~ ~ ~ 0+ 001 003 004 005 OW 016 024 034 040 079 128 177 212 226 6
7 ~ ~ C+ ~ ~ 0+ ~ ~ 0+ 001 001 002 003 006 009 011 029 059 101 149 193 7
8 ~ ~ ~ ~ 0+ 0+ ~ 0+ ~ ~ ~ 0+ 001 001 002 002 ~ 020 042 076 121 8
9 ~ 0+ ~ ~ 0+ ~ ~ ~ ~ ~ 0+ ~ ~ ~ ~ ~ 001 005 012 028 054 9
10 ~ 0+ ~ ~ ~ 0+ ~ 0+ 0+ ~ 0+ 0+ ~ 0+ 0+ 0+ 0+ 001 002 007 016 10
U ~ ~ ~ ~ 0+ 0+ 0+ ~ ~ 0+ 0+ 0+ 0+ ~ 0+ ~ 0+ 0+ 0+ 001 003 U
12 0+ ~ ~ ~ ~ ~ ~ 0+ 0+ ~ ~ 0+ 0+ 0+ ~ 0+ 0+ 0+ 0+ ~ ~ 12
13 o ~.~~~~$~fu~~~~* __ ~~~o+~ o
1 w ~ m m m . ~ ~ ~ m m ~ m ~ ~ ~ ~ ~ ~ ~ =1
2 007 025 080 ~ 142 199' 245 275 291 294 293 285 268 245 220 ~ 139 084 045 022 oio 2
3 O+~~=~~~~~~~~~$~~~~~~~ 3
4 ~o+~~~~-~mS~~~m=~~=~m* 4

5 ~ 0+ 0+ 0+ 001 002 006 012 021 027 033 050 069 091 u4 126 180 215 221 199 157 5
6 0+ 0+ 0+ 0+ 0+ 0+ 001 002 ~ ~~ 015 023 034 048 056 103 155 197 217 209 6
7 ~ 0+ 0+ 0+ 0+ 0+ 0+ .. 0+ 001 001 002 003 006 010 015 019 ~ 083 131 177 209 7
8 ~ 0+ 0+ ~ 0+ 0+ 0+ ~ 0+ ~ 0+ 001 001 002 ~ 005 014 034 066 109 157 8
9 0+ 0+ 0+ 0+ 0+ 0+ 0+' 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 003 010 024 050 087 9
lO ~ 0+ 0+ 0+ 0+ 0+ 0+ ~ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 006 016 035 10
U 0+ 0+ 0+ 0+ 0+ 0+ 0+ ~ 0+ ~ 0+ 0+ 0+ 0+ 0+ ~ 0+ 0+ 001 004 010 U
12 0+ ~ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ~ 0+ 0+ 0+ 002 12
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ o+o+~o+o+o+ 13
14 o ~~~~~m~~~w*~~~=~~=~o+o+o
1 w ~ m m ~ m ~ m ~ $ ~ m ~ ~ ~ ~ ~ ~ ~ ~ ~1
2 ~ ~ ~ w ~ ~ m ~ m m ~ m ~ ~ ~ ~ ~ ~ ~ ~ ~2
3 ~ = ~ ~ * ~ ~ ~ ~ ~ m m ~ ~ ~ ~ ~ m ~ ~ =3
4 ~o+=~~~~~~~w~m~~= m~~ 4 __
5 ~ 0+ ~ ~ 001 003 008 016 028 035 044 063 086 UO 135 147 196 218 207 170 122 5
6 ~ 0+ 0+ 0+ 0+ 0+ 001 003 007 q 012 021 032 047 064 073 126 176 207 209 183 6
7 0+ ~ 0+ 0+ 0+ 0+ ~ 001 001 002 003 005 009 015 023 028 062 108 157 195 209 7
8 ~ 0+ ~ 0+_0+ 0+ 0+ 0+ ~ 0+ 0+ 001 002 004 006 008 023 051 092 140 183 8
9 ~ ~ 0+ 0+ ~ 0+ 0+ 0+ 0+ 0+ ~ ~ 0+ 001 001 002 007 018 041 076 122 9
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ~ ~ 0+ 001 005 014 031 061 10
U ~ ~ ~ ~ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ~ ~ 0+ 001 003 009 022 11
12 ~ 0+ ~ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ~ 0+ 0+ 0+ 0+ 001 002 006 12
13 0+ ~ ~ ~ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ~ 001 13
'14 ~ ~ 0+ ~ 0+ 0+ 0+ 0+ ~ 0+ 0+ ~ ~ ~ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 14
15 O 860 739 542 463 395 286 206 147 104 087 073 051 035 024 016 013 005 002 ~ 0+ 0+ O
1 130 226 339 366 376 373 34 3 301 254 231 209 168 132 102 077 067 031 013 005 002 ~ 1
2 q 032 099 135 169 227 267 287 290 286 279 258 231 201 171 156 092 048 022 009 003 2
3 ~ 003 018 031 047 086 129 170 204 218 230 245 250 246 234 225 170 111 063 032 014 3
4 ~ ~ 002 005 q 022 043 069 100 u6 131 162 188 208 221 225 219 179 127 078 042 4
706 Apéndice ,.l.l,t'lhti ,¡
DISTRIBUCIÓN BINOMIAL-TÉRMINOS INDIVIDUALES (Continuación)
P(r) = nCr P'qn-r

D r .01 .02 .04 .05 .06 .08 .10 .12 .14 .15,P.16 .18 .20 .22 .24 .25 .30 .35 .40 .45 .50

15 5 O<- O<- O<- 001 001 004 010 021 036 045 055 078 103 129 154 165 206 212 186 140 092
6 O<- O<- O<- O<- O<- 001 002 005 010 013 017 029 043 061 081 092 147 191 207 191 153
7 O<- O<- O<- O<- O<- O<- O<- 001 002 003 004 008 014 022 033 039 081 132 177 201 196
8 O<- O<- O<- O<- O<- O<- O<- O<- O<- 001 001 002 003 006 "010 013 035071 u8 165 196
9 O<- O<- O<- O<- O<- O<- O<- O<- O<- O<- O<- O<- 001 001 003 003 012 030 061 105 15]

lO O<- O<- O<- O<- O<- O<- O<- 0+ O<- O<- O<- O<- 0+ 0+ O<- 001 003 010 024 051 092
U O<- O<- O<- O<- O<- O<- O<- O<- O<- O<- O<- O<- O<- O<- O<- 0+ 001 002 007 019 0Il2
12 O<- O<- O<- O<- O<- O<- O<- 0+ O<- O<- O<- 0+ 0+ 0+ O<- 0+ 0+ 0+ 002 005 01_
13 O<- "'O<- O<- O<- O<- O<- O<- 0+ O<- O<- O<- 0+ 0+ 0+ O<- 0+ 0+ 0+ 0+ 001 003
14 O<- O<- O<- O<- O<- O<- O<- O<- O<- O<- 'O<- 0+ O<- 0+ O<- 0+ 0+ 0+ 0+ O<- 0+

15 0+0<-0+0<-0+0<-0<-0<-0+0+0+0<-0<-0<-0+0+0+0+0+0+0+:5

16 O' 851 724 520 440 372 263 185 129 090 074 061 042 028 019 012 010 003 001 0+ 0+ 0+ 111
1 138 236 347 371 379 366 329 282 233 210 187 147 U3 085 063 053 023 009 003 001 0+ l!
2 010 036 108 146 182 239 275 289 285 277 268 242 2U 179 148 134 073 035 015 006 002 Z
3 Q+ 003 021 036 054 097 142 184 216 229 238 248 246 236 218 208 146 089 047 022 009 )
4 O<- O<- 003 006 ou 027 051 081 U4 131 147 177 200 216 224 225 204 155 101 057 Oál II

5
6
0+
0+
O<-
O<-
0+
O<-
001
O<-
002
0+
006 014
001 003
027 045
007 013
056
018
067
02]
093 120
037 055
146
076
170 180
098 UO
210
165
006 012 020 030 044 052 101 152 189 197 175
201
198
162 112 067
198 168 122 ,
I

~
7 0+ O<- 0+ O<- O<- O<- O<- 001 003 005
8 ó+ O<- O<- 0+ 0+ O<- O<- O<- 001 001 001 003 006. 010 016 020 049 092 142 181 196
9 ?'" O<- (')+ 0+ O<- 0+ 0+ 0+ O<- 0+ O<- 001 001 002 004 006 019 044 084 132 175
10 0+ O<- 0+ O<- 0+ O<- O<- 0+ O<- 0+ 0+ 0+ 0+ O<- 001 001 006 017 039 075 122
U 0+ 0+ 0+ 'O<- 0+ Ot, O<- O<- O<- 0+ 0+ 0+ 0+ O<- 0+ 0+ 001 005 014 034 067
12 0+ O<- O<- 0+ O<- 0+ O<- (}.t 0+ O<- 0+ O<- 0+ O<- O<- 0+ 0+ 001 004 ou Oál
13 0+ 0+ O<- 0+ O<- O<- 0+ O<- 0+ 0+ 0+ 0+ O<- 0<-. O<- O<- O<- O<- 001 003 009
14 0+ O<- O<- 0+ O<- O<- 0+ O<- 0+ 0+ O<- 0+ 0+ O<- 0+ 0+ 0+ 0+ 0+ 001 002

15 0+ O<- 0+ O<- O<- 0+ 0+ O<- 0+ O<- 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+


16 0+ O<- 0+ O<- O<- O<- O<- O<- 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ()¡. O<- 0+

17 o ~~~~~~~mm~~~~~OO9008=~o+o+o+ •
1 ~~~~m~m~m~~~~~~~~oo6=~o+ •
2 ~~~~~~~_~.~~m~~m~~~oo4~Z
3 =oo4~~~d~~~~~~~~=~m~~~~!
4 o+o+oo4008~m*~~~~~~=~=~W*~~·

5 0+ O<- O<- 001 002 007 017 033 054 067 080 108 136 162 183 191 208 185 138 087 01>1
6 0+ O<- 0+ 0+ 0+ 001 004 009 018 024 031 047 068 091 u6 128 178 199 184 143 Q9Io
7 0+ 0+ 0+ 0+ 0+ O<- 001 002 005 007 009 016 027 040 057 067 120 168 193 184 1lo8
8 0+ O<- 0+ 0+ 0+ 0+ O<- 0+ 001 00], 002 004 008 014 023 028 064 U3 161 188 185
9 0+ O<- 0+ 0+ 0+ 0+ 0+ O<- O<- 0+ 0+ 001 002 004 007 009 028 061 107 154 lB5

10 0+ 0+ 0+ ()¡. ()¡.O<- O<- 0+ 0+ 0+ 0+ O<- O<- 001 002 002 009 026 057 101 148
U 0+ O<- 0+ O<- O<- O<- O<- 0+ 0+ 0+ 0+ 0+ 0+ ~ 0+ 001 003 009 024 052 Q9Io
12 0+ O<- ()¡. 0+ O<- O<- 0+ 0+ 0+ 0+ 0+ O<- 0+ O<- 0+ 0+ 001 002 008 021 0l>T
13 0+ 0+ 0+ O<- 0+0+ 0+ O<- 0+ 0+ 0+ 0+ O<- O<- 0+ 0+ 0+ 001 002 007 olB
14 0+ O<- 0+ O<- O<- 0+ 0+ 0+ 0+ O<- 0+ 0+ 0+ O<- O<- 0+ 0+ ()¡. 0+ 002 ~

15 0+ O<- 0+ 0+ O<- 0+ O<- 0+ 0+ O<- O<- O<- O<- O<- O<- O<- 0+ ()¡. 0+ 0+ OOl
16 0+ ()¡. 0+ 0+ 0+ O<- 0+ O<- 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ()¡. 0+ O<- ()¡.
17 0+ O<- 0+ 0+ O<- Ot O<- O<- O<- 0+ 0+ 0+ O<- 0+ 0+ O<- 0+ ()¡. 0+ O<- 0+

18 o 835 695 480 397 328 223 150 100 066 054 043 028 018 ou 007 006 002 0+ 0+ O<- O<-
1 152 255 360 376 377 349 300 246 194 170 149 lU 081 058 041 034 013 004 001 0+ 0+
2 013 044 121 168 205 258 284 285 268 256 241 207 172 139 109 096 046 619 007 002 001
3 001 005 028 047 070 120 168 207 233 241 244 243 230 209 184 170 105 055 025 009 003
4 0+ O<- 004 009 017 039 070 106 142 159 175 200 215 221 218 213 168 UO 061 029 012

5 0+ 0+ 001 001 003 009 022 040 065 079 093 123 151 175 193 199 202 166 U5 067 033
6 0+ O<- 0+ 0+ 0+ 002 005 012 023 030 038 058 082 107 132 144 187 194 166 u8 07l
7 0+ O<- 0+ 0+ 0+ 0+ 001 003 006 009 013 022 035 052 071 082 138 179 189 166 121
8 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 002 003 007 012 020 031 038 081 133 173 186 161
9 0+ 0+ O<- 0+ 0+ 0+ O<- 0+ O<- 0+ 001 002 003 006 OU 014 039 079 128 169 lB5
10 0+ O<- 0+ O<- 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 003 004 015 038 077 125 167
U (}.t 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ O<- 0+ O<- 001 001 005 015 037 074 121
12 0+ 0+ 0+ 0+ 0+ 0+ O<- O<- 0+ O<- 0+ O<- 0+ 0+ 0+ 0+ 001 005 015 035 07l
13 0+ 0+ 0+ 0+ O<- 0+ 0+ 0+ 0+ 0+ 0+ O<- 'Q+ O<- 0+ 0+ O<- 001 004 013 033
14 0+ 0+ O<- 0+ 0+ 0+ O<- 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ O<- 0+ 001 004 012

15 0+ 0+ O<- 0+ 0+ O<- 0+ 0+ 0+ 0+ 0+ 0+ O<- 0+ O<- 0+ 0+ 0+ 0+ 001 003 :!:


16 0+ 0+ 0+ (>+ O<- 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ O<- 0+ 0+ 0+ 0+ 001 ]f
Distribución binomial-Términos individuales 707

DISTRIBUCIÓN BINOMIAL-TÉRMINOS INDIVIDUALES (Continuación)


pe,) = nCr P'qn- r

D r .01 .02 .04 .05 .06 .08 .10 .12 .14 .15 P.16 .18 .20 .22 .24 .25 .30 .35 .40 .45 .50 r

19 o ~~~m~~m~~~~~~~~~~~~~~ o
1 ~~~m~m~~~m~_~~m~~~~~~ 1
2 ~~mmw~~8~~~m~~m~~~~~~ 2
3 ~~~~~~~m~~~~m~~~*~m~= 3
4 ~~~~=~~~mm~~~~~a~~~=~ 4
5 ~ ~ 001 002 004 012 027 0!¡8 076 091 106 137 164 185 199 202 192 093 050 022 5
6 ~ ~ ~ ~ 001 002 007 015 029 037 047 070 095 122 146 157 192 145 095 052 6
7 ~ ~ ~ ~ ~ ~ 001~ ~ 012 017 029 044 064 086 097 153 180 144 096 7
8 ~ ~ ~ ~ 0+ 0+ ~ 001 002 003 005 ~ 017 027 041 049 098 180 177 144 8

-
9 ~ ~ ~ ~ ~ ~ ~ ~ ~ 001 001 003 005 ~ 016 020 051 146 177 176 9
10 ~ ~ ~ 0+ 0+ 0+ 0+ ~ 0+ ~ 0+ 001 001 003 005 007 022 053 098 145 176 10
II ~ ~ ~ 0+ 0+ 0+ 0+ 0+ 0+ ~ ~ ~ 0+ 001 001 002 008 023 053 097 144 U
12 ~ ~ ~ ~ ~ ~ 0+ ~ ~ 0+ 0+ 0+ ~ 0+ 0+ 0+ 002 008 024 053 12
13 ~ ~ 0+ 0+ 0+ ~ 0+ ~ 0+ ~ 0+ 0+ ~ ~ 0+ 0+ 001 002 008 023 0 52 13
14 ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~. ~ ~ ~ ~ 001 002 008 022 14

15 ~ 0+ ~ 0+ 0+ 0+ 0+ Ct 0+ ~ ~ 0+ 0+ ~ 0+ ~ ~ ~ 001 002 007 15


16 ~ ~ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ~ 0+ 0+ ~ ~ 0+ ~ ~ ~ 0+ ~ 002 16
17 ~ 0+ 0+ ~ 0+ 0+ 0+ 0+ 0+ ~ ~ ~ 0+ 0+ ~ ~ ~ ~ 0+ 0+ ~ 17
18 ~ 0+ ~ ~ ~ 0+ 0+ ~ 0+ 0+ 0+ 0+ 0+ ~ ~ ~ 0+ ~ 0+ 0+ ~ 18
19 ~ ~ ~ 0+ 0+ 0+ ~ 0+ ~ 0+ 0+ 0+ 0+ 0+ ~ ~ ~ ~ 0+ 0+ 0+ 19

20 o 818 668 442 358


0+ ~290
0+ 189 122 078 049 039 031 019 012 007 004 003 001 ~ o
1 ~m~m~_~~~mm~~~~=~=~o+o+ 1
2 ~~M~~m~~~_~mm~~~~~~~o+ 2
3 =~~~~ili~_fu~fu~~m~~m~~oo4~ 3
4 ~~~~~~~~~~mmmmmm~~~~~ 4

5 ~ 0+ 001 002 005 015 032 057 087 103 ll9 149 175 192 201 202 179 127 075 036 015 5
6 ~ 0+ ~ 0+ 001 003 ~ 019 035 045 057 082 109 136 159 169 192 171 124 075 037 6
7 ~ 0+ 0+ 0+ ~ 001 002 005 012 016 022 036 055 076 100 ll2 164 184 166 122 074 7
8 0+ 0+ ~ 0+ 0+ ~ 0+ 001 003 005 007 013 022 035 051 061 ll4 161 180 162 120 8
9 ~ 0+ 0+ 0+ 0+ 0+.:0+ 0+ 001 001 002 004 007 013 022 027 065 ll6 160 177 160 9
10 0+ ~ ~ 0+ 0+ ~ 0+ ~ 0+ ~ ~ 001 002 004 008 010 031 069 ll7 159 176 10
II ~ ~ ~ 0+ 0+ 0+ 0+ 0+ ~ ~ ~ ~ 0+ 001 002 003 012 034 071 ll9 160 U
12 0+ 0+ 0+ 0+ 0+ ~ 0+ 0+ ~ ~ ~ ~ ~ ~ 001 001 004 014 035 073 120 12
13 ~ 0+ 0+ 0+ 0+ ~ ~ ~ ~ 0+ ~ ~ ~ ~ 0+ ~ 001 004 015 037 074 13
14 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ~ ~ ~ ~ 0+ ~ ~ ~ 0+ 001 005 q15 037 14

15 ~ 0+ 0+ 0+ 0+ 0+ 0+' 0+ 0+ ~ ~ 0+ ~ ~ 0+ ~ ~ ~ 001 005 015 15


16 0+ 0+ 0+ ~ 0+ ~ 0+ 0+ ~ ~ ~ ~ 0+ ~ ~ 0+ ~ ~ ~ 001 005 16
17 ~ 0+ ~ 0+ 0+ 0+ 0+ 0+ ~ 0+ ~ ~ 0+ ~ ~ ~ 0+ 0+ ~ 0+ 001 17
18 ~ ~ 0+ 0+ 0+ 0+ 0+ 0+ ~ ~ ~ 0+ ~ ~ ~ 0+ ~ ~ 0+ ~ 0+ 18
19 0+ 0+ 0+ ~ 0+ 0+ 0+ 0+ 0+ 0+ ~ ~ ~ 0+ 0+ 0+ ~ 0+ ~ ~ ~ 19

20 ~ 0+ ~ ~ ~ 0+ 0+ ~ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ~ 0+ 0+ 0+ 0+ 20

21 o ~~~~mm~~~m~~~~~=~~ ~ ~ 0+ o
1 w~m~_m~~~122~~~~=m~~~ ~ 0+ 1
2 m~m~m~~~~w~m~®~~=OO7002 0+ 0+ 2
3 ~~~~~~~~~fu~m~~~m~~~ 003 001 3
4 o+=oo8~~~=ilimm=w~~~~m~026 009 003 4

5 0+ 0+ 001 003 006 018 038 065 098 ll5 131 161 183 197 201 199 164 109 059 026 010 5
6 0+ 0+ ~ 0+ 001 004 Oll 024 043 054 067 094 122 148 169 177 188 156 105 057 026 6
7 0+ 0+ 0+ ~ ~ 001 003 007 015 020 027 044 065 089 ll4 126 172 180 149 101 055 7
8 ~ 0+ ~ ~ 0+ ~ 001 002 004 006 009 017 029 044 063 074 229 169 174 144 ,097 8
9 0+ 0+ 0+ ~ ~ ~ ~ ~ 001 002 002 005 010 018 029 036 080 132 168 170 140 9
10 0+ ~ 0+ 0+ Q+ ~ ~ ~ ~ 0+ 001 001 003 ~ Oll 014 041 085 134 167 168 lO
II ~ ~ ~ ~ Q+ Q+ Q+ ~ ~ 0+ ~ 0+ 001 002 003 005 018 046 089 137 168 U
12 0+ 0+ 0+ ~ 0+ Q+ ~ ~ 0+ 0+ 0+ 0+ 0+ ~ 001 001 006 021 050 093 140 12
13 ~ 0+ 0+ 0+ ~ ~ 0+ Q+ ~ 0+ 0+ ~ 0+ 0+ 0+ Q+ 002 008 023 053 097 13
14 0+ 0+ ~ ~ ~ 0+ ~ 0+ ~ ~ ~ 0+ 0+ 0+ 0+ 0+ Q+ 002 009 025 055 14

15 0+ ~ Q+ ~ ~ Q+ ~ ~ ~ ~ ~ ~ ~ ~ ú+ 0+ 0+ 001 003 009 026 15


16 0+ Q+ Q+ ~ ~ Q+ 0+ Q+ 0+ ~ 0+ 0+ 0+ ~ 0+ 0+ ~ 0+ 001 003 010 16
17 ~ ~ ~ 0+ ~. ~ Q+ 0+ ~ ~ ~ ~ ~ Q+ 0+ ~ 0+ 0+ 0+ 001 003 17
18 ~ Q+ 0+ Q+ ~ Q+ ~ ~ 0+ 0+ 0+ 0+ 0+ 0+ ~ Q+ Q+ 0+ 0+ 0+ 001 18
19 0+ Q+ 0+ 0+ ~ ~ ~ Q+ Q+ ~ ~ Q+ Q+ O' 0+ Q+ ~ 0+ 0+ 0+ 0+ 19
20 ~ Q+ ~ ~ ~ ~ ~ ~ Q+ Q+ Q+ Q+ ~ 0+ 0+ Q+ Q+ 0+ ~ ~ ~ 20
21 0+ ~ ~ ~ ~ ~ ~ ~ 0+ Q+ ~ Q+ ~ 0+ ~ Q+ 0+ 0+ 0+ ~ ~ 21
708 Apéndice

DISTRIBUCIÓN BINOMIAL-TÉRMINOS INDIVIDUALES (Continuación)


per) = nCr prqn-r

a r .01 .02 .()I, .05 .06 .06 .10 .12 .111 .15 P.16 .18 .20 .22 .210 .25 .30 .35 .!Io ••5 .50
22 o 802 61>1 1>07 3211 256 160 098 060 036 026 022 013 007 004 002 002 0+ 0+ 0+ 0+ 0+
178 268 373 375 360 306 2111 180 130 109 090 061 041 026 017 004 001
281 258 222 201 181 141 107 078 055 ~ 017 005
1 0+ 0+ 0+
019 062 001 0+ 0+
045 073 103 ~ 208 235 2101 237 230 2IYf 178 1106 116 102 047 018
2 163 2IYf 2111
3 001 006 006 002 0+
• 0+

0+
001 009 018 031 067 110 152 186 199 208 216 211 196 174 161 096 047

0+ 001 007 021 0411 075 109 126 143 170 190 199 197 193 149 091 0106 019 006
019 006 002

5 003
6 0+ l)+ l)+ 001 001 005 olio 029 050 063 134 159 177 183 181 139 086 043 018
077 106
7 0+ 0+ l)+ 0+ 0+ 001 004 009 019 025 077 102 126 139 177 ln 131 081 041
033 053
8 0+ 0+ ()l. 0+ 0+ 0+ 001 002 006 008 036 054 075 087 142 173 161> 125 076
012 022
9 0+ 0+ l)+ 0+ 0+ 0+ 0+ 0+ 001 002 004 007 01. 0210 037 045 095 145 170 161> 119

10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 002 005 009 015 020 053 101 148 l69 154
060 107 151 168

l.
11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 003 005 007 025
12 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 002 010 029 066 113 15!t
13 0+ O+- 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 012 034 071 119
0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 olio 037 076
15 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 016 041
16 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 006 018
17 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 007
18 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002
19 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ O+' 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+

20 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+
21 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+
22 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+

23

,
g
o
1
2
794 628
020
391 307
184 295 375 372 354 294 226
066 172 215 248 281 277
001 009 050 079 III 171 215
0+
0+
0+
001 010 021 035 074 120
0+
0+
002 004 009 025 051
0+ 001 002 006 017
241 147 089 053 031 0211

238 232 222


018 010 006 003 002 001 0+
166 117 097 079 053 034 021 013 010 003
249 209 188 166 127 093 066 0106 036 013

i~ 194 204 211 ~~ ~ ~~ 160 146 g§~


084 120 137 153 179
034 059 073 087 118
101 088

194
145
196
168
001
004
014
037
192 185 133 076
182 185 171 122
0+ 0+
0+
001
004
014
035
0+
0+
0+
001
0+
0+
0+
0+
004 001
013 004
070 032 012
7 0+ 0+ 0+ 0+ 0+ 001 005 011 023 031 01>0 063 088 115 139 150 178 160 113 061> 029
8 0+ 0+ 0+ 0+ 0+ 0+ 001 003 006 011 015 028 044 065 088 100 153 172 151 105 058
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 003 005 010 018 030 0106 056 109 155 168 143 097

10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 003 006 012 020 026 065 117 157 161> 136
11 0+ 0+ 0+ 0+. 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 004 006 010 033 074 123 159 161
12 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 003 014 040 082 130 161
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 005 018 0106 090 136
14 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 007 022 053 097
15 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 009 026 058
16 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 011 029
17 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 012
18 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004
19 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001

20 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+
21 0+ 0+ eH 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+
22 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+
23 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+

24 o *~mmmm*~~=~OO9005~~~O+O+O+ 0+ 0+
1 190 302 375 369 347 282 213 152 105 086 070' 045 028 017 010 008 002 0+ 0+ 0+ (>+
2 O22ml8o~m_m~~~m~~~~®~~~ 0+ 0+
3 002~~086ml8oE~~~~~~m088~®~~ 001 0+
4 O+~~~*S~m~q~211~m~~*~~ 003 001

5 0+ 0+ 002 005 010 029 057 093 130 147 162 185 196 195 184 176 118 062 027 009 003
6 0+ 0+ 0+ 001 002 008 020 040 067 082 096 129 155 174 184 185 160 106 056 024 008
7 0+ 0+ 0+ 0+ 0+ 002 006 014 028 037 048 073 100 126 149 159 176 147 096 05° 021
8 0+ 0+ 0+ 0+ 0+ 0+ 001 004 010 014 019 034 053 076 100 112 160 168 136 087 044
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 004 007 013 024 038 056 067 122 161 161 126 078
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 002 004 009 016 027 033 079 130 161 155
11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 006 011 014 043 089 137 161
12 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 004 005 020 052 099 143
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 008 026 061 108
14 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 003 011 032 069
Distribución binomial- Términos individuales 709

DISTRIBUCiÓN BINOMiAL-TÉRMINOS INDIVIDUAOLES (Conclusi6n)


P(r) = nCr pri n - r

D r .01 .02 .04 .05 .06 .08 .10 .12 .14 .15 P.16 .16 .20 .22 .24 .25 ·30 ·35 .40 ,45 ·50 r

24 15 0+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ 001 004 014 038 078 15
16 0+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ 001 005 017 044 16
17 C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ 002 007 021 17
16 C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ C)+ C)+ C)+ 0+ 0+ C)+ C)+ 0+ 002 008 16
19 C)+ 0+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ 0+ C)+ C)+ C)+ C)+ C)+ 0+ 001 003 19

20 C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ 001 20
21 C)+ C)+ C)+ C)+ C)+ C)+ 0+ 0+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ 21
22 0+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ 22
23 C)+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ C)+ C)+ C)+ C)+ C)+ 23
24 C)+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ 24

25 o 778 603 360 277 213 124 072 041 023 017 013 OOT 004 002 001 001 0+ 0+ 0+ 0+ 0+ o
1 196 308 375 365 340 270 199 140 094 076 061 036 024 014 008 006 001 0+ 0+ 0+ 0+ 1
2 024 075 188 231 260 282 266 228 183 161 13:1 101 071 048 031 025 007 002 0+ 0+ 0+ 2
3 002 012 060 093 127 188 226 23:1 229 217 203 170 136 104 076 064 024 008 002 0+ 0+ 3
4 C)+ 001 014 027 045 090 138 179 205 211 213 206 187 161 132 118 057 022 007 002 0+ 4

5 0+ C)+ 002 006 012 033 065 103 140 156 170 190 196 190 175 165 103 051 020 006 002 5
6 0+ 0+ 0+ 001 003 010 024 047 076 0:12 108 13', 163 179 184 183 147 091 044 017 005 6
7 0+ C)+ 0+ 0+ 0+ 002 007 017 034 044 056 083 111 137 158 165 171 133 080 038 014 7
8 0+ 0+ 0+ 0+ 0+ 0+ 002 005 012 017 024 041 062 087 112 124 165 161 120 070 032 6
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 006 009 017 029 046 067 078 134 163 151 108 061 9

10 0+ C)+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 003 006 012 021 034 042 012 141 161 142 097 10
11 C)+ 0+ 0+ 0+ C)+ 0+ 0+ C)+ 0+ C)+ 001 002 004 008 015 019 054 103 147 156 133 11
12 C)+ 0+ 0+ C)+ 0+ 0+ C)+ 0+ 0+ 0+ C)+ C)+ 001 003 005 OOT 027 065 114 151 155 12
13 0+ 0+ 0+ 0+ C)+ 0+ C)+ 0+ C)+ C)+ C)+ C)+ 0+ 001 002 002 011 035 076 124 155 13
14 C)+ C)+ C)+ C)+ C)+ 0+ 0+ C)+ 0+ C)+ 0+ 0+ C)+ 0+ C)+ 001 004 016 043 087 133 14

15 C)+ 0+ C)+ 0+ C)+ C)+ C)+ 0+ 0+ 0+ C)+ C)+ C)+ C)+ C)+ C)+ 001 006 021 052 017 15
16 C)+ C)+ C)+ C)+ C)+ 0+ C)+ C)+ 0+ 0+ C)+ C)+ 0+ 0+ C)+ C)+ 0+ 002 009 027 061 16
17 C)+ C)+ 0+ 0+ C)+ 0+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ C)+ 001 003 012 032 17
18 C)+ C)+ C)+ 0+ 0+ C)+ 0+ C)+ 0+ 0+ 0+ C)+ 0+ C)+ C)+ 0+ 0+ 0+ 001 004 014 18
19 0+ C)+ C)+ 0+ C)+ 0+ 0+ C)+ C)+ 0+ C)+ C)+ 0+ 0+ 0+ 0+ 0+ C)+ C)+ 001 005 19
20 C)+ C)+ C)+ C)+ 0+ 0+ C)+ C)+ 0+ C)+ 0+ C)+ 0+ 0+ 0+ C)+ 0+ C)+ C)+ C)+ 002 20
21 C)+ 0+ 0+ C)+ 0+ 0+ C)+ C)+ C)+ C)+ 0+ 0+ 0+ C)+ C)+ C)+ 0+ 0+ 0+ 0+ 0+ 21
22 C)+ 0+ 0+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ 0+ 0+ C)+ C)+ C)+ 0+ C)+ 0+ C)+ C)+ 22.
23 0+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ C)+ 0+ C)+ C)+ C)+ 0+ 0+ 0+ C)+ C)+ , C)+ 0+ C)+ 23
24 C)+ 0+ C)+ C)+ C)+ O+t 0+ 0+ C)+ 0+ C)+ 0+ 0+ 0+ C)+ 0+ C)+ 0+ jC)+ 0+ 0+ 24
25 C)+ 0+ 0+ C)+ 0+ 0+ C)+ 0+ 0+ C)+ C)+ 0+ C)+ C)+ C)+ C)+ C)+ C)+ 0+ 0+ C)+ 25
APENO ICE G
Distribución binomial-términos acumulativos

Esta tabla presenta la probabilidad binomial para r o más éxitos en n


intentos para valores seleccionados de p, la probabilidad de un éxito en
cualquier intento.
Ejemplos y detalles del uso de esta tabla para p mayor que 0.50 se
dan en las páginas 154-155.
El símbolo 0+ indica un valor positivo pero menor de 0.0005.
El símbolo 1 - indica un valor menor que 1 pero mayor que 0.9995.

711
712 Apéndice

DISTRIBUCIÓN BINOMIAL-TÉRMINOS ACUMULATIVOS


Probabilidad de ,. o más éxitos en n intentos = I..Crprqo-r
r

D r .01 .02 .04 .05 .06 .08 .10 .12 .14 .15 P.16 .18 .20 .22 .24 .25 .30 .35 .40 .45 .50

2 o 1 1
~*~_~$_~~~
1 1 1 1 1 1 1 1 1 1 1 1 1
~~~~M.~
111 111
1
2 ~~~~--=~~~~~*~~*~=~=~
3 o
1
1 1
~_~~*=m~
1 1 1 111
__
11 1 1
~~~m.~~m_~~
1 1 1 1 1 1 111
2 ~~~~=~~*~~~~~.~~~~~~~
3 ~~~~~~~~~~ __ d~~~~~d~~

4 o 1 1 1 1 111 111 1 1 1 1 1 1 1 1 1 1 1

-
039 ~ 151 185 219 264 344 666 664 160 621 1lT0
~
1 400 453 476 502 546 590 630 936
2 001 002 009 014 ~ 034 052 073 097 110 123 151 181 212 245 262 346 437 525 686
001 002 _ _ 010 012 014 020 045 051 084 126 179 241 312
3 ~ ~ ~ ~ 027 036
4 ~ ()f' ~ ~ ~ ~ ~ 0+ 0+ 001 001 001 002 ~ 003 008 015 ~ 041 062
o 11111 1 1 1 1 1 1 1 1 1 1 1 1 1 111
1 049 096 185 ~ 266 341 410 412 530 556 562 629 672 7ll 746 763 632 664 922 950 969
2 001 _ 015 023 032 054 081 112 147 165 183 222 263 304 346 367 472 572 663 744 612
001 001 002 ~ 009 014 022 02T 032 163 235 317 401 500
~
~ ~ 044 056 014 093 104
~ ~ ~ ~ ~ ~ ~ 001 002 002 003 004 ~ 010 013 016 031 054 o6T 131 166

-
0+ ~ ~ 0+ 0+ 0+ ~ ~ ~ 0+ ~ 0+ 0+ 001 001 001 002 005 010 016 031
i •

-
6 o 1 1 1 1 1 1 1 1 1 1 1
1 1 1 111 111
1 059 114 211 265 310 394 469 536 595 623 649 696 136 775 601 622 662 925 953 972 964
2 001 022 033 046 077 114 156 200 224 247 296 345 394 442 466 560 681 767 636 691
3 ~ 0+ 001 002 009 016 ~ 039 _
047 007
056 016 099 125 154 l69 256 353 456 556 656
4 0+ 0+ 0+ 0+ 0+ 001 ~ 003 005 012 017 024 033 036 070 117 179 255 344

g ~ ~ ~ 0+ ~ ~ 0+ ~ ~ 0+ 001 001 ~ 003· _ 005 011 022 041 ~ 109


~ 0+ ~ ~ 0+ ~ ~ 0+ ~ ~ 0+ ~ ~ ~ ~ ~ ~ ~ _ 008 ~
o

,
7 1 1 1 1 1 1 1 1 1 1 111 1 1 1 111 1

1
2 002 d
~ 0+
029 044
002 004 _
*
068 132 249 302 352 442 522 591 652 679 705 751 790 624 654 667 918 951 972 985 992
103 150 201 256 263
014 ~ 042 062 014 ~~~~~~~~~~;~~~:~
~ ~ 0+ ~ ~ 001 003 005 009 012 015 023 033 046 062 011 126 200 290 392 500

g ~
0+
~
~
0+
0+
~
~
~
~
~
~
~
~
~
0+
001 001 ~ 003 005 007 011 013 029 056 096 153 227
0+ 0+ ~ ~ 0+ 001 001 001 004 009 019 036 062
7 ~ ~ 0+ ~ ~ 0+ ~ ~ 0+ 0+ 0+ 0+ 0+ ~ 0+ ~ 0+ ~ 002 _ 008
6 o 111 1 1 1 1 111 1 111 1 1 111 1 1
1 077 149 279 337 390 467 570 640 701 728 752 796 63>! 663 669 900 942 966 963 992 996
2 003 010 036 057 079 130 167 246 311 343 374 437 497 554 608 633 745 631 694 937 965
_ 010 021 036 061 089 105
~
~ ~ 003
001 ~ 005 010 017 021
123 161 203 249 297 321 446
194 572
_ 406 780
685 655
~ ~ 0+ 0+ 02T 040 056 016 100 114 523 637

9
g
7
6

,
o
1
2
~
0+
~
~

1
~

1
0+

~
0+
O>
0+
0+
~

1
Ot
0+
~
~

11
~ 166 301 370 427 526
003 013 046
Ofo
~
001 004
0+ ~
~
156
014 030
001 001 004.
0+
~
~

- -
0+

1
0+
0+
~
0+
~
~
~
~

1
613
225
053
d
001 002 003 004 007 010 016 023 02T 056 106 114 ~ 363
0+
0+
~

1
0+
0+
0+

1
0+
Ofo
~

1
0+
~
Ofo

1
001 001 ~ 003 _
0+
0+

295 366 401 435 501


083 120 141 163 210
016 ~ 034 042 062 ~
~
0+

1
684 743 768 792 832 666
~
~
~
0+

~
~
~
011
001 025
0+

1
_
~

1
050 086 145
009

1
016 035
001 002
1 1 1 1 1
893 915 925 960 979 990 995 996
622 675 700 604 679 929 961 960
316 371 399 537 663 768 850 910
114 146 166 270 391 517 639 746
-
g
7
6
9
~
~
~
~
0+
~
~
0+
~
~
0+
~
0+
0+
0+
~
~
0+
~
0+
~
~
~
0+
Ofo
O>
O>
~
~
~
001 002 004
~
~
~
~
~
0+
~
0+
~
~
0+
~
0+
01-
~
OOT 012 020 029 042 049 099 172 267 379
001 001 ~ 003 005 d
~
~
~
0+
0+
~
0+
~
~
~
0+
0+
~
010 025 054 099 166
001 001 001 004 011 025 050 ~
0+
~
~
0+
001
~ ~
009 020
001 002
- ~

10

,
o
1
2

5
6
7
6
9
1
:f
~
Ofo

O<-
~
~
Ofo
~
1

001
~

~
~
~
0+
~
O>
-
1
163 335 401
016 056 ~

~
012
001

0+
O>
~
0+
1

~
~
~
~
O>
1

~
~
0+

~
0+
1

~
0+
0+
0+
~
~
0+
0+
1
461 566 651 721
ll8 166 264 342
019 040
002
_ 010
013 109
024

~
~
~
~
1 1
779
418
155
040
1

001 001 002 004


~
01-
~
0+
0+
0+
~
~
0+
~
~
~
~
1
603 625
4:;( 492
160 206
050 061
1
693
624

-
322
121
1 1

010 016 ~ 047 095 166 262


001 ~ 003
0+
0+ .0+
0+
~
0+
~
011 ~ 055 102
~ 005 012 027
~
1
911 936 944
682 733 756
36 3 444 474
159 201 224
001 002 004 OOT 010 013 021 033 046 067 ~ 150 249 367 496

001 002 005 -


1 1 1 1 1
972 967 994 997 999
851 914 954 977 969
617
350 ~
633 900 945
618 734 626

623
377
172
055
011
Distribución binomial-términos acumulativos 713

DISTRIBUCIÓN BINOMIAL-TÉRMINOS ACUMULAnvos (Continuación)

Probabilidad de r o más éxitos en n intentos = i.Crprq.-r


r

r .01 .02 .04 .05 .06 .oS .10 .12 .14 .15 P.16 .18 .20 .22 .24 .25 .30 .35 .40 .45 ·50

10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 10
o 1 1 1 1 1 1 1 11111111 1 1 1 1 1 1 o
1 105 199 362 431 494 600 686 155 810 833 853 881 914 935 951 958 980 991 996 999 1- 1
2 005 020 069 102 138 218 303 387 469 508 54 5 615 678 733 181 803 881 939 970 986 994 2
3 0+ 001 008 015 025 052 090 131 191 221 252 316 383 449 513 545 681 800 881 935 961 3
4 0+ 0+ 001 002 003 009 019 034 056 069 oS5 120 161 208 260 287 430 514 704 809 887 4

g 0+
0+
0+
0+
0+
0+
0+
0+
0+
0+
001 003 006 012 016 021 033 050 012 099
0+ 0+ 001 002 003 004 001 012 019 028
115
034
210
078
332
149
467 603
247 361
726
500
5
6
1 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 004 006 008 022 050 099 174 274 7
8 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 004 012 029 061 113 8
9 0+ O~ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 006 015 033 9
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 006 10
11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 11
o 1 1 11111111 1 1 1 1 1 1 1 1 1 1 1 o
1 114 215 381 460 524 632 118 184 836 858 811 908 931 949 963 968 986 994 998 999 1- 1
2 006 023 oSI 118 160 249 341 431 511 551 595 664 125 118 822 842 915 958 980 992 997 2
3 0+ 002 011 020 032 065 111 167 230 264 299 310 442 511 578 609 747 849 917 958 981 3
4 0+ 0+ 001 002 004 012 026 046 015 092 111 155 205 261 320 351 501 653 775 866 927 4

5 0+ 0+ 0+ 0+ 0+ 002 004 009 018 024 031 049 013 102 138 158 276 417 562 696 806 5
6 0+ 0+ 0+ 0+ 0+ 0+ 001 001 003 005 006 012 019 030 045 054 118 213 335 473 613 6
1 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 (>()2 004 001 011 014 039 oS5 158 261 381 7
8 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ~. 001 001 002 003 009 026 051 112 194 8
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 006 015 036 013 9
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 C03 008 019 10
11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 11
12 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 12

o 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 o
1 122 231 412 481 553 662 146 810 859 819 896 924 945 960 972 976 990 996 999 1- l· 1
2 001 027 093 135 181 279 319 414 561 602 640 loS 166 815 856 813 936 910 987 995 998 2
3 0+ 002 014 025 039 oSo -134 198 270 30S 346 423 498 570 636 661 798 881 942 913 989 3
4 0+ 0+ 001 003 006 016 034 061 097 118 141 194 253 316 382 416 579 722 831 901 954 4

5 0+ 0+ 0+ 0+ 001 002 006 014 026 034 044 068 099 131 182 206 346 499 647 112 867 5
6 0+ 0+ 0+ 0+ 0+ 0+ 001 002 005 008 010 018 030 046 068 oSo 165 284 426 513 109 6
1 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 002 004 001 012 019 024 062 129 229 356, 500 1
8 0+ 0+ 0+ 0+ 0+ 0+ 0+,0+ 0+ 0+ 0+ 001 001 002 004 006 018 046 098 179 291 8
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 004 013 032 010 133 9
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 008 020 046 10
11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 011 11
12 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 12
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 13
o 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 O
1 131 246 435 512 519 689 111 833 819 891 913 938 956 969 979 982 993 998 999 1- l · 1
2 008 031 106 153 204 310 415 514 603 643 681 141 802 841 884 899 953 919 992 991 999 2
3 0+ 002 011 030 048 096 158 232 311 352 393 414 552 624 689 719 839 916 960 983 994 3
4 0+ 0+ 002 004 008 021 044 011 121 141 114 235 302 312 443 419 645 119 816 931 911 4

g 0+
0+
0+
0+
0+
0+
0+
0+
001 004 009 020 036 041 059 091
0+ 0+ 001 004 008 012 016 021
130
044
116 230 258 416 511 121 833 910
066 095 112 219 359 514 663 188 6
5
1 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 002 003 006 Oli 020 031 038 093 184 30S 454 605 1
8 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 002 005 008 010 031 015 150 - 259 395 8
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 002 008 024 058 119 212 9
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 006 018 043 090 10
11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 011 029 11
12 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 006 12
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 13
14 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 14
o 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 O

~
1 140 261 458 531 605 714 194 853 913 921 949 96; 916 981 995 998 1- 1- 1- 1
2 010 035 119 111 226 340 ·51 552 681 118 781 833 814 920 965 986 995 998 1- 2
3 0+ 003 020 036 051 113 184 265 352 396 439 523 602 613 164 813 938 973 989 996 3
4 0+ 0+ 002 005 010 027 056 096 148 111 209 278 352 427 539 103 827 909 958 982 4
714 Apéndice

DISTRIBUCIÓN BINOMIAL-TÉRMINOS ACUMULATIVOS (Continuaci6n)

Probabilidad de r o más éxitos en n intentos = 'i.Crprq.-r


r

D r .01 .02 .04 .05 .06 .08 .10 .12 .14 .15 p.1.6 .18 .20 .22 .24 .25 .30 .35 .40 .45 .50

15 5 001 001 005 013 026 048 062 018 117 164 219 281 314 485 648 783 880 941
6 ()+ ()+ 001 002 006 012 017 023 039 061 090 127 148 278 436 597 739 849
7 ()+ ()+ ()+ ()+ 001 002 004 005 010 018 030 046 057 131 245 390 548 696
e ()+
()+
()+
()+
()+
()+
()+
()+
()+
()+
()+ 001 001
0+ ()+ ()+
002
()+
004 008 013 017
_
050 113 213 346 500
9 ~
003 004 015 042 095 182 304
10 ()+ ()+ ()+ ()+ ()+ ()+ ()+ ()+ ()+ ()+ 0+ ()+ 001 001 004 012 034 07T 151
11 ()+ ()+ 0+ ()+ ()+ ()+ 0+ ()+ ()+ ()+ ()+ ()+ ()+ ()+ 001 003 009 025 059
12 ()+ ()+ ()+ ()+ ()+ ()+ ()+ ()+ ()+ ()+ ()+ ()+ 0+ ()+ ()+ 0+ 002 006 018
13 ()+ ()+ 0+ 0+ ()+ 0+ 0+ 0+ 0+ ()+ 0+ ()+ 0+ ()+ ()+ 0+ 0+ 001 004
14 0+ ()+ ()+ ()+ ()+ ()+ 0+ ()+ 0+ ()+ 0+ ()+ 0+ ()+ ()+ 0+ 0+ 0+ ()+

o
~
16 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 149 276 480 560 628 737 815 871 910 926 939 958 972 961 990 99T 999 1- 1- 1-
2 011 040 133 l.89 249 370 485 588 677 716 751 811 859 89T 9 2 5 937 974 990 997 m 1-
3
4
001 004 024 043 067 131
0+ 0+ 003 007 013 034
211 300 393
068 116 176
439
210
484 570 648 717 777
246 322 402 481 558
803 901
595 754 m.
982 993 996
935 972 969

5 0+ 0+ 0+ 001 ~ 007 017 035 062 079 099 146 202 265 334 370 550 711 833 915 962
6 0+ 0+ 0+ 0+ 0+ 001 003 008 017 024 032 053 082 119 164 190 340 510 671 802 895
7 0+ 0+ 0+ 0+ 0+ 0+ 001 002 004 006 008 015 027 043 066 080 175 312 473 634 ro
8 0+ 0+ 0+ ()+ 0+ 0+ 0+ 0+ 001 001 002 004 rxY7 013 021 027 074 159 284 437 596
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 003 006 007 026 067 142 256 402

10 0+ ()+ 001 001 002 007 023 058 124 227


11 0+ ()+ ()+ 0+ ()+ 002 006 019 049 105
12 0+ ()+ ()+ ()+ ()+ ()+ 001 005 015 038
13 0+ ()+ Qt- ()+ ()+ 0+ 0+ 001 003 on
14 0+ ()+ 0+ 0+ ()+ 0+ 0+ 0+ 001 002

15 0+
16 ()+

17 o 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 157 291 500 582 651 758 833 886 923 937 946 966 977 965 991 992 998 m 1- 1- 1-
2 012 045 147 208 272 399 518 622 710 748 781 838 882 915 950 961 993 998
~
940 1-
3 001 004 029 050 078 150 238 335 432 480 527 613 690 758 812 836 923 967 988 999
4 0+ 0+ 004 009 016 042 083 138 20T 244 284 367 451 533 611 647 798 897 954 982 99"
5 0+ 0+ 0+ 001 003 009 022 045 078 099 122 178 242 313 388 426 611 765 874 940 975
6 0+ 0+ 0+ 0+ 0+ 001 005 011 023 032 042 069 106 151 205 235 403 580 736 853 <¡:21!
7 0+ 0+ 0+ 0+ 0+ 0+ 001 002 006 008 012 022 038 060 089 107 225 381 552 710 8~
8 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 003 006 011 019 032 040 105 213 359 526 6115
-..'/) 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ Q+ 0+ 0+ 001 003 005 009 012 040 099 199 337 500
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 003 013 038 092 183 315
11 0+ 0+ 0+ 0+ 0+. 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 012 035 083 166
12 o· 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 011 030 072
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 009 025
14 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 006

15 0+ 04 0+ 0+ 0+ 0+ 0+ 0+ 0+ Q+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001
16 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+
17 0+ 0+ 0+ O... 0+ ()+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+

18 o 1 1111111 1 1 1 1 1 1 1 1 1 1 1 1 1
1 165 305 5~'Ü 603 672 777 850 900 934 946 957 972 962 969 993 994 99B 1- l·- 1- 1-
2 014 050 161 226 294 428 550 654 740 776 808 861 901 931 952 961 986 995 999 1- 1-
3 001 Cü5 033 058 09C 170 266 369 471 520 567 654 729 792 84 3 865 940 976 ~92 997 m
4 0+ 0+ 005 011 C20 051 096 162 238 280 323 411 499 582 659 6,,4 835 )22 967 988 7/>

5 0+ 0+ 001 002 003 012 028 056 096 121 148 212 284 361 441 481 667 811 906 959 965
6 0+ 0+ Q+ Q+ Q+ 002 006 015 031 042 055 089 133 187 2 49283 466 645 7·,1 892 95"
7 0+ 0+ 0+ 0+ 0+ 0+ 001 003 008 012 017 031 051 080 117 139 278 451 626 774 88l.
8 0+ 0+ 0+ 0+ (}t 0+ 0-+ 001 002 003 004 009 016 028 046 057 141 272 4)7 60) 76C
9 0+ 0+ 0+ 0+ 0+ CH Q+ 0+ 0+ 001 001 002 004 008 015 019 060 139 263 422 5jj

10 0+ 0+ O+O+()+Q-!- 0+ 0+ 0+ 0+ o· 0+ 001 002 004 005 021 06<- 135 253 ~C7
11 0+ 0+ 0+ 0+ Q-t- 0+ 0-1 0"- 0+ 0+ 0+ o- 0+ 0+ 001 001 006 021 058 128 2IoC
12 Q+ 0+ 0+ 0+ O... O+- ()+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 0<.6 02C. 054 119
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ O, 0+ 0+ 0+ Ocl 006 018 048
14 0+ 0+ 0+ 0+ 0+ Q-t- 0+ O... 0+ 0+ 0+ 0+ 0+ 0+ Q+ 0+ 0+ O.¡. 001 005 015

0+ 0+
001 _
15 0+ 0+ Q+ 0+ 0+ 0+ o~ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+
16 0+ 0+ 0+ 0+ 0+ ()+ 0+ 0+ 0+ 0+ O.. 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001
17 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ()+ 0+ 0+ 0+"", 0+ 0+ 0+ o· 0+ 0+ 0+ 0+
18 0+ 0+ 0+ 0+ 0+ 0+ 0+ O... O· O· 0+ 0+ 0+ Q+ ()+ 0+ 0+ 0+ 0+ 0+ 0+
DistriblJción binomial-términos acumulativos 715

DISTRIBUCIÓN BINOMIAL-TÉRMINOS ACUMU,LATIVOS (Continuación)

Probabilidad de T o más éxitos en n intentos = i..Crprqn-r


r

n r .01 .02 .04 .05 .06 .08 .10 .12 .14 .15 P.16 .18 .20 .22 .24 .25 .30 .35 .40 .45 .50 r

19 o 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 o
1 174 319 540 623 6n 795 865 912 943 954 964 977 966 991 995 996 999 1- 1- 1- 1- 1
2 015 055 175 245 317 456580 683 767 802 832 881 917 943 962 969 990 997 999 1- 1- 2
3 001 006 036 067 102 191 295 403 509 559 606 691 763 822 869 889 954 963 995 996 1- 3
4 Ot Ot 006 013 024 060 115 187 271 316 362 455 545 628 703 737 867 941 977 992 996 4

5 Ot Ot 001 002 004 015 035 069 116 144 176 248 327 410 494 535 718 850 930 972 990 5
6 0+ 0+ 0+ 0+ 001 003 009 020 040 054 070 III 163 225 295 332 526 703 837 922 968 6
7 0+ Ot Ot Ot Ot 0+ 002 005 011 016 023 041 068 103 149 175 334 519 692 827 916 7
8 0+ Ot 0+ Ot Ot 0+ 0+ 001 003 004 006 013 023 040 063 OTI 182 334 512 683 820 8
9 0+ 0+ Ot 0+ Ot 0+ 0+ 0+ 001 001 001 003 007 013 022 029 084 185 333 506 676 9
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 003 007 009 033 087 186 329 500 10
11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 002 011 035 088 184 324 11
12 0+ 0+ 0+ 0+ Ot 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 003 011 035 087 180 12
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 012 034 084 13
14 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 011 032 14

15 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 010 15


16 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 16
17 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 17
18 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 18
19 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 19
20 o 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 o
1 182 332 558 642 710 811 878 922 951 961 969 961 968 993 996 997 999 1- 1- 1- 1- 1
2 017 060 190 264 340 483 608 711 792 824 853 896 931 954 970 976 992 996 m 1- 1- 2
3 001 007 044 075 115 212 323 437 545 595 642 725 794 849 891 909 965 986 996 999 1- 3
4 0+ 001 007 016 029 071 133 213 '304 352 401 497 589 671 743 775 893 956 964 995 999 4

5 0+ 0+ 001 003 006 018 043 083 137 170 206 285 370 458 762 882 949 961 994
~
544 585
6 0+ 0+ 0+ 0+ 001 004 Oil 026 051 067 087 136 196 266 343 383 584 755 874 945 979
0+ 0+ 0+ 0+ 0+ 001 002 007 015 022 030 054 007 130 1114 214 392 583 750 ti70 942 l
é 0+ 0+ Ot Ot 0+ 0+
Ot
()+ 001 004
0+ 001
006
001
009
002
018
005
032
010
054
019
083 102
032 041
228
il3
399
236
584
404
748
586
868
748
8
9
9 Ot Ot Ot 0+ 0+ ()+

10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 005 010 014 048 122 24 5 409 588 10


11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 003 004 017 053 126 249 412 11
12 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 005 020 057 131 252 12
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 006 021 058 132 13
14 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 006 021 058 14

15 0+ 0+ 0+ 0+ 0+ 0+ '0+ 0+ 0+ 0+ 0+ 0+ 0+ (}+ 0+ 0+ 0+ 0+ 002 006 021 15


16 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 006 16
17 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 17
18 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ (1+ 0+ 18
19 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 19

20 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 20

21 o 1 1 1 1 1 1 1 111111111
1 1 1 1 1 o
1 190 346 576 659 727 826 891 932 958 967 974 965 991 995 997 996 999 1- 1- 1- 1- 1
509 635 736 814 845 872 913 943 962 976 961 994 999 1-1- 1- 2
~;
2 019 065 204 362
3 001 008 050 128 234 352 470 580 630 676 756 821 872 910 925 973 991 996 999 1- 3
4 0+ 001 009 019 034 082 152 240 338 389 440 538 630 710 779 808 914 967 969 997 m 4

5 0+ 0+ 001 003 007 023 052 096 161 197 237 323 414 505 592 633 802 908 963 967 996 5
6 Ot Ot 0+ 0+ 001 005 014 033 063 083 106 '162 231 308 391 433 637 799 904 961 967 6
7 0+ 0+ Ot 0+ 0+ 001 003 009 020 02; 039 068 109 160 222 256 449 643 800 904 961 7
8 0+ Ot 0+ 0+ 0+ 0+ 001 002 005 008 012 024 043 070 108 130 277 464 650 803 905 8
9 0+ 0+ 0+ o()+ 0+ Ot Ot 0+ 001 002 003 007 014 026 044 056 148 294 476 659 808 9
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 004 008 016 021 068 162 309 488 669 10'
11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 005 006 026 077 174 321 500 11
12 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 002 009 031 085 184 332 12
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ Q+ 0+ 002 011 035 091 192 13
14 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 012 038 095 14

15 0+ 0+ 0+ 0+ 0+ ()-f- 0+ 0+ 0+ 0+ (}+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 013 039 15


16 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 013 16
17 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ Q+ 0+ 0+ (}+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 17
18 0+ 0+ 0+ (}+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 18
19 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 19

20 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ (}+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 20
21 0+ 0+ 0+ (}+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ Q+ 0+ 0+ (}+ 0+ (}+ 0+ 0+ 0+ 0+ 21
716 Apéndice

DISTRIBUCiÓN BINOMIAL-TÉRMINOS ACUMULATIVOS (Continuaci6n)

Probabilidad de r o más éxitos en n intentos = :i.Crprq.-r


r

D r .01 .02 .04 .05 .06 .06 .10 .12 .14 .15 P.16 .18 .20 .22 .24 .25 .30 .35 .40 .45 .50 r

o 11111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 o
1 198 359 593 676 744 840 902 940 964 972 978 987 993 996 998 998 1- 1- 1- 1- 1- 1
2 020 071 219 302 384 535 661 760 834 863 888 926 952 970 981 985 996 999 1- 1- 1- 2
3 001 009 056 095 142 256 380 502 612 662 707 785 846 892 926 939 979 994 998 1- 1- 3
4 0+ 001 011 022 040 094 172 267 372 425 477 578 668 746 810 836 932 975 992 998 1- 4

g 0+
0+
0+
0+
002 004 009 027 062 115 186
0+ 001 002 006 018 041 077
m
100
270
127
362 457 550 637 677 835 926 973 992 998
191 267 351 439 483 687 837 928 973 992
5
6
7 0+ 0+ 0+ 0+ 0+ 001 004 012 026 037 050 065 133 193 263 301 506 698 842 929 974 7
8 0+ 0+ 0+ 0+ 0+ 0+ 001 003 008 011 017 032 056 090 135 162 329 526 710 848 933 8
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 003 005 010 020 036 060 075 186 353 546 724 857 9
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 003 006 012 022 030 092 208 376 565 738 10
11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 004 007 010 039 107 228 396 584 U
12 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 003 014 047 121 246 416 12
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 018 055 133 262 13
14 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 006 021 062 143 14

15 0+ 0+ 0+ 0+ 0+'0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 007 024 067 15


16 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 006 026 16
17 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 008 17
18 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 18
19 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 19
20 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+, 0+ 0+ 0+ 0+ 0+ 0+ 0+ 20
21 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 21
22 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 22

23 o 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 o
1 206 372 609 693 759 853 911 947 969 976 982 990 994 997 998 999 1- 1- 1- 1- 1- 1
2 022 077 23 4 321 405 559 685 781 852 880 902 937 960 975 98;> 988 997 999 1- 1- 1- 2

~
002 ou 062 105
0+
0+
278 406 533 643
001 012 026 ~ 107 193 295 405
002 005 011 033 073 133
736 810
514 615
212
m 867
703 m§~ 863
951 984
946 ~ 999
995 999
1-

864 945 981 995 999


1-
1- l
0+ 256 303 401 499 593 678 717
~
5
0+ 0+ 0+ 001 002 008 023 050 092 119 150 222 305 395 487 532 731 869 946 981 995 6
7 0+ 0+ 0+ 0+ 0+ 002 006 015 033 046 062 104 160 m 305 346 560 747 876 949 983 7
8 0+ 0+ 0+ 0+ .0+ 0+ 001 004 010 015 022 042 072 113 166 196 382 586 763 885 953 8
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 004 007 014 027 048 078 096 229 444 612 780 895 9
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 002 004 009 017 031 041 120 259 444 636 798 10
11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 005 OU 015 055 142 287 472 661 11
12 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 003 005 021 068 164 313 500 12
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 007 026 081 184 339 13
14 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 002 010 035 094 202 14

15 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 003 013 041 105 15


16 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 015 047 16
17 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 005 017 17
18 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 005 18
19 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 19
20 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 20
21 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 21
22 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 22
23 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 23
o 1 1 1 1 111 o
~,~
1 1 1 1 1 1 1 1 1 1 1 1
1 214 384 625 708 773 865 920 953 973 980 985 991 995 997 1- 1- 1- 1- 1- 1
2 024 083 249 339 427 583 708 801 869 894 915 946 967 980 988 991 998 1- 1- 1- 1- 2
3 002 012 069 116 172 301 436 563 673 720 763 833 885 924 950 960 988 997 999 l· 1- 3
4 0+ 001 014 030 053 121 214 324 439 495 550 650 736 807 862 885 958 987 996 999 1- 4

5 0+ 0+ 002 006 013 039 085 153 239 287 337 439 540 634 717 753 889 958 987 996 999 5
6 0+ 0+ 0+ 001 002 010 026 060 109 139 174 254 344 439 533 578 771 896 960 987 997 6
7 0+ 0+ 0+ 0+ 0+ 002 007 019 041 057 076 126 189 264 349 393 611 789 904 964 989 7
8 0+ 0+ 0+ 0+ 0+ 0+ 002 005 013 020 028 053 089 136 199 234 435 642 808 914 968 8
9 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 006 009 019 036 062 099 121 Z75 474 672 827 924 9
10 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 002 006 013 024 042 055 153 313 5U 701 846 10
11 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 004 008 016 021 074 183 350 546 729 11
12 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 002 005 007 031 094 213 365 581 12
13 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 001 002 012 042 u4 242 419 13
14 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 001 004 0~6 053 134 271 14
Distribución binomial-términos acumulativos 717

DISTRIBUexÓN BINOMIAL-TÉRMINOS ACUMULATIVOS (Conclusión)

"
Probabilidad de r o más éxitos en n intentos ::: ~"Crpr q"-r
r

D r .01 .02 .04 ·05 .06 .08 .10 .12 .110 .15 P.16 .lB .20 .22 .210 .25 .30 ·35 .40 .45 .50 r

!ll 15 ()+ ()+ 0+ 0+ 0+ 0+ O. 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ O. 001 005 022 065 1510 15


16 ()+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ O' 0+ 0+ ()+ 0+ 0+ 0+ 002 008 027 076 16
17 ()+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ O< 0+ O< 0+ 0+ ()+ O< O< O< O< 002 010 032 17
18 O' O< O. 0+ 0+ O< 0+ O< 0+ ()+ ()+ O< 0+ O< O< O< O< O< 001 003 011 18
19 ()+ O< O. 0+ 0+ O< ()+ 0+ O< O< 0+ O< 0+ ()+ 0+ 0+ ()+ 0+ O' 001 003 19
20 ()+ ()+ O< O< 0+ O< O< O< ()+ ()+ ()+ ()+ ()+ ()+ O< ()+ ()+ ()+ O· O' 001 20
21 O. ()+ O< ()+ ()+ ()+ ()+ ()+ O< O< 0+ O< O. ()+ ()+ O< ()+ ()+ 0+ 0+ ()+ 21
22 O' ()+ ()+ O. O· ()+ ()+ 0+ O< O. 0+ 0+ ()+ ()+ ()+ ()+ ()+ 0+ 0+ O. ()+ 22
23 ()+ 0+ 0+ O. ()+ ()+ ()+ ()+ ()+ ()+ ()+ 0+ ()+ ()+ 0+ O< 0+ ()+ 0+ ()+ O· 23
24 ()+ ()+ 0+ O. ()+ ()+ o. ()+ O< O< O< O· 0+ ()+ ()+ ()+ ()+ ()+ ()+ 0+ ()+ 210

25 o 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 o
1 222 397 6loo 723 787 876 928 959 9T7 983 987 993 996 99B 999 999 1- 1- 1- l. 1- 1
2 026 089 2611 358 447 605 729 820 883 907 926 955 973 9Blo 991 993 99B 1- l. l· 1- 2
3 002 013 en6 121' 187 323 463 591 700 746 787 853 902 936 959 968 991 99B 1- 1- l· 3
4 0+ 001 017 034 060 135 2)6 352 471 529 584 683 766 832 883 904 967 990 99B l. l· lo

5 0+ 0+ 003 ocn 015 045 098 173 267 318 371 477 579 672 752 786 910 968 991 99B 1- 5
6 0+ 0+ 0+ 001 003 012 033 enl 121 162 200 288 383 482 571 622 8en 917 971 991 99B 6
7 0+ 0+ 0+ Ot 001 003 009 024 051 eno 092 149 220 303 393 439 659 821 926 974 993 7
8 0+ 0+ 0+ Ot ()+ 001 002 007 017 025 036 066 109 166 235 213 488 694 846 936 978 8
9 0+ 0+ 0+ 0+ ()+ 0+ 0+ 002 005 008 012 025 047 Cf79 123 149 323 533 726 866 946 9
10 O< ()+ O< O< 0+ O< 0+ 0+ 001 002 003 006 017 033 056 Cf71 189 370 575 758 885 lO
11 0+ ()+- O< 0+ ()+ 0+ O. 0+ ()+ 0+ 001 002 006 012 022 030 098 229 414 616 7~8 11
12 0+ 0+ 0+ 0+ 0+ O< 0+ 0+ 0+ 0+ 0+ 001 002 004 006 011 041, 125 268 457 655 12
13 0+ 0+ 0+ 0+ 0+ ()+ ()+ 0+ ()+ 0+ O' 0+ 0+ 001 002 003 017 060 151, 306 soo 13
14 O< O< O< O< O< O< O< O' 0+ 0+ O< o' 0+ O. 001 001 006 025 078 183 34 5 14

~~
O< 0+ O< O< O< O< O< O< O< 0+ O< ()+ o· 0+ 0+ O· 002 009 0310 0')6 212 15
O< O< O< 0+ 0+ O< O< O< O< o. 0+ O· O< O· O· o· o' OC·3 el! :J41, 11~ 16
17 O< 0+ O< 0+ 0+ 0+ O< ()+ O< 0+ o. o· O< O' o· O· 0+ 001 ~ 01 7 ~jl, F
18 ()+ ()+ ()+ 0+ 0+ O< ()+ 0+ O< O< ()+ ()+ 0+ ()+ O· o. ()+ 0+ 001 006 022 18
l~ 0+ 0+ ()+ 0+ 0+ 0+ 0+ 0+ O< ()+ ()+ ()+ 0+ 0+ 0+ 0+ ()+ ()+ O· 002 OOT 19
20 ()+ ()+ ()+ 0+ 0+ O< 0+ O< ()+ 0+ ()+ 0+ 0+ 0+ 0+ O< ()+ 0+ Ó' 0+ 002 20
21 O< 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ ()+ 0+ 0+ 0+ 0+ 0+ O. 0+ 0+ O. 0+ 21
22 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ 0+ O· 0+ 22
23 0+ ()+ O< 0+ 0+ O< O< 0+ 0+ ()+ 0+ 0+ 0+ 0+ ()+ 0+ 0+ ()+ O. 0+ 0+ 23
24 0+ ()+ O< 0+ ()+ 0+ ()+ ()+ 0+ 0+ ()+ O< 0+ O< 0+ 0+ 0+ 0+ 0+ ()+ 0+ 24
25 0+ 0+ 0+ 0+ 0+ O< ()+ 0+ 0+ 0+ 0+ ()+ ()+ 0+ 1)+ O< O< O< o+·~O+ 0+ 25

J'¡
APENDICE H
Distribución de Poisson-técminos individuales

La tabla presenta probabilidades de Poisson individuales para el nú-


mero de ocurrencias X por unidad de medición, para valores seleccionados
de m, el número medio de ocurrencias por unidad de medición.
Un espacio en blanco se deja para valores menores de 0.0005.

, e--mm"
f(x)=-
xl

.001 .002 .003 .004 .005 .006 .007 .008 .009 .01 .02 .03 .04 .05 .06 .07 .08 .09 .10 .15 x

999 998 997 996 995 994 993 992 991 990 980 970 961 951 942 932 923 914 905 861 o
001 002 003 004 005 006 007 008 009 010 020 030 038 048 057 06,. 074 082 090 129 1
001 001 002 002 003 004 005 010 2

m
.20 .25 ·30 .40 ·50 .60 .70, .80 .90 1.0 1.1 1.2 1.3 1.4 1.5 1.6 ".7 1.8 1.9 2.0 x

819 779 741 670 607 ' ')49 497 449 407 368 333 301 273 247 223 202 183 165 150 135 O
164 195 222 268 303 329 348 359 366 368 366 ]61 354 345 335 323 311 298 284 271 1
016 024 033 0')4 076 099 122 144 16') 184 201 217 230 242 251 258 264 268 270 271 2
001 002 003 007 013 020 028 038 049 061 074 087 100 113 126 13tl 150 161 171 180 3
001 002 003 005 008 OH 015 020 026 032 039 047 055 063 072 081 090 4

001 001 002 003 004 006 008 011 0.14 018 022 026 031 036 5
001 001 001 002 003 004 005 006 008 010 012 6
001 001 001 001 002 003 003 7
001 001 8

2.1 2.2 2·3 2.4 2·5 2.0 2·7 2.8 2·9 3·0 3·1 3.2 3·3 3.4 ).5 3.6 3.7 3.8 3.9 4.0 x

122 111 100 091 082 074 067 061 055 050 045 041 037 033 030 027 025 022 020 018 O
257 244 231 218 205 193 181 170 160 149 140 130 ~2 113 106 098 091 065 079 073 1
270 268 265 261 257 251 245 238 231 224 216 209 201 193 185 177 169 162 151> 147 2
189 107 203 209 214 218 220 222 224 224 224 223 221 219 216 212 209 205 200 195 3
099 108 117 125 134 141 149 156 162 168 173 178 182 186 l89 191 193 194 195 195 4

042 048 054 060 067 074 080 087 094 101 107 114 120 126 132 138 143 148 152 156 5
015 017 021 024 028 032 0]6 041 045 050 056 061 066 072 077 083 088 094 099 104 6
004 005 007 008 010 012 014 016 019 022 025 028 031 035 039 042 047 051 055 060 7
001 002 002 002 003 004 005 006 007 008 010 011 013 015 017 019 022 024 027 030 8
001 001 001 001 002 002 003 003 004 005 006 007 008 009 010 012 013 9
001 001 001 001 002 002 002 003 003 004 005 005 10
001 001 001 001 001 002 002 11
001 001 12

719
720 Apéndice

DISTRIBUCIÓN DE POlSSON-TÉRMINOS INDIVIDUALES· (Continuación)


,-mm"
f(x) = -
xl

m
x 4.1 4.2 4.3 4.4 4.5 4.6 4·7 4.8 4.9 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0

O 017 015 014 012 011 010 009 008 007 007 006 006 005 005 004 004 003 003 003 002
1 068 063 058 054 050 046 043 040 036 034 031 029 026 024 022 021 019 018 016 015
2 139 132 125 119 112 106 100 095 089 084 079 075 070 066 062 058 054 051 048 045
3 190 185 180 174 169 163 157 152 146 140 135 129 124 119 113 108 103 098 094 089
4 195 194 193 192 190 188 185 182 179 175 172 168 164 160 156 152 147 143 138 134

5 160 163 166 169 171 173 174 175 175 175 175 175 174 173 171 170 168 1.66 163 16J.
6 109 114 119 124 128 132 136 140 143 146 149 151 154 156 157 158 159 160 160 161
7 064 069 073 078 082 087 091 096 100 104 109 113 ll6 120 123 127 130 133 135 138
8 033 036 039 043 046 050 054 058 061 065 069 073 077 081 085 089 092 096 100 103
9 015 017 019 021 023 026 028 031 033 036 039 042 045 049 052 055 059 062 065 069
10 006 007 008 009 010 012 013 015 016 018 020 024 026 029
022 031 O.H 036 039 041
11 002 003 003 004 004 005 006 006 007 008 009 010 012 013 014 016 017 019 02l 023
12 001 001 001 001 002 002 002 003 003 003 004 005 005 006 007 007 008 009 010 011
13 001 001 001 001 001 001 002 002 002 002 003 003 004 004 005 005
14 001 001 001 001 001 001 001 002 002 002

15 001 001 001 001

m
x 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0 7.1 7.2 7.3 7.4 7.5 8.0 8.5 9.0 9.5 10.0

O 002 002 002 002 002 001 OO! 001 001 001 001 001 001 001 001
1 014 013 012 011 010 009 008 008 007 oc6 006 005 005 005 004 003 002 001 001
2 042 039 036 034 o~ 030 028 026 024 022 021 019 018 017 016 011 007 005 003 002
3 085 081 077 073 069 065 062 058 055 052 049 046 044 041 039 029 021 015 011 008
4 129 125 121 ll6 112 108 103 099 095 091 087 084 080 076 073 057 044 034 025 019

5 158 155 152 149 145 142 138 135 131 128 124 120 117 113 109 092 075 061 048 038
6 160 160 159 159 157 156 155 153 151 149 147 144 142 139 137 122 107 091 076 063
7 140 142 144 145 146 147 148 149 149 149 149 149 148 147 146 140 129 117 104 090
8 107 110 113 ll6 119 121 124 126 128 130 132 134 135 136 137 140 138 132 123 113
9 072 076 079 082 086 089 092 095 098 101 104 107 110 112 114 124 130 132 130 125
10 044 047 050 053 056 059 062 065 068 071 074 077 080 083 086 099 110 119 124 125
11 024 026 029 031 033 035 038 040 043 045 048 050 053 056 059 072 085 097 10'7 114
12 012 014 015 016 018 019 021 023 025 026 028 030 032 034 037 048 060 073 084 095
13 006 007 007 008 009 010 011 012 013 014 015 017 018 020 021 030 040 050 062 073
14 003 003 003 004 004 005 005 006 006 007 008 009 009 010 011 017 024 032 042 052

15 001 001 001 002 002 002 002 003 003 003 004 004 005 005 006 009 014 019 027 035
16 001 001 001 001 001 001 001 001 002 002 002 002 003 005 007 011 016 022
17 001 001 001 001 001 001 001 002 004 006 009 013
18 001 002 003 005 007
19 001 001 002 004
20 001 001 002
21 001
APENDICE I
Distribución de Poisson-términos acumulativos

La tabla presenta las probabilidades de Poisson para X o más ocurren-


cias por unidad de medición, para valores seleccionados de m, el número
medio de ocurrencias por unidad de medición.
El símbolo 1- indica un valor menor que 1 pero mayor que 0.9995.
Se deja un espacio en blanco para valores menores de 0.0005.

co e-mmx
~--
'" x!
m
x .X1 .002 .003 .004 .005 . 006 •orrr . 008 •009 •01 .02 .e3 .04 .05 .06 .(17 .08 .C? .-le .15 x

e 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 o
:lo 0Ol. 002 003 oc4 005 006 007 oo'l 009 010 020 030 039 049 058 068 077 086 095 139 1
2 -) .. :~ 001 001 002 002 003 oc4 005 010
001
2
3
3

m
x .20 .25 ·30 .40 ·50 .60 .70 ,.80 ·90 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1·7 1.8 1·9 2.0 x

O 1 1 1 1 1 1 l. '1 1 1 1 1 1 1 1 1 1 1 1 1 O
1 2.81 221 259 330 393 451 503 551 593 632 66T 699 753 777
?'2'7 798 817 835 850 865 1
2 e18 026 037 062 090 122 156 191 228 264 301 337 373 408 442 475 507 537 566 594 2
3 001 002 oc4 oc8 014 023 034 o4T 063 080 100 121 143 167 191 217 243 269 296 323 3
4 001 002 003 006 009 013 Ol.9 026 034 043 054 066 079 093 109 125 143 4

5 001 001 002 oc4 005 008 011 014 019 024 030 036 044 053 5
6 001 001 002 002 OC3 oc4 006 oo'l Ol.0 013 017 6
7 001 001 001 002 003 003 005 7
'3 001 001 001 8

m
x 2.1 2.2 2·3 2." 2.5 2.6 2.7 2.8 2·9 3·0 3.1 3.2 3.3 3.4 3·5 3.6 3.7 3.8 3·9 4.0
"
O 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 O

~~
1 818 889 900 909 926 933 939 945 950 955 959 963 967 970 973 975 978 980 982 1
2 620 645 6&) 692 733 751 769 185 801 815 829 841 853 864 8T4 884 893 901 9o'l 2
3 35C m lo()lo 430 456 482 506 531 554 577 599 620 641 660 679 697 715 731 747 762 3
4 161 lBl 2Cl 221 242 264 286 308 330 353 375 397 420 442 46 3 485 506 527 547 567 4

5 r:/í.2 ~ ~ :l'J6 J...."'O' ~ l..~ 152 168 185 202 219 237 256 275 294 313 332 352 371 5
6 020 c25 C(lIC ~ ="" 7'-') t'5"" ~ 074 áll> og4 105 117 129 142 156 11'0 184 199 215 6
7 006 ocr X'9 :&2 !P S1" Z ::2' G29 0)0 039 ()Io5 051 058 065 073 082 091 101 III 7
p ,X'j xr e:::..: :J2 OJ.I, Cl? 020 023 027
8
"'
..
CC1 ttt" X3 X3 031 035 040 045 051 8
9 :le XlI. m:1 ~ :tU ::G< :le XJL :Il5 :xt6 ~ rxi3 Ole Cl2 014 016 e19 021 9
10 m. iC. m. !IIIIll lIIIIII. .~ ::ICl< XS 013 :x1> 005 006 007 oo'l le
11 ma. ~ 0Ql 002 0C2 002 ce3 11
12 rol 001 001 12
722 Apéndice

DISTRIBUCIÓN DE POISSON-TÉRMINOS ACUMULATIVOS (Continuación)


ce e-m'fl'?
~--
x'

m
x 4.1 4.2 4.3 4.4 4.5 4.6 4.1 4.8 4·9 5.0 5.1 5.2 5·3 5.4 5.5 5.6 5·1 5.8 5.9 6.0 x

O 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 O
1 983 985 986 988 989 ')')0 991 ')92 993 993 994 994 995 995 996 991- 991 991 991 9'f" 1
2 915 922 C)28 934 939 ')44 ')48 952 956 960 963 966 969 911 913 916 918 919 981 983 2
3 116 190 803 815 826 831 848 851 861 81"5 884 891 898 905 912 918 923 928 933 938 3
4 586 605 623 641 658 614 690 1r:i5 121 135 1 49 162 115 181 198 809 820 830 840 849 4

5 391 410 430 449 468 481 505 524 542 560 511 5')4 610 627 642 658 613 681 101 115 5
6 231 241 263 280 291 314 332 34 9 366 384 402 419 431 45 4 411 488 505 522 538 55 4 6
1 121 133 144 156 169 182 195 209 223 238 253 268 283 29'3 314 330 346 362 318 3')4 1
8 051 064 011 079 081 095 104 113 123 1"JJ 144 155 161 118 191 203 216 229 242 256 8
9 024 028 032 OJ6 040 045 c50 056 oE2 068 015 082 089 091 106 114 123 133 143 153 9
lO 010 011 013 015 011 020 022 025 028 :32 036 040 044 049 054 059 r:i55 011 011 084 lO
11 003 0Ql. 005 or:i5 001 008 OC? 010 012 el.\ 016 018 020 023 025 028 031 035 039 042 11
12 001 001 002 002 002 003 003 004 005 005 or:i5 001 008 010 011 012 014 016 018 020 12
13 001 001 001 001 001 001 002 002 002 003 003 004 004 005 or:i5 001 008 009 13
14 001 001 001 001 001 001 002 002 002 003 003 004 14

15 001 001 001 001 001 001 15


16 001 16

ro
x 6.1 6.2 6·3 6.1, 6.5 6.6 6.1 6.8 6.9 1.0 1.1 1.2 1.3 1.4 "1.5 8.0 8.5 9.0 9·5 10.0 x

O 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 O
1 998 998 998 998 9?'1 999 m m 999 999 999 999 999 999 999 1- 1- 1- 1- 1- 1
2 734 985 981 988 'j'\'J no 991 ?91 992 993 993 994 994 995 995 991 998 999 999 1- 2
3 ')42 ')46 950 954 957 960 963 966 968 910 913 915 916 918 980 986 991 994 996 991 3
4 857 866 814 881 888 895 901 907 913 918 923 928 933 931 941 958 910 919 985 990 4
5 728 741 153 165 176 181 1<)8 808 818 821 836 844 853 860 868 900 926 94 5 960 911 5
6 570 586 601 616 631 645 659 673 686 699 112 124 136 141 159 809 850 884 911 933 6
1 410 426 442 458 413 489 505 52C 535 550 565 580 594 608 622 681 144 193 835 810 1
8 270 284 2<)8 313 327 342 357 ...~7"'"
,<:.. 386 401 416 431 446 461 415 541 614 616 131 180 8
9 163 174 185 197 208 220 233 2 4 5 258 271 284 291 311 324 338 401 417 544 608 661 9
10 091 093 106 114 123 131 140 150 151 110 180 190 201 212 224 283 341 413 418 542 la
11 041 051 056 061 061 07 3 079 095 092 099 106 113 121 129 138 184 231 294 355 411 11
12 022 025 028 031 034 037 (,AJ 045 049 053 058 063 068 074 019 112 151 197 248 303 12
13 010 011 013 014 016 018 020 022 024 027 030 033 036 039 043 064 091 124 164 208 13
14 004 005 005 006 001 008 009 010 011 013 014 016 018 020 022 034 051 014 102 136 14
15 002 002 002 003 003 003 004 004 005 006 006 007 008 009 010 017 027 041 060 083 15
16 001 001 001 001 001 001 0C2 002 002 002 003 003 004 004 005 008 014 022 033 049 16
11 001 001 COl 001 001 001 001 001 002 002 004 001 011 018 021 11
18 001 001 001 001 002 003 005 009 014 18
19 001 001 002 004 001 19
20 001 001 002 003 20
2l 001 002 21
22 001 22
APENDICE J
Valores de e- X

Esta tabla lista los valores de e-x para valores de X de O a 10. Los
valores intennedios se pueden calcular haciendo uso de la relación
e-(a+b) = e-a. e-b . Por ejemplo, para encontrar e-l. 2 1, use e-l.O = 0.368 Y
e-O•21 = 0.811; luego e-l. 21 = (0.386) (0.811) = 0.298.

e-X e-X e-X X e-X


X X X

.00 1.000 .40 .670 .80 .449 3.00 .0"979


.01 .990 .41 .664 .81 .445 3.10 .04505
.08 .980 ."8 .657 .82 .440 3.80 .0"016
.03 .970 .43 .651 .83 .436 3.30 .03688
.04 .961 .44 .644 .84 .432 3.40 .03331

.05 .951 .45 .638 .85 .427 3.50 .03010


.06 .948 .46 .631 .86 .423 3.60 .08138
.01 .938 ."1 .685 .81 .419 3.10 .08"18
.08 .983 ."8 .619 .88 ."15 3.1Il0 .08831
.09 .91" .49 .613 .89 .411 3.90 .08084
o .10 .905 .50 .601 .90 .401 4.00 .01832
1. .11 .896 .5.1 .600 .91 .403 4.10 .01657
2 .18 .881 .58 .595 .98 .399 4.80 .01500
3 .13 .878 .53 .589 .93 .395 4.30 .01357
4 .94 .391 4.40 .01888
.1" .869 .54 .583
5 .55 .571 .95 .387 4.50 .01111
.15 .861
6
7 .16 .858 .56 • .5'71 .96 .383
.3'79
4.60 .01005
8 .1'7 .8"4 .5'7 .566 .9'7 4.'70 .00910
9 .18 .835 .58 .560 .98 .375 4.80 .00823
.19 .88'7 .59 .5S" .99 .378 4.90 .00'745
1.0
II .80 .819 .60 .549 1.00 .368 5.00 .006'74
1.2 .81 .811 .61 .543 1.10 .333 5.50 .00409
1.3 .88 .803 .61 .538 l.ao .301 6.00 .00848
1.4 .23 .'795 .63 .S33 1.30 .813 6.50 .00150
.24 .'787 .64 .517 1.40 .247 '7.00 .00091
1.5
1.6 .85 .'7'79 .65 .Sle 1.50 .883 7.50 .00055
1.7
18
.86 .'771 .66 .sa7 1.60 .80e EI.OO .00034
19
.27 .'763 .6'7 .sal 1.'70 .183 8.50 .000110
.88 .756 .68 .50'7 1.80 .165 9.00 .00018
.e9 .748 .69 .501 1.90 .150 10.00 .00005
20
21
22 .30 .'741 .'70 .49'7 e.oo .135
.31 .733 .71 ."98 8.10 .188
.38 .'726 .'78 .48'7 8.eo .111
.33 .719 .13 .488 e.30 .100
.34 .718 .7" .1&7'7 8.1&0 .091

.35 "'05 .15 .1&18 8.50 .08e


.36 .698 .'76 .1&68 8.60 .01"
.3'7 .691 .'71 .463 8.'70 .061
.38 .684 .78 .458 8.80 .061
.39 .67'7 .'79 .1&5. 8.90 .055

723
APENOICE K
Sumas de cuadrados y cuartas
potencias usadas en ajustes de tendencia
Esta tabla da los valores de ¡x 2 y ~X4 que se necesitan para encontrar
las constantes en las ecuaciones de tendencia secular ajustadas mediante
mínimos cuadrados, donde el origen de x se centra en el punto medio,
Use la tabla del lado izquierdo para un número impar de años, donde la
unidad x es un año. Use la mitad derecha de la tabla para un número
par de años, donde la unidad x es de seis meses, y los años se numeran
1, 3, 5, ... y -1, -3, -5,'" a partir del origen. La suma incluye las
potencias de valores negativos y positivos de x. Por ejemplo, n = 51 in-
cluye valores enteros de x de - 25 a 25, y n = 50 incluye valores nume-
rados impares de x de - 49 a 49.

PARA UN NÚMERO IMPAR DE AÑOS PARA UN NÚMERO PAR DE AÑOS


LA UNIDAD DE X ES 1 AÑO LA UNIDAD DE X ES 6 MESES

N 2:)<'2 2:x' N 2:x2 2:..-4

'3 2 2 2 2 2
5 10 34 4 20 164
7 28 196 6 70 1414
9 60 708 8 168 6216
n no 1958 10 330 19338
13 182 4550 12 572 48620
15 280 9352 14 910 105742
17 408 17 544 16 1360 206992
19 570 30666 18 1938 374034
21 770 , 50' 666 20 2660 634676
23 1012 79948 22 3542 1023 638
25 1300 121 420 24 4600 1 583320
27 1638 178542 26 5850 2364570
29 2030 255374 28 7308 3427452
31 2480 356624 30 8990 4842014
33 2992 469696 32 10 912 6689056
35 3570 654 738 34 13090 9060898
37 4218 864690 36 15540 12 062148
39 4940 1125332 38 18278 15810470
41 5740 1445332 40 21320 20437352
43 6622 1 834294 42 24682 26088874
45 7590 2302806 44 28380 32926476
47 8628 2862488 46 32430 41 127726
49 9800 3526040 48 36848 50887088
51 11050 4307290 50 41650 62416690

53 12402 5221 242 52 46852 75947092


55 13860 6284 124 54 52470 91728054
57 15428 7513 436 56 58 520 no 029 304
59 17 no 8927998 58 65018 131 141 306
61 18910 10547998 60 71980 155376028

725
APENDICE M
Valores de t

El valor t describe la distribución muestral de una desviación de un


valor poblacional dividida entre el error estándar.
Las probabilidades en la parte superior se refieren a la suma de las
áreas de dos extremos bajo la curva normal que quedan fuera de los
puntos -+- t. (Para un sQlo extremo divid-. la probabilidad entre 2). Los
grados de libertad se listan en la primera columna.
Ejemplo: En la distribución de las medias de muestras de tamaño
n = 10, gl = n - 1 = 9; entonces 0.05 del área bajo la curva queda dentro
de los dos extremos fuerardel intervalo t = -+- 2.262. El último renglón
muestra las áreas correspondientes bajo la curva normal.

729
730 Apéndice

PROBABILIDAD (P)
I
gl 1 '. '.20 .10 .OS .02 .01

1 3·078 6·314 12·706 31·821 63·657


2 1·886 2·920 4·303 6·965 9·925
3 1·638 2·353 3·182 4·541 5·841
4 1·533 2·132 2·776 3·747 ''': 4·604
5 1·476 2·015 2,571 3·365 4·032
6 1·440 1·943 2·447 3·143 3·7d7
7 1,415 1·895 2·365 2·998 3-499
8 1·397 1·860 2·306 2·896 3·355
9 1·383 1·833 2·262 2·821 3·250
10 1·372 1·812 2·228 2,764 3·169

11 1·363 1·796 2·201 2·718 3·106


12 1·356 1·782 2·179 2·681 3·055
13
14
1·350
1·345
1·771
1·761
2·160
2·145
.
2·650
2·624
3·012
2·977
15 1·341 1·753 2·131 2·602 2·947
16 1·337 1·746 2·120 2,583 2·921
17 1·333 1,740 2·110 2·5fJ7 2·898
18 1·330 1·734 2·101 2·552 2·878
19 I
1·328 1·729 2·093 2·539 2·861
20 1-325 1·725 2·086 2·528 2·845

21 1·323 1·721 2'080 2·518 2·831


22 1·321 1·717 2·074 2·508 2·819
23 1·319 1·714 2'069 2·500 2·807
24 1·318 1,711 2·064 2-492 2·797
25 1·316 1·708 2·060 2-485 2·787
26 1·315 1·706 2·056 2-479 2·779
27 1·314 1·703 2·052 2·473 2,771
28 1·313 1·701 2·048 2·467 2,763
29 1·311 1·699 2·045 2·462 2,756
30 1·310 1·697 2·042 2-457 2·750

00 1·28155 1·64485 1·95996 2·32634 2,57582


Reproducido Con base en la tabla IV. pág. 174, de R. A. Fisher, Statistical Methods for
Research Workers (1l~ edición), publicada por üliver y Boyd, Ltd. Edimburgo, con penniso del
autor y los editores.
CAPITULO N
Distribución ji-cuadrada

VALORES DE x 2
~ Esta tabla muestra ~

Para g == 1, 2 Para g == 3 o más

G rad os
de Probabilidad (P)
ibertadt
g .99 .98 .95 .90 .50 .10 .05 .02 .01

1 .000157 .000628 .00393 .0158 .455 2.706 3.841 5.412 6.635


2 .0201 .0404 .103 .211 1.386 4.605 5.991 7.824 9.210
3 .115 .185 .352 .584 2.366 6.251 7.815 9.837 11.345
4 .297 .429 .711 1.064 3.357 7.779 9.488 11.668 13.277
5 .554 .752 1.145 1.610 4.351 9.236 11.070 13.388 15.086
6
7
.872
1.239
1.134
1.564 . 1.635
2.167
2.204
2.833
5.348 10.645 12.592
6.346 12.017 14.067
15.033
16.622
16.812
18.475
8 1.646 2.032 2.733 3.490 7.344 13.362 15.507 18.168 20.090
9 2.088 2.532 3.325 4.168 8.343 14.684 16.919 19.679 21.666
10 2.558 3.059 3.940 4.865 9.342 15.987 18.307 21.161 25.209
11 3.053 3.609 '4.575 5.578 10.341 17.275 19.675 22.618 24.725
12 3.571 4.178 5.226 6.304 11.340 18.549 21.026 24.054 26.217
13 4.107 4.765 5.892 7.042 12.340 19.812 22.362 25.472 27.688
14 4.660 5.368 6.571 7.790 13.339 21.064 23.685 26.873 29.141
15 5.229 5.985 7.261 8.547 14.339 22.307 24.996 28.259 30.578
16 5.812 6.614 7.962 9.312 15.338 23.542 26.296 29.633 32.000
17 6.408 7.255 8.672 10.085 16.338 24.769 27.587 30.995 33.409
18 7.015 7.906 9.390 10.865 17.338 25.989 28.869 32.346 34.805
19 7.633 8.567 10.117 11.651 18.338 27.204 30.144 33.687 36.191
20 8.260 9.237 10.851 12.443 19.337 28.412 31.410 35.020 37.566
21 8.8917 9.915 11.591 13.240 20.337 29.615 32.671 36.343 38.932
22 9.542 10.600 12.338 14.041 21.337 30.813 33.924 37.659 40.289
23 10.196 i1.293 13.091 14.848 22.337 32.007 35.172 38.968 41.638
24 10.856 11.992 13.848 15,659 23.337 33.196 36.415 40.270 42.980
25 11.524 12.697 14.611 16.473 2.4.337 34.382 37.652 41.566 44.314
26 12.198 13.409 15.379 17.292 25.336 35.563 38.885 42.856 45.642
27 12.879 14.125 16.151 18.114 26.336 36.741 40.113 44.140 46.963
28 13.565 14.847 16.928 18.939 27.336 37.916 41.337 45.419 48.278
29 14.256 15.574 17.708 19,768 28,336 39.087 42,557 46.693 49,588
30 14.953 16.306 18.493 20.599 29.336 40.256 43.773 47.962 50.892

Reproducida con base en la tabla III de Fisher: Statistical 'Methods for Research Workers,
publicada por üliver y Boyd Ltd., Edimburgo, con permiso del autor y los editores.
t .Pa:a v.~lores m~yores de grados de libertad, se puede suponer que la cantidad VfX2
tiene
una ~stnbuclOn aproxImadamente nonnal COIl. nlcdia y2d -- 1 y desviación estándar 1. ,Por tanto,
se puede suponer que el e-~,tadístico, ~ -:V2d - 1, tiene distribución normal estándar.

731
APENDICE
p
Prueba de suma de rangos

VALORES CRITICaS DE 1"


PARA LA PRUEBA DE SUMA DE RANGOS DE DOS MUEs:rRAS INDEPENDIENTES
Tl =suma de rangos en un grupo, n, y no son números en cada grupo. Si T , ~ 1 (límite
inferior) o Ti ==: u (límite superior), rechace la hipótesis de que los grupos son iguales
al nivel de significación de 0.05 ó 0.01 mostrado en el subencabezado. (Cuando n, Ó
110 = uno, y para los espacios en blanco de la tabla, la hipótesis no se puede rechazar).

~n2_ 2 3 4 5 6 7 8 9 10
nI
f ~ ·05 .01 .05 .01 .05 .01 ·05 .01 .05 .01 .05 ·01 .05 .01 .05 .01 .05 ·01

2 1 3 3 3
u 19 21 23

3 1 6 7 7 8 8 6 9 6
u 21 23 26 28 31 33 33 36
I
4 1 10 11 12 10 13 10 14 11 14 11 15 12
u 26 29 32 34 35 3i! 38 41 42 45 45 48

5 1 15 16 17 15 18 16 20 16 21 17 22 18 23 19
u 30 34 38 40 42 44 45 49 49 53 53 57 57 61

6 1 22 23 21 24 22 26 23 27 24 29 25 31 26 32 27
u 38 43" 45 48 50 52 55 57 60 61 65 65 70 70 75

7 1 29 31 28 33 29 34 31 36 32 38 34 40 35 42 37
u 48 53 56 58 62 64 67 69 73 74 78 79 84 84 89

8 1 36 38 40 37 42 38 44 40 46 42 49 43 51 45 53 47
u 52 58 64 67 70 74 76 80 82 86 87 93 93 99 99 105

9 1
u
45
63
47
70
.
,.'
45
72
49
77
46
80
52
83
48
87 I
55
89
50
94
57
96
52
101
60
102
54
108
62
109
56
115
65
115 122
58

10 1 55 58 55 60 57 63 59 66 61 69 64 72 66 75 68 78 11
u 75 82 85 90 93 97 101 104 109 _._---,-
111 116 118 124 125 132 132 13

737
La distribución F
VALORES DE F
APENDICE o
EXTREMO DERECHO DE LA DISTRIBUCIÓN PARA P = 0.05 (TIPO DELGADO),
0.01 (TIPO NEGRITA)

gl = grados de libertad para el numerador


gz 1 2 3 4 5 6 7 8 9 10 11 12
1 161 200 216 225 230 234 237 239 241 242 243 244
4,052 4,999 5,403 5,625 5,784 5,859 5,928 5,981 8,022 8,058 8,082 8,106
2 18.51 19.00 19.16 19.25 19.30 19.33 19.36 19.37 19.38 19.39 19.40 19.41
98.49 99.01 99.17 99.25 99.30 99.33 99.34 99.36 99.38 99.40 99.41 99.42
3 10.13 9.55 9.28 9.12 9.01 8.9~ 8.88 8.84 8.81 8.78 8.76 8.74
34.12 30.81 29.46 28.7i 28.24 27.91 27.87 27.49 27.34 27.23 27.13 27.05
4 7.. 71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.93 5.91
21.20 18.00 18.89 15.98 15.52 15.2t 14.98 14.80 14.88 14.54 14.45 14.37
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.78 4.74 4.70 4.68
16.28 13.27 12.08 11.39 10.97 10.87 10.45 10.27 10.15 10.05 9.98 9.89
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.03 4.00
13.74 1M2 9.78 9.15 8.75 8.47 8.28 8.10 7.98 7.87 '1.79 7.72
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.63 3.60 3.57

o
.
'"Cl
8
12.25
5.32
9.55
4.46
8.45
4.07
7.85
3.84
7.48
3.69
7.19
3.58
7.00
3.50
8.84
3.44
8.71
3.39
8.82
3.34
&.54
3.31
8.47
3.28
os 11.28 8.85 7.59 7.01 8.83 8.37 8.19 8.03 5.91 5.82 5.74 5.87
¡::
·so 9 5.12
lD.58
4.26
8.02
3.86
8.99
3.63
8.42
3.48
8.08
3.37
5.80
3.29
5.82
3.23
5.47
3.18
5.35
3.13
5.28
3.10
6.18
3.07
5.11
¡:: 10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.97 2.94 2.91
Il)

.,
'"Cl
11
10.04
4.84
9.65
7.58
3•.98
7.20
8.55
3.59
6.22
5.99
3.36
5.87
5.84
3.20
5.32
5.39
3.09
5.07
5.21
3.01
4.88
5.08
2.95
4.74
4.95
2.90
4.63
4.85
2.86
4.54
4.78
2.82
4.46
4.71
2.79
4.40
r:os 12 4.75 3.88 3.49 3.26 3.11 3.00 2.92 2.85 2.80 2.76 2.72 2.69
p.. 9.33 8.93 5.95 .,. 5.41 5.08 4.82 4.65 4.50 4.39 4.30 4,22 4.18
'"Cl 13 4.67 3.80 3.41 3.18 3.02 2.92 2.84 2.77 2.72 2.67 2.63 2.60
¡g
...
Il)
9.07 8.70 5.74 5.20 4.88 4.82 4.44 4.30 4.19 4.10 4.02 3.98
'14 4.60 3.74 3.34 3.11 2.96 2.85 2.77 2.70 2.65 2.60 2.56 2.53
;§ 8.88 8.51 5.58 5.03 4.89 4.48 4.28 4.14 4.03 3.94 3.88 UD
Il)
'"Cl
15 4.54 3.68 3.29 3.06 2.90 2.79 2.70 2.64 2.59 2.55 2.51 2.48
8.88 8.38 5.42 4.89 4.58 4.32 4.14 4.00 3.89 3.80 3.73 3.87
~ 16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.45 2.42
'"Cl
r:
b/)
8.53 8.23 5.29 4.77 4.44 4,20 4.03 3.89 3.78 3.89 3.81 3.55
17 4.45 3.59 3.20 2.96 2.81 2.70 2.62 2.55 2.50 2.45 2.41 2.38
1I 8.40 8.11 5.18 4.67 4.34 4.10 3.93 3.79 3.88 3.59 3.52 3.45
,¡;¡ 18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.37 2.34
8.28 8.01 5.09 4.58 4.25 4.01 3.85 3.71 3.80 3.51 3.44 3.37
19 4.38 3.52 3.13 2.90 2.74 2.63 2.55 2.48 2.43 2.38 2.34 2.31
8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.83 3.52 3.43 3.38 MO
20 4.35 3.49 3.10 2.87 2.71 2.60 2.52 2.45 2.40 2.35 2.31 2.28
8.10 5.85 4.94 4.43 4.10 3.87 3.71 3.58 3.45 3.37 3.30 3.23
2.49 2.28 2.25
I 21 4.32
8.02
3.47
5.78
3.07
4.87
2.84
4.37
2.68
4.04
2.57
3.81 3,85
2.42
3.51
2.37
3.40
2.32
3.31 3.24 3.17
22 4.30 3.44 3.05 2.82 2.66 2.55 2.47 2.40 2.35 2.30 2.26 . 2.~3
7.94 5.72 4.82 4.31 3.99 3.78 3.59 3.45 3.35 3.26 3.18 3.12
23 4.28 3.42 3.03 2.80 2.64 2.53 2.45 2.38 2.32 2.28 2.24 2.20
7.88 5.66 4.76 4,26 3.94 3.71 3.54 3.41 3.30 3.21 3.14 3.07
24 4.26 3.40 3.01 2.78 2.62 2.51 2.43 2.36 2.30 2.26 2.22 2.18
7.82 5.81 4.72 4,22 3.90 3.87 3.50 3.38 3.25 3.17 3.09 3.03
25 4.24 3.38 2.99 2.76 2.60 2.49 2.41 ~.34 2.28 2.24 2.20 2.16
7.77 5.57 4.68 4.18 3.88 3.83 3.48 3.33 3.21 3.13 3.05 2.99
26 4.22 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.23 2.18 2.15
7.72 5.53 4.84 4.14 3.82 3.59 3.42 3.29 3.17 ' 3.09 3.0a 2.98
Esta tabla se ¡m.prlme COn permiSO de Gt"orgeW. Snedecor. Statistical -MethQds (5~.t-ed.; Iowa
City: {"wa State Ulliversity Pre'S. Copyright 1956).

711
734 Distribución ji-cuadrada
LA DISTRIBUCION F( Continuación)

gr= grados de libertad para el numerador


14 16 20 24 30 .40 50 75 100 200 500 ~ g,
245 246 248 249 250 251 252 253 253 254 254 254 1
6,142 6,169 6,208 8,234 6,258 8,286 6,302 8,323 6,334 6,352 6,381 6,388
19.42 19.43 19.44 19.45 19.46 19.47 19.47 19.48 19.49 19.49 19.50 19.50 2
99.43 99.44 99.45 99.48 99.47 99.48 99.46 99.49 99.49 99.49 99.50 99.50
8.71 8.69 8.66 8.64 8.62 8.60 8.58 8.57 8.56 8.54 8.54 8.53 3
28.92 26.83 26.89 26.80 26.50 26.41 28.35 28.27 26.23 28.18 26.14 26.12
5.87 5.84 5.80 5.77 5.74 5.71 5.70 5.68 5.66 5.65 5.64 5.63 4
14.24 14.15 14.02 13.93 13.83 13.74 13.89 13.81 13.57 13.52 13.48 13.48
4.64 4.60 4.56 4.53 4.50 4.46 4.44 4.42 4.40 4.38 4.37 4.36 5
9.77 9.86 9.55 9.47 9.38 9.29 9.24 9.17 9.13 9.07 9.04 9.02
3.96 3.92 3.87 3.84 3.81 3.77 3.75 3.72 3.71 3.69 3.68 3.67 6
7.60 7.52 7.39 7.31 7.23 7.14 7.09 7.02 8.99 8.94 8.90 8.88
3..52
6.35
3,49
6~27
3.44
6.15
3.41
6.07
3.38
5.98
3.34
5.90
3.32
5.85
3.29
5.78
3.28
5.75
;l.25
5.70
3.24
5.67
3.23
5.65
7 ...o
"O
3.23 3.20 3.15 3.12 3.08 3.05 3.03 3.00 2.98 2.96 2.94 2.93 8 «l
5.56 5.48 5.36 5.28 5.20 5.11 5.06 5.00 4.96 4.91 4.88 4.86
s::
.~
3.02 2.98 2.93 2.90 2.86 2.82 2.80 2.77 2.76 2.73 2.72 2.71 9
8.00 4.92 4.80 4.73 4.64 4.58 4.51 4.45 4.41 4.3lt 4.33 4.31 s::
2.86 2.82 2.77 2.74 2.70 2.67 2.64 2.61 2.59 2.56 2.55 2.54 10 '"
"O
4.80 4.62 4.41 4.33 4.25 4.17 4.12 4.06 4.01 3.98 3.93 3.91
2.74
4.29
2.70
4.21
2.65
4.10
2.61
4.02
2.57
3.94
2.53
3.86
2.50
3.60
2.47
3.74
2.45
3.70
2.42
3.88
2.41
3.62
2.40
3.60
11 "é
«l
p.,
2.64 2.60 2.54 2.50 2.46 2.42 2.40 2.36 2.35 2.32 2.31 2.30 12
4.08 3.98 3.88 3.78 3.70 3.61 3.56 3.49 3.48 3.41 3.38 3.38 "O
«l
2.55 2.51 2.46 2.42 2.38 2.34 2.32 2.28 2.26 2.24 2.22 2.21 13 1::
3.88 3.78 3.67 3.59 3.51 3.42 3.37 3.30 3.27 3.21 3.18 3.16 ;§'"
2.48 2.44 2.39 2.35 2.31 2.27 2.24 2.21 2.19 2.16 2.14 2.13 14
3.70
2.43
3.82
2.39
3.51
2.33
3.43
2.29
3.34
2.25
3.26
2.21
3.21
2.18
3.14
2.15
3.11
2.12
3.08
2.10
3.02
2.08
3.00
2.07 15
'"
"O

3.68 3.48 3.36 3.29 3.20 3.12 3.07 3.00 2.97 2.92 2.89 2.87 "O
B
2.37 2.33 2.28 2.24 2.20 2.16 2.13 2.09 2.07 2.04 2.02 2.01 16 ébtJ
3.48 3.37 3.25 3.18 3.10 3.01 2.96 2.89 2.88 2.80 2.77 2.75
2.29 2.15 1.99 1.97 1.96 17 11
2.33 2.23 2.19 2.11 2.08 2.04 2.02
3.35 3.27 3.18 3.08 3.00 2.92 2.88 2.79 2.78 2.70 2.87 2.85 .;;,
2.29 2.25 2.19 2.15 2.11 2.07 2.04 2.00 1.98 1.95 1.93 1.92 18
3.27 3.19 3.07 3.00 2.91 2.83 2.78 2.71 2.88 2.82 2,59 2,57
2.26 2.21 2.15 2.11 2.07 2.02 2.00 1.96 1.94 1.91 1.90 1.88 19
3.19 3.12 3.00 2.92 2.84 2.78 2.70 2.83 2.80 2.64 2.51 2.49
2.23 2.18 2.12 2.08 2.04 1.99 1.96 1.92 1.90 1.87 1.85 1.84 20
3.13 3.05 2.94 2.88 2.77 2.69 2.63 2.56 2.53 2.47 2.44 2.42
2.20 2.15 2.09 2.05 2.00 1.96 1.93 1.89 1.87 1.84 1.82 1.81 21
3.07 2.99 2.88 2.80 2.72 2.83 2,58 2,51 2.47 2.42 2.38 2.36
2.18 2.13 2.07 2.03 1.98 1.93 1.91 1.87 1.84 1.81 1.80 1.78 22
3.02 2.94 2.83 2.75 2.87 2.58 2.53 2.48 2.42 2.37 2.33 2.31
2.14 2.10 2.04 2.00 1.96 1.91 1.88 1.84 1.82 1.79 1.77 1.76 23
2.97 2.89 2.78 2.70 2.62 2.53 2.48 2.41 2.37 2.32 2.28 2.28
2.13 2.09 2.02 1.98 1.94 1.89 1.86 1.82 1.80 1.76 1.74 1.73 24
2.93 2.85 2.74 2.68 2.68 2.49 2.44 2.36 2.33 2.27 2.23 2.21
2.11 2.06 2.00 1.96 1.92 1.87 1.84 1.80 1.77 1.74 1.72 1.71 25
2.89 2.81 2.70 2.82 2.54 2.45 2.40 2.32 2.29 2.23 2.19 2.17
2.10 2.05 1.99 1.95 1.90 1.85 1.82 1.78 1.76 1.72 1.70 1.69 26
1.86 2.77 2.86 2.68 2.50 2.41 2.36 U8 2.25 2.19 2.18 2.13
La distribución F 735

LA DISTRIBUCION F (Continuación)

gl = grados de libertad para el numerador


g" 1 2 3 4 5 6 7 8 9 10 11 12

27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.30 2.25 2.20 2.16 2.13
7.68 5.49 4.60 4.11 3.79 3.58 3.39 3.28 3.14 3.08 2.98 2.93
28 4.20 3.34 2.95 2.71 2.56 2.44 2;36 2.29 2.24 2.19 2.15 2.12
7.64 5.45 4.57 4.07 3.78 3.53 3.36 3.23 3.11 3.03 2.95 2.90
29 4.18 3.33 2.93 2.70 2.54 2.43 2.35 2.28 2.22 2.18 2.14 2.10
7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.08 3.00 2.92 2.87
30 4.17 3.32 2.92 2.69 2.53 2.42 2.34 2.27 2.21 2.16 2.12 2.09
7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.08 2.98 2.90 2.84
32 4.15 3.30 2.90 2.67 2.51 2.40 2.32 2.25 2.19 2.14 2.10 2.07
7.50 5.34 4.46 3.97 3.66 3.42 3.25 3.12 3.01 2.94 2.86 2.80
34 4.13 3.28 2.88 2.65 2.49 2.38 2.30 2.23 2.17 2.12 2.08 2.05
7.44 5.29 4.42 3.93 3.61 3.38 3.21 3.08 2.97 2.89 2.82 2.76
36 4.11 3.26 2.86 2.63 2.48 2.36 2.28 2.21 2.15 2.10 2.06 2.03
7.39 5.25 4.38 3.89 3.58 3.35 3.16 3.04 2.94 2.86 2.78 2.72
~ 38 4.10 3.25 2.85 2.62 2.46 2.35 2.26 2.19 2.14 2.09 2.05 2.02

ro 7.35 5.21 4.34 3.86 3.54 3.32 3.15 3.02 2.91 2.82 2.75 2.69
.5 40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.07 2.04 2.00
§ 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.88 2.80 2.73 2.66
..,
¡::
42 4.07 3.22 2.83 2.59 2.44 2.32 2.24 2.17 2.11 2.06 2.02 1.99
"Ó 7.27 5.15 4.29 3.80 3.49 3.26 3.10 2.96 2.86 2.77 2.70 2.64
Q) 44 4.06 3.21 2.82 2.58 2.43 2.31 2.23 2.16 2.10 2.05 2.01 1.98
7.24 5.12 4.26 3.78 3.46 3.24 3.07 2.94 2.84 2.75 2.68 2.62
~
o.. 46 4.05 3.20 2.81 2.57 2.42 2.30 2.22 2.14 2.09 2.04 2.00 1.97
7.21 5.10 4.24 3.76 3.44 3.22 3.05 2.92 2.82 2.73 2.66 2.60
"Ó 1.99
ro 48 4.04 3.19 2.80 2.56 2.41 2.30 2.21 2.14 2.08 2.03 1.96
1:: 7.19 5.08 4.22 3.74 3.42 3.20 3.04 2.90 2.80 2.71 2.64 2.58
;§" 50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.02
2.70
1.98
2.62
1.95
2.56
7.17 5.06 '4.20 3.72 3.41 3.18 3.02 2.88 2.78
.., 2.00 1.97 1.93
"Ó 55 4.02 3.17 2.78 2.54 2.38 2.27 2.18 2.11 2.05
7.12 5.01 4.16 3.68 3.37 3.15 2.98 2.85 2.75 2.66 2.59 2.53
¡s
"Ó 60 4.00 3.15 2.76 2.52 2.37 2.25 2.17 2.10 2.04 1.99 1.95 1.92
...Mro 7.08 4.98 ~13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.56 2.50
65 3.99 3.14 2.75 2.51 2.36 2.24 2.15 2.08 2.02 1.98 1.94 1.90
11 7.04 4.95 4.10 3.62 3.31 3.09 2.93 2.79 2.70 2.61 2.54 2.47
70 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 2.01 1.97 1.93 1.89
"" 7.01 ,.92 4.08 3.60 3.29 3.07 2.91 2.77 2.67 2.59 2.51 2.45
80 3.96 3.11 2.72 2.48 2.33 2;21 2.12 2.05 1.99 1.95 1.91 1.88
6;96 4.88 4.04 3.56 3.25 3.04 2.87 2.74 2.64 2.55 2.48 2.41
100 3.94 3.09 2.70 2.46 2.30 2.19 2.10 2.03 1.97 1.92 1.88 1.85
6.90 4.82 3.98 3.51 3.20 2.99 2.82 2.69 2.59 2.51 2.43 2.38
125 3.92 3.07 2.68 2.44 2.29 2.17 2.08 2.01 1.95 1.90 1.86 1.83
6.84 4.78 3.94 3.47 3.17 2.95 2.79 2.65 2.56 2.47 2.40 2.33
150 3.91 3.06 2.67 2.43 2.27 2.16 2.07 2.00 1.94 1.89 1.85 1.82
6.81 4.75 3.91 3.44 3.14 2.92 2.76 2.62 2.53 2.44 2.37 2.30
200 3.89· 3.04 2;65 2.41 2.26 2.14 2.05 1.98 1.9'2 1.87 1.83 1.80
6.76 4.71 3.88 3.41 3.11 2.90 2.73 2.60 2.50 2.41 2.34 2.28
400 3.86 3.02 2.62 2.39 2.23 2.12 :i.03 1.96 1.90 1.85 1.81 1.78
6.70 4.66 3~83 3.36 3.06 2.85 2.69 2.55 2.46 2.37 2.29 2.23
1,000 3.85 3.00 2.61 2.38 2.22 2.10 2.02 1.95 1.89 1.84 1.80 1.76
6.66 4.62 3.80 3.34 3.04 2.82 2.86 2.53 2.43 2.34 2.26 2.20
00 3.84 2.99 2.60 2.37 2.21 2.09 2.01 1.94 1.88 1.83 1.79 1.75
6.64 4.60 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.24 2.18
736 Distribución ji-cuadrada

LA DISTRIBUCION F (Conclusión')

g, = grados de libertad para el numerador

14 16 20 24 30 40 50 75 100 200 500 ., g"


2.08 2.03 1.97 1.93 1.88 1.84 1.80 1.76 1.74 1.71 1.68 1.67 27
2.83 2.74 2.83 2.55 2.47 2.38 2.33 2.25 2.21 2.18 2.12 2.10,
2.06 2.02 1.96 1.91 1.87 1.81 1.78 1.75 1.72 1.69 1.67 1.65 28
2.60 2.71 2.60 2.52 2.44 2.35 2.30 2.22 2.18 2.13 2.09 2.08
2.05 2.00 1.94 1.90 1.,85 1.80 1.77 1.73 1.71 1.68 1.65 1.64 29
2.77 2.88 2.57 2.49 2.41 2.32 2.27 2.19 2.15 2.10 2.08 2;03
2.04 1.99 1.93 1.89 1.84 1.79 1.76 1.72 1.69 1.66 1.64 1.62 30
2.74 2.88 2.55 2.47 2.38 2.29 2.24 2.18 2.13 2.07 2.03 2.01
2.02 1.97 1.91 1.86 1.82 1.76 1.74 1.69 1.67 1.64 ' 1.61 1.59 32
2.70 2.82 2.51 2.42 2.34 2.25 2,20 2.12 2.08 2.02 1.98 1.98
2.00 1.95 1.89 1.84 1.80 1.74 1.71 1.67 1.64 1.61 1.59 1.57 34
2.88 2.58 2.47 2.38 2.30 2,21 2.15 2.08 2.04 1.98 1.94 1.91
1.98
2.82
1.93
2.54
1.87
2.43
1.82
2.35
1.78
2.28
1.72
2.17
1.69
2.12
1.65
2.04
1.62
2.00
1.59
1.94
1.56
1.90
1.55
1.87
36 ..
o
"O
1.96 1.92 1.85 1.80 1.76 1.71 1.67 1.63 1.60 1.57 1.54 1.53 38 oS
c:
2.59
1.95
'2.51
1.90
1.40
1.84
2.32
1.79
2,22
1.74
2.14
1.69
2.08
1.66
2.00
1.61
1.97
1.59
1.90
1.55
1.88
1.53
1.84
1.51 40
·so
2.58 2.49 2.37 2,29 2,20 2.11 2.05 1.97 1.94 1.88 1.84 1.81 .,c:
"O
1.94 1.89 1.82 1.78 1.73 1.68 1.64 1.60 1.57 1.54 1.51 1.49 42
2.54 2.48 2.35 2,28 2.17 2.08 2.02 1.94 1.91 1.85 1.80 1.78 -¡¡
1.92 1.88 1.81 1.76 1.72 1.66 1.63 1.58 1.56 1.52 1.50 1.48 44 ~
2.52 2.44 2.32 2,24 2.15 2.08 2.00 1.92 1.88 1.82 1.78 1.75 oS
o-
1.91 1.87 1.80 1.75 1.71 1.65 1.62 1.57 1.54 1.51 ' '1.48 1.48 46
.s.,..
2.50 2.42 2.30 2,22 2.13 2.04 1.98 1.90 1.88 1.80 1.78 1.72 "O

1.90 1.86 1.79 1.74 1.70 1.64 1.61 1.56 1.53 1.50 1.47 1.45 48
2.48 2.40 2.28 2,20 2.11 2.02 1.98 1.88 1.84 1.78 1.73 1.70
1.90
2.48
1.88
1.85
2.39
1.83
1.78
2,28
1.76
1.74
2.18
1.72
1.69
2.10
1.67
1.63
2.00
1.61
1.60
1.94
1.58
1.55
1.88
1.52
1.52
1.82
1.50
1.48
1.78
1.46
1.46
1.71
1.43
1.44
1.88
1.41
50

55
ª
.,
"O
¡s
2.43 2.35 2,23 2.15 2.08 1.98 1.90 1.82 1.78 1.71 1.88 1.84 "O
1.86 1.81 1.75 1.70 1.65 1.59 1.56 1.50 1.48 1.44 1.41 1.39 60 í'bIl!
2.40 2.32 2.20 2.12 2.03 1.93 1.87 1.79 1.74 1.88 1.83 1.80
65 11
1.85 1.80 1.73 1.68 1.63 1.57 1.54 1.49 1.46 1.42 1.39 1.37
2.37 2.30 2.18 2.09 2.00 1.90 1.84 1.78 1.71 1.84 1.80 1.58 tlb
1.84 1.79 1.72 1.67 1.62 1.56 1.53 1.47 1.45 1.40 1.37 1.35 70
2.35 2.28 2.15 2.07 1.98 1.88 1.82 1.74 1.89 1.82 1.58 1.53
1.82 1.77 1.70 1.65 1.60 1.54 1.51 1.45 1.42 1.38 1.35 1.32 80
2.32 2,24 2.11 2.03 1.94 1.84 1.78 1.70 1.85 1.57 1.52 1.49
1.79 1.75 1.68 1.63 1.57 1.51 1.48 1.42 1.39 1.34 1.30 1.28 100
2,28 2.19 2.08 1.98 1.89 1.79 1.73 1.84 1.59 1.51 1.48 1.43
1.77 1.72 1.65 1.60 1.55 1.49 1.45 1.39 1.36 1.31 1.27 1.25 125
2.23 2.15 2.03 1.94 1.85 1.78 1.88 1.59 1.34 1.48 1.40 1.37
1.76 1.71 1.64 1.59 1.54 1.47 1.44 1.37 1.34 1.29 1.25 1.22 150
2.20 2.12 2.00 1.91 1.83 1.72 1.88 1.58 1.51 1.43 1.37 1.33
1.74 1.69 1.62 1.57 1.52 1.45 1.42 1.35 1.32 1.26 1.22 1.19 200
2.17 2.09 1.97 1.88 1.79 1.89 1.82 1.53 1.48 1.39 1.33 1.28
1.72 1.67 1.60 1.54 1.49 1.42 1.38 1.32 1.28 1.22 1.16 1.13 400
2.12 2.04 1.92 1.84 1.74 1.84 1.57 1.47 1.42 1.32 1.24 1.19
1.70 1.65 1.58 1.53 1.47 1.41 1.36 1.30 1.26 1.19 1.13 1.08 1,000
2.09 2.01 1.89 1.81 1.71 1.81 1.54 1.44 1.38 1.28 1.19 1.11
1.69 '
2.07
1.64
l.99
1.57
1.87
1.52
1.79
1.46
1.89
1.40
1.59
1.35
1.52
1.28
1.41
1.24
1.38
1.17
1.25
1.11
1.15
1.00
1.00
.

S-ar putea să vă placă și