Sunteți pe pagina 1din 204

UNIVERSIDAD PERUANA LOS ANDES

FACULTAD DE INGENIERIA
Especialidad: Ing. Sistemas y Computación

ESTADÍSTICA DESCRIPTIVA E
INFERENCIAL

Ing. Dulio Oseda Gago


ESTADÍSTICA DESCRIPTIVA E INFERENCIAL
Conceptos y Aplicaciones

Autoridades de la Universidad Peruana Los Andes


Rector: Dr. Dimas Fernándes Barrantes
Decano Fac. Ing. Mag. Carlos Sánchez Guzmán
Jefe de Dpto. Ing. Rubén Tapia Silguera
Jefe de As. Acad. Ing. Alejandro Ochoa Aliaga
Coord. CP.I.S.C.. Ing. Jowel Cabrera Padilla

Impreso en el Perú.

Composición, diagramación e impresión:


Asesoría y Consultoría en Informática y Sistemas “DOSEDAG” S.R.L.
Jr. Las Begonias N° 168. Urb. San Fernando – El Tambo Hyo.
dosedag@hotmail.com
Cel. 964689004

Derechos de Edición Reservados por A.C.I.S. “DOSEDAG” S.R.L.


Prohibida la reproducción total o parcial por cualquier medio de este libro, sin
autorización escrita de los autores y editores.

Derechos Reservados conforme a Ley.


A la juventud estudiosa del país, signo
de renovación y abnegación.
Prólogo
Las acciones que acometemos hoy
se basan en un plan de ayer y
las expectativas del mañana.

L
a palabra estadística se origina, en las técnicas de recolección, organización,
conservación, y tratamiento de los datos propios de un estado, con que los
antiguos gobernantes controlaban sus súbditos y dominios económicos. Estas
técnicas evolucionaron a la par con el desarrollo de las matemáticas, utilizando sus
herramientas en el proceso del análisis e interpretación de la información.
Para mediados del siglo XVII en Europa, los juegos de azar eran frecuentes,
aunque sin mayores restricciones legales. El febril jugador De Meré consultó al
famoso matemático y filósofo Blaise Pascal (1623-1662) para que le revelara las
leyes que controlan el juego de los dados, el cual, interesado en el tema, sostuvo
una correspondencia epistolar con el tímido Pierre de Fermat (1601-1665,
funcionario público apasionado por las matemáticas; célebre porque no publicaba
sus hallazgos) dando origen a la teoría de la probabilidad, la cual se ha venido
desarrollando y constituyéndose en la base primordial de la estadística.
En nuestros días, son de uso cotidiano las diferentes técnicas estadísticas
que partiendo de observaciones muestrales o históricas, crean modelos lógico-
matemáticos que se "aventuran" describir o pronosticar un determinado fenómeno
con cierto grado de certidumbre medible.
El presente texto no pretende teorizar el saber estadístico, desde luego, no
es un libro para estadísticos, ya que, adrede se obvia el rigor científico de lo
expuesto en beneficio de la sencillez necesaria para el neófito; con un lenguaje
coloquial se conduce al lector a través del contenido, a partir de dos o tres
ejemplos que ilustran la aplicabilidad de los temas tratados.
El avance tecnológico en la informática ha contribuido enormemente al
desarrollo de la estadística, sobre todo en la manipulación de la información, pues
en el mercado existen paquetes estadísticos de excelente calidad, como el SAS,
SPSS, SCA, STATGRAPHICS, amén de otros, que "corren" en un ordenador sin
mayores exigencias técnicas, permitiendo el manejo de grandes volúmenes de
información y de variables.
La estadística, entonces, dejó de ser una técnica exclusiva de los estados,
para convertirse en una herramienta imprescindible de todas las ciencias, de donde
proviene la desconcertante des-uniformidad en las definiciones de los diferentes
autores, ya que cada estudioso la define de acuerdo con lo que utiliza de ella y
tenemos definiciones como que: la estadística es la tecnología del método
científico, o que es el conocimiento relacionado con la toma de decisiones en
condiciones de incertidumbre, o que la estadística son métodos para obtener
conclusiones a partir de los resultados de los experimentos o procesos, o que es un
método para describir o medir las propiedades de una población. En fin, no se trata
de discutir si la estadística es una ciencia, una técnica o una herramienta, sino de
la utilización de sus métodos en provecho de la evolución del conocimiento.
La estadística hace inferencias sobre una población, partiendo de una
muestra representativa de ella. Es a partir del proceso del diseño y toma de la
muestra desde donde comienzan a definirse las bondades y confiabilidad de
nuestras aseveraciones, hechas, preferentemente, con un mínimo costo y mínimo
error posible.
El Autor
Índice
Págs.
Dedicatoria
Prólogo
Índice

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL


Capítulo 1: Generalidades de la Estadística
1.1. Introducción............................................................................................................ 09
1.2. Importancia............................................................................................................ 10
1.3. ¿Para que sirve la Estadística? ......................................................................... 11
1.4. Definición................................................................................................................ 13
1.5. División.................................................................................................................... 13
1.6. La Estadística y Informática............................................................................. 14
1.7. ¿Mienten las Estadísticas? ................................................................................ 15
Capítulo 2: Etapas del Método Estadístico
2.1. Planteamiento del Problema................................................................................ 18
2.2. Fijación de los Objetivos................................................................................... 18
2.3. Formulación de la Hipótesis............................................................................... 18
2.4. Definición de la unidad de observación y de la unidad de medida............ 18
2.5. Determinación de la población y de la muestra............................................ 19
2.6. La recolección....................................................................................................... 20
2.7. Crítica, clasificación y ordenación.................................................................... 20
2.8. Tabulación.............................................................................................................. 21
2.9. Presentación.......................................................................................................... 21
2.10 Análisis.................................................................................................................. 21
2.11 Publicación............................................................................................................. 21
Practiquemos N° 1........................................................................................................ 22
Capítulo 3: Distribución de Frecuencias
3.1. Distribución de Frecuencias Simple.................................................................. 23
Practiquemos N° 2......................................................................................................... 28
3.2. Distribución de Frecuencias por Intervalos................................................... 31
3.3. Reglas empíricas para la construcción de intervalos.................................... 32
Practiquemos N° 3......................................................................................................... 36
Capítulo 4: Representación Gráfica
4.1. Definición................................................................................................................. 38
4.2. Componentes de una gráfica............................................................................... 38
4.3. Principales tipos de gráficos.............................................................................. 41
Practiquemos N° 04..................................................................................................... 47
Capítulo 5: Medidas de Tendencia Central
5.1. Media Aritmética................................................................................................... 50
5.2. Mediana.................................................................................................................... 60
5.3. Moda......................................................................................................................... 63
Practiquemos N° 5........................................................................................................ 65
Capítulo 6: Medidas de Posición
6.1. Cuartiles.................................................................................................................. 66
6.2. Quintiles................................................................................................................. 68
6.3. Deciles..................................................................................................................... 69
6.4. Centiles................................................................................................................... 69
6.5. Resumen.................................................................................................................. 69
Practiquemos N° 6........................................................................................................ 70
Capítulo 7: Medidas de Dispersión
7.1. Rango o Recorrido.................................................................................................. 73
7.2. Desviación Media................................................................................................... 73
7.3. Varianza y Desviación Típica o Estándar......................................................... 74
7.4. Coeficiente de Variabilidad................................................................................ 76
Practiquemos N° 7........................................................................................................ 77
Capítulo 8: Regresión y Correlación Lineal
8.1. Tablas de Doble Entrada...................................................................................... 78
8.2. Correlación.............................................................................................................. 81
8.3. Regresión Lineal.................................................................................................... 87
Practiquemos N° 8........................................................................................................ 100
Capítulo 9: Tasas e Índices
9.1. Tasa........................................................................................................................... 101
9.2. Índice....................................................................................................................... 103
Practiquemos N° 9........................................................................................................ 108
Capítulo 10: Introducción a la Teoría de Probabilidades
10.1. Nociones de Conteo............................................................................................. 116
Practiquemos N° 10...................................................................................................... 119
10.2. Definición de Probabilidad............................................................................... 120
10.3. Axiomas de la Teoría de Probabilidades....................................................... 121
10.4. Probabilidad Condicional e Independencia Estadística............................. 123
Practiquemos N° 11...................................................................................................... 124
10.5. Variable Aleatoria.............................................................................................. 124
10.6. Función de Probabilidad.................................................................................... 126
Practiquemos N° 12....................................................................................................... 129
10.7. Valor Esperado (Esperanza Matemática)...................................................... 130
Practiquemos N° 13...................................................................................................... 131
Capítulo 11: Distribuciones Especiales
11.1. Distribución de Bernoulli.................................................................................... 132
11.2. Distribución Binomial.......................................................................................... 133
11.3. Distribución de Poisson...................................................................................... 144
11.4. Distribución Normal............................................................................................ 146
11.5. Distribución Normal Estandar.......................................................................... 148
11.6. Distribución Exponencial................................................................................... 152
Practiquemos N° 14...................................................................................................... 152
Capítulo 12: Teoría de Muestras
12.1. Tipos de Muestreos............................................................................................. 155
12.2. Muestreos Aleatorios........................................................................................ 155
12.3. Toma de Datos: la encuesta............................................................................. 157
12.4. Teorema Central del Límite............................................................................. 158
Practiquemos N° 15...................................................................................................... 162
Capítulo 13: Las Técnicas de Estimación
13.1. Estimación.............................................................................................................. 164
13.2. Estimación de la Media de una Población....................................................... 165
13.3. Estimación de la Muestra Proporción............................................................. 167
13.4. Estimación de una Proporción........................................................................... 167
13.5. Distribución Muestral de Proporciones......................................................... 168
13.6. Estimación de una Proporción.......................................................................... 170
13.7. Tamaño de la Muestra....................................................................................... 171
Practiquemos N° 16...................................................................................................... 172
Capítulo 14: Test y Pruebas de Hipótesis
14.1. Elementos de los Test de Hipótesis................................................................ 178
14.2. Pruebas de Hipótesis......................................................................................... 183
14.3. Dócima de una muestra de Kolmogorov-Smirnov......................................... 184
Glosario de Términos
Referencias
libros

páginas web
Anexos
Anexo N° 1: Tabla de la Distribución Normal
Anexo N° 2: Tabla de 500 Números Generados Aleatoriamente
Anexo N° 3: Contraste de Hipótesis a partir del p-valor
Anexo N° 4. Error de Tipo II – Cálculo
Anexo N° 5. Guía para Elaborar una Tesis
Anexo N° 6: Registro de la Información. Modelos de Fichas
ESTADÍSTICA DESCRIPTIVA E INFERENCIAL

Capítulo 1
Generalidades de la Estadística
************************************
"El poder se nutre de la información y el conocimiento".

1.1. INTRODUCCION:

Desde los comienzos de la civilización han existido formas sencillas de


estadísticas, pues ya se utilizaban representaciones gráficas y otros símbolos en
pieles, rocas, palos de madera y paredes de cuevas para contar el número de
personas, animales o ciertas cosas. Hacia el año 3000 A.C. los babilonios usaban ya
pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción
agrícola y de los géneros vendidos o cambiados mediante trueque. Los egipcios
analizaban los datos de la población y la renta del país mucho antes de construir las
pirámides en el siglo XXXI a.C. Los libros bíblicos de Números y Crónicas incluyen,
en algunas partes, trabajos de estadística. El primero contiene dos censos de la
población de Israel y el segundo describe el bienestar material de las diversas
tribus judías. En China existían registros numéricos similares con anterioridad al
año 2000 A.C. Los griegos clásicos realizaban censos cuya información se utilizaba
hacia el año 594 A.C. para cobrar impuestos.
El Imperio romano fue el primer gobierno que recopiló una gran cantidad de
datos sobre la población, superficie y renta de todos los territorios bajo su
control. Durante la edad media sólo se realizaron algunos censos exhaustivos en
Europa. Los reyes carolingios Pipino el Breve y Carlomagno ordenaron hacer
estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762
respectivamente.

Después de la conquista normanda de Inglaterra en 1066, el rey Guillermo I


de Inglaterra encargó un censo. La información obtenida con este censo, llevado a
cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos y
defunciones comenzó en Inglaterra a principios del siglo XVI, y en 1662 apareció el
primer estudio estadístico notable de población, titulado Observations on the
London Bills of Mortality (Comentarios sobre las partidas de defunción en
Londres).

Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en


Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley
como base para la primera tabla de mortalidad. En el siglo XIX, con la
generalización del método científico para estudiar todos los fenómenos de las
ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir
la información a valores numéricos para evitar la ambigüedad de las descripciones
verbales.

En nuestros días, la estadística se ha convertido en un método efectivo para


describir con exactitud los valores de los datos económicos, políticos, sociales,
educativos, psicológicos, biológicos y físicos, y sirve como herramienta para
relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste
ya sólo en reunir y tabular los datos, sino sobre todo el proceso de interpretación
de esa información. El desarrollo de la teoría de la probabilidad ha aumentado el
alcance de las aplicaciones de la estadística. Muchos conjuntos de datos se pueden
aproximar, con gran exactitud, utilizando determinadas distribuciones
probabilísticas; los resultados de éstas se pueden utilizar para analizar datos
estadísticos. La probabilidad es útil para comprobar la fiabilidad de las inferencias
estadísticas y para predecir el tipo y la cantidad de datos necesarios en un
determinado estudio estadístico.

1.2. IMPORTANCIA:

En las últimas décadas la estadística ha alcanzado un alto grado de


desarrollo, hasta el punto de incursionar en la totalidad de las ciencias; inclusive,
en la lingüística se aplican técnicas estadísticas para esclarecer la paternidad de
un escrito o los caracteres más relevantes de un idioma.
La estadística es una ciencia auxiliar para todas las ramas del saber; su
utilidad se entiende mejor si tenemos en cuenta que los quehaceres y decisiones
diarias embargan cierto grado de incertidumbre... y la Estadística ayuda en la
incertidumbre, trabaja con ella y nos orienta para tomar las decisiones con un
determinado grado de confianza.

Los críticos de la estadística afirman que a través de ella es posible probar


cualquier cosa, lo cual es un concepto profano que se deriva de la ignorancia en
este campo y de lo polifacético de los métodos estadísticos. Sin embargo muchos
"investigadores" tendenciosos han cometido abusos con la estadística, elaborando
"investigaciones" de intención, teniendo previamente los resultados que les
interesan mostrar a personas ingenuas y desconocedoras de los hechos. Otros, por
ignorancia o negligencia, abusan de la estadística utilizando modelos inapropiados o
razonamientos ilógicos y erróneos que conducen al rotundo fracaso de sus
investigaciones.

Lincoln L. Chao hace referencia a uno de los más estruendosos fracasos,


debido a los abusos en la toma de una muestra: Se trata del error cometido por la
Literary Digest que, en sus pronósticos para las elecciones presidenciales en
EE.UU. para 1936, afirmó que Franklin D. Roosvelt obtendría 161 votos electorales
y Alfred Landon, 370. La realidad mostró a Roosvelt con 523 votos y a Landon con
8 solamente. El error se debió a que la muestra fue tomada telefónicamente a
partir de la lista de suscriptores de la Digest y, en 1936, las personas que se daban
el lujo de tener teléfonos y suscripciones a revistas no configuraban una muestra
representativa de los votantes de EE.UU. y, por ende, no podía hacerse un
pronóstico confiable con tan sesgada información.

1.3. ¿PARA QUE SIRVE LA ESTADISTICA?

La Estadística puede dar respuesta a muchas de las necesidades que la


sociedad actual nos plantea. Su tarea fundamental es la reducción de datos, con el
objetivo de representar la realidad y transformarla, predecir su futuro o
simplemente conocerla.

La Estadística responde a las necesidades bélicas y fiscales de los


gobernantes. Esto se puede conseguir con un conocimiento claro de la población
con la que se cuenta. La herramienta para conseguirlo es el CENSO DE
POBLACIÓN y su hermano pequeño, el PADRÓN MUNICIPAL DE HABITANTES.
La práctica del recuento de la población y de algunas características de esta por
los Estados es muy antigua (se remonta a 3000 años antes de Cristo en Egipto y
Mesopotamia). En palabras de Bielfed, la Estadística es la ciencia que nos enseña el
ordenamiento político de todos los estados del mundo conocido , es decir, está al
servicio del Estado, de hecho, la palabra Estadística deriva de Estado.

La Estadística responde a la actividad planificadora de la sociedad . Con


la Revolución Industrial aparecen nuevos problemas, sobre todo de desigualdades
sociales. La Estadística es un instrumento para identificar estas injusticias y para
producir información en el llamado Estado del Bienestar.

La Estadística responde a nuevas demandas sociales. Para realizar


investigaciones exhaustivas sobre temas sociales surgen tres problemas básicos a
la hora del trabajo de campo, como el tiempo que tardaríamos en entrevistar a
toda la población y el costo económico y de personal de estas entrevistas. Con las
técnicas de MUESTREO se consigue hacer buenas investigaciones sobre una
pequeña parte de esa población, obteniendo resultados válidos para toda ella.

La Estadística responde a las necesidades del desarrollo científico y


tecnológico de la sociedad. Tras la Revolución Industrial se produce un desarrollo
de la sociedad en todos sus ámbitos y, en particular, en el Científico y Tecnológico.
Las Comunicaciones, la Industria, la Agricultura, la Salud... se desarrollan
rápidamente y se exige el máximo rendimiento y la mejor utilización de estos
sectores.

Las técnicas de Investigación de Mercados permiten saber si un producto


cualquiera será bien acogido en el mercado antes de su salida a este, o bien medir
la audiencia en Televisión y Radio.

El Control de Calidad permite medir las características de la calidad de un


producto, compararlas con ciertos requisitos y tomar decisiones correctivas si hay
diferencias entre el funcionamiento real y el esperado. Con estudios estadísticos
aplicados a la Agricultura y a la Pesca podemos estimar los rendimientos obtenidos
en una cosecha, o encontrar bancos de peces...

En Medicina e Investigación farmacológica es imprescindible la Estadística,


probando nuevos tratamientos en grupos de pacientes o bien, obteniendo
conclusiones sobre ciertas enfermedades observando durante un tiempo un grupo
de pacientes (saber si para el tratamiento de cierto tipo de cáncer es más efectiva
la cirugía, la radioterapia o la quimioterapia, sin más que observar un grupo de
pacientes tratados con estas técnicas).

Con el estudio de los Procesos Estocásticos se puede tener una mejor


comprensión de fenómenos de comportamiento aleatorio como meteorología, física
nuclear, campañas de seguridad...
1.4. DEFINICIÓN:

¿Qué entendemos cómo Estadística?. Estadística, deriva del latín status,


que significa estado, posición o situación. Por estadística entendemos la colección
de los datos que caracterizan las condiciones predominantes en el estado: por
ejemplo, el número de nacimientos y muertes, las cosechas, el comercio exterior,
etc. Por estadísticas oficiales entendemos los datos publicados por las agencias del
gobierno en forma de información o de prospectos. Cuerpo de conocimientos
basados en una teoría propia. Ciencia que estudia conjuntos de datos cualitativos y
su interpretación en términos matemáticos, estableciendo métodos para la
obtención de las medidas que lo describen, así como para el análisis de las
conclusiones, con especial referencia a la teoría de la probabilidad, considerada
también como ciencia de base matemática para la toma de decisiones en presencia
de la incertidumbre. Indica una medida o fórmula especial, tal como un promedio,
un número índice o un coeficiente de correlación, calculado sobre la base de los
datos. Considerada también como un suministro de un conjunto de herramientas
sumamente útiles en la investigación. Además es un conjunto de técnicas que,
partiendo de la observación de fenómenos, permiten al investigador obtener
conclusiones útiles sobre ellos.

A manera de síntesis, podemos afirmar que la estadística es una rama


de las matemáticas que se ocupa de reunir, organizar y analizar datos
numéricos y que ayuda a resolver problemas como el diseño de experimentos y
la toma de decisiones.

1.5. DIVISIÓN:

La estadística se divide en dos grandes ramas de estudio que son: La


Estadística Descriptiva, la cual se encarga de la recolección, clasificación y
descripción de datos muestrales o poblacionales, para su interpretación y análisis;
y la Estadística Inferencial, que desarrolla modelos teóricos que se ajusten a una
determinada realidad con cierto grado de confianza.

Estas dos ramas no son independientes; por el contrario, son


complementarias y entre ambas dan la suficiente ilustración sobre una posible
realidad futura, con el fin de que quien tenga poder de decisión, tome las medidas
necesarias para transformar ese futuro o para mantener las condiciones
existentes.
1.6. LA ESTADÍSTICA Y INFORMATICA

Si leemos un periódico dominical o una revista tendremos ante nosotros más


información que toda la que era capaz de obtener un ciudadano normal del siglo
XVII en toda su vida. En concreto, en los últimos diez años se ha generado más
información que en todos los años anteriores.

La sociedad tiene la necesidad de conocer toda esta información, y de


acceder a ella de la forma más resumida posible. La Estadística es capaz de
condensar la información de todos los hogares peruanos en la Encuesta de
Presupuestos Familiares obteniendo, por ejemplo, todos los pagos realizados al día
durante la semana de observación. Sin duda alguna, la cantidad de datos que esto
genera es impresionante.

Con el avance de la Informática y la vinculación de esta a la Estadística se ha


conseguido manejar de manera rápida, fiable y relativamente sencilla estos
volúmenes de información, y obtener conclusiones que después el profesional
interpreta.

Algunos de los paquetes estadísticos más importantes y utilizados son:

GENSTAT: Planificación, visualización, gestión de datos, análisis estadístico,


gráficos y presentación de resultados.
ARIMA: Diseño de Experimentos.
SAS: Planificación, visualización, gestión de datos, análisis estadístico, gráficos
y presentación de resultados. Usa un avanzado lenguaje de programación.
SPSS:Gestión de datos, análisis estadístico, gráficos y presentación de
resultados. Puede calcular el tamaño muestral de una investigación.
STATISTICA: Planificación, visualización, gestión de datos, análisis estadístico,
gráficos y presentación de resultados. Alto rendimiento, aplicaciones flexibles.
STATGRAPHICS: Paquete de análisis interactivo y sistema gráfico desarrollado
en APL, esencial en la enseñanza.

1.7. ¿MIENTEN LAS ESTADÍSTICAS?

Cuando a través de una muestra pretendemos obtener información de una


población entera los datos obtenidos pueden ser diferentes a los reales. Son
valores aproximados del parámetro desconocido. A estos valores se les llama
Estimaciones.
Al dar una estimación estoy cometiendo un error llamado error de muestreo
debido a que no estoy considerando a toda la población, sino a una parte de ella.
Existen procedimientos que pueden determinar de antemano el error que puedo
cometer.

Aparte de estos, existen otros errores que se presentan tanto en encuestas


por muestreo como en las encuestas por censo. Este tipo de errores son mayores y
de difícil corrección. Son errores ajenos al muestreo. Se dividen en:

Errores de observación: Debidos a la recogida, registro o procesamiento


incorrecto de los datos. Pueden ser de sobrecobertura, cuando el listado de
entrevistados contiene unidades que no pertenecen a la muestra investigada, de
medida, que son la diferencia entre el valor observado y el verdadero, y errores de
procesamiento, debidos a los errores de entrada de datos, edición, tabulación y
análisis.

Errores no de observación: No es posible obtener la información deseada para


ciertos individuos de la población. Estos son errores de cobertura, cuando hay una
parte de la población que no está en el listado, errores de falta de respuesta por
parte del entrevistado.

Este tipo de errores hay que tratar de resolverlos. Para mejorar el


resultado de la encuesta la población puede dividirse en subpoblaciones para
trabajar sobre ellas.

Otra manera de disminuir el error es escoger una muestra mayor y llegar a


un término medio entre el error máximo admisible para la encuesta y el tamaño
muestral.

Pero el principal problema de las encuestas es la falta de respuesta por


parte del entrevistado. Suelen ser personas que se consideran acosadas para que
proporcionen información de su entorno social y de sus actividades. Esto produce
un rechazo a responder cuestiones sobre las que en la mayoría de los casos se
desconoce su utilidad.

Para solventar estos problemas debe contarse con la formación de los


entrevistadores, conociendo estos perfectamente el tema que están tratando y
estar preparados para responder cualquier cuestión sobre el tema que puede
plantear el entrevistado.

La formulación de las preguntas debe ser clara, poco influenciables y


cómodas para los entrevistados. En temas polémicos como el consumo de drogas o
las afinidades políticas, el entrevistado suele ser reacio a contestar. De manera
sugestiva hay que formular ese tipo de preguntas para que el entrevistado no se
vea comprometido ni violento con su contenido.

Por último, decir que hay otros tipos de falta de respuesta en una encuesta
debidos a situaciones como:

• Ausencia temporal del individuo seleccionado para entrevistar (los no en


casa).
• Negativa absoluta a colaborar (los hueso duro)
• Falta de conocimientos del entrevistado o incapacidad del entrevistador
para explicar el contenido de la respuesta.
• Pérdida involuntaria de la información.
• No cubrimiento debido a condiciones ambientales, escasa facilidad de
transporte...
Capítulo 2
Etapas del Método Estadístico
***********************************
El método estadístico, parte de la observación de un fenómeno, y como no
puede siempre mantener las mismas condiciones predeterminadas o a voluntad del
investigador, deja que actúen libremente, pero se registran las diferentes
observaciones y se analizan sus variaciones.

Para el planeamiento de una investigación, por norma general, se siguen las


siguientes etapas:

2.1. Planteamiento del problema.


2.2. Fijación de los objetivos.
2.3. Formulación de la hipótesis.
2.4. Definición de la unidad de observación y de la unidad de medida.
2.5. Determinación de la población y de la muestra.
2.6. La recolección.
2.7. Crítica, clasificación y ordenación.
2.8. Tabulación.
2.9. Presentación.
2.10 Análisis.
2.11 Publicación.
2.1. PLANTEAMIENTO DEL PROBLEMA

Al abordar una investigación se debe tener bien definido qué se va a


investigar y por qué se pretende estudiar algo. Es decir, se debe establecer una
delimitación clara, concreta e inteligible sobre el o los fenómenos que se pretenden
estudiar, para lo cual se deben tener en cuenta, entre otras cosas, la revisión
bibliográfica del tema, para ver su accesibilidad y consultar los resultados
obtenidos por investigaciones similares, someter nuestras proposiciones básicas a
un análisis lógico; es decir, se debe hacer una ubicación histórica y teórica del
problema.

2.2. FIJACIÓN DE LOS OBJETIVOS

Luego de tener claro lo que se pretende investigar, Debemos presupuestar


hasta dónde queremos llegar; en otras palabras, debemos fijar cuales son nuestras
metas y objetivos. Estos deben plantearse de tal forma que no haya lugar a
confusiones o ambigüedades y debe, además, establecerse diferenciación entre lo
de corto, mediano y largo plazo, así como entre los objetivos generales y los
específicos.

2.3. FORMULACIÓN DE LAS HIPÓTESIS

Una hipótesis es ante todo, una explicación provisional de los hechos objeto
de estudio, y su formulación depende del conocimiento que el investigador posea
sobre la población investigada. Una hipótesis estadística debe ser susceptible de
docimar, esto es, debe poderse probar para su aceptación o rechazo.

Una hipótesis que se formula acerca de un parámetro (media, proporción,


varianza, etc.), con el propósito de rechazarla, se llama Hipótesis de Nulidad y se
representa por Ho; a su hipótesis contraria se le llama Hipótesis Alternativa (H1).

2.4. DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE


MEDIDA

La Unidad de Observación, entendida como cada uno de los elementos


constituyentes de la población estudiada, debe definirse previamente, resaltando
todas sus características; pues, al fin de cuentas, es a ellas a las que se les hará la
medición.

La unidad de observación puede estar constituida por uno o varios individuos u


objetos y denominarse respectivamente simple o compleja.
El criterio sobre la unidad de medición debe ser previamente definido y
unificado por todo el equipo de investigación. Si se trata de medidas de longitud,
volumen, peso, etc., debe establecerse bajo qué unidad se tomarán las
observaciones ya sea en metros, pulgadas, libras, kilogramos, etc.

Asociado a la unidad de medida, deben establecerse los criterios sobre las


condiciones en las cuales se ha de efectuar la toma de la información.

2.5. DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA

Estadísticamente, la población se define como un conjunto de individuos o


de objetos que poseen una o varias características comunes. No se refiere esta
definición únicamente a los seres vivientes; una población puede estar constituida
por los habitantes de un país o por los peces de un estanque, así como por los
establecimientos comerciales de un barrio o las unidades de vivienda de una ciudad.

Existen desde el punto de vista de su manejabilidad poblaciones finitas e


infinitas. Aquí el término infinito no está siendo tomado con el rigor semántico de
la palabra; por ejemplo, los peces dentro de un estanque son un conjunto finito; sin
embargo, en términos estadísticos, puede ser considerado como infinito.

Muestra es un subconjunto de la población a la cual se le efectúa la medición


con el fin de estudiar las propiedades del conjunto del cual es obtenida.

En la práctica, estudiar todos y cada uno de los elementos que conforman la


población no es aconsejable, ya sea por la poca disponibilidad de recursos, por la
homogeneidad de sus elementos, porque a veces es necesario destruir lo que se
está midiendo, por ser demasiado grande el número de sus componentes o no se
pueden controlar; por eso se recurre al análisis de los elementos de una muestra
con el fin de hacer inferencias respecto al total de la población. Existen diversos
métodos para calcular el tamaño de la muestra y también para tomar los elementos
que la conforman, pero no es el objetivo de este curso estudiarlos. Diremos
solamente que la muestra debe ser representativa de la población y sus elementos
escogidos al azar para asegurar la objetividad de la investigación.

2.6. LA RECOLECCIÓN

Una de las etapas más importantes de la investigación es la recolección de la


información, la cual ha de partir, a menos que se tenga experiencia con muestras
análogas, de una o varias muestras piloto en las cuales se pondrán a prueba los
cuestionarios y se obtendrá una aproximación de la variabilidad de la población, con
el fin de calcular el tamaño exacto de la muestra que conduzca a una estimación de
los parámetros con la precisión establecida.

El establecimiento de las fuentes y cauces de información, así como la


cantidad y complejidad de las preguntas, de acuerdo con los objetivos de la
investigación son decisiones que se han de tomar teniendo en cuenta la
disponibilidad de los recursos financieros, humanos y de tiempo y las limitaciones
que se tengan en la zona geográfica, el grado de desarrollo, la ausencia de técnica,
etc.

Es, entonces, descubrir dónde está la información y cómo y a qué "costo" se


puede conseguir; es determinar si la encuesta se debe aplicar por teléfono, por
correo, o si se necesitan agentes directos que recojan la información; establecer
su número óptimo y preparar su entrenamiento adecuado.

2.7. CRITICA, CLASIFICACIÓN Y ORDENACIÓN

Después de haber reunido toda la información pertinente, se necesita la


depuración de los datos recogidos. Para hacer la crítica de una información, es
fundamental el conocimiento de la población por parte de quien depura para poder
detectar falsedades en las respuestas, incomprensión a las preguntas, respuestas
al margen, amén de todas las posibles causas de nulidad de una pregunta o nulidad
de todo un cuestionario.

Separado el material de "desecho" con la información depurada se procede a


establecer las clasificaciones respectivas y con la ayuda de hojas de trabajo, en
las que se establecen los cruces necesarios entre las preguntas, se ordenan las
respuestas y se preparan los modelos de tabulación de las diferentes variables que
intervienen en la investigación.

El avance tecnológico y la popularización de los computadores hacen que


estas tareas, manualmente dispendiosas, puedan ser realizadas en corto tiempo.

2.8. LA TABULACIÓN

Una tabla es un resumen de información respecto a una o más variables, que


ofrece claridad al lector sobre lo que se pretende describir; para su fácil
interpretación una tabla debe tener por lo menos: Un titulo adecuado el cual debe
ser claro y conciso. La Tabla propiamente dicha con los correspondientes subtítulos
internos y la cuantificación de los diferentes ítems de las variables, y las notas de
pie de cuadro que hagan claridad sobre situaciones especiales de la tabla, u
otorguen los créditos a la fuente de la información.
2.9. LA PRESENTACIÓN

Una información estadística adquiere más claridad cuando se presenta en la


forma adecuada. Los cuadros, tablas y gráficos facilitan el análisis, pero se debe
tener cuidado con las variables que se van a presentar y la forma de hacerlo. No es
aconsejable saturar un informe con tablas y gráficos redundantes que, antes que
claridad, crean confusión. Además la elección de determinada tabla o gráfico para
mostrar los resultados, debe hacerse no sólo en función de las variables que
relaciona, sino del lector a quien va dirigido el informe.

2.10. EL ANÁLISIS

La técnica estadística ofrece métodos y procedimientos objetivos que


convierten las especulaciones de primera mano en aseveraciones cuya confiabilidad
puede ser evaluada y ofrecer una premisa medible en la toma de una decisión.

Es el análisis donde se cristaliza la investigación. Esta es la fase de la


determinación de los parámetros y estadísticos muestrales para las estimaciones e
inferencias respecto a la población, el ajuste de modelos y las pruebas de las
hipótesis planteadas, con el fin de establecer y redactar las conclusiones
definitivas.

2.11. PUBLICACIÓN

Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros


estudiosos del mismo problema a quienes se les puede aportar información,
conocimientos y otros puntos de vista acerca de él.

PRACTIQUEMOS N° 1

1. ¿Por qué se considera importante la estadística?


2. Enuncie las ramas en las que se divide la estadística y establezca su campo de acción.
3. Enumere las etapas del método estadístico.
4. ¿Por qué es importante la revisión bibliográfica en el desarrollo de una investigación
estadística?.
5. ¿Qué es la hipótesis nula?.
6. Defina: Población, Muestra, Censo y Muestreo.
7. ¿Por qué usualmente se recurre al análisis a través de muestras y no de poblaciones?.
8. ¿Para qué se utiliza un muestreo piloto?.
9. ¿Con qué fin se critica una información?
10. ¿Cuáles son los componentes de una tabla?
Capítulo 3
Distribución de Frecuencias
*******************************
Después de recoger toda la información correspondiente a la investigación,
es decir, al agotar todo el trabajo de campo, nuestro escritorio se llena de un
cúmulo de datos y cifras desordenadas los cuales, al ser tomados como
observaciones individuales, dicen muy poco sobre la población estudiada; es,
entonces, tarea del investigador “hacer hablar las cifras”, comenzando por la
clasificación y ordenación, consignando la información en tablas inteligibles que
denominamos distribuciones de frecuencias.

3.1. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE

Para una mayor sencillez, en la exposición del tema, nos valemos del siguiente
ejemplo: Supongamos que en la Fábrica Textil Manufacturas del Centro S.A. ha
estallado un conflicto laboral y sus cincuenta operarias solicitan un aumento en el
salario integral diario sopena de paralizar la fábrica.

El Gerente-propietario recoge la información respecto a la variable salario


diario de sus 50 operarias y la relaciona en la Tabla No 1.
Tabla No.1

SALARIO DIARIO DE 50 OPERARIOS EN LA Fábrica


Textil Manufacturas del Centro S.A. (S/.)

Tabla No. 2

SALARIO DIARIO DE 50 OPERARIAS DE LA FÁBRICA


TEXTIL MANUFACTURAS DEL CENTRO S.A.
Tabla No. 3

SALARIO DIARIO DE 50 OPERARIAS DE LA FÁBRICA TEXTIL


MANUFACTURAS DEL CENTRO S.A.

Tabla No. 4

Como se puede observar, hay una gran diferencia entre los datos brutos de
la Tabla No.1 y el ordenamiento y agrupamiento de la Tabla No. 4.
Con el fin de obtener una mejor tabla interpretativa, introduciremos la
siguiente simbología:

n: El tamaño de la muestra, es el número de observaciones.


Xi: La variable; es cada uno de los diferentes valores que se han observado.
La variable xi, toma los x1, x2... xm valores.
fi: La frecuencia absoluta o simplemente frecuencia, es el número de veces que se
repite la variable Xi; así f1, es el número de veces que se repite la observación
x1, f2 el número de veces que se repite la observación x2 etc.
fa: La frecuencia acumulada, se obtiene acumulando la frecuencia absoluta.
fr: Frecuencia relativa; es el resultado de dividir c/u de las frecuencias
absolutas por el tamaño de la muestra.
fra: Frecuencia relativa acumulada; se obtiene dividiendo la frecuencia acumulada
entre el tamaño de la muestra.

Distribución Teórica de Frecuencias de n Observaciones


Veamos el ejemplo que venimos trabajando:

Tabla No. 5
Distribución de Frecuencias del Salario Diario de 50 Obreras

En la práctica, cuando se tiene confianza en el ordenamiento, no son


necesarias tantas tablas; se puede pasar de la tabla No 1 directamente a la tabla
No 6.

Tabla No. 6

Salario Diario de 50 Operarias de la Fábrica Textil Manufacturas del


Centro S.A.
Analizando las columnas porcentuales fr y fra se obtienen, entre otras las
siguientes conclusiones:

• Sólo el 4% de las obreras gana el máximo salario/día de la fabrica, el cual


corresponde a $58.000.00
• El salario diario mínimo ($50.000.00) lo gana únicamente una obrera, lo que
constituye el 2% del personal asalariado.
• El 62% de las operarias tiene un salario diario entre $53.000.00 y
$55.000.00
• El 60% de las obreras tiene un salario/día de $54.000.00 o menos.
• El 64% tiene un ingreso/día de $54.000.00 o más.

PRACTIQUEMOS N° 2

1. ¿Qué es frecuencia absoluta?.


2. Cómo se obtiene:
2.1. ¿La frecuencia acumulada?
2.2. ¿La frecuencia relativa?
2.3. ¿La frecuencia relativa acumulada
3. En una distribución de frecuencias ¿se pueden establecer conclusiones
porcentuales, utilizando solamente la frecuencia relativa? ¿Por qué?
4. La siguiente tabla relaciona las ausencias al trabajo de 50 obreras, durante el
mes de octubre, en la Fábrica Textil Manufacturas del Centro S.A.

4.1. Construir una distribución de frecuencias simple.


4.2. Sacar 3 conclusiones.
5. Años de experiencia de las 50 operarias de la Fábrica Textil Manufacturas del
Centro S.A.
Ordenar la Información y responder :

5.1. ¿Qué porcentaje de las obreras tiene experiencia inferior o igual a 6 años?.
5.2. ¿Que porcentaje tiene experiencia entre 5 y 7 años (incluyendo los
extremos)?.
6.
Palabras por Minuto Escritas por un Grupo de Mecanógrafas

Construir una distribución de frecuencias y resaltar 3 conclusiones

7. La siguiente tabla muestra, las respuestas obtenidas en un cuestionario aplicado


a las obreras de la Fábrica Textil Manufacturas del Centro S.A., respecto a la
edad, estado civil, número de hijos, experiencia, años de estudio, ingresos
diarios, gastos en educación y ausencias al trabajo en el último mes, así como
una calificación del desempeño otorgada por el supervisor.
Hacer las respectivas distribuciones de frecuencias, para cada una de las
variables.

3.2. DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS


Usualmente los valores de los datos no permiten un agrupamiento de ellos en
una tabla de frecuencias simple, debido a que se encuentran distribuidos a través
de todo el recorrido y el número de veces que se repite cada observación no es
significativo en todos los casos, y en la mayoría de ellos su frecuencia es baja. Una
tabla de frecuencias construida en estas condiciones, no presenta ninguna utilidad.

Ilustraremos el caso a través de un ejemplo, para ello, supongamos que la


fábrica de baldosas”Bolaños”, con el objeto de ofrecer una garantía de su
producto, desea hacer un estudio técnico de su producción, para lo cual extrae una
muestra de 100 baldosas, cada una de las cuales se somete a una prueba de
resistencia, destructiva cuyos datos expresados en Kg/cm 2, se relacionan a
continuación:

Tabla No. 7

Resistencia en Kg/Cm2 de 100 Baldosas de La Fábrica “Bolaños”

La clasificación en una distribución de frecuencias simple daría como


resultante un ordenamiento de por lo menos 80 items; la mayoría de ellos con
frecuencia unitaria.

Se hace necesario el agrupamiento en intervalos o clases que haga más


compacta, manejable y presentable la información.

El número de clases y la amplitud de los intervalos los fija el investigador de


acuerdo con el conocimiento que posea de la población, la necesidad de hacer
comparación con otras investigaciones y la presentación de la información. Sin
embargo, se recomienda que la información no sea demasiado compacta, lo cual le
restaría precisión, ni demasiado dispersa, ya que no se tendría claridad.
En términos generales, es usual que el número de intervalos no sea inferior a
5 ni superior a 15. Struges propone que el número de clases o intervalos sea
determinado por la expresión m ≅1 + 3.3 log(n).

La amplitud debe ser igual para todos los intervalos y, en lo posible, no se


debe trabajar con clases abiertas.

3.3. REGLAS EMPÍRICAS PARA LA CONSTRUCCIÓN DE


INTERVALOS

Cuando no se tiene experiencia en el manejo de la información es aconsejable


seguir los pasos que se dan a continuación:

3.3.1. Determinar los datos de mayor y menor valor Xmax, Xmin.

3.3.2. Calcular el rango o recorrido

3.3.3. Determinar el número de intervalos (m) y la amplitud de clase (A):


Debe tenerse presente que m es un número natural. Luego se
busca la amplitud A:

3.3.4. Calcular el rango ampliado:

3.3.5. Establecer la diferencia , es decir la cantidad en que ha sido


alterado el recorrido, la cual no debe ser superior a la amplitud.

(“a”) También puede ser definida como la cantidad positiva más pequeña que le
hace falta al rango o recorrido para ser divisible exactamente por la
amplitud.

3.3.6. Distribuir adecuadamente la cantidad “a” de la siguiente manera:

Al valor X min se le resta aproximadamente y la parte restante se le suma


a X max, obteniendo el límite inferior del primer intervalo y el límite superior
del último, respectivamente.
3.3.7. Construir los intervalos, calcular los puntos medios o marcas de clase y
hacer el agrupamiento de frecuencias.

Distribución Teórica de Frecuencias por Intervalos de n Observaciones

N: Número de observaciones
LIPI: Límite inferior del primer intervalo
LSUI: Límite superior del último interval
Xi: Punto medio del intervalo, o marca de clase

* Con el fin de prever dobles conteos, quien clasifica deberá


especificar si los intervalos son abiertos a la derecha o abiertos a la
izquierda, en estas notas, trabajaremos con intervalos abiertos a la
derecha; es decir, del tipo , donde el límite superior no está
incluido dentro de la clase.

Retomemos el ejercicio de la Tabla No. 7 y construyamos una distribución de


frecuencia por intervalos.
3.3.1 Rango ,

3.3.2 Rango ,

3.3.3 Número de
,
intervalos
,

No es lógico tener 7.6 intervalos, por lo tanto se procede a aproximar el


número de intervalos a un número natural cercano.

Aproximemos, , y busquemos la amplitud.

Ya terminado el número de clases en m=7 encontramos que la amplitud debe


ser mayor que 94. Fijémosla, entonces, en A = 100, que hace más manejable y
presentable la tabla con la información.

3.3.4 Rango ampliado , .

3.3.5 Hemos alterado el rango original , cambiándolo por el rango ampliado


. La diferencia está representada por o sea

3.3.6 Tenemos por tanto, que distribuir adecuadamente la diferencia entre los
rangos

Como se dijo antes, no estamos hablando de restar o sumar estrictamente sino


una cantidad aproximada que brinde una buena presentación.

3.3.7 Construcción de los intervalos.


Tabla No. 8

Construcción de los Intervalos para la Resistencia de las Baldosas

Se puede desde luego, proceder a agrupar la información en los respectivos


intervalos, haciendo la salvedad de que ninguno de los límites superiores de clase
son considerados dentro de los intervalos.

Tabla No. 9

Distribución de Frecuencias por Intervalos de la Resistencia de 100


Baldosas de la Fábrica “Bolaños”

Conclusiones:

• El 72% de las baldosas tiene una resistencia entre 300 y 600 Kg/Cm 2.
• El 86% de las baldosas resiste menos de 600 Kg/Cm 2.
• Sólo el 5% resiste 700 o más Kg/Cm2.

PRACTIQUEMOS N° 3

1. ¿Por qué se recurre al agrupamiento en distribuciones de frecuencias por


intervalos?
2. ¿Cómo se determina el número de intervalos y la amplitud de ellos?.
3. ¿Qué es una marca de clase?.
Consumo de agua, en m3de 184 familias en un barrio residencial de una
ciudad durante el mes de octubre:

Construir una distribución de frecuencias por intervalos.

4.1 Asumiendo el número de intervalos m = 8


4.2 Asumiendo el número de intervalos m = 9
4.3 Comparar las dos distribuciones y las conclusiones que de ellas se
deriven.
5.
Calificaciones Obtenidas por 130 Estudiantes en un Examen de
Estadística:
Construir una distribución de frecuencias por intervalos y resaltar cuatro (4)
conclusiones.
Capítulo 4
Representación Gráfica
***************************
A pesar de la gran ayuda que prestan las tablas y cuadros con información
organizada, no todos los públicos alcanzan a comprenderla o no disponen del tiempo
suficiente para analizarla.

Es por ello que la mayoría de los investigadores acostumbran a reforzar la


descripción a través de dibujos, generalmente con formas geométricas, que ayudan
a visualizar el comportamiento de las variables tratadas.

4.1. DEFINICIÓN

Una gráfica o diagrama es un dibujo complementario a una tabla o cuadro,


que permite observar las tendencias de un fenómeno en estudio y facilita el
análisis estadístico de las variables allí relacionadas.

4.2.COMPONENTES DE UNA GRÁFICA

Una gráfica, al igual que un cuadro o una tabla, debe constar de:

4.2.1. Título adecuado: El cual debe ser claro y conciso, que responda a las
preguntas: Qué relaciona, cuándo y dónde se hicieron las observaciones.
4.2.2. El cuerpo: o gráfico en sí, cuya elección debe considerar el o los tipos
variables a relacionar, el público a quien va dirigido y el diseño artístico del
gráfico.

4.2.3. Notas de pie de gráfico: Donde se presentan aclaraciones respecto al


gráfico, las escalas de los ejes, o se otorgan los créditos a las fuentes
respectivas.

Es de anotar que por medio de gráficos tendenciosos se pueden


deformar o resaltar situaciones o estados, que presentados en un gráfico
apropiado, mostrarían un comportamiento normal.

Generalmente una información es distorsionada por algunas de las


siguientes causas:

4.2.1.1 La relación entre los ejes no es la mas apropiada ( ver


gráficos No.1 y No.2)

4.2.1.2 Gráficos con escalas desproporcionadas, o mala elección del


punto de origen ( ver gráfico No.3).

Variación de La Inflación en Colombia 1995-2000

Gráfico No. 1
Gráfico No. 2

Gráfico No. 3
Como se puede observar, el gráfico No.1 “realza” el decrecimiento de la variable
inflación, mientras que el No.2 intenta mostrar una estabilización o decrecimiento
parsimonioso.

Los dos dibujos son incorrectos debido a que no conservan una proporción
adecuada entre sus ejes. Sin embargo, el gráfico No. 3 tiene una buena proporción
entre los ejes. Pero, la distorsión se debe a la mala numeración en el eje “Y” pues,
el punto de origen O ha sido eliminado y asignado un valor arbitrario, la escala es
inadecuada para resaltar el decrecimiento inflacionario de los dos últimos periodos.

Ambas situaciones son erróneas o tendenciosas y se deben corregir asignando


escalas apropiadas a los ejes y utilizando la siguiente regla:

Donde: Lx: Longitud del eje horizontal

Ly: Longitud del eje vertical

“La longitud del eje vertical es igual a tres cuartos de la longitud del eje
horizontal”.

4.3.PRINCIPALES TIPOS DE GRÁFICOS

Existe una gran cantidad de gráficos para la representación de datos


estadísticos, ya que de ellos depende el diseño artístico de quien los elabora, así
como de su imaginación al combinar varios tipos de ellos, como forma de presentar
una información.

Entre los gráficos más comunes tenemos:

4.3.1 Gráfico de Líneas: Usado básicamente para mostrar el comportamiento de


una variable cuantitativa a través del tiempo. El gráfico de líneas consiste en
segmentos rectilíneos unidos entre sí, los cuales resaltan las variaciones de
la variable por unidad de tiempo. Para su construcción ha de procederse de
la siguiente manera: en el eje de las ordenadas se marcan los puntos de
acuerdo con la escala que se esté utilizando. En el caso de una escala
aritmética, distancias iguales en el eje, representan distancias iguales en la
variable.

Variación de la Inflación en Colombia 1995 -2000


El eje de la variable X se divide en unidades de tiempo iguales,
teniendo presente el número de ítems que ha de presentarse, así como la
longitud del eje. Es de anotar la conveniencia de mostrar la interrupción y
acercamiento del eje a su origen cuando esto haya ocurrido.

4.3.2 Gráfico de Líneas Compuesto: Cuando se tienen varias variables a


representar, con el fin de establecer comparaciones entre ellas (siempre
que su unidad de medida sea la misma); se utiliza plasmarlos en un sólo
gráfico, el cual es el resultado de representar varias variables en un mismo
plano.

Variación de la Inflación y el Salario en Manufacturas del Centro S.A.

4.3.3 Gráfico de Barras: El gráfico de barras, como su nombre lo indica, está


constituido por barras rectangulares de igual ancho, conservando la misma
distancia de separación entre sí. Se utiliza básicamente para mostrar y
comparar frecuencias de variables cualitativas o comportamientos en el
tiempo, cuando el número de ítems es reducido.
Número de Hijos de 50 Obreras en Manufacturas del Centro

Éstos gráficos suelen ser de barras verticales, aunque se pueden utilizar de


forma horizontal.

4.3.4. Gráfico de Barras Compuesto

Preferencias de Partido Según Sexo

4.3.5 Gráfico de Sectores Circulares: Usualmente llamado gráfico de pastel,


debido a su forma característica de una circunferencia dividida en cascos,
por medio de radios que dan la sensación de un pastel tajado en porciones.

Se usa para representar variables cualitativas en porcentajes o cifras


absolutas cuando el número de ítems no es superior a 5 y se quiere resaltar
uno de ellos. Para su construcción se procede de la siguiente forma: La
circunferencia tiene en su interior 360 grados, los cuales hacemos
corresponder al total de la información, es decir al 100%; luego, para
determinar el número de grados correspondiente a cada componente se
multiplica el porcentaje respectivo por 360 y se divide por 100, los cuales se
miden con la ayuda de un transportador para formar los casquetes de los
diferentes ítems.

Estado Civil de 50 Operarias de Manufacturas del Centro

4.3.6. Histograma de Frecuencias: Para la construcción de un histograma de


frecuencias de fácil interpretación y que no falsee la información, debe
disponerse de una distribución de frecuencias por intervalos con amplitud
igual para cada clase o intervalo. En el eje de las abscisas procedemos a
representar los intervalos de la variable, y en el eje de las ordenadas las
frecuencias de cada clase.

El histograma se construye dibujando barras contiguas que tienen


como base la amplitud de cada intervalo y como alturas las frecuencias
respectivas.

Histograma de Frecuencias de la Resistencia de 100 Baldosas


4.3.7. Polígono de Frecuencias

Resistencia de 100 Baldosas

Para la construcción de un polígono de frecuencias, se marcan los


puntos medios de cada uno los intervalos en la parte superior de cada barra
del histograma de frecuencias, los cuales se unen con segmentos de recta.

4.3.8. Histograma de Frecuencias Acumuladas: El histograma de frecuencias


acumuladas también es obtenido a partir de una distribución de frecuencias,
tomando en el eje horizontal las clases de la variable, y en el eje vertical las
frecuencias acumuladas correspondientes a cada intervalo.

Resistencia de 100 Baldosas


Resistencia de 100 Baldosas

PRACTIQUEMOS N° 04

1. ¿Cuál es el objetivo de un gráfico?


2. Describa los componentes de una gráfica .
3. ¿Cuáles son las principales causas de distorsión de la información de un
gráfico?.
4. ¿Cuál debe de ser la proporción entre los ejes del plano cartesiano para la
construcción de un gráfico?.
5. Para los ejercicios 4 y 5 del capítulo 3, numeral 3.2 construir:
5.1. Un histograma de frecuencias.
5.2. Un polígono de frecuencias.
5.3. Un histograma de frecuencias acumuladas.
5.4. Un polígono de frecuencias acumuladas.
6.
Costo Promedio del Consumo de Energía de la Fábrica Textil Manufacturas del
Centro S.A.

Construir un gráfico de líneas para esta información.


7.
Índice de Precios al Consumidor 1999-2001
Graficar: El valor del índice, la variación mensual y la variación anual,
en función del tiempo.
8. Construir un gráfico apropiado para los resultados electorales en Perú, en la
elección de presidente de la república para el período 2001-2006:
Capítulo 5
Medidas de Tendencia Central
***********************************
En los capítulos anteriores, nos referimos a la clasificación, ordenación y
presentación de datos estadísticos, limitando el análisis de la información a la
interpretación porcentual de las distribuciones de frecuencia.

El análisis estadístico propiamente dicho, parte de la búsqueda de


parámetros sobre los cuales pueda recaer la representación de toda la información.

Las medidas de tendencia central, llamadas así porque tienden a localizarse


en el centro de la información, son de gran importancia en el manejo de las
técnicas estadísticas, sin embargo, su interpretación no debe hacerse
aisladamente de las medidas de dispersión, ya que la representabilidad de ellas
está asociada con el grado de concentración de la información.

Las principales medidas de tendencia central son:

5.1 Media aritmética.


5.2 Mediana
5.3 Moda.

5.1. MEDIA ARITMÉTICA


Cotidiana e inconscientemente estamos utilizando la media aritmética.
Cuando por ejemplo, decimos que un determinado fumador consume una cajetilla de
cigarrillos diaria, no aseguramos que diariamente deba consumir exactamente los
20 cigarrillos que contiene un paquete sino que es el resultado de la observación, es
decir, dicho sujeto puede consumir 18, un día; 19 otro; 20, 21, 22; pero según
nuestro criterio, el número de unidades estará alrededor de 20.

Matemáticamente, la media aritmética se define como la suma de los valores


observados dividida entre el número de observaciones.

: Media aritmética de la variable X


: Valores de la variable X
n: Número de observaciones
Signo de sumatoria, indica que se debe
:
sumar

Ejemplo: Cantidad de cigarrillos consumidos por un fumador en una semana.

. . . Lunes: 18
Martes: 21
Miércoles: 22
Jueves: 21
Viernes: 20
Sábado: 19
Domingo: 19

Entonces la media aritmética es.


El fumador consume en promedio 20 cigarrillos diarios.

Cuando la variable está agrupada en una distribución de frecuencias, la


media aritmética se calcula por la fórmula:

Ejemplo:

Cantidad de Cigarrillos consumidos por un fumador en una Semana dada:

Ejemplo:

Cálculo de La Media Aritmética. El Salario/día de 50 Operarias


= 54.100 Soles/día

Si la información está relacionada en una distribución de frecuencias por


intervalos, se toman como valores de la variable las marcas de clase de los
intervalos, entiéndase por marca de clase el punto medio entre los límites de cada
clase o intervalo.

Ejemplo:

Cálculo de La Media Aritmética de la Resistencia de 100 Baldosas


La resistencia promedio de las 100 baldosas es de 448 Kg/Cm².

5.1.1 Propiedades de la Media Aritmética

5.1.1.1. La suma de las diferencias de los datos con respecto a la


media aritmética es igual cero.

Demostración:

pero

Como
Ejemplo de Comprobación:

En el Ejercicio del Fumador Cuya Media Aritmética


es de 20 Cigarrillos / día:

Para una distribución de frecuencias:

Salario/día de 50 Operarias en la Fábrica Textil Manufacturas del

Centro S.A.

5.1.1.2. La suma de las diferencias cuadráticas de los datos, con

respecto a la Media Aritmética, es mínima.


Quiere decir esta propiedad que cualquier otro parámetro p,

diferente a la media aritmética hace mayor la expresión:

que

Para

Demostración:

Debemos, entonces, probar que:

veamos:
Pero (propiedad a.)

entonces:

como

luego

5.1.1.3. Si a cada uno de los resultados le sumamos o le restamos una

constante C , la Media Aritmética queda alterada en esa

constante.

Demostración:

1 2, n .

Tenemos los datos x ,x .... ....x Cuya media aritmética es

Sea

La media aritmética de la nueva variable es:


entonces

En el ejemplo de las baldosas, , a cada uno de los datos

restémosle una constante .

5.1.1.4.
Si cada uno de los datos se multiplica por una constante k,

entonces la media aritmética queda multiplicada por esa

constante:
1 2, n

Tenemos los datos x ,x .... ....x cuya media aritmética es

Sea

Si multiplicamos cada una de las resistencias de las 100 baldosas por

tenemos:
una constante

5.1.2. Media Aritmética con Cambio de Origen y de Escala

En estadística es usual la transformación de variables utilizando las dos


últimas propiedades:

C = un valor de tendencia central (media, mediana, moda o cualquier otro


parámetro.

k = generalmente la desviación standar, desviación media, la amplitud etc.


Sea

..... para nuestro ejemplo C = 450, k = 100

A la nueva variable “Y” le calculamos la media aritmética.

5.1.3. Media Aritmética Ponderada

Hemos visto que la Media Aritmética se calcula con base a la magnitud de los
datos, otorgándoles igual importancia a cada uno de ellos. Sin embargo en muchas
ocasiones la magnitud del dato esta ponderada con un determinado peso que lo
afecta relativamente.

La Media Aritmética ponderada tiene en cuenta la importancia relativa de


cada uno de los datos, para lo cual la definimos con la siguiente expresión:

donde

: Media aritmética ponderada


xi: Valor de la variable X
wi: Ponderación del ítem xi

Ejemplo:

Las calificaciones de un estudiante están conformadas por los


siguientes factores:

Un examen cuyo valor es 40% en el cual obtuvo una nota de 4.5, un


trabajo de consulta con ponderación del 10% y calificación de 1.0, una
exposición equivalente al 15% con nota de 2.0, y por último una
investigación con valor del 35% calificada con 3.5.

entonces la nota definitiva es:

5.2. LA MEDIANA

Otra medida de tendencia central, utilizada principalmente en estadística no


paramétrica, es la mediana, la cual no se basa en la magnitud de los datos, como la
media aritmética, sino en la posición central que ocupa en el orden de su magnitud,
dividiendo la información en dos partes iguales, dejando igual número de datos por
encima y por debajo de ella.

5.2.1. La Mediana Cuando los datos no están Agrupados en Intervalos.

Partiendo de la información bruta, ordenamos los datos ascendente o


descendentemente:

se
define
Mediana = , si n es impar ó

, si n es
Mediana =
par

En el ejercicio de los cigarrillos, consumidos por un fumador tenemos


lunes 18, martes 21, miércoles 22, jueves 21, viernes 20, sábado 19, y
domingo 19. Ordenando ascendentemente:

n, es impar, entonces

Veamos cuando n es par:

Consumo mensual de agua, en m3, por la fábrica textil Manufacturas


del Centro S.A.

Enero= 10 . . . . Mayo= 14 . . . . Septiembre=18,


, ,
Febrero=12 Junio= 19 Octubre= 22,
, ,
Marzo= 15 Julio= 17 Noviembre= 15,
, ,
Abril= 18 Agosto=18 Diciembre= 13
, ,

Mediana=

Como se puede observar, en este caso la mediana no es un dato


perteneciente a la información, es un parámetro que divide la
información dejando el 50% por encima y el 50% por debajo de ella.
5.2.2. La Mediana cuando la información se encuentra agrupada en intervalos

Si la información esta agrupada en intervalos iguales, entonces la


mediana se calcula según la siguiente expresión:

Me: Mediana
LI: Límite inferior del intervalo donde se encuentra la
mediana (intervalo mediano), el cual se determina
observando en que clase se encuentra la posición n/2.)
n: Número de observaciones
: Frecuencia acumulada anterior al intervalo mediano
: Frecuencia del intervalo mediano
A: Amplitud del intervalo

Ejemplo:

Resistencia de 100 Baldosas de la Fábrica “Bolaños”

en la columna de frecuencia acumulada advertimos que la observación


número 50 se halla en el cuarto intervalo 4.
Se concluye que el 50% de las baldosas resiste menos de 445.45
2 2

Kg/Cm y el 50% resiste mas de 445.45 Kg/Cm .

5.3. LA MODA

La moda, como su nombre lo indica, es el valor más común (de mayor


frecuencia dentro de una distribución. Una información puede tener una moda y se
llama unimodal, dos modas y se llama bimodal, o varias modas y llamarse multimodal.
Sin embargo puede ocurrir que la información no posea moda.

5.3.1. La Moda cuando los datos no están agrupados en intervalos

Salario de 50 Operarias de la fábrica textil Manufacturas del Centro S.A.

El valor que más veces se repite es 54 con una frecuencia de 12,


entonces decimos que la moda es Mo = 54.000.00 pesos diarios.

Cantidad de Cigarrillos consumidos por un fumador en una semana dada:


Los valores de mayor frecuencia corresponden a 19 y 21, por lo tanto
se trata de una distribución bimodal con Mo1=19 y Mo2=21

5.3.2. Cálculo de la Moda cuando la información está agrupada en intervalos

Cuando la información se encuentra agrupada en intervalos de igual


tamaño la moda se calcula con la siguiente expresión.

Donde:

Mo: Moda
LI: Límite inferior del intervalo modal
fm: Frecuencia de la clase modal
f(m-1) : Frecuencia de la clase premodal
f(m+1) : Frecuencia de la clase posmodal
A: Amplitud de los intervalos

Ejemplo:

Resistencia de 100 Baldosas


A pesar que el valor 444.44 no es un dato real de la información
asumimos ese parámetro como el de mayor ocurrencia.

PRACTIQUEMOS N° 5

1. ¿Que es una medida de tendencia central?.


2. ¿Cuales son las principales medidas de tendencia central?.
3. Defina : media aritmética mediana y moda.
4. ¿Cuándo se utiliza la media aritmética ponderada?.
5. Enuncie las propiedades de la media aritmética.
6. Para cada información de los ejercicios del capitulo 3, calcular e interpretar la
media aritmética, la mediana y la moda.
7. La tripulación de un avión, en su itinerario compra los siguientes galones de
gasolina:
Ciudad X 200 galones a 4000 pesos el galón.
Ciudad Y 250 galones a 3500 pesos el galón.
Ciudad Z 300 galones a 3000 pesos el galón.
¿Cuál es el costo promedio de la gasolina comprada?.
Capítulo 6
Medidas de Posición
***********************
En el Capitulo anterior, vimos lo referente a las medidas de tendencia
central, las cuales, a su vez, son también medidas de posición ya que, de todas
maneras ocupan un lugar dentro de la información. Nos ocuparemos ahora de
ciertos parámetros posicionales muy útiles en la interpretación porcentual de la
información.

6.1. CUARTILES

Las cuartillas o cuartiles son valores posicionales que dividen la información


en cuatro partes iguales, el primer cuartil deja el 25% de la información por
debajo de él, y el 75% por encima, el segundo cuartil, al igual que la mediana, divide
la información en dos partes iguales, y por último el tercer cuartil deja el 75% por
debajo de sí, y el 25% por encima.

Gráficamente:

Se necesita, entonces calcular tres cuartillas ya que la cuarta queda


automáticamente determinada.
Donde:

k: Orden del cuartil k = 1,2,3


LI:.......... Límite inferior del intervalo que contiene el cuartil.
Fa(i-1): Frecuencia acumulada hasta el intervalo anterior al que contiene el
cuartil.
fi : Frecuencia del intervalo que contiene el cuartil.
n: Número de observaciones.
A: Amplitud de los intervalos.

Ejemplo:

Resistencia de 100 Baldosas de la Fábrica "Bolaños "

Primer cuartil:

posición que debe ser ubicada en la frecuencia acumulada, para


determinar que clase contiene este cuartil.
El 25% de las baldosas resiste menos de 352.38 Kg/Cm 2 y el 75%
tiene una resistencia superior.

Como el segundo cuartil es lo mismo que la mediana:


Me=Q2=445.45Kg/Cm2

Calculemos la tercera cuartilla k=3

El 75% de las baldosas tiene una resistencia inferior a 538..88


Kg/Cm2 y el 25% una resistencia superior.

6.2. QUINTILES

Los quintiles o quintillas dividen la información en cinco partes iguales,


agrupándolas en porcentajes de 20, 40, 60, y 80 por ciento, en consecuencia
debemos calcular cuatro parámetros:

Gráficamente:

calculemos por ejemplo la segunda quintilla para el ejercicio que


traemos:

k=2,
El 40% de las baldosas resiste menos de 415.15kg/cm 2 y el 60%
resiste más.

6.3. DECILES

Similarmente, los deciles o decillas dividen la información en diez partes


iguales, en cantidades porcentuales de 10 en 10.

6.4. CENTILES

Obviamente los centiles dividen la información en 100 partes, lo cual facilita


la interpretación porcentual de una distribución de frecuencias.

6.5. RESUMEN

En general para calcular cualquier percentil:

Donde:

r: Número de partes en que se divide la información


k: Orden del percentil k = 1,2,.....,r-1
LI: Límite inferior del intervalo que contiene el percentil
fa(i-1): Frecuencia acumulada hasta el intervalo anterior al que contiene el
percentil
fi: Frecuencia del intervalo que contiene el percentil
n: Número de observaciones
A: Amplitud de los intervalos

En nuestro ejercicio, si el gerente de la fábrica de baldosas desea


ofrecer un garantía de resistencia mínima. Basado en la muestra que
se ha obtenido, si no quiere remplazar ninguna pieza, lógicamente
debe afirmar que el producto resiste 100 o más Kg/Cm 2. Pero si esta
dispuesto a remplazar el 5% de su producción, entonces:

Se debe dar una garantía de 210kg/cm2 de resistencia mínima.

PRACTIQUEMOS N° 6

1. ¿Para qué se utilizan los percentiles?.


2. ¿En cuantas partes se divide la información con:
2.1 Los cuartiles
2.2 Los quintiles
2.3 Los deciles
2.4 Los centiles
3. Para la información de los ejercicios 4 y 5 de la sección 3.2 calcular e
interpretar;
3.1. La primera y tercera cuartilla.
3.2 El segundo y cuarto quintil.
3.3 ¿Qué porcentaje hay entre la primera y tercera quintilla?.
3.4 ¿Qué porcentaje hay entre la primera cuartilla y la segunda
quintilla?.
3.5 ¿Qué porcentaje hay entre la tercera cuartilla y el noveno decil?.
Capítulo 7
Medidas de Dispersión
**************************
En el análisis estadístico no basta el cálculo e interpretación de las medidas
de tendencia central o de posición, ya que, por ejemplo, cuando pretendemos
representar toda una información con la media aritmética, no estamos siendo
absolutamente fieles a la realidad, pues suelen existir datos extremos inferiores y
superiores a la media aritmética, los cuales, en honor a la verdad, no están siendo
bien representados por este parámetro.

En dos informaciones con igual media aritmética, no significa este hecho, que
las distribuciones sean exactamente iguales, por lo tanto, debemos analizar el
grado de homogeneidad entre sus datos. Por ejemplo, los valores 5, 50, 95 tiene
igual media aritmética, y mediana que los valores 49, 50,51; sin embargo, para la
primera información la media aritmética , se encuentra muy alejada de los valores
extremos 5 y 95, cosa que no ocurre con la segunda información que posee igual
media aritmética y mediana, vemos entonces que la primera información es mas
heterogénea o dispersa que la segunda.

Para medir el grado de dispersión de una variable, se utilizan principalmente


los siguientes indicadores:

7.1 Rango o recorrido.


7.2 Desviación media.
7.3 Varianza y desviación típica o estándar.
7.4 Coeficiente de variabilidad.

7.1. RANGO O RECORRIDO:

Es la medida de dispersión mas sencilla ya que solo considera los dos valores
extremos de una colección de datos, sin embargo, su mayor utilización está en el
campo de la estadística no paramétrica.

R = Xmax – Xmin

Xmax, Xmin son el máximo y el mínimo valor de la variable X, respectivamente.


En el ejemplo introductorio, vemos que el rango para la primera información es

R1=95-5=90, mientras que R2=51-49=2, se hace pues manifiesta la gran dispersión


de la primera información contra la homogeneidad de la segunda.

7.2. DESVIACIÓN MEDIA:

La desviación media, mide la distancia absoluta promedio entre cada uno de


los datos, y el parámetro que caracteriza la información. Usualmente se considera
la desviación media con respecto a la media aritmética:

Donde:

DM : Desviación media
xi : Diferentes valores de la variable X
fi : Número de veces que se repite la observación xi
Media aritmética de la información
n: Tamaño de la muestra.
M: Número de agrupamientos o intervalos

Ejemplo:

Salario de 50 Operarias de la fábrica textil Manufacturas del Centro S.A.


1.400.00 es el error promedio que se comete al remplazar los ingresos
diarios de cada una de las 50 obreras por 54.100 soles.

7.3. VARIANZA

El problema de los signos en la desviación media, es eludido tomando los


valores absolutos de las diferencias de los datos con respecto a la media
aritmética. Ahora bien, la varianza obvia los signos elevando las diferencias al
cuadrado, lo cual resulta ser más elegante, aparte de que es supremamente útil en
el ajuste de modelos estadísticos que generalmente conllevan formas cuadráticas.

La varianza es uno de los parámetros más importantes en estadística


paramétrica, se puede decir que, teniendo conocimiento de la varianza de una
población, se ha avanzado mucho en el conocimiento de la población misma.

Numéricamente definimos la varianza, como desviación cuadrática media de


los datos con respecto a la media aritmética:

Donde:
S2:Varianza
xi : Valor de la variable X
: Media aritmética de la información
fi: Frecuencia absoluta de la observación xi
n: Tamaño de la muestra.
m Número de agrupamientos o intervalos

Salario/dia de 50 Operarias en la fábrica textil Manufacturas del


Centro S.A.

Como los datos están expresados en miles de pesos y la


varianza se encuentra en forma cuadrática obtenemos una varianza de
3’210.000 pesos. Sin embargo para una mejor comprensión debemos
recurrir a la desviación típica o estándar definida como la raíz
cuadrada de la varianza:

El error estándar es de 1.791 soles/diarios.

En el ejemplo de las baldosas:

Resistencia de 100 Baldosas de La Fábrica “Bolaños”


7.4. COEFICIENTE DE VARIABILIDAD

Generalmente interesa establecer comparaciones de la dispersión, entre


diferentes muestras que posean distintas magnitudes o unidades de medida.

El coeficiente de variabilidad tiene en cuenta el valor de la media aritmética,


para establecer un número relativo, que hace comparable el grado de dispersión
entre dos o mas variables, y se define como:

Comparemos la homogeneidad de las dos informaciones anteriores, las cuales


tienen diferente unidad de medida.

para el salario:

para la resistencia

Concluimos que es mucho más dispersa la información correspondiente


a la resistencia de las baldosas.
PRACTIQUEMOS N° 7

1. ¿Cuál es la utilidad de las medidas de dispersión?.


2. ¿Cuáles son las principales medidas de dispersión?.
3. ¿Cuál es la medida adecuada para comparar la dispersión entre varias variables
que posean diferente magnitud o diferente unidad de medida?.
4. Para cada una de las informaciones de los ejercicios de los capítulos anteriores,
calcular e interpretar:
4.1 Rango.
4.2 Desviación media.
4.3 Coeficiente de variabilidad.
Capítulo 8
Regresión y Correlación Lineal
**********************************
Hasta ahora hemos hecho la tabulación y el análisis para una sola variable.
Pero los investigadores, además de analizar una información en forma individual,
generalmente se interesan en establecer cruces y buscar relaciones entre
diferentes variables.

8.1. TABLAS DE DOBLE ENTRADA

Para la presentación bidimensional de las variables "X, Y" se procede de la


siguiente manera:

• Se ordenan las variables "X, Y" respectivamente


• Se tabulan los valores X horizontalmente, y los valores Y verticalmente.
• Se buscan las frecuencias para cada par ordenado ( xi,yj).
• Se suma horizontalmente para obtener las frecuencias de “Y” fyj, y
verticalmente para obtener las frecuencias de “X” fxi .

xi: Valores de la variable X, i=1,2,....m


yj: Valores de la variable Y, j=1,2,... k
fxi: Frecuencia de la observación xi
fyj: Frecuencia de la observación yj
fij: Frecuencia conjunta de los valores (xi,yj)
fa0xi :Frecuencia acumulada de la variable “X”, en el item
i
fayj : Frecuencia acumulada de la variable “Y”, en el item j
frxi : Frecuencia relativa para la variable “X”, en el item i
fryj : Frecuencia relativa para la variable “Y”, en el item j
fraxi : Frecuencia relativa acumulada para la variable “X”
frayj : Frecuencia relativa acumulada para la variable “Y”.

Tabla de Doble Entrada para la representación de dos Variables “X, Y”

Como se puede advertir en la disposición de las frecuencias, la


interpretación de la variable “Y”, puede hacerse analizando los relativos propios en
forma horizontal, en tanto que el análisis de la variable “X” se hace en forma
vertical.

Experiencia Laboral y Salario Diario de 50 Obreras de la fábrica textil


Manufacturas del Centro S.A. “X” : Experiencia en Años, “Y”: Salario
Miles de Pesos
Analizando los relativos para cada una de las variables podemos sacar, entre
otras, las siguientes conclusiones:

• El 64% tiene una experiencia igual o inferior a 6 años.


• El 68% tiene una experiencia entre 5 y 7 años incluyendo sus extremos.
• El 60% gana 54.000 pesos diarios o menos.
• El 62% gana entre 53.000 y 55.000 pesos incluyendo sus extremos.

Las tablas de doble entrada también pueden usarse para variables cualitativas,
o combinarse variables cualitativas con cuantitativas.

Estado Civil y Número de Hijos de 50 Obreras de la fábrica textil


Manufacturas del Centro S.A. X: Estado Civil, Y: Número De Hijos.

Se deja al lector la interpretación y análisis de esta tabla.

8.2. CORRELACIÓN
En el análisis conjunto para dos o más variables es básica la búsqueda del tipo y
grado de la relación que pueda existir entre ellas, o si por el contrario, las
variables sean independientes entre sí y la relación que puedan mostrar se debe
únicamente al azar, o a través de terceras variables.

El sondeo del tipo y grado de la correlación, parte desde la misma presunción


del investigador, teniendo presente que la búsqueda de relaciones entre variables
debe ser lógica, es decir relacionar lo que sea razonable y no datos cuya asociación
sea desde cualquier punto de vista absurda.

Veamos algunas variables susceptibles de relacionar:

• El peso y estatura de un grupo de adultos.


• Edad y peso de un grupo de niños.
• Ingresos y gastos de arrendamiento de un grupo de familias.
• Escolaridad e ingreso mensual de un grupo de empleados.
• Ventas y utilidades de un almacén de variedades.

En el cuestionario aplicado a las obreras de la "Hilacha", parece que se indaga


por ciertas variables que puedan explicar el salario devengado por ellas; como
podría ser, los años de experiencia, los años de estudio, las ausencias al trabajo, la
evaluación del desempeño por parte de su supervisor, amén de otras variables que
pueden tener influencia en la asignación salarial.

Para fortalecer el indicio de correlación inicial, se grafica cada uno de los pares
ordenados de las variables (xi,yj) en un plano cartesiano, para observar la “nube de
puntos” o diagrama de dispersión, donde se advierte la tendencia o no, de la
información representada.
A pesar de la ilustración visual que ofrecen las gráficas, solo podemos percibir la
tendencia, mas no el grado o fortaleza de la relación, entre la variable
independiente “X” y la variable dependiente “Y”.

Para cuantificar la calidad de la dependencia, entre las dos variables, el indicador


mas acostumbrado es el Coeficiente de correlación, definido com

Donde:

r: Coeficiente de correlación entre “X” y


“Y”
Sx: Desviación típica de “X”
Sy: Desciacion típica de “Y”
Sx,y : Covarianza entre “X” y “Y”
En la práctica, cuando no tenemos la información agrupada en una tabla de
doble entrada, asumimos que cada observación bivariada tiene frecuencia unitaria,
entonces r se convierte en:
Tabla de Trabajo para el Calculo de L Coeficiente de Correlación

El coeficiente de correlación, es un indicador del grado de la relación entre


las dos variables, el cual oscila en el intervalo cerrado , es decir, .

Cuando r toma un valor extremo, ya sea r=1 ó r=-1 existe una correlación
perfecta positiva o negativa según el signo, como lo podemos corroborar en el
siguiente ejemplo:

Aspiración Salarial, de Acuerdo a La experiencia de las obreras de la


Fábrica Textil Manufacturas del Centro S.A.

, Correlación perfecta positiva

Sin embargo, no todas las relaciones son tan ideales, en el común de los
casos –1< r <1. Empíricamente se afirma que:

1. Si Correlación perfecta
2. Si ó Correlación excelente

3. Si ó Correlación buena
4. Si ó Correlación regular
5. Si ó Correlación mala

6. Si No hay correlación

Existen desde luego, pruebas estadísticas que miden la bondad de un

coeficiente de correlación con un determinado nivel de confiafilidad, pero no son

tema de este curso.

Salario Actual y Años de experiencia de 50 obreras de la fábrica textil


Manufacturas del Centro S.A.
Exp Mil/dia Exp Mil/dia
Años X Y XY X2 Y2 Años X Y XY X2 Y2
4 52 208 16 2704 8 57 456 64 3249
5 54 270 25 2916 6 54 324 36 2916
7 55 385 49 3025 6 55 330 36 3025
6 54 324 36 2916 5 53 265 25 2809
5 53 265 25 2809 7 55 385 49 3025
7 56 392 49 3136 8 56 448 64 3136
5 54 270 25 2916 5 53 265 25 2809
9 58 522 81 3364 9 57 513 81 3249
3 51 153 9 2601 6 54 324 36 2916
6 54 324 36 2916 5 53 265 25 2809
7 54 378 49 2916 2 50 100 4 2500
3 51 153 9 2601 6 55 330 36 3025
6 54 324 36 2916 4 52 208 16 2704
7 55 385 49 3025 5 53 265 25 2809
6 54 324 36 2916 6 54 324 36 2916
8 56 448 64 3136 4 52 208 16 2704
4 52 208 16 2704 8 57 456 64 3249
6 54 324 36 2916 7 56 392 49 3136
5 53 265 25 2809 3 51 153 9 2601
7 55 385 49 3025 8 58 464 64 3364
7 55 385 49 3025 6 55 330 36 3025
7 55 385 49 3025 5 53 265 25 2809
4 52 208 16 2704 6 54 324 36 2916
7 55 385 49 3025 6 53 318 36 2809
5 53 265 25 2809 7 56 392 49 3136
TOTAL 294 2705 16039 1850 146501

Se vislumbra una relación positiva, con coeficiente de correlación:

Entre la experiencia y el salario actual hay una excelente correlación


positiva.

Si escudriñamos en la magnitud de las relaciones entre las diferentes


variables cuantitativas, que se han indagado a las obreras de “Manufacturas del
Centro” encontramos los siguientes coeficientes de correlación:

En el problema que nos ocupa, la variable salario/día tiene una excelente


correlación positiva, con los años de experiencia, y una buena correlación directa
con la calificación y la escolaridad, empero hay una buena relación inversa, con la
variable ausencias al trabajo.

8.3. REGRESIÓN LINEAL

Teniendo ya conocimiento de la intensidad de la correlación entre las


variables, manifestada a través del diagrama de dispersión, y el coeficiente de
correlación, podemos ensayar el ajuste de un modelo estadístico que se adapte
mejor a las n observaciones; lo que lleva por nombre regresión. Uno de los
procedimientos muy comunes en el ajuste regresivo es el método de los mínimos
cuadrados, que produce estimaciones con menor error cuadrático promedio

8.3.1. Ajuste Rectilíneo (Método de los Mínimos Cuadrados)

La forma general de una ecuación de línea recta es:

con:

X :Variable independiente
Y : Variable dependiente
a Término independiente o
: intercepto
b : Coeficiente de X

Debemos establecer los parámetro “ a” y “b” de la ecuación para poder


expresar los valores de la variable Y en función de los valores de la variable X, esto
es:

multipliquemos cada una de estas ecuaciones por su respectivo valor de X

Las ecuaciones (1) y (2) son llamadas ecuaciones normales de la línea recta,
de donde se pueden despejar los parámetros a, b en función de los datos originales.

De (1) tenemos:
Remplazando (3) en (2):

Las estimaciones para los parámetros son:

El gorrito “ ^ ” colocado sobre el parámetro indica estimaciones


fundamentadas, en los datos muestrales.

Para ajustar el modelo rectilíneo a los ingresos diarios actuales explicados


por los años de experiencia, en la fábrica textil Manufacturas del Centro S.A.,
aprovechamos los totales ya calculados en el coeficiente de correlación:
Como quiera que los items de la variable salario están en unidades de mil
pesos, la ecuación de pronóstico definitiva es:

Salario Real y Estimado Vs. Experiencia

Insistimos en la existencia de pruebas estadísticas, que miden la bondad de


los parámetros estimados y del modelo en sí, a estas alturas de nuestro documento
no tenemos las herramientas para aplicarlas, sin embargo en el mercado hay
software estadístico, que calcula los parámetros, ajusta los modelos y efectúa las
respectivas pruebas, sin exigir al usuario grandes conocimientos de estadística
matemática. Se debe tener cuidado, eso sí, en la interpretación adecuada de los
resultados.
El siguiente es el reporte parcial producido por el programa de computador
Statgraphics plus :

El programa calcula:

y consecuentemente el modelo

el paquete hace también las pruebas t student para la hipótesis nula H0 : a=0
vs la hipótesis alternativa H1 : y H0 : b = 0 vs H1 : , dado que el valor “p”
para ambos casos p= 0.0000, con una confiabilidad superior al 99% se rechazan
ambas hipótesis de nulidad, a favor de las hipótesis alternativas. En cuanto al valor
p = 0.0000 (para la prueba F) en la tabla de análisis de varianza, también se
interpreta la validez del modelo con un nivel de confiabilidad superior al 99%.

De otro lado corrobora una correlación positiva excelente r=0.957578 y un


coeficiente de determinación R-cuadrado, de 91.6956% que indica el porcentaje de
la variable salario explicado por la variable experiencia.
El coficiente de determinación R2 viene expresado como:
Aprovechemos este pequeño paréntesis, para decir que hoy la
tecnología informática ha hecho posible la formulación y solución de
complejos modelos multivariados, que constan de cientos de variables,
que en años recientes solo se podían teorizar.

En la búsqueda de las variables que explican la variable salario, en la


fabrica “La Hilacha” obtenemos el siguiente reporte del programa
Statgraphics plus:
El software, analiza los diferentes valores “p” y descalifica la variable edad,
al nivel del 90% de confidencialidad, debido a que p=0.1451 hace que el coeficiente
de esta variable no sea significante dentro del modelo.
Eliminada la variable edad, encontramos un modelo válido con un nivel de confianza
superior al 99% cuyos coeficientes son admitidos con una confiabilidad superior al
95%.

R-cuadrado para este modelo es 95.58% , es decir el porcentaje del salario que
está siendo explicado por las variables independientes, es ligeramente menor al R-
cuadrado anterior (95.8%), sacrificio insignificante cuando se trata de reducir la
complejidad del modelo.
Veamos las estimaciones producidas por la ecuación

Miles Gast ause Calif estim Error


Hijos Exp Esco- S/. dia salario

2 4 5 52 5 3 1 52.51 0.51
2 5 5 54 6 2 1 53.23 - 0.77
3 7 4 55 8 1 4 55.25 0.25
3 6 4 54 9 1 3 54.36 0.36
1 5 3 53 3 2 2 52.91 - 0.09
0 7 8 56 1 1 4 55.84 - 0.16
1 5 3 54 2 2 3 53.26 - 0.74
0 9 9 58 0 0 5 57.79 - 0.21
3 3 3 51 10 3 1 51.35 0.35
3 6 3 54 9 2 2 53.59 - 0.41
1 7 6 54 3 2 3 54.98 0.98
2 3 3 51 6 5 1 50.82 - 0.18
0 6 7 54 1 1 2 54.55 0.55
0 7 7 55 1 1 3 55.34 0.34
0 6 5 54 2 2 3 53.93 - 0.07
0 8 8 56 3 1 4 56.18 0.18
1 4 3 52 2 3 2 52.20 0.20
2 6 4 54 5 2 2 53.87 - 0.13
2 5 4 53 5 3 2 53.05 0.05
0 7 9 55 4 2 3 55.26 0.26
0 7 8 55 4 1 3 55.29 0.29
1 7 6 55 4 2 3 54.89 - 0.11
2 4 3 52 7 3 1 51.82 - 0.18
1 7 6 55 3 1 3 55.26 0.26
3 5 3 53 7 2 2 53.25 0.25
0 8 9 57 3 1 5 56.67 - 0.33
4 6 5 54 13 2 3 54.30 0.30
3 6 5 55 8 2 3 54.43 - 0.57
3 5 4 53 8 2 2 53.40 0.40
3 7 4 55 9 0 3 55.18 0.18
1 8 6 56 4 0 4 56.23 0.23
2 5 4 53 6 2 2 53.23 0.23
0 9 8 57 2 0 4 57.10 0.10
1 6 5 54 3 1 3 54.47 0.47
2 5 3 53 6 2 3 53.23 0.23
2 2 3 50 7 5 1 50.18 0.18
2 6 5 55 6 0 3 54.82 - 0.18
2 4 3 52 6 4 1 51.64 - 0.36
2 5 4 53 8 3 1 52.50 - 0.50
2 6 4 54 8 1 2 53.85 - 0.15
3 4 3 52 11 4 1 51.51 - 0.49
1 8 9 57 3 0 4 57.07 0.07
0 7 8 56 5 0 4 55.72 - 0.28
2 3 3 51 6 4 1 51.10 0.10
1 8 9 58 3 0 4 57.07 - 0.93
2 6 5 55 4 0 2 54.77 - 0.23
1 5 5 53 2 4 1 52.71 - 0.29
2 6 4 54 3 1 1 54.10 0.10
2 6 5 53 7 3 1 53.39 0.39
1 7 6 56 3 0 3 55.54 - 0.46

8.3.2. Ajuste Parabólico (Método Mínimos Cuadrados)

Suele suceder que al dibujar la nube de puntos correspondiente a n


observaciones bivariante, se observa una tendencia no rectilínea, pero a la cual se
le puede ajustar un modelo teórico conocido.

Dentro de la familia de modelos, es de aplicación común el ajuste regresivo


polinomial de grado s “ ”. Similarmente con el procedimiento seguido en el
ajuste rectilíneo, vamos a encontrar las ecuaciones normales par una parábola, de
forma general

es decir , , ......., . Si cada


una de estas ecuaciones la multiplicamos por su respectivo valor de x, y repetimos
la acción tenemos:

sumando se obtienen las siguientes ecuaciones normales


(1)

(2)

(3)

De donde se pueden estimar los parámetros de la parábola “ ”.

Ejemplo: En un experimento agropecuario, se toma una muestra de 15


unidades de una variedad de árbol frutal, se observa el rendimiento
en frutos de acuerdo con la cantidad de fertilizante utilizado:

Resolviendo se obtienen las siguientes estimaciones de los parámetros:

, ,
El programa Statgraphics produce el siguiente reporte:
Parábola Ajustada
PRACTIQUEMOS N° 8

1.

Ingresos y Gastos en Arrendamiento de un Grupo de Familias;


en Miles de Soles.

1.1. Calcular el coeficiente de correlación e interpretarlo.


1.2. Ajustar el modelo adecuado para esta información.
1.3. ¿Cuánto se estima, debe pagar una familia con ingreso mensual de
270.000 soles?.
2. ¿Que es un coeficiente de correlación?.
3. Cuando hay correlación:
3.1 Perfecta
3.2 Excelente
3.3 Buena
4. ¿Cuáles son las ecuaciones normales de la línea recta?.
Capítulo 9
Tasas e Índices
********************
Como ya se dijo, el análisis de un fenómeno basado en las cifras absolutas,
ofrece una idea general de su tendencia o comportamiento; pero para efectos de
establecer comparaciones adecuadas del mismo fenómeno con otra región, o su
ocurrencia a través del tiempo, se utilizan ciertos indicadores denominados tasas e
índices.

9.1. TASA

Una tasa es la resultante de una fracción, en donde el numerador está


contenido dentro del denominador:

Ejemplos:

Donde:

D: Tasa de deserción escolar.

R: Número de retiros durante el año.

M: Número total de matriculados durante el año.


TE: Tasa de empleo.
PEAO: Población económicamente activa ocupada.
PEA : Población económicamente activa.

Valga anotar que a las tasas se les debe multiplicar por una constante k, la cual
generalmente es 100, 1000 o múltiplos de ellos, con el fin de convertirlos en
porcentajes, por millares etc.

En demografía, las tasas son de uso frecuente, entre otras, mencionaremos las
siguientes:

Donde:

TM :Tasa de mortalidad.
D : Número de defunciones en un periodo y área dada.
P : Población total en esa área a mitad del periodo.

Donde

TN :Tasa de natalidad
N : Número de nacidos vivos ocurridos en un periodo y área dada
P : Población total del área a mitad del periodo.

Donde:

TC :Tasa de nupcialidad.
M : Número de matrimonios efectuados en un periodo y área
dada.
P : Total de la población a mitad del periodo.
El siguiente cuadro muestra la evolución de la tasa de desempleo en Perú,
resultados obtenidos de la encuesta nacional de hogares para los periodos
comprendidos entre los años 1.990 –2.000

Tasas de Desempleo en Perú 1990-2000

9.2. ÍNDICE

Un número índice, como comúnmente se le llama, es un indicador de los


cambios relativos de una o más variables a través del tiempo.

Entre las principales aplicaciones de los números índice, está la de


establecer comparaciones entre los indicadores de las diferentes zonas
geográficas, profesiones , grupos étnicos etc.

Para la construcción de un número índice, se procede ante todo, a fijar el


periodo de referencia o "periodo base" de la serie temporal, teniendo presente que
debe ser un periodo normal, esto es, que no se hayan presentado situaciones
fortuitas (guerras, terremotos, incendios u otro tipo de imprevisto), que incidan en
el valor de la variable para ese periodo. Además debe considerarse un periodo
reciente que haga comparables los diferentes valores de las variables
consideradas.

9.2.1. Índice Simple

Un número índice simple, es aquel que se calcula para una sola variable,
dividiendo cada uno de los valores de la serie cronológica, por el valor
correspondiente al "periodo base" previamente definido.

9.2.1.1 Índice de Base Fija

, si la variable se refiere a precios

, si la variable se refiere a cantidades


Ip : Índice de precios
Pn: Precio del artículo en el periodo n
P0 : Precio del artículo en el periodo base
Iq : Índice de cantidades
qn : Cantidad del articulo en el periodo n
q0 : Cantidad del articulo en el periodo bas

Precio Promedio del Kilovatio/Hora 1995-2001 Pagado por la Fábrica


Textil Manufacturas del Centro S.A.

Consumo Promedio de Energía en la Fábrica Textil Manufacturas del


Centro S.A.”
En la primera tabla hemos calculado los índices de precios simples, con base
en 1995 y 1998 respectivamente, pero no se han tenido en cuenta las
cantidades, mientras que en la segunda tabla se han calculado los índices de
cantidades sin considerar los precios. Calculemos, ahora los índices del
valor relativo, que considere tanto los precios como las cantidades:

Precio y Consumo Promedio de Energía en La Fábrica Textil


Manufacturas del Centro S.A.”

9.2.1.2 Índice de Base Móvil

Solo hemos considerado, los índices simples de base fija, esto es, con
un periodo base determinado. Es común que interese comparar un
índice con el índice del periodo inmediatamente anterior, en
consecuencia se debe fijar el periodo base en el periodo anterior al
referenciado, y así sucesivamente hasta completar la serie, al cual se
le nombra índice de base móvil.

Variaciones del Salario Promedio Diario en La Fábrica Textil


Manufacturas del Centro S.A.”

9.2.2. Índices Compuestos (Globales)

Un número índice compuesto, muestra los cambios de un conjunto de


variables, auque sus unidades de medidas, cantidades y precios, en el tiempo, sean
diferentes entre sí. Cuando hablamos por ejemplo de los índices indicadores del
costo de la canasta familiar, se toman en cuenta muchos artículos cuyos consumos
inciden en el costo de vida, con una ponderación o importancia diferente en cada
caso. Colectivamente no es lo mismo un cambio en el precio de la carne, huevos o
leche, que un cambio en el precio de los perfumes, joyas o cualquier otro artículo
suntuoso.

9.2.2.1 Índice de Laspeyres

Este índice asume como ponderaciones, en el cálculo del índice global,


las cantidades de los artículos en el periodo base.

Donde:

PL : Índice de precios global (Laspeyres).


q0 :Cantidad del periodo base.
p0 :Precio del artículo en el periodo base
pn : Precio del artículo en el periodo n

Índice de Precios de Cuatro Artículos


9.2.2.2 Índice de Paasche

El estadístico Paasche, sugiere que las ponderaciones sean las


cantidades utilizadas en el periodo n. Se obtiene entonces el siguiente
indicador:

Este índice, es poco utilizado debido al dinamismo de qn , necesitando


nuevas ponderaciones cada vez que se cambia de periodo.

9.2.2.3 Índice ideal de Fisher

Se propone el promedio geométrico entre los dos índices anteriores:

Una de las principales aplicaciones de los índices de precios, es la de


medir la deflación e inflación, que es la variación que existe en el
poder adquisitivo del dinero. También podemos utilizar, los índices de
precios al consumidor para determinar el salario real de un grupo de
personas.

Salario Promedio Nominal y Real en la Fábrica Textil Manufacturas del


Centro S.A.
Dado el deterioro del salario real en los dos últimos años debería

considerarse un generoso aumento.

PRACTIQUEMOS N° 9

1. ¿Qué es una tasa?.


2. ¿Qué es un índice?.
3. ¿Para qué se utilizan los números índices?.
4. ¿Cómo se construye un número índice simple?.
5. ¿Cómo se construye un número índice compuesto?.
6. Los precios y las cantidades de un artículo X vienen dados en la siguiente tabla:

Tomando como año base 1995, calcular para los otros años:
6.1. Los índices de precios.
6.2. Los índices de cantidades.
6.3. Los índices de valores.
7. A continuación se relacionan los precios y las cantidades del año base, de cuatro
artículos diferentes:

Calcular el índice de Laspeyres


8.
Salario Mínimo Legal Diario en Bolivia e Índice de Precios al
Consumidor para el Año 2.000-2001

Calcular el salario real para cada uno de los meses.


Capítulo 10
Introducción a la Teoría de Probabilidades
*************************************************
“Los planes corresponden al hombre,
las probabilidades a Dios.”
Proverbio chino

Introducción.

Jacob Berooulli (1654 - 1705), Abraham de Moivre (1667 - 1754), el


reverendo Thomas Bayes (1702 - 1761) y Joseph Lagrange (1736 - 1813)
desarrollaron fórmulas y técnicas para el cálculo de la probabilidad. En el siglo
XIX, Pierre Simon, marqués de Laplace (1749 - 1827), unificó todas estas primeras
ideas y compiló la primera teoróa general de la probabilidad.

La teoría de la probabilidad fue aplicada con éxito en las mesas de juego y,


lo que es más importante, en problemas sociales y económicos. La industria de
seguros requería un conocimiento preciso acerca de los riesgos de pérdida. Muchos
centros de aprendizaje estudiaron la probabilidad como una herramienta para el
entendimiento de los fenómenos sociales.

Nuestra necesidad de tratar con total incertidumbre nos lleva a estudiar y


utilizar la teoría de la probabilidad. Al organizar la información y considerarla de
manera sistemática, seremos capaces de reconocer nuestras suposiciones,
comunicar nuestro razonamiento a otras personas y tomar una decisión más sólida.

Conceptos básicos sobre probabilidad.


La probabilidad es la posibilidad de que algo pase. Las probabilidades se
expresan como fracciones o como decimales que están entre uno y cero. Tener una
probabilidad de cero significa que algo nuca va a suceder; una probabilidad de uno
indica que algo va a suceder siempre.

En la teoría de la probabilidad, un evento es uno o más de los posibles


resultados de hacer algo.

La actividad que origine uno de dichos eventos se conoce como experimento


aleatorio.

Al conjunto de todos los resultados posibles de un experimento se le llama


espacio muestral del experimento.

Se dice que dos eventos son mutuamente excluyentes si uno y sólo uno de
ellos puede tener lugar a un tiempo.

Cuando en una lista de los posibles eventos que pueden resultar de un


experimento se incluyen todos los resultados posibles, se dice que la lista es
colectivamente exhaustiva. En una lista colectivamente exhaustiva se presentan
todos los resultados posibles.

Todo experimento debe ser susceptible de repeticiones conservando las


mismas condiciones con las cuales se realizó su antecesor. Esto es, el investigador
debe fijar esas condiciones, bajo las cuales se realizarán las sucesivas repeticiones
del experimento y conservarlas en cada una de las réplicas, de tal manera que sus
inferencias resulten lo más fiables posible. Sin embargo, aun así no siempre se
obtienen los mismos resultados, pues a veces participan factores incontrolables
que aparentemente no obedecen a ninguna causa natural, ni intervención humana
intencionada y que denominamos Azar o casualidad.

Desde el punto de vista de la presencia o no de la contingencia en los


resultados, si definimos experimentos determinísticos y experimentos aleatorios:

Experimento determinístico es aquel en el cual, bajo las mismas condiciones


experimentales, las repeticiones del experimento absolutamente todas, siempre
producen el mismo resultado.

El experimento Aleatorio, conservando las mismas condiciones experimentales,


los resultados no se pueden predecir, con exactitud, para ninguna repetición.

Sí, por ejemplo lanzamos una moneda al aire para observar de cual lado cae,
no podemos pronosticar con certeza, si se presenta sello o se presenta cara.
Tenemos entonces presente el componente del azar y por consiguiente un
experimento aleatorio. No ocurriría igual si la moneda estuviese diseñada igual por
ambos lados y por consiguiente sería un experimento determinístico:

Todos los posibles resultados de un experimento aleatorio, conforman el


espacio muestral que representaremos por “S”, a cualquier subconjunto del
espacio muestral se le denomina suceso o evento aleatorio y lo denotaremos con
“E”. . Cada uno de los elementos del espacio muestral se denomina evento
elemental “e”:

Definiciones sobre Sucesos:

• El evento ocurre cuando se verifica uno de los dos, o ambos sucesos.


• El evento se presenta cuando ocurren los dos simultáneamente.

Evento o suceso elemental

Evento o suceso seguro Siempre se presenta en un experimento: S

Evento o suceso imposible nunca ocurre dentro un experimento: Ф

Eventos incompatibles Dos o más sucesos son incompatibles o excluyentes cuando


la ocurrencia de uno impide la presencia de los otros. Si E1, E2 excluyentes
entonces

Sucesos complementarios o contrarios Dos sucesos son complementarios cuando


son mutuamente excluyentes y su unión conforma: el espacio muestral : son
complementarios . . Si E es un evento seguro, entonces E=S
En general, los sucesos o eventos, tienen las mismas propiedades de los
conjuntos.

Propiedades de los eventos:

• El complemento de la unión de dos sucesos es la intersección de sus


complementos:
• El complemento de la intersección de dos sucesos es la unión de sus
complementos:

Ejemplo:

Lanzamos una moneda para observar, si cae del lado de cara o del lado
de sello:

• Espacio muestral
• Eventos elementales
,
• Evento seguro
• Evento imposible
• E1 y E2 son eventos excluyentes.

Ejemplo:

Lanzar un par de dados, marcados c/u con los números 1,2,3,4,5 y 6.

Espacio muestral

E1: (suma igual a 2): suceso elemental

E2: (suma igual a 3):

E3: (suma igual a 4):

E4: (suma igual a 5):

E5: (suma igual a 6):

E6: (suma igual a 7):

E7: (suma igual a 8):

E8: (suma igual a 9):


E9: (suma igual a 10):

E10: (suma igual a 11):

E11: (suma igual a 12): suceso elemental

Con la unión e intersección de dos o mas eventos, se generan nuevos sucesos.

Ejemplo:

En una mesa hay un juego (28 fichas) de dominó, se voltea una ficha
para observar sus números:

Espacio muestral

E1: La diferencia absoluta entre sus componentes sea igual a 0

E2: La diferencia absoluta entre sus componentes sea igual a 1

E3: La diferencia absoluta entre sus componentes sea igual a 2

E4: La diferencia absoluta entre sus componentes sea igual a 3

E5: La diferencia absoluta entre sus componentes sea igual a 4


E6: La diferencia absoluta entre sus componentes sea igual a 5

E7: La diferencia absoluta entre sus componentes sea igual a 6

10.1. NOCIONES DE CONTEO

10.1.1. Principio Fundamental 1

Si un suceso A puede ocurrir de n maneras y otro suceso B puede ocurrir m


maneras, entonces el suceso A ó B (Sucede el evento A ó sucede el evento
B) puede ocurrir de formas, siempre y cuando los eventos no puedan
suceder simultáneamente.

Ejemplo:

En el lanzamiento de un dado, de cuantas maneras se puede obtener un


número inferior a 2 o mayor que 4?.

A: (número inferior a 2) sucede solo de una manera.

B : (número superior a 4), sucede de dos maneras.

A ó B (número inferior a 2 o superior a 4).

sucede de 1+2=3 maneras.

10.1.2. Principio Fundamental 2

Si un seceso A puede suceder de n maneras y un suceso B de m formas, entonces el


suceso A y B (sucede el evento A y sucede el Evento B) puede ocurrir de n(m)
modos.
De cuantas maneras distintas pueden caer 2 dados, lanzados simultáneamente:

A: (dado 1) puede caer de 6 maneras.

B : (dado 2) puede caer de 6 maneras.

A y B (dado 1 y dado 2 ) sucede de 6(6) =36 maneras.

10.1.3. Permutaciones:

Se le llama permutación a cada uno de los arreglos de n elementos, cuya diferenciación


mutua se debe al orden en que están colocados sus elementos. Al total de permutaciones
obtenidas con n elementos se le representa por:

Ejemplo:

Cuantas palabras diferentes se pueden formar con las letras n, l, o, e; así no tengan
sentido?.

nloe, nleo, nelo, neol, nole noel, lnoe, lneo, leno, leon, lone, loen, elon,
elno, enlo, enol, eoln, eonl, olne, olen, oeln, oenl, onle, onel.

10.1.4. Variaciones

A cada uno de los arreglos de r elementos obtenidos de un grupo de n elementos


, cuya diferenciación mutua se deba a los elementos ó el orden de colocación,
se le denomina variación. El número total de variaciones se representa por:

Ejemplo:

Cuantos números de tres cifras se pueden construir con los dígitos


1,2,3,4,5,6,7,8,9,0 si ninguno se puede repetir
10.1.5. Combinaciones

A cada uno de los arreglos de r elementos obtenidos de un grupo de n


elementos , cuya diferenciación mutua se deba a los elementos sin importar el
orden de colocación de ellos, se le denomina combinación. El número total de
combinaciones se representa por:

Ejemplo:

De cuantas maneras se puede escoger un comité de 4 hombres de un


grupo de 8?.

10.1.6. Permutaciones con Repetición

En el caso de las permutaciones, si el elmento1 se repite r1 veces, el


elemento 2 se repite r2 veces, etc. Y el elemento k se repite rk, se le llama
permutaciones con repetición y se calcula con:

Ejemplo:

Cuantas palabras diferentes, aun sin significado, se pueden formar


con las letras de la palabra amorosos?.

10.1.7. Variaciones con Repetición

En el caso de las variaciones si los elementos se pueden repetir hasta r


veces se les denomina variaciones con repetición y se obtienen por:

Ejemplo:
¿Cuántos números de cuatro cifras existen?

PRACTIQUEMOS N° 10

1. ¿De cuántas maneras se pueden colocar dos anillos diferentes en la misma mano,
de modo que no estén en el mismo dedo?.
2. Al lanzar cinco dados de distintos colores ¿cuántos resultados podemos
obtener?.
3. Con los números 1,2,3,4,5 y 6:
3.1 ¿Cuántos números distintos de siete cifras podríamos formar?.
3.2 ¿Podremos numerar a los 3224564 habitantes de una ciudad con esos
números?.
4. Se lanzan al aire uno tras otro cinco dados equilibrados de seis caras. ¿Cuál es
el número de casos posibles?.
5. ¿Cuántos números de seis cifras existen que estén formados por cuatro
números dos y por dos números tres?.
6. Lola tiene 25 bolitas (10 rojas, 8 azules y 7 blancas) para hacerse un collar.
Engarzando las 25 bolitas en un hilo, ¿cuántos collares distintos podrá
realizar?.
7. ¿Cuántas palabras distintas, con o sin sentido, podremos formar con las letras
de la palabra educación? ¿y con la palabra vacaciones?.
8. Un grupo de amigos formado por Raúl, Sonia, Ricardo y Carmen organizan una
fiesta, acuerdan que dos de ellos se encargarán de comprar la comida y las
bebidas ¿De cuántas formas posibles puede estar compuesta la pareja
encargada de dicha misión?.
9. Una fábrica de helados dispone de cinco sabores distintos (vainilla, chocolate,
nata, fresa y cola) y quiere hacer helados de dos sabores ¿Cuántos tipos de
helado podrán fabricar?.
10. Un grupo de amigos y amigas se encuentran y se dan un beso para saludarse. Si
se han dado en total 21 besos, ¿cuántas personas había?.
11. En una carrera de 500 metros participan doce corredores ¿De cuántas
maneras pueden adjudicarse las medallas de oro, plata, bronce?.
12. ¿De cuántas formas pueden cubrirse los cargos de presidente, vicepresidente,
secretario y tesorero de un club deportivo sabiendo que hay 14 candidatos?.

10.2. DEFINICIÓN DE PROBABILIDAD

Los eventos aleatorios no son predecibles con absoluta certeza, no obstante


podemos medir el grado de confianza con que se hace un pronóstico, sobre la
ocurrencia o no de un determinado suceso.
10.2.1. Probabilidad Clásica o "a priori"

Si un evento puede ocurrir de n maneras, equiprobables y mutuamente


excluyentes, de las cuales m maneras son favorables al suceso A; se define
probabilidad del suceso A como:

Ejemplo:

En el lanzamiento de un dado de seis caras una vez, si

10.2.2. Probabilidad "a posteriori" o de Frecuencia Relativa

Si un experimento se repite n veces , de las cuales m veces se


presenta el suceso A, entonces es de esperarse que:

La proporción de veces que se presenta el suceso A tiende a estabilizarse en


un número entre 0 y 1 llamado probabilidad de A.

Si por ejemplo, lanzamos un dado cien veces y observamos la presencia del


número “2” en 16 veces,

en tal caso
10.2.3. Probabilidad Subjetiva

En la probabilidad subjetiva intervienen preferencias y emociones del


analista que en general, son diferentes para cada caso. Por ejemplo, un apostador
puede preferir el número “3” porque su horóscopo se lo recomienda.

10.3. AXIOMAS DE LA TEORÍA DE PROBABILIDADES

Para todo experimento, la probabilidad de ocurrencia de un evento A, p(A),


es una función que cumple con los siguientes axiomas:

10.3.1.

10.3.2.

10.3.3. Si dos o más sucesos son incompatibles entre sí, entonces la probabilidad
de la unión de ellos, es igual a la suma de sus probabilidades respectivas

De estos tres axiomas podemos, fácilmente, deducir que:

10.3.3.1 La Probabilidad de un evento imposible es igual a


cero.

10.3.3.2 La probabilidad de un evento es igual a la


unidad menos la probabilidad de su complemento.

10.3.3.3 Toda probabilidad está definida entre la


probabilidad del suceso imposible y la probabilidad del evento seguro.

10.3.3.4 .

10.3.3.5

Si dos eventos son compatibles, la probabilidad de su unión es igual a


la suma de sus probabilidades menos la probabilidad de su
intersección.
En el ejemplo del lanzamiento de dos dados si:

A : (suma sea mayor que 5 pero menor que 10)

B : (la suma sea mayor que 8)


10.4. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
ESTADÍSTICA

Si tenemos los sucesos A, B en un experimento aleatorio, con p(B)>0, se llama


probabilidad condicional a: p(A/B) La probabilidad de ocurrencia del evento “ A”
dado que ya se ha presentado el suceso “B”.

Ejemplo:

a un grupo de personas se le pregunta sobre la intención de voto para


las próximas elecciones.

p(vote dado que es masculino)=

p(vote dado que es femenino)=


Independencia Estadística

Por ejemplo la probabilidad de obtener un número impar en el segundo lanzamiento


de un dado, no depende de si en el primer lanzamiento se obtuvo un número impar.

PRACTIQUEMOS N° 11

1. Defina:
1.1 Experimento aleatorio, y experimento determinístico.
1.2 Evento elemental, suceso seguro, suceso imposible, eventos
excluyentes y eventos independientes.
2. Para cada uno de los eventos definidos en el lanzamiento de dos dados, calcular
su respectiva probabilidad de ocurrencia.
3. En el experimento de seleccionar una ficha de dominó, determinar las
probabilidades para todos sus eventos elementales.
4. Para el ejemplo de la intención de voto según el sexo, calcular la probabilidad de
no votante dado que es de sexo masculino.

10.5. VARIABLE ALEATORIA

En el cálculo de probabilidades, generalmente, es más sencillo identificar los


eventos numéricamente, y no con la simple descripción del suceso que pueda
ocurrir, es más, en muchas ocasiones no podemos registrar todos los sucesos
inmersos en el espacio muestral del experimento. Debemos recurrir a
cuantificar esos símbolos iniciales en números reales que se puedan operar
matemáticamente.

Definición: Una variable aleatoria es una función definida sobre un espacio


muestral a los números reales. Si ese espacio muestral especificado como
dominio es numerable, decimos que la variable es de tipo discreto, en caso
contrario diremos que es de tipo continuo.

En el experimento de lanzar una moneda, una vez, definimos la variable


aleatoria X: el número de sellos obtenido.
En la tirada de dos dados si X es la suma obtenida: X(c) = 0

X(s) = 1

10.6. FUNCIÓN DE PROBABILIDAD

Las variables aleatorias, transforman eventos del espacio muestral en


eventos numéricos, los cuales desde luego, tienen asociada una probabilidad de
ocurrencia.

10.6.1. Función de Probabilidad f(x)=p(X=x) :

Es una función definida sobre una variable aleatoria a los reales en el


intervalo que cumple con los axiomas de la teoría de la probabilidad.
10.6.2. Función de Distribución F(x)=p(X=x)

Es la acumulada de una función de probabilidad.

-∞ : Límite inferior de la variable X

Ejemplo:

En el Lanzamiento de una Moneda, X: Número de Sellos

Ejemplo:

X es la Suma Obtenida en el Lanzamiento de dos Dados:


Ejemplo:

Si X: Diferencia en Valor Absoluto, Entre los dos Sectores de una Ficha


de Dominó:

Hemos creado 3 ejemplos de funciones de probabilidad para variables


aleatorias discretas con sus respectivas funciones de distribución, que nos
permiten calcular las probabilidades para cualquier tipo de evento. Calculemos
algunas para el lanzamiento del par de dados, donde X es la suma obtenida:

Consultando directamente en la función de distribución de esta variable


discreta, F(x)=p(X≤x) tenemos:
Para el caso continuo, supongamos que un practicante de tiro al blanco
siempre acierta indistintamente, en un círculo de 20 centímetros de radio.

La distancia que hay entre el punto “a=0” (centro) y cualquier punto de la


circunferencia “b=20” es .
¿Cuál es la probabilidad que un disparo impacte a menos de 15 cm del
centro? ¿ a más de 9 centímetros? ¿Entre 7 y 14 centímetros?.

Para toda variable continua:

PRACTIQUEMOS N° 12

1. Defina: Variable aleatoria, variable aleatoria discreta, variable aleatoria


continua, función de probabilidad y función de distribución.
2. En el ejercicio de la ficha de dominó, si X representa la diferencia absoluta
entre los dos números, representar y calcular la probabilidad de ocurrencia de
los siguientes eventos:
2.1 La diferencia sea menor o igual a 5.
2.2 La diferencia sea mayor que 2.
2.3 La diferencia sea mayor que 2 pero menor o igual 5
2.4 La diferencia sea mayor que 5 ó menor que 3

10.7. VALOR ESPERADO (ESPERANZA MATEMÁTICA)

10.7.1. Media Aritmética Poblacional

En el tratamiento de las medidas de tendencia central, resaltamos la


importancia de la media aritmética de una variable, como parámetro
representativo de una muestra.

En el análisis poblacional, la media aritmética o valor esperado de una


variable aleatoria, se define como el promedio ponderado de los diferentes valores
que puede asumir la variable X, usando como ponderaciones las probabilidades
respectivas de ocurrencia.

si X es discreta ó

si X es continua

-∞ : límite inferior de la variable.

∞ : límite superior de la variable.

Ejemplo:

X es la Suma Obtenida en el Lanzamiento de Dos Dados

En promedio la suma obtenida en N tiradas es de “7”. Si pagaramos en pesos


la suma obtenida en cada lanzamiento, deberíamos cobrar más de 7 pesos
para obtener utilidad en el juego.

En la variable X, distancia del centro al punto de impacto del tirador, el


valor esperado es:

10.7.2. Varianza Poblacional


Similarmente a la definición de la media aritmética poblacional, la varianza se
define como:

PRACTIQUEMOS N° 13

1. Calcular el valor esperado para la variable diferencia en el ejemplo del dominó.


2. Si usted juega chance, calcule su valor real de acuerdo con los premios que
espera obtener y compárelo con lo que realmente paga.
3. Tome un billete de lotería y calcule su precio equitativo.
4. Un contrabandista se enfrenta al siguiente dilema: Introducir o no, mercancía
por valor de $ 5'000.000 obteniendo una utilidad de $ 1'000.000. El riesgo de
ser detectado y castigado con el decomiso de la mercancía es del 17%. ¿Que le
aconseja usted?.
Capítulo 11
Distribuciones Especiales
*****************************
En el capítulo anterior desarrollamos modelos probabilísticos a partir de
abstracciones de los experimentos previamente descritos, a los cuales se les crea
una función de probabilidad, que describa las posibilidades de esa realidad
experimental.

Muchos de los acontecimientos cotidianos, pueden ser asimilados a funciones


probabilísticas teóricas, que son de gran ayuda en la toma de decisiones bajo
condiciones de incertidumbre. Eminentes estudiosos de la estadística han
planteado modelos probabilísticos que han contribuido al desarrollo de la ciencia.
Veamos algunos de ellos:

11.1. DISTRIBUCIÓN DE BERNOULLI

Se puede afirmar que el experimento de Bernoulli, describe el modelo aleatorio


más sencillo, el cual tiene las siguientes características:

• En el experimento sólo se hace un ensayo.


• En el experimento sólo se admiten dos resultados incompatibles, que
llamaremos éxito y fracaso.
• La probabilidad de un éxito es p(E)=p.
• La probabilidad de un fracaso es p(F)=1-p = q
• X : es el número de éxitos x = 0,1.
Es el caso cuando se lanza una moneda una vez y se observa de cual lado cae
o se analiza un artículo para ver si está defectuoso o no, se obtiene o no un trabajo
etc.

11.2. DISTRIBUCIÓN BINOMIAL

La distribución binomial se obtiene haciendo n pruebas de Bernoulli


independientes entre sí, en tal caso tiene las siguientes características:

• n : número de repeticiones independientes del experimento de Bernoulli.


• Todas las pruebas deben tener una probabilidad constante de éxito “ p” y una
probabilidad constante de fracaso “q”=1-p.
• X : es el número de éxitos en las n pruebas, entonces; n-X : número de
fracasos.

Analicemos el experimento con tres repeticiones:

(1)
(1) se puede expresar como:

(2) se puede expresar como:

(3) se puede expresar como:

(4) se puede expresar como:

entonces para n=3, tenemos que:


En general la función de probabilidad binomial tiene la siguiente forma:

y la función de distribución:

La media aritmética de una variable aleatoria con distribución binomial es


, y varianza . Con los parámetros n, y p se tipifica la
distribución binomial y la representamos como: .

La distribución binomial es simétrica cuando p=0.5, en caso contrario es asimétrica


a la izquierda o a la derecha, según el valor de p sea inferior o superior a 0.5. Ver
gráfico:
Tablas Binomiales
Ejemplo:
Se sabe que el 20% de la cartera de una empresa está vencida, se toma una

muestra al azar de 15 cuentas. ¿Cuál es la probabilidad de que:

1. Haya cuatro ó menos cuentas vencidas?.

2. Haya menos de cuatro cuentas vencidas?.

3. Haya más de dos cuentas vencidas.

4. Haya más de dos pero menos de cinco cuentas vencidas?.

5. Haya exactamente 3 cuentas vencidas?.

6. No haya cuentas vencidas?.

7. Cuál es valor esperado de cuentas vencidas?.

8. Cuál es la desviación estándar para el número de cuentas vencidas?.

Solución:

X: número de cuentas vencidas.

Éxito: Cuenta vencida.

Probabilidad de éxito : p=0.2

Número de pruebas n=15

1.En las tablas de distribuciones binomiales, , en la intersección

x=4 y p=0.2, consultamos .

2.

3.
4.

5.

6.

7.

8.

11.3. DISTRIBUCIÓN DE POISSON

La distribución de Poisson es de gran utilidad cuando tenemos


variables distribuidas a través del tiempo ó del espacio. Es el caso del
número de llamadas que entran a una central telefónica en una unidad de
tiempo, la cantidad de personas que atiende un cajero en una hora, los
baches por kilómetro en una autopista, los artículos defectuosos que hay en
un lote de producción; amén de su utilización como aproximación binomial
cuando p es muy cercano a cero, o n superior a 30. (p<0.1 , n>30).

La función de probabilidad de Poisson es:

Donde:

es decir, la media aritmética es igual a la varianza.


:
: (la base de los logaritmos naturales).
X: número de éxitos en la unidad de tiempo o de espacio
considerado.

Ejemplo:
Un cajero de un banco atiende en promedio 7 personas por hora, cual es la
probabilidad de que un una hora determinada:

1. Atienda menos de 5 personas.


2. Atienda más de 8 personas.
3. Atienda más de 5 pero menos de 8 personas.
4. Atienda exactamente 7 personas.

Consultando la tabla para la distribución de Poisson:

1.

2.

3.

4.

Ejemplo:

En cierto núcleo poblacional, el 0.5% es portador del V.I.H. En una muestra


de 80 personas, cual es la probabilidad:

1. De que haya alguna persona portadora.

2. No haya personas portadoras.

Solución:

1.

2.

Probabilidades de Poisson Acumuladas


11.4. DISTRIBUCIÓN NORMAL

Dada la caracterización propia de este modelo continuo, donde coinciden las


medidas de tendencia central, media, moda y mediana; la simetría respecto a estos
parámetros y la facilidad de su aplicación hacen de la distribución normal, una
herramienta de uso común, máxime que la mayoría de las variables económicas y
sociales se ajustan a una función normal.

La distribución normal, también es útil como aproximación de los modelos


Binomial y Poisson expuestos anteriormente, y yendo un poco más adelante,
sustentados en el teorema del “límite central” podemos afirmar que, cuando el
tamaño de la muestra es lo suficientemente grande, podemos asumir el supuesto
de normalidad para una suma de variables.

La forma acampanada de la variable normal, resalta la perfección de esta


curva definida por los parámetros
se representa como:

La aparente complejidad de la distribución normal no debe preocupar al lector,


donde:

X : Variable aleatoria distribuida normalmente


Media aritmética de la variable
Varianza de la variable
e 2.71828 constante (base de los logaritmos
naturales)
3.1416 constante

Sin embargo, existen infinitas distribuciones normales, ya que por cada media
aritmética ó varianza diferente se describe una función también diferente:

Normal Diferente Media Igual Varianza

Normal Diferente Varianza Igual Media


11.5. DISTRIBUCIÓN NORMAL ESTANDAR

Con el sinnúmero de diferentes distribuciones normales que se generarían


con cada media o varianza diferente, se hace necesario efectuar un cambio de
origen y de escala en la variable original, para estandarizarla y obtener una nueva
variable cuya manipulación es más fácil:

con , la nueva variable Z se distribuye normalmente con media aritmética


y varianza

Dado que la distribución normal es una variable continua

Ejemplo:

Si asumimos que la resistencia de las baldosas se distribuye


normalmente con y

Resistencia de 100 Baldosas


Si extraemos una baldosa al azar : Cual es la probabilidad de que:

1. Resista menos de 448 Kg/cm2?


2. Resista más de 588 Kg/cm2 ?
3. Resista entre 308 y 588 Kg/cm2 ?
4. Resista entre 168 y 728 Kg/cm2 ?
5. Resista más de 600 Kg/cm2 ?
6. Resista menos de 200 ó más de 700 Kg/cm2 ?

Con la ayuda de los valores tabulados:


11.6. DISTRIBUCIÓN EXPONENCIAL.

Procesos donde se estudian fenómenos como tiempo entre o distancia entre


dos eventos cualquiera, se pueden modelas mediante la distribución exponencial,
que tiene la siguiente función de densidad:

donde  es el parámetro del modelo. Sus principales


propiedades son:

• E (X) = 

• Var (X) =  2

El parámetro  representa el valor esperado de la variable.

La función de distribución es la siguiente:

F(X) = 1 - e-x/

PRACTIQUEMOS N° 14

1. La probabilidad de que un visitante efectúe una compra en un almacén, durante

un día dado es 0.8. Si al negocio entran 20 clientes, ¿cuál es la probabilidad de que

el almacén realice:

1.1 Exactamente 16 ventas?.

1.2 Menos de 17 ventas?.


1.3 Más de 14 ventas?.

1.4 Exactamente 5 ventas?.

1.5 ¿Cuál es el número esperado de ventas?.

2. Si un almacén tiene en promedio 5 ventas por hora. ¿Cual es la probabilidad de

que en una hora determinada:

2.1 Haya exactamente 4 ventas?.

2.2 Haya más de 3 ventas?.

2.3 No se efectúen ventas?.

3. Una de cada 10 personas mayores de 40 años de una comunidad, sufren de

hipertensión. Se toma una muestra de 50 personas mayores de 40 años. Utilizando

primero la distribución binomial y luego la aproximación a la distribución de

Poisson, responder y comparar los resultados:

3.1 ¿Cuál es la probabilidad que haya más de 4 hipertensos?.

3.2 ¿Cuál es la probabilidad que haya exactamente 5 hipertensos?.

4. Un lote de arandelas tiene un diámetro normal con media 10 milímetros y

desviación típica 0.5 milímetros. Se toma una arandela al azar. ¿Cuál es la

probabilidad de que tenga un diámetro:

4.1 Superior a 10.5 milímetros?.

4.2 Entre 9 y 11 milímetros?.

4.3 Menos de 9 milímetros?.


Capítulo 12
Teoría de Muestras
***********************
Como ya hemos dicho, nuestro objetivo va a ser a partir de ahora, el
tratamiento estadístico de muestras.

¿Pero bajo que condiciones, resulta apropiada una muestra?. Existen una
serie de factores que inciden en la respuesta de esta pregunta, y que resultan
fundamentales en Estadística Inferencial.

Una primera cuestión, es el tamaño que ha de tener. Parece evidente, que a


mayor tamaño, más se acercaran los parámetros que calculemos, a los de la
población ( y es cierto siempre que se tenga en cuenta la representatividad de la
muestra, que es un aspecto que desarrollaremos ahora). En la práctica real, el
número de elementos de una muestra está determinado por una serie de factores:
grado de fiabilidad deseado, dificultad en la elección de los elementos que la
compongan, tiempo necesario para la elección, gastos originados,...

La segunda y más importante cuestión es ¿cómo deben ser elegidos los


elementos que la compongan?. Para ser válidas, las muestras han de ser
representativas, esto es, si queremos inferir de los resultados de una muestra, en
ella se ha de reproducir en igual porcentaje el carácter estudiado, que en la
población total. Por tanto, será necesario, que en el momento de la elección de los
elementos de la muestra, verifiquemos que todos los elementos de la población
tiene igual probabilidad de ser elegidos para la muestra.
Cuando no se tienen en cuenta estos dos principios básicos, las inferencias
realizadas son deficientes. Existe una variedad de "mentiras estadísticas",
procedentes de afirmaciones basadas en pequeñas muestras , o en muestras no
representativas. Así por ejemplo, si se dice "7 de cada 10 dentistas consultados
recomiendan el dentífrico X", no debemos inferir que el 70% de los dentistas los
recomiendan, hasta saber de que forma fueron elegidos los dentistas consultados,
y cuántos fueron en total.

Las consideraciones referentes al tamaño de la muestra, se estudiarán más


adelante. Las referentes a la forma de elegir la muestra, serán estudiadas ahora.

12.1. TIPOS DE MUESTREOS

Existen básicamente dos tipos de muestreo, los aleatorios y los no


aleatorios.

En los primeros, el aspecto principal, es que todos los miembros de la


muestra han sido elegidos al azar, de forma que cada miembro de la población tuvo
igual oportunidad de salir en la muestra. Este tipo de muestreo, que es el más
consistente, es al mismo tiempo el que resulta más costoso, y el que utilizaremos
siempre en el desarrollo de los próximos epígrafes. Los centros oficiales como el
INE, utilizan siempre muestreos aleatorios.

Los segundos, carecen del grado de representatividad de los primeros, pero


permiten un gran ahorro en los costes. Se eligen los elementos, en función de que
sean representativos, según la opinión del investigador. Es el método que utilizan
generalmente las empresas privadas, y presenta el inconveniente de que la
precisión de los resultados no es muy grandes, y es difícil medir el error de
muestreo.

12.2. MUESTREOS ALEATORIOS

12.2.1. SIMPLE

Su utilización es muy sencilla, una vez que todos los elementos de la


población han sido identificados y numerados ( y éste es probablemente su
mayor inconveniente ). A partir de aquí, decidido el tamaño n de la muestra,
los elementos que la compongan se han de elegir aleatoriamente entre los N
de la población.

El método más adecuado para la elección en nuestro caso, es la


utilización de tablas de números aleatorios.
Si queremos elegir una muestra formada por 40 elementos de una
población de 600, iremos tomando cifras aleatorias de tres en tres. Si la
cifra considerada es menor de 600, ya tendremos elegido un elemento de la
muestra. Siguiendo este proceso, y saltándonos las cifras superiores a 600,
podremos elegir todos los elementos que compondrán la muestra.

12.2.2. SISTEMÁTICO

Es análogo al anterior, aunque resulta más cómoda la elección de los


elementos. Si hemos de elegir 40 elementos de un grupo de 600, se
comienza por calcular el cociente 600/40 que nos dice que existen 40 grupos
de 15 elementos entre los 600. Se elige un elemento de salida entre los 15
primeros, y suponiendo que sea el k-simo, el resto de los elementos serán los
k-simos de cada grupo. En concreto, si el elemento de partida es el número
6, los restantes serán los que tengan los números: 15+6 ,
2x15+6,......,39x15+6

Este procedimiento simplifica enormemente la elección de elementos,


pero puede dar al traste con la representatividad de la muestra, cuando los
elementos se hayan numerados por algún criterio concreto, y los k-simos
tienen todos una determinada característica, que haga conformarse una
muestra no representativa.

12.2.3. ESTRATIFICADO

A veces nos interesa, cuando las poblaciones son muy grandes, dividir
éstas en subpoblaciones o estratos, sin elementos comunes, y que cubran
toda la población.

Una vez hecho esto podemos elegir, por muestreo aleatorio simple, de
cada estrato, un número de elementos igual o proporcional al tamaño del
estrato.

Este procedimiento tiene la gran ventaja de que se puede obtener una


mayor precisión en poblaciones no homogéneas (aunque en este curso no
estudiaremos los métodos necesarios)

Si decidiéramos hacer una encuesta sobre la incidencia del tabaco en


nuestro centro, podríamos razonar de la siguiente forma:

El Colegio Estatal “Mariscal Castilla” de El Tambo, tiene 3504


alumnos, 720 en 1º, 714 en 2°, 708 en 3º, 694 en 4º, y 668 en 5º.
Si deseamos tomar una muestra de 100 alumnos, para analizar la
incidencia del tabaco en la adolescencia, bastaría tomar un número igual de
alumnos de cada estrato, es decir 20.

Si embargo, si lo que se quiere es hacer una encuesta para conocer la


opinión que tiene el alumnado sobre una medida que ha tomado el Consejo
Escolar, es más representativo elegir de cada estrato, y en número
proporcional a su tamaño, los elementos que compondrán la muestra. Si el 1º
representa al 22.6% del alumnado, el 22.6% de la muestra (es decir 23
alumnos) se elegirán de este estrato por muestreo aleatorio simple, 22 para
2º, y así hasta completar los 100 elementos de la muestra.

12.2.4. POR CONGLOMERADOS

A veces, para simplificar los procesos de toma de datos, se empieza


por elegir ciertos conglomerados (que pueden ser bloques de viviendas,
municipios, urnas electorales,...) y dentro de ellos se realiza el muestreo
aleatorio.

12.3. TOMA DE DATOS: LA ENCUESTA

Una vez decidido el tamaño y la forma de elegir la muestra, aparece el


problema de cómo realizar la toma de datos. La encuesta es el instrumento idóneo
para este fín.

Se debe establecer en primer lugar el objetivo de la encuesta,


desmenuzando el problema a investigar, eliminando lo que resulte superfluo, y
centrándonos en los aspectos más relevantes.

A partir de aquí, se elabora un cuestionario, formado por un conjunto de


preguntas que han de ser respondidas por los encuestados.

De la calidad de éste último depende en gran parte el resultado del trabajo.


Existen una serie de factores que se han de tener en cuenta a la hora de redactar
el cuestionario, entre los que destacan los siguientes:

• Las preguntas han de ser pocas (no más de 30) y cortas.

• Cerradas ( es decir que aparezcan todas las posibles repuestas ). Si preguntamos


a un encuestado si le gustan las matemáticas, no podemos dejar que aparezcan
respuestas de todo índole, sino que responda de acuerdo a una escala numérica o
de valor. Por ejemplo podemos valorar su gusto de 1 a 5, o bien : Nada, Poco,
Normal, Mucho, Muchísimo.
• Numéricas o al menos codificables ( es decir que podamos traducir las respuestas
a números, por ejemplo asignando números del 1 al 5 a las respuestas del apartado
anterior).

• Deben ser redactadas de forma concreta y precisa (sin palabras abstractas o


ambiguas), de manera que las repuestas puedan ser inequívocas.

A partir de aquí, debe ser realizado el "trabajo de campo", es decir las entrevistas
previstas, por medio de los encuestadores. Este trabajo también ha de hacerse
bajo unas ciertas condiciones, que garanticen que las respuestas sean sinceras.

Una vez recopilados todos los datos, se procede a tabularlos, y describirlos,


utilizando las técnicas que ya conoces de cursos anteriores.

12.4. TEOREMA CENTRAL DEL LÍMITE

12.4.1. DISTRIBUCIONES MUESTRALES DE MEDIAS

Hemos dicho ya, que el objetivo de nuestro estudio es poder extender a la


población lo que obtengamos de una muestra.

Imagina que de la población formada por todos los alumnos del instituto,
extraes aleatoriamente una muestra de 40 alumnos, y les preguntas por su edad,
encontrando que la edad media obtenida es de 15,8 años .

Pero, ¿qué ocurriría, si extrajéramos otra muestra?. ¿Coincidirían las medias


?.¿Y coincidirían con la media de la población?. Lo cierto es que parece lógico
pensar que aunque no tengan porqué coincidir, si deberían estar bastante próximas.
Pero, ¿cuánto de próximas?, ¿dependería esta proximidad del tamaño de las
muestras que elegimos?.

Parece necesario, que estudiemos la variabilidad de las medias obtenidas de


las muestras que repetidamente se extraigan. El siguiente resultado, responde
claramente a las preguntas planteadas.

12.4.2. EL TEOREMA CENTRAL DEL LÍMITE (TCL)

Imagina que tienes una población con media  y desviación típica . y que
extraes aleatoriamente todas las posibles muestras, todas ellas de tamaño n. Si
obtuvieras las medias de todas estas muestras, y las consideras una distribución
de datos (la distribución muestral de medias), comprobarías que:

a) La media de los datos, es la media  de la población , es decir la media de las


medias de las muestras, es igual que la media de la población.
b) Estas medias se distribuyen alrededor de la media de la población, con una
desviación típica (llamada desviación típica de la media, ) igual a la de la
población dividida por la raíz de n, es decir, la d.t. de la media es

c) La distribución de las medias muestrales, es una distribución de tipo "normal",


siempre que la población de procedencia lo sea, o incluso si no lo es, siempre que
el tamaño de las muestras sea 30 o mayor.

En consecuencia, "si una población tiene media  y d.t.  , y tomamos muestras


de tamaño n ( de tamaño al menos 30, o cualquier tamaño, si la población es
"normal"), las medias de estas muestras siguen aproximadamente la distribución

(1)

Además, cuanto mayor es el valor de n, mejor es la aproximación "normal".

Hemos nombrado un concepto importante: la d.t. de la media , que es el grado


de variabilidad de las medias muestrales. Cuanto menor sea, más ajustadas a la
media de la población serán las medias que obtengamos de una muestra. De su
propia definición, es fácil darse cuenta de que cuanto mayor es el tamaño de la
muestra, menor es este grado de variabilidad, y por tanto más similar a la media de
la población será la media obtenida de la muestra.

NOTAS IMPORTANTES

Nuestra afirmación de que la desviación típica de la media es , se hace


asumiendo que la población es infinita ( o el muestreo se realiza con
reemplazamiento ). En caso contrario, se debe utilizar el "factor de corrección
para poblaciones finitas", de forma que la d.t. de la media quedaría:

donde N es el tamaño de la población y n el de la muestra.

En la práctica y como regla general, se usa el coeficiente anterior tan sólo


cuando el tamaño de una muestra es superior al 5% de la población. Nosotros no
tendremos en cuenta este factor, pues no se resta profundidad a los conceptos
estudiados al tiempo que se simplifica su estudio.
Además estudiaremos tan sólo el caso correspondiente a muestras de más
de 30 elementos. llamadas "muestras grandes". Para muestras de menor tamaño,
se han de utilizar distribuciones distintas de la Normal, y está fuera del alcance
de este curso.

Habremos de suponer que conocemos la desviación típica de la población


(<>), (aunque resulta improbable conocerla y desconocer la media), o bien al
menos la desviación típica muestral (s) (también llamada cuasivarianza, que resulta
ser una buena aproximación de la desviación típica de la población para muestras
grandes).

Este último parámetro se define como

donde es la media de la muestra. Es decir es la desviación típica de la


muestra corregida dividiendo por n-1 en lugar de por n . Al hacer esto, el valor de
s aumentará. Se trata pues de hacer una sobreestimación de la desviación típica,
para compensar el error cometido al tomar una muestra. En las calculadoras que
utilizamos se obtiene pulsando .

En términos mas coloquiales, lo que en definitiva establece el TCL, es que la


distribución de la media, o de las sumas , de diferentes valores da como resultado
una distribución normal. De ahí la omnipresente aparición de distribuciones
normales. Piensa en los factores biológicos y antropométricos. Por ser el resultado
de diferentes combinaciones genéticas y suma de muchos diferentes factores, dan
como resultados distribuciones normales. También por análogas razones
muchísimos parámetros sociológicos, económicos, físicos,.. siguen distribuciones de
este tipo.

EJEMPLO:

Una compañía aérea sabe que el equipaje de sus pasajeros tiene como media 25 kg.
con una d.t. de 6 kg. Si uno de sus aviones transporta a 50 pasajeros, el peso medio
de los equipajes de dicho grupo estará en la distribución muestral de medias

. La probabilidad de que el peso medio para estos pasajeros


sea superior a 26 kg sería:

Si el avión no debe cargar más de 1300 kg en sus bodegas, la media del conjunto de
los 50 pasajeros no debe superar los
En consecuencia en un 11,9% de los casos los aviones de esta compañía superan el
margen de seguridad.

Hemos estudiado ya el T.C.L., que nos permite conocer de que forman se


distribuyen las medias de las muestras de una población.

Ahora invertiremos el caso: se selecciona una muestra de una población de la que


se desconoce la media, y se calcula la media muestral. A partir de aquí haremos una
inferencia sobre la media poblacional, con base en la media muestral.

Imaginemos que preguntamos a una muestra de 40 alumnos, por el recorrido en km.


que tienen que hacer todos los días para llegar al instituto, y que la media de tal
muestra es de 3 km. Las dos preguntas siguientes responden a las dos formas de
inferencia que estamos estudiando:

1º.- Si nos habían dicho que la media de distancia de todo el instituto era el año
pasado de 3,8 km, ¿es significativamente diferente esta media?, o lo que es lo
mismo, ¿podemos decir que la media del instituto ha cambiado este año, o por
el contrario la diferencia de medias es normal y se debe al azar al elegir los
elementos de la muestra?.

Esta pregunta implica una decisión, que podremos tomar a través de los
denominados test de contraste de hipótesis.

2º.- Tomando como base la muestra (es decir si suponemos que desconocemos la
distancia media), ¿qué estimación puede hacerse sobre la media poblacional
(es decir la de todo el Colegio)?.

Esta pregunta implica una estimación, que aprenderemos a hacer ahora.

PRACTIQUEMOS N° 15

1.-Encuentra en un periódico o revista, un artículo o información en la que a tu


juicio se esté haciendo uso de una muestra.

2.-Utilizando una tabla de números aleatorios, elige 15 elementos de una población


numerada del 1 al 89.

3.- Dí de que forma elegirías una muestra de 50 alumnos de tu instituto, por


muestreo aleatorio simple, sistemático y estratificado (cada estrato una clase,
o un nivel).
4.- Establece un método para elegir una muestra de vecinos de una calle.

5.- De los 500 directores de complejos turísticos de las costas peruanas, 300
corresponden a complejos de 20 o menos habitaciones, 150 a complejos de
entre 20 y 50 habitaciones y por último 50 corresponden a complejos de más de
50 habitaciones.

6. Si pretendieras hacer una encuesta a una muestra de tamaño 50, ¿cómo la


tomarías?, ¿sería indiferente el aspecto estadístico que tuvieras que estudiar?.

7.- Un hospital dispone de un listado de los pacientes, organizados por áreas de


atención (neurología, traumatología,....). Dí que tipos de muestreo podrían
realizarse, y como los harías.

8.- Para realizar una encuesta sobre el consumo de un producto en una ciudad, se
tomó una muestra de forma que de cada barrio se consultaba a un número de
personas proporcional a la superficie ocupada por el barrio. ¿Te parece un
método fiable?. Escribe un comentario.

9.- Un mayorista de alimentos, quiere enviar muestras de sus productos, a una


muestra de supermercados. Elige de las 5 grandes cadenas de supermercados ,
una muestra de cada, y manda sus productos para ponerlos a prueba. ¿Qué tipo
de muestreo está utilizando?

10.-Sabemos que el tiempo medio de espera en las colas del Banco "El interés
interesado" es de 15 min. con una desviación típica de 5 minutos. Si tomásemos
al azar a un grupo de 35 clientes:

a) ¿Cuál es la probabilidad de que el tiempo medio de espera del grupo fuera


menor de 17 minutos?.

b) ¿Cuál es la probabilidad de que estuviera entre 12 y 16 minutos?.

c) ¿Entre qué valores se encontraría el tiempo medio con una seguridad del
95%?. ¿Y del 99%?.

11.-En un almacén se trabaja con bultos de igual volúmen, cuyo peso se distribuye
según N(250,45) expresados en kg. Los elevadores encargados de su transporte
dentro del almacén, pueden aguantar hasta un peso máximo total de 2000 kg. Si
la empresa decide que las carretillas se carguen con 7 bultos cada vez:

a) ¿Cuál es la probabilidad de que se supere el peso máximo de seguridad?.


b) ¿Cuántos bultos de cada vez harían falta para que dicha probabilidad fuera
menor del 0,1%?.

12.-En unos grandes almacenes, la media de los salarios es de 105.000 pts, con una
d.t. de 25.000 pts. Si preguntaramos a 35 empleados elegidos aleatoriamente,
por su sueldo, ¿Cuál es la probabilidad de que la media correspondiente a los 35
fuera inferior a 100.000 pts?.

13.- En unas negociaciones sindicales correpondientes al sector turístico, la


patronal alega que en un establecimiento tipo de 40 empleados, en el 90% de los
casos la suma de los sueldos mensuales pagados superan los 5.000.000 de pts.
Los sindicatos disponen de cifras oficiales según las cuales, en el sector la
media de sueldos es de 120.000 pts con una d.t. de 10.000 pts. ¿Pueden rebatir
"estadísticamente" lo alegado por la patronal? Los sindicatos te piden redactar
un informe ilustrado con cifras que les permita contestar a la patronal.
Capítulo 13
Las Técnicas de Estimación
********************************
13.1. ESTIMACIÓN

Llamaremos así al procedimiento utilizado cuando se quiere conocer las


características de un parámetro poblacional, a partir del conocimiento de la
muestra.

Imaginemos que hemos hecho la encuesta a la que se aludía en el apartado


anterior, y queremos saber cual es la verdadera media del instituto. Podemos hacer
una primera aproximación, utilizando la media muestral km. Sin embargo ,
este valor está sesgado debido a que solo representa a una muestra.

Podríamos decir que la media buscada es próxima a 3, pero ¿cuánto de


próxima?. ¿Digamos que 200 metros más o menos?. Esto significaría que la media
estaría entre 2,8 y 3,2. Esto último se denomina estimar por intervalo, y es el
método que ahora vamos a ver.

INTERVALO DE CONFIANZA

Se llama así a un intervalo en el que sabemos que está un parámetro, con un nivel de
confianza específico

Si dijéramos que la media se encuentra en el intervalo (2,8 , 3,2) con un nivel


de confianza del 95%, lo que decimos es que si hiciéramos muestras de tamaño 40,
y fuéramos contabilizando sus medias, a la larga, en el 95% de los casos, la media
calculada estaría en dicho intervalo.

Además, al valor 0,2 (200 metros), que mide la mitad de la anchura del
intervalo, se le denomina error máximo de la estimación. Lo anteriormente
argumentado se expresa en términos estadísticos como:

"A un nivel de confianza del 95%, la media poblacional es 3 km, con un error
máximo de estimación de km."

Por tanto:

NIVEL DE CONFIANZA

Probabilidad de que el parámetro a estimar se encuentre en el intervalo de


confianza.

Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99%
y 99,9%

ERROR DE ESTIMACIÓN MÁXIMO

Es el radio de anchura del intervalo de confianza.

Este valor nos dice en qué margen de la media muestral se encuentra la


media poblacional al nivel de confianza asignado.

Durante este curso aprenderemos a realizar estimaciones sobre la media y


la proporción de una característica en una población. La estimación de otros
parámetros poblacionales, tales como la desviación típica, quedará fuera de
nuestro estudio.

13.2. ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN

Para estimar la media poblacional por medio de intervalos de confianza, será


necesario recordar que el Teorema Central del Límite nos daba información de
como se hallaban distribuidas las medias muestrales: "normalmente" con una media
igual a la de la población original  (que es la que ahora tratamos de conocer) y
desviación típica:

Supongamos que hemos analizado la muestra ya nombrada de media


Km., y que sabemos que la desv. típica de la población es de =0,4 km., y que nos
planteamos estimar la media de todo el instituto, con un nivel de confianza del 95%
.El proceso para realizar la estimación es el siguiente:

Sabemos por el T.C.L. que las medias muestrales se distribuyen según

La siguiente figura nos ilustrará:

Hallamos el valor k de forma que p(-k<Z<k)=0,95 , o lo que es lo mismo


p(Z<k)=0,975. Consultando nuestra tabla de la distribución normal, encontraremos
que k=1.96 .

Este valor nos dice que la medias muestrales se encuentran en un 95% de los
casos como máximo a 1.96 desviaciones típicas de la media buscada, es decir,
nuestra media , en un 95% de los casos, dista de la media poblacional menos
de 1,96.0,063=0,124 km.

Si tomamos un intervalo con centro en dicha media muestral , y radio 0,124,


en un 95% de los casos la media buscada estará dentro del intervalo.

Encontramos por tanto que a un nivel de confianza del 95%, la media

poblacional es de 3 km. con un error máximo de , o lo que es lo


mismo, existe una probabilidad del 95%, de que la media buscada se encuentre en
el intervalo de confianza (3-0,124 , 3+0,124) = (2,976 , 3,124 ).

Así pues en general para un proceso de estimación de la media, el intervalo de


confianza será:

( -E, + E)
siendo la media de la muestra, y el error de estimación.

13.3. TAMAÑO DE LA MUESTRA

Pero imaginemos ahora, que nos disponemos a elegir una muestra para poder
determinar con un 95% de confianza la media, con un margen de error de 50
metros. Desde luego hará falta una muestra mayor para tener tan poco margen de
error ¿Cuál deberá ser el tamaño de la muestra para conseguirlo? .

Despejando en

obtenemos que

Como k=1,96 , E=0,05 y =0,4 calculando obtendremos que n=245,8 es decir,


redondeando, hará falta una muestra correspondiente a 246 estudiantes para que
el margen de error sea de tan sólo 50 metros.

De la expresión del tamaño de la muestra, se deduce muy fácilmente, que deberá


ser mayor cuanto mayor sea:

a) El nivel de confianza asignado

b) El grado de variabilidad de los datos originales

Por el contrario, cuanto mayor sea el tamaño de la muestra, menor será el


error de la estimación.

13.4. ESTIMACIÓN DE UNA PROPORCIÓN

Como recordarás, la distribución binomial B(n,p), nos permite conocer como


se distribuye el número de éxitos, correspondiente a un experimento realizado n
veces, y en el que la probabilidad de éxito en cada experimento es p. Dicha
distribución tiene media y desviación típica:
Supongamos que sea X la variable que mide el número de éxitos. Ya sabes

que los posibles valores de X son 0,1,2,...,n. Si utilizaramos la nueva variable,


, ésta tomaría los valores correspondientes a las proporciones (en tanto por uno)
de éxito.

Si por ejemplo n=200, se tendría:

X=0 , (0 éxitos ) equivale a Y=0 ( es decir un 0% de éxitos)

X=1 , (1 éxito ) equivale a Y=0,005 ( es decir 0,5% de éxitos)

X=2 , Y=0,01 ( es decir 2 éxitos equivalen a un 1% de éxitos)

....

X=n , Y=1 ( n éxitos = 100% de éxitos)

Dividiendo por n, obtendremos la media y desviación típica de la variable Y que


representa la proporción de éxitos:

Si ademásnp>5, nq>5, utilizando la aproximación normal a la binomial,podremos


afirmar que las proporciones de éxito para un experimento binomial de n pruebas
con probabilidad de éxito p en cada prueba, se distribuyen según:

13.5. DISTRIBUCIÓN MUESTRAL DE PROPORCIONES

Imaginemos que sabemos que la proporción del alumnado de nuestro centro


que es favorable a realizar una huelga es del 60%. Cuando elegimos a un alumno, y
nos preguntamos si es favorable a la huelga, es como si realizaramos una prueba
binomial con probabilidad de éxito p=0,6.

Cuando elijamos muestras aleatorias de digamos 70 alumnos, el número de


ellos favorable a la huelga, deberá seguir una distribución B(70, 0´6), o bien, la
proporción de ellos que es favorablese debe distribuir según
(Debe notarse que en este caso, n=70, p=0,6, q=0,4 y por tanto np>5, nq>5), o lo
que es lo mismo, las proporciones que vayamos encontrando para muestras de
tamaño 70, se iran distribuyendo de forma "normal" alrededor del 60%, con una
desviaición típica del 5,8%.

Por tanto, si en una población, una determinada característica de tipo binomial (es
decir la población se divide entre los que la tienen y los que no), se presenta en una
proporción p, al tomar muestras de tamaño n, las proporciones p' obtenidas, se
distribuirán según

(a partir de este momento supondremos siempre que np>5,nq>5). A esta


distribución se la denomina distribución muestral de proporciones.

EJEMPLO:

En una empresa está establecido que si una máquina opera correctamente, como
máximo un 5% de su producción es defectuosa. Si se elige aleatoriamente una
muestra de 40 artículos producidos por una máquina y 15 de ellos son defectuosos,
¿existe razón para pensar que la máquina está averiada?.

Las proporciones muestrales para muestras de tamaño 40 en una máquina normal se


distribuyen según

, es decir se distribuyen de forma "normal" alrededor del 5% con una d.t. del 3'4%.

En consecuencia, la probabilidad de valores como el registrado

resulta ser:

y podemos asegurar "estadísticamente" que la máquina está averiada.


Ahora que sabemos como se distribuyen las proporciones muestrales, por un
proceso similar al utilizado para estimar la media poblacional, podremos realizar
estimaciones sobre la proporción poblacional de un carácter, conociendo la
proporción en una muestra.

13.6. ESTIMACIÓN DE UNA PROPORCIÓN

Imaginemos que hemos tomado una muestra aleatoria de 500 personas, y que
les preguntamos si creen que el Presidente del Gobierno debe dimitir, obteniendo
el SÍ un 70%. Supongamos que nos planteamos un intervalo de confianza del 90%
para poder estimar el porcentaje p de toda la población que diría SÍ.

Según todo lo dicho, las proporciones del SÍ en las muestras, se distribuirán


según:

Como quiera que no conocemos la verdadera proporción p, no podemos

conocer la desviación típica de la distribución muestral , por lo que


utilizaremos como sustituto para p, la proporción muestral p'=0,7, que causará poco
cambio en los resultados finales.

En consecuencia, las proporciones muestrales, siguen la distribución


N(p,0,02) (Nota: puesto que utilizamos tantos por uno, deberemos utilizar en los
cálculos una precisión de al menos centésimas, mejorando el resultado si
precisamos más)

Llevando a cabo los mismos pasos que en el caso de la estimación de medias, vemos
que un 90% de las proporciones muestrales que se obtengan estarán a como

máximo 1,65 desviaciones típicas de p (es decir a ) , y en


consecuencia, si suponemos que p' es una de tales proporciones ( y será acertado
suponerlo en un 90% de los casos ), la verdadera proporción quedará siempre en el
intervalo (p'-0'033 , p'+0'033)=(0'667,0'733).

Esto lo podemos expresar como: "Con un nivel de confianza del 90%, la proporción
de españoles que creen que el Presidente del Gobierno debe dimitir es de un 70%,
con un error máximo de  3,3 % "

13.7. TAMAÑO DE LA MUESTRA

Como ya sabemos, el error máximo depende del tamaño de la muestra: a


muestras mayores corresponden errores menores.

Normalmente, cuando queremos hacer una estimación, con un determinado


margen de confianza, nos plantearemos que el error máximo tenga un determinado
valor.

Imaginemos por ejemplo que queremos conocer el porcentaje de alumnos de


nuestro centro, que es favorable a hacer la Fuga de Huamancaca el día 12 de
Noviembre (este carácter se considerará como éxito) en contraposición con los que
la quieren hacer en otra fecha. Nos marcamos un nivel de confianza del 90%, y
queremos que el error máximo no sobrepase el 10%.

Puesto que el error máximo es, el tamaño de la muestra habrá de

ser . Existe un problema: no conocemos p, ni tan siquiera el valor p' de la


muestra puesto que aún no ha sido realizada la encuesta (a no ser que por
anteriores sondeos, pueda tenerse un valor fiable para p).

Si se tiene información previa sobre el valor de p, puede utilizarse, pero si


no, se utilizará inicialmente p=0,5, pues se puede demostrar que para este valor se
obtiene el máximo valor del tamaño de la muestra (mirar grafico siguiente) y en
consecuencia, quedará asegurado que el error es como máximo del 10%

En este caso concreto, tomando E=0,1, p=0,5 , k=1,65, obtendremos que


n=68,08 es el tamaño de la muestra que debemos tomar.

Aunque el error máximo fijado es del 10%, en la práctica resultará en


general más pequeño, a medida que la verdadera proporción p se aleje del valor 0,5.
En particular, si en lugar de tomar inicialmente p=0,5 , hubieramos supuesto que
p=0,95, el error máximo que cometeríamos utilizando 68 personas en la muestra
sería: E= 0,043, es decir un 4,3%. Una vez estimado p, podremos reajustar el
margen de error cometido. En la práctica normalmente no dispondremos de
información previa sobre el valor de p, y deberemos partir de p=0,5, tal y como
verás que se explicita en la ficha técnica de los estudios que se publican.

La estimación de proporciones es de gran importancia en la vida cotidiana,


dado que influyen por ejemplo en la programación de la tv, los productos que
consumimos, las leyes que se legislan.

En los periódicos, revistas, televisión y los informativos de radio, es muy


corriente que se den informes de encuestas. Sin embargo frecuentemente, se dan
porcentajes, sin ninguna indicación del grado de confianza, el margen de error o el
tamaño de la muestra. Sin conocer estos datos, no podemos tener una idea clara de
la calidad de los resultados obtenidos, por lo que deberías siempre de tratar de
conocer la ficha técnica de estos estudios.

PRACTIQUEMOS N° 16.

1.- La Empresa Anquipa S.A., para planificar su política social, ha hecho en un


barrio una encuesta, basada en un muestreo aleatorio a 36 adultos, sobre los
ingresos medios mensuales, obteniéndose $ 72800 de media y s= $ 12000.

Estimar el valor medio de los ingresos en dicho barrio con un intervalo de


confianza del 95% y del 99%.

2.- Súper Mercados Día, desea conocer cuanto gastan como media los poseedores
de una de sus tarjetas, a lo largo de un mes. Ha diseñado un muestra de 1000
clientes, y sabe por experiencia que la desv. típica poblacional es de 25.000
puntos. Si desea tener una confianza del 99% en la estimación, ¿cuál será el
error máximo que cometerá?.

3.- Se desea establecer, con un nivel de confianza del 95%, el peso medio de las
naranjas de un barco que acaba de atracar, de forma que el error no
sobrepase los 15 gramos. Si la desviación típica (conocida por numerosos casos
anteriores) es de 60 g., ¿cuántas naranjas deberán ser escogidas al azar para
poder establecer dicha media?.

4.- Razona que efecto tiene cada uno de los siguientes conceptos sobre el ancho
de un intervalo de confianza:
a) Nivel de confianza
b) Tamaño muestral
c) Variabilidad de las características que se miden

5.- Para conocer con un 95% de confianza y un error máximo de 500 pts, se
quiere hacer una encuesta a júvenes, sobre sus gastos durante el fín de
semana. ¿Cuál deberá ser el tamaño de la muestra? (supóngase que s=750 pts)
6.- Una encuesta realizada sobre 40 aviones comerciales, revela que la antigüedad
media de estos es de 13,41 años, con una desviación típica muestral s=8,28.

a) ¿Cuál es con un 90% de confianza la antigüedad media de toda la flota


comercial?.

b) Si se quisiera obtener un nivel de confianza del 95%, cometiendo el mismo


error que en el apartado anterior, y suponiendo también s=8,28, ¿cuántos
elementos deberían componer la muestra?.

7.- Al medir el tiempo de reacción , un psicólogo estima que la desviación típica


del mismo es de 0,5 segundos. ¿Cuál será el número de medidas que deberá
hacer para que sea del 99% la confianza de que el error de su estimación no
excederá de 0,1 segundos?.

8.- En una muestra de 50 jóvenes encontramos que la dedicación media diaria al


ocio es de 400 minutos y la desviación típica muestral de 63 minutos. Calcular
el intervalo de confianza de la media de la población al 95% de nivel de
confianza.

9.- La duración de las bombillas fabricadas por una empresa sigue una distribución
normal de media desconocida y desviación típica 50 horas. Para estimar la
duración se experimenta con una muestra de tamaño n. Calcular el valor de n
para que, con un nivel de confianza del 95%, se consiga un error en la
estimación inferior a las 5 horas.

10.- Una muestra aleatoria de 60 personas tiene una media de 235 mg/dl
(miligramos por decilitro) en medidas de colesterol. Suponiendo que la
desviación típica de la variable que mide las unidades de colesterol es =28
mg/dl, se pide:

a) Calcular el intervalo de confianza , con un nivel de confianza 0'95 para la


media de la población.

b) Determinar el tamaño muestral necesario para reducir el intervalo de


confianza anterior a la mitad.

11.- Una revista, tras comentar los resultados de una encuesta, afirma, "En
teoría en 19 de cada 20 casos, los resultados de esta encuesta, difieren en un
punto porcentual de la proporción que se obtendría si hubiéramos encuestado
a todos los españoles". ¿Podrías decir, cual fué el nivel de confianza y el
tamaño de la muestra empleados en esta encuesta?.
12.- Se pretende conocer la proporción de alumnos que beben alcohol durante el
fín de semana. Se establece un margen de confianza del 95%, y se quiere que
el error máximo sea del 3%. ¿cuántos elementos deberían componer la
muestra?.

13.-En una muestra aleatoria de 1000 personas, están a favor del divorcio el 65%.
Halla con un 99% de confianza el intervalo para la proporción real en la
población. En una encuesta realizada un año antes nos había salido un 69% de
favorables al divorcio. ¿Cae este valor dentro del intervalo de la actual
encuesta? ¿Qué interpretación das al resultado?.

14.-La ficha técnica de un estudio publicado fué:


Ámbito: Región Junín
Universo: Personas mayores de 18 años
Muestra: 1008 casos
Entrevistas: Personales en el hogar del encuestado
Selección: Aleatoria de secciones censales para la determinación del hogar y
por estratificado por edad y sexo para el entrevistado.
Trabajo de campo: Del 19 al 29 de diciembre de 2002
Margen de error: ±3,1% para p=q=0,5, y un nivel de confianza del 95,5%
Instituto responsable: ITEC.

a) Calcula el error correspondiente a las estimaciones.

b) Si en una de las preguntas ha contestado afirmativamente el 68,3% de los


encuestados, ¿cuál es el intervalo de confianza según los datos técnicos?.

15.- a) En una encuesta realizada, se ha detectado que de 2000 adultos


encuestados (elegidos aleatoriamente), 1280 tenían alguna cuenta
corriente. Halla una estimación con un 95% de confianza de la verdadera
proporción de adultos con cuenta corriente.

b) Si hubiera sido menor el número de encuestados, explica razonadamente


cuál habría sido la repercusión sobre el error de estimación.

c) ¿Cuántos elementos deberían haber compuesto la muestra para que el error


fuera del 2%, suponiendo un 95% de confianza, y que no se tiene
información previa sobre la verdadera proporción?.

16.- El presidente de una compañía mandó una carta a una empresa de


investigación estadística, en la que argumentaba:
"¡Cuando ustedes o cualquier otro intentan decirme que 1223 personas, sirven
para conocer las opiniones y gustos en España, me vuelvo loco!. ¡Cómo se
atreven!. Deberían ustedes ser detenidos y encarcelados".

Más adelante, afirmaba: " Dado que 1223 personas representan a 40 millones,
mi carta representa la opinión de 32706 personas (división de 40 millones
entre 1223) que comparten mi punto de vista".

a) Encuentra para n=1223, a un nivel de confianza del 95%, el margen de


error que se comete al estimar una proporción.

b) Este señor argumenta que 1223 personas es una muestra demasiado


pequeña para tener significancia. ¿estás de acuerdo?. Escribe una
respuesta para apoyar o refutar sus tesis.

c) También argumenta que él representa a 32706 personas. ¿Es correcto


este argumento?. Razona la respuesta.

17.-En un sondeo a 800 personas elegidas al azar, realizado antes de una elección
con sólo dos candidatos A y B, se obtuvo el siguiente resultado: 57% para A y
43% para B. ¿Cuál es la probabilidad de que A gane las elecciones?. ¿Y si la
muestra hubiera estado formada por 2000 personas?.

18.-Se realizó una encuesta a 350 familias, preguntando si poseían ordenador en


casa o no, encontrándose que 75 de ellas lo poseían. Estima la proporción real
de familias que dispone de ordenador, con un intervalo de confianza del 95%.
¿Cuál es el error máximo de la estimación?.
Capítulo 14
Test y Pruebas de Hipótesis
**********************************
Veremos ahora la forma de tomar una decisión en base a datos estadísticos,
controlando el margen de error que podemos cometer.

Supongamos que una empresa privada, decide otorgar una premio a aquellos
centros, en los que la nota media de una prueba realizada por los alumnos supere
los 7 puntos.

Como no puede (por razones económicas, de tiempo, disponibilidad, etc)


realizar la prueba en todos los alumnos en cada centro, decide elegir una muestra
aleatoria de 45 alumnos de cada centro, y que sean ellos los que realicen la prueba.

Imagina que en nuestro centro, se han obtenido los siguientes resultados:


(recuerda que podía considerarse un buen sustituto de la desviación
típica de la población, y que por tanto a partir de ahora asumiremos que =2'95)

Ahora bien, la empresa se plantea la siguiente duda, ¿puede afirmar con


seguridad que la media del centro es superior a 7, o por el contrario el resultado
obtenido se debe al azar en la elección de la muestra ( es decir, en la muestra
entraron por casualidad muchos empollones)?.

Nuestro centro, dado su convencimiento de merecer el premio, propone el


siguiente proceso:
Para probar que " la media es superior a 7 " (1), supondremos en
principio lo contrario, es decir que " la media es menor o igual que 7 " (2), y
veremos en términos probabilísticos la posibilidad de que esto último ocurra.
Llegan al acuerdo de que si la probabilidad de que " la media sea menor o igual a 7 "
es menor del 5%, se aceptará la hipótesis del centro y se concederá el premio.

El centro argumenta lo siguiente:

Si la hipótesis (2) fuera cierta, es decir, la media menor o igual a 7,en el


caso extremo la media sería 7, y la distribución muestral de medias sería N(7,
0'44).

Si esto es así, en como mínimo (*) el 95% de los casos, la media muestral
habría de ser menor que el valor t=7,726 para el que se verifica que

Este valor t se obtiene buscando en primer lugar la puntuación típica k para la que
p(Z<k)=0,95 , que resulta ser k=1,65. Los valores que se encuentran a más de 1,96
desviaciones de la media, es decir, superiores a t=7+1,65x0,44=7,726 son los que
forman la región crítica, es decir las notas medias que tienen una probabilidad de
producirse menor del 5%.

Podría ocurrir que la hipótesis (2) fuera cierta y la media muestral 7'9
perteneciera a esa distribución y fuera un valor correspondiente a la región crítica
(y la probabilidad de que ello ocurra es del 5%), o bien que lo que ocurra realmente,
es que (2) sea falsa, y la media obtenida pertenezca a una distribución muestral
con media superior
 ( por ejemplo 7,5 ), con lo cual tal valor no sería tan raro.

En estadística, "se apuesta" a lo que tiene mayor probabilidad de ocurrir,


por lo que se considera que la segunda elección es la correcta. (aunque nunca
podremos saber si lo que realmente sucede es esto)

Puesto que suponiendo que la media poblacional es como máximo 7 en al


menos 95 de cada 100 muestras la media muestral debería de ser menor que
7,726, y dado que la media muestral obtenida fue 7,9 (que se encuentra en la
región crítica), el centro concluye que:
"Con un nivel de significación del 5%, ( probabilidad de equivocarnos al
rechazar que la media pueda ser menor o igual a 7), existe evidencia suficiente de
que la media del centro es superior a 7 ".

Si el nivel de significación fuera menor , la región crítica disminuiría, y


tendremos más confianza en una decisión de rechazo de la hipótesis nula (**)

Si hubiéramos obtenido de la muestra que , al nivel de significación


especificado no podríamos rechazar que realmente la media del centro fuera
inferior a 7, es decir., "no existiría evidencia suficiente de que la media fuera
superior a 7". Es evidente que al no rechazar que la media poblacional sea menor o
igual a 7, también estaríamos arriesgándonos a cometer un error.

En cualquier caso, lo que hacemos es tomar una decisión, una vez vistas las
evidencias (datos obtenidos de la muestra), y asumido un margen de error para
nuestra decisión.

14.1. ELEMENTOS DE LOS TEST DE HIPÓTESIS:

El proceso que hemos descrito en el apartado anterior se denomina "test de


contraste de hipótesis", y ahora detallaremos de forma más precisa, los
elementos que intervienen en él.

En primer lugar se han de hacer dos hipótesis (1) y (2) que barran el
conjunto de posibilidades para la media ( o en general el parámetro poblacional
sobre el que se quiere tomar una decisión). En el caso estudiado fué:

A la hipótesis (2) que en principio se consideró cierta, se la denomina hipótesis


nula (H0 ) ,por ser el punto de partida, y siempre ha de incluir una igualdad . Esta
es la hipótesis que se trata de contrastar, de forma que al final del proceso, la
rechazaremos o no.

A la hipótesis (1) que es complementaria de la (2), se la denomina hipótes¡s


alternativa (HA ) El rechazo de la hipótesis nula lleva emparejado la aceptación de
la hipótesis alternativa.

Cuando se lleva a cabo un test de contraste de hipótesis, se ha de comenzar


por establecer las hipótesis nula y alternativa, recordando que la hipótesis nula ha
de contener obligatoriamente una igualdad.
Por lo general, se establece como hipótesis alternativa, la que trata de
probar algo que significa un cambio sobre lo que se encuentra preestablecido (por
resultados anteriores al test o por inercia) y que está representado por la
hipótesis nula. La hipótesis nula es siempre conservadora, frente a la alternativa
que propugna el cambio.

Establecidas las hipótesis nula y alternativa, Se toma la muestra, y se


calculan los datos necesarios para el contraste, en nuestro caso, la media, y la
desviación típica muestral

En segundo lugar se establece el nivel de significación que es la probabilidad


de que rechacemos la hipótesis nula, siendo en realidad cierta. Utilizaremos la
letra para
 denominarlo. Este nivel de significación es la cantidad de error que nos
podemos permitir, y su elección depende en cada caso de la persona que realiza el
test. Los más usuales son 10%, 5%, 1% , 0,1%. Se le denomina error de tipo I

Puede también ocurrir que no rechacemos la hipótesis nula, y sea en


realidad falsa. Este tipo de error denominado de tipo II y denotado con la letra ,
es un error que va directamente ligado al valor 

Para este nivel de significación habrá de estudiarse la región crítica


asociada. En el caso anterior, dado que la hipótesis nula establece que la media es
igual o inferior a 7, la región crítica queda a la derecha. Cuando la hipótesis nula
establezca que la media es igual o superior a un valor, la región crítica quedará a la
izquierda. Por último, si la hipótesis nula establece que la media tiene un valor
determinado, la región crítica se habrá de establecer a ambos lados, de forma que
el área total que ocupen las dos subregiones sea igual al nivel de significación:

Se estudia para el nivel de significación dado, si se puede rechazar o no la


hipótesis nula. Esto se hace viendo si la media obtenida se encuentra dentro de la
región crítica asociada al nivel de significación, o si por el contrario, está fuera.

Si "se rechaza la hipótesis nula", la conclusión debe ser redactada:

"Existe evidencia suficiente al nivel de significación para


 indicar que ..
(significado de la hipótesis alternativa)".
Si por el contrario la decisión es "no se puede rechazar la hipótesis nula", la
conclusión debería ser redactada:

"No existe suficiente evidencia al nivel de significación  que indique que ...
(significado de la hipótesis alternativa)"

Veremos ahora varios ejemplos que nos ilustrarán sobre el proceso y los
diferentes casos que pueden presentarse.

EJEMPLO 1:

El instituto cree poder probar que la edad media de los alumnos del turno de
Noche es inferior a los 30 años. Se ha tomado una muestra de 40 alumnos, y ha
resultado que la media es 29,5 , y la desviación típica muestral es s=2.

Se deberá en primer lugar establecer las hipótesis nula y alternativa, que deberían
ser:

En segundo lugar elegimos nivel de significación. Dado que no es demasiado grave


equivocarse, se elige un nivel del 10%.

Razonando de forma similar al ejemplo anterior, la región crítica


correspondiente a un 10% de significación, sería la que correspondiese a la figura:

Donde:

y k=1'28 es la puntuación típica asociada a un 10% de significación.

Puesto que la media muestral 29,5 está dentro de la región crítica,


tendremos que rechazar la hipótesis nula, y por tanto:
"A un nivel de significación del 10%, existe evidencia suficiente de que la
media de edad en el turno de noche es inferior a 30 años"

EJEMPLO 2:

Un estudiante, ha leído en la prensa, que el coste medio de un menú en las


cafeterías de Las Palmas es de 500 pts. Como no está conforme, hace un test de
hipótesis, para tratar de probar que no es así.

Establece como hipótesis:

H0:

HA:

Fija un nivel de significación del 5%, y obtiene una muestra aleatoria de 45


cafeterías, obteniendo como media 518 pts, y s=70 pts.

La región crítica asociada a este nivel de significación para las hipótesis


planteadas sería:

Ahora k=1'96 y por tanto

,y

En consecuencia, no puede rechazarse a este nivel de significación la


hipótesis nula y por tanto:

"A un nivel de significación del 5% no existe evidencia suficiente de que la


media de precios sea diferente de 500 pts."

De hecho, esto no significa que sea cierta la hipótesis nula, sino sólo que no
se puede rechazar a este nivel de significación. Si hubiéramos tomado un nivel de
significación del 10%, la región crítica correspondiente habría estado delimitada
por los valores 482'78 y 517'22, con lo que habríamos rechazado la hipótesis nula
para ese nivel de significación.

De la misma forma que hemos estado realizando tests sobre medias, pueden
ser realizados tests sobre otros parámetros de una población. En particular
resulta muy interesante hacerlo sobre una proporción en una determinada
población. Veremos ahora un ejemplo de como hacerlo:

EJEMPLO 3:

Diego dice a Diana que al menos un 15% de los alumnos del Instituto, tiene
una moto. Como discrepan, Luis realiza una encuesta aleatoria a 200 compañeros
del Instituto, y encuentra que 18 de ellos tiene moto. A un nivel de significación del
10%, ¿cual de los dos tiene estadísticamente la razón?

Establecemos la hipótesis nula y alternativa.

Encontramos que la proporción buscada en la muestra es p'= 18/200=0,09.

Supongamos que H0 es cierta, y que por tanto en el peor de los casos sería p=0,15.
Sabemos que si así fuera, las proporciones muestrales, se habrían de distribuir
según:

Puesto que a un nivel de significación del 10%, la región crítica es la


correspondiente a valores menores que k=0,15-1,28x0,0252=0,118 , ésta la forman
los porcentajes inferiores al 11,8%. El porcentaje obtenido en la muestra queda
dentro de esta región y por tanto rechazamos la hipótesis nula, redactando la
conclusión como:

"A un nivel de significación del 10%, existe suficiente evidencia de que la


proporción de alumnos con bicicleta es inferior al 15%".

Aunque el resultado dé la razón a Diana, podemos habernos equivocado (con una


probabilidad del 10%), . Si hubiera sido otro el resultado, y le hubiéramos dado la
razón a Diego, también podríamos habernos equivocado (recuerda el error de tipo
II).

13.2. PRUEBAS DE HIPÓTESIS:


El uso de la Estadística es de gran importancia en la investigación científica.
Casi todas las investigaciones aplicadas requieren algún tipo de análisis estadístico
para que sea posible evaluar sus resultados. En algunos casos, para resolver un
problema de carácter empírico, es preciso llevar a cabo un análisis bastante
complejo; otras veces, basta con efectuar un análisis muy simple y directo. La
elección de uno u otro tipo de análisis estadístico depende del problema que se
plantee en el estudio así como de la naturaleza de los datos. Desde este punto de
vista, la Estadística constituye un instrumento de investigación y no un producto
final de esta última.

El trabajo coherente, las acciones integradas, la no extrapolación de


elementos de un lugar a otro, el verdadero diagnóstico de la realidad han de ser
prácticas permanentes en el accionar del investigador y el estadístico aplicado.

Dentro de la estadística se aplican en la investigación los tests o dócimas


paramétricos y no paramétricos, el presente trabajo esta dedicado al estudio de
dos pruebas no paramétricas que por su importancia merecen ser tratadas de
forma independiente, ellas son las pruebas de Kolmogorov-Smirnov para una y dos
muestras.

Entre los tests no paramétricos que comúnmente se utilizan para verificar si


una distribución se ajusta o no a una distribución esperada, en particular a la
distribución normal se encuentran el test de Kolmogorov-Smirnov. El test de
Kolmogorov-Smirnov es bastante potente con muestras grandes. El nivel de
medición de la variable y su distribución son elementos que intervienen en la
selección del test que se utilizará en el procesamiento posterior. De hecho, si la
variable es continua con distribución normal, se podrán aplicar técnicas
paramétricas. Si es una variable discreta o continua no normal, solo son aplicables
técnicas no paramétricas pues aplicar las primeras arrojaría resultados de dudosa
validez.

13.3. DÓCIMA DE UNA MUESTRA DE KOLMOGOROV-SMIRNOV.

Premisas

La única premisa que se necesita es que las mediciones se encuentren al menos en


una escala de intervalo. Se necesita que la medición considerada sea básicamente
continua. Además dicha prueba es aplicable cualquiera sea el tamaño de la muestra.

Potencia-Eficiencia

La prueba de una muestra de K-S puede en todos los casos en que se aplique ser
más poderosa que su prueba alternativa, la prueba de  2 ( ji-cuadrado.
Características de la dócima

La prueba de K-S de una muestra es una dócima de bondad de ajuste. Esto es, se
interesa en el grado de acuerdo entre la distribución de un conjunto de valores de
la muestra y alguna distribución teórica específica. Determina si razonablemente
puede pensarse que las mediciones muéstrales provengan de una población que
tenga esa distribución teórica. En la prueba se compara la distribución de
frecuencia acumulativa de la distribución teórica con la distribución de frecuencia
acumulativa observada. Se determina el punto en el que estas dos distribuciones
muestran la mayor divergencia.

Hipótesis

Ho: La distribución observada se ajusta a la distribución teórica.

F(x) = Ft(x) para todo x.

H1: La distribución observada no se ajusta a la distribución teórica.

También:

F(x)  Ft(x) para algún x

F(x): es función desconocida

Ft(x): es la función teórica. Esta puede ser por ejemplo la función normal con cierta
media y varianzas conocidas.

Estadígrafo y distribución muestral

D = máxima

Sn(x): es la función de distribución empírica.

Ejemplo

El entrenador de salto de un grupo de atletas, desea conocer con vistas al


procesamiento de los datos por el obtenidos sobre salto de una muestra aleatoria
de atletas de esa especialidad en un CVD, si las mediciones realizadas por él están
distribuidas normalmente. Los datos son los siguientes:

Salto_Largo
1 1.60
2 1.65 Ho: Los datos están distribuidos normalmente
3 1 .55 H1: Los datos no están distribuidos normalmente.
4 1.62
5 1.64
6 1.70
7 1.71
8 1.68
9 1.66
10 1.67
11 1.65
12 1.68
13 1.69
14 1.70

Salidas de la dócima

Conclusiones:

No se rechaza a Ho, por tanto la distribución de los datos es normal.

Técnicas adicionales a la dócima

Tabla de frecuencias

Histograma.

Estadígrafos que deben acompañar a los estadígrafos de la dócima

1-Tabla de frecuencias.

Técnicas auxiliares para respaldar los resultados obtenidos en la conclusión.

1-Histogramas.
Dócima de Kolmogorov-Smirnov para dos muestras independientes.

Estructura de la base de datos

Normalmente la estructura que tiene la base de datos es la de utilizar una variable


para entrar los resultados de la medición y la otra donde se particione a estos
resultados en los dos grupos.

Premisas

La única premisa que se necesita es que las mediciones se encuentren al menos en


una escala ordinal. Adicionalmente se necesita que la medición considerada sea
básicamente continua.

Potencia-Eficiencia

Comparada ante la alternativa paramétrica de la t de student para dos muestras


independientes (o el modelo de Análisis de Varianza clasificación simple para dos
muestras), cuando las premisas paramétricas se cumplen, tiene una potencia
eficiencia de cerca del 96%, que tiende a decrecer ligeramente a medida que se
aumentan los tamaños de muestra.

Existen autores que plantean1 "que la dócima de Kolmogorov-Smirnov, para


muestras muy pequeñas es más potente que la dócima de la U de Mann-Whitney,
pero que para muestras de tamaño grande ocurre lo contrario.

Características de la dócima
La dócima de Kolmogorov-Smirnov está construida, teniendo como base detectar
las discrepancias existentes entre las frecuencias relativas acumuladas de las dos
muestras objeto de estudio. Lo anterior propicia que esta dócima pueda advertir
diferencias no tan solo entre los promedios, sino que éstas sean debidas a la
dispersión, o la simetría o la oblicuidad. Esta característica la hace distintiva de
aquellas en que solamente se ocupan de analizar las diferencias entre los
promedios.

La dócima admite que los tamaños de las muestras no sean iguales.

Hipótesis

Las hipótesis de esta dócima, expresadas en palabras son:

Ho: Las distribuciones poblacionales son iguales.

H1: Las distribuciones poblacionales son distintas.

Ahora bien se recomienda en general hacer el enunciado de las hipótesis de forma


tal que indique en un mayor grado la característica que va a ser docimada.

Estadígrafo y distribución muestral.

Designemos por T1 y por T2 las tablas de distribución de frecuencias relativas


acumuladas, particionadas en k categorías. Donde el primer subíndice corresponde
al número de la muestra y el segundo al orden de la clase.
TABLA1 TABLA2 DIFERENCIAS

Clase Frecuencia relativa Frecuencia relativa Diferencia de las


acumulada acumulada Frecuencias

1 p11 p21 p11-p21

2 p12 p22 p12-p21

... ... ... ...

I p1i p2i p1i-p2i

... ... ... ...

k p1k p2k p1k-p2k

Se analiza entonces en la columna de las diferencias de las frecuencias, en qué


clases se obtiene el valor máximo. Se tendrá entonces en símbolos:
El estadígrafo de esta dócima se designa
por χ y para tamaños de muestra suficientemente grandes, está distribuido según
2

chi-cuadrado con dos grados los de libertad. En símbolos:

Goodman , ha demostrado que si los tamaños de muestra son


pequeños la dócima se comporta conservadoramente.

Salidas de la dócima

Las salidas usuales de la dócima son tres:

• Máxima diferencia negativa. Donde se muestra cuál es la mayor diferencia


negativa alcanzada.

• Máxima diferencia positiva. Donde se muestra la mayor diferencia positiva


alcanzada.

• Valor de la probabilidad para dos colas.

Es necesario señalar que las dos primeras opciones suministran información en los
casos en que sea conveniente realizar una dócima unilateral, además de reflejar
información acerca de lo que está ocurriendo en la dócima.

Técnicas adicionales a la dócima

Existe un grupo de técnicas adicionales a la dócima, las que hemos dividido en los
siguientes grupos.

Estadígrafos que deben acompañar a los estadígrafos de la dócima.

Entre ellos se encuentran:


• Tamaños en cada una de las muestras (casos válidos en el análisis)
• Media aritmética de cada una de las muestras.
• Desviación estándar de cada una de las muestras.

Técnicas auxiliares para respaldar los resultados obtenidos en la conclusión


• Diagrama de caja y bigotes de cada una de las muestras.
• Histograma de cada una de las muestras.

Ejemplo

Se muestran las pérdidas en peso (medidos en kilogramos), de dos grupos de


personas que han sido sometidas a dos tipos diferentes de medicamentos,
designado por Grupo1 y Grupo2. Los resultados obtenidos se muestran en la
siguiente tabla:
GRUPO1 (n1=10) GRUPO2 (n2=12
5.49 3.76
3.08 4.22
4.13 4.17
5.03 5.03
7 4.85
6.03 2.09
4.45 4.45
5.13 3.58
4.26 3.86
4.62 4.13
4.4
2.81

Salida de la dócima

La salida básica de la dócima muestra los valores máximos positivos, máximos


negativos y el valor de probabilidad, los que se muestran a continuación.
máxima diferencia máxima diferencia valor de
medición negativa positiva probabilidad
perdida de peso 0 0.4666667 p > .10

Según podemos observar, no existen diferencias significativas entre los resultados


de la medición realizada a los dos grupos.

Estadígrafos que deben acompañar a los estadígrafos de la dócima.

Resulta conveniente incluir también, además de los mencionados en la tabla


anterior, el tamaño en cada una de las muestras, así como la media aritmética de
cada una de ellas y su desviación estándar. Las que se muestran en la siguiente
tabla.
Tamaños de muestra Media aritmética Desviación. Estándar

GRUPO 1 10 4.73900 .8235661

GRUPO 2 12 3.945834 .8235661


Técnicas auxiliares para respaldar los resultados obtenidos en la conclusión

Las técnicas que ha continuación se mencionan es conveniente su utilización:

Diagramas de Caja y Bigotes.

El siguiente diagrama muestra los resultados obtenidos tomando como promedio la


mediana, el rango intercuartílico para la caja y el máximo-mínimo para los bigotes.

En este diagrama observamos que aunque en la segunda muestra ha existido una


disminución en el valor mediano, las diferencias no son significativas. Obsérvese
que en la segunda muestra se ha producido una disminución en la dispersión y los
máximos y mínimos han sido reducidos.

Histogramas

A continuación se muestran los histogramas de las dos muestras. Los que pueden
proporcionar una mayor idea del proceso ocurrido.
Glosario de Términos
1. Alcance: distancia entre los valores más bajo y más alto de un conjunto de datos.
2. Codificación: método para calcular la media de datos agrupados mediante la
recodificación de los valores de los puntos medios de las clases a valores más sencillos.
3. Coeficiente de variación: medida relativa de la dispersión, comparable por medio
de distribuciones diferentes, que expresa la desviación estándar como porcentaje de la
media. Proporción o porcentaje de la media que representa la desviación estándar.
4. Cuartiles: fractiles que dividen los datos en cuatro partes iguales.
5. Curtosis: el grado de agudeza de una distribución de puntos.
6. Datos: colección de cualquier número de observaciones relacionadas sobre una o
más variables.
7. Deciles: fractiles que dividen los datos en diez partes iguales.
8. Dependencia estadística: condición en la que la probabilidad de presentación de un
evento depende de la presentación de algún otro evento, o se ve afectada por ésta.
9. Desviación estándar: raíz cuadrada positiva de la varianza; medida de dispersión
con las mismas unidades que los datos originales.
10. Diagrama de barras: representación gráfica de la distribución de frecuencias de
un atributo o de una variable discreta.
11. Dispersión: la extensión o variabilidad de un conjunto de datos.
12. Distribución binomial: modelo para variable aleatoria discreta que permite calcular
la probabilidad de obtener x éxitos en n ensayos repetidos de tipo Bernoulli.
Distribución discreta que describe los resultados de un experimento conocido como
proceso de Bernoulli.
13. Distribución continua de probabilidad: distribución de probabilidad en la que la
variable tiene permitido tomar cualquier valor dentro de un intervalo dado.
14. Distribución de frecuencias: despliegue organizado de datos que muestran el
número de observaciones del conjunto de datos que entran en cada una de las clases de
un conjunto de clases mutuamente exclusivas y colectivamente exhaustivas. Asignación
de frecuencias a cada uno de los valores de una variable o atributo.
15. Distribución de Poisson: modelo para variable aleatoria discreta que permite
calcular la probabilidad de obtener x éxitos en un intervalo continuo.
16. Distribución de probabilidad: lista de los resultados de un experimento con las
probabilidades que se esperarían ver asociadas con cada resultado.
17. Distribución exponencial: modelo para variable aleatoria continua que permite
representar variables del tipo "tiempo entre" o "distancia entre" dos eventos y vida
útil de ciertos componentes.
18. Distribución normal: modelo para variable aleatoria continua que permite
representar un gran número de fenómenos físicos. Distribución de una variable
aleatoria continua que tiene una curva de un solo pico y con forma de campana.
19. Error de muestreo: error o variación entre estadísticas de muestra debido al
azar, es decir, diferencias entre cada muestra y la población, y entre varias muestras,
que se deben únicamente a los elementos que elegimos para la muestra.
20. Error estándar: la desviación estándar de la distribución de muestreo de una
estadística.
21. Espacio muestral: conjunto de todos los resultados posibles de un experimento
aleatorio.
22. Estimación: valor particular de un estimador, que caracteriza a una muestra
específica.
23. Evento: uno o más de los resultados posibles de hacer algo, o uno de los resultados
posibles de realizar un experimento.
24. Experimento aleatorio actividad que tiene como resultado o que produce un evento.
Prueba donde existen dos o más resultados posibles, y no se pude anticipar cuál de
ellos va a ocurrir.
25. Histograma: gráfica de un conjunto de datos compuesta de una serie de
rectángulos, cada uno con un ancho proporcional al alcance de los valores de cada clase
y altura proporcional al número de elementos que entran en la clase, o altura
proporcional a la fracción de elementos de la clase.
26. Independencia estadística: condición en la que la presentación de algún evento no
tiene efecto sobre la probabilidad de presentación de otro evento.
27. Inferencia estadística: proceso de análisis que consiste en inferir las propiedades
de una población en base a la caracterización de la muestra.
28. Media: medida de tendencia central que representa el promedio aritmético de un
conjunto de observaciones.
29. Mediana: punto situado a la mitad de conjunto de datos, medida de localización que
divide al conjunto de datos en dos partes iguales.
30. Medida de dispersión: medida que describe cómo se dispersan o distribuyen las
observaciones de un conjunto de datos. Cantidades que describen la variabilidad de los
datos.
31. Medida de tendencia central: medida que indica el valor esperado de un punto de
datos típico o situado en el medio. Cantidades numéricas que dan una idea sobre la
ubicación de la distribución de frecuencias.
32. Moda: el valor que más a menudo se repite en un conjunto de datos. Está
representado por el punto más alto de la curva de distribución de un conjunto de datos.
33. Muestra representativa: muestra que contiene las características importantes de
la población en las mismas proporciones en que están contenidas en la población.
34. Muestra: subconjunto de la población seleccionado mediante algún criterio
particular. Porción de elementos de una población elegidos para su examen o medición
directa.
35. Muestreo aleatorio simple: métodos de selección de muestras que permiten a cada
muestra posible una probabilidad igual de ser elegida y a cada elemento de la población
completa una oportunidad igual de ser incluido en la muestra.
36. Muestreo aleatorio: conformación de la muestra usando métodos al azar.
37. Muestreo no aleatorio: conformación de la muestra en base al conocimiento o
experiencia del observador.
38. Parámetro: valor fijo que caracteriza a una población. Valores que describen las
características de una población.
39. Población: conjunto formado por todas las unidades objeto de un estudio
estadístico. Colección de todos los elementos que se están estudiando y sobre los
cuales intentamos llegar a conclusiones.
40. Probabilidad clásica: número de resultados favorables a la presentación de un
evento dividido entre el número total de resultados posibles. Asignación de
probabilidad "a priori", si necesidad de realizar el experimento.
41. Probabilidad condicional: probabilidad de que se presente un evento, dado que otro
evento ya se ha presentado.
42. Probabilidad subjetiva: probabilidad basada en las creencias personales de quien
hace la estimación de probabilidad. Asignación de probabilidad en forma intuitiva, en
base a la experiencia o el conocimiento.
43. Probabilidad: la posibilidad de que algo suceda.
44. Prueba de Kolmogorrov-Smirnov: prueba no paramétrica que no requiere que los
datos se agrupen de ninguna manera para determinar si existe diferencia significativa
entre la distribución de frecuencia observada y la distribución de frecuencia teórica.
45. Pruebas de bondad de ajuste: pruebas de hipótesis que ponen bajo prueba una
afirmación acerca de la distribución de una variable aleatoria.
46. Pruebas no paramétricas: técnicas estadísticas que no hacen suposiciones
restrictivas respecto a la forma de la distribución de población al realizar una prueba
de hipótesis.
47. Sesgo: grado en que una distribución de puntos está concentrada en un extremo o
en el otro; falta de simetría. Asimetría en distribuciones de frecuencias no simétricas.
48. Simétrica: característica de una distribución en la que cada mitad es la imagen
especular de la otra.
49. Tabla de frecuencias: tabla donde se asienta la distribución de frecuencias.
50. Teorema del Límite Central: teorema que especifica las condiciones bajo las
cuales puede esperarse que una variable aleatoria tenga distribución normal.
51. Unidad de observación: persona o casa sobre la que se mide una o varias
características de interés.
52. Valor esperado: promedio pesado de los resultados de un experimento.
53. Variable aleatoria continua: variable aleatoria que puede tomar infinitos valores
dentro de un rango cualquiera.
54. Variable aleatoria discreta: variable que toma un número finito o infinito de
valores numerables.
55. Variable aleatoria: variable que toma diferentes valores como resultado de un
experimento aleatorio.
56. Varianza: medida de la distancia cuadrada promedio entre la media y cada
observación de la población. Promedio de los desvíos cuadráticos con respecto a la
media.
Referencias
Libros:
1. Alatorre, et al., Introducción a los métodos estadísticos, México, UPN.
1998.
2. Azorín, Poch. Francisco. Curso de muestreo y aplicaciones, Aguilar, 1989.
3. Barahoma, Abel y otro. Metodología de trabajos científicos, Ipler, 1999.
4. Bencardino M., Ciro. Estadística, Apuntes y 600 Problemas Resueltos, 2a
Edición, Ecoe, 1992.
5. Castillo, Juana, Estadística inferencial básica, México, CCH, UNAM. 1996.
6. CHAO. Lincoln L. Estadística para Ciencias Administrativas, 2a Edición,
MCGRAW-HILL, 1990.
7. Dixon, Wilfrid J y otro. Introducción al Análisis Estadístico, 2a Edición,
MCGRAW-HILL, 1995.
8. Doms, Fernan P. La Estadística Qué Sencilla, 5a Edición, Paraninfo, 1999.
9. Downie, N. M. y otro. Métodos Estadísticos Aplicados. Harper Row
Publishers Inc., 2000.
10. Giardina, Basilio. Manual de Estadística, 3 Edición, 1992.
11. Haber, Audrey. Estadística General, Fondo Educativo Interamericano, 1993.
12. Hoel, Paul G. Estadística Elemental, México, CECSA. 2001.
13. Johnson, Robert, Estadística elemental, Buenos Aires, Grupo Editorial
Iberoamericana. 1996.
14. Kazmier, Leonard J. Estadística Aplicada a la Administración y la Economía,
MCGRAW-HILL, 1998.
15. Levin Yack. Fundamentos de Estadística en la Investigación Social, 2a
Edición, Harla S., 1997.
16. Llerena, León, Ricardo y otro. Curso de Estadística General, U. de A., 1991.
17. Mejía V., William. Bioestadística General, Escuela Nal. De Salud Pública, U.
de A., 1990.
18. National Council of Teachers. Of. Mathematics USA. Recopilación,
Organización e interpretación de Datos, Trilla, 2000.
19. Portilla, Ch. Enrique. Estadística, Primer Curso. Interamericano, 1990.
20. Richards, Larry E. Y otro. Estadística en los Negocios. ¿porqué y cuándo?,
MCGRAW-HILL,1998.
21. Seymour, Lipschutz, Teoría y problemas de probabilidad , México, McGraw-
Hill. 1970.
22. Shao, Stephen P. Estadística para Economistas y Administradores de
Empresas, 15a Edición, 1989.
23. Spiegel, Murray R. Estadística, MCGRAW-HILL, 1970.
24. Spiegel, Murray, Teoría y problemas de estadística , México, McGraw-Hill.
1970.
25. Stevenson, William, Estadística, México, Harla. 1981.
26. Yamane, Taro, Estadística, México, Harla. 1986.

Páginas Web:
1. Librería Virtual Elaleph: www.elaleph.com/
2. Universidad Nacional de Colombia sede Medellín: www.unalmed.edu.co/
3. El Portal de las Matemáticas: www.matematicas.net/
4. Libros y Software Gratis: www.recursosgratis.com/
5. DANE Colombia: www.dane.gov.co/
6. Planeación Nacional Colombia N.N.P.: www.dnp.gov.co/
7. Ministerio de Desarrollo Colombia: www.mindesa.gov.co/
8. Web Estadístico de Navarra: www.lander.es/
9. Bioestadística: Métodos y Aplicaciones: ftp.medprev.uma.es/libro
10. Aula Fácil: www.aulafacil.org/
11. Probabilidad y Estadística: www.mor.itesm.mx/
12. Diseño de Experimentos y Teoria de Muestras:www.libros.netstoreusa.com/
13. Distribuciones Estadísticas:www.sisweb.com/
14. Probabilidad:www.thales.cica.es/
15. Distribución de Poisson:www.ual.es/
16. Tratamiento de la Incertidumbre:www.dc.fi.udc.es/
17. Universidad de Antioquia:extension.udea.edu.co/
18. Estadística Lejarza:www.uv.es/
Anexos
Anexo N° 1:Tabla de la Distribución Normal

Áreas limitadas por N(0,1) , desde - ∞ hasta k

p(Z<k)
0 '00 0'01 0'02 0'03 0'04 0'05 0'06 0'07 0'08 0'09
k
0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774
1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92786 0.92922 0.93056 0.93189
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96637 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99897 0.99900
3.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929
3.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950
3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965
3.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976
3.5 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.99983
3.6 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.99989
3.7 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99991 0.99992 0.99992 0.99992
Anexo N° 2

Tabla de 500 Números Generados Aleatoriamente.

49035 39250 26420 44343 86730 00094 74043 65106 72384 40298
34650 61029 41870 93056 07492 11854 54849 48034 53807 32851
37944 42974 47550 91625 95455 66107 49743 94663 15075 16998
96501 14020 97799 58005 70661 12170 49250 29349 13070 67066
83882 97885 21981 99586 14053 62953 87632 62027 22690 52283
13967 58987 51301 06732 90588 40925 74328 74721 95415 35883
76357 15538 32168 66301 00456 45252 36652 35549 93901 49812
21965 62747 41846 36966 75159 94638 49952 01953 66456 29732
13808 41499 87080 52612 95907 66465 92820 95272 20290 35563
97901 17521 90387 60885 37302 29952 37418 20541 95588 70662
ANEXO N° 3: Contraste de Hipótesis a partir del p-Valor

El entrenador de nuestro equipo de baloncesto asegura que en los


entrenamientos sus jugadores encestan más del 90% de los tiros libres. Para
investigar esta afirmación, se ha seleccionado aleatoriamente 50 lanzamientos de
los que 42 han sido canasta. ¿evidencia esto que el entrenador se equivoca, o no?

La proporción encontrada en la muestra es p'=42/50=0,84. Las hipótesis que hay


que establecer son:

Suponiendo cierta la hipótesis nula, y en el mejor de los casos si p=0,9 , las


proporciones muestrales se deberían distribuir según :

Los valores menores o iguales a 0,85 tienen una probabilidad de ocurrencia:

(I)

En consecuencia, si el nivel de significación que se tome es inferior al 7,93% se


puede rechazar la hipótesis nula, y habrá que aceptarla en cualquier otro caso.

Esta forma de abordar los tests, nos permite una visión más amplia, por cuanto nos
dá información de para qué niveles de significación puede rechazarse la hipótesis
nula, y para cuales no se puede.

Al valor calculado en la expresión (I) se le denomina p-valor, y al procedimiento


expresado para realizar el test de hipótesis, método del p-valor.
ANEXO N° 4. Error de Tipo II – Cálculo

Hemos comentado ya, que cuando se establecen la hipótesis nula y alternativa, y se lleva a cabo
el test, pueden ocurrir cada uno de los cuatro casos:

La hipótesis nula es verdadera La hipótesis nula es falsa


No se rechaza la
Decisión correcta Error tipo II
H.Nula
Se rechaza la H.Nula Error tipo I Decisión correcta

Para estimar la diferencia existente entre cada uno de los casos, imagina a un médico que acaba
de llegar al lugar de un accidente, y debe contrastar la hipótesis nula: "esta víctima está viva".
Mirando la tabla anterior, podemos ver los 4 resultados posibles, y la gravedad de cada tipo de
error.

Aunque nos gustaría que no existiera posibilidad de error, esto es imposible dado que utilizamos
para tomar nuestra decisión información muestral y no poblacional. Se trata pues de que estos
errores sean lo menores posibles. En cada caso en concreto se debería de estudiar la gravedad de
cada tipo de error, para minimizar los riesgos inherentes a un proceso de decisión de este tipo.

En general, en la práctica, se fijan siempre el nivel de significación (error tipo I) y el tamaño de


la muestra (que deberá ser tan grande como las posibilidades de tiempo, costo,... nos permitan).

Ahora veremos el procedimiento para el cálculo del error del tipo II, suponiendo que ya han
sido fijados el de tipo I y el tamaño de la muestra.

Imaginemos el caso con el que se introdujeron los tests de contraste en el que

y habíamos asignado un nivel de significación  =0'05 . Recordemos que habíamos razonado de


la siguiente forma:

"Si H0 es cierta, en el mejor de los casos =7, y por tanto en al menos un 95% de los casos, la
media muestral que obtengamos habrá de ser menor que 7'726"
Es decir, rechazaremos la hipótesis nula, siendo en realidad cierta en como máximo un 5% de
los casos ( los correspondientes a la región sombreada). Imaginemos que H0 fuese en realidad
falsa, es decir que por ejemplo =7'5. ¿Cuál es el riesgo de que aceptemos que la media es
menor o igual a 7?

Si un valor es menor que 7,726, estaremos aceptando que la media es menor que 7, a pesar de
ser 7'5. La probabilidad de que esto ocurra es sobre N(7'5,0'44).

Podemos observar a la vista de lo expuesto, que fijado el valor de n, cuanto menor es el valor
del riesgo , mayor es el valor del riesgo , o lo que es lo mismo, para un determinado tamaño
muestral, no podemos reducir simultáneamente los dos errores, de forma que deberemos de
sacrificar uno de los errores si queremos disminuir el otro.

Asimismo, se observa que si  está prefijado, al aumentar el tamaño muestral n, disminuiremos


la variabilidad muestral y en consecuencia, también disminuirá el riesgo , es decir la manera
de reducir simultáneamente los dos tipos de error es aumentar el tamaño muestral.

Por último, vemos que el riesgo de aceptar erróneamente una hipótesis nula es función
del verdadero parámetro poblacional, de forma que cuanto más alejado esté éste de los valores
ponderados en la hipótesis nula, menor es el riesgo  es decir, mayor la probabilidad de tomar
la decisión correcta.
Anexo N° 5. Guía para elaborar una Tesis
Elaboración de un plan de trabajo.
Para iniciar una investigación, es necesario organizar adecuadamente las actividades y tener un
conocimiento amplio sobre el tema u objeto de estudio. Hay que distinguir aquellas actividades que
requerirán de mayor tiempo para su concreción y aquellas que demandan un esfuerzo personal más
específico.
Elaboración de un anteproyecto.
Antes de elaborar este anteproyecto, debe realizarse una amplia búsqueda bibliográfica, que brindará
una idea más clara del tema. También es importante relacionarse con personas que traten o trabajen en
el tema.
Esquema.
1. Definición del problema: título descriptivo del proyecto, formulación del problema. Formular un
problema es caracterizarlo, definirlo, enmarcarlo teóricamente. La caracterización o definición
del problema nos lleva a otorgarle un título en el que de manera clara indiquemos los elementos
esenciales. La formulación del problema es la estructuración de toda la información. Se debe
sintetizar la cuestión proyectada para investigar a través de un interrogante.
2. Justificación: una vez que se ha seleccionado el tema de investigación, definido por el
planteamiento del problema, y establecido los objetivos, se debe indicar las motivaciones que
llevan al investigador a desarrollar el proyecto. Responde a la pregunta: ¿por qué se investiga?.
3. Definiciones.
4. Objetivos: Es el propósito de la investigación. Responde a la pregunta ¿para qué?. Un objetivo
debe redactarse con verbos en infinitivo.
5. Hipótesis: Es una proposición de carácter afirmativo enunciada para responder tentativamente a
un problema. Toda hipótesis constituye un juicio, o sea una afirmación o una negación de algo.
6. Limitaciones y delimitaciones: Es pertinente precisar los límites del problema, su alcance, para
ello es necesario tener en cuenta la viabilidad, lugar, tiempo y financiación.
7. Marco de referencia: Fundamentos teóricos, antecedentes del problema. Debe ser una
búsqueda detallada y concreta, donde el tema y la temática del objeto a investigar tenga un
soporte teórico, que se pueda debatir, ampliar, conceptualizar y concluir. Ninguna investigación
debe privarse de un fundamento o marco teórico o de referencia. Estos fundamentos teóricos
permiten presentar una serie de conceptos, que constituyen un cuerpo unitario y no un simple
conjunto arbitrario de definiciones.
8. Metodología: diseño de técnicas de recolección, población y muestras, técnicas de análisis,
índice analítico tentativo, guía de trabajo de campo.
9. Cronograma: es un plan de trabajo o plan de actividades, que muestra la duración del proceso
investigativo.
10. Presupuesto.
11. Bibliografía.
Anexo N° 6: Registro de la Información. Modelos de Fichas.
Cuando una publicación ingresa a una biblioteca se registra, se anotan los datos más importantes para localizarla fácilmente. El
criterio que se sigue en las bibliotecas para clasificar libros, revistas, tesis y artículos sueltos, es el siguiente: Por autor, p or título
y por tema.
Ficha bibliográfica.
Los índices que se refieren a los libros se encuentran generalmente en cajones que contienen tarjetas de 3 x 5 pulgadas,
ordenadas alfabéticamente. Los datos que se enumeran a continuación son los que se registran en las fichas:
1. Autor. Apellido, nombre
2. Título (siempre va subrayado)
3. Subtítulo (si lo hay)
4. Traductor, prologuista, etc. (si el original se escribió en otro idioma)
5. Edición (si es la primera no se anota, se anota a partir de la segunda)
6. Número de volumen (si cuenta con más de uno)
7. Lugar (donde se editó la obra)
8. Editorial
9. Fecha
10. Número total de páginas, láminas, ilustraciones
11. Colección o serie.
Los datos que corresponden a 7, 8 y 9 se conocen como pie de imprenta.
Entre paréntesis rectangulares o corchetes, se anotan los datos que se deseen agregar: si contiene mapas, ilustraciones,
comentarios o apreciaciones personales sobre el libro.
Cuando no aparecen algunos datos indispensables, se usan las siguientes abreviaturas:
[et. al]: cuando son varios autores se anotan los datos del primero y esta abreviatura significa: y otros. [s. tr.]: sin traductor, [s.
l.]: sin lugar, [s. f.]: sin fecha, [s. e.]: sin editorial, [s. p. i.]: sin pie de imprenta.
Las anotaciones particulares, hechas por el investigador para su empleo personal, se encierran también entre corchetes.
En algunas fichas se incluye también un breve resumen del libro y/o un índice de contenido. A este fichero se recurre cuando se
conoce el nombre del autor del libro que se desea consultar.
Otras veces se recurre a ficheros clasificados por temas y por título, porque se desconoce el nombre del autor. En ocasiones,
cuando no hay referencias en el fichero sobre el concepto investigado, se deben buscar sinónimos o temas afines.
Ficha de diarios y revistas.
En las bibliotecas existen generalmente dos formas de clasificar las revistas: por tema y por artículo.
La clasificación por temas es muy general y se refiere principalmente a disciplinas tan amplias como la psicología, la sociología,
la economía, la antropología, etc.
A la clasificación que con mayor frecuencia se recurre en relación con las revistas, es a la clasificación por títulos, ya que es la
manera más práctica de hacerlo.
Una ficha, cuando el dato se toma de diarios y revistas, debe contener:
1. Nombre del autor
2. Título y subtítulo del artículo (entre comillas)
3. Título y subtítulo del periódico o revista (subrayado). Institución que la publica
4. Número del columen, año, tomo (con números romanos)
5. Número del fascículo (con números arábigos)
6. Fecha
7. Número de página o páginas que ocupa el artículo o dato
8. Información (dato). Cuando aparece sin datos de lo que trata el artículo, se le conoce como ficha de artículo.
En ocasiones se recorta el artículo o parte de él. En estos casos, los datos de esta ficha se anotan en la hoja o tarjeta en donde se
pegó el recorte.
Ficha de tesis.
Las tesis se encuentran archivadas en un fichero especial y están clasificadas de la misma manera que los libros, es decir, tanto
por tema como por autor.
Los datos que deben contener son:
1. Autor
2. Título
3. Tesis (se menciona al grado que se aspira con ella)
4. Lugar (colegio o institución donde se presenta)
5. Editor (si lo hay)
6. Fecha
7. Número de páginas (cuando el texto está escrito por un solo lado de la hoja, se usará la abreviatura h, en lugar de p).
Ficha de publicación oficial.
1. País
2. Dependencia
3. Año
4. Título (época que comprende el trabajo, ensayo, memoria, etc.)
5. Editorial (o los talleres donde se imprimió)
6. Número de páginas (si la dependencia que la publica no es la responsable del contenido, el registro se iniciará con el
nombre del autor.
Ficha de textos jurídicos.
1. Territorio en donde se aplican
2. Referencia al tipo de normas de que trata
3. Nombre de la ley o decreto (subrayado)
4. Editor o talleres donde se imprimió (o el conducto por el cual se dio a conocer)
5. Fecha
6. Número de páginas.
Ficha de documentos nacionales.
1. Título (o asunto de que trata)
2. Lugar
3. Fecha
4. Archivo
5. Legajo
6. Foja
7. Demás especificaciones
8. Número de páginas
9. Características de interés particular, si el investigador juzga indispensable registrarlas)
Ficha de documentos internacionales.
1. Órgano responsable
2. Título (o asunto)
3. Número, clave o codificación
4. Lugar donde se publicó
5. Editor (o conducto por el que se da a conocer
6. Fecha
Ficha de registro de obras de recopilación de constituciones o leyes.
1. Nombre del compilador o editor
2. Referencia al tipo de norma o documento (subrayado)
3. Número de volumen (con números romanos)
4. Lugar
5. Editor
6. Fecha
7. Número de páginas en donde está comprendido.
Ficha de registro de pactos, acuerdos o tratados internacionales.
1. País u organismo (con mayúsculas)
2. Tipo de norma o documento
3. Autor del prólogo, comentario o nota
4. Lugar
5. Editor
6. Fecha
7. Número de páginas en donde está comprendido.
Ficha de artículos contenidos en libros o enciclopedias.
1. Autor del capítulo o artículo
2. Título del capítulo o artículo (entre comillas)
3. Páginas en que está comprendido
4. Autor de la obra que contiene el artículo o capítulo
5. Título de la obra (subrayado)
6. Demás datos de la ficha bibliográfica de la obra.
Ficha de campo.
1. Tema de investigación
2. Nombre del investigador
3. Institución
4. Lugar
5. Fecha
6. Hora
7. Datos de la fuente (edad, sexo, ocupación).
Ficha de noticiario.
1. Agencia noticiosa / comentarista
2. Nombre del noticiario
3. Número / horario
4. Estación / canal / cine
5. Lugar
6. Fecha
7. Noticia o comentario
Ficha de institución.
Nombre de la institución (subrayado)
1. Institución de la que forma parte
2. Objetivos que tiene en su función
3. Ubicación
• Dirección
• Lugar que ocupa en la disciplina a la que pertenece o practica
1. Funciones y servicios
2. Información que puede proporcionar
3. Conexión, nexos, relación con otras fuentes similares
4. Forma de acceso (procedimientos para obtener sus servicios, o persona u oficina por cuyo conducto se pueden obtener
sus servicios).
5. Publicaciones que emite
6. Otros datos importantes.
Ficha para registrar información que aparece en mapas, dibujos, fotografías, etc.
1. Nombre (de lo que se trata, subrayado)
2. Autor
3. Fuente (lugar, libro, revista, museo, etc., dónde está)
4. Descripción del objeto (colores, medidas, material de que está hecho, datos indispensables para tener noción de cómo
es)
5. Contenido (descripción de lo que se ilustra o representa)
6. Otros datos que interesen al investigador (fecha, sala, en el caso de museos, exposición, etc.)
FICHA DE TRABAJO.
Es aquella donde se registran los datos que interesan al investigador.
Cuando el dato está contenido en más de una tarjeta, las tarjetas que ocupe constituirán una sola ficha. En estos casos, conviene
marcar las tarjetas con el número de ficha y una letra (ej.: 5a y 5b).
Una ficha debe contener un solo dato, éste puede ser un solo detalle (una fecha, un nombre, un acontecimiento, etc.) o estar
formado por más información (una carta, la descripción de un hecho, una biografía, etc.). Para saber qué información debe
registrarse en una ficha de trabajo, en el momento de hacer la anotación debe pensarse si esa información va a aparecer en un
solo lugar o hay detalles que se utilizarán en otros lugares del escrito; en el primer caso se tratará de una ficha; en el segundo,
será necesario hacer una ficha por cada información que aparecerá en distintas partes del escrito.
El regesto es el asunto, tema o título del contenido de la ficha de trabajo. Debe ser breve y reflejar fielmente la información
anotada.
La información (dato) puede registrarse textualmente o resumirse.
Datos fundamentales:
1. Autor
2. Título (entre comillas)
3. Número de página (s) donde aparece el dato
4. Regesto (asunto, tema; va subrayado)
Datos complementarios:
1. Fecha en que se recogió el dato
2. Razón o motivo por el que se recabó la información.
Ficha de transcripción textual.
Como su nombre lo indica, es aquella a la que se traslada íntegramente el texto tomado de la fuente, por lo que esta información
siempre irá entre comillas.
Ficha de síntesis.
Es la que se utiliza para consignar, en pocas palabras, el extracto del texto consultado. Se debe tener cuidado de no omitir o
tergiversar el contenido
No es necesario utilizar una tarjeta especial para los comentarios personales acerca de la fuente, puesto que es conveniente
incluirlos en la misma ficha que la registra. Se escriben entre corchetes.
Fichas metodológicas.
Se refieren a aquellos puntos obtenidos de las lecturas, concretamente relacionados con notas metodológicas, es decir, con qué
sujetos se hizo la investigación, cómo se eligieron éstos, qué hipótesis se emplearon, cómo se analizaron los datos, algún
instrumento original que se utilizó, alguna cuestión interesante que se investigó, es decir, con las cuestiones operativas del
estudio. El origen de estas fichas, al igual que en los casos anteriores, debe identificarse utilizando la abreviación de la fuente
original y el número de página.

S-ar putea să vă placă și