Sunteți pe pagina 1din 220

13

Introduccin
El mundo de hoy se enfrenta, en diversos campos, a un volumen de
informacin que cada vez va en aumento y que es necesario mane-
jar gil y eficientemente. La estadstica, en muchos casos, se cons-
tituye en una buena opcin para hacerlo.
La nocin de Estadstica se deriv originalmente del vocablo
Estado, porque ha sido funcin tradicional de los gobiernos cen-
trales llevar los registros de poblacin, nacimientos, defunciones,
exportaciones, impuestos, etc. Contar y medir estos y otros hechos
genera muchas clases de datos.
Para entender la Estadstica es importante poner nfasis en
los siguientes elementos del pensamiento estadstico: la necesidad
de contar con datos, la importancia de la produccin de datos, as
como la medicin e interpretacin y el modelamiento de la variabi-
lidad de los datos.
Los autores modernos definen la Estadstica como la ciencia
que permite la elaboracin y uso de mtodos y procedimientos para
la toma decisiones en presencia de incertidumbre. Es decir, es un
instrumento para la toma de decisiones cuando no se est seguro
sobre el estado final de la naturaleza.
Como un procedimiento de toma de decisiones, la Estadstica
se ha convertido en un instrumento cotidiano de los investigado-
res y profesionales de todos los campos del conocimiento, quienes
necesitan tener alguna familiaridad con principios estadsticos
|13]
Captulo I
Conceptos bsicos
01_cap1.p65 31/03/2006, 02:31 p.m. 13
14
para poder emitir y evaluar sus informes y evitar malos usos de la
estadstica.
En este captulo se presentar una breve resea histrica, ac-
tualidad y perspectivas de la Estadstica, as como la presentacin
de conceptos importantes y necesarios para la comprensin du-
rante el desarrollo del libro, finalizando con la elaboracin de una
encuesta haciendo uso de un cuestionario.
Breve resea histrica
La Estadstica ha existido en formas sencillas desde el inicio de las
civilizaciones; por ejemplo, los babilonios, egipcios, chinos, ma-
yas, incas, y griegos, por mencionar algunas culturas, recopilaban
y analizaban datos de sus gobiernos utilizando algn tipo de esta-
dsticas.
As tambin, en la Edad Media se realizaron los primeros cen-
sos formales (en 1066 el censo de Inglaterra encargado por
Guillermo I), pero no es hasta el siglo XVII que surge lo que podra-
mos llamar la disciplina Estadstica, con el estudio de Grannt (1620-
1674) sobre mortalidad en Londres, seguido del de Halley (1656-
1742). Por estas pocas se inicia el desarrollo de las dos escuelas:
la demogrfica social y la enciclopdico matemtica. La primera
culmina en la fundacin de la demografa como disciplina, y la
segunda deriva en la Estadstica en su concepcin actual.
Posteriormente, en los siglos XVIII y XIX, se tienen grandes
contribuciones de matemticos como Gauss (1777-1855), Poisson
(1781-1840), Bayes (1702-1761), Galton (1822-1911) y Pearson (1857-
1936), que permiten sentar las bases de una teora que le da cuerpo
a la Estadstica como una disciplina cientfica. Entre los que desa-
rrollaron esta teora podemos sealar a Neyman (1894-1981),
Lehmann (1917) y a Ronald Aylmer Fisher (1890-1962), quien es
considerado el Padre de la Estadstica Moderna, ya que realiz
importantes contribuciones a la metodologa estadstica, que aun-
que fuertemente motivadas por problemas genticos, biolgicos y
de la agricultura, pronto se usaron en la industria, en trabajos de
investigacin social y en general en todas las reas donde se utili-
zan la experimentacin y la observacin cientfica. Fue l quien
01_cap1.p65 31/03/2006, 02:31 p.m. 14
15
introdujo definitivamente a la Estadstica en el llamado mtodo
cientfico de las ciencias factuales.
Fue as como, durante la dcada de los aos treinta a los se-
senta del siglo XX, se realiz una intensa actividad de investiga-
cin y aplicacin en la metodologa estadstica. Se introdujo la
Estadstica en los centros de investigacin y en la produccin in-
dustrial, con lo que apareci una comunidad de profesionales de
esta disciplina. En las universidades, se incorpor a los planes de
estudio de carreras como Agronoma, Biologa, Ciencias Sociales,
Psicologa, Economa e Ingeniera, entre otras. Aparecieron as los
Departamentos de Estadstica y los laboratorios de consultora. En
la Universidad Nacional Mayor de San Marcos se cre en el ao
1967 la Escuela Acadmico Profesional de Estadstica.
Para la dcada de los aos cincuenta y sesenta del siglo pasa-
do, la Estadstica ya tena un reconocimiento amplio, pero se le
conceba como una serie de arduas tareas de clculo, vinculadas a
complejas frmulas.
Con la llegada y proliferacin de las computadoras, las tcni-
cas para el manejo y explotacin de los datos e informacin se
hacen imprescindibles. Durante la dcada de los setenta, ochenta
y noventa, la masificacin de los softwares computacionales esta-
dsticos hizo que casi cualquier profesional o tcnico tuviese la
posibilidad de aplicar la Estadstica sin tener necesidad de reali-
zar dificultosos clculos. Hoy en da, los mtodos ms complejos
requieren slo minutos de procesamiento computacional, adems
de que hay grandes facilidades de visualizacin grfica.
Con esta perspectiva histrica, podemos concluir que la Esta-
dstica es una disciplina que tuvo un desarrollo vertiginoso des-
pus de la dcada de los aos treinta del siglo XX, que fundamen-
talmente se debi al desarrollo de una slida teora matemtica, lo
que permiti la construccin de metodologas para el diseo de
estudios estadsticos y el anlisis de los datos; al desarrollo de
softwares, que permitieron implementar los procedimientos nu-
mricos, con lo que se logr que la aplicacin de los mtodos es-
tadsticos se popularizara, generndose una amplia comunidad
de usuarios de la metodologa estadstica.
01_cap1.p65 31/03/2006, 02:31 p.m. 15
16
Actualidad de la estadstica
La metodologa estadstica nos proporciona una serie de princi-
pios, procedimientos y mtodos para realizar cuatro tareas funda-
mentales en la investigacin y los estudios tcnicos:
1) Obtener datos pertinentes de manera rpida y a bajo costo.
2) Una vez obtenidos los datos, proporciona los mtodos para su
organizacin y procesamiento, a fin de obtener de ellos la infor-
macin requerida.
3) Proporciona los principios y mtodos para que las conclusiones
o acciones a seguir sean el producto de procesos de induccin
vlidos, que se obtengan de interpretaciones adecuadas de los
resultados.
4) Proporciona los principios y lineamientos para comunicar apro-
piadamente los resultados, conclusiones y recomendaciones, ya
sea en el marco de un informe, una presentacin oral o un artcu-
lo cientfico.
As, los mtodos estadsticos ayudan a la realizacin de ml-
tiples tareas en las organizaciones productivas y sociales, tanto en
las empresas pblicas como en las privadas; son la base para la
realizacin de estudios tcnicos e investigaciones que permiten la
mejora de procesos de produccin, de bienes y de servicios o el
sustento de la toma de decisiones en las empresas u organizacio-
nes de los ms diversos giros.
La velocidad del desarrollo tecnolgico, los volmenes de
nueva informacin y el avance vertiginoso de la ciencia, han gene-
rado una gran diversificacin en las aplicaciones de la metodolo-
ga estadstica. Cada vez ms disciplinas encuentran en los mto-
dos estadsticos una opcin para el adecuado planteamiento y so-
lucin de problemas especficos; hoy en da es ms sencillo decir
en qu no se aplica la Estadstica. Indudablemente, la metodologa
estadstica ha adquirido una importancia tal que el reconocimien-
to de esta disciplina es un asunto incuestionable. Hoy en da, la
Estadstica tiene un lugar muy significativo en la sociedad. Algu-
nos hechos que hacen evidente la veracidad de tal juicio se mencio-
nan a continuacin:
01_cap1.p65 31/03/2006, 02:31 p.m. 16
1
1) Los gobiernos nacionales cuentan con un sistema estadstico,
que incluye aspectos como el demogrfico, el econmico y el so-
cial. La estadstica llamada oficial ocupa un lugar importante en
los esfuerzos de planificacin, toma de decisiones e investiga-
cin de los procesos econmicos y sociales del Estado. Un indi-
cador de esta importancia es el hecho de que la ONU cuenta con
un comit especial de Estadstica, el cual apoya a los pases miem-
bros en el diseo y desarrollo de sistemas de informacin acorde
a lineamientos internacionales.
2) Una diversidad amplia de estudios en ciencias econmicas, em-
presariales y sociales, requieren del uso de mtodos estadsticos;
los estudios de opinin, de mercadotecnia, de dinmica finan-
ciera, de riesgos y toma de decisiones, por mencionar algunos.
3) El desarrollo de medicamentos y nuevos productos y procedi-
mientos tecnolgicos requiere de una fase de experimentacin,
que se conduce siguiendo los principios y mtodos de la experi-
mentacin estadstica. La normatividad establece que todos los
nuevos productos deben pasar una serie de pruebas de efectivi-
dad que se realizan sobre la base de ensayos y pruebas estadsti-
cas. Mientras no se tenga evidencia estadstica sobre un nuevo
frmaco, ste no puede salir al mercado.
4) La mejora de la calidad y la productividad, tanto en procesos de
manufactura como en los servicios, requiere de la metodologa
estadstica. Recientemente, la metodologa estadstica se ha he-
cho muy popular en su vinculacin con el mejoramiento de la
calidad; sin embargo, esto no es algo nuevo. En la dcada de los
aos treinta, el control de la calidad requiri de los mtodos esta-
dsticos; no por casualidad el estadstico Edwards Deming es
considerado el Padre del Control de la Calidad. Hoy en da, cali-
dad, productividad y excelencia son trminos que se asocian al
uso de la metodologa estadstica.
5) La psicologa y las ciencias de la educacin utilizan la base
metodolgica de la Estadstica para los procesos de investiga-
cin aplicada, no slo para monitorear programas en sistemas
educativos sino para cualquier asunto relacionado con la eva-
luacin y toma de decisiones.
6) Las ciencias biolgicas y las disciplinas como la biotecnologa,
manejo de recursos biolgicos, ecosistemas, impacto ambiental,
biodiversidad, cambio global y ecologa, consideran la Estadsti-
01_cap1.p65 31/03/2006, 02:31 p.m. 17
18
ca como fundamental para la generacin del conocimiento y para
el diseo e implantacin de estrategias de intervencin. Hay una
gran cantidad de estudios e investigaciones en estas disciplinas
que sin la metodologa estadstica seran impensables.
7) El desarrollo de la tecnologa de la computacin y las telecomu-
nicaciones ha propiciado una amplia promocin de la metodo-
loga estadstica, pero hay necesidad de tener habilidades en el
manejo de mtodos y tcnicas estadsticas para aprovechar me-
jor la tecnologa.
8) La estadstica es una profesin reconocida y cada vez ms los
estadsticos ocupan los puestos que de acuerdo a su perfil les
corresponden en la industria, los negocios, la burocracia y la
docencia.
9) A escala mundial se cuenta con una organizacin que integra a
todas las asociaciones de estadsticos o profesionales que usan
la Estadstica. Se realiza anualmente un gran nmero de congre-
sos sobre temas generales y particulares, y se promueve el desa-
rrollo de la disciplina.
10) La Estadstica actualmente est incluida en los planes de estu-
dio de la mayora de carreras profesionales. Sin duda, esto cons-
tituye un gran reconocimiento a la importancia que esta discipli-
na tiene en la cultura general. Hay pases en los que el pensa-
miento y los principios de la Estadstica se difunden desde el
nivel primario y hay programas para difundir la cultura estads-
tica entre la poblacin en general.
Adoptando un punto de vista pragmtico, podemos decir que
la Estadstica es una ciencia que comprende dos reas importan-
tes: la primera es la descripcin, el resumen de la informacin de
modo que pueda ser interpretada, analizada y bien empleada; y la
segunda es la induccin, que consiste en formular generalizacio-
nes a una determinada poblacin sobre la base de una muestra
extrada de la misma.
Estadstica descriptiva
Es el rea de la Estadstica que trata de la organizacin, resumen y
anlisis e interpretacin de los datos; es decir, a travs de un an-
01_cap1.p65 31/03/2006, 02:31 p.m. 18
19
lisis descriptivo se formulan procedimientos para la presentacin,
organizacin, anlisis e interpretacin de la informacin obteni-
da. Estos procedimientos pueden aplicarse a poblaciones o a mues-
tras, teniendo as la posibilidad de una adecuada visualizacin de
los datos. Mencionaremos algunos procedimientos:
Tablas de distribuciones de frecuencias
Grficos de distribucin de frecuencias
Diagramas de cajas
Diagramas de tallo y hojas
Estadsticas de posicin
Estadsticas de dispersin
Estadsticas de asociacin
Estadstica inferencial
Es el rea de la Estadstica que usa mtodos apropiados con los
que es posible hacer una generalizacin o inferencia acerca de una
o ms caractersticas de la poblacin, basndose en la informacin
contenida en la muestra. Debe sealarse que la Teora de la Proba-
bilidad es el soporte de la Inferencia Estadstica. La estadstica
inferencial comprende dos reas importantes:
Estimacin: Puntual y por intervalos
Pruebas de hiptesis estadstica
Perspectivas para el siglo XXI
La Estadstica tiene un gran porvenir en el siglo XXI. Cada vez se
abren ms oportunidades para los principios, tcnicas y procedi-
mientos que forman el cuerpo de la llamada metodologa estadsti-
ca. A continuacin se sealan algunas lneas de desarrollo eviden-
tes, que ya estn tomando rumbo en los aspectos tericos,
metodolgicos y de las aplicaciones.
El hecho de disponer de grandes volmenes de datos hace
que sea difcil extraer informacin precisa y til a los propsitos
del entendimiento de procesos y fenmenos complejos. Por tal mo-
tivo, los principios estadsticos acompaados de algoritmos
01_cap1.p65 31/03/2006, 02:31 p.m. 19
20
computacionales estn dando origen a un rea que se prev tenga
gran dinamismo en los prximos aos: la minera de datos (data
mining). De hecho, ya en la actualidad se le cataloga como la disci-
plina para extraer informacin en grandes volmenes de datos.
La preocupacin por propiciar la creacin de una cultura es-
tadstica que forme parte de los elementos de la cultura general, ha
originado diversas iniciativas en la comunidad estadstica, pero
se prev que en las prximas dcadas sea una tarea ms generali-
zada que, desde luego, involucrar a los profesionales de la Esta-
dstica y a los actores del sistema educativo y de gobierno.
Conceptos importantes
A continuacin se presentarn algunos conceptos bsicos utiliza-
dos con frecuencia en el estudio y aplicacin de la Estadstica.
Unidad de anlisis
Es el objeto o elemento indivisible sobre la base del cual se obtienen
los datos. Por ejemplo, s la clnica universitaria de la UNMSM
tiene inters en conocer el nivel de satisfaccin de los pacientes con
relacin a la atencin recibida, en este caso el paciente es la unidad
de anlisis.
Poblacin
Es el conjunto de elementos (personas, plantas, organismos, obje-
tos, etc.) que contienen una o ms caractersticas comunes observa-
bles de naturaleza cualitativa o cuantitativa, acerca del cual desea-
mos obtener conclusiones o tomar decisiones. Algunos ejemplos
de poblaciones son los siguientes:
1. Los estudiantes de los colegios privados de Lima Metropolitana
matriculados en el ao acadmico 2005.
2. Los docentes con ttulo profesional contratados por el Ministerio
de Educacin en el ao 2003.
3. El personal administrativo que trabaja actualmente en el Minis-
terio de Educacin.
4. Los libros catalogados en la Biblioteca Nacional al 31 de diciem-
bre de 2004.
01_cap1.p65 31/03/2006, 02:31 p.m. 20
21
Parmetro
Es una medida utilizada para describir alguna caracterstica de la
poblacin y, para conocer su valor, es necesario utilizar la infor-
macin de toda la poblacin. En general, los parmetros de una
poblacin son desconocidos y por ello son estimados sobre la base
de una muestra obtenida de la poblacin. Algunos ejemplos de
parmetros para las poblaciones descritas anteriormente:
1. La edad promedio () de todos los estudiantes de colegios privados
de Lima Metropolitana matriculados en el ao acadmico 2005.
2. La variabilidad () existente en los sueldos de los docentes con
ttulo profesional contratados por el Ministerio de Educacin en
el ao 2003.
3. El tiempo de servicio promedio () del personal administrativo
que trabaja actualmente en el Ministerio de Educacin.
4. La proporcin () de libros deteriorados en la Biblioteca Nacio-
nal al 31 de diciembre de 2004.
Muestra
Es una parte de la poblacin, seleccionada de acuerdo a un plan o
regla con el fin de obtener informacin acerca de la poblacin de la
cual proviene. La muestra debe ser representativa de la poblacin.
De cada uno de los cuatro ejemplos anteriores presentados para
caracterizar la poblacin, se puede obtener una muestra seleccio-
nada aleatoriamente. As tenemos:
1. Los estudiantes de los colegios privados de Lima Metropolitana
matriculados en el 5
to
ao de secundaria en el ao acadmico 2005.
2. Los docentes con ttulo profesional que trabajan en zonas rura-
les, contratados por el Ministerio de Educacin en el ao 2003.
3. El personal administrativo del sexo femenino que trabaja actual-
mente en el Ministerio de Educacin.
4. Los libros de historia catalogados en la Biblioteca Nacional al 31
de diciembre de 2004.
Estadstica
Es una medida utilizada para describir alguna caracterstica de la
muestra. Considerando los ejemplos presentados en el caso de
01_cap1.p65 31/03/2006, 02:31 p.m. 21
22
parmetro y basndose en una muestra seleccionada de la pobla-
cin, pueden mencionarse los siguientes ejemplos:
1. La edad promedio X de los estudiantes de colegios privados de
Lima Metropolitana matriculados en 5
to
de secundaria en el ao
acadmico 2005.
2. La proporcin de docentes del sexo masculino (P) con ttulo pro-
fesional que trabajan en zonas rurales, contratados por el Minis-
terio de Educacin en el ao 2003.
3. El ingreso promedio X del personal administrativo del sexo fe-
menino que trabaja actualmente en el Ministerio de Educacin.
4. La proporcin de libros de historia (P) deteriorados en la Biblio-
teca Nacional, en el ao 2003.
En el siguiente cuadro se presenta la notacin usada para los
parmetros y estadsticas de comn uso.
MEDIDA PARMETRO ESTADSTICA
(POBLACIN) (MUESTRA)
Media
X
Varianza
2
S
2
Desviacin estndar S
Proporcin P
Coeficiente de r
correlacin
Dato
Es un hecho numrico o no, con informacin relativa a una situa-
cin que se desea analizar en un proceso de investigacin.
Variable
Es una caracterstica de la poblacin o muestra en estudio que
puede tomar diferentes valores. La variable es un aspecto especfi-
co de la realidad referida a la unidad de anlisis y que puede ser
susceptible de ser medida o cuantificada. Todas las variables tie-
nen una escala de medida (promedio ponderado durante un se-
mestre acadmico especfico, nmero de cursos matriculados, n-
mero de horas de estudio, etc.) o una cualidad no medible (estado
civil, nacionalidad, grado de instruccin, diagnstico mdico,
01_cap1.p65 31/03/2006, 02:31 p.m. 22
23
colegio de procedencia, etc.). Una variable puede ser clasificada
como cualitativa o cuantitativa, lo que estudiaremos ms adelante.
Convencionalmente, las variables son representadas por las
ltimas letras del alfabeto; por ejemplo, X es la letra ms usada y
puede representar:
1. Sexo de los estudiantes de educacin secundaria del colegio Te-
resa Gonzlez de Fanning matriculados en el ao 2001.
2. Edad de los postulantes a la UNMSM en el ao 2003.
3. Nota en el curso de Estadstica de los alumnos de la Escuela
Acadmico Profesional de Bibliotecologa, matriculados en el
semestre acadmico 2005-I.
4. Nmero de miembros por familia del distrito de Los Olivos, a
diciembre de 2004.
Escalas de medicin
La determinacin de la escala de medicin de una variable es muy
importante debido a que, conjuntamente al objetivo de estudio,
permite una adecuada eleccin del mtodo estadstico a ser aplica-
do. Las escalas de medicin pueden ser nominales, ordinales, de
intervalo o cociente (razn).
Escala nominal
La escala de medicin ms elemental es la escala nominal. La asig-
nacin de una escala nominal permite afirmar que, si a un elemen-
to x se le calific con un valor A y a otro elemento y se le calific con
el valor B diferente de A, x ser diferente de y en relacin con el
atributo en estudio.
Cuando una variable presenta una cualidad no medible, las
modalidades o categoras de la variable pueden ser etiquetadas
con nmeros, lo cual no implica que se pueda establecer una rela-
cin de orden o se puedan realizar operaciones aritmticas con
dichos nmeros o etiquetas.
VARIABLE MODALIDADES ESCALA DE MEDICIN
rea de Derecho y Ciencia Nominal
estudios Poltica: 1
universitarios Letras y Ciencias
Humanas: 2
Ciencias Bsicas: 3
Medicina: 4
01_cap1.p65 31/03/2006, 02:31 p.m. 23
24
Escala ordinal
Cuando la variable presenta modalidades o categoras de una inci-
piente ordenacin, puede hacerse uso de una propiedad de orden
de los nmeros que se asignan, de tal modo que si el valor asignado
al elemento x es mayor que el asignado al elemento y, se puede afir-
mar que x posee mayor grado que y en la propiedad que se estudia.
VARIABLE PROPIEDAD DE ORDEN ESCALA DE MEDICIN
Orden de Puesto 1: 1 Ordinal
mrito de Puesto 2: 2
ingreso a la

.
E.A.P. de

.
Educacin

.
Puesto 100: 100
En este caso, debe tenerse en cuenta que los nmeros slo indi-
can una posicin en toda la organizacin de los datos, y que la
diferencia existente entre estos nmeros no tiene significacin pues-
to que, por ejemplo, el valor 3 asignado al puntaje alcanzado por el
alumno que ocup el tercer puesto no es la suma del puesto 1 y el
puesto 2.
Escala de intervalo
Esta escala es considerablemente ms fuerte que la ordinal; tiene
todas las caractersticas de una escala ordinal y, adems, puede
establecerse la distancia o diferencia entre dos nmeros cuales-
quiera. Por ejemplo, el registro de la temperatura de un horno me-
dida en las escalas Centgrados y Fahrenheit. La unidad de medi-
da y el punto cero en la medicin de la temperatura son diferentes
y arbitrarios en ambos casos.
La relacin entre los grados Fahrenheit (F) y Centgrados (C)
es la siguiente:
32
5
9
+ = C F
Puede observarse que las diferencias entre las temperaturas
son independientes de la unidad de medida y del punto cero; en la
escala Centgrados el congelamiento ocurre a los 0 C y la ebulli-
cin a los 100 C (debe notarse que el valor cero no implica ausen-
cia de temperatura), mientras que en la escala Fahrenheit el
congelamiento ocurre a los 32 F y la ebullicin a los 212 F. En
01_cap1.p65 31/03/2006, 02:31 p.m. 24
25
este caso, puede decirse que entre 15 C y 20 C existe la misma
diferencia que entre 5 C y 10 C, pero no puede afirmarse que el
tener 20 C implique el doble de calor que cuando se tienen 10 C.
Escala de cociente o razn
En esta escala, los nmeros asignados reflejan los cocientes o razo-
nes de las cantidades que se miden. Las operaciones aritmticas
son posibles de efectuarse con los valores numricos asignados.
VARIABLE VALOR ESCALA DE MEDICIN
Promedio final 18 razn
del examen de (en escala vigesimal)
Estadstica Puede decirse que la
nota 18 es el doble de
la nota 9 obtenida por
otro estudiante en el
mismo examen.
Ancho de una 2,40 m razn
pizarra Puede decirse que
la medida de 1,20 m
es la mitad del
ancho de la pizarra
que mide 2,40 m.
Tiempo de 120 minutos razn
duracin de Puede decirse que un
un examen alumno que se demora
en resolver el examen
en 60 minutos usa la
mitad del tiempo que
se demora otro alumno
en resolver el mismo
examen en 120 minutos.
Clasificacin de variables
Las variables pueden ser clasificadas en cualitativas y cuantitati-
vas; a continuacin, describiremos cada una relacionndola con
su escala de medicin correspondiente.
Variable cualitativa
Es la caracterstica cuyos valores se expresan en escala nominal u
ordinal. Otra denominacin que reciben es la de variable categrica,
debido a que sus posibles valores son categoras de clasificacin.
I) Variable cualitativa medida en escala nominal. Se dice que una
variable cualitativa es medida en una escala nominal si los valores
01_cap1.p65 31/03/2006, 02:31 p.m. 25
26
que puede asumir clasifican los elementos observados, pero no
tienen ordenacin alguna. Por ejemplo, la variable:
1. Sexo de los estudiantes, clasificada en masculino y femenino.
2. Religin que profesan los estudiantes, clasificada en catlica,
protestante y otras religiones.
II) Variable cualitativa medida en escala ordinal. En caso de que
los valores que puede asumir la variable clasifiquen y ordenen los
elementos observados, entonces se dice que la variable es medida
en una escala ordinal. Por ejemplo, las variables:
1. Calidad de la educacin clasificada como: psima, regular, buena,
excelente.
2. Nivel de instruccin de los padres clasificado en: sin instruc-
cin, instruccin primaria, instruccin secundaria e instruccin
superior.
Otros ejemplos de variables cualitativas son:
VARIABLE CUALITATIVA CATEGORAS
NOMINAL
Condicin laboral de un Estable
trabajador estatal Contratado
Eventual
Desempleado
Estado civil de los docentes Soltero
universitarios Casado
Divorciado
Conviviente
Viudo
Colegio de procedencia de los Nacional
postulantes a la UNMSM Particular Laico
Particular Religioso
Diagnstico de hospitalizacin de los Infeccin respiratoria
pacientes del Hospital Dos de Mayo Infarto cardiaco
Insuficiencia renal
Neoplasia
ORDINAL
Estado de conservacin de los textos Sin deterioro
de la biblioteca Federico Villarreal Parcialmente deteriorado
Totalmente deteriorado
01_cap1.p65 31/03/2006, 02:31 p.m. 26
2
Variables cuantitativas
Son el resultado de un proceso de medicin o conteo.
I) Variables cuantitativas discretas. Son aqullas que toman como
valores nmeros enteros, es decir, pueden tomar solamente algu-
nos valores dentro de un rango de valores posibles de la variable
y entre dos valores consecutivos de la variable no puede tomar
ningn valor. Por ejemplo, el nmero de cursos aprobados por
un estudiante en un semestre acadmico.
II) Variables cuantitativas continuas Son aqullas que pueden to-
mar cualquier valor dentro de un rango de valores posibles de la
variable. Por ejemplo, los ingresos mensuales de los docentes.
Otros ejemplos de variables cuantitativas son:
VARIABLE EJEMPLOS
CUANTITATIVA
DISCRETA Nmero de libros comprados por los
estudiantes en un semestre acadmico 2005-I.
Nmero de docentes nombrados por el
Ministerio de Educacin por departamentos a
diciembre de 2003.
Nmero de docentes investigadores de las
universidades nacionales a febrero de 2003.
CONTINUA Ingreso familiar mensual de los trabajadores
del sector salud en el mes de marzo de 2005.
Tiempo de traslado de su domicilio a su centro
de trabajo, de los trabajadores del sector
pblico, el 15 de diciembre de 2004.
Estatura de los estudiantes del Colegio
Nuestra Seora de Guadalupe.
Tiempo diario dedicado al estudio fuera de las
horas de clase, de los estudiantes del Centro
Preuniversitario de la UNMSM matriculados en
el Ciclo 2004-I.
Ejemplo 1
Los alumnos del Doctorado en Educacin matriculados en el se-
mestre 2004-I, en el marco del curso de Estadstica Aplicada a la
Investigacin I, realizaron una investigacin con el objetivo de es-
tablecer el perfil de los estudiantes de maestra de la UNMSM,
01_cap1.p65 31/03/2006, 02:31 p.m. 27
28
matriculados en el Semestre Acadmico 2004-I y que ingresaron a
la universidad entre los aos 2002 y 2004-I.
Como el nmero total de estudiantes que cursaban las diver-
sas maestras era alrededor de 3000, despus de grandes debates,
los alumnos del Doctorado en Educacin decidieron seleccionar
una muestra de 70 estudiantes de la Maestra en Educacin.
A los alumnos seleccionados y que conformaron la muestra se
les aplic una prueba psicolgica para evaluar su coeficiente de
inteligencia y grado de motivacin, entre otras caractersticas. El
estudio se llev a cabo en el periodo de abril a junio del ao 2004.
Las caractersticas motivo de estudio fueron obtenidas a tra-
vs de una encuesta y son las siguientes: Rendimiento en el curso
de matemtica. Rendimiento en el curso de filosofa. Nmero total
de horas de estudio diario (fuera de las horas de clase). Mtodo de
estudio (N: nuevo, T: tradicional). Sexo (F: femenino, M: masculi-
no). Estado civil (S: soltero N: no soltero).
Es importante para el cumplimiento de los objetivos del estu-
dio identificar: a) la unidad de anlisis, b) la poblacin, c) la mues-
tra, d) las variables de inters y su respectiva clasificacin.
Solucin
a) La unidad de anlisis, es un maestrista que ingres durante los
aos 2002-2004-I a las Maestras de la UNMSM y que cursa estu-
dios en el Semestre 2004-I.
b) La poblacin, est conformada por los 3000 maestristas que ingre-
saron durante los aos 2002-2004-I a las Maestras de la UNMSM
y que cursan estudios en el Semestre 2004-I.
c) La muestra, est conformada por los 70 maestristas ingresantes
durante los aos 2002-2004-I a las Maestras de la UNMSM y
que cursan estudios en el Semestre 2004-I elegidos aleatoriamente,
y en base a la cual se estudiarn las caractersticas de inters.
d) Clasificacin de algunas variables consideradas en el estudio.
01_cap1.p65 31/03/2006, 02:31 p.m. 28
29
VARIABLE CLASIFICACIN
Coeficiente de inteligencia Cuantitativa discreta
Rendimiento en el curso Cuantitativa continua
de Metodologa de la
Investigacin
Rendimiento en el curso de Cuantitativa continua
Estadstica
Nmero total de horas de estudio
diario (fuera de las horas de clase) Cuantitativa continua
Mtodo de estudio Cualitativa
Sexo Cualitativa
Estado civil Cualitativa
La informacin correspondiente a la muestra se presenta en el
Anexo 1 de la presente publicacin.
Estimacin
Denotaremos con x
1
, x
2
,
..., x
n
a los valores observados de una varia-
ble. Por ejemplo, para un determinado estudio se seleccion una
muestra de 10 estudiantes y se consider la variable X: Edad de los
estudiantes, resultando los valores observados:
1 2 3 4 5
6 7 8 9 10
17, 16, 13, 15, 16,
14, 15, 16, 15, 13
x x x x x
x x x x x
= = = = =
= = = = =
Y se define la estimacin como el valor resultante de la evaluacin
de una estadstica. Por ejemplo, la estimacin de la media poblacional
() es el valor numrico de la media en la muestra (
X
),
10
1
150
15
10 10
i
i
x
X
=
= = =

Produccin de datos
Mtodos de produccin de datos. La obtencin de datos puede
realizarse a travs de la:
01_cap1.p65 31/03/2006, 02:31 p.m. 29
30
Observacin
Que consiste en el examen de una situacin tal como se presenta,
sin modificarla. Por ejemplo, observar los ttulos de los libros con-
sultados por los estudiantes de la Escuela de Filosofa en los das
previos a un examen.
Experimentacin
Es la construccin de una situacin creada y controlada por el
investigador. Mtodo muy aplicado en Agricultura, Medicina, Bio-
loga, etc. Por ejemplo, la administracin de un extracto a ratones
durante un periodo de tiempo especfico, con el objetivo de conocer
su eficacia contra la diabetes.
Encuesta
Interrogacin sobre una situacin en la que estn involucrados
individuos. Cuando se aplica a todos los individuos de la pobla-
cin recibe el nombre de encuesta enumerativa o censo y cuando se
aplica a una muestra de la poblacin se denomina encuesta por
muestreo. Por ejemplo, se tiene inters en conocer la opinin de los
estudiantes de la Escuela de Negocios Internacionales en relacin
con el Tratado de Libre Comercio del Per con otros pases.
La encuesta por muestreo
La encuesta por muestreo es un procedimiento utilizado en el pro-
ceso de investigacin para obtener informacin mediante pregun-
tas dirigidas a una muestra de individuos representativa de la
poblacin, de tal forma que las conclusiones que se obtengan pue-
dan generalizarse al conjunto de la poblacin siguiendo los prin-
cipios bsicos de la inferencia estadstica, ya que la encuesta por
muestreo se basa en el mtodo inductivo; es decir, a partir de un
nmero suficiente de datos podemos obtener conclusiones a nivel
general de la poblacin de la cual se seleccion la muestra.
La principal ventaja de la encuesta frente a otros mtodos es
su versatilidad o capacidad para recoger datos sobre una amplia
gama de necesidades de informacin. Sin embargo, tambin pre-
senta ciertas limitaciones o inconvenientes, tales como:
La posible renuncia del encuestado a proporcionar la informa-
cin que se desea obtener.
El encuestado puede no tener la capacidad de aportar la infor-
macin requerida por mltiples motivos (que no recuerde hechos,
no los conozca, no distinga entre diferentes situaciones, etc.).
01_cap1.p65 31/03/2006, 02:31 p.m. 30
31
El propio proceso de interrogacin puede influir en las res-
puestas del encuestado: por cansancio, cuando se trata de encues-
tas excesivamente largas, por dar respuestas socialmente acepta-
das, etc.
Estas limitaciones de la encuesta se pueden evitar o reducir a
travs de un exhaustivo control del instrumento de recopilacin de
la informacin, es decir, mediante un adecuado diseo del cuestio-
nario y de una buena capacitacin de los encuestadores o
empadronadores.
Mtodos para llevar a cabo una encuesta
Pueden sealarse los siguientes mtodos bsicos para llevar a cabo
las encuestas: entrevista, entrega personal, por telfono o por correo.
1. En la entrevista personal, las preguntas se formulan en un en-
cuentro directo entre encuestado y encuestador
2. En la entrega personal, el encuestador entrega el cuestionario a
un grupo de encuestados les imparte las directivas pertinentes y
luego los recoge, previa verificacin.
3. En la encuesta telefnica la comunicacin entre el encuestado y
encuestador se realiza mediante el telfono.
4. En la encuesta postal o por correo, se solicita a los encuestados
que respondan y devuelvan el cuestionario que se les enva por
correo.
A continuacin se presentan los distintos mtodos de encues-
ta asociados a sus ventajas e inconvenientes.
01_cap1.p65 31/03/2006, 02:31 p.m. 31
32
MTODO VENTAJAS INCONVENIENTES
Entrevista personal Elevado ndice Costo elevado
de respuesta Sesgos por influencia del
Conocimiento de entrevistador
quin brinda la Necesidad de controlar
informacin a los entrevistadores para
Reduccin de evitar errores por parte de
respuestas estos
evasivas
Facilita la
utilizacin de
material auxiliar,
como por ejemplo
el uso de tarjetas
ilustrativas para
lograr una respuesta
ms precisa
Se puede obtener
informacin por la
observacin directa
verificando las
respuestas
Encuesta telefnica Rapidez en la Falta de representatividad
obtencin de datos de la muestra (personas que
Reduccin del costo no estn, que no tienen
Permite entrevistar a telfono, etc.)
personas poco Brevedad del cuestionario
accesibles No se puede utilizar
Elevado ndice de material auxiliar
respuesta (pero menos
que en la entrevista)
Encuesta postal Reducido costo Bajo ndice de respuesta
o por correo Facilidad de acceso a No hay seguridad de quin
las personas a contesta el cuestionario
encuestar, siempre que El cuestionario debe ser
funcionen reducido
eficientemente las Falta de representatividad
oficinas postales (Entrevistados elegidos
Flexibilidad en el pueden haber cambiado de
tiempo para el domicilio)
entrevistado (puede
contestar en cualquier
momento)
Se evita la posible
influencia del
entrevistador
01_cap1.p65 31/03/2006, 02:31 p.m. 32
33
El proceso de una encuesta
Una vez planificada la encuesta, es decir, determinados los objeti-
vos de la investigacin, las necesidades de informacin que se re-
quieren y definido el tipo de encuesta, la primera fase del proceso
de realizacin de una encuesta la constituye el diseo muestral,
que implica decidir cul va a ser el universo o poblacin de la cual
se obtendr la informacin, determinar el tamao de la muestra y
la eleccin del mtodo de muestreo ms apropiado.
Luego se procede a la elaboracin del cuestionario, que estar
enmarcado por el objetivo de la investigacin y una serie de crite-
rios generales que hacen referencia al contenido, tipo y secuencia
de preguntas. Elaborado el cuestionario, es necesario aplicarlo a
una pequea submuestra para detectar posibles errores y corregir-
los, este proceso se denomina encuesta piloto.
Una vez elaborado el cuestionario final se procede a la organi-
zacin y realizacin del trabajo de campo, es decir, la obtencin
efectiva de los datos a travs del procedimiento correspondiente.
En la realizacin de las encuestas, a excepcin de las postales, el
encuestador debe estar familiarizado con el cuestionario, formular
las preguntas exactamente como aparecen escritas en el cuestiona-
rio y en el mismo orden, y es importante tambin utilizar algunas
tcnicas de indagacin para lograr que el encuestado conteste las
preguntas. En este sentido, es de gran importancia una buena se-
leccin y formacin de los entrevistadores y la supervisin del tra-
bajo de campo, siendo necesario introducir los mecanismos de con-
trol pertinentes. Por otra parte, es necesario inspeccionar los datos
obtenidos de las encuestas, con la finalidad de comprobar que los
cuestionarios estn correctamente contestados, que las respuestas
dadas sean consistentes y rechazar aquellos cuestionarios que no
sean correctos.
Todo este proceso conlleva a la creacin de la base de datos. El
anlisis de la informacin se realiza en funcin de los objetivos de
la investigacin, utilizndose los mtodos estadsticos adecuados
a travs de los distintos softwares estadsticos existentes, entre los
que destacan el SPSS (Statistical Package Social Science), MINITAB,
STATA, STATISTICA, MATLAB, etc. El anlisis de datos pueden
ser llevado a cabo en forma univariante, bivariante o multivariante.
01_cap1.p65 31/03/2006, 02:31 p.m. 33
34
La ltima etapa del proceso de investigacin la constituye la
interpretacin de los resultados obtenidos. Estos resultados con-
firmarn o no las hiptesis planteadas, si es que las hubiese, per-
mitiendo obtener conclusiones que pondrn de manifiesto la nece-
sidad de posteriores investigaciones. Por ltimo, todo el proceso
de investigacin, desde el planteamiento del problema a investi-
gar, la metodologa seguida, los resultados obtenidos hasta las
conclusiones alcanzadas, se recogern en un informe escrito con
la sntesis de todo el proceso de investigacin.
A continuacin resumiremos las etapas del proceso de reali-
zacin de una investigacin, una vez determinados los objetivos.
DISEO MUESTRAL
Determinar la unidad de anlisis
Determinar la poblacin
Determinar el tamao de la muestra
Elegir mtodo de muestreo
DISEO DEL CUESTIONARIO
Contenido de preguntas
Tipo de preguntas
Secuencia de preguntas
Pretest (encuesta piloto)
Revisin y cuestionario final
ORGANIZACIN Y REALIZACIN DEL
TRABAJO DE CAMPO
Aplicacin del cuestionario final
Consistencia (crtica y codificacin)
CREACIN DE UNA BASE DE DATOS Y
ANLISIS DE LA INFORMACIN
INTERPRETACIN DE LOS RESULTADOS
INFORME FINAL
Seleccin de la muestra
La decisin de seleccionar una muestra de la poblacin previa-
mente definida implica que se lleve a cabo un proceso de muestreo.
Mediante el muestreo se determina qu parte de la realidad en
estudio (poblacin o universo) debe ser examinada con la finalidad
de hacer inferencias sobre dicha poblacin. El error que se comete
debido a que se obtienen conclusiones sobre cierta realidad a partir
01_cap1.p65 31/03/2006, 02:31 p.m. 34
35
de la observacin de slo una parte de ella, se denomina error de
muestreo. Obtener una muestra significa lograr que sta represente
la estructura de la poblacin en estudio. Las ventajas de estudiar
una poblacin a partir de una muestra son, principalmente:
Costo reducido Si la informacin que buscamos puede ser obte-
nida a partir de una pequea parte del total de la poblacin, los
gastos de obtencin y tratamiento de los datos sern menores.
Por ejemplo, cuando se realizan encuestas previas a un refern-
dum, es ms barato preguntar a 1 000 personas su intencin de
voto, que a 5 000 000.
Mayor rapidez Por ejemplo, en un proceso electoral estamos acos-
tumbrados a observar cmo, con los resultados del escrutinio de
las primeras mesas electorales, se obtiene una aproximacin bas-
tante buena del resultado final de unas elecciones, muchas ho-
ras antes de que el recuento final de votos haya finalizado.
Mtodos de muestreo
De acuerdo con el problema de investigacin, la muestra puede ser
seleccionada a travs de un mtodo de muestreo probabilstico o
de uno no probalilstico.
Muestreo probabilstico
Los mtodos de muestreo probabilsticos nos aseguran la
representatividad de la muestra seleccionada de una poblacin de
inters. Dentro de los mtodos de muestreo probabilsticos pueden
mencionarse los siguientes:
Muestreo aleatorio simple
Muestreo sistemtico
Muestreo estratificado
Muestreo por conglomerados (cluster)
Muestreo aleatorio simple
El procedimiento consiste en asignar un nmero a cada elemento
(o individuo) de la poblacin y, a travs de algn medio mecnico
(esferas dentro de una urna, tablas de nmeros aleatorios, nme-
01_cap1.p65 31/03/2006, 02:31 p.m. 35
36
ros aleatorios generados con una calculadora o algn software
informtico, etc.), se eligen tantos elementos como sea necesario
para completar el tamao de muestra requerido. Este procedimien-
to es atractivo por ser sencillo y de fcil comprensin; sin embargo,
podra sealarse como principal desventaja que se requiere contar
con un listado completo de todos los elementos de la poblacin.
Por ejemplo, si se considera que una poblacin est conforma-
da por los 300 ingresantes a un Programa de Segunda Especializa-
cin en Educacin y se requiere entrevistar a 30 de ellos, esta selec-
cin puede ser llevada a cabo a travs de un muestreo aleatorio
simple. Se cuenta con la base de datos y de esta base de datos se
elegirn 30 ingresantes.

Los 30 nmeros son generados aleatoriamente dentro del ran-


go de 1 a 300. Los siguientes nmeros aleatorios corresponden a
las personas que sern elegidas para conformar la muestra.
Es decir, los ingresantes identificados con los nmeros 197,
4,, 211 son los seleccionados para llevar a cabo el estudio.
01_cap1.p65 31/03/2006, 02:31 p.m. 36
3
Muestreo aleatorio sistemtico
Este procedimiento exige, como el anterior, enumerar todos los ele-
mentos de la poblacin, pero, en lugar de extraer n nmeros
aleatorios, slo se extrae uno. Se parte de ese nmero aleatorio i,
que es un nmero elegido al azar entre 1 y k, siendo
/ k N n =
, y
los elementos que integran la muestra son los que ocupan las posi-
ciones i, i+k, i+2k, i+3k,..., i+(n-1)k; es decir, se seleccionan los ele-
mentos de k en k.
Considerando la base de datos de los 300 ingresantes al Pro-
grama de Segunda Especializacin en Educacin, se desea obtener
una muestra de 30 estudiantes. Se tiene que: N=300, n=30, k=300/
30=10 y se elige aleatoriamente un nmero entre 1 y 10. En este
caso se eligi i =3. As, los ingresantes que conformarn la muestra
son:
y de ellos se toma la informacin requerida.
Muestreo aleatorio estratificado
Este tipo de muestreo pretende asegurar la representacin de una
poblacin conformada por un conjunto de subpoblaciones o estra-
tos, atendiendo a criterios que puedan ser importantes en el estu-
dio. Los estratos poseen gran homogeneidad respecto a alguna
caracterstica; se puede estratificar, por ejemplo, segn el colegio
de procedencia, segn la profesin, la regin de residencia, el sexo,
el estado civil, etc. Lo que se pretende con este tipo de muestreo es
asegurar que todos los estratos de inters estn representados ade-
cuadamente en la muestra. Cada estrato funciona independiente-
mente, pudiendo aplicarse dentro de ellos el muestreo aleatorio
para elegir los elementos que conformarn parte de la muestra.
Cuanto ms homogneos sean los estratos, ms precisas sern las
01_cap1.p65 31/03/2006, 02:31 p.m. 37
38
estimaciones. Es por ello importante conocer la estructura de la
poblacin con relacin a los estratos que la conforman, para que la
estructura de la muestra represente verdaderamente a la pobla-
cin, debiendo asignar una ponderacin o peso a cada uno de los
elementos de la poblacin en funcin a los estratos considerados.
Supongamos que estamos interesados en estudiar el grado de
aceptacin que la implantacin de la reforma educativa ha tenido
entre los padres de una determinada provincia. A tal efecto selec-
cionamos una muestra de 600 padres de familia. Conocemos por
los datos del ministerio que, de los 10 000 nios escolarizados en
las edades que nos interesan, 7 000 acuden a colegios pblicos y
3 000 a colegios privados. Como estamos interesados en que en la
muestra estn representados los dos tipos de colegio, realizamos
un muestreo estratificado empleando como variable de estratifica-
cin el tipo de centro educativo.
En este caso se cuenta con dos estratos y, por ser de diferentes
tamaos, se calcular la proporcin de elementos para cada uno
de los estratos.
Ponderacin para los colegios pblicos: 7 000/10 000=0,70
Ponderacin para los colegios privados: 3 000/10 000=0,30
La suma de las ponderaciones debe ser la unidad y, para co-
nocer el tamao de cada estrato en la muestra, se multiplica su
respectiva ponderacin por el tamao de la muestra. Los resulta-
dos se presentan a continuacin.
ESTRATO PONDERACIN TAMAO DE LA MUESTRA
COLEGIO PBLICO 0,70 0,70 x 600 = 420
COLEGIO PRIVADO 0,30 0,30 x 600 = 180
TOTAL DE ELEMENTOS DE LA MUESTRA 600
Es decir, sern entrevistados 420 padres de familia cuyos hi-
jos estudian en colegios pblicos y 180 padres de familia cuyos
hijos estudian en colegios privados.
01_cap1.p65 31/03/2006, 02:31 p.m. 38
39
Muestreo aleatorio por conglomerados
En el muestreo por conglomerados, la unidad muestral es un grupo
de elementos de la poblacin que forman una unidad, a la que se le
denomina conglomerado. El muestreo por conglomerados consiste
en seleccionar aleatoriamente un cierto nmero de conglomerados
(el necesario para alcanzar el tamao muestral establecido) y en
investigar despus todos los elementos pertenecientes a los conglo-
merados elegidos si as lo requiere el tamao de la muestra, o sola-
mente muestrear algunos de los elementos de cada uno de los con-
glomerados hasta completar el tamao de la muestra.
Dependiendo de la complejidad del problema al que nos en-
frentamos se elegir el mtodo de muestreo probabilstico ms
adecuado.
Mtodos de muestreo no probabilsticos
En muchos estudios, el muestreo probabilstico resulta excesiva-
mente costoso y se acude a mtodos no probabilsticos, aun siendo
conscientes de que no se puede realizar inferencias, pues no se
tiene la certeza de que la muestra elegida represente la estructura
de la poblacin. En general se selecciona a los sujetos siguiendo
determinados criterios, procurando que la muestra sea representa-
tiva. Dentro de los mtodos de muestreo no probabilsticos pueden
mencionarse a los siguientes:
Muestreo por cuotas
Muestreo intencional
Muestreo casual
Bola de nieve
Muestreo por cuotas
Se sustenta en el conocimiento de los estratos de la poblacin y de
los elementos ms representativos o adecuados para los fines
de la investigacin. Mantiene, por tanto, semejanzas con el muestreo
aleatorio estratificado, pero no tiene el carcter de aleatoriedad. En
este tipo de muestreo se fijan unas cuotas, que pueden consistir de
un nmero de individuos que renen determinadas condiciones.
Por ejemplo, el Ministerio de Educacin tiene como objetivo estudiar
la incidencia de las drogas en la adolescencia. Para ello se tendra
que conocer a travs de los informes de la Consejera de Educacin
01_cap1.p65 31/03/2006, 02:31 p.m. 39
40
cules son los centros ms afectados por el problema, fijar un nme-
ro de estudiantes a entrevistar proporcional a cada uno de los cen-
tros educativos (cuotas) y finalmente dejar en manos de los especia-
listas la eleccin de los alumnos que se deber entrevistar.
Muestreo intencional
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de
obtener muestras mediante la inclusin en la muestra de grupos
supuestamente representativos. Es muy frecuente su utilizacin
en sondeos preelectorales de zonas que en anteriores votaciones
han marcado tendencias en su intencin de voto.
Muestreo casual o incidental
Este procedimiento consiste en conformar la muestra con elemen-
tos de fcil acceso. Un caso particular es el de los voluntarios.
Bola de nieve
Se localiza a algunos individuos, los cuales conducen a otros, y
estos a otros, y as hasta conseguir una muestra del tamao reque-
rido. Este tipo de muestreo se emplea muy frecuentemente cuando
se hacen estudios con poblaciones marginales: delincuentes,
sectas, determinados tipos de enfermos, etc.
Diseo del Cuestionario
El cuestionario es el esquema formalizado que contiene las pre-
guntas a realizar y los espacios destinados a las respuestas con la
finalidad de recolectar la informacin de los encuestados; es decir,
el cuestionario es la traduccin de los objetivos de la investigacin
en preguntas especficas.
El diseo del cuestionario es un elemento clave en el proceso
de realizacin de una encuesta, en gran medida condicionada por
lo acertado que sea el diseo de las preguntas. De ah el conocido
dicho de que la realizacin del cuestionario es ms un arte que una
tcnica, pues no existen principios que garanticen la elaboracin
de un cuestionario efectivo y eficiente. El diseo del cuestionario es
una tcnica aprendida por el investigador a travs de su experien-
cia, y de esta experiencia acumulada han surgido una serie de
01_cap1.p65 31/03/2006, 02:31 p.m. 40
41
reglas o pautas que pueden ser de gran utilidad para disear un
cuestionario y que hacen referencia al tipo o formato de preguntas
a utilizar, a su redaccin y al orden o secuencia de las preguntas.
Tipo de preguntas en los cuestionarios
El elemento bsico del cuestionario, como se deduce claramente de
su nombre, son las preguntas. Es por ello que la bondad de un cues-
tionario depende de la clase de preguntas empleadas en ste y de su
adecuada formulacin. Por tanto, las preguntas del cuestionario se
subdividen en respuestas, que son los elementos de variacin o cate-
goras de la variable a que se refiere la pregunta. Existe una amplia
tipologa de preguntas y diversas formas de clasificacin.
En funcin del tipo de respuesta podemos distinguir los si-
guientes tipos de preguntas:
Preguntas abiertas. Son aqullas en las que no se establece nin-
gn tipo de respuesta, dejando sta al libre arbitrio del encuestado.
Es decir, la respuesta del encuestado no est previamente defini-
da y el encuestador se limita a registrar al pie de la letra la res-
puesta obtenida.
Preguntas cerradas. Son aqullas en las que el encuestado se
limita a elegir una de las respuestas definidas previamente en el
cuestionario; las respuestas se conocen a priori y estn totalmente
precodificadas.
Ambos tipos de preguntas tienen sus ventajas y limitaciones.
Con las preguntas abiertas siempre se pueden descubrir nuevas
respuestas y opiniones que no se haban tenido en cuenta y se
consigue evitar que las respuestas obtenidas puedan estar sesgadas
por la lnea de hiptesis del investigador. Sin embargo, para poder
analizar cuantitativamente este tipo de preguntas es necesario agru-
par las respuestas y codificarlas con posterioridad, lo cual entraa
cierta dificultad y lleva tiempo. Son especialmente adecuadas en
investigaciones exploratorias o cuando no se tiene mucho conoci-
miento sobre las respuestas posibles.
Las preguntas cerradas, por el contrario, son ms fciles de
contestar dado que requieren un menor esfuerzo por parte del
encuestado y, lgicamente, no es necesario ni agruparlas ni
01_cap1.p65 31/03/2006, 02:31 p.m. 41
42
codificarlas con posterioridad. Por ello, suelen ser las preguntas
ms utilizadas en los cuestionarios.
Una alternativa intermedia entre las preguntas cerradas y
abiertas y de uso frecuente en los cuestionarios es la utilizacin de
preguntas semiabiertas, es decir, preguntas cerradas con un tem
abierto para reservar la posibilidad de incorporar otras respuestas
diferentes de las previamente seleccionadas.
En las preguntas cerradas, a su vez, podemos distinguir entre:
Preguntas dicotmicas: son las que tienen dos nicas respuestas.
Preguntas con un abanico de respuestas: son aqullas en las que
el encuestado debe elegir entre un determinado nmero de res-
puestas posibles. En este tipo de preguntas, cuando las posibles
opciones de respuesta son numerosas, es conveniente utilizar
una tarjeta
*
en vez de leer las respuestas, con el objeto de impedir
que unas respuestas tengan ms probabilidad de ser elegidas
que otras ya que, cuando el nmero de respuestas es relativa-
mente grande, las ltimas tienen ms probabilidad de ser recor-
dadas que las primeras. Este tipo de preguntas con tarjetas tam-
bin es conveniente en preguntas con respuestas difciles o que
puedan producir cierto rechazo al contestarlas.
Preguntas de escala subjetiva: son aqullas preguntas en que las
respuestas se gradan en intensidad creciente o decreciente so-
bre el punto de informacin deseado. Es decir, el encuestado se
posiciona subjetivamente respecto a las diferentes categoras de
respuesta en la que ms se ajusta a su opinin.
Preguntas de escala subjetiva numrica: Son similares a las ante-
riores, pero con posiciones numricas.
Preguntas cuadro: Se utilizan principalmente para obtener ms
de una informacin, que se recoge normalmente en cuadros de
doble entrada.
Hay otro tipo de preguntas que tienen funciones especiales
dentro del cuestionario, que constituyen mecanismos especiales
de indagacin o sirven a distintos fines de informacin:
Pregunta filtro: Son preguntas cerradas, con pocas opciones (nor-
malmente son preguntas dicotmicas), de cuyas respuestas de-
pende hacer o no preguntas posteriores. En definitiva, este tipo
de preguntas constituye una bifurcacin en el cuestionario.
01_cap1.p65 31/03/2006, 02:31 p.m. 42
43
Pregunta de control: Suelen utilizarse frecuentemente en los cues-
tionarios con el objeto de comprobar la veracidad y la coherencia
de las respuestas que se han dado anteriormente.
Pregunta de consistencia: Son preguntas similares a las de con-
trol, que tienen por objeto comprobar la consistencia de las res-
puestas del entrevistado. Se trata de preguntas similares, pero
redactadas de distinta forma, que se sitan espaciadas entre s
para ver si las respuestas de ambas preguntas son congruentes.
Pregunta de introduccin o de contacto: Son las que se hacen par
iniciar el cuestionario o para pasar de un tema a otro, con el
objeto de crear un clima de confianza e inters en el entrevistado.
Estructura del cuestionario
Al redactar las preguntas hay que tener tambin especial cuidado
en el orden en que se incluyen en el cuestionario, ya que la secuen-
cia de las preguntas puede influir en la naturaleza de las respues-
tas del encuestado y, por consiguiente, sesgarlas. Para ello existe
una serie de pautas generales que pueden ser muy tiles en la
estructuracin del cuestionario:
Al comenzar el cuestionario se debe incluir una presentacin
solicitando la cooperacin del encuestado y especificando los ob-
jetivos de la investigacin, quin la realiza y una declaracin ex-
plcita de que la informacin que se facilita tendr un tratamiento
global, ya que la garanta de anonimato de un cuestionario es fun-
damental para crear una buena disposicin a contestar.
Luego, se deben incluir dos secciones bien diferenciadas: la
seccin I, correspondiente a la identificacin de la unidad de an-
lisis, y la seccin II, con las correspondientes subsecciones relacio-
nadas a las caractersticas generadas por la unidad de anlisis.
La primera pregunta debe ser de carcter general, sencilla y
potencialmente de inters del encuestado. En ocasiones, esta pre-
gunta de carcter introductorio no se relaciona con las necesida-
des de informacin de la investigacin, ya que su nico objetivo es
lograr la cooperacin del encuestado y establecer una relacin de
armona con l.
Las preguntas de tipo general deben preceder a las preguntas
ms especficas.
01_cap1.p65 31/03/2006, 02:31 p.m. 43
44
Generalmente las preguntas ms sencillas deben ir al princi-
pio del cuestionario, reservando las ms comprometidas para el
final y dejar el espacio intermedio para las ms sustantivas e im-
portantes de la investigacin. Es decir, las preguntas menos pro-
blemticas deben formularse inicialmente, y de forma gradual se
introducirn las preguntas ms complejas y personales.
El flujo en el proceso de las preguntas debe ser lgico, de acuer-
do con la perspectiva del encuestado y, al mismo tiempo, las pre-
guntas deben agruparse en funcin de su temtica para evitar el
desconcierto del entrevistado, haciendo preguntas relativas a un
mismo tema en diferentes fases de la entrevista.
Realizacin del pretest: encuesta piloto
Una vez diseado el cuestionario aplicando las reglas anterior-
mente expuestas, ste debe ser probado entre una submuestra pe-
quea con objeto de detectar posibles problemas que puedan sur-
gir en el cuestionario. En esta prueba preliminar es aconsejable
utilizar encuestadores experimentados para detectar posibles pre-
guntas que originen confusin en el encuestado, palabras que no
se entiendan, problemas que se pueden presentar en las categoras
normalizadas de las preguntas cerradas, etc. Asimismo, el formato
de respuesta abierta puede utilizarse en este pretest para determi-
nar las categoras de respuestas ms apropiadas o frecuentes y,
posteriormente, convertirla en una pregunta cerrada.
Algunas de las situaciones que determinan un mal diseo del
cuestionario son el nmero de negativas a contestar preguntas,
una alta proporcin de no sabe/ no contesta y tambin pregun-
tas en blanco. A no ser que se haya seleccionado errneamente la
muestra y, por ejemplo, se pretenda investigar un tema muy espe-
cializado entre personas con poca formacin, no es normal que el
porcentaje de preguntas en blanco o que no se saben contestar
supere el 10% si el cuestionario est bien diseado. Cuando ocu-
rren estos casos, habr que investigar las causas de los problemas
y corregir los errores detectados hasta llegar a la redaccin del
cuestionario definitivo.
En relacin con el nmero de personas que constituyen la
submuestra de esta prueba preliminar, depende de las caractersti-
cas de la muestra, aunque normalmente suele oscilar entre 25 y 50
01_cap1.p65 31/03/2006, 02:31 p.m. 44
45
personas y, lgicamente, las personas que integran la submuestra
deben coincidir en sus caractersticas con la muestra de la investi-
gacin definitiva.
Codificacin de las respuestas
La codificacin de las respuestas tiene por objeto facilitar el ingre-
so de los datos al computador para su posterior procesamiento y
anlisis. Consiste en asignar a cada una de las preguntas que inte-
gran el cuestionario un nmero diferente y, a su vez, cada catego-
ra de respuesta correspondiente a las distintas preguntas llevar
asociada tambin un nmero o cdigo distinto para poder identifi-
car la respuesta con su correspondiente cdigo; el encuestador se
limitar, en el caso de preguntas cerradas, a trazar un crculo alre-
dedor del cdigo correspondiente. Para las preguntas abiertas, la
codificacin de las respuestas se tiene que realizar forzosamente
con posterioridad a la realizacin del trabajo de campo.
El trabajo de campo
El trabajo de campo es aquella etapa del proyecto de investigacin
durante la cual los encuestadores se ponen en contacto con los
encuestados, reciben los cuestionarios para recoger la informacin,
registran los datos y devuelven los cuestionarios para su posterior
control y procesamiento.
La planificacin del trabajo de campo es un aspecto bsico en el
proceso de toda investigacin y su desarrollo depende del mtodo
de obtencin de la informacin que se utilice; as, el trabajo de campo
para un estudio basado en entrega personal es totalmente distinto
al de una investigacin usando el correo.
Recomendaciones en el proceso de la entrevista
En las entrevistas personal y telefnica, el encuestador puede ser
una fuente de errores relacionados con (a) falta de armona entre el
entrevistador y el encuestado, (b) la formulacin incorrecta de las
preguntas, (c) errores en el registro de las respuestas y (d) falsea-
miento de las encuestas. A continuacin analizamos brevemente
los aspectos ms relevantes que hacen referencia a los cuatro ele-
mentos anteriormente reseados, para obtener mejores resultados
en el proceso de la entrevista.
01_cap1.p65 31/03/2006, 02:31 p.m. 45
46
Armona entre el entrevistador y el encuestado
Durante una entrevista, la percepcin del encuestado acerca del
encuestador puede afectar directamente a la capacidad de este lti-
mo para establecer una armona adecuada, ya que los entrevistado-
res que pueden establecer relaciones efectivas con los encuestados
son capaces de recoger informacin ms completa y exacta.
En el caso de la entrevista, la forma de vestir del entrevistador
y su compostura son importantes para establecer una buena armo-
na, ya que la mayora de las personas los consideran como
indicadores de las actitudes de las personas. En este sentido, la
conducta del encuestador debe ser de gran amabilidad y el
encuestado debe ver al entrevistador como una persona capaz de
entender sus puntos de vista.
Formulacin de las preguntas por parte del encuestador
Se ha desarrollado una serie de pautas apropiadas para la mayo-
ra de las situaciones de entrevista, que a continuacin brevemente
reseamos.
a) Estar muy familiarizado con el cuestionario. El encuestador debe
estudiar el cuestionario pregunta por pregunta para evitar co-
meter errores en su lectura. Las preguntas se deben leer de la
forma ms natural posible y en un tono de conversacin.
b) Formular las preguntas exactamente como aparecen escritas en
el cuestionario. El entrevistador no debe realizar cambios en la
formulacin de las preguntas, tales como dejar de leer una parte
de la pregunta, cambiar palabras o agregarlas, etc., ya que puede
distorsionar el resultado de la investigacin.
c) Formular las preguntas en el orden en que aparecen en el cuestio-
nario. En el diseo del cuestionario se estableci la secuencia de
las preguntas de forma que exista un sentido de continuidad en el
tema tratado y se eviten sesgos en la obtencin de la informacin.
d) Formular cada una de las preguntas especificadas en el cuestio-
nario. La respuesta del encuestado a una de las preguntas puede
contestar otra de las preguntas que aparecen despus en el cues-
tionario. En esta situacin, el entrevistador no debe omitir la pre-
gunta que parece haber sido contestada con anterioridad, ya que
puede ser una pregunta de control.
01_cap1.p65 31/03/2006, 02:31 p.m. 46
4
e) Utilizar tcnicas de indagacin para lograr que el encuestado
conteste la pregunta. Las preguntas han sido diseadas para
que las contesten todos los encuestados que forman parte de la
muestra; sin embargo, en ocasiones puede ocurrir que el
encuestado no comprenda o interprete mal la pregunta, que
rehse a contestarla o que d una informacin incompleta o
ambigua. En estos casos, el entrevistador debe utilizar ciertas
tcnicas neutrales de indagacin como son las siguientes:
Repetir la pregunta. Un enfoque muy efectivo consiste en
repetir la pregunta exactamente como aparece escrita en el
cuestionario.
Pausa de expectativa. Si el entrevistador permanece en si-
lencio o hace una pausa, el encuestado tomar conciencia
de que se espera una respuesta ms completa.
Repetir la respuesta del encuestado. Con frecuencia se esti-
mula a los encuestados para que hagan comentarios adi-
cionales despus de repetirles lo que han expresado. Esto
puede hacerse mientras el entrevistador registra la respues-
ta en el cuestionario.
Tranquilizar al encuestado. Si el encuestado duda al res-
ponder, puede ser de gran utilidad realizar comentarios
neutrales como los siguientes: no existen respuestas correc-
tas o incorrectas, slo queremos sus ideas sobre el tema o
solamente estamos tratando de conocer las ideas de las per-
sonas acerca de este tema.
Preguntas o comentarios neutrales. Cuando la respuesta del
encuestado es un tanto incompleta, se puede recurrir a pre-
guntas neutrales, tales como algo ms?, alguna otra
razn?, podra decirme algo ms de lo que piensa sobre
esto?, qu quiere decir?.
Solicitar una aclaracin ms detallada. Al formular la pre-
gunta no estoy muy seguro de lo que usted quiere decir con
eso podra explicrmelo un poco mejor?, el encuestado pue-
de sentir el deseo de cooperar con el encuestador y dar una
informacin ms detallada de su respuesta.
01_cap1.p65 31/03/2006, 02:31 p.m. 47
48
Registro de respuesta
El encuestador debe registrar las respuestas aportadas por el
encuestado de una manera imparcial para que se puedan interpre-
tar con precisin por parte de los codificadores. Para ello es nece-
sario que registre la respuesta en el mismo momento en que el
encuestado la expresa, utilizar las mismas palabras del encuestado,
no resumir o parafrasear las respuestas del encuestado, incluir
comentarios entre parntesis, mantener el inters del encuestado
repitiendo la respuesta cuando se escribe, emplear letra legible y,
en caso de preguntas en blanco, explicar los motivos de no contes-
tar la pregunta.
Falseamiento de las encuestas
Para evitar que pueda producirse falsificacin de las encuestas
por parte de los encuestadores, es necesario introducir mecanis-
mos de control que nos permitan garantizar la bondad del trabajo
de campo realizado. A continuacin se analizarn los sistemas de
control ms comnmente utilizados para asegurar la veracidad de
la informacin obtenida.
Control del trabajo de campo
Teniendo presente que la base de toda investigacin descansa en
la veracidad de la informacin recogida, es necesario controlar que
los datos sean ciertos y que procedan realmente de la muestra se-
leccionada. Para verificar esto, en las encuestas personales es ne-
cesario que los supervisores o jefes de seccin realicen un exhaus-
tivo control a travs de la revisin de una pequea muestra de las
encuestas realizadas por cada encuestador. Los sistemas de con-
trol utilizados habitualmente pueden ser directos o indirectos.
Los sistemas de control directos se basan en un control perso-
nal o telefnico, realizando nuevamente la encuesta o preguntan-
do si realmente le realizaron la encuesta en la fecha indicada. El
porcentaje de encuestas que se recomienda controlar personal o
telefnicamente oscila entre un 10% 15%, dependiendo de la con-
fianza que se tenga en los encuestadores.
Los sistemas de control indirectos consisten en un anlisis
interno y comparativo de los cuestionarios complementados por
01_cap1.p65 31/03/2006, 02:31 p.m. 48
49
cada entrevistador. Entre los mtodos ms utilizados podemos
destacar los siguientes:
El control de curvas de estabilidad: Se establece a travs de la
tabulacin de los cuestionarios de un solo entrevistador, en or-
den secuencial de realizacin de su trabajo. Un nmero elevado
de respuestas en el mismo sentido para alguna pregunta, supe-
rior a las dadas por otros entrevistadores, supone un control
ms estricto de su trabajo.
El control de consistencia de preguntas: Se comprueba si exis-
ten las mismas respuestas o ausencia de las mismas en las pre-
guntas de los cuestionarios de los encuestadores.
I nforme sobre los resultados de la investigacin
La ltima etapa de una investigacin la constituye la redaccin
final del informe, es decir, un documento escrito que incluye las
diferentes etapas realizadas durante el proceso de la investiga-
cin, y donde se exponen los resultados y conclusiones extradas
del anlisis de manera organizada y coherente.
Lgicamente, no existe un modelo nico de informe, ste de-
pende del tipo de investigacin llevada a cabo, la metodologa uti-
lizada, los objetivos planteados y de quines recibirn esta infor-
macin. Desde este ltimo punto de vista se pueden distinguir dos
tipos de informes: (a) informes tcnicos, que son los destinados a
personas con alta formacin tcnica, para los cuales cobran singu-
lar relevancia los detalles relativos a la metodologa utilizada;
(b) informes divulgativos, que estn destinados a personas mu-
chas veces poco familiarizadas con detalles tcnicos, por lo que en
este tipo de informes los detalles tcnicos tienen mucho menos
inters que las conclusiones y recomendaciones que contenga, pues
se supone que sobre esta informacin van a tomarse las decisiones.
En los informes deben combinarse ambos enfoques, dando mayor
importancia a uno de los enfoques dependiendo del destino del
informe.
Si bien no existe un formato nico y especfico que defina la
estructura de un informe, en trminos generales podemos estable-
cer una estructura comn como la ms frecuentemente utilizada:
01_cap1.p65 31/03/2006, 02:31 p.m. 49
50
a) Cartula. Debe contener un ttulo que resuma la esencia del estu-
dio, la fecha, el nombre de quien presenta el informe y el nombre
de la organizacin a quien va dirigido el informe.
b) ndice de Contenidos. Con el fin de ayudar a los lectores a en-
contrar secciones especficas que puedan ser de mayor inters,
en el ndice se enumeran en forma secuencial los temas que se
encuentran en el informe, junto con referencias de las pginas.
En algunas ocasiones tambin se utiliza un ndice de tablas (fi-
guras, ilustraciones, grficos) para enumerar los ttulos y nme-
ros de pgina de todas las ayudas visuales.
c) Introduccin. El objetivo de la introduccin es proporcionar al
lector la informacin bsica (antecedentes) necesaria para enten-
der el resto del informe. La naturaleza de la introduccin est
condicionada por la diversidad de la audiencia y su familia-
rizacin con el proyecto de investigacin. Cuanto ms diversa sea
la audiencia, ms extensa ser la introduccin. En trminos gene-
rales, en la introduccin se debe explicar claramente la naturaleza
del problema y los objetivo de la investigacin.
d) Metodologa. En los apartados que integran esta seccin se deta-
llan las fuentes de informacin utilizadas, los aspectos relacio-
nados con el diseo de la muestra y el mtodo utilizado en la
obtencin de informacin. En definitiva, la seccin de metodolo-
ga debe resumir los aspectos tcnicos del proyecto de investiga-
cin en un estilo comprensible y permitir desarrollar una con-
fianza en la calidad de los procedimientos utilizados.
e) Resultados El cuerpo del informe est compuesto por los resulta-
dos de la investigacin, los cuales deben estructurarse en funcin
de los objetivos que se persiguen. Es decir, los resultados deben
estructurarse en un flujo lgico de informacin y no debemos limi-
tarnos a ofrecer una serie de frecuencias de respuesta, una para
cada pregunta del cuestionario. Ello reflejara una falta de creati-
vidad y empeo. Con frecuencia, en la presentacin de resultados
se emplean tablas, grficos e ilustraciones para explicar las dife-
rentes relaciones entre las diversas variables analizadas.
f) Conclusiones y recomendaciones. Las conclusiones tratan de
resumir los principales resultados que merecen especial aten-
cin para, sobre la base de estas conclusiones, hacer las reco-
mendaciones ms pertinentes.
01_cap1.p65 31/03/2006, 02:31 p.m. 50
51
g) Anexos o apndices. Se incluyen temas de apoyo que no son
absolutamente esenciales en el cuerpo del informe, pero que son
necesarios para la comprensin del informe: copia de cuestiona-
rio o formato de obtencin de la informacin, clculos del plan
de muestreo, clculos estadsticos y tablas estadsticas, que no
deben incluirse en el cuerpo del informe.
h) Bibliografa. Debe incluir todas las publicaciones o fuentes con-
sultadas en la realizacin de la investigacin.
A continuacin se presentan dos ejemplos de cuestionarios.
El Cuestionario 1, que tiene como objetivo estudiar las caractersti-
cas acadmicas y socioeconmicas de los ingresantes a la E.A.P. de
Estadstica de la Facultad de Ciencias Matemticas de la Universi-
dad Nacional Mayor de San Marcos en el proceso de admisin
2005; y el Cuestionario 2, que tiene como objetivo estudiar las ca-
ractersticas acadmicas de los profesores de educacin secunda-
ria que cursan estudios de Maestra en Educacin Superior en la
Facultad de Educacin de la Universidad Nacional Mayor de San
Marcos.
01_cap1.p65 31/03/2006, 02:31 p.m. 51
52
CUESTIONARIO 1
ESTUDIO DE LAS CARACTERSTICAS ACADMICAS Y
SOCIOECONMICAS DE LOS INGRESANTES A LA ESCUELA DE
ESTADSTICA DE LA FCM DE LA UNMSM EN EL PROCESO DE
ADMISIN 2005
Estimado estudiante:
Se ha diseado la presente investigacin como parte de la actividad aplicativa
N 1 del curso de Estadstica I-Semestre 2005-I, para evaluar algunas carac-
tersticas acadmicas de los ingresantes a la Escuela Acadmico Profesional
de Estadstica de la Facultad de Ciencias Matemticas de la UNMSM en el
proceso de admisin 2005. La informacin que proporcione es estrictamente
confidencial y slo ser utilizada dentro de los objetivos del curso.
Marque con un aspa (X) o escriba la respuesta que elija, segn sea el caso.
I.- IDENTIFICACIN
Nmero de matricula:
Grupo:
II.- CARACTERSTICAS GENERALES
A.-Caractersticas personales
1.-Sexo: Masculino 1 Femenino 2
2.- Edad (aos cumplidos)

3.- Estado civil: Soltero 1 Casado 2
Otros 9 (especificar) ________________
4.-Nmero de hermanos (t no te incluyas)

5.- Actualmente, dnde resides?
Hogar (con los padres) 1
Casa Pensin 2
Residencia Universitaria 3
Alojado con familiares 4
Otros 9 (especificar) ____________
6.-Dnde se encuentra ubicada tu vivienda actual?
Distrito ____________________________________
7.- Cunto tiempo tardas en trasladarte de tu vivienda a la universidad?
(en minutos)

01_cap1.p65 31/03/2006, 02:31 p.m. 52
53
8.- Diariamente dnde tomas tus alimentos?
Lugar Desayuno Almuerzo Cena
Hogar
Comedor
Universitario
Cafetera /
restaurante
Pensin
9.-En qu lugares de tu vivienda haces tu tarea y estudias con mayor
frecuencia?
Sala 1 Comedor 2 Dormitorio 3


Cocina 4

Sala de estudio 5 Otros 9______________
(especificar)
B.- Caractersticas Acadmicas
10.- Tipo de colegio donde estudiaste la secundaria
Estatal 1
Particular laico 2
Particular religioso 3
Parroquial 4
11.- Ubicacin del colegio donde terminaste la secundaria
Departamento __________________
Provincia __________________
Distrito __________________
12.- Ao en que egresaste de la secundaria

13.-Promedio de notas global en secundaria

14.-Promedio de notas en matemticas en secundaria

15.- Cmo te preparaste para postular?
Academia 1
Centro Pre UNMSM 2
En casa (solo) 3
Otro _____________ 9
(especificar)
16.-Cunto tiempo te preparaste para postular (meses)?

01_cap1.p65 31/03/2006, 02:31 p.m. 53
54
17.-Por qu medio te informaste acerca de la carrera de Estadstica?
Prospecto 1
Charla vocacional 2
Otro ______________ 9
(especificar)
18.-Qu fue lo que te motiv seguir la carrera de Estadstica?
___________________________________________________________________
19.-Por cul de las modalidades ingresaste?
Concurso de admisin 1
Pre UNMSM 2
1 Puesto de
secundaria 3
Otro 9 _________________
(especificar)
20.- Cul fue tu puntaje al ingresar?

21.- Antes de ingresar a Estadstica estudiaste alguna carrera?
S 1 cul?______________________________
No 2
22.- Idioma que conoces
Idioma Leo Escribo Hablo
Ingls
Francs
Portugus
Otro (especifique)
23.- Qu conocimientos de informtica tienes?
Windows 1
Word 2
Excel 3
PowerPoint 4
Internet 5
Otro 9 _______________
(especificar)
01_cap1.p65 31/03/2006, 02:31 p.m. 54
55
C.- Caractersticas Socioeconmicas
24.- Qu deportes practicas?
Ninguno 1
Ftbol 2
Voley 3
Basquet 4
Otro 9 _________________
(especificar)
25.- Practicas alguna expresin artstica?
Msica 1
Canto 2
Pintura 3
Dibujo 4
Baile 5
Otros 9 _________________
(especificar)
26.- Asistes a eventos culturales
S 1 No 2 A veces 3
27. Te gusta la lectura?
S 1 No 2
28.- Qu diarios se compran en tu casa (por lo menos una vez a la semana)?
Ninguno 1
El Comercio 2
La Repblica 3
La Razn 4
Otro 9 __________________
(especificar)
29.- Lees los diarios que se compran en tu casa?
S 1
No 2
30 Trabajas?
S 1
No 2
01_cap1.p65 31/03/2006, 02:31 p.m. 55
56
31.- Qu tipo de trabajo es?
Negocio familiar remunerado

1
Negocio familiar no remunerado

2
Trabajo remunerado

3
Otro

9 ___________________
(especificar)
32.- Cuntos das a la semana trabajas?

33.-En promedio, cuntas horas por da inviertes en tu trabajo?

34.- Aproximadamente, cunto es tu salario mensual? S/.________
35.-Cul es el ingreso mensual de tu familia? (sumando los aportes de
todos los miembros de la familia que trabajan) S/._________
36.- Quin te apoya econmicamente para que puedas estudiar?
Padres 1
Hermanos 2
Otros 9 ______________
(especificar)
Muchas gracias
01_cap1.p65 31/03/2006, 02:31 p.m. 56
5
CUESTIONARIO 2
ESTUDIO DE LAS CARACTERSTICAS ACADMICAS DE LOS
PROFESORES QUE CURSAN ESTUDIOS EN LA MAESTRA EN
EDUCACIN SUPERIOR DE LA FACULTAD DE EDUCACIN
DE LA UNMSM INGRESANTES 2005
Estimado profesor:
Entendindose que, en el mbito educativo, el profesor es el recurso humano
fundamental y su desarrollo cientfico y pedaggico constituye una premisa
esencial para lograr calidad en la formacin del educando, se ha diseado la
presente investigacin con el objetivo de estudiar algunas caractersticas aca-
dmicas de los profesores que cursan estudios de Maestra en Educacin
Superior de la Facultad de Educacin de la UNMSM. La informacin que
proporcione es estrictamente confidencial y ser muy til para la realizacin
de una investigacin educativa sobre el desarrollo de los profesores en el
mbito profesional de su competencia. Muchas gracias.
Marque con u aspa (X) o escriba la respuesta que elija, segn sea el caso.
I. Identificacin
Cdigo

1. Edad:

aos
2. Sexo: Femenino

1
Masculino 2
3. Estado civil: Soltero 1 Casado

2 Conviviente 3
Viudo 4 Separado

5 Divorciado 6
4. Profesin: ____________________________
Especialidad: _________________________
5. Centro universitario de estudios:
____________________________________________________
6. Ao en que termin su carrera:

7. Ao en el que inici su actividad como profesor:

8. Nivel de enseanza:
Inicial 1 Primaria 2 Secundaria

3
9. Grado acadmico actual:
Bachiller 1 Magster 2 Doctor 3
01_cap1.p65 31/03/2006, 02:31 p.m. 57
58
10.Por qu escogi ser profesor?
Por vocacin

1
Porque lo consider una va para mi desarrollo personal, para luego estudiar
otra carrera.

2
Porque exista necesidad de profesores 3
Porque lo consider una carrera fcil 4
11.Se siente usted motivado en su actividad como profesor?
S 1 No

2 Por qu? ______________________________________
12 Cree usted que la institucin en la cual labora promueve su capacita-
cin docente?
S

1 No 2 Por qu? _____________________________________
13. Actualizacin docente durante el ao 2004, seale:
Nmero de cursos de actualizacin a los que asisti 1
Nmero de conferencias en las que particip 2
Nmero de libros de cultura general que compr 3
14. Seale el factor ms importante que mejorara su trabajo en el aula.
Mejores sueldos 1
Capacitacin en su especialidad 2
Capacitacin en otras reas. 3 Cul? _______________________
Muchas gracias
01_cap1.p65 31/03/2006, 02:31 p.m. 58
59
Ejercicios
1.- Un grupo de investigadores en el rea de Psicologa y Sociolo-
ga muestran su preocupacin por el nivel de contenido sexual
presente en los videos musicales. Inician su investigacin en el
distrito de Lince y para ello realizan una encuesta a jvenes entre
12 y 18 aos mediante una entrevista. Del cuestionario aplicado se
han extrado las siguientes preguntas:
I) Cunto tiempo dedicas diariamente a ver videos musicales con
contenido sexual?
II) Es muy importante para ti ver este tipo de videos?
III) Cul es tu edad?
IV) En qu colegio estudia o estudi la secundaria?
Identifique:
a) Poblacin
b) Muestra
c) Unidad Estadstica
d) Variables segn las preguntas seleccionadas y su respectiva cla-
sificacin
2.- El Director del Colegio Nacional Pedro A. Labarthe est intere-
sado en averiguar si los estudiantes con altos coeficientes de inte-
ligencia son los que tienen los mejores rendimientos acadmicos.
Encarga el estudio a un equipo de investigadores, los cuales deci-
den seleccionar una muestra aleatoria de alumnos para aplicar un
test que les permita determinar el coeficiente de inteligencia de los
estudiantes para que sea relacionados con el rendimiento acad-
mico. El rendimiento acadmico es observado a travs de las notas
en los cursos de Matemtica, Lenguaje y Educacin Cvica.
Identifique:
a) Poblacin
b) Muestra
c) Unidad Estadstica
d) Variables y su respectiva clasificacin
01_cap1.p65 31/03/2006, 02:31 p.m. 59
60
3.- En el mes de noviembre de 2002, se realiz un estudio para
conocer el grado de satisfaccin (mala, regular, buena, muy buena)
de la atencin mdica de los docentes que acuden a la Clnica
Universitaria de la UNMSM. Para tal efecto se realiz una encues-
ta a 200 docentes seleccionados aleatoriamente y que acudieron a
la Clnica Universitaria en dicho periodo.
Identifique:
a) Poblacin
b) Muestra
c) Unidad Estadstica
d) Variables y su respectiva clasificacin
4.- Un especialista en Nutricin est interesado en comparar la
efectividad de dos dietas en la reduccin de peso en seoras de
mas de 40 aos de edad del nivel socioeconmico B, residentes en
el distrito de Los Olivos. Para tal efecto, toma una muestra de 20
seoras a quienes administra la dieta A y otra muestra de 40 seo-
ras a las que administra la dieta B.
Identifique:
a) Poblacin
b) Muestra
c) Unidad Estadstica
d) Variable y su respectiva clasificacin
5.- Clasifique las siguientes variables y seale su escala de medi-
cin:
a) Nmero de telfonos en el domicilio de estudiantes de secundaria
b) Nmero de llamadas de larga distancia recibidas mensualmente
c) Si existe una lnea telefnica conectada a un mdem de compu-
tadora en la casa
d) Edad de los estudiantes de secundaria
e) Peso de los profesores de educacin pimaria
f) Estatura de los estudiantes de educacin inicial
g) Nmero de hijos por familia
h) Sntomas de una enfermedad
01_cap1.p65 31/03/2006, 02:31 p.m. 60
61
i) Consumo de luz
j) Nmero de horas de sueo por noche
k) Marcas de computadoras
l) Nmero de solicitudes que llegan a diario a una agencia de em-
pleos
m)Capacidad del disco duro de la computadora
n) Ttulo profesional
o) Grado acadmico
p) Rango militar
q) Nmero de meses de preparacin Preuniversitaria
r) Nmero de cursos aprobados en un semestre acadmico
s) Razas de mamferos
t) Nmero de eventos acadmicos realizados por la Escuela Aca-
dmico Profesional de Educacin
6.- En los siguientes casos seale si las medidas obtenidas son
parmetros o estadsticas:
I) Se considera a los ingresantes a la Facultad de Letras y Ciencias
Sociales como la poblacin en estudio. Basndose en la informa-
cin registrada sobre ellos, se obtiene la edad promedio.
II) Con la finalidad de implementar polticas de capacitacin, las
autoridades acadmico- administrativas de la Facultad de Edu-
cacin requieren informacin sobre la proporcin de alumnos
de su Facultad que no tienen conocimiento de idiomas extranje-
ros. Va INTERNET solicitan la informacin a un 25% de estu-
diantes seleccionados aleatoriamente.
7.- Los directivos de la Escuela Acadmico Profesional de Psicolo-
ga se han propuesto encontrar la relacin que existe entre el n-
mero de horas de estudio diario y el promedio ponderado de sus
estudiantes. Cmo seleccionara la muestra para llevar a cabo el
estudio?
8.- Planifique una encuesta siguiendo los pasos recomendados y
elabore el cuestionario correspondiente
01_cap1.p65 31/03/2006, 02:31 p.m. 61
62
01_cap1.p65 31/03/2006, 02:31 p.m. 62
63
Introduccin
Hoy en da, la interpretacin de las investigaciones cientficas en
las diversas disciplinas del quehacer humano depende en gran
parte de los mtodos estadsticos. As, la Estadstica nos propor-
ciona mtodos grficos y tabulares para organizar y resumir datos,
para luego usar dicha informacin y sacar conclusiones.
La importancia de tratar estos temas radica en que siempre
que se aborde un problema desde el punto de vista de la Estadsti-
ca, con el fin de hacer generalizaciones e inferencias sobre la po-
blacin, ser necesario tomar como base muestras de la poblacin
en estudio y describirlas. Los primeros pasos del proceso son la
organizacin y el resumen de los datos. El resumen de los datos
puede hacerse numrica y grficamente.
En el enfoque clsico, tanto la representacin tabular y grfica
de los datos asociados a las diferentes variables nos son familiares
las tablas de frecuencias: absolutas, relativas y acumuladas; y los
grficos: histograma, polgono de frecuencia, barras, sectores, de
lnea, etc., que lo encontramos cotidianamente en los libros, revis-
tas y peridicos. Mientras que, segn el enfoque del anlisis
exploratorio de datos, se tienen los diagramas de tallo y hojas,
grficos de cajas, de resumen, etc.
En el presente captulo se examinarn mtodos descriptivos
grficos y tabulares bajo los dos enfoques mencionados.
|63]
Captulo II
Descripcin de datos: Tablas y grficos
02_cap2.p65 31/03/2006, 02:32 p.m. 63
64
Organizacin y presentacin de datos unidimensionales
Para organizar, resumir y tener una idea del comportamiento de
un conjunto de datos correspondiente a una variable, es conve-
niente presentarlos en una tabla de distribucin de frecuencias o
en grficos en donde se aprecien los valores posibles de la variable
y el nmero de veces o el porcentaje de veces que se repite cada
valor.
Conceptos fundamentales
Frecuencia absoluta ) (
i
f . Es el nmero de veces que se repite un
valor ( )
i
x o una modalidad de una variable X .
La suma de todas las frecuencias absolutas es igual al nmero
de observaciones o al tamao de la muestra, es decir:
1
, 1,...,
k
i
i
f n i k

donde
k
es el nmero de modalidades o de posibles valores de
la variable.
Frecuencia relativa ( )
i
h . Es igual a la frecuencia absoluta dividi-
da entre el nmero de observaciones o tamao de la muestra:
.
i
i
f
h
n

La suma de las frecuencias relativas es igual a la unidad:



1
1
k
i
i
h

,
( )
1 2
1 2
...
... 1.
k
k
f f f f f f n
n n n n n
+ + +
+ + +
Frecuencia absoluta acumulada ( )
i
F . Es el nmero de datos igual
o inferior (menor o igual que) al valor considerado de la variable
o la suma de las frecuencias absolutas menor o igual que el valor
considerado de la variable. Es decir,
02_cap2.p65 31/03/2006, 02:32 p.m. 64
65
1 1
2 1 2
1 2
.
.
.
...
k k
F f
F f f
F f f f

+
+ + +
La ltima frecuencia acumulada es igual al nmero total de
observaciones o tamao de la muestra:
.
k
F n
Frecuencia relativa acumulada. Es el resultado de cada frecuencia
absoluta acumulada dividida entre el nmero total de observacio-
nes, o la suma de las frecuencias relativas menor o igual al valor
considerado de la variable:
1
1,..., .
i
i
i j
j
F
H h i k
n

La ltima frecuencia relativa acumulada es igual a la unidad.


A ambas frecuencias relativas
i
h y
i
H se acostumbra
expresarlas en porcentaje, multiplicndolas por 100, lo cual resul-
ta ms fcil de comprender a la mayora de las personas.
Distribucin de frecuencias para variables cuantitativas:
Aspectos generales
Para la presentacin de las distribuciones de frecuencias de las
variables cuantitativas se acostumbra usar las llamadas tablas de
distribucin de frecuencias y para su elaboracin se recomienda:
1. Identificar el tipo de variable: cuantitativa discreta o continua.
2. Determinar el mayor ( )
max
x y el menor ( )
min
x valor del conjun-
to de datos para luego hallar el rango R donde
max min
R x x .
3. Si la variable es cuantitativa discreta y:
02_cap2.p65 31/03/2006, 02:32 p.m. 65
66
a) El rango es pequeo, entonces trabajar con los valores originales
ordenados de la variable;
b) El rango es grande, entonces trabajar con los datos ordenados y
agrupados en intervalos de clase, teniendo en cuenta que lo que
se gana en manejo e interpretacin de los datos al agruparlos en
intervalos de clase, lo perdemos en precisin al no trabajar con
los datos originales. La construccin de intervalos de clase se
ver a continuacin, ya que su construccin es similar para el
caso de la variable cuantitativa continua.
4. Si la variable es cuantitativa continua:
a) Determinar el nmero de intervalos de clase, el que depender
del nmero de observaciones (se aconseja entre 5 y 20 interva-
los). Varios autores han realizado estudios sobre el nmero de
intervalos, siendo el de Sturges (1926) el ms usado, se le conoce
como la regla de Sturges dado por
10
1 3, 3 ( ) log k n + , donde
n es el tamao de la muestra o el nmero total de observaciones
y k el nmero de intervalos de clase. Los intervalos cerrados [a,
b] y los semiabiertos por la derecha [a, b) son los ms usados en
las tablas de distribucin de frecuencia. Nosotros emplearemos
los intervalos semiabiertos por la derecha, en caso contrario se
har la explicacin del caso.
b) Hallar la amplitud de los intervalos de clase requerida para cu-
brir el rango o recorrido, dividiendo el rango entre el nmero de
intervalos. Dado un intervalo de clase, su amplitud o ancho es la
diferencia de sus valores extremos; as, la amplitud del intervalo
semiabierto [30 40) es igual a 10 ( 40 30 = 10).
c) Determinar los lmites de cada intervalo de clase. Aadiendo al
valor del lmite inferior de cada intervalo la amplitud del inter-
valo, se obtendrn los lmites de los intervalos semiabiertos por
la derecha.
d) Proceder a la tabulacin, para lo que usamos las siguientes nota-
ciones:
02_cap2.p65 31/03/2006, 02:32 p.m. 66
6
X
Variable
1 2
, ,...,
n
x x x Valores observados de la variable
n Tamao de la muestra
R
Rango
k
Nmero de intervalos de clase, [ ] 5, 20 k
a Amplitud del intervalo de clase
R
a
k

Intervalos de clase semiabiertos por la derecha,


1, 2,..., i k
i
I
[ ) [ )
[ ) [ )
[ ) [ )
1 min min 0 1
2 min min 1 2
min min 1
, ,
, 2 ,
. .
. .
. .
( 1) , ,
k k k
I x x a L L
I x a x a L L
I x k a x ka L L

+
+ +
+ +
'
i
x Marca de clase o punto medio de cada intervalo de clase,
es igual a la semisuma de sus valores extremos,
( )
1 '
2
i i
i
L L
x

+

Lo importante en la construccin de los intervalos de clase es


que, entre el lmite inferior del primer intervalo y el lmite superior
del ltimo intervalo de clase, debe quedar cubierto el rango de la
variable en estudio y que, en lo posible, las marcas de clase coinci-
dan con los valores originales de los datos para disminuir el error
de agrupamiento. En general, para agrupar los datos en intervalos
de clase, con la finalidad de lograr una buena clasificacin, en
algunas ocasiones el lmite inferior del primer intervalo no necesa-
riamente tiene que coincidir con el valor mnimo del conjunto de
datos; pudiendo ste tomar un valor inferior, y lo mismo para el
lmite superior del ltimo intervalo de clase, pudiendo ste tomar
un valor superior al valor mximo del conjunto de datos.
02_cap2.p65 31/03/2006, 02:32 p.m. 67
68
Tabla de distribucin de frecuencias para una variable
cuantitativa discreta
Mostraremos ejemplos de cmo construir tablas de distribucin de
frecuencias para las variables cuantitativas discretas; el primer
ejemplo se desarrollar a mano y el segundo ejemplo usando el
software SPSS.
Ejemplo 1
Se seleccion una muestra de 30 alumnos del doctorado de la Fa-
cultad de Educacin de la Universidad Nacional Mayor de San
Marcos y se registr el nmero de hijos de cada alumno, como se
muestra a continuacin:
N N de N N de N N de N N de N N de
hijos hijos hijos hijos hijos
1 1 7 1 13 2 19 1 25 2
2 1 8 0 14 1 20 4 26 2
3 0 9 5 15 5 21 1 27 1
4 2 10 2 16 4 22 2 28 1
5 2 11 1 17 5 23 1 29 2
6 2 12 2 18 2 24 4 30 1
Organicemos dichos datos en una tabla de distribucin de frecuencias.
Solucin
Variable de inters X : nmero de hijos
Tipo de variable: cuantitativa discreta
Mximo valor = 5 y mnimo valor =0
Rango R = 5 0 = 5
Como el rango es pequeo, se trabaja con los valores originales
de la variable: 0, 1, 2, 4, 5; no necesitamos usar intervalos de clase.
Procedemos a la tabulacin, considerando la primera colum-
na para los posibles valores de la variable, la segunda columna
para las frecuencias absolutas
i
f obtenidas mediante el conteo del
nmero de veces que se repite cada valor de la variable y las otras
columnas para los diferentes tipos de frecuencias:
i
h ,
i
F ,
i
H , %
i
h
y %
i
H definidas y estudiadas en la seccin: conceptos fundamen-
tales.
02_cap2.p65 31/03/2006, 02:32 p.m. 68
69
Tabla 1. Distribucin de frecuencias absolutas, relativas y acumuladas
para la variable nmero de hijos del ejemplo 1
Variable Nmero de Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
Nmero alumnos relativa absoluta relativa relativa en relativa
deHijos (frecuencia acumulada acumulada porcentaje acumulada
absoluta) en
porcentaje

X

i
f
i
h
i
F
i
H %
i
h %
i
H
0 2 0, 06 2 0, 06 6

6
1 11 0, 37 13 0, 43 37 43
2 11 0, 37 24 0, 80 37 80
4 3 0, 10 27 0, 90 10 90
5 3 0, 10 30 1, 00 10 100
Total 30 1, 00 100
Procedemos a interpretar algunas de las frecuencias. Obser-
vando las columnas de las frecuencias absolutas (
i
f ), vemos que
ningn estudiante de doctorado tiene 3 hijos y que el nmero de
hijos se concentra alrededor de 1 y 2 hijos debido a que, de los 30
estudiantes de doctorado, 11 tienen 1 hijo y otros 11 tienen 2 hijos,
as como que dos estudiantes considerados en la muestra no tie-
nen ningn hijo.
Observando la columna de las frecuencias relativas expresa-
das en porcentaje ( %
i
h ), el 10% de los estudiantes considerados
en la muestra tiene 4 hijos y el 37 % tiene 2 hijos.
Observando la columna de la frecuencia absoluta acumulada
(
i
F ), vemos que 27 de los 30 estudiantes tiene, como mximo, 4
hijos, que es lo mismo que decir que 27 estudiantes tienen 4 hijos o
menos.
Observando la columna de la frecuencia relativa acumulada
expresada en porcentaje ( %
i
H ) vemos que el 80% de los estudian-
tes considerados en la muestra tiene, como mximo 2 hijos, es decir
que el 80% de los estudiantes tienen 2 hijos o menos.
El hecho de tener los datos organizados en una tabla de distri-
bucin de frecuencias nos da una idea del comportamiento de los
datos y adems nos permite responder rpidamente a cualquier
pregunta respecto al conteo de los diferentes valores que asume la
variable, como por ejemplo:
Cuntos estudiantes de doctorado tienen 5 hijos?. Miran-
do la columna de las
i
f inmediatamente contestamos 3.
02_cap2.p65 31/03/2006, 02:32 p.m. 69
0
Qu porcentaje de los estudiantes tiene como mximo 1 hijo?,
o qu porcentaje de los estudiantes tienen 1 hijo o ninguno?
Mirando la columna de las %
i
H respondemos 43 %.
Qu porcentaje de estudiantes tiene ms de 3 hijos?, o
qu porcentaje de estudiantes tiene 4 hijos o mas? Miran-
do la columna de la frecuencia relativa expresada en por-
centaje ( %
i
h ) contestamos 20% (
4 5
% % h h + 10 % + 10
% = 20 % ).
Ejemplo 2
De la base DATOS4-ciudadana, elijamos la variable
5
X : nmero
de organizaciones sociales cercanas al domicilio de los represen-
tantes, para presentar su distribucin de frecuencias usando el
software SPSS.
Usando los comandos del SPSS presentados en el captulo VII
(procedimientos estadsticos) se lee en el output del SPSS la si-
guiente distribucin de frecuencias del nmero de organizaciones
sociales cercanas al domicilio del representante de la comunidad.
NMERO DE ORGANIZACIONES SOCIALES
CERCANAS AL DOMICILIO
Frequency Percent Valid Percent Cumulative Percent
Valid 1 10 10, 0 10,0 10, 0
2 27 27, 0 27,0 37, 0
3 37 37, 0 37,0 74, 0
4 21 21, 0 21,0 95, 0
5 5 5,0 5,0 100,0
Total 100 100,0 100,0
Las frecuencias absolutas nos proporcionan una valiosa idea
del comportamiento de la variable
5
X : nmero de organizaciones
sociales cercanas al domicilio de los representantes de cada uno
de los distritos seleccionados. Observamos que el mayor nmero
de veces que se repite es el 3, es decir, 37 representantes distritales
de los 100, tienen 3 organizaciones sociales cercanas a su domici-
lio, y el menor nmero de veces que se repite la variable es 5, es
decir, 5 representantes distritales tienen 5 organizaciones sociales
02_cap2.p65 31/03/2006, 02:32 p.m. 70
1
cercanas a su domicilio. Pero en algunos casos las frecuencias ab-
solutas por s solas no nos dan una informacin clara, pudiendo
causar confusin, sobre todo cuando se desea hacer comparacio-
nes. Por el ejemplo anterior sabemos que hay 21 representantes
distritales de la sierra sur-centro que tienen 4 organizaciones so-
ciales cercanas a su domicilio. Pero si nos dicen que en la sierra
norte tambin hay 21 representantes distritales que tienen 4 orga-
nizaciones sociales cercanas a su domicilio, pensaremos que el
fenmeno se repite en los dos grupos de los distritos rurales de la
sierra sur-centro y norte del Per?
Lgicamente, depender del nmero de representantes de cada
distrito; por poner un ejemplo, 21 casos en 100 describe un com-
portamiento diferente a 21 casos en 200. En este caso necesitare-
mos de una frecuencia relativa para hacer comparaciones.
Observamos que
2
0, 27 h es la frecuencia relativa que co-
rresponde a
2
, x expresado en porcentaje quiere decir que el 27 %
de los representantes distritales de la sierra sur-centro del Per
tiene 2 organizaciones sociales cercanas a su domicilio.
As,
4
95 F se obtiene sumando
95 21 37 27 10
4 3 2 1
+ + + + + + f f f f
y se interpreta como 95 representantes distritales tienen 4 o
menos organizaciones sociales cercanas a su domicilio y
3
% H 74% se obtiene sumando
3
% H % % %
3 2 1
h h h + + y
se interpreta que el 74% de los representantes distritales tienen 3 o
menos organizaciones cercanas a su domicilio. Tambin se puede
obtener de la siguiente manera:
% 74 % 100
100
74
% 100 %
3

,
_


,
_

n
F
3
H
La salida del SPSS mostrndonos la distribucin de las dife-
rentes frecuencias puede ser presentada en un cuadro estadstico.
02_cap2.p65 31/03/2006, 02:32 p.m. 71
2
Cuadro 1. Nmero y porcentaje de representantes de 4 distritos rurales*
del Per segn el nmero de organizaciones sociales a las que pertenece.
Setiembre-Diciembre 2003
Nmero de Nmero de Porcentaje de
organizaciones representantes representantes
sociales distritales distritales (%)
1 10 10
2 27 27
3 37 37
4 21 21
5 5 5
Total 100 100
* Limatambo (Cuzco), Luricocha (Ayacucho), Izuchaca (Huancavelica), Vilca
(Huancavelica).
Tabla de distribucin de frecuencias para una variable
cuantitativa continua
Mediante ejemplos se presentar la construccin de tablas de dis-
tribucin de frecuencias para una variable cuantitativa continua.
Ejemplo 3
Los siguientes datos corresponden a las aportaciones que hicieron
al Sistema Nacional de Pensiones 100 docentes universitarios per-
tenecientes a la Ley 20530, en el mes de enero del presente ao. Los
datos estn expresados en nuevos soles.
265 197 349 280 265 200 221 265 261 278 205 286 317 242 254 235 174
262 248 250 263 274 242 260 281 246 248 271 260 265 307 243 258 321
294 328 263 245 274 270 220 231 276 228 223 296 231 301 337 298 268
267 300 250 260 276 334 280 250 257 260 281 208 299 308 264 280 274
278 210 234 265 187 258 235 269 265 253 254 280 299 214 264 267 283
235 272 287 274 269 215 318 271 293 277 290 283 258 275 251
Se desea presentarlos en una tabla de distribucin de frecuencias.
Solucin
Variable X : Aportaciones en nuevos soles
Tipo de variable: Cuantitativa continua
02_cap2.p65 31/03/2006, 02:32 p.m. 72
3
max
349 x
min
174 x
Rango: R = 349 - 174 = 175
Nmero de intervalos:
10
1 3, 3 ( ) log k n +

10
1 3, 3 (100) log k + = 7,6

8 k
Amplitud de cada intervalo: a = 175 / 8 = 21,875

22 a
Lmites de los intervalos de clase:
I 1 = [174, 174 + 22) = [174,196)
I 2 = [196, 196+ 22) = [196, 218)
I 3 = [218, 218 + 22) = [218, 240)

I 8 =[328, 328 + 22) = [ 328, 350)


Marca de clase o punto medio de cada intervalo:
'
1
'
2
'
3
'
8
174 196
185
2
196 218
207
2
218 240
229
2
.
.
.
328 350
339
2
x
x
x
x
+

+

+

+

Procedemos a la tabulacin, considerando los tipos de fre-
cuencia estudiadas.
02_cap2.p65 31/03/2006, 02:32 p.m. 73
4
Tabla 2. Distribucin de frecuencias absolutas, relativas
y acumuladas para la variable aportaciones
en nuevos soles para el ejemplo 3
Aportaciones Marca Nmero de Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
Intervalos de clase docentes relativa absoluta relativa relativa en relativa
De clase frecuencia acumulada acumulada porcentaje acumulada
absoluta en
porcentaje
'
i
x
i
f
i
h
i
F
i
H
i
h % %
i
H
[174 196) 185 2 0,02 2 0,02 2 2
[196- 218) 207 7 0,07 9 0,09 7 9
[218 240) 229 10 0,10 19 0,19 10 19
[240 262) 251 23 0,23 42 0,42 23 42
[262 284) 273 38 0,38 80 0,80 38 80
[284 306) 295 11 0,11 91 0,91 11 91
[306 328) 317 5 0,05 96 0,96 5 96
[328 350) 339 4 0,04 100 1,00 4 100
Total 100 1,00 100
Observando la columna de las
i
f decimos que, en la muestra
considerada, dos docentes aportan al sistema nacional de pensio-
nes de 174 a menos de 196 nuevos soles, 9 docentes aportan de 306
a menos de 350 nuevos soles.
Observando la columna de la
i
F , vemos que 9 docentes apor-
tan menos de 218 nuevos soles, 91 docentes aportan menos de 306
nuevos soles.
Observando las columnas de porcentajes, podemos afirmar
que el 11% de los docentes aportaron 284 o mas y menos de 306
nuevos soles, el 80% de los docentes aportaron menos de 284 nue-
vos soles.
Teniendo los datos organizados en una tabla de distribucin de
frecuencias, tambin podemos averiguar Cuntos docentes aporta-
ron al sistema nacional de pensiones entre 230 y 290 nuevos soles?
Observamos que todos los intervalos de clase tienen la misma
amplitud igual a 22, que el valor 230 pertenece al intervalo [218-
240) y el valor 290 pertenece al intervalo [284 - 306).
El intervalo [218 - 240) tiene una frecuencia absoluta de 10
(
3
10 f docentes) y el intervalo que nos interesa [230- 240) tiene
una amplitud de 10 y una frecuencia absoluta de 5, la cual se calcul
de la siguiente manera:
02_cap2.p65 31/03/2006, 02:32 p.m. 74
5
3
22 10 a f docentes
10 a x
docentes
10(10)
4, 545 5
22
x
docentes.
Respecto a los intervalos intermedios entre 240 y 284 no hay
ningn problema, el intervalo de [240- 262) tiene una frecuencia
absoluta de 23 (
4
23 f docentes), el intervalo [262 -284) tiene
una frecuencia absoluta de 38 (
5
38 f docentes).
El ltimo intervalo de inters [284 - 290) tiene una amplitud de
6 y una frecuencia absoluta de 3, la cual se calcul de la siguiente
manera:
6
22 11 a f docentes
6 a x
docentes
11(6)
3
22
x
docentes.
Luego, el nmero de docentes que aportaron al sistema nacio-
nal de pensiones entre 230 y 290 soles es: 5+23+38+3=69 docentes.
Ejemplo 4
Tomando la base DATOS1-maestra, presentaremos la distribu-
cin de frecuencias para la variable cuantitativa continua
2
X :
coeficiente de inteligencia, haciendo uso del software SPSS.
Solucin
Usando los comandos del SPSS dados en el captulo VII (procedi-
mientos estadsticos), se recodifica la variable coeficiente de inteli-
gencia en la variable INTELI1, de la siguiente manera:
[92- 96) "1"
[96-100) "2"
[100-104) "3"
[104-108) "4"
[108-112) "5"
[112-116) "6"
[116-120) "7"
02_cap2.p65 31/03/2006, 02:32 p.m. 75
6
A continuacin se presenta la salida del SPSS
INTELI 1
Frequency Percent Valid Percent Cumulative Percent
Valid 1 9 12, 9 12,9 12,9
2 28 40, 0 40,0 52,9
3 13 18, 6 18,6 71,4
4 12 17, 1 17,1 88,6
5 2 2,9

2,9 91,4
6 2 2,9

2,9 94,3
7 4 5,7

5,7 100,0
Total 70 100,0 100,0
A partir de la salida del SPSS se construye la tabla de distribu-
cin de frecuencias absolutas, relativas y acumuladas para la va-
riable
2
X coeficiente de inteligencia.
Coeficiente de Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
Inteligencia absoluta relativa absoluta relativa relativa relativa
Intervalos acumulada acumulada en acumulada
de clase porcentaje porcentaje

i
f
i
h
i
F
i
H
i
h % %
i
H
[92 - 96) 9 0,129 9 0,129 12,9 12,9
[96 - 100) 28 0,400 37 0,529 40,0 52,9
[100-104) 13 0,186 50 0,714 18,6 71,4
[104-108) 12 0,171 62 0,886 17,1 88,6
[108-112) 2 0,029 64 0,914 2,9 91,4
[112-116) 2 0,029 66 0,943 2,9 94,3
[116-120] 4 0,057 70 1,000 5,7 100,0
Total 70 100,0 100,0
Interpretaremos algunas frecuencias: as, observando la co-
lumna de las frecuencias absolutas diremos que 28 estudiantes de
la maestra de Gestin Educativa obtuvieron coeficientes de inteli-
gencia desde 96 a menos de 100 puntos, que es equivalente a decir
que el 40% de los estudiantes de maestra obtuvieron puntajes des-
de 96 a menos de 100 puntos, como se observa en la columna de las
frecuencias relativas expresadas en porcentajes (
3
% 40% h ).
Observando la columna de las frecuencias absolutas acumu-
ladas diremos que 64 estudiantes de maestra obtuvieron coefi-
cientes de inteligencia menores de 112 puntos; que es lo mismo
decir que el 91,4% de los estudiantes obtuvieron menos de 112
puntos, como se observa en la columna de frecuencias relativas
acumuladas expresadas en porcentajes (
5
% 91, 4% H ).
02_cap2.p65 31/03/2006, 02:32 p.m. 76

Editado en Word, se hace la presentacin en el siguiente cuadro.


Cuadro 2. Porcentaje y porcentaje acumulado de estudiantes de maestra
de la UNMSM matriculados en el semestre 2000-I, segn su puntaje de
coeficiente de inteligencia. Cercado de Lima. Abril-junio de 2000
Coeficiente de Porcentaje de alumnos Porcentaje acumulado de
inteligencia alumnos
[92 - 96) 12, 9 12,9
[96 - 100) 40, 0 52,9
[100-104) 18,6 71,4
[104-108) 17,1 88,6
[108-112) 2,9 91,4
[112-116) 2,9 94,3
[116-120] 5,7 100,0
Total 100,0
Tabla de distribucin de frecuencias para una variable
cualitativa
Si la variable estudiada es cualitativa, de la cual se observan catego-
ras C1, C2,..., Ck, la distribucin de frecuencias se presenta en una
tabla de manera similar a la variable cuantitativa; en la primera
columna se colocan las categoras de la variable, seguidas de las
columnas correspondientes a las frecuencias absolutas (
i
f ), frecuen-
cias relativas (
i
h ) y porcentajes (
i
h %). En este caso no tiene sentido
calcular las frecuencias absolutas acumuladas y las relativas acu-
muladas, porque las categoras de la variable no tienen un nico
ordenamiento natural como lo tienen las variables cuantitativas.
Ejemplo 5
Volviendo a tomar el ejemplo 1, a los 30 estudiantes del doctorado
de Educacin de la UNMSM, adems del nmero de hijos se les
pidi la informacin sobre el conocimiento de otro idioma (conoce
y no conoce), como se muestra a continuacin. Se desea presentar
los datos en una tabla de distribucin de frecuencias.
02_cap2.p65 31/03/2006, 02:32 p.m. 77
8
Estudiante Conocimiento Estudiante Conocimiento Estudiante Conocimiento
de otro idioma de otro idioma de otro idioma
1 Conoce 11 No conoce 21 No conoce
2 No conoce 12 Conoce 22 No conoce
3 Conoce 13 Conoce 23 No conoce
4 No conoce 14 No conoce 24 No conoce
5 No conoce 15 No conoce 25 Conoce
6 No conoce 16 No conoce 26 Conoce
7 No conoce 17 Conoce 27 No conoce
8 Conoce 18 No conoce 28 No conoce
9 No conoce 19 No conoce 29 No conoce
10 No conoce 20 No conoce 30 No conoce
Solucin
Aplicando lo descrito en la presente seccin, directamente mostra-
mos la tabla solicitada.
Tabla 3. Distribucin de frecuencias para la variable
conocimiento de otro idioma de estudiantes de doctorado
Conocimiento Frecuencia absoluta Frecuencia relativa Porcentaje
de otro idioma
i
f
i
h
i
h %
Conoce 8 0, 27 27
No conoce 22 0, 73 73
Total 30 1, 00 100
En la muestra, solamente 8 estudiantes de doctorado tienen
conocimiento de otro idioma, el 73 % de los estudiantes de doctora-
do no tienen conocimiento de otro idioma
Ejemplo 6
Consideremos la base DATOS2-matemticas y la variable
7
X me-
dio de transporte usado para ir a la UNMSM, clasificada como
variable cualitativa nominal, la cual posee 4 categoras: movilidad
propia, movilidad de familiar, transporte pblico, transporte de la
universidad. El objetivo es realizar una presentacin tabular de
7
X para analizar su comportamiento, utilizando el software SPSS.
Solucin
A continuacin se presenta la salida del SPSS obtenida usando los
comandos descritos en el captulo VII (procedimentos estadsticos).
02_cap2.p65 31/03/2006, 02:32 p.m. 78
9
A partir de la cual se construye la tabla de frecuencias:
Tabla 4. Distribucin de frecuencias para la variable
medio de transporte
Medio de Frecuencia Frecuencia Porcentaje
transporte absoluta relativa
i
f
i
h
i
h %
Movilidad propia 5 0,025 2, 5
Movilidad de familiar 13 0,065 9, 0
Transporte pblico 110 0, 55 64,0
Transporte UNMSM 72 0, 36 100,0
Total 200 1, 00
y editado en el Word se presenta en el siguiente cuadro.
Cuadro 3: Nmero y porcentaje de estudiantes de la UNMSM
segn medio de transporte usado para trasladarse a la UNMSM.
Lima- 2002
Medio de transporte Nmero de alumnos Porcentaje de
alumnos
Movilidad propia 5 2,5
Movilidad de familiares 13 6,5
Transporte pblico 110 55,0
Transporte UNMSM 72 36,0
Total 200 100,0
Se tom una muestra de 200 estudiantes del Censo Universitario
de San Marcos, elaborado por la OTE.
El cuadro anterior nos indica que el transporte pblico es el
medio de transporte ms usado por los estudiantes, ya que 110 de
ellos utilizan dicho medio o, equivalentemente, el 55% de los estu-
diantes usan el transporte pblico.
Medio de transporte para trasladarse a la universidad
02_cap2.p65 31/03/2006, 02:32 p.m. 79
80
Representacin grfica de distribucin de frecuencias
A las representaciones grficas se les debe considerar como ayuda
visual para interpretar uno a varios conjuntos de datos dentro del
contexto de un problema estadstico, de ah que los grficos deban
ser construidos de una forma que facilite la evaluacin del com-
portamiento de los datos.
Si bien es cierto que no existen reglas fijas para la construccin
de grficos, existen recomendaciones respecto a las dimensiones
de los ejes. La primera recomendacin se conoce como la regla de
los tres cuartos y la segunda como la regla de la igualdad, para
as evitar que se distorsione el grfico y nos proporcione informa-
cin equivocada.
Regla de los tres cuartos. Se refiere a que el eje de las ordena-
das conocido como eje Y en el plano cartesiano, debe medir aproxi-
madamente los tres cuartos de lo que mide el eje de las abscisas o
eje X.
Regla de la igualdad. Se refiere a que el eje de las ordenadas o
eje Y debe medir igual a lo que mide el eje de las abscisas o eje X.
En la construccin tabular de frecuencias se tuvo en cuenta el
tipo de variable; para la representacin grfica tambin se debe con-
siderar el tipo de variable. Presentemos un bosquejo al respecto:
Variable Tipo de variable Tipo de grfico
Continua Histograma o polgono de frecuencias
para las
, , %
i i i
f h h
Cuantitativa
Ojiva para las , , %
i i i
F H H
Discreta Barras o bastones para las
, , %
i i i
f h h
Escalera para las , , %
i i i
F H H
Cualitativa Nominal u Barras simples
Ordinal Sectores, pastel o circular
Existe otra gran variedad de grficos, como el de lnea cuando
se considera una variable cuantitativa versus el tiempo; grfico de
02_cap2.p65 31/03/2006, 02:32 p.m. 80
81
Pareto, usado en control estadstico de procesos y de calidad de los
productos; y los grficos pictricos, que son de gran ayuda visual.
Una vez elegido el grfico apropiado, se trazan los ejes de coor-
denadas cartesianos y se colocan en el eje de las X o abscisas los
valores de la variable y en el eje Y u ordenadas las frecuencias
correspondientes.
Grficos para distribucin de frecuencias de variables
cuantitativas discretas
La representacin grfica de la distribucin de frecuencias absolu-
tas
i
f o relativas
i
h de una variable cuantitativa discreta se hace
mediante el grfico de barras o de bastones. En el eje X o de las
abscisas se colocan los valores de la variable y en el eje Y o de las
ordenadas las frecuencias (absolutas o relativas) que se desee re-
presentar; luego, en cada valor de la variable se levanta una barra
o bastn de altura igual a la frecuencia que corresponde a dicho
valor. Las barras que conforman la grfica estn separadas para
indicar que entre uno y otro valor de la variable no hay ningn
valor.
Ejemplo 7
Para la Tabla 1, correspondiente a la distribucin de frecuencias
absolutas y relativas de la variable nmero de hijos, cuantitativa
discreta, del ejemplo 1, presentemos su grfico correspondiente:
barras o bastones.
Solucin
Resulta fcil hacer el grfico descrito en forma manual, pero para
su mejor presentacin se ha realizado con el software SPSS, cu-
yos comandos se encuentran en el captulo VII (procedimientos
estadsticos).
02_cap2.p65 31/03/2006, 02:32 p.m. 81
82
Figura 1: Grfico de barras de Figura 2: Grfico de barras de
frecuencias absolutas de la frecuencias relativas (%) de la
variable nmero de hijos variable nmero de hijos
Observando ambas figuras, vemos que los grficos son simila-
res y slo vara la escala en los ejes Y. En la Figura 1 se ubican las
i
f correspondientes al nmero de estudiantes de doctorado y en la
Figura 2 se ubican las
i
h % correspondientes al porcentaje de los
estudiantes de doctorado. La barra o bastn de mayor altura corres-
ponde a los valores 1 y 2, indicndonos que 11 estudiantes de docto-
rado tienen 1 hijo y otros 11 estudiantes tienen 2 hijos, que es lo
mismo que decir que el 37% de los estudiantes de la muestra consi-
derada tiene 1 hijo y otro 37% de los estudiantes tienen 2 hijos.
Y as podemos continuar con la interpretacin del grfico, re-
sultando ser la misma que se dio en la interpretacin de la tabla 1
de distribucin de frecuencias, debido a que la representacin de
datos en forma tabular o grfica de un mismo conjunto de datos
nos debe llevar a la misma interpretacin de los datos.
La representacin grfica de la distribucin de frecuencias ab-
solutas acumuladas
i
F y relativas acumuladas
i
H de una variable
cuantitativa discreta se hace mediante los grficos de escalera.
En el eje de la abscisa se colocan los valores de la variable y en
el eje de la ordenada las frecuencias absolutas acumuladas
i
F o
las frecuencias relativas acumuladas
i
H %, dependiendo del tipo
de frecuencia que se desee representar, y luego para cada valor de
la variable se construyen los escalones de la escalera de acuerdo a
la frecuencia correspondiente.

02_cap2.p65 31/03/2006, 02:32 p.m. 82
83
Ejemplo 8
Para la tabla 1, correspondiente a las frecuencias acumuladas
i
F y
%
i
H de la variable nmero de hijos del ejemplo 1, presentar sus
grficos correspondientes: grfico de escalera.
Solucin
Luego de trazar los dos ejes cartesianos con sus respectivas esca-
las en idntica forma como se hizo para el grfico de bastones,
procedemos a construir los escalones correspondientes a los valo-
res de la variable, trazando segmentos horizontales de altura igual
a la de sus respectivas frecuencias acumuladas. De una manera
fcil se pueden dibujar dichos trazos manualmente, teniendo en
cuenta las siguientes frecuencias acumuladas:

'

<
<
<
<
<

x
x
x
x
x
x
x F
5 , 30
5 4 , 27
4 2 , 24
2 1 , 13
1 0 , 2
0 , 0
) (
0, 0
6, 0 1
43, 1 2
( )
80, 2 4
90, 4 5
100, 5
x
x
x
H x
x
x
x
<

<

<

'
<

<

Usando el software SPSS y siguiendo los comandos que se


encuentran en el captulo VII (procedimientos estadsticos) se obtie-
ne la siguiente salida:
Figura 3. Grfico de escalera Figura 4. Grfico de escalera de
de las frecuencias absolutas las frecuencias relativas
acumuladas de la variable acumuladas de la variable
nmero de hijos del ejemplo 1 nmero de hijos del ejemplo 1
02_cap2.p65 31/03/2006, 02:32 p.m. 83
84
Observando los grficos podemos decir que 24 estudiantes
del doctorado tienen 2 hijos o menos, o que el 80% de la muestra
considerada tiene, como mximo, 2 hijos, que es la misma informa-
cin dada en la tabla de distribucin de frecuencia, concluyendo
que tanto las tablas de distribucin de frecuencias y los grficos
nos deben revelar la misma informacin tratndose de un mismo
conjunto de datos.
Grficos para distribucin de frecuencias de variables
cuantitativas continuas
En el caso de variables cuantitativas continuas o agrupadas en
intervalos de clase, la representacin grfica se hace mediante el
histograma o polgono de frecuencias para las frecuencias absolu-
tas
i
f y las frecuencias relativas
i
h respectivamente.
Histograma de frecuencias. Cuando todos los intervalos de
clase tienen la misma amplitud, se construyen rectngulos de base
igual a la amplitud de cada intervalo de clase y de altura igual a la
frecuencia respectiva
i
f o
i
h % de cada intervalo de clase, los cua-
les van unidos uno a continuacin del otro.
En el eje X se colocan los lmites de los intervalos de clase
que servirn para construir la base de cada rectngulo, y en el eje
Y se colocan las frecuencias respectivas
i
f o
i
h % de cada inter-
valo de clase que servirn para construir las alturas de cada rec-
tngulo.
Para la interpretacin del histograma, observamos el rea de
cada rectngulo. Si todos los rectngulos tienen la misma base
debido a que los intervalos de clase tienen la misma amplitud, el
rectngulo de mayor rea ser el que tenga mayor altura.
Ejemplo 9
Para el ejemplo 4, correspondiente a la tabla de distribucin de
frecuencias absolutas y relativas para la variable
2
X coeficiente
de inteligencia de la base DATOS1-maestra, se hace la representa-
cin grfica.
02_cap2.p65 31/03/2006, 02:32 p.m. 84
85
Solucin
Por ser la variable coeficiente de inteligencia una variable cuanti-
tativa continua, su grfico apropiado puede ser el histograma de
frecuencias. Por tener todos los intervalos de clase la misma ampli-
tud, los rectngulos que formarn el histograma se construirn de
la misma base y de altura igual a la frecuencia correspondiente.
Haciendo uso de los comandos del SPSS presentados en el captu-
lo VII (procedimientos estadsticos) se obtienen los siguientes
histogramas de frecuencias absolutas y relativas respectivamente:
Figura 5: Histograma de Figura 6: Histograma de
frecuencias absolutas de la frecuencias relativas (%) de la
variable coeficiente variable coeficiente de inteligencia
de inteligencia
En las figuras 5 y 6 los rectngulos tienen la misma base y el
rea de cada rectngulo es directamente proporcional a su altura,
es decir, el rea de cada rectngulo es directamente proporcional al
nmero de observaciones del intervalo de clase correspondiente.
Especficamente, en la figura 6 observamos que el rectngulo de
mayor altura y por consiguiente de mayor rea representa al 40%
de los estudiantes de la maestra cuyos coeficientes de inteligencia
se encuentran entre 96 y 100. Por ello resulta ms fcil comparar el
rea de rectngulos de igual base (intervalos de clase de igual am-
plitud), pero en algunos casos es necesario comparar reas de rec-
tngulos del histograma que tienen diferentes bases (intervalos de
clase de diferente amplitud) y alturas.
Cuando los intervalos de clase tienen diferente amplitud, para
construir el histograma se tiene que calcular para cada intervalo
02_cap2.p65 31/03/2006, 02:32 p.m. 85
86
de clase la correspondiente altura de cada rectngulo usando la
frmula:
Altura del rectngulo = frecuencia relativa / amplitud del intervalo
de clase correspondiente
Luego, marcamos en el eje vertical esas alturas calculadas para
poder fcilmente dibujar los rectngulos (el eje vertical resultante
es a menudo llamado la escala densidad) y en el eje X se marcan
los lmites de clase de cada intervalo. Se verifica que el rea de cada
rectngulo sea igual a la correspondiente frecuencia relativa y que
el rea total de todos los rectngulos en el histograma sea igual a la
unidad.
En el captulo VII (procedimientos estadsticos) se presenta el
histograma de un conjunto de datos simulados que siguen una
distribucin normal con media cero y varianza uno, usando el
MATLAB. Como se ver ms adelante, muchos datos de la vida
real se aproximan a una distribucin normal.
Un grfico alternativo al histograma de frecuencias absolutas
o relativas es el polgono de frecuencias absolutas o relativas
Polgono de frecuencia. Para su construccin, en el eje X se
colocan las marcas de clase de cada intervalo de clase y en el eje
Y las frecuencias respectivas de cada marca de clase. Se coloca
sobre cada marca de clase un punto a una altura igual a la frecuen-
cia asociada a esa clase, luego se unen dichos puntos con un seg-
mento de recta continuo.
Para cerrar el polgono en sus dos extremos se consideran el pun-
to correspondiente a la marca de clase anterior al primer intervalo con
frecuencia cero y el punto correspondiente a la marca de clase si-
guiente al ltimo intervalo de clase tambin con frecuencia cero.
Ejemplo 10
Para el mismo conjunto de datos del ejemplo 9, construir el polgo-
no de frecuencias absolutas y relativas expresadas en porcentaje.
Solucin
Mostraremos la salida del SPSS editado en Word, cuya presenta-
cin es la siguiente:
02_cap2.p65 31/03/2006, 02:32 p.m. 86
8
Figura 7: Polgono de frecuencia Figura 8: Polgono de frecuencia
absoluta de la variable relativa de la variable
coeficiente de inteligencia coeficiente de inteligencia
Los histogramas y polgonos de frecuencia muestran una gran
variedad de formas: unimodal, si slo presenta un pico; bimodal si
presenta dos picos diferentes; y multimodal, si presenta ms de
dos picos.
Intuitivamente podemos decir que un histograma o polgono
de frecuencia es simtrico si la mitad del lado izquierdo es la ima-
gen reflejada de la mitad del lado derecho. Un histograma es
asimtrico positivo si el extremo superior de la derecha es estirado
suavemente comparado con el extremo inferior o izquierdo y es
asimtrico negativo si el estiramiento es para el extremo inferior o
izquierdo.
Observando las figuras 7 y 8 podemos decir que la distribu-
cin de los coeficientes de inteligencia de los estudiantes de maes-
tra es asimtrica positiva.
En el captulo VII se ilustra cmo graficar el polgono de fre-
cuencias usando el MATLAB.
La representacin grfica de las distribuciones de frecuencias
absolutas acumuladas
i
F y de las relativas acumuladas en por-
centajes %
i
H de una variable cuantitativa continua se hace me-
diante la curva llamada Ojiva.
Ojiva. Es una curva que se obtiene en base a las frecuencias
acumuladas, y para su construccin se colocan en el eje de la abscisa
los lmites de los intervalos de clase y en el eje de la ordenada las
frecuencias que se desee representar
i
F o
i
H %. Se trazan puntos
02_cap2.p65 31/03/2006, 02:32 p.m. 87
88
cuyas coordenadas estn formadas por el lmite superior de cada
intervalo de clase y su frecuencia correspondiente
i
F o
i
H %, lue-
go se unen dichos puntos con el lmite inferior del primer intervalo
de clase, formando la ojiva.
Ejemplo 11
Construir la ojiva para la distribucin de frecuencia absoluta acu-
mulada y relativa acumulada de la variable coeficiente de inteli-
gencia de la base DATOS1-maestra.
Solucin
Salida del SPSS y editado en Word.
Figura 9. Ojiva de la Figura 10. Ojiva de la
distribucin de frecuencias distribucin de frecuencias
absolutas acumuladas de la relativas acumuladas de la
variable coeficiente de variable coeficiente de
inteligencia. inteligencia.
Observamos en la figura 9 que 50 estudiantes tienen coeficien-
te de inteligencia menor a 104, lo que es equivalente a decir que el
71,4% de los estudiantes tienen coeficiente de inteligencia menor a
104, tal como se muestra en la figura 10.
En el captulo VII se ilustra cmo graficar la ojiva usando el
MATLAB para el ejemplo 3.
02_cap2.p65 31/03/2006, 02:32 p.m. 88
89
Grficos para distribucin de frecuencias de variables
cualitativas
Grfico de barras. Es un grfico que se emplea para representar la
distribucin de una variable cualitativa. En el eje X se colocan
las categoras de la variable igualmente espaciadas, para as poder
construir las barras o bloques del mismo ancho para cada catego-
ra y de altura igual a su frecuencia respectiva ubicada en el eje
Y. La separacin entre barra y barra se recomienda que sea de la
mitad del ancho de cada barra.
Ejemplo 12
Para la tabla 3, correspondiente a la distribucin de frecuencias de
la variable conocimiento de otro idioma de los estudiantes de doc-
torado del ejemplo 5, construir el grfico apropiado.
Solucin
La variable conocimiento de otro idioma, como se observa en la Ta-
bla 3, es cualitativa o categrica y posee dos categoras (conoce y no
conoce), siendo su grfico apropiado el de barras. En el eje Y se
colocan las frecuencias absolutas o las relativas y en el eje X colo-
camos las dos categoras, las cuales estarn representadas por ba-
rras separadas y de altura igual a las frecuencias absolutas o relati-
vas, dependiendo del tipo de grficos de frecuencias a construir.
Usando los comandos del SPSS del captulo VII (procedimien-
tos estadsticos), obtenemos los siguientes grficos solicitados:
Figura 11: Grfico de frecuencias Figura 12: Grfico de frecuencias
absolutas para la variable relativas (%) para la variable
conoce otro idioma. conoce otro idioma.

c onoc e

no c onoc e

Conoce otro
idioma
0
5
10
15
20
25
Nmero de
estudiantes


con oce

no con oce

Conoce otro
idioma
0
20
40
60
80
Porcentaje de
estudiantes
02_cap2.p65 31/03/2006, 02:32 p.m. 89
90
Observando la figura 12 se ve claramente que el 73% de los
estudiantes de doctorado, representado por la barra de mayor altu-
ra, no tiene conocimiento de otro idioma.
Una alternativa al grfico de barras es el grfico de sectores.
Grfico de sectores. Llamado tambin grfico de pastel o circular,
debido a que se representa por un crculo, el cual se divide en
tantos sectores circulares como categoras tenga la variable. El ta-
mao de cada sector circular debe ser proporcional al nmero de
observaciones de la muestra que estn incluidas en cada categora.
Ejemplo 13
Para el conjunto de datos del ejemplo 12, construir el grfico de
sectores para la variable conocimiento de otro idioma.
Solucin
Para construir el grfico de sectores para la distribucin de fre-
cuencia de la variable conocimiento de otro idioma, presentado en
la tabla 3, se empieza trazando un crculo y se le divide en dos
sectores circulares correspondientes a las categoras conoce 27% y
no conoce 73%. El ngulo central correspondiente al sector circu-
lar de la categora conoce es igual a 27 x 3,6 = 97,2 y para el otro
sector circular de la categora no conoce otro idioma, su ngulo
central es igual a 73 x 3,6 = 262,8
Usando los comandos del SPSS del captulo VII (procedimien-
tos estadsticos), se obtiene el grfico solicitado:
conoce
no cono ce
conoc e otro idio ma
26,67%
73,33%
Figu r a 1 3 . Gr fi c o de sec to res de l a va ri abl e
Cono ce ot ro idi om a
Observando la figura 13, vemos que el sector circular de mayor
rea le corresponde a la categora no conocen otro idioma, es decir,
el 73% de los estudiantes de doctorado no conoce otro idioma y el
27% restante s conoce otro idioma.
02_cap2.p65 31/03/2006, 02:32 p.m. 90
91
Anlisis Exploratorio de Datos
El Anlisis Exploratorio de Datos (AED) proporciona diferentes
mtodos para realizar un estudio detallado de los datos de una
manera relativamente rpida y fcil; surge como una alternativa al
enfoque clsico antes presentado. Uno de los conceptos que apare-
ce con AED es el de resistencia, en el sentido de que las tcnicas o
mtodos que se usan son insensibles al mal comportamiento de los
datos. Los mtodos resistentes prestan mucha atencin a la estruc-
tura principal de los datos y poca atencin a los outliers; enten-
diendo por outliers aquellos datos, de un conjunto dado, que se
alejan del resto de los dems, es decir, tienen un mal comporta-
miento comparado con la mayora de los datos, porque tienen va-
lores muy extremos, ya sean inferiores o superiores. La traduccin
de outliers ms generalizada es la de datos raros, aberrantes o
discordantes.
Los mtodos exploratorios resistentes buscan ampliar la efec-
tividad del anlisis estadstico. Se sabe que los mtodos estadsti-
cos tabulares y grficos del enfoque clsico estudiados son lo me-
jor posible cuando los datos tienen un comportamiento normal,
sin la presencia de datos discordantes, pero, sin embargo, la expe-
riencia indica que no son los mejores cuando, en situaciones rea-
les, no revelan el comportamiento tal cual es de los datos, debido a
la presencia de datos discordantes. De ah que los grficos dentro
del anlisis exploratorio deban servirnos incluso para revelarnos
precisamente lo que no esperbamos encontrar en los datos y no
para darnos falsa seguridad.
La presentacin grfica resistente de los datos aparece en 1970
con el nombre formal de tallo y hojas propuesto por Jhon Tukey, y
es semejante al histograma pero no lo sustituye, ya que entre otras
cosas se puede trabajar como mximo con 100 datos, situaciones
que se presentan en las ciencias experimentales.
Presentacin de tallo y hojas para datos cuantitativos
continuos
De manera fcil y rpida se puede realizar la construccin del
diagrama de tallo y hojas: se debe observar el nmero de dgitos de
02_cap2.p65 31/03/2006, 02:32 p.m. 91
92
los datos, seleccionar uno o ms de los primeros dgitos para for-
mar el tallo y el dgito restante para formar las hojas.
Luego se debe hacer una lista de los posibles valores de los
tallos ordenados en una columna y registrar las hojas para cada
tallo correspondiente
Por ejemplo, si el siguiente conjunto de datos representa las
notas parciales para seis estudiantes en el curso de Estadstica (en
la escala de 1 a 30 puntos): 16,2, 16,5, 17,8, 18,6, 20,4, podemos
elegir como tallo la parte entera de cada nmero, es decir, 16, 17,
18, 19 y 20, y como sus respectivas hojas la parte decimal, como se
muestra a continuacin, acompaado de la unidad respectiva para
poder leer los datos.
Unidad : 0,1
Tallo hojas
16 2 5
17 8
18 6
19
20 4
La separacin en dos partes de los datos no necesariamente es
entre entero y decimal, se podran presentar otras formas, tales como:
a) Cortar la parte decimal y trabajar slo con la parte entera,
las decenas formaran el tallo y las unidades las hojas. Tomando el
mismo conjunto de datos se tendra: 16, 16, 17, 18, 20
Unidad 1
Tallo hojas
1 6 6 7 8
2 0
b) Redondear los datos, tomando el dgito de las decenas para
el tallo y el dgito de las unidades para las hojas: 16, 17, 18, 19, 20
Unidad 1
Tallo hojas
1 6 7 8 9
2 0
Ejemplo 14
Presentaremos el diagrama de tallo y hojas para el ejemplo 3, apor-
taciones que realizaron 100 docentes universitarios al Sistema
Nacional de Pensiones.
02_cap2.p65 31/03/2006, 02:32 p.m. 92
93
Solucin
Para la construccin del diagrama de tallo y hojas para la variable
aportaciones en nuevos soles, como los datos estn expresados en
nmeros enteros, elegimos las centenas y decenas para formar el
tallo y las unidades respectivas para formar las hojas. En el lado
izquierdo en una columna colocamos los valores ordenados de los
tallos totalizando 18 lneas desde 17 hasta 34, y en el lado derecho
colocamos en cada lnea las hojas correspondientes tambin en
forma ordenada de menor a mayor. La unidad es 1, que nos permi-
tir leer los datos como 174, 187,..., 337, 349.
Unidad 1
17 4
18 7
19 7
20 0 5 8
21 0 4 5
22 0 1 3 8
23 1 1 4 5 5 5
24 2 2 3 5 6 8 8
25 0 0 0 1 3 4 4 8 8 8
26 0 0 0 0 1 2 3 3 4 4 5 5 5 5 5 5 7 7 8 9 9
27 0 1 1 2 4 4 4 4 5 6 6 7 8 8
28 0 0 0 0 1 1 3 3 6 7
29 0 3 4 6 8 9 9
30 0 1 7 8
31 7 8
32 1 8
33 4 7
34 9
Adems, no se necesita grfico adicional a la presentacin de
tallo y hojas para averiguar cun simtrico es el conjunto de datos,
o cun dispersos o concentrados estn los datos. Si imagina-
riamente hacemos girar 90 hacia la izquierda el diagrama de tallo
y hojas y trazamos una curva a lo largo de la parte superior del
diagrama, podemos responder tales preguntas.
Observamos que la distribucin de las aportaciones es casi
simtrica y unimodal, de dispersin moderada y que las aportacio-
nes se concentran entre 260 y 269 nuevos soles, siendo su valor
central y la aportacin que ms se repite 265 nuevos soles. No se
observan en el diagrama vacos ni aportaciones que estn muy
alejadas de su valor central.
02_cap2.p65 31/03/2006, 02:32 p.m. 93
94
Ejemplo 15
Presentar el diagrama de tallo y hojas de la variable coeficiente de
inteligencia de la base DATOS1-maestra.
Solucin
Siguiendo el mismo procedimiento del ejemplo anterior, podemos
construir el diagrama de tallo y hojas solicitado, slo que en esta
oportunidad lo haremos haciendo uso del software SPSS, cuyos
comandos respectivos se encuentran en las pgina 286-287. La
salida del SPSS es la siguiente.
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
INTELIGE 70 100, 0% 0 ,0% 70 100, 0%
INTELIGE Stem-and-Leaf Plot
Figura 14: Diagrama de tallo y hojas para la variable
coeficiente de inteligencia de la base DATOS1
Inteligencia Stem-and-Leaf Plot
Frequency Stem & Leaf


5.00 9 . 33334
28.00 9 . 5555666667888888888889999999
22.00 10 . 0000000012222233344444


7.00 10 . 5556678


2.00 11 . 02

6.00 Extremes (>=114)
Stem width: 10
Each leaf: 1 case(s)
A la vista saltan las ventajas del diagrama de tallo y hojas,
pues conserva los datos originales. En nuestro ejemplo, observa-
mos que son pocos los estudiantes, solamente 6 de los 70, que han
obtenido coeficiente de inteligencia mayor o igual a 114, muy por
encima del resto de los dems, lo que podramos sealar como
posibles datos discordantes.
Adems, observamos que la distribucin de los datos no tiene
forma de campana, sino que muestra un alargamiento hacia la
derecha, indicndonos que es asimtrica positiva. Los coeficientes
02_cap2.p65 31/03/2006, 02:32 p.m. 94
95
de inteligencia se dispersan del valor central hacia la derecha ms
que para el lado izquierdo, la gran parte de los coeficientes de
inteligencia se centran entre los valores 95 y 99, y tambin observa-
mos que es unimodal, siendo el coeficiente de inteligencia que ms
se repite el 98.
Variaciones en la presentacin de tallo y hojas
Si el diagrama de tallo y hojas presenta pocas lneas (tallos) u hojas
muy recargadas y quisiramos mayor grado de detalle, se descom-
pone cada lnea en 2 5 lneas.
Si es en 2 lneas, se repite el tallo acompaado de la letra L
para las hojas de los valores bajos 0, 1, 2, 3, 4 y de la letra H para las
hojas de los valores altos 5, 6, 7, 8 , 9.
Ejemplo 16
Representar mediante el diagrama de tallo y hojas las siguientes
ventas trimestrales expresadas en miles de soles de una tienda
comercial:
36 41 44 36 35 42 44 36 39 46 44 36 41 46 44 39
44 48 47 44 42 52 52 49 41 55 53 50 54 53 42 41
Solucin
Escogemos las decenas para el tallo y las unidades para las hojas.
Cada tallo lo desdoblamos en dos lneas y, para diferenciarlos, el
tallo va acompaado de la letras L y H.
Unidad 1
3H 5 6 6 6 6 9 9
4L 1 1 1 2 2 2 2 2 2 2 2 2
4H 6 6 7 8 8 9 9
5L 0 2 2 3 3 4
5H 5
Si es en 5 lneas, se repite el tallo acompaado de la letra L
para los valores 0, 1; de la letra T para los valores 2 y 3; de la letra
F para los valores 4 y 5; de la letra S para los valores 6 y 7; y de la
letra H para los valores 8 y 9, como se ilustra a continuacin:
02_cap2.p65 31/03/2006, 02:32 p.m. 95
96
Unidad 1
55L 0
55T 2 2 3
55F 4 5 5 5
55S 6 7
55H 8 8 9
56L 0 0 1 1
56T 2 2 3 3
56F 4 4 4 5 5
56S 6 7 7
56H 8
Hasta el momento hemos trabajado con diagramas de tallo y
hojas donde la hoja est conformada por un solo dgito y el tallo
puede tener uno, dos o ms dgitos. Ahora, supongamos que tene-
mos un conjunto de 30 datos cuyo menor valor es 6 544 y el mayor
es 7 120. Si tomamos como tallo un solo dgito, es decir los millares,
tendramos solamente dos lneas (6 y 7), y si tomamos como tallo
tres dgitos, es decir, desde 654 hasta 712, tendramos demasiadas
lneas. En tal situacin podemos proceder de la siguiente manera
para la construccin de tallo y hojas: tomar las centenas y millares
para los tallos y las unidades y decenas para las hojas
Unidad 1
Tallo hojas
65 44 46 55
66 18 24 70 80
67 00 15 40 60 80 90
68 42 50 70 90
69 00 08 30 50
70 03 33 40 60 70
71 09 13 18 20
En algunas situaciones, dependiendo del rigor de anlisis del
conjunto de datos, se podra truncar el dgito de las unidades por
cero. Continuando con el ejemplo anterior, el diagrama de tallo y
hojas quedara representado de la siguiente manera:
Unidad 10
65 4 4 5
66 1 2 7 8
67 0 1 4 6 8 9
68 4 5 7 9
69 0 0 3 5
70 0 3 4 6 7
71 0 1 1 2
72
02_cap2.p65 31/03/2006, 02:32 p.m. 96
9
Como se observa, no hay cambios en el cuerpo de la tabla por
ser resistente.
Grfico digidot
Un diagrama de tallo y hojas muestra las observaciones ordena-
das de menor a mayor, pero no muestra el orden real en la cual
fueron apareciendo, pudiendo ocultar alguna informacin impor-
tante respecto al conjunto de datos. En tal situacin, el grfico
digidot combina las observaciones a travs del tiempo con el
diagrama de tallo y hojas, como se muestra a continuacin.
Ejemplo 17
Tomando el ejemplo 16, correspondiente a ventas trimestrales, rea-
lizaremos el grfico digidot.
Figura 15. Grfico digidot de las ventas trimestrales
3H 5 6 6 6 6 9 9
4L 1 1 1 2 2 2 2 2 2 2 2 2
4H 6 6 7 8 8 9 9
5L 0 2 2 3 3 4
5H 5
Tiempo
grfico de lnea Grfico de tallo y hojas
El grfico digidot, consistente del diagrama de tallo y hojas
acompaado del grfico de lnea, nos muestra que trimestre a tri-
mestre la produccin tiene una tendencia creciente, y que el segun-
do y tercer trimestre de cada ao tiene mayor produccin que el
primero y el cuarto, presentando estacionalidad.
En el diagrama de tallo y hojas, adems de colocar la unidad
que nos permite la lectura de los datos, se acostumbra acompaar
de la profundidad de lnea, la cual nos sirve para calcular ms
fcilmente las estadsticas de posicin resistente, y se coloca en
una columna al lado del tallo.
Dado un conjunto de datos ordenados en forma ascendente,
intuitivamente se conoce como la profundidad de un dato, al or-
Sequ en ce nu mb er
31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 1
V
E
N
T
A
S
60
50
40
30
02_cap2.p65 31/03/2006, 02:32 p.m. 97
98
den o lugar que ocupa el dato, contando desde su extremo ms
cercano
Si tuviramos el conjunto de datos 1, 4, 6, 8, 10, 12, la profundi-
dad de 4 es dos, porque ocupa el segundo lugar desde su extremo
ms cercano que es 1; la profundidad de 8 es tres, porque ocupa el
tercer lugar contando desde su extremo ms cercano, que es 12.
La profundidad de lnea dentro del diagrama de tallo y hojas
es la profundidad mxima de los datos que contiene dicha lnea.
Mostramos la representacin completa de tallo y hojas del ejem-
plo 15 de la base DATOS1, acompaado de la unidad y de la co-
lumna de profundidad segn MINITAB que, como se observar (a
diferencia del SPSS que muestra la frecuencia), muestra la profun-
didad en cada lnea y los valores extremos.
Stem-and-leaf of C1 N = 70
Leaf Unit = 1,0
3 9 333
8 9 44555
15 9 6666777
29 9 88899999999999
(13) 10 0000000000011
28 10 2222333
21 10 44445555
13 10 6677
9 10 8
8 11 0
7 11 2
6 11 4
5 11 67
3 11 8
2 12 00
Tambin deberamos preguntarnos cuntas lneas es permi-
tido hacer en el diagrama de tallo y hojas? La respuesta ms inme-
diata es la de extrapolar los mismos criterios que usamos para la
construccin del nmero de intervalos de clase, como en el caso de
los histogramas (5-20), o siguiendo el criterio del estadstico.
Los diagramas de tallo y hojas resultan muy tiles cuando se
desea comparar dos o ms conjuntos de datos de naturaleza simi-
lar. As, si deseamos comparar los coeficientes de inteligencia de
varones y mujeres de nuestra base DATOS1-maestra, empleara-
mos el diagrama de tallo y hojas como se ilustra a continuacin.
02_cap2.p65 31/03/2006, 02:32 p.m. 98
99
Figura 16: Diagrama de tallo y hojas de la variable
coeficiente de inteligencia segn sexo.
INTELIGE Stem-and-Leaf Plot for INTELIGE Stem-and-Leaf Plot for
SEXO= femenino SEXO= masculino
Frequency Stem & Leaf Frequency Stem & Leaf
2. 00 9 . 22

3.00 9 . 234
2. 00 9 . 55 13.00 9 . 5566688888899
3. 00 9 . 667

7.00 10 . 0023344


11.00 9 . 88888999999

3.00 10 . 568
9. 00 10 . 000001111

2.00 11 . 02
2. 00 10 . 22

1.00 Extremes (>=120)
5. 00 10 . 44455
2. 00 10 . 67 Stem width: 10 Each
5.00 Extremes (>=114) leaf: 1 case(s)
Stem width: 10 Each
leaf: 1 case(s)
Estadsticas:
Case Processing Summary
Cases
Valid Missing Total
sexo de los N Percent N Percent N Percent
estudiantes
INTELIGE femenino 41 100, 0% 0 ,0% 41 100, 0%
masculino 29 100, 0% 0 ,0% 29 100, 0%
El menor valor del coeficiente de inteligencia es 92 para ambos
sexos, de los cuales dos valores de 92 corresponden a las mujeres y
uno a los hombres y el mayor valor del coeficiente de inteligencia
para ambos sexos es 120, de los cuales un solo valor de 120 corres-
ponde a las mujeres y tambin un solo valor de 120 corresponde a
los hombres. El coeficiente de inteligencia 120 se encuentra muy
por encima y distanciado del resto de los dems valores y, lo pode-
mos considerar como un posible dato discordante.
Ambos diagramas de tallo y hojas nos muestran una distribu-
cin asimtrica positiva y unimodal, siendo 99 el coeficiente de
inteligencia que mas se repite en el caso de las mujeres y 98 en el
caso de los hombres.
Para el caso de las mujeres el coeficiente de inteligencia se
concentra en los valores 98 y 99 y para los hombres el coeficiente de
inteligencia se concentra en los valores 95 hasta 99.
02_cap2.p65 31/03/2006, 02:32 p.m. 99
100
Para ambos sexos se observa que el coeficiente de inteligencia
120 difiere del resto de coeficientes, destacando en el caso de los
hombres que la mayora de los coeficientes de inteligencia se en-
cuentran entre 92 y 112, encontrndose un solo coeficiente de inte-
ligencia igual a 120 bastante alejado de 112. En el caso de las mu-
jeres se observa que la mayora de los coeficientes de inteligencia se
encuentran entre 92 y 107 existiendo cinco coeficientes de inteli-
gencia 114, 116, 117,118, y 120 alejados de 107. Las observaciones
alejadas del resto de los dems son posibles datos discordantes, la
metodologa para confirmar si son datos discordantes ser estu-
diada en el captulo siguiente.
Ejercicios
Se recomienda realizar todos los ejercicios manualmente y despus
usar el SPSS o MATLAB. Comentar ambas salidas o resultados.
1. Para la base DATOS1, considere la variable X
5
: rendimiento aca-
dmico en el curso de Estadstica y responda lo siguiente:
a) Elabore una tabla de distribucin de frecuencias absolutas,
relativas, absolutas acumuladas, relativas acumuladas y
luego interprete
2 3 4, 5
, , , % f h F H .
b) Qu porcentaje de estudiantes ha obtenido un rendimiento
acadmico entre 12 y 15?
2. Para la base DATOS3 considere la variable X
4
: nota promedio en
Geometra y conteste lo siguiente:
a) Elabore una tabla de distribucin de frecuencias relativas y
relativas acumuladas expresadas en porcentajes e interpre-
te algunas de dichas frecuencias.
b) Qu porcentaje de estudiantes ha obtenido como nota pro-
medio en Geometra una nota menor igual a 13?
3. Para la tabla de distribucin de frecuencias del ejercicio 1:
a) Construya un histograma de frecuencias y luego interprete
el grfico.
b) Construya un polgono de frecuencia e interprete el grfico.
02_cap2.p65 31/03/2006, 02:32 p.m. 100
101
c) Sobre el histograma realizado en a), vuelva a trazar el pol-
gono de frecuencia, compare ambos grficos y comente.
d) Construya la ojiva para las frecuencias absolutas acumula-
das e interprete.
4. Considere la variable X4: nota promedio en Geometra de la base
DATOS3 y responda lo siguiente:
a) Construya el diagrama de tallo y hojas.
b) Podra identificar algn valor tpico o representativo del
conjunto de datos?
c) La distribucin de la nota promedio de Geometra le pare-
ce razonablemente simtrica? De no ser as, cmo podra
describir la forma de la distribucin?
d) Podra identificar una o ms notas promedio de Geome-
tra apartadas del resto de las dems notas? Si su respuesta
es afirmativa, qu nombre le dara a dichas observaciones?
5. Para la base DATOS4, considere la variable nmero de asam-
bleas vecinales a las que asisti el dirigente vecinal.
a) Elabore la tabla de distribucin de frecuencias para dicha
variable e interprete algunas de las frecuencias.
b) Cuntos dirigentes distritales asistieron a 4 asambleas ve-
cinales?
c) Qu porcentaje de dirigentes distritales asistieron a ms de
5 asambleas vecinales?
d) Qu porcentaje de dirigentes distritales asistieron de 2 a 5
asambleas vecinales?
6. Construya el grfico de barras o bastones usando las frecuencias
absolutas para los datos del ejercicio 5 e interprete. Observando
el grfico, responda: Cuntos participantes distritales asistie-
ron a 3 asambleas vecinales?
7. Construya el grfico de escalera usando las frecuencias absolu-
tas acumuladas para los datos del ejercicio 5 e interprete. Obser-
vando el grfico, responda: Cuntos participantes distritales
asistieron a 4 o menos asambleas vecinales?
02_cap2.p65 31/03/2006, 02:32 p.m. 101
102
8. Suponga que un profesor ensea el curso de ingls a dos grupos
de estudiantes de secundaria con las mismas caractersticas y
deseo de aprender el idioma, usando el mtodo A para el primer
grupo y el mtodo B para el segundo grupo. Al finalizar el curso,
los estudiantes obtienen las siguientes calificaciones (de 0 a 100):
Grupo 1 (mtodo A)
56 44 62 36 39 53 50 65 45 40 56 68 41 30 40 50 56 30 22
Grupo 2 (mtodo B)
62 53 75 42 47 40 34 62 52 50 34 42 36 75 80 47 56 62
a) Construya el diagrama de tallo y hojas adosado, colocando
a la izquierda del tallo las hojas correspondientes a las ca-
lificaciones del primer grupo y a la derecha del mismo tallo
las hojas correspondientes a las calificaciones del segundo
grupo.
b) Compare ambos grupos indicando semejanzas o diferencias.
9. Se presentan los gastos (expresados en nuevos soles) realizados
por 100 estudiantes de maestra de una universidad pblica
durante un semestre acadmico de 4 meses de duracin:
5434 4948 4521 4570 4990 5702 5241 5112 5015 4659 4806 4637 5670 4381 4820
5043 4886 4599 5288 5299 4848 5378 5260 5055 5828 5218 4859 4780 5027 5008
4609 4772 5133 5095 4618 4848 5089 5518 5333 5164 5342 5069 4755 4925
5001 4803 4951 5679 5256 5207 5621 4918 5138 4786 4500 5461 5049 4974
4592 4173 5296 4965 5170 4740 5173 4568 5653 5078 4900 4698 5348 5245
4723 5275 5419 5205 4452 5227 5555 5388 5498 4681 5076 4774 4931 4493
5309 5582 4308 4823 4417 5364 5640 5969 5188 5764 5273 5042 5189 4986
a) Construya una tabla de distribucin de frecuencias absolu-
tas, relativas, absolutas acumuladas y relativas acumuladas.
Recomendacin: Emplee 10 intervalos de clase y considere
el lmite inferior del primer intervalo igual a 4 000 y el lmi-
te superior 4 200.
b) Construya un histograma de frecuencia relativa expresada
en porcentaje.
c) Segn a) y b), diga qu forma tiene la distribucin de los
gastos de los estudiantes de maestra.
02_cap2.p65 31/03/2006, 02:32 p.m. 102
103
10. Dada la siguiente distribucin de frecuencias correspondiente
al ingreso (expresado en nuevos soles) de 191 trabajadores inde-
pendiente eventuales:
Ingresos Trabajadores
[0 - 2) 6
[20 - 4) 11
[40 - 60) 16
[60 - 80) 25
[80 - 100) 34
[100 - 120) 46
[120 - 140) 33
[140 - 160) 16
[160 - 180) 2
[180 -200] 2
Total 191
a) Hallar las frecuencias relativas de los ingresos.
b) Construir un histograma de frecuencias relativas para los
ingresos de los trabajadores independientes eventuales.
c) Qu porcentaje de los trabajadores independientes eventua-
les tiene sus ingresos semanales desde mayor igual que 90
hasta menor igual a 145?
11. Se realiz una encuesta a 30 trabajadores de una fbrica textil
para actualizar su grado de instruccin y se obtuvo la siguiente
informacin:
Grado de instruccin Nmero de trabajadores Porcentaje de trabajadores
Preescolar 2 7
Primaria 13 43
Secundaria 12 40
Superior 3 10
Total 30 100
a) Construya el grfico de barras usando las frecuencias abso-
lutas e interprete.
b) Construya el grfico de sectores usando las frecuencias re-
lativas expresadas en porcentaje.
12. Trabaje con la base DATOS2 y elija la variable: Escuela Acad-
mico Profesional (E.A.P.) a la que pertenece el alumno de la Fa-
cultad de Ciencias Matemticas de la UNMSM.
02_cap2.p65 31/03/2006, 02:32 p.m. 103
104
a) Elabore una tabla de distribucin de frecuencias para la va-
riable E.A.P. considerando las frecuencias absolutas y rela-
tivas expresadas en porcentaje.
b) Qu porcentaje de alumnos pertenece a la E. A. P. de Esta-
dstica?
c) Cuntos alumnos pertenecen a la E.A.P. de Matemtica?
13. Considerando la parte a) del ejercicio 12:
a) Construya el grfico de barras para la variable E.A.P. usan-
do las frecuencias absolutas e interprete.
b) Construya el grfico de sectores o circular usando la distri-
bucin de frecuencias relativas expresadas en porcentaje e
interprete.
14. Considere el ejercicio 1, correspondiente al rendimiento acad-
mico de los estudiantes del curso de Estadstica. Responda lo
siguiente:
a) Construya el diagrama de tallo y hojas.
b) Podra identificar algn valor tpico o representativo del
conjunto de datos?
c) La distribucin de las notas de los alumnos del curso de
Estadstica le parece razonablemente simtrica? De no ser
as, cmo podra describir la forma de la distribucin?
d) Podra identificar una o ms notas del curso de Estadsti-
ca apartadas del resto de las dems notas? Si su respuesta
es afirmativa, qu nombre le dara a dichas observaciones?
15. Compare los resultados obtenidos en los ejercicios 1 y 14, res-
pecto a la presentacin y organizacin de las notas de los alum-
nos del curso de Estadstica.
16. Retome el ejercicio 9, correspondiente a los gastos (expresados
en nuevos soles) realizados por 100 estudiantes de maestra y
responda lo siguiente:
a) Construya el diagrama de tallo y hojas.
b) Podra identificar algn valor tpico o representativo del
conjunto de datos?
02_cap2.p65 31/03/2006, 02:32 p.m. 104
105
c) La distribucin de los gastos de los estudiantes de maes-
tra le parece razonablemente simtrica? De no ser as, cmo
podra describir la forma de la distribucin?
d) Existe uno o ms gastos que difieran del resto de los de-
ms? Si su respuesta es afirmativa, qu nombre le dara a
dichas observaciones?
17. Compare los resultados obtenidos en los ejercicios 9 y 15 respec-
to a la representacin y organizacin de los gastos (expresados
en nuevos soles) de los alumnos de maestra.
02_cap2.p65 31/03/2006, 02:32 p.m. 105
106
02_cap2.p65 31/03/2006, 02:32 p.m. 106
10
Introduccin
Hasta ahora, para describir un conjunto de datos, se han emplea-
do tablas y grficos. Estos son tiles para dar rpidamente una
visin general del comportamiento de los valores que asume una
variable; as, en el caso de variables categricas, los diagramas son
suficientes para dar una descripcin completa de las mismas.
Sin embargo, para describir el comportamiento de variables
cuantitativas se requiere de una mayor precisin que la que puede
proporcionar un grfico. Es importante que esa descripcin tras-
cienda los lmites de lo visual y lo subjetivo en cuanto sea posible.
Como solucin a la situacin planteada, surgen las medidas de
posicin y de dispersin, para describir las caractersticas de las
distribuciones en forma cuantitativa. Ms exactamente, la preci-
sin que es deseable obtener al describir el conjunto de datos nu-
mricos se refiere a dos aspectos, cada uno de los cuales se puede
traducir en una pregunta: Existe algn valor de la variable que
represente a la mayora de los valores del conjunto de datos? Qu
tan separados estn entre s los diferentes valores que asume la
variable respecto al valor de la variable que representa a los datos?
La primera pregunta se refiere a las medidas de posicin y la se-
gunda, a las llamadas medidas de dispersin.
As tambin, un investigador del campo educativo puede rea-
lizar una investigacin para determinar si las aptitudes matemti-
cas son diferentes segn el sexo de los estudiantes. Este investiga-
|10]
Captulo III
Medidas de posicin y de dispersin
03_cap3.p65 31/03/2006, 02:34 p.m. 107
108
dor tendr dos conjuntos de calificaciones, luego obtendr la cali-
ficacin promedio de cada grupo y har la comparacin de los
promedios. La variabilidad de los datos es otro aspecto importante
que el investigador debe de considerar. As, necesita saber si las
calificaciones son uniformes o varan entre los estudiantes del sexo
femenino y del sexo masculino.
Medidas de posicin
En el campo social y educativo las medidas de tendencia central
que se usan ms frecuentemente son la media aritmtica, la media-
na, los percentiles y la moda. A continuacin desarrollaremos di-
chos temas.
Media aritmtica
Definicin
Si
1
,....,
n
x x son los valores observados de una variable X , la
media aritmtica o simplemente media o promedio de estos datos
se define como el cociente de la suma de todos los valores observa-
dos entre el nmero de datos o tamao de la muestra. Su expresin
matemtica es:
1 2
1
... 1
n
n
i
i
x x x
X x
n n
=
+ + +
= =
, (3.1)
donde n es el nmero total de observaciones.
Ejemplo 1
Los siguientes datos corresponden a las notas de 5 estudiantes en
el curso de Estadstica: 12, 15, 11, 09, 13. Encontraremos el valor de
la media aritmtica.
Solucin
La nota promedio del curso es
( )
1 2
... 1
12 15 11 09 13
5
n
x x x
X
n
+ + +
= = + + + +
=12 puntos.
03_cap3.p65 31/03/2006, 02:34 p.m. 108
109
Media aritmtica ponderada
Nos permite calcular un promedio tomando en cuenta la impor-
tancia o peso de cada valor observado de la variable con respecto
al total. Su expresin matemtica es:
1
1
k
i i
i
w
k
i
i
x w
X
w
=
=
=

(3.2)
donde
i
w , es la importancia o peso que se asigna a cada valor
de la variable.
Ejemplo 2
Supongamos que un profesor decide utilizar un promedio ponde-
rado para obtener los promedios finales de cada uno de los estu-
diantes que asisten al curso de Estadstica. El promedio de trabajos
tendr un valor de 20% de la calificacin del estudiante; el examen
parcial, 25%; el examen final, 35%; y el promedio de prcticas,
20%. A partir de los datos siguientes calcularemos el promedio
final para dos estudiantes cualesquiera.
Estudiante Nota de trabajos Examen parcial Examen final Promedio
prcticas
1 15 12 18 13
2 17 10 14 17
Solucin
a) Obtengamos el promedio ponderado del primer estudiante. Apli-
cando la frmula (3.2) se tiene:
1
1
k
i i
i
w
k
i
i
x w
X
w
=
=
= =


15(0, 2) 12(0, 25) 18(0, 35) 13(0, 20)
14, 9
0, 20 0, 25 0, 35 0, 20
+ + +
=
+ + +

puntos.
Por otro lado, calculamos la media aritmtica de las notas del
primer estudiante, obtenemos 14,5 puntos.
b) Obtengamos el promedio ponderado del segundo estudian-
te. En este caso el promedio ponderado es:
03_cap3.p65 31/03/2006, 02:34 p.m. 109
110
17(0, 2) 10(0, 25) 14(0, 35) 17(0, 20)
14, 2
0, 20 0, 25 0, 35 0, 20
w X
+ + +
= =
+ + +

puntos.
Observe que la media aritmtica del segundo estudiante tam-
bin es 14,5.
El primer estudiante tiene mayor promedio ponderado que el
segundo estudiante debido a que el examen final tiene mayor peso,
a pesar de que el segundo estudiante supera al primero en las
notas de trabajo y prcticas.
Si los datos se presentan en una distribucin de frecuencias,
donde los valores
i
x de la variable se repiten
i
f veces, la frmula
(3.1) quedar expresada en la siguiente forma:
1
1
k
i i
i
X x f
n
=
=
(3.3)
Ejemplo 3
Los alumnos del Doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM matri-
culados en el semestre acadmico 2000-I y que ingresaron a la uni-
versidad entre los aos 1997 y 1999. El estudio se llev a cabo entre
abril y junio del ao 2000. Como el nmero total de estudiantes que
cursaban las diversas maestras era alrededor de 2 500, despus de
grandes debates, los alumnos del doctorado en Educacin decidie-
ron seleccionar una muestra de 30 estudiantes de la maestra en
Gestin Educativa. A continuacin se presentan los datos para la
variable nmero de hijos de los 30 maestristas. Encontraremos el
nmero promedio de hijos.
Nmero de hijos
i
f
X
0 2
1 11
2 11
4 3
5 3
Total 30
03_cap3.p65 31/03/2006, 02:34 p.m. 110
111
Solucin
Como los datos se encuentran tabulados usaremos la expresin
(3.3) para obtener la media aritmtica. Los clculos auxiliares se
presentan en la siguiente tabla.

i
x
i
f
i i
x f
0 2 0
1 11 11
2 11 22
4 3 12
5 3 15
Total 30 60
Reemplazando en la frmula (3. 3) se tiene:
1
1
k
i i
i
X x f
n
=
=
=
0(2) 1(11) 2(11) 4(3) 5(3) 60
2
30 30
X
+ + + +
= = =
hijos.
En promedio, los estudiantes de la maestra tienen 2 hijos.
Si los datos se presentan en una tabla de distribucin de fre-
cuencias agrupados en intervalos de clase, los valores
i
x de la
expresin (3.3) sern reemplazados por la marca de clase de cada
intervalo y el valor de la media aritmtica se obtiene de la siguiente
manera:
1
1
' '
, es la i-sima marca de clase
k
i i i
i
X x f x
n
=
=

(3.4)
Ejemplo 4
Los alumnos del doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM, matri-
culados en el semestre acadmico 2000-I y que ingresaron a la uni-
versidad entre los aos 1997 y 1999. El estudio se llev a cabo entre
abril y junio del ao 2000. Como el nmero total de estudiantes que
cursaban las diversas maestras era alrededor de 2 500, despus de
grandes debates, los alumnos del doctorado en Educacin decidie-
ron seleccionar una muestra de 30 estudiantes de la maestra en
03_cap3.p65 31/03/2006, 02:34 p.m. 111
112
Gestin Educativa. A continuacin se presentan los datos para la
variable edad de los estudiantes. Obtengamos la media aritmtica.
Edades Marca de clase Frecuencia Absoluta
[ )
1
,
i i
L L

'
i
x
i
f
[23 - 32) 27, 5 6
[32 - 41) 36, 5 12
[41 - 50) 45, 5 8
[50 - 59) 54, 5 2
[59 - 68] 63, 5 2
Solucin
Como los datos se presentan agrupados en intervalos de clase usa-
remos la expresin (3.4) para obtener el valor de la media aritmti-
ca. Los clculos auxiliares se presentan en la siguiente tabla:
Edades Marca de clase Frecuencia Absoluta
[ )
1
,
i i
L L

'
i
x
i
f
'
i i
x f
[23 - 32) 27, 5 6 165,0
[32 - 41) 36, 5 12 438,0
[41 - 50) 45, 5 8 364,0
[50 - 59) 54, 5 2 109,0
[59 - 68] 63, 5 2 127,0
Total 30 1203,0
y reemplazando en la frmula (3.4) se encuentra:
'
1
1
n
i i
i
X x f
n
=
=

27, 5(6) 36, 5(12) 45, 5(8) 54, 5(2) 63, 5(2) 1203
40,1 aos.
30 30
+ + + +
= = =
La edad promedio de los estudiantes es 40,1 aos.
Propiedades de la media aritmtica
Propiedad 1. La suma de las desviaciones de los valores de la
variable respecto a la media aritmtica es igual a cero. Expresado
matemticamente, tendremos:
( )
1
0
k
i i
i
x X f
=
=
.
03_cap3.p65 31/03/2006, 02:34 p.m. 112
113
Demostracin
( )
1
k
i i
i
x X f
=
=

1
1 1
0, puesto que
k
i i k k
i
i i i
i i
x f
x f X f n X nX X
n
=
= =
= = =


Ejemplo 5
El Director del colegio Guadalupe est preocupado porque duran-
te el ao acadmico 2004, algunos alumnos han faltado frecuente-
mente a clases. Con la finalidad de verificar su percepcin, solicita
al Director Acadmico que tome una muestra de 20 estudiantes
que en el ao 2004 cursaron el cuarto ao de secundaria. Obtenga
para dichos estudiantes: a) el promedio de inasistencias del mes
de noviembre y b) compruebe la propiedad 1 de la media aritmtica.
El informe del Director Acadmico consigna los siguientes datos.
Nmero de Inasistencias 1 3 6 7 8
en Noviembre
i
f 3 4 8 3 2
Solucin
a) Primero encontramos la media aritmtica general usando la fr-
mula (3.3):

i
x
i
f
i
x
i
f
1 3 1 x 3= 3
3 4 3 x 4=12
6 8 6 x 8=48
7 3 7 x 3=21
8 2 8 x 2=16
Total 100
1
1
k
i i
i
X x f
n
=
=

100
5
20
= =
inasistencias en promedio en el mes
de noviembre.
b) Luego, comprobamos la propiedad 1:
( ) ( ) ( ) ( )
1
1 5 3 3 5 4 6 5 8 (7 5)3 (8 5)2 12 8 8 6 6 0
k
i i
i
x X f
=
= + + + + = + + + =

03_cap3.p65 31/03/2006, 02:34 p.m. 113


114
Propiedad 2. La suma de los cuadrados de las desviaciones de
todos los valores con respecto a la media es mnima. Cuya expre-
sin matemtica es:
( )
2
1
es mnima
k
i i
i
x X f
=

Ejemplo 6
Aplicaremos la propiedad 2 a la distribucin de frecuencias des-
crita en el ejemplo 5.
Nmero de Inasistencias 1 3 6 7 8
en Noviembre
i
f 3 4 8 3 2
Solucin
Calculando los cuadrados de las desviaciones con respecto a la
media y tambin con respecto a cada uno de los valores de la varia-
ble se tiene:
i
x
i
f
2
( )
i i
x X f
2
( 1)
i i
x f
2
( 3)
i i
x f
2
( 6)
i i
x f
2
( 7)
i i
x f
2
( 8)
i i
x f
1 3 (1-5)
2
x 3=48 0 12 75 108 147
3 4 (3-5)
2
x 4=16 16 0 36 64 100
6 8 (6-5)
2
x 8= 8 200 72 0 8 32
7 3 (7-5)
2
x 3=12 108 48 3 0

3
8 2 (8-5)
2
x 2=18 98 50 8 2

0
Total 102 422 182 122 182 282
Observe que la suma de los cuadrados de las desviaciones
respecto a la media de la distribucin es menor que cualquier otra
suma de las desviaciones con respecto a cada uno de los valores de
la muestra.
Propiedad 3. Dados k conjuntos de datos con sus medias
1 2, , . . . , k X X X y con
1 2
, , . . .,
k
n n n observaciones, respec-
tivamente, la media global de todos los datos se obtiene mediante
la media ponderada, cuya expresin matemtica es:
03_cap3.p65 31/03/2006, 02:34 p.m. 114
115
1 2
1 2 1
1 2
1
...
...
k
i
i
k
k i
global
k
k
i
i
n X
n X n X n X
X
n n n
n
=
=
+ + +
= =
+ + +

donde el numerador representa la suma de todas las observa-


ciones y el denominador el nmero total de observaciones.
Ejemplo 7
Para la distribucin del nmero de inasistencias a clases presenta-
do en el ejemplo 5, se encontr que el promedio de inasistencias es
5. Particionaremos la muestra en dos submuestras, con las que se
verificar la propiedad 3.
Solucin
a) En la muestra 1:
i
x
i
f
i
x
i
f
1 3 1 x 3=


3
3 4 3 x 4= 12
6 8 6 x 8= 48
Total 15 63
1
63
15
X =
=4,2 n
1
=15
b) En la muestra 2:
i
x
i
f
i
x
i
f
7 3 7 x 3=21
8 2 8 x 2=16
Total 5 37
2
37
7, 4
5
X = =
n
2
=5
c) Luego, la media global es:
1 2
1 2
1 2
15(4, 2) 5(7, 4) 63 37 100
5
15 5 20 20
global
n X n X
X
n n
+ + +
= = = = =
+ +
inasistencias en promedio en el mes de noviembre.
Hemos encontrado el mismo valor de la media de la muestra
original, verificando as la propiedad 3.
03_cap3.p65 31/03/2006, 02:34 p.m. 115
116
Propiedad 4. La media aritmtica de una constante por una varia-
ble, es igual al producto de la constante por la media aritmtica de
la variable. Esto es, si 1,..., ,
i i
y Cx i n = = entonces Y CX =
Ejemplo 8
Los alumnos del doctorado en Educacin matriculados en el semes-
tre 2003, en el marco del curso de Estadstica Aplicada a la Investi-
gacin, realizaron una investigacin con el objetivo de establecer el
perfil de los estudiantes de maestra de la UNMSM matriculados en
el semestre acadmico 2002-I y que ingresaron a la universidad en-
tre los aos 2000 y 2002. El estudio se llev a cabo entre abril y junio
de 2003. Como el nmero total de estudiantes que cursaban las di-
versas maestras era alrededor de 3 000, despus de grandes deba-
tes, los alumnos del doctorado en Educacin decidieron seleccionar
una muestra de 25 estudiantes de la maestra en Idiomas. A conti-
nuacin, se presentan los datos para la variable calificaciones en el
primer examen del curso de ingls para los 25 estudiantes seleccio-
nados. Encontraremos la media aritmtica si el profesor decide du-
plicar la nota de cada estudiante, sabiendo que la media es 30,4.
Calificaciones Nmero de estudiantes

i
x
i
f
10 3
20 5
30 8
40 6
50 3
Total 25
Solucin
1.- Para las notas originales verificaremos el valor de la media
aritmtica.
Calificaciones Nmero de estudiantes
i
x
i
f
i
x
i
f
10 3 30
20 5 100
30 8 240
40 6 240
50 3 150
Total 25 760
760
30, 4
25
X = =
03_cap3.p65 31/03/2006, 02:34 p.m. 116
11
El valor de la media de las calificaciones del curso de ingls s
es 30,4 puntos.
2. La forma ms rpida de obtener el promedio de las notas dupli-
cadas ser aplicando la presente propiedad. Como el profesor le
duplica la calificacin a cada estudiante, la constante es C=2; lue-
go, esta constante ser multiplicada por la media de las calificacio-
nes, es decir:
Y CX =
=2(30,4)=60,8. La nueva media de las calificaciones
es Y =60,8.
Propiedad 5. La media aritmtica una variable mas una constante,
es igual a la media de la variable ms la constante. Esto es, si
1,..., ,
i i
y x C i n = + = entonces Y X C = + .
Ejemplo 9
Como parte de una tarea de laboratorio de nutricin, 15 estudian-
tes de tercer ao de la Escuela Acadmico Profesional de Nutricin
de la UNMSM matriculados el ao acadmico 2004, encontraron
el nmero de caloras (X ) de una porcin de lasaga y obtuvieron
los siguientes valores:
29 35 47 18 22 30 51 62 15 42 46 53 16 27 33
a) Encontraremos la media aritmtica del nmero de caloras.
b) Al acabar el trabajo, los estudiantes se informaron que el
instrumento de medicin que usaron estaba mal calibrado
y marc en cada caso 300 caloras por debajo de su valor.
Encontraremos la media aritmtica de los nuevos valores de
caloras.
Solucin:
a) La media aritmtica del nmero de caloras es:
526
35, 06
15
X = =
caloras
b) Sumamos a todas las observaciones de la variable X la
constante C = 300 caloras, y los nuevos valores de caloras (
Y
) es
como sigue:
335 347 318 322 330 351 362 315 342 346 353 316 327 333
03_cap3.p65 31/03/2006, 02:34 p.m. 117
118
El clculo de la media aritmtica de los nuevos valores de
caloras se podr simplificar aplicando la propiedad 5, esto es:
Y X C = +
=35,06+300=335,06 caloras.
Mediana
Definicin
Dado
1
,....,
n
x x observaciones de la variable X, una vez ordenadas
las observaciones en forma creciente, la mediana es el valor o pun-
to medio que supera al 50 por ciento de los valores observados de
la variable y es superado por el restante 50 por ciento. La forma de
obtener el valor de la mediana depende del nmero de observacio-
nes. As, si el nmero de observaciones es impar, la mediana es el
valor de la variable que ocupa la posicin central de los datos
ordenados y, si el nmero de observaciones es par, la mediana es la
media aritmtica de los dos valores que ocupan la posicin central
de los datos ordenados. Esta definicin se puede plasmar median-
te la siguiente expresin matemtica:
1
2
1
2 2
Si es impar:
Si es par:
2
n
n n
n
Me x
n
x x
Me
+



+


=
+
=
(3.5)
donde el subndice indica la posicin o lugar que ocupa el
valor de la variable ordenada.
Si la muestra es de tamao impar, como por ejemplo: 13 11 19 20
18 21 23, usar (3.5 (a)), donde n=7 y
1
4
2
n +
= , por lo que la mediana
es el valor de la variable que ocupa la posicin 4 de las observaciones
ordenadas: 11 13 18 19 20 21 23, es decir Me =
( ) 4
x
= 19.
Si el tamao de la muestra es par, como por ejemplo: 10 16 4 9
13 17, usar (3.5(b)) donde n=6 y ordenados son: 4 9 10 13 16 17,
entonces,
(3) (4)
3 , 1 4 por lo que x 10 y 13
2 2
n n
x = + = = =
(a)
(b)
03_cap3.p65 31/03/2006, 02:34 p.m. 118
119
ocupan la posicin central. Luego, el valor de la mediana es la
media aritmtica de 10 y 13, es decir, Me =
10 13
11, 5
2
+
=
Para obtener la mediana a partir de una distribucin de fre-
cuencias se consideran los siguientes casos:
Datos sin agrupar en intervalos de clase y presentados en
tabla de frecuencias
Si los datos estn en una distribucin de frecuencias, para calcular
la mediana se seguirn los siguientes pasos:
1) Encontrar las frecuencias absolutas acumuladas
2) Encontrar
2
n
3) En la columna de las frecuencias absolutas acumuladas, ubi-
car el intervalo
1
2
i i
n
F F

<
donde
1 i
F

es la frecuen-
cia absoluta acumulada inmediatamente inferior o igual que
2
n
y
i
F es la frecuencia absoluta acumulada inmediata-
mente superior que
2
n
.
4) Ubicar en la columna del recorrido de la variable el valor
i
x asociado a
i
F y encontrar el valor de la mediana de
acuerdo con la frmula siguiente:
1
1
1
si ( )
2
si ( )
2 2
i i i
i i
i- i
n
Me x F F a
o
x x n
Me F F b

= < <
+
= = <
(3.6)
Ejemplo 10
Para la distribucin de frecuencias del nmero de hijos de los estu-
diantes de maestra presentados en el ejemplo 3, vamos a ilustrar
la obtencin de la mediana.
03_cap3.p65 31/03/2006, 02:34 p.m. 119
120
Solucin
Primero debemos encontrar las frecuencias absolutas acumuladas,
como se muestra a continuacin:
Nmero de hijos
i
f
i
F
0 2 2
1 11 13
2
F
2 11 24
3
F
4 3 27
5 3 30
Total 30
y luego calcular
2
n
, es decir,
2
n
=
30
15
2
=
.
En la columna de frecuencias absolutas acumuladas ubica-
mos
i
F y
1 i
F

de tal forma que, 1


13 15 24
2
i i
n
F F

= < = < =
. Usando
(3.6(a)), el valor de la variable asociada a la frecuencia absoluta
acumulada
3
24,
i
F F = = es
3
2 x = ; o sea, el valor de la media-
na es 2. 2 Me = . El 50% de los estudiantes de maestra tiene 2 o
menos de 2 hijos.
Ejemplo 11
Los alumnos del doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM ma-
triculados en el semestre acadmico 2000-I y que ingresaron a la
universidad entre 1997 y 1999. El estudio se llev a cabo entre abril
y junio de 2000. Como el nmero total de estudiantes que cursaban
las diversas maestras era alrededor de 2 500, despus de grandes
debates, los alumnos del doctorado en Educacin decidieron se-
leccionar una muestra de 30 estudiantes de la maestra en Gestin
Educativa. A continuacin, se presentan los datos para la variable
nmero de hijos de los 30 maestristas. Encontraremos la mediana.
03_cap3.p65 31/03/2006, 02:34 p.m. 120
121
Nmero de hijos
i
f
i
F
0 2 2
1 13 15
2
F
2 9 24
3
F
4 3 27
5 3 30
Total 30
El valor de
2
n
=
30
15
2
=
, por lo que se cumple que
2
n
coinci-
de con
1 i
F

=
2
F , esto es,
1
15 15 24
2
i i
n
F F

= = = < =
. El valor
de la variable asociada a la frecuencia absoluta acumulada
i
F =
3
F =24 es
3
x =2, y el valor de la variable que corresponde
a
1 i
F

=15 es
2
x =1. Usando (3,6(b)) la mediana es
2 3
1 2
2 2
x x
Me
+ +
= =
=1,5. El 50% de los estudiantes de
maestra tienen menos de 1,5 hijos.
Datos agrupados en intervalos de clase y presentados en
una tabla de frecuencia
Seguir los pasos 1), 2), 3) del caso anterior de datos sin agrupar en
intervalos de clase y, como paso 4), ubicar el intervalo de clase
asociado a la frecuencia absoluta acumulada
i
F y encontrar el
valor de la mediana de acuerdo a la siguiente expresin:
1
1 1
1
1 1
2
Si (a)
2
Si (b)
2
i
i i i i
i i
i i i
n
F
n
Me L a F F
F F
n
Me L F F


= + < <



= = <
(3.7)
03_cap3.p65 31/03/2006, 02:34 p.m. 121
122
donde:
1 i
L

es el lmite inferior del intervalo asociado a la frecuencia


absoluta acumulada
i
F y
i
a es la amplitud del intervalo asociado
a la frecuencia absoluta acumulada
i
F .
Ejemplo 12
Obtengamos la mediana a partir de la distribucin de edad de los
estudiantes de maestra presentados en el ejemplo 4 del presente
captulo.
Solucin
Para obtener la mediana, previamente se calculan las frecuencias
absolutas acumuladas como se muestra a continuacin:
Edades Frecuencia absoluta Frecuencia absoluta acumulada
[ )
1
,
i i
L L
i
f
i
F
[23 - 32) 6 6
1
F
[32 - 41) 12 18
2
F
[41 - 50) 8 26
[50 - 59) 2 28
[59 - 68] 2 30
Total 30
El valor de
30
15
2 2
n
= =
, se cumple
1 i
F

= 6 <
15
2
n
=
<
i
F =
18, en este caso el intervalo de clase asociado a
2
18
i
F F = = es
[ ) 32 41 ; ste intervalo contiene el valor de la variable que ocu-
pa la posicin
30
15
2 2
n
= =
. Para dicho intervalo, la amplitud
es
i
a =9 y, el lmite inferior es
1 i
L

= 32. Entonces, usando


(3.7(a)), el valor de la mediana es
15 6
32 9 32 6, 75 38, 75
18 6
Me

= + = + =


. El 50% de los
estudiantes tiene edades inferiores a 38,75 aos.
03_cap3.p65 31/03/2006, 02:34 p.m. 122
123
Ejemplo 13
Supongamos que en el ejemplo 4 la distribucin de frecuencias de
la edad de los estudiantes de maestra sea de la siguiente forma:
Edades Frecuencia absoluta Frecuencia absoluta acumulada
[ )
1
,
i i
L L

i
f
i
F
[23 - 32) 6 6
[32 - 41) 9 15
2
F
[41 - 50) 11 26
3
F
[50 - 59) 2 28
[59 - 68) 2 30
Total 30
Obtendremos la mediana.
Solucin
El valor de
30
15
2 2
n
= = , se cumple que
2
n
coincide con
1 i
F

, esto
es,
1 i
F

=15=
15
2
n
=
<
i
F = 26. El intervalo de clase asociado a
la frecuencia absoluta acumulada
i
F =
3
F =26 es [ ) 41 50 ; luego,
usando (3.7(b)), la mediana es
1 2
41
i
Me L L

= = = . El 50% de los
estudiantes tiene edades inferiores a 41 aos.
Moda
Definicin
La moda es el valor de la variable que se repite con mayor frecuen-
cia. Se expresa como:
, si Mo x x
i i
= es el valor de la variable que ms se repite (3.8)
03_cap3.p65 31/03/2006, 02:34 p.m. 123
124
Cuando todas las puntuaciones de un conjunto de datos tie-
nen la misma frecuencia, ste no tiene moda. Tambin existen si-
tuaciones donde se tiene ms de una moda, en tal caso diremos que
la distribucin de frecuencias es bimodal, trimodal, o multimodal.
Ejemplo 14
Obtendremos la moda para los siguientes conjuntos da datos:
a) 10 11 11 12 13 09 15
b) 10 11 12 13 09 15
c) 11 11 11 12 12 12 05 04
Solucin
Para el conjunto de datos (a): 10 11 11 12 13 09 15 la moda es
11 Mo = (unimodal); mientras que en el conjunto (b): 10 11 12 13
09 15, no existe moda. Si el conjunto de datos es (c): 11 11 11 12 12
12 05 04, las modas son 11 Mo = y 12 Mo = (bimodal).
A continuacin, se presentan los mtodos de obtencin de la
moda cuando se tiene un mayor nmero de datos, razn por la
cual previamente han sido tabulados.
Datos sin agrupar en intervalos de clase y presentados en
tablas de frecuencias
Para identificar el valor de la moda debe observarse la columna de
las frecuencias absolutas y seleccionar la mayor de ellas. Suponga-
mos que esa frecuencia sea
i
f ; entonces, el valor de la moda es:
i
Mo x = si 1 1

i i i i
f f y f f
+
> >
(3.9)
donde:
1
1
frecuencia absoluta inmediatamente anterior a
frecuencia absoluta inmediatamente posterior a
i i
i i
f f
f f

+
Ejemplo 15
Con los datos presentados en el ejemplo 11 vamos a ilustrar la
obtencin de la moda.
03_cap3.p65 31/03/2006, 02:34 p.m. 124
125
Nmero de hijos
i
f
0 2
1 13
2 9
4 3
5 3
Solucin
Para calcular la moda, observamos la columna de frecuencias ab-
solutas y vemos que la mayor frecuencia corresponde a
2
f = 13.
Por lo tanto el valor de la moda es
2
x =1, es decir, 1 Mo = , indica
que la mayora de estudiantes de maestra tienen un hijo.
Ejemplo 16
Con los datos presentados en el ejemplo 3 ilustraremos nuevamen-
te la obtencin de la moda.
Nmero de hijos
i
f
0 2
1 11
2 11
4 3
5 3
Solucin
Esta distribucin posee dos modas: 1 Mo = y 2 Mo = ; pues a la
segunda frecuencia
2
f =11, le corresponde el valor
2
1 x = y a la
tercera frecuencia absoluta,
3
f = 11, le corresponde el valor
3
2 x = .
En este caso la mayora de los estudiantes tienen 1 2 hijos.
Datos agrupados en intervalos de clase, presentados en
tablas de frecuencias
Debe observarse la columna de las frecuencias absolutas y detectar
la mayor de ellas. Supongamos que esa frecuencia sea
i
f , asocia-
do a l se encuentra el intervalo de clase
1
[ )
i i
L L

que contiene a la
moda y se denomina intervalo modal. La moda se obtendr me-
diante la siguiente expresin matemtica:
03_cap3.p65 31/03/2006, 02:34 p.m. 125
126
1
1
1 2
i i
d
Mo L a
d d


= +

+

(3.10)
donde:
1
1
1
es el lmite inferior del intervalo modal,
es la mayor frecuencia,
es la frecuencia inmediatamente anterior a la mayor frecuencia,
es la frecuencia inmediatamente posterior a la m
i
i
i
i
L
f
f
f

+
1 1
2 1
ayor frecuencia,
,
,
es la amplitud del intervalo modal.
i i
i i
i
d f f
d f f
a

+
=
=
Ejemplo 17
En el ejemplo 4 se tienen las edades de un grupo de estudiantes de
maestra de la Facultad de Educacin. Con dichos datos obtenga-
mos la moda.
Edades Frecuencia Absoluta
[ )
1
,
i i
L L

i
f
[23 - 32) 6
[32 - 41) 12
[41 - 50) 8
[50 - 59) 2
[59 - 68) 2
Solucin
Se encuentra que el valor de la mayor frecuencia absoluta,
2
12 f = .
El intervalo con mayor frecuencia es [ ) 32 41 , su amplitud es
igual a
i
a =9 y su lmite inferior es
1 i
L

=32,
1 1
6 , 8
i i
f f
+
= =
entonces: d
1
= 12-6=6, d
2
= 12-8=4.
Luego, el valor de la moda es:
1
1
1 2
i i
d
Mo L a
d d


= +

+

=
6
32 9 32 5, 4 37, 4aos
6 4

+ = + =

+
La edad ms frecuente es 37,4 aos, es decir, 37 aos.
03_cap3.p65 31/03/2006, 02:34 p.m. 126
12
Ejemplo 18
Los alumnos del doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM matri-
culados en el semestre acadmico 2000-I y que ingresaron a la uni-
versidad entre los aos 1997 y 1999. El estudio se llev a cabo entre
abril y junio de 2000. Como el nmero total de estudiantes que
cursaban las diversas maestras era alrededor de 2 500, despus de
grandes debates, los alumnos del doctorado en Educacin decidie-
ron seleccionar una muestra de 30 estudiantes de la maestra en
Gestin Educativa. A continuacin se presentan los datos para la
variable disposicin para el estudio. Obtengamos la moda.
Disposicin para el estudio Nmero de estudiantes
Ninguna 2
Regular 7
Buena 5
Muy buena 9
Excelente 7
Total 30
Solucin
Al observar la tabla de frecuencias, podemos afirmar que, con ma-
yor frecuencia, 9 estudiantes respondieron tener muy buena dis-
posicin para el estudio. Luego, la moda es muy buena disposi-
cin para el estudio.
Cabe indicar que, en este ejemplo, tenemos la distribucin de
una variable cualitativa; luego, la moda es la nica estadstica de
posicin que podemos calcular cuando se tiene una variable cuali-
tativa.
Cuartiles
Son nmeros que dividen un conjunto de datos en cuatro partes
iguales. Ellos son:
El cuartil uno, Q1, es el punto por debajo del cual se ubica
el 25% de los datos.
El cuartil dos, Q2, es el punto por debajo del cual se ubica el
50% de los datos.
03_cap3.p65 31/03/2006, 02:34 p.m. 127
128
El cuartil tres, Q3, es el punto por debajo del cual se ubica el
75% de los datos.
Clculo de cuartiles en conjuntos de datos pequeos
Primero, ordenamos los datos en orden de magnitud creciente.
Luego, encontramos la posicin para cada uno de los cuartiles,
segn como sigue:
Para el cuartil uno, calcular ( )
1
1
4
n +
y redondear al entero
ms cercano. La observacin ordenada que ocupa esta posicin,
representa el cuartil uno. Si la posicin es la mitad entre dos ente-
ros consecutivos, el cuartil uno es el promedio de los dos valores
correspondientes.
Para encontrar el valor del cuartil dos (mediana), usar la ex-
presin (3.5).
Para el cuartil tres, calcular ( )
3
1
4
n +
y redondear al entero
ms cercano. La observacin ordenada que ocupa esta posicin,
representa el cuartil tres. Si la posicin se encuentra a mitad entre
dos enteros, el cuartil tres es el promedio de los dos valores corres-
pondientes.
Ejemplo 19
Para los siguientes conjuntos de datos
a) 13 11 19 20 18 21 23
b) 10 16 4 9 13 17
Obtendremos el cuartil uno, el cuartil tres y la mediana.
Solucin
a) Si tenemos la siguiente muestra de datos: 13 11 19 20 18 21 23,
donde n=7; entonces, para encontrar el cuartil uno calculamos
1 7 1
2
4 4
n + +
= =
, por lo que el cuartil uno es el valor de la variable
03_cap3.p65 31/03/2006, 02:34 p.m. 128
129
que ocupa la posicin 2 de las observaciones ordenadas: 11 13 18
19 20 21 23. Luego,
( ) 1 2
13 Q x = =
.
Para encontrar el cuartil dos por ser n impar usamos la fr-
mula (3.5(a)):
( ) 1 7 1 4
2 2
19.
n
Me x x x
+ +


= = = =
Para encontrar el cuartil tres, calculamos ( )
3
1
4
n +
= ( )
3
7 1 6
4
+ =
luego el cuartil tres es
( ) 3 6
21 Q x = =
.
b) Si tenemos otra muestra de datos, por ejemplo 10 16 4 9 13 17,
donde n=6 y ordenados son: 4 9 10 13 16 17. Entonces, para encon-
trar el cuartil uno, calculamos
1 6 1
1, 75,
4 4
n + +
= =
luego, el entero
ms cercano es 2, por lo que el cuartil uno es el valor de la variable
que ocupa la posicin 2 de las observaciones ordenadas. Luego,
( ) 1 2
9 Q x = =
.
Para encontrar el cuartil dos o mediana, por ser n par, usamos
(3.5 (b)).
( ) ( )
6 6
1 1
3 4 2 2 2 2
10 13
11, 5.
2 2 2 2
n n
x x x x
x x
Me

+ +


+ +
+
+
= = = = =
Para encontrar el cuartil tres, calculamos
( )
3
1
4
n +
=
( )
3
6 1 5, 25
4
+ =
luego, el entero ms cercano es 5, por lo que el
cuartil tres es .
( ) 3 5
16 Q x = =
.
03_cap3.p65 31/03/2006, 02:34 p.m. 129
130
Para obtener los cuartiles a partir de una tabla de distribucin
de frecuencias, se procede como en el caso del clculo de la media-
na, teniendo en cuenta que la fraccin n/2 ser cambiada por las
fracciones
4
n
,
2
4
n
,
3
4
n
segn se requiera calcular el cuartil uno,
cuartil dos (mediana) o cuartil tres respectivamente. As tenemos
los casos siguientes.
Datos sin agrupar en intervalos de clase y presentados en
tabla de frecuencias
I. Para encontrar el cuartil uno, proceder de la siguiente manera:
1) Encontrar las frecuencias absolutas acumuladas,
2) Encontrar
4
n
,
3) En la columna de las frecuencias absolutas acumuladas, ubi-
car el intervalo
1
4
i i
n
F F

<
, donde
1 i
F

es la frecuen-
cia absoluta acumulada inmediatamente inferior o igual que
4
n
y
i
F es la frecuencia absoluta acumulada inmediata-
mente superior que
4
n
,
4) Ubicar en la columna del recorrido de la variable el valor
i
x asociado a
i
F y encontrar el valor del cuartil uno de
acuerdo con la frmula siguiente:
03_cap3.p65 31/03/2006, 02:35 p.m. 130
131
1 1
1
1 1
n
si (a)
4
n
si (b)
2 4
i i i
i i
i- i
Q x F F
o
x x
Q F F

= < <
+
= = <
(3.11)
II. Para encontrar el cuartil tres:
1) Encontrar las frecuencias absolutas acumuladas,
2) Encontrar
3
4
n
,
3) En la columna de las frecuencias absolutas acumuladas ubi-
car el intervalo
1
3
4
i i
n
F F

<
donde
1 i
F

es la frecuen-
cia absoluta acumulada inmediatamente anterior o igual que
3
4
n
y
i
F es la frecuencia absoluta acumulada inmediata-
mente superior que
3
4
n
,
4) Ubicar en la columna del recorrido de la variable el valor
i
x asociado a
i
F y encontrar el valor del cuartil tres de
acuerdo con la frmula siguiente:
3 1
1
3 1
3
si (a)
4
3
si (b)
2 4
i i i
i i
i- i
n
Q x F F
o
x x n
Q F F

= < <
+
= = <
(3.12)
Ejemplo 20
Con la distribucin del nmero de hijos de los estudiantes de maes-
tra del ejemplo 3, vamos a ilustrar la obtencin del cuartil uno y el
cuartil tres.
03_cap3.p65 31/03/2006, 02:35 p.m. 131
132
Solucin
a) Cuartil uno.
Primero debemos encontrar las frecuencias absolutas acumuladas,
como se muestra a continuacin:
Nmero de hijos
i
f
i
F
0 2 2
1 11 13
2 11 24
4 3 27
5 3 30
Total 30
y luego calcular
4
n
, es decir,
4
n
=
30
7,5
4
=
En la columna de frecuencias absolutas acumuladas ubica-
mos
i
F y
1 i
F

de tal forma que,


1
2 7, 5 13
4
i i
n
F F

= < = < =
. Ubi-
camos el valor de la variable asociada a la frecuencia absoluta
acumulada
2
13,
i
F F = = es
2
1 x = ; luego, usando (3.11(a)) el
valor del cuartil uno es 1.
1 2
1 Q x = = . El 25% de los estudiantes
tiene como mximo un hijo.
b) Cuartil tres.
Despus de encontrar la frecuencia absoluta acumulada como se
muestra en la tabla siguiente:
Nmero de hijos
i
f
i
F
0 2 2
1 11 13
2 11 24
4 3 27
5 3 30
Total 30
03_cap3.p65 31/03/2006, 02:35 p.m. 132
133
Calculamos
3
4
n
, es decir,
3
4
n
=
( ) 3 30
4
=22,5
En la columna de la frecuencia absoluta acumulada ubicamos
i
F y
1 i
F

de tal forma que


1
3
13 22, 5 24
4
i i
n
F F

= < = < =
. Ubi-
camos el valor de la variable asociada a la frecuencia absoluta
acumulada
3
24,
i
F F = = es
3
2 x = ; luego, usando (3.12(a)) el
valor del cuartil tres es 2.
3 3
2 Q x = = . El 75% de los estudiantes
tiene dos o menos hijos.
Cuartiles a partir de una distribucin de frecuencias para
datos agrupados en intervalos de clase
Para obtener los cuartiles para datos agrupados en intervalos de
clase, se procede como en el caso del clculo de la mediana, tenien-
do en cuenta que la fraccin
2
n
incluida en la frmula (3.7) ser
cambiada por las fracciones
4
n
,
2
4
n
,
3
4
n
segn se requiera obte-
ner el cuartil uno, cuartil dos (mediana) o cuartil tres, respectiva-
mente.
Percentiles
Son nmeros que dividen el conjunto de datos en 100 partes igua-
les. De manera semejante a la mediana, en que la distribucin de
un conjunto de datos se dividi en dos partes, un 50% inferior y
otro 50% superior, o en cuartiles, en donde la distribucin se divi-
di en cuatro partes, cada una conteniendo un 25% de los datos.
As, por ejemplo, el percentil 10, P10, es el valor de la variable
debajo del cual se encuentra el 10% de los datos. Es importante
calcularlos en distribuciones con un gran nmero de datos.
A continuacin se presentan los mtodos de obtencin de los
percentiles para datos tabulados.
03_cap3.p65 31/03/2006, 02:35 p.m. 133
134
Datos sin agrupar en intervalos de clase y presentados en
una tabla de frecuencias
Se procede como en el caso del clculo de la mediana, teniendo en
cuenta que la fraccin
2
n
ser cambiada por la fraccin
100
n
k
de
acuerdo al percentil que sea de nuestro inters encontrar (k =1,2,,99),
para luego continuar con los pasos ya conocidos:
1) Encontrar las frecuencias absolutas acumuladas,
2) Obtener la fraccin
100
n
k
, donde k puede tomar los valo-
res k = 1, 2,. . . ,99,
3) En la columna de las frecuencias absolutas acumuladas, ubi-
car el intervalo
1
100
i i
kn
F F

<
, donde
1 i
F

es la fre-
cuencia absoluta acumulada inmediatamente inferior o
igual que
100
kn
y
i
F es la frecuencia absoluta acumulada
inmediatamente superior que
100
kn
,
4) Ubicar en la columna del recorrido de la variable el valor
i
x asociado a
i
F y encontrar el valor del percentil k de
acuerdo a la frmula siguiente:

1
1
1
k
si (a)
100
k
si (b)
2 100
k i i i
i i
k i- i
n
P x F F
o
x x n
P F F

= < <
+
= = <
(3.13)
03_cap3.p65 31/03/2006, 02:35 p.m. 134
135
Datos agrupados en intervalos de clase y presentados en
una tabla de frecuencias
Para obtener el percentil k , en el caso de una distribucin de fre-
cuencias para datos agrupados en intervalos de clase, seguir los
pasos 1), 2), 3) del caso anterior de datos sin agrupar en intervalos
de clase y, como paso 4), ubicar el intervalo de clase asociado a la
frecuencia absoluta acumulada
i
F y encontrar el valor del percentil
k de acuerdo a la frmula siguiente:
1
1 1
1
1 1
100
si (a)
100
si (b)
100
i
k i i i i
i i
k i i i
n
k F
kn
P L a F F
F F
kn
P L F F



= + < <



= = <
(3.14)
donde:
1 i
L

, es el lmite inferior del intervalo asociado a la frecuen-
cia absoluta acumulada
i
F y
i
a es la amplitud del intervalo aso-
ciado a
i
F .
Ejemplo 21
Considerando los datos de la edad de los estudiantes de maestra
del ejemplo 4, vamos a obtener el percentil 75, P
75
.
Solucin
Previamente se calculan las frecuencias absolutas acumuladas
como se muestra a continuacin:
Edades Frecuencia absoluta Frecuencia absoluta acumulada
[ )
1
,
i i
L L

i
f
i
F
[23 - 32) 6 6
[32 - 41) 12 18
[41 - 50) 8 26
[50 - 59) 2 28
[59 - 68] 2 30
Total 30
03_cap3.p65 31/03/2006, 02:35 p.m. 135
136
y al calcular
30
75 22, 5,
100 100
n
k = =
se cumple
1 i
F

= 18 <
22, 5
100
n
k =
<
i
F = 26, en este caso el intervalo
asociado a
3
26
i
F F = = es [ ) 41 50 , que contiene el valor de
la variable que ocupa la posicin
30
75 22, 5
100
=
. La amplitud
de dicho intervalo es
i
a =9 y el lmite inferior
1 i
L

=41. Entonces,
usando (3.14(a)), el valor del percentil 75, P75, es
1
1
1
100
i
k i i
i i
n
k F
P L a
F F



= +



=
22, 5 18 4, 5
41 9 41 9 46,1
26 18 8

+ = + =


.
El 75% de los estudiantes tiene edades inferiores a 46,1 aos.
Comentarios
Dependiendo de lo que se quiera representar o explicar y del tipo
de variable con la que estemos trabajando, se elegir a la estadsti-
ca de posicin ms apropiada segn el caso. Por ello, hacemos las
siguientes observaciones.
La media aritmtica es afectada por valores extremos de la
variable.
La mediana no es afectada por valores extremos (valores in-
feriores o superiores muy distantes del valor central) de la
variable.
La media, mediana y moda se pueden calcular para datos
cuantitativos.
La moda es la nica medida que sirve tanto para el caso de
variables categricas como para variables cuantitativas, pues-
to que su definicin no exige ordenar los valores de la varia-
ble, ni hacer operaciones matemticas con ellos. Por ejemplo,
si se est trabajando la distribucin de la variable nacionali-
dad para un determinado conjunto de personas, no tiene nin-
gn sentido hablar del promedio o de la mediana de esa dis-
tribucin; en cambio, s tiene sentido hablar de la moda.
03_cap3.p65 31/03/2006, 02:35 p.m. 136
13
Si se trabaja la distribucin de una variable cuantitativa, en
principio tiene sentido calcular la media, la moda y la media-
na; pero para efectos prcticos, puede no tenerlo. Entonces,
hace falta desarrollar un cierto criterio para decidir, en casos
particulares, cul es la mejor medida de tendencia central.
La media aritmtica es muy sensible a valores extremos. En-
tonces, si en una distribucin hubiera presencia de dichos
valores, la media no es la mejor de las medidas de tenden-
cia central. Por ejemplo, tenemos dos conjuntos de datos, al
triplicar el ltimo valor del conjunto 2, el nico valor que se
altera es el de la media.
Media Mediana Moda
Conjunto 1: 9,9,9,10,11,12,13,14,19 11.77 11 9
Conjunto 2: 9,9,9,10,11,12,13,14,57 16 11 9
Puesto que las tres medidas de posicin tienen debilidades
y fortalezas, vale la pena observarlas e interpretarlas en for-
ma conjunta. Una forma de entender la relacin entre estas
tres es localizando los valores de cada una de ellos en una
distribucin de frecuencias.
La siguiente figura muestra las tres formas ms comunes de
distribucin de frecuencias

Moda<Mediana< Media Media=Mediana=Moda Media<Mediana< Moda
(a) (b) (c)
En la distribucin de frecuencias (a), la posicin relativa de la
media, mediana y moda indica asimetra positiva.
La distribucin de frecuencias (b) nos muestra que la media,
mediana y moda de una variable son iguales. Esta distribucin
tiene forma de campana y se la conoce como distribucin normal (o
campana de Gauss).
03_cap3.p65 31/03/2006, 02:35 p.m. 137
138
En la distribucin de frecuencias (c), la posicin relativa de la
media, mediana y moda indica asimetra negativa
Ejemplo 22
Con la base de DATOS1-maestra vamos a obtener la media aritm-
tica, la mediana, la moda y el percentil 75 de la variable coeficiente
de inteligencia usando el SPSS.
Solucin
Al usar la base de DATOS1-maestra y los comandos del SPSS para
estadsticas de posicin, la salida del SPSS para la variable coefi-
ciente de inteligencia es:
Statistics
coeficiente de inteligencia
70
0
101,79
100,00
100,00


7125, 00
104,31
Valid

Mi ssing
N

Mean
Median
Mode
Sum
75 Percentiles
Media: El coeficiente de inteligencia promedio de los estudian-
tes de maestra es 101,79 puntos.
Mediana: El 50% de los estudiantes de maestra tienen un co-
eficiente de inteligencia menor a 100 puntos.
Moda: La mayora de los estudiantes de maestra tienen un
coeficiente de inteligencia igual a 100 puntos.
P
75
: El el 75% de los estudiantes de maestra tienen un coefi-
ciente de inteligencia menor a 104,3 puntos.
Ejemplo 23
Con la base de DATOS4-ciudadana obtendremos la media aritm-
tica, la mediana, la moda, percentil 25 y el percentil 75 de la varia-
ble nmero de elecciones a las que asisti, usando los comandos
del SPSS del captulo VII (procedimientos estadsticos).
03_cap3.p65 31/03/2006, 02:35 p.m. 138
139
Solucin
Se abre la base de DATOS4-ciudadana y usando los comandos
del SPSS para estadsticas de posicin para la variable nmero de
elecciones a las que asisti se obtiene lo siguiente:
Statistics
100
0
3,00
3,00
3
1
5
2,00
4,00
Valid
Missing
N
Mean
Median
Mode
Minimum
Maximum
25
75
Percentil es
Media: El nmero promedio de elecciones a la que asistieron
representantes vecinales fue 3.
Mediana: El 50% de los representantes vecinales asistieron a
menos de 3 elecciones.
Moda: La mayora de los ciudadanos asisti a 3 elecciones.
P
25
: El 25% de los representantes vecinales asistieron a menos
de 2 elecciones.
P
75
: El 75 % de los representantes vecinales asistieron a menos
de 4 elecciones.
Ejemplo 24
Con la base de DATOS3-educacin se obtendr la media aritmti-
ca, la mediana, la moda y los percentiles 10 y 90 para las variables
edad, tiempo de servicio en la docencia y nota promedio de los
participantes, usando el software SPSS.
Solucin
Se abre la base de DATOS3-educacin y usamos los comandos del
SPSS del captulo VII (procedimientos estadsticos). En este caso, se
seleccionan las variables edad, tiempo de servicio en la docencia y
nota promedio de los participantes en el programa de capacitacin.
03_cap3.p65 31/03/2006, 02:35 p.m. 139
140
En el siguiente cuadro se presentan los resultados que propor-
ciona el SPSS para las tres variables.
Edad de los Tiempo de Notas
participantes servicio promedio
N Valid 47 47 47
Mean 34,78 13,97 11,536788
Median 34,84 14,00 11,540694
Mode 30(a) 13(a) 8,8495(a)
Sum 1635 656 542, 2290
Percentiles 10 31,07 11,00 9, 556556
90 37,49 17,09 13,417391
a Multiple modes exist. The smallest value is shown
Media: La edad promedio de los participantes en el programa
de capacitacin fue 34,78 aos, es decir, 35 aos.
Mediana: El 50% de los participantes en el programa de capa-
citacin tienen menos de 34,84 aos, es decir, 35 aos.
Moda: La mayora de los participantes tena 30 aos, pero la
distribucin no es unimodal, existen otras modas.
P
10
: El 10% de los participantes en el programa de capacita-
cin tienen menos de 31,07 aos, es decir 31 aos.
P
90
: El 90% de los participantes en el programa de capacita-
cin tienen menos de 37,49 aos, es decir menos de 37 aos.
Queda para el lector hacer las interpretaciones de manera similar
de las estadsticas de posicin para las variables, tiempo de servi-
cio en la docencia y la nota promedio final de los participantes.
Medidas de dispersin
En la seccin anterior se definieron medidas que permiten encon-
trar la ubicacin del centro de una distribucin y que, por tanto,
contribuyen a la descripcin del correspondiente conjunto de datos
mediante un valor representativo; pero para lograr una imagen com-
pleta de cmo es la distribucin es necesario saber cmo se distribu-
yen los datos alrededor de ese valor representativo. Retomemos,
entonces, la segunda pregunta formulada en la introduccin del
presente captulo: Qu tan separados estn entre s los diferentes
valores que asume la variable? El objetivo del presente captulo es
encontrar una manera adecuada de responder la pregunta plantea-
03_cap3.p65 31/03/2006, 02:35 p.m. 140
141
da, es decir, encontrar una forma de medir la dispersin de los
datos. Entre las medidas de dispersin ms usadas estn: el rango,
la varianza, la desviacin estndar y el coeficiente de variacin.
Rango
Es la diferencia entre los valores mximo y mnimo de un conjunto
de datos.
Rango
mx mn
x x = (3.15)
Ejemplo 25
Los dos conjuntos de valores que siguen corresponden a los aos
de servicio en la docencia de 14 profesionales en Estadstica. Ob-
tendremos el rango para cada conjunto de valores.
Conjunto 1: 15 15 30 30 30 30 30 30 30 30 30 30 45 45
Conjunto 2: 15 15 20 30 30 30 30 30 40 40 40 40 40 45
Solucin
En el conjunto 1, cuyos valores ya ordenados en forma ascendente
son:
15 15 30 30 30 30 30 30 30 30 30 30 45 45
el mximo valor es 45 y el mnimo valor es 15; entonces, el
rango es: Rango =45-15=30 y, en el conjunto 2, tambin el mximo
valor es 45 y el mnimo valor es 15, e igualmente tiene Rango = 45-
15 = 30. Pero tenemos que aceptar que la primera distribucin es
menos dispersa que la segunda; sin embargo, el rango es el mismo
para las dos distribuciones. Por tanto, en este caso el rango es una
medida que no refleja las diferencias que segn la intuicin y la
observacin son evidentes entre las dos distribuciones. Este hecho
nos exige seguir buscando otras medidas de dispersin que supe-
ren la limitacin anterior.
Rango intercuartlico
Es la diferencia entre el cuartil uno y el cuartil tres y se expresa
como:
03_cap3.p65 31/03/2006, 02:35 p.m. 141
142
Rango intercuartlico =
3 1
Q Q (3.16)
Esta medida de dispersin nos permite saber en cunto se
diferencian el mayor valor del menor valor del 50% de los valores
que se ubican en la parte central de la muestra ordenada y, desde
luego, no se ve influenciada por la presencia de valores extremos.
Ejemplo 26
Con los datos presentados en el ejemplo 25, encontraremos el ran-
go intercuartlico para cada conjunto de valores.
Solucin
a) Para el conjunto 1 cuyos valores son: 15 15 30 30 30 30 30 30 30
30 30 30 45 45, encontraremos primero los cuartiles.
Cuartil uno: se tiene que n=14, la posicin es ( )
1
1
4
n +
= ( )
1
14 1 3, 75
4
+ =
y el entero ms cercano a 3,75 es 4; luego, el valor que ocupa la
posicin 4 es
1
Q =
( ) 4
x
=30.
Cuartil tres: tambin n = 14, la posicin es ( )
3
1
4
n +
= ( )
3
14 1 11, 25
4
+ =
y el entero ms cercano a 11,25 es 11; luego, el valor que ocupa la
posicin 11 es
3
Q =
( ) 11
x
=30.
Luego,
Rango intercuartlico =
3 1
Q Q = 30-30 =0.
b) Para el conjunto 2, cuyos valores son: 15 15 20 30 30 30 30 30 40
40 40 40 40 45, tambin primero encontraremos los cuartiles.
Cuartil uno: n=14, la posicin es ( )
1
1
4
n +
= ( )
1
14 1 3, 75
4
+ =
, el
entero ms cercano a 3, 75 es 4; luego, el valor que ocupa la posi-
cin 4 es
1
Q =
( ) 4
x
=30.
03_cap3.p65 31/03/2006, 02:35 p.m. 142
143
Cuartil tres: n=14, la posicin es ( )
3
1
4
n +
= ( )
3
14 1 11, 25
4
+ =
y
el entero ms cercano a 11,25 es 11; luego, el valor que ocupa la
posicin 11 es
3
Q =
( ) 11
x
=40.
Luego,
Rango intercuartlico =
3 1
Q Q = 40-30 =10.
En el conjunto 1, el rango intercuartlico es igual a 0, es decir,
no existe variabilidad en el 50% de los datos que se encuentran
ubicados en la parte central. Mientras que en el conjunto 2, el rango
intercuartlico es igual a 10, indicando que el menor valor y el
mayor valor del 50% de los datos que se encuentran ubicados en la
parte central, tienen una diferencia de 10 unidades.
Rango semi-intercuartlico
Es la diferencia promedio desde la mediana hacia los dos cuartiles;
es decir, evala, en promedio, qu tan lejos se hallan los valores de
los cuartiles
1
Q y
3
Q con respecto a la mediana, y se expresa
mediante la frmula:
Rango semi-intercuartlico =
3 1
2
Q Q
(3.17)
Ejemplo 27
Con los dos conjuntos de datos presentados en el ejemplo 25, corres-
pondientes a los aos de servicio en la docencia, con rangos ambos
iguales a 30, rangos intercuartlicos iguales a cero y diez respectiva-
mente, encontraremos el rango semi-intercuartlico en cada caso.
Solucin
Para el conjunto 1: Rango semi-intercuartlico =
3 1
2
Q Q
=
30 30
0
2

=
Para el conjunto 2: Rango semi-intercuartlico =
3 1
2
Q Q
=
40 30 10
5
2 2

= =
03_cap3.p65 31/03/2006, 02:35 p.m. 143
144
Para el conjunto 1, esta medida de dispersin nos dice que no hay
dispersin en el 50% central de los datos respecto a la mediana.
Para el conjunto 2, esta medida de dispersin nos dice que tanto el
valor del cuartil uno como el valor del cuartil tres distan de la
mediana en promedio en 5 unidades.
Ejemplo 28
En la Escuela de Educacin Primaria Juana de Arco, los estudian-
tes fueron sometidos a un examen odontolgico. Los siguientes
datos corresponden al nmero de dientes con caries en una mues-
tra de 7 alumnos de primer ao de primaria: 6, 0, 10, 8, 2, 3, 1.
Encontraremos:
a) El rango, b) rango intercuartlico, c) rango semiintercuartlico.
Solucin
a) El rango es:
Rango
mx mn
x x = =10 - 0 =10.
b) Para encontrar el rango intercuartlico:
Ordenamos las observaciones en orden creciente: 0, 1, 2, 3, 6, 8, 10
y previamente encontramos los cuartiles uno y tres:
Cuartil uno: calculamos la posicin
1 7 1
2
4 4
n + +
= =
entonces,
en la muestra ordenada, la observacin que ocupa la posicin 2 es
( ) 1 2
1 Q x = =
.
Cuartil tres: calculamos la posicin
3( 1) 3(7 1)
6
4 4
n + +
= =
en-
tonces, en la muestra ordenada, la observacin que ocupa la posi-
cin 6 es
( ) 3 6
8 Q x = =
.
Luego,
Rango intercuartlico =
3 1
Q Q =
8 1 7 =
.
Es decir, 7 es la diferencia entre el mayor y el menor nmero de
dientes con caries del 50% de la parte central de la muestra, a dife-
03_cap3.p65 31/03/2006, 02:35 p.m. 144
145
rencia del rango que nos indica que 1 es la diferencia entre el mayor
y el menor nmero de dientes con caries del 100% de la muestra.
c) Rango semiintercuartlico =
3 1
2
Q Q
=
8 1 7
2 2

=
=3,5. Esta
medida de dispersin nos indica que tanto el valor del cuartil uno
como el valor del cuartil tres de la variable nmero de dientes con
caries en el grupo de 7 alumnos, distan de la mediana en promedio
en 3,5 dientes con caries.
Cada una de las medidas que se han presentado hasta el mo-
mento proporcionan informacin parcial de la dispersin de la
muestra. Una medida que describe la dispersin de todos los valo-
res que conforman la muestra, es la varianza.
Varianza
Es una medida de dispersin y se define como la media o promedio
de los cuadrados de las diferencias de cada valor de la variable con
respecto a la media aritmtica, cuya expresin matemtica es:
( )
2
2 1
1
n
i
i
x X
S
n
=

1

n
i
i
x
donde X
n
=
=

(3.18)
Una frmula alternativa es la siguiente:
2
2
2 1

1
n
i
i
x n X
S
n
=

(3.19)
Cabe indicar que la varianza tambin se puede expresar como:
( )
2
2 1
n
i
i
x X
S
n
=

(3.20)
03_cap3.p65 31/03/2006, 02:35 p.m. 145
146
Cuando el tamao de muestra es grande, las frmulas (3.18) y
(3.20) proporcionan resultados similares.
La varianza es una buena medida de la dispersin absoluta
de un conjunto de datos. Sin embargo, tiene un problema, puesto
que se consideran los cuadrados de las diferencias, y no las dife-
rencias mismas, el resultado no se encuentra en la misma escala
que los datos originales. Por ejemplo, si los datos se refieren a esta-
turas de un grupo de estudiantes, en centmetros, entonces tene-
mos la medida de dispersin varianza, en centmetros cuadrados,
y la media aritmtica en centmetros. Este problema se resuelve
definiendo la desviacin estndar.
Desviacin estndar
Es la raz cuadrada de la varianza, y se expresa mediante la frmula:
( )
2
1 1
S ,
1
n n
i i
i i
x X x
donde X
n n
= =

= =


(3.21)
Tanto la varianza como la desviacin estndar miden la dis-
persin de todos los valores de la muestra con respecto a la media
de la misma. Para efectos de interpretacin, la desviacin estndar
es la ms apropiada.
Ejemplo 29
Los siguientes datos representan las edades de seis nios en aos
cumplidos:
1, 3, 3, 0, 4, 1. La media aritmtica es
2 X =
aos. Obtendre-
mos la varianza.
Solucin
Los clculos auxiliares para el clculo de la varianza se muestran
en la siguiente tabla:
03_cap3.p65 31/03/2006, 02:35 p.m. 146
14
Edades Edad - Media (Edad- Media)
2
0 0-2=-2 4
1 1-2=-1 1
1 1-2=-1 1
3 3-2=1 1
3 3-2=1 1
4 4-2=2 4

Total
( )
2
1
n
i
i
x X
=

=12
Luego, el valor de la varianza es:
( )
2
2 2
1
1 12
2, 4
1 5
n
i
i
S x X aos
n
=
= = =

.
Desviacin estndar
2
2, 4 1, 5 S aos aos = =
.
La variabilidad media de las edades de los nios respecto a la
media aritmtica es de 1,5 aos.
Si resolvemos el mismo problema usando el SPSS, se tienen los
siguientes resultados:
N Valid 6
Mean 2, 00
Std. Deviation 1,549
Variante 2,400
Para obtener la varianza a partir de una distribucin de fre-
cuencias, se consideran los siguientes casos:
Datos sin agrupar en intervalos de clase y presentados en
tablas de frecuencias
Para datos sin agrupar en intervalos de clase, la frmula de la
varianza (3.18) se expresa como:
03_cap3.p65 31/03/2006, 02:35 p.m. 147
148
( )
2
2 1
1
k
i i
i
x X f
S
n
=

(3.22)
donde
1
,
k
i i
i
x f
X
n
=
=

k es el nmero de valores diferentes que toma la variable,


i
f es la frecuencia absoluta asociada al i-simo valor diferente que
toma la variable y la desviacin estndar (3.21) es:
( )
2
1 1
S ,
1
k k
i i i i
i i
x X f x f
donde X
n n
= =

= =


(3.23)
Otra expresin de la varianza es la siguiente:
2
2
2 1

1
k
i i
i
x f n
S
n
X
=

1
k
i i
i
x f
donde X
n
=
=

(3.24)
Ejemplo 30
Los alumnos del doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM matri-
culados en el semestre acadmico 2000-I y que ingresaron a la uni-
versidad entre 1997 y 1999. El estudio se llev a cabo entre abril y
junio de 2000. Como el nmero total de estudiantes que cursaban
las diversas maestras era alrededor de 2 500, despus de grandes
debates, los alumnos del doctorado en Educacin decidieron se-
leccionar una muestra de 30 estudiantes de la Maestra en Gestin
Educativa. A continuacin se presentan los datos para la variable
nmero de hijos de los 30 maestristas. Encontraremos la varianza
y desviacin estndar del nmero de hijos.
03_cap3.p65 31/03/2006, 02:35 p.m. 148
149
Solucin
Usaremos la expresin (3.24). Los datos y los clculos auxiliares se
presentan en la siguiente tabla:
i
x
i
f
2
i
x
2
i i
x f
0 2 0 0
1 11 1 11
2 11 4 44
4 3 16 48
5 3 25 75
Total 30 178
Reemplazando en la expresin (3.24) se encuentra:
2 2
2 1
1
k
i i
i
x f nX
S
n
=

=
( )
2
178 30 2
30 1

=2 hijos
2
2
2 hijos 1, 41 hijos S = =
La variabilidad media del nmero de hijos respecto a la media
aritmtica es de 1,4 hijos.
Datos agrupados en intervalos de clase y presentados en
una tabla de frecuencias
Para datos agrupados en intervalos de clase, la frmula de la
varianza (3.18) se expresa como sigue:
( )
2
'
2 1
'
1
donde,
es el nmero de intervalos de clase
es la marca de clase del i-simo intervalo
es la frecuencia absoluta asociada al i-simo intervalo
k
i i
i
i
i
x X f
S
n
k
x
f
=

(3.25)
Otra expresin de la varianza para datos agrupados con
intervalos de clase es la siguiente:
03_cap3.p65 31/03/2006, 02:35 p.m. 149
150
2
' 2 ' 2
2 1 1
donde
1
k k
i i i i
i i
x f nX x f
S X
n n
= =

= =


(3.26)
y la desviacin estndar es:
2
S S = en cualquiera de los dos casos.
Ejemplo 31
Los alumnos del doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM matri-
culados en el semestre acadmico 2000-I y que ingresaron a la uni-
versidad entre los aos 1997 y 1999. El estudio se llev a cabo entre
abril y junio de 2000. Como el nmero total de estudiantes que cur-
saban las diversas maestras era alrededor de 2 500, despus de
grandes debates, los alumnos del doctorado en Educacin decidie-
ron seleccionar una muestra de 30 estudiantes de la maestra en
Gestin Educativa. A continuacin se presentan los datos para la
variable edad de los estudiantes. Obtengamos la varianza y la des-
viacin estndar.
Solucin
Se resumen los pasos para la obtencin de la varianza y los clculos
se presentan en el siguiente cuadro:
Se calculan las marcas de clase
'
i
x ,
se genera una columna con los productos de cada marca
de clase por su correspondiente frecuencia
'
i i
x f ,
la columna anterior (los resultados obtenidos en cada caso)
se vuelve a multiplicar por la correspondiente marca de cla-
se, resultando
2
'
i i
x f
,
03_cap3.p65 31/03/2006, 02:35 p.m. 150
151
Edades
'
i
x
i
f
'
i i
x f
2
'
i i
x f
[ )
1
,
i i i
L L

[23 - 32) 27,5 6 165,0 4537,5


[32 - 41) 36,5 12 438,0 15987, 0
[41 - 50) 45,5 8 364,0 16562, 0
[50 - 59) 54,5 2 109,0 5940,5
[59 - 68] 63,5 2 127,0 8064,5
Total 30 1203,0 51091, 5
Se encuentra que:
2
1
' 51091, 5
k
i i
i
x f
=
=

'
1
1203 30
k
i i
i
x f n
=
= =

'
1
1 1203
40,1
30
n
i i
i
X x f
n
=
= = =
aos
y reemplazando en (3.26) el valor de la varianza es:
( )
2
2
51091, 5 30 40,1
29
S

= = 98,31 aos
2
y el valor de la desviacin estndar es:
98, 31 S = =
9,92 aos.
La dispersin media de las edades de los estudiantes respecto
a la media es de 10 aos.
Propiedades de la varianza
Propiedad 1. La varianza debe ser siempre un valor no negativo
2
0 S
.
En la expresin
( )
2
2 1
1
k
i i
i
x X f
S
n
=

, como
( )
2
0 0,
i i
x X y f entonces
( )
2
0,
i i
x X f de ah
que ( )
2
1
0
k
i
i
x X
=

, por tanto
2
S siempre es no negativo.
03_cap3.p65 31/03/2006, 02:35 p.m. 151
152
Propiedad 2. La varianza de una constante es igual a cero. Esto es,
( ) 0 V C = , donde
C
es cualquier constante (Convenimos que
2
(.) S V = ).
Supongamos que las observaciones
i
x = C para
i
, entonces
C X = y
( )
2
0
i
x X = , pues las observaciones toman un nico valor,
por lo tanto V( C )=0 .
Propiedad 3. La varianza de una variable mas una constante es
igual a la varianza de la variable. Esto es, si
i i
y x C = + , i =1,,n
entonces ( ) ( ) ( ) V Y V X C V X = + = .
Ejemplo 32
El director del colegio Guadalupe esta preocupado porque duran-
te el ao acadmico 2004, algunos alumnos han faltado frecuente-
mente a clases. Con la finalidad de verificar su percepcin solicita
al director acadmico que tome una muestra de 20 estudiantes que
en el ao 2004 cursaron el cuarto ao de secundaria y obtenga
para dichos estudiantes:
a) La varianza de la variable X , nmero de inasistencias de
los alumnos del cuarto ao en el mes de noviembre.
b) Si en el mes de diciembre cada uno de los 20 estudiantes
faltaron a clases 2 das ms que en noviembre, cunto ser
la varianza de la variable Y , nmero de insistencias de
los estudiantes de cuarto ao durante el mes de diciembre?
Los datos de la muestra son:
Nmero de inasistencias 1 3 6 7 8
en el mes de noviembre
i
f 3 4 8 3 2
Solucin
a) Usando la expresin (3.24), el valor de la varianza para la varia-
ble X , nmero de inasistencias de los alumnos del cuarto ao en
el mes de noviembre es:
2
2
602-20(5)
5, 37
19
S = = , sabiendo que
5, 2 X =
.
03_cap3.p65 31/03/2006, 02:35 p.m. 152
153
b) Si a cada observacin del mes de noviembre le sumamos la
constante C = 2 inasistencias del mes de diciembre, obtendremos
2
i i
y x = + , i = 1,,5. Para calcular la varianza de la variable Y ,
nmero de inasistencias durante el mes de diciembre, aplicamos
la propiedad ( ) ( ) ( ) V Y V X C V X = + = y se tiene:
V ( Y )= ( ) ( ) 2 5, 37 V X V X + = = . Vemos que la varianza
de la variable Y , es igual a la varianza de la variable X .
Propiedad 4. La varianza de una constante por una variable, es
igual al producto de la constante al cuadrado por la varianza de la
variable. Esto es, si
i i
y Cx = , i =1,,n entonces
( )
2
( ) ( ) V Y V CX C V X = = .
Ejemplo 33
Con los mismos datos del problema anterior aplicaremos la pro-
piedad 4.
Solucin
Ya se encontr que el valor de la media aritmtica es 5 X = y el
valor de la varianza es
2
5, 3 7 S =
.
Supongamos que el nmero de inasistencias de cada alumno
se duplica, esto es, 2
i i
y x = .
Entonces la constante es C=2 y, aplicando la propiedad, se
tiene que, ( ) ( )
2
V Y C V X = =
2
2 (5, 37) 21, 48. = Vemos en este
caso que la varianza s sufri un cambio al haber multiplicado por
una constante a todas las observaciones.
Propiedad 5. Dados dos conjuntos de datos de tamaos, medias y
varianzas respectivas:
1 2
, n n ;
2 2
1 2
1 2
, ; , X X S S
y si se desea cal-
cular la varianza global de las dos muestras se aplica la siguiente
frmula:
03_cap3.p65 31/03/2006, 02:35 p.m. 153
154
( ) ( )
2 2
2 2
1 2
1 2
2 1 1 2 2
1 2 1 2
( ) ( )
( ) ( )
X X n X X n
S n S n
S
n n n n
+
+
= +
+ +
donde:
el primer trmino:
2 2
1 1 2 2
1 2
( ) ( ) S n S n
n n
+
+
representa la varia-
bilidad dentro de cada muestra y se le denomina intravarianza;
el segundo trmino:
( ) ( )
2 2
1 2
1 2
1 2
( ) ( ) X X n X X n
n n
+
+
donde
X
=
1 2
1 2
1 2
X n X n
n n
+
+
, representa la variabilidad entre las
dos muestras y se le denomina intervarianza. Por tanto la varianza
global de las dos muestras es,
2
intravarianza intervarianza S = +
Esta propiedad se puede generalizar para ms de dos muestras.
Ejemplo 34
En el colegio San Carlos, en un concurso de lgebra, tres alumnos
por cada seccin de quinto ao de secundaria obtuvieron las cali-
ficaciones siguientes:
Seccin A: 7, 9,11
2
1
1
9 2, 7 X S = =
Seccin B: 11,14,17
2
2
2
14 6, 0 X S = =
Encontraremos la varianza global de las calificaciones de los
6 alumnos, aplicando la propiedad 5.
Solucin
Sea la muestra 1 la seccin A y la muestra 2 la seccin B, entonces
se tiene:
03_cap3.p65 31/03/2006, 02:35 p.m. 154
155
Muestra 1:
2
1
1 1
3 9 2, 7 n X S = = =
Muestra 2:
2
2
2 2
3 14 6, 0 n X S = = =
El valor de la intravarianza es:
2 2
1 1 2 2
1 2
( ) ( ) 2, 7(3) 6(3) 8,1 18
4, 35
3 3 6
S n S n
n n
+ + +
= = =
+ +
El valor de la media global es:
1 2
1 2
1 2
3(9) 3(14) 27 42 69
11, 5
3 3 6 6
global
n X n X
X
n n
+ + +
= = = = =
+ +
El valor de la intervarianza es:
( ) ( )
2 2
1 2
1 2
1 2
( ) ( ) X X n X X n
n n
+
=
+
2 2
(9 11, 5) 3 (14 11, 5) 3
6, 25
3 3
+
=
+
Finalmente, el valor de la varianza global es:
2
intravarianza intervarianza S = + = 4,35 +6,25 = 10,6
Ejemplo 35
Con los datos presentados en el ejemplo 32 aplicaremos la propie-
dad 5.
Solucin
Al dividir la muestra total en las siguientes dos submuestras, se
obtiene:
Muestra 1:
i
x
i
f
i
x
i
f
1 3 1 x 3= 3
3 4 3 x 4= 12
6 8 6 x 8= 48
Total 15 63
03_cap3.p65 31/03/2006, 02:35 p.m. 155
156
Muestra 2:
i
x
i
f
i
x
i
f
7 3 7 x 3=21
8 2 8 x 2=16
Total 5 37
Para la muestra 1 se tiene:
n
1
=15 1
63
15
X =
=4,2
( )
3
2
2 2 2
2 1
1
(1 4, 2) 3 (3 4, 2) 4 (6 4, 2) 8
4,16
15
i i
i
x X f
S
n
=

+ +
= = =

Para la muestra 2 se tiene:


n
2
=5
2
37
7, 4
5
X = =
( )
2
2
2 2
2 1
2
(7 7, 4) 3 (8 7, 4) 2
0, 24
5
i i
i
x X f
S
n
=

+
= = =

El valor de la intravarianza es:


2 2
1 1 2 2
1 2
( ) ( ) 4,16(15) 0, 24(5)
3,18
15 5
S n S n
n n
+ +
= =
+ +
El valor de la media global es:
1 2
1 2
1 2
15(4, 2) 5(7, 4) 63 37 100
5
15 5 20 20
global
n X n X
X
n n
+ + +
= = = = =
+ +
El valor de la intervarianza es:
( ) ( )
2 2
2 2
1 2
1 2
1 2
( ) ( )
(4, 2 5) 15 (7, 4 5) 5
1, 92
15 5
X X n X X n
n n
+
+
= =
+ +
Finalmente, el valor de la varianza global es:
2
intravarianza intervarianza S = + = 3,18 +1,92 = 5,1. Este
resultado coincide con el valor de la varianza encontrado en el
ejemplo 32.
03_cap3.p65 31/03/2006, 02:35 p.m. 156
15
Relacin entre la desviacin estndar y la proporcin de las
observaciones en una distribucin de frecuencia
Teorema de Chebyshev
Para cualquier conjunto de observaciones (poblacin o muestra) y
cualquier constante k mayor o igual que 1, la proporcin de las
observaciones que se encuentran dentro de k desviaciones estndar
de ambos lados de la media es de por lo menos
2
1
1
k

(3.27)
En otras palabras, el teorema nos dice que en el intervalo se
encuentra al menos
2
1
1
k


2
1
(1 )%
k

del total de las observa-


ciones.
As, si k = 2, como mnimo
2
1 3
1 0, 75
2 4
= =
, o 75% de los
valores de cualquier conjunto de datos se encuentra dentro de las
dos desviaciones estndar de ambos lados de la media.
Si k = 3, por lo menos
2
1 8
1 0, 889
3 9
= =
, 88,9% de los valo-
res de cualquier conjunto de datos se encuentra dentro de las tres
desviaciones estndar de ambos lados de la media.
Ejemplo 36
Si la media y varianza de un conjunto de n=30 observaciones son
2
50 y 4 X S = =
. Describiremos la distribucin usando el
Teorema de Chebyshev.
Solucin
La distribucin del conjunto de observaciones est centrada alre-
dedor de 50 X = con una desviacin estndar
2 S =
.
El teorema establece que:
03_cap3.p65 31/03/2006, 02:35 p.m. 157
158
Al menos 3/4 o el 75% central de las observaciones se encuen-
tran en el intervalo
( 2 ) (50 2(2), 50 2(2)) (46, 54) X S = + =
.
Al menos 8/9 88,9% central de las observaciones se encuen-
tran en el intervalo
( 3 ) (50 3(2), 50 3(2)) (44, 56) X S = + =
.
El teorema se aplica a cualquier distribucin. En muchos ca-
sos, la proporcin de las observaciones que caen en el intervalo
especificado excede a
2
1
1 ,
k

no olvidemos la expresin al me-


nos en el enunciado del teorema.
Ejemplo 37
Si todos los solicitantes interesados en trabajar para un programa
de asistencia social, en un examen de aptitud obtienen una califi-
cacin media de 75 puntos con una desviacin estndar de 6 pun-
tos qu porcentaje de los solicitantes, como mnimo, debe tener un
promedio en el examen de aptitud entre 57 y 93 puntos?
Solucin:
Como datos tenemos que
75 y 6 X S = =
. Puesto que k des-
viaciones estndar, k(6) es equivalente a la magnitud 93-75 = 75-
57=18, entonces k
18
3
6
= =
. De acuerdo con el teorema de
Chebyshev, la fraccin mnima de solicitantes que cumplen con
tener un promedio entre 57 y 93 es
2
1
1
k

=
2
1 8
1
3 9
=
88,9%.
Si la distribucin de frecuencias se asemeja grficamente a
una forma de campana, como en la siguiente figura:
-3s -2s -1s 0 +1s +2s +3s
03_cap3.p65 31/03/2006, 02:35 p.m. 158
159
en este caso, se le suele llamar curva normal y la relacin entre
la desviacin estndar (
S
) y la proporcin de observaciones es:
Lmites dentro de los cules Porcentaje
se ubican las observaciones de observaciones
Entre 1 1 S y S + 68,2
Entre 2 2 S y S + 95,4
Entre 3 3 S y S + 99,8
Entre
1 X y S +
34,1
Entre
1 X y S
34,1
Entre
2 X y S +
47,7
Entre
2 X y S
47,7
Entre
3 X y S +
49,9
Entre
3 X y S
49,9
a esta relacin se conoce como la regla emprica, porque su-
puestamente los porcentajes de observaciones establecidos se ob-
servan en la prctica.
Ejemplo 38
Un club deportivo tiene como propsito planear las actividades re-
creativas. La distribucin de frecuencias de las edades tiene forma
acampanada (normal), con media y desviacin estndar iguales a
27 aos y 8 aos respectivamente, como se muestran en la tabla y el
grfico que se presentan. Se desea conocer cual es el porcentaje de
socios cuyas edades oscilan entre 11 y 43 aos.
1 i i
L L


'
i
x
Frecuencia
[5-9) 7 2
[9-13) 11 3
[13-17) 15 7
[17-21) 19 12
[21-25) 23 15
[25-29) 27 23
[29-33) 31 16
[33-37) 35 12
[37-41) 39 7
[41-45) 43 2
[45-49] 47 1
03_cap3.p65 31/03/2006, 02:35 p.m. 159
160
Solucin
La distribucin de la variable edad tiene forma normal, como tam-
bin se puede observar en el grfico de la figura anterior,
con
27 aos y 8 aos X S = =
. El problema consiste en encon-
trar el valor de k.
Si k k(8) S = y la proporcin de edades debe oscilar
entre 11 y 43, entonces
(8) X k +
=43 y
(8) X k
= 11, luego
(8) k = 4327=2711=16 y por tanto
2 k =
y el porcentaje de
personas cuyas edades oscilan entre 11 y 43 es el 95,4% como
establece la relacin.
Para compronbar que la relacin terica se cumple en la
prctca, observamos la tabla de distribucin de frecuencias, y con-
tamos las observaciones comprendidas desde la edad 11 hasta 43
aos se tiene:
En el intervalo [9-13) la amplitud es igual 4 y tiene 3 observa-
ciones. Pero necesitamos contar las frecuencias exactamente desde
11; entonces, tenemos que entre 11 y 13 hay una amplitud de 2 y le
corresponde una frecuencia de
2(3)
1, 5
4
=
que se aproxima a 2.
Asimismo, en el intervalo [41-45) la amplitud es igual a 4 y su
frecuencia es 2, entonces desde 41 hasta 43 la amplitud es 2 y su
frecuencia igual a
2(2)
1
4
=
.
Ahora ya tenemos las frecuencias que estn comprendidas en
el intervalo 11 y 43 aos y sumando tenemos: 2+7+12+15+23+
16+12+7+1=95. La proporcin, entonces, es
95
0, 95
100
=
o, en por-
03_cap3.p65 31/03/2006, 02:35 p.m. 160
161
centaje, 95%. Note que el porcentaje observado es una aproximacin
aceptable del porcentaje especificado por la regla emprica.
Puntajes Estandarizados
Los valores originales
i
x de un conjunto de datos tambin se pue-
den expresar en puntajes estandarizados
i
z , donde el puntaje es-
tandarizado es la distancia a la que se encuentra el valor
i
x , por
arriba o por debajo de la media, medida en unidades de la desvia-
cin estndar, es decir:
i
i
x X
z
S

=
(3.28)
Este puntaje estandarizado determina la posicin de una ob-
servacin dada, en relacin a la media y en unidades de la desvia-
cin estndar.
Si el valor de
i
z es negativo, indica que la observacin queda
debajo (a la izquierda) de la media; un valor de
i
z positivo indica
que la observacin queda arriba (a la derecha) de la media.
Ejemplo 39
Tenemos los siguientes datos, correspondientes al peso y altura de
tres estudiantes universitarias:
Estudiante Peso (Kg) Altura (cm)
X Y
Mara 80 175
Ana 65 160
Rosa 60 172
Media aritmtica
X
= 70 Kg
Y
= 164 cm
Desviacin Estndar
x
S =10 Kg
y
S = 6 cm
Para el caso de las tres estudiantes, encontramos los puntajes
estandarizados
i
z .
Solucin
Encontramos los respectivos valores estandarizados z para la
variable X, as tenemos:
03_cap3.p65 31/03/2006, 02:35 p.m. 161
162
Mara:
1
1
80 70
1
10
x X
z
S

= = = +
desviaciones estndar
Ana:
2
2
65 70
0, 5
10
x X
z
S

= = =
desviaciones estndar
Rosa:
3
3
60 70
1
10
x X
z
S

= = =
desviaciones estndar.
Los resultados se resumen en la siguiente tabla:
Estudiante Peso (Kg) Puntaje estandarizado
X
Mara 80 +1 desviacin estndar
Ana 65 -0,5 desviaciones estndar
Rosa 60 -1 desviaciones estndar
De igual manera se obtienen los valores
i
z para los valores
observados de la variable Y
Estudiante Altura (cm) Puntaje estandarizado
Y
Mara 175 +1,83 desviacin estndar
Ana 160 0,67 desviacin estndar
Rosa 172 +1,33 desviacin estndar
Como se puede distinguir en las tablas anteriores, la unidad
de medida que tenga cada variable no importa, sus valores z se
miden en desviaciones estndar, luego pueden ser comparables.
As podemos decir, respecto a la variable peso, que Mara se en-
cuentra a una desviacin estndar por arriba de la media, mien-
tras que Rosa se encuentra a una desviacin estndar por debajo
de la media. Respecto a la variable altura, Mara se encuentra a
1,83 desviaciones estndar por arriba de la media, mientras que
Rosa se encuentra a 1,33 desviaciones estndar, tambin arriba de
la media.
Ejemplo 40
Los siguientes datos corresponden a las calificaciones de un gru-
po de estudiantes en el curso de Estadstica. La media es 34,6 y la
desviacin estndar 9,6. Supngase que Pedro tiene una califica-
03_cap3.p65 31/03/2006, 02:35 p.m. 162
163
cin de 48. Cul ser la ubicacin de Pedro en el grupo respecto a
su nota?
Solucin
Encontraremos la nota estandarizada de Pedro, reemplazando su
calificacin en la frmula (3.28):
48 34, 6
1, 4
9, 6
z

= =
. Luego, la nota de Pedro se ubica a 1,4
desviaciones estndar por arriba de la media aritmtica.
Ejemplo 41
Dos alumnos rindieron exmenes en los cursos de razonamiento
matemtico y razonamiento verbal, y sus calificaciones y medidas
importantes se presentan a continuacin.
Individuo Calificaciones originales
Razonamiento Razonamiento
matemtico, X verbal, Y
Manuel
1
x =25
1
y =75
Juan
2
x =32
2
y =70
Medidas Cursos
Razonamiento Razonamiento
matemtico verbal
Media
X
=20,9
Y
= 61,3
Aritmtica
Desviacin
x
S = 8
y
S = 15,2
estndar
a) En cul de los dos cursos Manuel obtuvo un mejor rendimiento?
b) En cul de los dos cursos Juan obtuvo un mejor rendimiento?
c) Quin de los dos alumnos y en cul de los dos cursos obtuvo
una mejor ubicacin?
Solucin
Para responder las preguntas planteadas debemos estandarizar
las calificaciones originales, las mismas que se presentan a conti-
nuacin.
03_cap3.p65 31/03/2006, 02:35 p.m. 163
164
Individuo Calificaciones originales Puntajes estandarizados
Razonamiento Razonamiento Razonamiento Razonamiento
matemtico,X verbal,Y matemtico verbal
Manuel
1
x =25
1
y =75 1
25 20, 9
0, 51
8
z

= =
1
75 61,3
0, 90
15, 2
w

= =
Juan
2
x =32
2
y =70 2
32 20, 9
1, 39
8
z

= = 2
70 61,3
0, 57
15, 2
w

= =
a) Manuel obtuvo mejor rendimiento en el curso de razonamiento
verbal, puesto que el valor
1
w = 0,90 es mayor que
1
z = 0,51.
b) Juan obtuvo mejor rendimiento en el curso de razonamiento ma-
temtico, puesto que el valor
2
z = 1,39 es mayor que
2
w = 0,57.
c) Juan obtuvo la mejor ubicacin en el curso de razonamiento ma-
temtico, puesto que el valor
2
z = 1,39 es el mayor de todos los
puntajes estandarizados, esto es, la nota de Juan est a 1,39 des-
viaciones estndar por arriba de la media.
Coeficiente de variacin
El coeficiente de variacin CV se define como:
S
CV
X
=
(3.28)
donde:
X
es la media aritmtica y
S
, la desviacin estndar
Tambin se expresa en porcentajes:
(100%)
S
CV
X
=
(3.29)
Mide la dispersin de los datos con respecto a la media. Fre-
cuentemente se usa para comparar la variabilidad de dos o ms
conjuntos de datos que estn expresados en diferentes unidades.
El grupo de datos con mayor coeficiente de variacin, es el que
tiene mayor dispersin. Si las medias aritmticas de los dos grupos
son iguales y expresados en las mismas unidades, entonces el gru-
po que tenga mayor desviacin estndar ser el de mayor disper-
sin o variacin.
03_cap3.p65 31/03/2006, 02:35 p.m. 164
165
Ejemplo 42
El curso de Estadstica se dict a dos grupos de estudiantes. El
grupo 2 realiz el curso con el auxilio del software SPSS y las cali-
ficaciones fueron de 0 a 200; mientras que el grupo 1 lo realiz con
la metodologa tradicional y las calificaciones fueron de 0 a 100.
Grupo 1: 10 20 30 40 50
Grupo 2: 60 85 110 135 160
En cul de los dos grupos la dispersin es mayor?
Solucin
En el siguiente cuadro se muestra que las desviaciones estndar
son 15,81 y 39,53 respectivamente; sin embargo, no se puede decir
que en el segundo grupo existe mayor dispersin que en el prime-
ro, puesto que las calificaciones estn en diferentes escalas, por lo
que usaremos el coeficiente de variacin.
Datos 1 Datos 2
Media 30, 0000 110, 0000
Desviacin estndar 15, 81139 39,52847
Coeficiente de variacin 0,527 0,359
El coeficiente de variacin para el primer grupo es CV1=0,527
(52,7%) y, para el segundo grupo, CV2=0,359(35,9%), indicando
que en el primer grupo existe mayor dispersin relativa que en el
segundo.
Ejemplo 43
Obtendremos los coeficientes de variacin para la variable nmero
de hijos del ejemplo 30 y para la variable edad del ejemplo 31.
Variable Media aritmtica Desviacin estndar
Edad 40, 1 9, 91
Nmero de hijos 2 1, 41
Solucin
a) Para el nmero de hijos de los estudiantes, el coeficiente de va-
riacin toma el valor:
1, 41
0, 705
2
CV = =
(70, 5%) .
03_cap3.p65 31/03/2006, 02:35 p.m. 165
166
b) Para la edad de los estudiantes, el coeficiente de variacin toma
el valor:
9, 91
0, 2471(24, 71%)
40,1
CV = =
por lo que la variable
nmero de hijos es relativamente ms dispersa que la variable
edad.
Ejemplo 44
En un colegio de educacin especial fue de inters del Director
evaluar la conducta de sus estudiantes a travs de las siguientes
variables: conducta de aislamiento ( X ), cuantificada mediante el
tiempo que el estudiante permanece aislado en un periodo de 2
horas; nmero de participacin en clase (
Y
); realizacin de tarea
(Z), medida mediante el porcentaje del tiempo que los nios per-
manecan haciendo las tareas.
Observ una muestra de 20 estudiantes, de quienes se presen-
ta la media y la desviacin estndar de las variables evaluadas. Es
nuestro inters usar dichos resultados para evaluar la variabili-
dad de las mismas.
Medidas de Variables
posicin y
dispersin
Conducta de Participacin en Realizacin de
aislamiento clase tareas
Media
X
=56 minutos
Y
=7,58
Z
=78,35%
participaciones
Desviacin
x
S =4,76 minutos
y
S =2,66
z
S
=19,35%
estndar participaciones
Solucin
Observamos que las tres variables estn expresadas en diferentes
unidades de medida; por tanto, es pertinente hacer uso del coefi-
ciente de variacin como medida de dispersin para analizar la
variabilidad de las tres variables.
03_cap3.p65 31/03/2006, 02:35 p.m. 166
16
Medidas de Conducta de Participacin en Realizacin de
dispersin aislamiento clase tareas
Coeficiente de
x
CV =8,5%
y
CV =35,09%
z
CV
=24,7%
variacin
La variable con menor dispersin relativa o menor coeficiente
de variacin es la conducta de aislamiento, indicando una menor
heterogeneidad que las variables nmero de participaciones en
clase y realizacin de tareas.
Ejemplo 45
Con la base de DATOS1-maestra obtenemos la varianza y la des-
viacin estndar para los coeficientes de inteligencia usando los
comandos del SPSS.
Solucin
Se abre la base de DATOS1-maestra y usamos los comandos del
captulo VII (procedimientos estadsticos).
Los resultados que proporciona el SPSS para la variable coefi-
ciente de inteligencia son:
Coeficiente de N Range Mean Std. Deviation Variante
Inteligencia 70 27 101,79 6,282 39, 464
Media aritmtica, 101,79 puntos, varianza, 39,46 puntos
2
, des-
viacin estndar, 6,28 puntos y el valor del coeficiente de variacin
es:
6, 282
(100%) 6,17%.
101, 79
CV = =
Ejemplo 46
Con la base de DATOS3-educacin y para las variables: tiempo de
servicio de los docentes, edad de los docentes y rendimiento pro-
medio de los docentes en el programa de capacitacin, encontra-
mos el rango, la varianza, la desviacin estndar y el coeficiente de
variacin, usando los comandos del SPSS.
03_cap3.p65 31/03/2006, 02:35 p.m. 167
168
Solucin:
Se abre la base de DATOS3-educacin y se usan los comandos del ca-
ptulo VII (procedimientos estadsticos) y se obtiene la siguiente salida:
Edad de los Tiempo de Notas
Participantes servicio promedio
N 47 47 47
Mean (media aritmtica) 34,78 13,97 11, 536788
Std. Deviation (desviacin 2,264 2,080 1, 3462899
estndar)
Variance (varianza) 5,126 4,326 1,812
Range (rango) 9 8
5, 2505
Podemos decir que la media aritmtica del tiempo de servicio
es de 13,97 aos; la varianza es 4,326 aos
2
; la desviacin estndar,
2,08 aos y el valor del coeficiente de variacin es :
2, 08
(100%) 14, 89%
13, 97
CV = =
.
Si calculamos el coeficiente de variacin para las otras varia-
bles, se tiene que el CV para la variable edad de los participantes es
igual a 6,5%; y el CV para la variable notas promedio es igual al
11,67%. Luego, la variable edad de los participantes tiene los valo-
res ms homogneos respecto a la media, por tener menor CV que
las otras variables, a pesar de tener la mayor desviacin estndar.
Medidas de forma: Asimetra o sesgo y curtosis o
apuntamiento
Asimetra
Adems de las medidas de posicin y dispersin, es posible obte-
ner otras medidas respecto al grado de asimetra de la distribucin
de frecuencias, porque estas medidas constituyen una de las ca-
ractersticas de importancia de los datos. En la prctica casi nunca
se encuentran polgonos o histogramas perfectamente simtricos,
por lo que el grado en el cual la distribucin no es simtrica consti-
tuye su sesgo.
La asimetra de las distribuciones unimodales se mide con el
sesgo de Pearson y se define como la diferencia entre la media y la
moda. Si la diferencia es positiva, decimos que la asimetra es posi-
03_cap3.p65 31/03/2006, 02:35 p.m. 168
169
tiva y grficamente la curva presenta la cola ms larga a la dere-
cha; si la diferencia es cero la curva es simtrica; si la diferencia es
negativa decimos que la asimetra es negativa y grficamente la
curva presenta la cola ms larga a la izquierda, como se muestra en
las siguientes figuras:


Mo Me X < <

Mo Me X = =

X Me Mo < <
Asimetra positiva Simtrica Asimetra negativa
La medida obtenida depende de las unidades que en cada
caso se usen, por lo que, para comparar la asimetra de dos o ms
curvas, es necesario estandarizar los sesgos, obtenindose la si-
guiente frmula:
Primer coeficiente de asimetra
1
X Mo
a
S

=
(3.30)
Este coeficiente de asimetra se compara con el valor cero, que
corresponde a la distribucin normal
1
( 0) a = . As, si tenemos:
1
0 a > la asimetra de la distribucin de frecuencias es positiva,
1
0 a < la asimetra de la distribucin de frecuencias es negativa,
1
0 a = la distribucin de frecuencias es simtrica.
En distribuciones que no son muy asimtricas se cumple la
siguiente relacin emprica
( ) moda 3 media-mediana X = . (3.31)
Usando esta relacin, el sesgo de Pearson se aproxima con la
siguiente frmula:
Segundo coeficiente de asimetra
( )
2
3 X Me
a
S

= = (3.32)
Este coeficiente de asimetra se compara con el valor cero, que
corresponde a la distribucin normal
2
( 0) a = . As, si tenemos:
03_cap3.p65 31/03/2006, 02:35 p.m. 169
10
2
0 a > la asimetra de la distribucin de frecuencias es positiva,
2
0 a < la asimetra de la distribucin de frecuencias es negativa,
2
0 a = la distribucin de frecuencias es simtrica.
Coeficiente de asimetra de tercer orden
( )
3
3 3
/
i
x X n
a
S

= =

Este coeficiente de asimetra se compara con el valor cero, que


corresponde a la distribucin normal
3
( 0) a = . As, si tenemos:
3
0 a > la asimetra de la distribucin de frecuencias es positiva,
3
0 a < la asimetra de la distribucin de frecuencias es negativa,
3
0 a = la distribucin de frecuencias es simtrica.
Ejemplo 47
Para la variable edad de los estudiantes de maestra del ejemplo 4,
se obtuvieron los valores de las siguientes medidas: media=40,1;
mediana=38,75; moda=37,4 y desviacin estndar=9,915. Obten-
dremos el coeficiente de asimetra.
Solucin
Segundo Coeficiente de Asimetra=
( )
2
3 X Me
a
S

= =
( ) 3 40,1 38, 75
0, 4085
9, 915

=
, por lo tanto la distribucin de las edades
es moderadamente asimtrica positiva.
Curtosis
El coeficiente de curtosis de un conjunto de datos unimodal, es una
medida de apuntamiento o aplastamiento de un polgono de fre-
cuencias.
Si la curva de frecuencias es muy en punta, las observaciones
estn concentradas al centro y se denomina leptocrtica y, si es
muy plana, recibe el nombre de platicrtica. Curvas con apunta-
miento medio reciben el nombre de mesocrticas.
Pearson tuvo el mrito de formalizar el concepto de curtosis,
proponiendo el coeficiente de curtosis de cuarto orden,
4
a :
( )
4
1
4 4
3,
n
i
i
x X
n
a
S
=

(3.33)
03_cap3.p65 31/03/2006, 02:35 p.m. 170
11
donde S es la desviacin estndar de los datos.
ste es un coeficiente sin dimensin. En distribuciones nor-
males,
( )
4
1
4
n
i
i
x X
n
S
=

vale aproximadamente 3, resultando


4
a =0. Por ello, si
4
0 a > la distribucin de frecuencias es leptocrtica,
4
0 a < la distribucin de frecuencias es platicrtica,

4
0 a = la distribucin de frecuencias es mesocrtica.
Otro coeficiente para medir curtosis, en funcin de los
percentiles, es el coeficiente de curtosis percentlico k:
( )
3 1
90 10
1
2
0, 263
Q Q
k
P P

(3.34)
donde ( )
3 1
Q Q es el rango intercuartlico y
90 10
P P
es el rango interpercentlico. En distribuciones normales,
( )
3 1
90 10
1
2
Q Q
P P

vale aproximadamente 0,263, resultando


0 k =
.
Por ello, si:
0 k >
la distribucin de frecuencias es leptocrtica,
0 k <
la distribucin de frecuencias es platicrtica,
0 k =
la distribucin de frecuencias es mesocrtica.
03_cap3.p65 31/03/2006, 02:35 p.m. 171
12
En la siguiente figura, obtenida usando comandos del
MATLAB, podemos apreciar las tres formas de distribucin de
acuerdo al coeficiente de curtosis:
Ejemplo 48
Las siguientes medidas corresponden a las edades de un grupo de
100 estudiantes universitarios.
Medidas
Media=26,7
Mediana=27
Moda=27
Desviacin estndar=8,11
Cuartil uno=23
Cuartil tres=31
Percentil diez=15
Percentil noventa=38,6
Para saber qu forma tiene la distribucin, calcularemos los
coeficientes de asimetra y curtosis.
03_cap3.p65 31/03/2006, 02:35 p.m. 172
13
Solucin
( )
2
3 X Me
a
S

= =
( ) 3 26, 68 27
0,118
8,11

=
La distribucin tiene una ligera asimetra negativa, pero se
podra decir que es casi simtrica.
( )
75 25
90 10
1
2
0, 263
P P
k
P P

=
( )
1
31 23
2
0, 263 0, 2 0, 263 0, 063
38, 6 15

= =

Los valores obtenidos nos indican que la distribucin tiene


una forma casi mesocrtica, es decir, el montculo de la distribu-
cin no es muy achatado ni muy apuntado.
Ejemplo 49
Con la base de DATOS1-maestra y usando los comandos del SPSS
obtenemos los coeficientes de sesgo y curtosis.
Solucin
Se abre la base de DATOS1-maestra y usando los comandos del
SPSS del captulo VII (procedimientos estadsticos) se tiene:
Coeficiente de
inteligencia
N Valid 70
Missing 0
Skewness 1,301
Kurtosis 1,558
El coeficiente de asimetra (sesgo) toma el valor 1,3, indicando
que los datos tienen sesgo positivo, mientras que el valor 1,56 para
la curtosis, nos indica que estamos frente a una distribucin
leptocrtica.
03_cap3.p65 31/03/2006, 02:35 p.m. 173
14
Medidas de posicin y dispersin resistentes
Generalmente, la informacin contenida en un conjunto de datos
segn el enfoque clsico se sintetiza en forma de medidas de posi-
cin, dispersin y de forma. De manera similar, en el anlisis
exploratorio de datos (AED) existen medidas de posicin y disper-
sin basados en estadsticas de orden. La eleccin de estas medidas
obedece principalmente al efecto de resistencia que adquieren con la
aplicacin de tales procedimientos y a la facilidad de clculo.
Estadsticas de orden
Dado los valores de una variable,
1
,...,
n
x x el procedimiento de
ordenamiento consiste en organizar los datos de acuerdo con su
valor. El resultado es un conjunto de datos ordenados y denotado
por
(1) ( )
, ...,
n
x x donde:
(1)
x = el ms pequeo de
1
( ,..., )
n
x x
(2)
x = el segundo ms pequeo de
1
( ,..., )
n
x x
( ) n
x = el ms grande de
1
( ,..., )
n
x x
El conjunto
(1) ( )
, ...,
n
x x se denomina estadsticas de orden de
los valores de la variable
1
,...,
n
x x .
Uno de los usos de las estadsticas de orden es el clculo de la
profundidad del dato y profundidad de lnea en el diagrama de
03_cap3.p65 31/03/2006, 02:35 p.m. 174
15
tallo y hojas estudiados en el captulo II. Las profundidades se
usan en el clculo de las medidas de posicin.
Medidas de posicin resistentes
Se basan en las estadsticas de orden. Podemos citar: mediana,
cuartos, octavos, etc., y reciben el nombre de valores literales por
representarse mediante letras del alfabeto. Otra medida de posi-
cin es la trimedia.
La mediana
Es una medida de posicin resistente, la encontramos usando la
siguiente expresin:
Mediana =
1
2
1
2 2
si n es impar
si n es par
2
n
n n
x
x x
+



+


+
y tiene profundidad
1
.
2
n+
Ejemplo 50
Dos investigadores realizaron una prueba que mide la ansiedad
en estudiantes antes de aplicarse un examen de conocimientos
generales, obtenindose los siguientes resultados: 26,7 17,8 22,4
30,1 21,0 22,6 29,3 24,2 20,6 24,3.
Solucin
Para encontrar la mediana, primero ordenamos los datos en forma
ascendente, esto es:
( ) 1
x
=17,8
( ) 2
x
=20,6
( ) 3
x
=21,0
( ) 4
x
=22,4
( ) 5
x
=22,6
( ) 6
x
=24,2
( ) 7
x
=24,3
( ) 8
x
=26,7
( ) 9
x
=29,3
( ) 10
x
=30,1. El nmero de observa-
Mediana =
o
Mediana =
03_cap3.p65 31/03/2006, 02:35 p.m. 175
16
ciones es par, n=10 y la profundidad de la mediana es
10 1
5, 5
2
+
=
luego, Mediana =
1
2 2
2
n n
x x

+


+
=
( ) ( ) 5 6
2
x x +
22, 6 24, 2
2
+
=23,4.
Este resultado indica que, de los 10 estudiantes, un 50% tiene me-
nos de 23,4 puntuaciones de ansiedad y otro 50% tiene mas de
23,4 puntuaciones de ansiedad.
En el caso de ser n un nmero impar, por ejemplo que la mues-
tra anterior tenga solamente 9 observaciones:
( ) 1
x
=17,8
( ) 2
x
=20,6
( ) 3
x
=21,0
( ) 4
x
=22,4
( ) 5
x
=22,6
( ) 6
x
=24,2
( ) 7
x
=24,3
( ) 8
x
=26,7
( ) 9
x
=29,3, la profundidad de la mediana es
9 1
5
2
+
=
; entonces
Mediana =
( ) 5
x
=22,6. Este resultado nos dice que un 50% de los
estudiantes tiene menos de 22,6 puntuaciones de ansiedad y el
otro 50% tiene ms de 22,6 puntuaciones de ansiedad.
Los extremos
Son el valor ms pequeo y el ms grande del conjunto de observa-
ciones. Cada uno de ellos tiene profundidad 1.
As, en el ejemplo anterior sobre los estudios de ansiedad, los
extremos son: 17,8 y 30,1.
Los cuartos
Son dos estadsticas de posicin, el cuarto inferior y el cuarto
superior.
Se definen como los valores que tienen, como profundidad, el
entero de la profundidad de la mediana, mas uno, dividido entre
dos.
Profundidad del cuarto =
[ ] Profundidad de la mediana 1
2
+
03_cap3.p65 31/03/2006, 02:35 p.m. 176
1
Ejemplo 51
Para los datos del ejemplo anterior, ordenados en forma ascenden-
te se tiene: 17,8 20,6 21,0 22,4 22,6 24,2 24,3 26,7 29,3 30,1.
Encontraremos los cuartos.
Solucin
Encontramos la profundidad del cuarto,
Profundidad del cuarto =
[ ] Profundidad de la mediana 1
2
+
=
[ ] 5,5 1
2
+
=
5 1
2
+
=3; entonces, en los datos ordenados observamos la profundi-
dad de izquierda a derecha y la observacin con profundidad tres
es el cuarto inferior y es
( ) 3
x
= 21,0, y al mismo tiempo vemos la
profundidad de derecha a izquierda, as la observacin con pro-
fundidad tres es el cuarto superior y es
( ) 3
x
= 26,7.
A estos cinco nmeros resumen: Mediana, Extremos y Cuar-
tos se denominan Valores Literales y son las medidas resumen
fundamentales del AED.
Ejemplo 52
Los siguientes datos corresponden al nmero de llamadas de emer-
gencia realizadas en 19 das consecutivos a una compaa de servi-
cio de ambulancia. Encontrar las medidas de posicin resistentes.
38 37 44 28 34 30 56 44 49 36 38 40 41 39 40 29 43 31
Solucin:
Ordenando las observaciones de menor a mayor, tenemos:
( ) i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
( ) i
x 28 29 30 31 31 34 36 37 38 38 39 40 40 41 43 44 44 49 56
Profundidad 1 2 3 4 5 6 7 8 9 10 9 8 7 6 5 4 3 2 1
Para encontrar la mediana, como n=19 la profundidad es,
Profundidad de Mediana=
19 1
10
2
+
=
y Mediana=
(10)
38 x =
03_cap3.p65 31/03/2006, 02:35 p.m. 177
18
Para encontrar los cuartos calculamos su profundidad,
Profundidad del cuarto =
[ ] Profundidad de la mediana 1
2
+
=
[ ] 10 1 10 1
5, 5
2 2
+ +
= = luego los cuartos son:
Cuarto inferior =
( ) ( ) 5 6
2
x x +
31 34
32, 5
2
+
=
Cuarto superior =
( ) ( ) 5 6
2
x x +
=
41 43
42
2
+
=
Los Extremos:
(1) ( )
28 56
n
x x = =
Este resultado nos indica que un 50% de los das, el nmero de
llamadas de emergencia fue igual o menos de 38, y en el otro 50%
fue ms de 38 llamadas, siendo el menor nmero de llamadas 28, y
el mayor, 56. Adems, un 25% de los das el nmero de llamadas
fue de menos de 32,5, un 50% fue ms de 32,5 y menos de 42 y otro
25% de los das el nmero de llamadas fue ms de 42.
Los octavos
Se utilizan cuando el conjunto de datos es grande.
Se determina por:
Profundidad del Octavo =
[ ] Pr ofundidad del cuarto 1
2
+
Cada octavo est ubicado a la mitad entre los cuartos y los
extremos correspondientes.
Para el ejemplo anterior se tiene:
Profundidad del Octavo =
[ ] Pr ofundidad del cuarto 1
2
+
=
[ ] 5, 5 1
3
2
+
=
Luego el octavo inferior es
(3)
30 x = y el octavo superior
(3)
44 x = .
03_cap3.p65 31/03/2006, 02:35 p.m. 178
19
Podemos generalizar la obtencin de un valor literal
mediante la siguiente frmula:
Profundidad del valor literal =
[ ] Pr ofundidad del valor literal anterior 1
2
+
Medidas de dispersin resistente
El anlisis exploratorio considera las siguientes medidas de dis-
persin:
Desviacin absoluta de la mediana
Se define como:
DAM = Mediana Mediana
i
x
Ejemplo 53
Para los siguientes datos hipotticos, 105, 98, 80, 90, 95, encontra-
remos la DAM.
Solucin
Los datos propuestos, los ordenamos de forma creciente, obtene-
mos las desviaciones con respecto a la mediana y luego ordena-
mos estas desviaciones, como se muestra en la siguiente tabla:
i
x
( ) i
x
Desviacin = 95
i
x Desviacin
( ) i
105 80 15 0
98 90 5 3
95 95 0 5
80 98 3 10
90 105 10 15
En la segunda columna de la tabla anterior, se encuentra el
valor de la mediana igual a 95 y, en la cuarta columna la desvia-
cin mediana, DAM=5.
Queda para el lector encontrar el DAM para la variable nme-
ro de llamadas de emergencia del ejemplo 52.
03_cap3.p65 31/03/2006, 02:35 p.m. 179
180
Dispersin Cuarta
Esta medida resistente se define como la diferencia entre el cuarto
superior y el cuarto inferior; esto es:
Dispersin cuarta = (cuarto superior) (cuarto inferior)
Este ndice proporciona la dispersin del 50% central de los
datos y se la denota por
C s i
d C C = donde
s
C denota al cuarto
superior y
i
C denota al cuarto inferior.
Ejemplo 54
Para los datos del nmero de llamadas de emergencia para servi-
cio de ambulancia, presentados en el ejemplo 52, calculamos la
dispersin cuarta.
Solucin
Tenemos calculado:
i
C = 32,5 y
s
C = 42 y reemplazando tenemos:
C s i
d C C = = 42 - 32,5 = 9,5.
Notacin y representacin de las medidas resumen
Las medidas resumen se representan en una tabla denominada
diagrama de valores literales o como cuadro resumen de 5, 7, 9
valores literales.
Las letras que se utilizan en el cuadro resumen son:
n = tamao de la muestra, Me= Mediana
C
= Cuartos
O
=Oc-
tavos y, para los extremos, E .
El formato del cuadro resumen es como sigue:
n
Me profundidad de la mediana Mediana
C profundidad del cuarto Cuarto inferior Cuarto superior
O profundidad del octavo Octavo inferior Octavo superior
E 1 Extremo inferior Extremo superior
03_cap3.p65 31/03/2006, 02:35 p.m. 180
181
A continuacin, se presentan el cuadro resumen de 7 valores
literales respecto al nmero de llamadas de emergencia a una
compaa de servicio de ambulancia, obtenidas en los ejemplos
anteriores.
n 19
Me 10 38
C 5,5 32, 5 42
O 3 30 44
E 1 28 56
Datos discordantes en una muestra (outliers)
Un dato discordante es una observacin o algunas observaciones
que se desvan de manera notoria respecto a las dems observacio-
nes del conjunto de datos.
Por ejemplo, si tenemos el siguiente conjunto de datos: 0, 2, 4,
3, 1, 5, 2, 6, 20,15, se puede sospechar que los datos discordantes
son 15 y 20.
La identificacin o sospecha de datos discordantes es un paso
fundamental en el anlisis de datos.
Una regla para identificar datos discordantes en un conjunto
de datos es la siguiente: Cualquier valor del conjunto de datos que
sea mayor que
s
C + 1,5
C
d o menor que
i
C - 1, 5
C
d se considera
un dato discordante.
Donde
s
C + 1, 5
C
d es denominado corte superior y
i
C - 1, 5
C
d denominado corte inferior.
Grfico de caja
Son grficos muy tiles en la comparacin de varios conjuntos de
datos porque representan resmenes sobre las medidas de posi-
cin, dispersin, simetra y datos discordantes.
Para hacer este grfico se traza una recta numrica donde se
ubican los valores del cuarto inferior, mediana y cuarto superior
sobre los cuales se trazan segmentos perpendicualres de la misma
longitud. Uniendo los extremos de estos segmentos mediante l-
neas paralelas a la recta numrica se obtiene la caja que representa
al 50% central de los datos. La dispersin cuarta es el ancho de la
caja. Los segmentos fuera de la caja se llaman bigotes y llega en el
extremo superior hasta el valor inmediatamente inferior al corte
03_cap3.p65 31/03/2006, 02:35 p.m. 181
182
superior y en el extremo inferior hasta el valor inmediatamente
superior al corte inferior del conjunto de datos.
Cuando se presentan casos discordantes (outlier) en el grfi-
co, se sealan con crculos pequeos o asteriscos.
Respecto al 50% central de los datos si la mediana se ubica al
centro de la caja decimos que la distribucin de frecuencias es si-
mtrica. Si la mediana est prxima al lmite inferior de la caja
podemos decir que la distribucin tiene asimetra positiva y si est
prxima al lmite superior tiene asimetra negativa.
La longitud de la caja nos da una idea de la variabilidad de las
observaciones.
En la siguiente figura se muestra el grfico de caja:
M e
Corte
Superior
Bigote
Dato
discordante
Bigote
Corte
Inferior
C
s
C
i

Ejemplo 55
Los siguientes datos corresponden al nmero de libros revisados
por 22 estudiantes de ltimo ao de Filosofa, durante el ao aca-
dmico 2003. Encontraremos los valores literales representndo-
los luego en el grfico de caja haciendo uso del SPSS
62 88 75 66 52 73 35 65 147 76 40 51 69 68 72 48 82 54 79 42 50 38
Solucin
Mediana y los cuartos:
a) Ordenando la muestra, se tiene:
35 38 40 42 48 50 51 52 54 62 65 66 68 69 72 73 75 76 79 82 88 147
b) Profundidad de la mediana:
1
2
n +
=
22 1
2
+
=11,5; entonces Mediana =
65 66
65, 5
2
+
=
03_cap3.p65 31/03/2006, 02:35 p.m. 182
183
c) Profundidad del Cuarto =
[ ] 11, 5 1
6
2
+
=
; entonces
Cuarto inferior =
(6)
50 x = y Cuarto superior =
(6)
75 x =
d) Cortes:
1, 5
i C
C d = 50-1,5 (75-50)= 12,5
1, 5
s C
C d + =75+1,5 (75-50) = 112,5
e) Usando los comandos del SPSS encontramos el siguiente
diagrama de caja:
15 0 12 5 10 0 75 50 25
22
*
Nmero de l ibr os r evisados
Segn el grfico el 50% central de los datos correspondientes a
la variable nmero de libros revisados por los estudiantes se distri-
buye de forma asimtrica positiva. Asimismo, el 100% de las obser-
vaciones se distribuye de forma asimtrica positiva.
Podemos observar que el corte inferior es 12,5 y el menor valor
observado de la variable es 38, por tanto 38 es el extremo inferior
del bigote. As tambin, el corte superior es 112,5 y el mayor valor
observado ms cercano a l, es 88, por tanto 88 es el extremo supe-
rior del bigote. Se observa la existencia de un dato discordante y es
la observacin 22 con el valor 147.
03_cap3.p65 31/03/2006, 02:35 p.m. 183
184
Ejemplo 56
El director del colegio mixto Juan Bautista, en el ao 2003, solicit
al tutor del quinto ao de secundaria, presentar un informe acad-
mico del primer bimestre del ao. Le sugiri que incluya un grfico
comparativo como el grfico de caja para las calificaciones en in-
gls, de los estudiantes que se encuentran bajo su tutora, segn
sexo. Las calificaciones son como sigue:
Femenino 6 7 12 16 17 20 15 13 12
Masculino 3 4 5 7 6 11 10 9 12
Solucin
Usando los comandos del SPPS del captulo VII (procedimientos
estadsticos) obtenemos el siguiente grfico de caja para las califi-
caciones en ingls de los estudiantes segn sexo.
Mascul i no
Femeni no
20 15 10 5 0
cal i ficacin en i ngl s
03_cap3.p65 31/03/2006, 02:35 p.m. 184
185
El tutor informar que la mediana de las calificaciones en in-
gls de las alumnas es superior a la mediana de las calificaciones
en ingls de los alumnos y que la forma de la distribucin de fre-
cuencias de las calificaciones en ingls del 100% de los estudian-
tes varones es aproximadamente asimtrica positiva, mientras que
la forma de la distribucin de frecuencias de las calificaciones en
ingls en las mujeres es aproximadamente simtrica. Adems en
ambas distribuciones no hay presencia de datos discordantes.
Ejercicios
1. En un examen de seleccin se aplic una prueba con 50 pregun-
tas a 52 estudiantes. Se obtuvieron las puntuaciones siguientes:
49 48 46 46 45 44 43 43 41 41 39 39 38 37 37 36 35 35
34 33 33 31 31 31 31 31 30 30 30 29 29 28 27 27 27 27
26 26 26 24 24 23 23 22 21 20 20 20 15 18 16 19
a) Obtenga la media aritmtica, la mediana y la moda. Inter-
prete los resultados.
b) Cul de las tres medidas de tendencia central obtenidas en
el paso previo representa mejor al conjunto de datos?
c) Obtenga el percentil 25 y el percentil 75. Interprete los resul-
tados.
2. Una importadora de libros se dedica a la venta de libros de cuatro
editoriales. Durante el ao 2000 el total de ventas y el margen de
utilidad por editorial fueron los siguientes:
Editoriales Ventas(miles unidades) Margen de utilidad %
Aguilar 214 12, 6
Pirmide 90 5,8
Trbol 183 9,3
Santa Cruz 75 4,6
Calcular:
a) La media aritmtica del margen de utilidad obtenida en el
2000.
b) La media ponderada del margen de utilidad para ese mis-
mo ao.
c) Cul de las dos medias es la ms representativa? Por qu?
03_cap3.p65 31/03/2006, 02:35 p.m. 185
186
3. Los datos de la siguiente tabla son las puntuaciones de una prue-
ba de relaciones espaciales a dos grupos de adolescentes.
Intervalos de Grupo A Grupo B Intervalos de Grupo A Grupo B
puntuaciones puntuaciones
[ 4- 8) 1 1 [36-40) 18 10
[ 8-12) 0 2 [40-44) 20 8
[12-16) 0 2 [44-48) 38 5
[16-20) 2 3 [48-52) 36 4
[20-24) 4 3 [52-56) 18 2
[24-28) 6 4 [56-60) 12 0
[28-32) 8 4 [60-64] 2 1
[32-36) 10 6
a) Calcular media aritmtica, mediana y moda para cada grupo
de adolescentes.
b) Cul es la medida de tendencia central que mejor repre-
senta a cada una de las distribuciones? Por qu?
c) Calcular el percentil 10 y percentil 90. Interpretar en cada
caso.
d) Calcular el coeficiente de asimetra y curtosis.
4. Una profesora tiene dos secciones del mismo grado en diferentes
colegios, en los cuales imparte las mismas materias, les aplica el
mismo examen y obtiene las siguientes calificaciones:
Seccin A: 50 50 50 50 50 50 65 65 65 70 70 75
80 85 85 85 100 100 100 100 100 100 80
Seccin B: 100 85 85 80 80 80 76 76 76 76 75 75 75
75 75 75 74 74 74 74 70 70 70 65 65 50
Repetir las preguntas a), b), c) del ejercicio 1.
5. Los datos siguientes corresponden al estudio de 20 casos de es-
tudiantes del quinto ao de secundaria, que presentaban lesin
de tipo vesicular, la cual generalmente tiene repercusin al nivel
de la cavidad bucal.
Se presentan los datos de: edad, sexo, raza, lugar de la lesin en
la cavidad bucal (lengua, paladar, piso de boca, mucosa yugal,
labios, encas), lesin extraoral (lugar de la lesin fuera de la
cavidad bucal), duracin de la lesin.
03_cap3.p65 31/03/2006, 02:35 p.m. 186
18
Individuo Edad Sexo Raza Lesin cav. Lesin Duracin de
bucal extraoral lesin en das
1 20 0 cauc. 0 1 4
2 25 1 cauc. 0 1 2
3 40 0 cauc. 3 1 2
4 38 0 cauc. 1 1 0
5 27 1 cauc. 2 0 1
6 22 1 negro 1 0 3
7 20 0 cauc. 1 1 4
8 26 0 cauc. 3 1 0
9 34 0 cauc. 3 0 0
10 35 0 cauc. 4 1 1
11 39 1 cauc. 5 1 2
12 40 1 cauc. 5 0 1
13 38 1 cauc. 2 0 2
14 36 1 cauc. 1 0 4
15 28 0 cauc. 0 1 3
16 25 1 cauc. 2 1 2
17 22 0 cauc. 2 0 0
18 20 0 cauc. 3 0 1
19 24 1 cauc. 1 1 4
20 35 0 cauc. 4 1 3
Claves: Sexo: 0 M=0. F=1 Lesin en la cavidad bucal: lengua=0, paladar=1,
piso de la boca=2, mucosa yugal=3, labios=4, encas =5. Lesin extraoral:
zonas cutneas=0, mucosas=1.
a) Para cada una de las variables, calcular la medida de posi-
cin que corresponda: media aritmtica, mediana, moda. In-
terpretar en cada caso.
b) Hallar las medidas de dispersin: Rango, Varianza, Desvia-
cin estndar, Coeficiente de variacin, Interpretar los re-
sultados.
6. En el centro educativo Virgen de Ftima informan que Pedro ocu-
pa el lugar 9 en su clase; no sabemos mucho de su posicin
relativa en la clase, ya que esta depender del nmero de alum-
nos. Si los alumnos son 250, cul es su percentil?
7. Los demgrafos estudian las poblaciones de varios estados, co-
munidades y pases. Un asunto de inters es el crecimiento o
disminucin en el tamao de una poblacin, la cual es afectada
por la rapidez de los nacimientos, cunto tiempo viven (longevi-
dad) y a qu edades comnmente mueren. Una variable es la
edad de muerte. Suponga que en la nacin A, la edad modal de
03_cap3.p65 31/03/2006, 02:35 p.m. 187
188
muerte es 55, la mediana 60 y la media 65. En la nacin B, la
media tambin es 65, la moda es 75 y la mediana 70.
a) A partir de esta informacin, construya las curvas de fre-
cuencia para cada nacin.
b) Qu nacin parece mejor en trminos de longevidad?
8. Las siguientes son las edades medias de pacientes con adiccin a
sustancias en un centro de tratamiento local, clasificados de
acuerdo con el tipo de adiccin primaria. Calcule la edad media
de todos los pacientes con adiccin a sustancias en el centro
Adicin primaria
Cocana Herona Alcohol
(n=44) (n=24) (n=69)
Edad media (aos) 29,8 34,6 42,9
9. El peso medio de los 45 jugadores de un equipo de ftbol america-
no es de 215 libras. Si ninguno de los jugadores pesa menos de
170 libras, cuntos de ellos como mximo pueden pesar 250
libras o ms?
10. De 10 familias con Internet, cable y auto se obtuvo la siguiente
informacin relativa al mes de marzo:
Distribucin de costos de servicio de Internet
Costo (soles) N de Familias
[120 - 130) 1
[130 - 140) 2
[140 - 150) 3
[150 - 160) 3
[160 - 170] 1
Costo promedio de mantenimiento del auto es S/.300,00
Costo de cable (soles): 65, 130, 65, 65, 65, 65, 130,130, 65,130
Calcular el costo total promedio por familia, de los tres servi-
cios considerados.
11. a) Para los ejercicios 3 y 4, calcular la varianza, desviacin estndar
y el coeficiente de variacin para cada grupo. En cada caso com-
pare las respuestas y comente los resultados. b) Para el ejercicio 3
calcular la media y varianza global de las puntuaciones de los
dos grupos de estudiantes.
03_cap3.p65 31/03/2006, 02:35 p.m. 188
189
12. Un trabajador social obtuvo las siguientes caractersticas demo-
grficas y de servicio social de 15 miembros de un asilo:
Edad Visitas al Gastos de mantenimiento Sexo
mdico en el en el asilo (soles)
ltimo ao
74 8 2 347 M
81 7 2 434 M
83 11 1 636 F
77 4 1 963 M
76 5 2 358 F
79 13 1 968 F
79 7 2 683 M
a) Comparando las tres variables cuantitativas cul de ellas
presenta menor variabilidad?
b) Teniendo en cuenta el sexo, en cul de los grupos el nme-
ro de visitas es relativamente menos variable?
13. En el centro educativo Santa Rosa, la talla media de 300 alum-
nas es 1,72 m, con una desviacin estndar de 0,8 y, en el centro
educativo Santa Teresa, las 300 alumnas tienen una talla media
de 1,69 m y desviacin estndar 0,07. Calcular la media y la
desviacin estndar de la muestra formada por el conjunto de
los dos centros educativos.
14. En una muestra de 50 alumnos universitarios se obtuvo el tiem-
po transcurrido (en meses) desde la aparicin de una enferme-
dad hasta recurrir al especialista, y los datos se muestran en la
siguiente tabla:
2 9 14 19 4 7 14 8 1 0
4 2 9 7 18 1 1 24 5 12
3 6 16 4 0 8 0 4 11 23
32 4 7 3 6 3 4 8 18 6
9 2 8 2 13 1 18 5 26 1
a) Examine los datos y cuente el nmero de observaciones que
caen en los intervalos
, 2 , 3 X S X S X S
.
b) Coinciden las proporciones de las observaciones que caen
en estos intervalos con el teorema de Chebyshev? Con la
relacin suponiendo que la distribucin es normal?
03_cap3.p65 31/03/2006, 02:35 p.m. 189
190
c) Cul de los criterios anteriores ser el indicado para des-
cribir estos datos?
15. El cociente de inteligencia expresa la inteligencia como la razn
de la edad mental a la edad cronolgica multiplicada por 100.
As, el coeficiente de inteligencia es 100, cuando la edad mental
es igual a la edad cronolgica. Para los siguientes coeficientes de
inteligencia:
100 103 99 101 100 120 109

82
101 112 95 118 118 89 114 113
92 137 130 94 87 93 111 96
93 98 101 96 84 86

89 90
a) Construya un histograma de frecuencias relativas.
b) Encuentre el nmero de observaciones en los intervalos
, 2 , 3 X S X S X S
.
c) Compare las proporciones de observaciones en estos inter-
valos indicados en (b), con las que se obtendran por el teo-
rema de Chebyshev.
16. Un maestro aplic la misma prueba de Estadstica a dos seccio-
nes de un mismo grado. Los resultados fueron los siguientes:
Seccin A Seccin B
Mediana 64, 6 64, 3
Media 65, 0 63, 2
Percentil 25 61, 0 54, 0
Percentil 75 69, 0 70, 0
Desviacin Estndar 6,0 10, 5
a) Calcular el rango semiintercuartlico. Interprete el resultado.
b) En cul de las dos secciones los resultados fueron ms ho-
mogneos?
c) Calcular el coeficiente de asimetra y curtosis. Indicar la for-
ma de la distribucin.
d) Qu puede concluir usted acerca del desempeo de las dos
secciones?
e) Calcular la media y varianza global para las dos secciones.
17. En un concurso de matemticas se aplic una prueba a 2 500
estudiantes de sexto grado, resultando una calificacin media
03_cap3.p65 31/03/2006, 02:35 p.m. 190
191
de 11 puntos y una desviacin estndar de 2,0 puntos. Teniendo
en cuenta estos resultados, a cuntas desviaciones estndar
por arriba o por debajo de la media se coloca a los alumnos si-
guientes de acuerdo con su puntaje?
Pedro 09, Enrique 12, Jorge 07, Alberto 11, Juan 06, scar 17.
18. Si la distribucin en el ejercicio anterior es normal, a qu por-
centaje del grupo sobrepas cada uno de los alumnos arriba
mencionados?
19. En la clase de ingls impartida a los estudiantes de la escuela de
Literatura se aplic una prueba de comprensin de lectura y los
puntajes obtenidos por los estudiantes fueron los siguientes:
46 48 64 76 78 54 39 80 48 60 64 59 62 57 57 61 63 68 72 64 57 59 65 68
67 71 72 75 94 86 41 68 67 61 69 76 65 66 27 68 67 61
a) Encontrar los extremos, la mediana, los cuartos e interpre-
tarlos.
b) Encontrar la dispersin cuarta e interpretarla.
c) Determinar los cortes y estudiar si existen datos
discordantes.
d) Construir un grfico de caja, describir sus elementos e in-
terpretar.
20. A un grupo de estudiantes universitarios se les aplic una prue-
ba de habilidad mental y se obtuvieron las puntuaciones siguien-
tes:
71 64 58 54 50 34 70 63 57 54 50 30 69 61 56 53 49 69 60
55 52 47 69 59 54 52 40 64 58 54 52 40 64 58 54 51 39
a) Encontrar los extremos, la mediana, los cuartos e interpre-
tarlos.
b) Encontrar la dispersin cuarta e interpretarla.
c) Determinar los cortes y estudiar si existen datos
discordantes.
d) Construir un grfico de caja, describir sus elementos e in-
terpretar.
03_cap3.p65 31/03/2006, 02:35 p.m. 191
192
21. El gerente de una tienda de ropa realiza un estudio de mercado-
tecnia y, como primera etapa, desea conocer la distribucin de
edades de sus clientes. Durante una semana se toma una muestra
de 30 mujeres y 30 hombres, resultando las siguientes edades:
Mujeres Hombres
31 39 37 24 32 27 27 26 33 24 28 33 30 29 31 27 29 31
26 29 38 44 35 37 26 32 37 31 26 34 24 32 39 40 33 30
35 19 55 36 40 23 27 27 22 32 31 34 28 35 27 30 35 38
28 25 29 37 45 36
a) Calcular los extremos, mediana, cuartos, octavos. Interprete.
b) Trazar grficas de caja para la edad de los hombres y las
mujeres. Describir sus componentes e interpretar.
c) Verifique si existen datos discordantes.
22. Con los datos del ejercicio 3:
a) Calcular los extremos, mediana, cuartos, octavos. Interprete.
b) Trazar grficas de caja para las puntuaciones de los gru-
pos de adolescentes A y B respectivamente. Describir sus
componentes e interpretar.
c) Verifique si existen datos discordantes.
03_cap3.p65 31/03/2006, 02:35 p.m. 192
193
Introduccin
En muchas situaciones el inters es estudiar la relacin entre dos
o ms variables definidas en una poblacin o en una muestra y
como paso previo se hace necesario la presentacin de los datos en
tablas bidimensionales. Por ejemplo si nos remitimos a la datos
presentados en la base de DATOS3-educacin, podemos estar in-
teresados en estudiar la relacin entre el sexo y el lugar de proce-
dencia de los participantes, entre el sexo y el rendimiento acad-
mico en el curso de lgebra, entre la edad y el tiempo de servicio de
los participantes en el programa de capacitacin, por lo que pre-
viamente se presentan las correspondientes tablas bidimensionales.
En la primera parte del presente captulo se construyen y
analizan las tablas bidimensionales para dos variables cualitati-
vas, una variable cualitativa y otra cuantitativa, y para dos varia-
bles cuantitativas; asimismo se hacen las presentaciones grficas
para dichos casos. En la segunda parte del captulo se hace el
estudio de asociacin entre dichas variables.
Tablas de contingencia bidimensional
Tablas bidimensionales para dos variables cualitativas
En una muestra de n individuos en quienes se han observado
las variables X e Y , se denota con A
1
, A
2
, , A
k
los k niveles o
|193]
Captulo IV
Tablas y grficos bidimensionales.
Anlisis de asociacin
04_cap4.p65 31/03/2006, 02:37 p.m. 193
194
modalidades de X y con B
1
, B
2
, , B
r
los r niveles o modalida-
des de Y . La distribucin de los n individuos, considerando las
dos caractersticas, se puede presentar en una tabla de doble entrada
o en una tabla bidimensional como la siguiente, donde los niveles de
una de las variables ocupan la posicin de las filas y los niveles de
la otra variable ocupan la posicin de las columnas y los valores
dentro de la tabla o celdas son las frecuencias absolutas conjuntas.
Las tablas bidimensionales o de doble entrada, tambin se
denominan tablas de contingencia y muestran la ocurrencia con-
junta de pares de niveles (o de pares de valores) en dos variables.
Tabla de la distribucin bivariante con las frecuencias conjuntas absolutas
Y
X B
1
B
2
. B
j
B
r
Total
A
1 11
f
12
f .
1 j
f
.
1r
f
1
f

A
2 21
f
22
f .
2 j
f .
2r
f
2
f

.. . .. . . .
A
i 1 i
f
2 i
f .
i j
f .
ir
f
i
f

. . . . .
A
k 1 k
f
2 k
f
. kj
f .
kr
f
k
f

Total
1
f
2
f

.
j
f

.
r
f

n
donde:
ij
f , es el nmero de elementos con las modalidades A
i
y
Bj, denominadas frecuencias absolutas conjuntas,
i
f

, es el nmero de elementos con la modalidad A
i
deno-
minada i-sima frecuencia marginal,
j
f

, es el nmero de elementos con la modalidad Bj denomi-
nada j-sima frecuencia marginal,
Eligiendo X como variable fila e Y como variable columna,
se cumplen las siguientes propiedades:
1
k
ij j
i
f f

,
1
r
ij i
j
f f

(4.1)
04_cap4.p65 31/03/2006, 02:37 p.m. 194
195
1 1 1 1
.
k r k r
ij i j
i j i j
n
f f f




Al dividir las frecuencias absolutas conjuntas entre el nmero
total de observaciones se obtienen las frecuencias relativas conjun-
tas
ij
h correspondiente a las modalidades Ai y Bj, y las correspon-
dientes frecuencias relativas marginales; . i h y .j h , las que se pre-
sentan en la siguiente tabla de frecuencias relativas bidimensional.
Tabla de la distribucin bivariante con las frecuencias conjuntas relativas:
Y
X B
1
B
2
. B
j
B
r
Total
A
1
11
h 12
h .
1 j
h
.
1r
h
1
h

A
2 21
h
22
h .
2 j
h
.
2r
h
2
h

.. . .. . . .
A
i 1 i
h
2 i
h
.
ij
h
.
ir
h
i
h

. . . . . .
A
k
1 k
h
2 k
h
.
kj
h .
kr
h
k
h

Total
1
h

2
h

.
j
h

.
r
h
n
donde:
.
ij
ij
f
h
n

Asimismo, al dividir las frecuencias absolutas marginales


entre el nmero total de observaciones se obtienen las frecuencias
relativas marginales

j
i
j
i
f
f
h h
n n

(4.2)
A continuacin se presentan algunos ejemplos para ilustrar el
tema.
04_cap4.p65 31/03/2006, 02:37 p.m. 195
196
Ejemplo 1
Tomemos una pequea sub muestra de los datos presentados en
la base de DATOS3-educacin para las variables sexo y estado
civil de los participantes en el programa de capacitacin. Se
tabular la informacin en una tabla de doble entrada donde la
variable sexo est representada en las filas y el estado civil en las
columnas.
Sexo Estado Sexo Estado Sexo Estado Sexo Estado
civil civil civil civil
Femenino Soltero Femenino Soltero Femenino Soltero Femenino Soltero
Femenino Soltero Masculino Soltero Masculino Casado Masculino Casado
Masculino Soltero Masculino Soltero Femenino Casado Femenino Casado
Femenino Casado Femenino Casado Masculino Soltero Masculino Soltero
Masculino Soltero Femenino Soltero Femenino Casado Masculino Soltero
Masculino Soltero Femenino Soltero Femenino Casado Masculino Soltero
Solucin
Slo con fines didcticos no hacemos uso del SPSS y contamos el
nmero de veces que se repite la categora Ai de la variable sexo y
el nmero de veces que se repite la categora B
j
de la variable estado
civil. As, para A1=femenino, A2=masculino, B1=soltero, B2=casado
se tiene: f22=2, es decir, son 2 estudiantes del sexo masculino y
casados; f12=6, es decir, son 6 estudiantes del sexo femenino y casa-
dos. En el siguiente cuadro se presentan las frecuencias conjuntas.
Cuadro 1:
Distribucin de los participantes segn sexo y estado civil,
en el Programa de Capacitacin de la FCM-UNMSM Lima - 2004
Sexo Estado civil Total
Soltero Casado
Femenino 7 6 13
Masculino 9 2 11
Total 16 8 24
Fuente: submuestra de la base de DATOS3-educacin
Son 7 docentes solteras y 6 casadas del sexo femenino. De los
estudiantes del sexo masculino 9 son solteros y 2 son casados.
04_cap4.p65 31/03/2006, 02:37 p.m. 196
19
Ejemplo 2
Con la base DATOS2-matemticas y usando los comandos del
captulo VII se presentarn las frecuencias absolutas en la tabla de
doble entrada entre la variable sexo como fila y escuelas profesio-
nales como variable columna.
Solucin
Se encuentran las siguientes frecuencias absolutas conjuntas en
la tabla bidimensional proporcionada por el SPSS:
sexo de los estudiantes* escuelas acadmico profesionales- FACULTAD DE
MATEMATICAS
Crosstabulation
Count
escuelas acadmico profesionales-
FACULTAD DE MATEMATICAS
matematica estadstica investigacin Total
operativa
sexo de los FEMENINO 21 33 47 101
estudiantes-
FACULTAD DE MASCULINO 37 35 27 99
MATEMATICAS
Total 58 68 74 200
resultados que editados en el procesador de texto Word se
presentan en el cuadro 2.
Cuadro 2: Distribucin de los estudiantes de la Facultad de Ciencias
Matemticas segn sexo y escuelas profesionales.
Censo universitario- UNMSM. Lima-2002
Escuelas Acadmico-Profesionales
Sexo Matemtica Estadstica Investigacin Total
Operativa
Femenino 21 33 47 101
Masculino 37 35 27 99
Total 58 68 74 200
Fuente: Base de DATOS2-matemticas
Se observa que 21 estudiantes del sexo femenino y 37 del sexo
masculino estudian matemticas; 33 estudiantes del sexo femeni-
no y 35 del sexo masculino estudian estadstica; 47 estudiantes del
sexo femenino y 27 del sexo masculino estudian investigacin
operativa.
04_cap4.p65 31/03/2006, 02:37 p.m. 197
198
Ejemplo 3
Usando la base de DATOS2-matemticas se obtienen los porcen-
tajes de la tabla de doble entrada considerando escuelas profesio-
nales como variable columna y sexo como variable fila.
Solucin
Usando los comandos del captulo VII se encuentran las frecuen-
cias relativas conjuntas multiplicas por 100, es decir los porcenta-
jes conjuntos presentados en la siguiente tabla bidimensional:
sexo de los estudiantes* escuelas acadmico profesionales- FACULTAD DE
MATEMTICAS Crosstabulation
% of Total
escuelas acadmico profesionales-
FACULTAD DE MATEMTICAS
matematica estadstica investigacin Total
operativa
sexo de los Femenino 10,5% 16,5% 23,5% 50,5%
estudiantes-
FACULTAD DE Masculino 18,5% 17,5% 13,5% 49,5%
MATEMTICAS
Total 29,0% 34,0% 37,0% 100,0%
Fuente: Base de DATOS2-matemticas
que editado en el Word se presenta en el siguiente cuadro.
Cuadro 3: Porcentaje de estudiantes de la Facultad de Ciencias Matemti-
cas segn sexo y escuelas profesionales. Censo Universitario- Lima 2002
Escuelas Acadmico-Profesionales
Sexo Matemtica Estadstica Investigacin Total
Operativa
Femenino 10, 5 16, 5 23, 5 50, 5
Masculino 18, 5 17, 5 13, 5 49, 5
Total 29, 0 34, 0 37, 0 100,0
Fuente: Base de DATOS2-matemticas
Tablas bidimensionales para una variable cualitativa y
una variable discreta
La tabulacin de una variable cualitativa y otra variable cuantita-
tiva discreta se realiza siguiendo la misma metodologa que en el
caso de dos variables cualitativas, considerando los comandos del
04_cap4.p65 31/03/2006, 02:37 p.m. 198
199
captulo VII. Luego, directamente se obtendrn las frecuencias ab-
solutas o frecuencias relativas conjuntas, lo que se ilustra con la
base de DATOS4-ciudadana.
Ejemplo 4
Para la base de DATOS4-ciudadana y usando el SPSS se encuen-
tra la tabla de doble entrada con las frecuencias absolutas conjun-
tas para las variables, lugar de procedencia y el nmero de organi-
zaciones sociales a la que pertenecen los ciudadanos.
En el marco del curso de Herramientas de Analisis Cuantitati-
vo de la maestra en Poltica Social, un grupo de maestristas, se
interes en encontrar los factores que posibilitan y/o impiden la
participacin ciudadana en el marco del desarrollo local. El estu-
dio se desarroll en los distritos rurales Limatambo (Cuzco), Lu-
ricocha (Ayacucho), Izcuchaca (Huancavelica) y Vilca (Huan-
cavelica), en las que se evaluaron algunas variables tales como el
nmero de organizaciones sociales a la que pertenecen los pobla-
dores de cada una de dichas zonas rurales. Usando los comandos
del SPSS presentados en el captulo VII se encuentra la siguiente
tabla bidimensional.
DISTRITOS DE LA ENCUESTA * NMERO ORGANIZACIONES SOCIA-
LES A LAS QUE PERTENECE Crosstabulation
Count
NMERO ORGANIZACIONES
SOCIALES A LAS QUE
PERTENECE
0 1 2 Total
Distritos de Limatambo
La Encuesta Luricocha 7 17 1 25
0 8 17 25
Izcuchaca 8 13 4 25
Vilca 9 9 7 25
Total 24 47 29 100
que editado en el Word se presentan en el cuadro 4.
04_cap4.p65 31/03/2006, 02:37 p.m. 199
200
Cuadro 4: Pobladores segn nmero organizaciones sociales a las que per-
tenecen y el distrito de procedencia. Zonas rurales de Cuzco, Ayacucho y
Huancavelica. Lima- 2003
Distrito Nmero organizaciones sociales Total
0 1 2
Limatambo 7 17 1 25
Luricocha 0 8 17 25
Izcuchaca 8 13 4 25
Vilca 9 9 7 25
Total 24 47 29 100
Fuente: Base de DATOS4-ciudadana
Por ejemplo, pertenecen a una organizacin social: 17 pobla-
dores de Limatambo, 8 de Luricocha, 13 de Izcuchaca y 9 de Vilca.
Pertenecen a dos organizaciones sociales: 1 poblador de Limatam-
bo, 17 de Luricocha 4 de Izcuchaca y 7 de Vilca.
Tablas bidimensionales para variables cuantitativas
Cuando se desea construir la tabla de frecuencias para dos variables
de naturaleza cuantitativa, se hace necesario de acuerdo con el inters
del investigador plantear previamente los intervalos de clase. Se re-
presentan con A
i
y B
j
los correspondientes intervalos y la estructura
de las frecuencias absolutas y relativas conjuntas son similares a la ya
presentada para el caso de dos variables cualitativas. Con un conjun-
to de datos reales se ilustra en detalle la metodologa.
Ejemplo 5
De la base de DATOS1-maestra se seleccionan las variables coefi-
ciente de inteligencia y nota de ingreso a la maestra y construire-
mos una tabla bidimensional con las frecuencias absolutas.
As, supongamos que se desea presentar los coeficientes de
inteligencia en dos intervalos. En el primer intervalo los coeficien-
tes de inteligencia inferiores a 102 puntos y el resto en el segundo
intervalo.
04_cap4.p65 31/03/2006, 02:37 p.m. 200
201
De igual manera, la variable notas de ingreso a la maestra se
desea presentarla en tres intervalos [ ] 45 - 55 , [ ] 56 - 66 y
[ ] 67 - 77 .
Solucin
a) Para la variable coeficiente de inteligencia:
x
min
= 93 puntos x
mx
= 120 puntos
Se crea el intervalo 1 donde se colocan los puntajes inferiores
a 102, y se rotulan como coeficientes de inteligencia medios. En el
intervalo 2 se colocan los puntajes mayores o iguales a 102 y se
rotulan como coeficientes de inteligencia altos. Se crea la variable
ficticia COEFI1 donde se guardan todos los datos originales eti-
quetados de acuerdo con la clasificacin mencionada. Por ejem-
plo, el coeficiente de inteligencia 100 de un maestrista se etiqueta
como coeficiente de inteligencia medio.
b) Para la variable nota de ingreso a la maestra:
x
min
= 45 puntos x
mx
= 77 puntos
Se crea el intervalo 1, se colocan los puntajes [ ] 45 - 55 y se
rotulan como notas de ingreso bajas. En el intervalo 2 se colocan
los puntajes [ ] 56 - 66 y se rotulan como notas de ingreso medias.
En el intervalo 3 se colocan los puntajes [ ] 67 - 77 y se rotulan
como notas de ingreso altas. Se crea la variable ficticia INGRE1
donde se guardan todos los datos originales segn los tres inter-
valos descritos. Por ejemplo, la nota de ingreso 46 se etiqueta como
baja, mientras que la nota de ingreso 59 como media y la nota de
ingreso 71 se etiqueta como alta.
c) Se usan los comandos del captulo VII para construir la tabla
bidimensional con las variables ficticias: COEFI1 e INGRE1 y como
respuesta se tiene la siguiente tabla bidimensional con las frecuen-
cias conjuntas.
ingre1 * coefi1 Crosstabulation
coefi1
medio alto Total
ingre1 baja 7 3 10
media 17 17 34
alta 18 8 26
Total 42 28 70
04_cap4.p65 31/03/2006, 02:37 p.m. 201
202
que luego de ser editado en el Word se presenta en el siguien-
te cuadro.
Cuadro 5: Distribucin de los estudiantes de maestra segn notas de
ingreso a la maestra y coeficientes de inteligencia
Notas de Coeficiente de Total
Ingreso inteligencia
Medio Alto
Bajas 7 3 10
Medias 17 17 34
Altas 18 8 26
Total 42 28 70
As, se tiene que 7 estudiantes con coeficiente de inteligencia
medio y 3 con coeficiente de inteligencia alto ingresaron con notas
bajas a la maestra; 18 estudiantes con coeficiente de inteligencia
medio y 8 estudiantes con coeficientes de inteligencia alto ingresa-
ron con notas altas.
Representaciones graficas de datos tabulados en tablas de
contingencia bidimensionales
La informacin contenida en una tabla estadstica de doble entra-
da tambin puede presentarse grficamente. Dichas representa-
ciones grficas se ilustran tomando como referencia la informa-
cin presentada en los cuadros de la seccin 4.2.
Dos variables cualitativas
Usando los comandos del SPSS descritos en el captulo VII y la
base de DATOS2-matemticas, se obtiene el siguiente grfico que
corresponde al cuadro 2.
04_cap4.p65 31/03/2006, 02:37 p.m. 202
203
Figura 1:
Nmero de estudiantes segn sexo por escuelas profesionales

FE M ENI NO M AS CULI NO
- sexo de los estu diant es FACULTAD DE MAT EMATI CAS

0
10
20
30
40
50
Nmero

es cu el as
ac ad mic o
pr ofesi on al

mate mt ica s

es tads tic a

investi gaci n

op er at iva

Asimismo, usando los mismos comando pero si se selecciona
como variable fila la escuela acadmico profesional y como varia-
ble columna la variable sexo se obtiene el siguiente grfico.
Figura 2: Estudiantes segn escuelas profesionales por sexo
matemat icas estad st ica investiga cin
oper ativa
escuelas acadmico profesionales- FACULTAD DE MATEMATICAS

0
10
20
30
40
50
Nmero
se xo d e los
e st ud ia nt es

F EMENI NO
M AS CUL INO
Una variable cualitativa y una variable cuantitativa
discreta
Para hacer la representacin grfica se procede con la misma meto-
dologa que para el caso de dos variables cualitativas. As, usando
04_cap4.p65 31/03/2006, 02:37 p.m. 203
204
los comandos del captulo VII se obtienen los grficos asociados al
cuadro 4.
a) Cuando en CATEGORY AXIS se selecciona la procedencia
de los ciudadanos se tiene el siguiente grfico.
Figura 3
LI MATA M BO LU RIC OC HA IZ CUC HA CA VI LCA
DISTRI TOS DE LA ENCUESTA
0

5

10

15

20

Nmero

N M ER O
O R G AN I Z A C I O N E S
S OC I A L ES A L A S

Q U E P ER T E NE CE

0

1

2

b) Cuando en CATEGORY AXIS se selecciona el nmero de
organizaciones sociales se tiene el siguiente grfico.
Figura 4

0 1 2
NMERO ORGANIZACIONES SOCIALES A LAS QUE PERTENECE

0
5
10
15
20

Nmero

D I S T R IT O S D E L A
E N C U E S TA

L I M A TA M B O

L U R I C O C H A

I Z C U CH A C A

V I L C A

04_cap4.p65 31/03/2006, 02:37 p.m. 204
205
Dos variables cuantitativas categorizadas
Para hacer el grfico asociado al cuadro 5 para las variables nota
de ingreso a la maestra y coeficiente de inteligencia, tenemos que
pedir el grfico para las variables ficticias COEFI1 e INGRE1 como
si se tratasen de variables cualitativas.
As por ejemplo, si se usan los comandos del captulo VII y la
base DATOS1-maestra, el SPSS nos proporciona los siguientes
grficos.
a) Si COEFI1 es la variable ficticia seleccionada en CATEGORY
AXIS, el grfico es el siguiente
Figura 5
medio alto
COEFI1
0
5
1 0

1 5

2 0
Nmero

INGRE1
baja
media
al ta
b) Si INGRE1 es la variable seleccionada en CATEGORY AXIS,
se tiene el siguiente grfico:
04_cap4.p65 31/03/2006, 02:37 p.m. 205
206
Figura 6
baja media alta
ingre1
0
5
10
15
20
Nmero

i nteli 1
medio
alto
Cabe indicar que, siguiendo los mismos pasos, se pueden ela-
borar todas las tablas de doble entrada que sean de inters para el
investigador, a partir de las cuales se puede estudiar la asociacin
entre las variables involucradas.
Medidas de asociacin
I ntroduccin
En este captulo se hace la presentacin de las relaciones entre dos
variables, tema que suscita inters en muchos investigadores de
diversas reas del conocimiento humano, en particular en investi-
gadores del campo educativo y social.
Algunas preguntas que se hacen investigadores del campo
social y educativo son, por ejemplo: Existe asociacin entre el co-
eficiente de inteligencia y el rendimiento acadmico de los estu-
diantes? Existe asociacin entre los ingresos de los docentes y sus
gastos en educacin? Estn asociados el sexo y el rendimiento
acadmico? Existe asociacin entre el mtodo de enseanza y el
rendimiento acadmico? Existe asociacin entre el lugar de pro-
cedencia de los participantes en un programa de capacitacin y el
sexo? Existe asociacin entre el nmero de organizaciones socia-
les y el distrito de procedencia de los pobladores de zonas rurales?
04_cap4.p65 31/03/2006, 02:37 p.m. 206
20
Algunas de dichas inquietudes sern respondidas en el presente
captulo mediante la presentacin de algunos coeficientes de aso-
ciacin. Cabe indicar que el coeficiente de correlacin de Pearson
ser abordado junto con el anlisis de regresin en el captulo 5.
En todos los casos vamos a suponer que se tienen los valores
observados de las variables para una muestra de tamao n.
Coeficiente de correlacin PHI
Cuando se desea estudiar la asociacin entre dos variables de na-
turaleza cualitativas dicotmicas se recomienda obtener el coefi-
ciente de correlacin Phi. Por ejemplo, si se desea estudiar la aso-
ciacin entre las variables estado civil dicotomizada y desercin
de los estudiantes de maestra; o la asociacin entre el sexo de los
estudiantes y su opinin respecto a la reeleccin del Decano de su
Facultad.
A continuacin, se hace la presentacin resumida de la meto-
dologa para obtener el valor del coeficiente.
Se definen:
X : variable dicotmica con valores 0 y 1,
Y
: variable dicotmica con valores 0 y 1,
x
p : proporcin de puntuaciones 1 en la variable X ,
x
q : proporcin de puntuaciones 0 en la variable X ,
y
p : proporcin de puntuaciones 1 en la variable
Y
,
y
q : proporcin de puntuaciones 0 en la variable
Y
,
xy
p : proporcin de puntuaciones 1 tanto en la variable X
como en la variable
Y
.
Luego, el coeficiente de correlacin Phi, , se calcula de la
siguiente manera:
.
xy x y
x x y y
p p p
p q p q

(4.3)
Cuando los datos estn tabulados en una tabla de contingen-
cia (tabla que muestra la ocurrencia conjunta de pares de puntua-
ciones en dos variables), puede calcularse mediante la siguien-
te metodologa:
04_cap4.p65 31/03/2006, 02:37 p.m. 207
208
Variable X
Variable Y 0 1 Total
1 a b a + b
0 c d c + d
Total a + c b + d n
.
( )( )( )( )
bc ad
a c b d a b c d

+ + + +
Este coeficiente tomar el valor 1 solamente cuando (a+b) y (c+d)
son iguales (consecuentemente a=d) en una tabla de contingencia
de dos por dos; es decir, cuando la proporcin de unos es la mis-
ma en X y en Y . Entonces, Y no puede predecirse perfectamente a
partir de X , por lo que algunos profesionales en estadstica consi-
deran este hecho como una desventaja del coeficiente Phi.
Ejemplo 6
Se ha observado que los estudiantes que inician sus estudios de
Maestra presentan mucha dificultad en el primer semestre, por lo
que algunos de ellos abandonan sus estudios. Al respecto se reali-
z un estudio con 15 estudiantes de la maestra en Poltica Social
que se matricularon en el semestre 2004-II y que abandonaron el
curso de herramientas de anlisis cuantitativo, cuyos resultados
se presentan a continuacin. Se desea averiguar si existe asocia-
cin entre el estado civil y la permanencia en el curso de herra-
mientas de anlisis cuantitativo, para lo que encontraremos el co-
eficiente de correlacin Phi.
X : estado civil 1: no casado 0: casado
Y : permanencia 0: abandona el curso
1: permanece en el curso hasta el final
Estudiante Estado civil (X) Permanencia (Y)
1 0 0
2 1 1
3 0 1
4 0 0
5 1 1
6 1 0
7 0 0
8 1 1
9 0 0
10 0 1
11 0 0
12 1 1
13 0 0
14 0 0
15 0 0
04_cap4.p65 31/03/2006, 02:37 p.m. 208
209
Solucin
La informacin anterior se resume en el siguiente cuadro:
Y X Total
0 1
Casado Soltero
1(permanece) 2 4 6
0 (abandona) 8 1 9
Total 10 5 15
y se calculan las respectivas proporciones:
10
0, 6667
15
x
q

6
0, 4
15
y
p

5
0, 3333
15
x
p

4
0, 2667
15
xy
p

9
0, 6
15
y
q

que se reemplazan en la frmula:
( )( )( )( )
0, 2667 (0, 3333)(0, 4)
0, 58.
0, 3333 0, 6667 0, 4 0, 6



Luego, el coeficiente de correlacin Phi entre estado civil y
desercin de los estudiantes es 0,58, evidenciando moderada aso-
ciacin entre las variables.
Ejemplo 7
Vamos a resolver el problema anterior usando el SPSS.
Solucin
Para resolver el problema usando SPSS se ha creado la base de
datos DATOS8-phi y, ejecutando los comandos del captulo VII, se
obtienen la tabla de contingencia y el valor del coeficiente Phi.
04_cap4.p65 31/03/2006, 02:37 p.m. 209
210
DESERCION * ESTADO CIVIL Crosstabulation
Count
8 1 9
2 4 6
10 5 15
0
1
DESERCION
Tot al
0 1
ESTADO CI VIL
Tot al

Symmetric Measures
Value
Nominal by Phi 0,577
Nominal
Obsrvese que el valor del coeficiente Phi coincide con el valor
obtenido aplicando la frmula (4.3).
Coeficiente de correlacin biseral-puntual
Se emplea cuando una variable es de naturaleza cualitativa
dicotmica y la segunda es interval o de razn. Por ejemplo, pode-
mos estar interesados en saber si existe alguna asociacin entre
sexo ( Y ) y estatura de los estudiantes ( X ).
La relacin entre X e Y se puede calcular mediante el coefi-
ciente de Pearson, a partir de los datos tal y como se presentan; el
resultado se denomina coeficiente de correlacin biseral-puntual y
se denota bp
r .
A continuacin se hace la presentacin de la simbologa y de
la metodologa empleada:
Y es una variable dicotmica (1 y 0),
X es una variable continua,
1 X es la media de las puntuaciones en X para los que Y tiene
puntaje 1
0 X es la media de las puntuaciones en X para los que Y tiene
puntaje 0
04_cap4.p65 31/03/2006, 02:37 p.m. 210
211
x s es la desviacin estndar de los valores de la variable X ,
1 n : nmero de unos en la variable Y ,
0 n : nmero de ceros en la variable Y .
Luego, el coeficiente de correlacin biseral puntual es igual a:
1 0 0 1
(4.4)
( 1)
bP
x
n n
n n
X X
r
s

Ejemplo 8
En la 2.
a
y 3.
a
columna del siguiente cuadro se presentan los datos
del sexo y estatura de 15 nios que realizan deportes todos los fines
de semana en el Parque Zonal Sinchi Roca. Encontraremos el coefi-
ciente de correlacin biseral-puntual entre las variables.
Solucin
Para encontrar el coeficiente de asociacin entre dichas variables
se denota con:
Y : variable sexo con niveles
0: femenino 1: masculino,
X : variable estatura de los adolescentes, en centmetros,
Se crean las variables ficticias, cada una con dos niveles:
0
X , con las estaturas de los adolescentes del sexo femenino, y
1
X ,
con las estaturas de los adolescentes del sexo masculino, las que se
presentan en las columnas 4.
a
y 5.
a
de la siguiente tabla.
Adolescente Y X 0 X 1 X
1 1 69 - 69
2 0 67 67 -
3 1 73 - 73
4 1 65 - 65
5 0 55 55 -
6 1 72 - 72
7 0 62 62 -
8 0 60 60 -
9 1 64 - 64
10 1 66 - 66
11 1 63 - 63
12 0 61 61 -
13 1 62 - 62
14 0 63 63 -
15 0 60 60 -
04_cap4.p65 31/03/2006, 02:37 p.m. 211
212
Se realizan los clculos auxiliares, para luego calcular el co-
eficiente de correlacin biseral- puntual usando la frmula (4.4).
1 0
8 7 4, 749
x
n n S
1
69 73 65 72 64 66 63 62
66, 75
8
X
+ + + + + + +

0
67 55 62 60 61 63 60
61,14
7
X
+ + + + + +

66, 75 61,14 (7)(8)
0, 61.
4, 749 15(14)
bP r


Ejemplo 9
Si se quiere resolver el ejemplo anterior usando comandos del SPSS
no se puede encontrar la solucin directamente, pues el SPSS slo
nos proporciona los clculos auxiliares que luego se reemplazan
en la frmula (4.4).
Solucin
Se siguen los siguientes pasos:
Crear (o abrir) el archivo, en este caso vamos a ilustrar con las
variables X e Y de la base de DATOS9-puntual.
Crear la variable ficticia
0
X , donde se guardan las estaturas
de los estudiantes del sexo femenino.
Crear la variable ficticia
1
X , donde se guardan las estaturas
de los estudiantes del sexo masculino.
Calcular las medias aritmticas de
0
X ,
1
X y la desviacin
estndar de X ; para lo que deber seguir los comandos del cap-
tulo VII (procedimientos estadsticos).
A continuacin se presenta el output del SPSS:
Estatura de
los estudiantes 0 X 1 X
n 15 7 8
Mean 64,13 61,1429 66, 7500
Std. Deviation 4,749
valores que se reemplazan en la frmula y se encuentra que el
valor del coeficiente es 0,61.
En promedio, los jvenes son ms altos que las seoritas, pero
la relacin entre sexo y altura es moderada.
04_cap4.p65 31/03/2006, 02:37 p.m. 212
213
Coeficiente de correlacin tetracrico
Este tipo de coeficiente es recomendable en situaciones donde dos
variables cuantitativas de naturaleza subyacente normal, han sido
dicotomizadas. As, por ejemplo, el autor de una pregunta que mide
la capacidad de razonamiento matemtico de los estudiantes de
quinto ao de secundaria considera que es una variable normal-
mente distribuida; pero el tem slo permitir identificar al grupo
que responda correctamente, al que se le asigna puntuacin 1 y al
grupo que responda incorrectamente, al que se le asigna puntua-
cin 0.
Por otro lado, suponga que las estaturas de 1 000 estudiantes
se distribuyen normalmente, pero el entrenador asigna puntaje 1 a
los que tienen estatura de 1,50 m o superior y le asigna puntaje 0 a
los que tienen estatura inferior a 1,50 m.
A continuacin se presenta la metodologa para obtener el
coeficiente tetracrico.
Sean:
X : variable con distribucin normal dicotomizada segn el
siguiente criterio:
X =
1 estatura > 1,50 m
0 estatura < 1,50 m
Y : variable con distribucin normal dicotomizada segn el
siguiente criterio:
Y =
1 respuesta correcta
0 respuesta incorrecta,
niveles que se resumen en la siguiente estructura de tabla
bidimensional:
tem Y tem X
0 1
1 a b
0 c d
A partir de la tabla anterior, se calcula el cociente


b c
a d
y, con
el valor obtenido, se va a la tabla A presentada en el apndice 2.

'

'

04_cap4.p65 31/03/2006, 02:37 p.m. 213


214
Si la proporcin


b c
a d
es mayor que 1, de la tabla A se obtiene
directamente el valor del coeficiente tetracrico, en la columna
t
r , siendo el valor positivo. (4.5)
Si la proporcin


b c
a d
es menor que 1, en la tabla A se lee la
columna (ad)/(bc) y el valor
t
r del coeficiente tetracrico ser
negativo.
Ejemplo 10
A un grupo de 50 estudiantes se les evala con dos tems de apti-
tud matemtica y se asigna 1 a la respuesta correcta y 0 a la res-
puesta incorrecta. Si se denota con X el primer tem y con Y el
segundo tem, los resultados se presentan en la siguiente tabla
bidimensional. Encontraremos el coeficiente de correlacin
tetracrico.
Solucin
Para encontrar el valor del coeficiente de correlacin tetracrico,
primero se obtiene la tabla bidimensional.
tem2(Y) tem1(X) Total
0 1
1 4 19 2
0 21 6 27
Total 25 25 50
Luego, en la tabla anterior se identifica a=4, b=19, c=21 y d=6
y se encuentra el valor de


b c
a d
=16,625. Con dicho valor se va a la
tabla A.
El valor de


b c
a d
es mayor que 1, y al usar la tabla A para la
proporcin anterior, el valor aproximado del coeficiente de corre-
lacin tetracrico es 0,81. Es decir:
04_cap4.p65 31/03/2006, 02:37 p.m. 214
215
16, 625 0, 81
t
bc
r
ad
>
Dicho valor indica que existe muy buena relacin entre las
respuestas a las dos preguntas.
Ejemplo 11
Suponga que para una determinada tabla de contingencia 2x2,
a=62, b=20, c=10, d=24 y se desea obtener el valor del coeficiente de
correlacin tetracrico.
Solucin
Como


b c
a d
= 0,1344, para encontrar el valor del coeficiente se con-
sulta la tabla A bajo los valores de la columna
7, 44
ad
bc

. Se
encuentra que el valor del coeficiente de correlacin tetracrico es
negativo,
t
r = -0,67.
Debe prevenirse al lector de la posibilidad de cometer serios
errores. No debe emplearse el mtodo si
o
a b b d
n n
+ +
se apartan
considerablemente de 0,5. Si
o
a b b d
n n
+ +
son mayores que 0,7
o menores que 0,3, tampoco debera utilizarse la tabla A y, en su
lugar, deberan emplearse las tablas de Jenkins.
Cuando las distribuciones subyacentes son normales, sola-
mente esta propiedad confiere superioridad al coeficiente
t
r sobre
el coeficiente Phi como medida de asociacin.
Ejemplo 12
Dos cursos de mucha importancia para los estudiantes de las Maes-
tra en Educacin son los cursos de Estadstica y Metodologa de la
Investigacin. En la base de DATOS10-tetracrico se presentan los
datos para una muestra de 99 estudiantes matriculados en el se-
mestre acadmico 2003-II.
04_cap4.p65 31/03/2006, 02:37 p.m. 215
216
Sean:
Y es el rendimiento en estadstica:
0 : desaprob con notas inferiores a 11,
1 : aprob con notas de 11 o ms.
X : es el rendimiento en metodologa de la investigacin:
0 : desaprob con notas inferiores a 11,
1 : aprob con notas de 11 o ms.
Encontraremos el coeficiente de correlacin tetracrico.
Solucin
Si deseamos encontrar el coeficiente de correlacin tetracrico para
las variables de la base de DATOS10-tetracrico, observamos que
son 99 estudiantes, cuyas notas de los cursos de estadstica y meto-
dologa de la investigacin han sido dicotomizadas, pues los pro-
fesores calificaron con aprobado o desaprobado. Denotamos de la
siguiente manera:
Y : notas en el curso de estadstica-dicotimizadas,
0 : desaprob con notas inferiores a 11,
1 : aprob con notas de 11 o ms.
X : notas en el curso de metodologa de la investigacin-
dicotomizadas,
0 : desaprob con notas inferiores a 11,
1 : aprob con notas de 11 o ms.
Luego, se usan los comandos del captulo VII y se tiene la si-
guiente tabla bidimensional:
Notas de Estadstica * Notas de Metodologa de la Investigacin
Crosstabulation
Notas de Metodologa de la Investigacin
Desaprob Aprob Total
Notas de Aprob a=11 b=36 47
Estadstica Desaprob c=34 d=18 52
Total 45 54 99
y a partir de esa informacin se calcula el valor de


b c
a d
= 6,18.
En la tabla A, al valor 6,18 de


b c
a d
le corresponde el valor
t
r =0,62 para el coeficiente tetracrico. Es decir, el valor del coefi-
ciente de correlacin tetracrico es 0,62, indicando una moderada
asociacin entre las variables.
04_cap4.p65 31/03/2006, 02:37 p.m. 216
21
Coeficiente de correlacin biseral
El coeficiente de correlacin biseral se usa en situaciones donde se
tienen dos variables con distribuciones normales subyacentes,
donde una de ellas ha sido dicotomizada.
Estamos en una situacin similar a la del coeficiente tetracrico,
donde ambas variables eran dicotmicas con distribuciones nor-
males subyacentes.
Una de las situaciones donde se puede obtener el coeficiente
de correlacin biseral es la siguiente: Un profesor desea relacionar
el tiempo que los estudiantes emplean en resolver un problema
( X ) y la habilidad que tiene para resolver dicho problema ( Y ).
El profesor anota el tiempo ( X ) que cada estudiante demora
en resolver el problema, pero la variable Y no la calific con una
nota en la escala vigesimal o cualquier otra, slo anot:
1, si tuvo habilidad para llegar a la solucin correcta
0, si no tuvo habilidad para llegar a la solucin correcta
A continuacin se presenta la metodologa.
Sean las variables continuas Y dicotomizada (1 y 0) y X
tambin dicotomizada (0 y 1).
Calcular:
0 X : la media de las puntuaciones en X para los que en Y
tienen puntaje 0
1 X: la media de las puntuaciones en X para los que en Y tienen
puntaje 1,
X
s : la desviacin estndar de la variable X
1
n : nmero de unos en Y
0
n : nmero de ceros en Y
Usar la tabla B para obtener:
u : ordenada (es decir, la altura) de la distribucin normal
estndar, en el punto a partir del cual se obtiene el porcentaje
100
1
0 1
n
n n
_

+
,
del rea bajo la curva normal, donde
0 1
n n n + .
04_cap4.p65 31/03/2006, 02:37 p.m. 217
218
Luego el coeficiente de correlacin biseral es igual a:
1 0 0 1
2



b
X
n n
s
u n n n
X X
r

_

,
(4.6)
Este coeficiente puede ser menor que 1 y mayor que +1. Estos
valores extremos indican que no era cierto que las puntuaciones
X categorizadas tuvieran distribucin normal subyacente, o tam-
bin puede indicar fluctuaciones de muestreo cuando n es peque-
o y produce una distribucin de X marcadamente platicrtica.
Ejemplo 13
Los datos que se presentan en la siguiente tabla corresponden al
tiempo que los alumnos invierten en resolver una pregunta de
matemticas ( X ) y la habilidad que tienen para llegar a la solu-
cin ( Y ). Encontraremos el coeficiente de correlacin biseral.
Alumno Tiempo(X) Nota en la prueba(Y)
1 16 1
2 12 0
3 11 0
4 7 1
5 15 1
6 14 1
7 10 0
8 11 0
9 15 1
10 9 0
11 13 1
12 7 0
13 13 1
14 11 1
15 10 0
16 11 1
17 10 1
18 11 1
Solucin
Sean:
X : tiempo que demor en resolver la pregunta, en minutos,
Y =1 solucin correcta Y =0 solucin incorrecta.
04_cap4.p65 31/03/2006, 02:37 p.m. 218
219
Se crean las variables ficticias X0 y X1, con las notas de los que
resolvieron de manera incorrecta y correcta, respectivamente. Se
calculan la media aritmtica y la desviacin estndar del tiempo
que demoran en resolver la pregunta, sin discriminar si llegaron o
no a la solucin correcta. As:
1 0 1 0
X
11 7 18 12, 36 10
s 2, 55.
n n n X X

Para encontrar el valor de la ordenada de la distribucin nor-


mal se usa la Tabla B del anexo, para lo cual se plantea la siguiente
relacin:
11
( ) 0, 61 0, 3836 ,
18
P Z z u < >
luego, reemplazando en (4.6), se encuentra el valor del coefi-
ciente de correlacin biseral:
2
12,36 10,0 11(7)
0,60
2,55
0,3836 (18) 18 18
b
r
_

,
Ejemplo 14
En el marco del curso de Herramientas de Anlisis Cuantitativo en
la Maestra de Poltica Social, el profesor pidi que los alumnos
resolvieran un problema y observ las siguientes variables:
X: el tiempo que el alumno demora en resolver la prueba,
Y: la habilidad del alumno para resolver el problema (llegar o
no a la solucin correcta).
1 respuesta correcta
0 respuesta incorrecta,
con la finalidad de saber si estn asociadas las variables: el
tiempo que un estudiante demora en resolver una pregunta y la
habilidad que tiene para resolver la pregunta. Los datos se presen-
tan en la base de DATOS11-biseral.
Solucin
Los datos que se presentan en la base de DATOS11-biseral corres-
ponden a una muestra de 99 alumnos del quinto ao de secunda-
04_cap4.p65 31/03/2006, 02:37 p.m. 219
220
ria, con los cuales el profesor desea saber si estn asociadas las
variables: tiempo que un estudiante demora en resolver una pre-
gunta y la habilidad que tiene para resolver el problema. Se denota
con:
X : el tiempo, en minutos, que los alumnos demoran en resol-
ver una pregunta,
Y : la habilidad del alumno para llegar a la solucin. A la so-
lucin correcta el profesor le asign 1 y, a la incorrecta, le
asign 0.
Se abre la base de DATOS11-puntual, con las dos variables
X e Y ,
Se crea la variable X
0
, donde se guardan los tiempos que de-
moran en resolver la pregunta los alumnos que no llegaron a la
solucin correcta.
Se crea la variable X1, donde se guardan los tiempos que de-
moran en resolver la pregunta los alumnos que llegaron a la solu-
cin correcta.
Usando los comandos del captulo VII, se obtiene la media arit-
mtica de X0, X1 y la desviacin estndar de X.
Tiempo para resolver X0 X1
N Valid 99 52 47
Mean 63,54 63, 0113 64, 1310
Std. Deviation 10, 168 10, 58776 9, 76176
1 0 1 0
47 52 64,13 63, 01 n n X X . En la Tabla B
del anexo se encuentra el valor de u ,
47
( ) 0, 4747 0, 3982
99
P Z z u < >
2
64,13 63, 01 47(52)
0, 07
10,168
0, 3982 (99) 99 99
b r
_

,
Finalmente, el valor del coeficiente de correlacin biseral 0,07,
indica que no existe asociacin entre la habilidad del estudiante y
el tiempo que demora para resolver la pregunta.
04_cap4.p65 31/03/2006, 02:37 p.m. 220
221
Ejemplo 15
Si para otro conjunto de estudiantes se llega a la siguiente situa-
cin, encontraremos el valor del coeficiente de correlacin biseral.
Tiempo demorado X
0
X
1
en resolver la pregunta
N Valid 99 67 32
Mean 63,54 68, 9787 52, 1616
Std. Deviation 10,68
Solucin
1 0 1 0
32 67 52,16 68,97 n n X X 10, 68
X
S
1
32
0, 3232.
99
n
n

Luego:
32
( ) 0, 323 0, 3589
99
P Z z u < >
y reemplazando los valores encontrados en la frmula (4.6), el
valor del coeficiente es:
2
52,16 68, 98 32(67) 36062, 08
0, 96,
10, 68 37377, 52
0, 3589 ( 99) 99 99
b r
_

,
valor que indica que existe una buena asociacin entre el tiem-
po que demoran en resolver la prueba y la nota o la habilidad del
estudiante; quienes menos demoran en resolver las preguntas tie-
nen una mejor calificacin.
Coeficiente de correlacin de Spearman
El coeficiente de correlacin producto-momento calculado a partir
de dos series de n posiciones o rangos consecutivos independien-
tes, provenientes de dos variables cuantitativas o cualitativas, que
van de 1 hasta n, se conoce con el nombre de coeficiente de correla-
cin por rangos ordenados de Spearman. En este caso, ambas va-
riables, X e Y, son medidas en la escala ordinal.
04_cap4.p65 31/03/2006, 02:37 p.m. 221
222
Si los datos son cuantitativos, estos pueden convertirse en
rangos o posiciones.
Por ejemplo, la posicin u orden de mrito de los alumnos en
el saln de clase es un ejemplo de conversin de puntuaciones
ordenadas en rangos. Es decir, en un grupo de 50 estudiantes se le
asigna la posicin 1 al que alcanz el ms alto puntaje, posicin 2
al siguiente,..., y posicin 50 al puntaje ms bajo.
Si los datos son cualitativos, tambin se les puede asignar
rangos o posiciones, por ejemplo, los juicios sobre la excelencia de
una declamacin tambin constituyen un ejemplo de agrupamien-
to de posiciones o rangos. 10 estudiantes recitan una poesa y un
juez asigna un 1 a la mejor declamacin, un 2 a la segunda,...,
y 10 a la peor declamacin.
Independientemente de cmo se originaron las puntuaciones
1, 2, 3,.............,(n-1), n; pueden correlacionarse dos series de rangos
para los mismos n individuos.
A continuacin se presenta la metodologa.
Sean:
1
,....,
n
x x : rangos asignados a la variable X,
1
,....,
n
y y : rangos asignados a la variable Y,
n : tamao de muestra o nmero de individuos,
i i
x y : diferencia entre el rango asignado a la variable X
y el rango asignado a la variable Y de la i-sima persona.
Si existen dos o ms valores iguales (valores empatados), los
rangos de cada uno de estos son iguales al promedio de los rangos
que les corresponderan en el caso de que fueran diferentes. As,
por ejemplo, si las edades de los participantes en un programa de
capacitacin docente son las siguientes: 40 41 42 43 43 44 46, los
rangos asignados son: 1; 2; 3; 4,5; 4,5; 6 y 7.
Luego, el coeficiente de correlacin de Spearman se define de
la siguiente manera:
( )
( )
2
2
6
1
1
s
i i
r
n
x y
n


(4.7)
1 1
s
r

04_cap4.p65 31/03/2006, 02:37 p.m. 222
223
Su valor no puede ser menor que 1 ni mayor que 1; alcanza
su mximo valor, 1, cuando los individuos ocupan los mismos
rangos o posiciones tanto en X como en Y.
Este coeficiente es muy til cuando los datos originales son
rangos o posiciones y cuando se emiten juicios para clasificar indi-
viduos o cosas, pero se recomienda que el tamao de muestra sea
superior a 10.
Ejemplo 16
Los siguientes datos corresponden a una muestra aleatoria de 12
estudiantes para quienes un juez asign posiciones o rangos en
base a la hostilidad que manifestaban a su profesor de Metodolo-
ga de la Investigacin y a sus compaeros de clase, es decir, dos
series de rangos. Encontraremos el valor del coeficiente de correla-
cin de Spearman.
Hostilidad al profesor Hostilidad a los compaeros
( )
2
i i
y x

i
x
i
y
2 6 16
8 5 9
12 10 4
3 7 16
1 3 4
6 4 4
7 9 4
10 8 4
4 1 4
9 11 4
11 12 1
5 2 9
Solucin
Sea X : la hostilidad manifestada por el estudiante a su profesor
de matemticas, donde:
1 : es el puntaje asignado al que manifiesta mayor hostili-
dad al profesor,
12 : es el puntaje asignado al que manifiesta menor hostili-
dad al profesor,
Y: la hostilidad manifestada por el estudiante hacia sus com-
paeros, donde:
04_cap4.p65 31/03/2006, 02:37 p.m. 223
224
1 : es el puntaje asignado al que manifiesta mayor hostili-
dad hacia sus compaeros,
12 : es el puntaje asignado al que manifiesta menor hostili-
dad hacia sus compaeros.
En la siguiente tabla se presentan los datos y las correspon-
dientes cuentas:
Estudiante Hostilidad al Hostilidad a los
i i
y x
( )
2
i i
y x
profesor compaeros
i
x
i
y
1 2 6 - 4 16
2 8 5 3 9
3 12 10 2 4
4 3 7 - 4 16
5 1 3 - 2 4
6 6 4 2 4
7 7 9 - 2 4
8 10 8 2 4
9 4 1 2 4
10 9 11 2 4
11 11 12 - 1 1
12 5 2 3 9
Total 84
2
84.
( )
i
i
y
x

Luego, el valor del coeficiente de correlacin de Spearman es:


6(84) 42
1 1 0, 706.
12(144 1) 143
S r

Ejemplo 17
Resolveremos el problema anterior usando las opciones del SPSS.
Solucin
Para resolver el problema anterior usando las opciones del SPSS,
se tiene que abrir la base de DATOS5-juez y ejecutar los comandos
del captulo VII.
El output del SPSS nos da el mismo valor encontrado con la
frmula (4.7):
04_cap4.p65 31/03/2006, 02:37 p.m. 224
225
Hostilidad Hostilidad a
al los
profesor compaeros
Spearman's Hostilidad Correlation
rho al profesor Coefficient 1,000 0,706
valor que indica que existe una asociacin fuerte y directa
entre la hostilidad manifestada hacia el profesor y la que se obser-
va hacia los compaeros, segn la clasificacin del juez.
Ejemplo 18
En la entrevista personal para ingresar a la carrera docente en una
universidad participaron 40 postulantes, quienes fueron califica-
dos por dos miembros del jurado. En la base de DATOS6-jurado se
dispone de la siguiente informacin:
1
X
: puntaje asignado a cada postulante por el miembro 1
del jurado,
2
X
: puntaje asignado a cada postulante por el miembro 2
del jurado,
X : rango que corresponde a las calificaciones del jurado 1,
Y
: rango que corresponde a las calificaciones del jurado 2.
Encontraremos el valor del coeficiente de correlacin de
Spearman.
Solucin
Se usan los comandos del SPSS presentados en el captulo VII y el
output nos proporciona el valor 0,332 para el coeficiente de corre-
lacin de Spearman, resultando pobre la relacin entre los puntajes
asignados por los miembros del jurado.
RANGO DEL RANGO DEL
JURADO 1 JURADO 2
Spearman's RANGO DEL Correlation 1,000 0,332
rho JURADO 1 Coefficient
RANGO DEL Correlation 0,332 1,000
JURADO 2 Coefficient
04_cap4.p65 31/03/2006, 02:37 p.m. 225
226
Coeficiente de contingencia
En tablas bidimensionales para dos variables cualitativas se cal-
cula el coeficiente de contingencia, que mide la relacin entre las
dos variables. Como se ver, este ndice est en funcin de la esta-
dstica ji-cuadrado,
2
, ampliamente usada por los investigado-
res de las ciencias sociales, pero cuya interpretacin a veces reviste
dificultades, porque no existe un valor de comparacin y puede
tomar cualquier valor positivo, mientras que el valor del coeficien-
te de contingencia oscila entre 0 y 1.
A continuacin se presenta la metodologa.
Para la presentacin general de una tabla de contingencia para
dos variables cualitativas se tiene:
n : tamao de la muestra,
ij
f : frecuencia absoluta conjunta que corresponde al i-simo
nivel de la variable fila y al j-simo nivel de la variable
columna,
ij
e : la frecuencia esperada conjunta que corresponde al i-
simo nivel de la variable fila y al j-simo nivel de la varia-
ble columna, que se calcula con la siguiente frmula,
i j
ij
f f
n
e

y el valor de la estadstica ji-cuadrado:


( )
2
2
1 1
r k
j i
ij ij
ij
f e
e

(4.8)
Finalmente, se define el coeficiente de contingencia como:
2
2
C
n

+
(4.9)
cuyo valor oscila entre 0 y 1.
04_cap4.p65 31/03/2006, 02:37 p.m. 226
22
Ejemplo 19
Encontraremos el coeficiente de contingencia para los datos pre-
sentados en el cuadro 2.
Solucin
Para encontrar el coeficiente de contingencia entre sexo y escuela
acadmico profesional del cuadro 2, se procede de la siguiente
manera:
a) Se encuentran las frecuencias observadas:
11
21 f

12
33 f

13
47 f

21
37 f
22
35 f

23
27 f
.
b) Se encuentran las frecuencias esperadas con las siguien-
tes frmulas:
1 1
11
101(58)
29, 29
200
f f
e
n


1 2
12
101(68)
34, 34
200
f f
e
n


1 3
13
101(74)
37, 37
200
f f
e
n


2 1
21
99(58)
28, 71
200
f f
e
n


2 2
22
99(68)
33, 66
200
f f
e
n


2 3
23
99(74)
36, 63
200
f f
e
n


c) Se calcula el valor de la estadstica ji-cuadrado:
04_cap4.p65 31/03/2006, 02:37 p.m. 227
228
( )
2
3 2
2
1 1 j i
ij
ij ij
f e
e

( )
2
21 29,29
29,29


+
( )
2
33 34,34
34,34

+
( )
2
47 37,37
37,37

+
( )
2
37 28,71
28,71

+
( )
2
35 33,66
33,66

+
( )
2
27 36,63
36,63

=9,859
d) Finalmente, el valor del coeficiente de contingencia es:
9, 859
0, 047 0, 217
209, 859
C
, valor que indica aso-
ciacin dbil entre el sexo de los estudiantes y la escuela acadmi-
co profesional a la que pertenecen.
Ejemplo 20
Resolver el mismo problema usando los comandos del SPSS. Al
usar dichos comandos, el output del SPSS muestra el siguiente
resultado:
Count
escuelas acadmico profesionales-
FACULTAD DE MATEMATICA
matematica estadstica investigacin Total
operativa
sexo de los Femenino 21 33 47 101
estudiantes-
FACULTAD DE Masculino 37 35 27 99
MATEMATICAS
Total 58 68 74 200
Chi-Square Tests Value
Pearson Chi- 9,859
Square
Symmetric Measures
Value
Nominal by Contingency 0,217
Nominal Coefficient
que coincide con el valor ya encontrado.
04_cap4.p65 31/03/2006, 02:37 p.m. 228
229
Ejercicios
1. Seleccione la base de DATOS1-maestra y:
a) Construya las tablas de doble entrada con las frecuencias
absolutas y relativas para las variables condicin laboral
de los estudiantes y el mtodo con el que estudiaron el cur-
so de estadstica.
b) Interprete algunas frecuencias absolutas y relativas conjun-
tas.
c) Encuentre el coeficiente de contingencia e interprete su va-
lor.
d) Haga las presentaciones grficas.
2. Seleccione la base de DATOS1-maestra y:
a) Construya las tablas de doble entrada con las frecuencias
absolutas y relativas para las variables nmero de hijos y
condicin laboral.
b) Interprete algunas frecuencias absolutas y relativas conjun-
tas.
c) Haga las presentaciones grficas.
3. Seleccione la base de DATOS1-maestra y:
a) Construya las tablas de doble entrada con las frecuencias
absolutas y relativas para las variables notas en los cursos
de estadstica y metodologa de la investigacin. Para cada
variable plantee los intervalos que considere adecuados.
b) Interprete algunas frecuencias absolutas y relativas conjun-
tas.
c) Haga las presentaciones grficas.
4. Seleccione la base de DATOS2-matemticas y:
a) Construya las tablas de doble entrada con las frecuencias
absolutas y relativas para las variables expectativas respecto
a su futuro y escuela profesional.
b) Interprete algunas frecuencias absolutas y relativas conjun-
tas.
c) Encuentre el coeficiente de contingencia.
d) Haga las presentaciones grficas.
04_cap4.p65 31/03/2006, 02:37 p.m. 229
230
5. Seleccione la base de DATOS2-matemticas y:
a) Construya las tablas de doble entrada con las frecuencias
absolutas y relativas para las variables medio de transpor-
te que usan para dirigirse a la universidad y sexo.
b) Interprete algunas frecuencias absolutas y relativas conjun-
tas.
c) Encuentre el coeficiente de contingencia e interprete su va-
lor.
d) Haga las presentaciones grficas.
6. Seleccione la base DATOS3-educacin y:
a) Recodifique la variable notas de lgebra en notas de alum-
nos aprobados y notas de alumnos desaprobados. Denomi-
ne ALGE1 a la nueva variable.
b) Recodifique la variable notas de aritmtica en notas de
alumnos aprobados y notas de alumnos desaprobados. De-
nomine ARIT1 a la nueva variable.
c) Construya la tabla bidimensional con las frecuencias abso-
lutas conjuntas para las variables recodificadas ARIT1 y
ALGE1.
d) Construya la tabla bidimensional con las frecuencias rela-
tivas conjuntas para las variables recodificadas ARIT1 y
ALGE1.
e) Interprete algunas frecuencias.
f) Haga la presentacin grfica.
7. Para el problema 1, encuentre el coeficiente de asociacin phi
entre la variable fila condicin laboral y la variable columna
mtodo con el que se estudi el curso de estadstica. Interprete.
8. En la base de DATOS1-maestra seleccione las variables mtodo
de enseanza y notas en el curso de Estadstica.
a) Defina una nueva variable ficticia
0
X y guarde las notas
de Estadstica para los que estudiaron con el mtodo tradi-
cional.
b) Defina una nueva variable ficticia
1
X y guarde las notas
de Estadstica para los que estudiaron con el mtodo no tra-
dicional.
04_cap4.p65 31/03/2006, 02:37 p.m. 230
231
c) Encuentre la media aritmtica de las dos variables anteriores.
d) Encuentre la desviacin estndar de las notas de Estadstica.
e) Encuentre el coeficiente de correlacin biseral-puntual e in-
terprete su valor.
9. De una poblacin de nios de 10 aos se seleccion una muestra
de 100 nios, 50 de los cuales tenan algn conocimiento de
ingls y los otros 50 nios no tenan ningn conocimiento de ese
idioma. Se les aplicaron las pruebas de retencin de dgitos y de
vocabulario, con los siguientes resultados:
Ingls Retencin de dgitos Total
No(0) s(1)
Conocen (1) 25 25 50
No conocen(0) 39 21 50
Total 64 56 100
Ingls Retencin de vocabulario Total
No(0) S(1)
Conocen (1) 22 28 50
No conocen(0) 39 11 50
Total 61 39 100
a) Calcule e interprete el coeficiente Phi entre el idioma y la
retencin de dgitos.
b) Calcule e interprete el coeficiente Phi entre el idioma y la
retencin de vocabulario.
10. De una muestra de 150 estudiantes se escogieron datos dicoto-
mizados en ejecucin de lectura X y en lateralidad Y (consis-
tencia con el cual se emplea un solo lado del cuerpo ojo-mano-
pie). Los datos se dieron en forma de juicios de ejecucin, mala
lectura (0), buena lectura (1) y consistencia en el uso de un solo
lado del cuerpo, alta (19) o baja (0). Los resultados fueron los
siguientes:
Lateral Ejecucin en lectura
Mala(0) Buena(1) Total
Alta(1) 18 42 60
Baja(0) 28 62 90
Total 46 104 150
04_cap4.p65 31/03/2006, 02:37 p.m. 231
232
Suponga que las dos variables subyacentes a ambas variables
dicotmicas son continuas. Calcule el coeficiente de correlacin
tetracrico entre ejecucin de lectura y lateralidad.
11. Use la base de DATOS1-maestra.
a) Dicotomice la variable nota de ingreso a la maestra.
b) Encuentre el coeficiente de correlacin biseral entre la nota
de ingreso y el rendimiento promedio al semestre 99-II.
04_cap4.p65 31/03/2006, 02:37 p.m. 232

S-ar putea să vă placă și