Documente Academic
Documente Profesional
Documente Cultură
Introduccin
El mundo de hoy se enfrenta, en diversos campos, a un volumen de
informacin que cada vez va en aumento y que es necesario mane-
jar gil y eficientemente. La estadstica, en muchos casos, se cons-
tituye en una buena opcin para hacerlo.
La nocin de Estadstica se deriv originalmente del vocablo
Estado, porque ha sido funcin tradicional de los gobiernos cen-
trales llevar los registros de poblacin, nacimientos, defunciones,
exportaciones, impuestos, etc. Contar y medir estos y otros hechos
genera muchas clases de datos.
Para entender la Estadstica es importante poner nfasis en
los siguientes elementos del pensamiento estadstico: la necesidad
de contar con datos, la importancia de la produccin de datos, as
como la medicin e interpretacin y el modelamiento de la variabi-
lidad de los datos.
Los autores modernos definen la Estadstica como la ciencia
que permite la elaboracin y uso de mtodos y procedimientos para
la toma decisiones en presencia de incertidumbre. Es decir, es un
instrumento para la toma de decisiones cuando no se est seguro
sobre el estado final de la naturaleza.
Como un procedimiento de toma de decisiones, la Estadstica
se ha convertido en un instrumento cotidiano de los investigado-
res y profesionales de todos los campos del conocimiento, quienes
necesitan tener alguna familiaridad con principios estadsticos
|13]
Captulo I
Conceptos bsicos
01_cap1.p65 31/03/2006, 02:31 p.m. 13
14
para poder emitir y evaluar sus informes y evitar malos usos de la
estadstica.
En este captulo se presentar una breve resea histrica, ac-
tualidad y perspectivas de la Estadstica, as como la presentacin
de conceptos importantes y necesarios para la comprensin du-
rante el desarrollo del libro, finalizando con la elaboracin de una
encuesta haciendo uso de un cuestionario.
Breve resea histrica
La Estadstica ha existido en formas sencillas desde el inicio de las
civilizaciones; por ejemplo, los babilonios, egipcios, chinos, ma-
yas, incas, y griegos, por mencionar algunas culturas, recopilaban
y analizaban datos de sus gobiernos utilizando algn tipo de esta-
dsticas.
As tambin, en la Edad Media se realizaron los primeros cen-
sos formales (en 1066 el censo de Inglaterra encargado por
Guillermo I), pero no es hasta el siglo XVII que surge lo que podra-
mos llamar la disciplina Estadstica, con el estudio de Grannt (1620-
1674) sobre mortalidad en Londres, seguido del de Halley (1656-
1742). Por estas pocas se inicia el desarrollo de las dos escuelas:
la demogrfica social y la enciclopdico matemtica. La primera
culmina en la fundacin de la demografa como disciplina, y la
segunda deriva en la Estadstica en su concepcin actual.
Posteriormente, en los siglos XVIII y XIX, se tienen grandes
contribuciones de matemticos como Gauss (1777-1855), Poisson
(1781-1840), Bayes (1702-1761), Galton (1822-1911) y Pearson (1857-
1936), que permiten sentar las bases de una teora que le da cuerpo
a la Estadstica como una disciplina cientfica. Entre los que desa-
rrollaron esta teora podemos sealar a Neyman (1894-1981),
Lehmann (1917) y a Ronald Aylmer Fisher (1890-1962), quien es
considerado el Padre de la Estadstica Moderna, ya que realiz
importantes contribuciones a la metodologa estadstica, que aun-
que fuertemente motivadas por problemas genticos, biolgicos y
de la agricultura, pronto se usaron en la industria, en trabajos de
investigacin social y en general en todas las reas donde se utili-
zan la experimentacin y la observacin cientfica. Fue l quien
01_cap1.p65 31/03/2006, 02:31 p.m. 14
15
introdujo definitivamente a la Estadstica en el llamado mtodo
cientfico de las ciencias factuales.
Fue as como, durante la dcada de los aos treinta a los se-
senta del siglo XX, se realiz una intensa actividad de investiga-
cin y aplicacin en la metodologa estadstica. Se introdujo la
Estadstica en los centros de investigacin y en la produccin in-
dustrial, con lo que apareci una comunidad de profesionales de
esta disciplina. En las universidades, se incorpor a los planes de
estudio de carreras como Agronoma, Biologa, Ciencias Sociales,
Psicologa, Economa e Ingeniera, entre otras. Aparecieron as los
Departamentos de Estadstica y los laboratorios de consultora. En
la Universidad Nacional Mayor de San Marcos se cre en el ao
1967 la Escuela Acadmico Profesional de Estadstica.
Para la dcada de los aos cincuenta y sesenta del siglo pasa-
do, la Estadstica ya tena un reconocimiento amplio, pero se le
conceba como una serie de arduas tareas de clculo, vinculadas a
complejas frmulas.
Con la llegada y proliferacin de las computadoras, las tcni-
cas para el manejo y explotacin de los datos e informacin se
hacen imprescindibles. Durante la dcada de los setenta, ochenta
y noventa, la masificacin de los softwares computacionales esta-
dsticos hizo que casi cualquier profesional o tcnico tuviese la
posibilidad de aplicar la Estadstica sin tener necesidad de reali-
zar dificultosos clculos. Hoy en da, los mtodos ms complejos
requieren slo minutos de procesamiento computacional, adems
de que hay grandes facilidades de visualizacin grfica.
Con esta perspectiva histrica, podemos concluir que la Esta-
dstica es una disciplina que tuvo un desarrollo vertiginoso des-
pus de la dcada de los aos treinta del siglo XX, que fundamen-
talmente se debi al desarrollo de una slida teora matemtica, lo
que permiti la construccin de metodologas para el diseo de
estudios estadsticos y el anlisis de los datos; al desarrollo de
softwares, que permitieron implementar los procedimientos nu-
mricos, con lo que se logr que la aplicacin de los mtodos es-
tadsticos se popularizara, generndose una amplia comunidad
de usuarios de la metodologa estadstica.
01_cap1.p65 31/03/2006, 02:31 p.m. 15
16
Actualidad de la estadstica
La metodologa estadstica nos proporciona una serie de princi-
pios, procedimientos y mtodos para realizar cuatro tareas funda-
mentales en la investigacin y los estudios tcnicos:
1) Obtener datos pertinentes de manera rpida y a bajo costo.
2) Una vez obtenidos los datos, proporciona los mtodos para su
organizacin y procesamiento, a fin de obtener de ellos la infor-
macin requerida.
3) Proporciona los principios y mtodos para que las conclusiones
o acciones a seguir sean el producto de procesos de induccin
vlidos, que se obtengan de interpretaciones adecuadas de los
resultados.
4) Proporciona los principios y lineamientos para comunicar apro-
piadamente los resultados, conclusiones y recomendaciones, ya
sea en el marco de un informe, una presentacin oral o un artcu-
lo cientfico.
As, los mtodos estadsticos ayudan a la realizacin de ml-
tiples tareas en las organizaciones productivas y sociales, tanto en
las empresas pblicas como en las privadas; son la base para la
realizacin de estudios tcnicos e investigaciones que permiten la
mejora de procesos de produccin, de bienes y de servicios o el
sustento de la toma de decisiones en las empresas u organizacio-
nes de los ms diversos giros.
La velocidad del desarrollo tecnolgico, los volmenes de
nueva informacin y el avance vertiginoso de la ciencia, han gene-
rado una gran diversificacin en las aplicaciones de la metodolo-
ga estadstica. Cada vez ms disciplinas encuentran en los mto-
dos estadsticos una opcin para el adecuado planteamiento y so-
lucin de problemas especficos; hoy en da es ms sencillo decir
en qu no se aplica la Estadstica. Indudablemente, la metodologa
estadstica ha adquirido una importancia tal que el reconocimien-
to de esta disciplina es un asunto incuestionable. Hoy en da, la
Estadstica tiene un lugar muy significativo en la sociedad. Algu-
nos hechos que hacen evidente la veracidad de tal juicio se mencio-
nan a continuacin:
01_cap1.p65 31/03/2006, 02:31 p.m. 16
1
1) Los gobiernos nacionales cuentan con un sistema estadstico,
que incluye aspectos como el demogrfico, el econmico y el so-
cial. La estadstica llamada oficial ocupa un lugar importante en
los esfuerzos de planificacin, toma de decisiones e investiga-
cin de los procesos econmicos y sociales del Estado. Un indi-
cador de esta importancia es el hecho de que la ONU cuenta con
un comit especial de Estadstica, el cual apoya a los pases miem-
bros en el diseo y desarrollo de sistemas de informacin acorde
a lineamientos internacionales.
2) Una diversidad amplia de estudios en ciencias econmicas, em-
presariales y sociales, requieren del uso de mtodos estadsticos;
los estudios de opinin, de mercadotecnia, de dinmica finan-
ciera, de riesgos y toma de decisiones, por mencionar algunos.
3) El desarrollo de medicamentos y nuevos productos y procedi-
mientos tecnolgicos requiere de una fase de experimentacin,
que se conduce siguiendo los principios y mtodos de la experi-
mentacin estadstica. La normatividad establece que todos los
nuevos productos deben pasar una serie de pruebas de efectivi-
dad que se realizan sobre la base de ensayos y pruebas estadsti-
cas. Mientras no se tenga evidencia estadstica sobre un nuevo
frmaco, ste no puede salir al mercado.
4) La mejora de la calidad y la productividad, tanto en procesos de
manufactura como en los servicios, requiere de la metodologa
estadstica. Recientemente, la metodologa estadstica se ha he-
cho muy popular en su vinculacin con el mejoramiento de la
calidad; sin embargo, esto no es algo nuevo. En la dcada de los
aos treinta, el control de la calidad requiri de los mtodos esta-
dsticos; no por casualidad el estadstico Edwards Deming es
considerado el Padre del Control de la Calidad. Hoy en da, cali-
dad, productividad y excelencia son trminos que se asocian al
uso de la metodologa estadstica.
5) La psicologa y las ciencias de la educacin utilizan la base
metodolgica de la Estadstica para los procesos de investiga-
cin aplicada, no slo para monitorear programas en sistemas
educativos sino para cualquier asunto relacionado con la eva-
luacin y toma de decisiones.
6) Las ciencias biolgicas y las disciplinas como la biotecnologa,
manejo de recursos biolgicos, ecosistemas, impacto ambiental,
biodiversidad, cambio global y ecologa, consideran la Estadsti-
01_cap1.p65 31/03/2006, 02:31 p.m. 17
18
ca como fundamental para la generacin del conocimiento y para
el diseo e implantacin de estrategias de intervencin. Hay una
gran cantidad de estudios e investigaciones en estas disciplinas
que sin la metodologa estadstica seran impensables.
7) El desarrollo de la tecnologa de la computacin y las telecomu-
nicaciones ha propiciado una amplia promocin de la metodo-
loga estadstica, pero hay necesidad de tener habilidades en el
manejo de mtodos y tcnicas estadsticas para aprovechar me-
jor la tecnologa.
8) La estadstica es una profesin reconocida y cada vez ms los
estadsticos ocupan los puestos que de acuerdo a su perfil les
corresponden en la industria, los negocios, la burocracia y la
docencia.
9) A escala mundial se cuenta con una organizacin que integra a
todas las asociaciones de estadsticos o profesionales que usan
la Estadstica. Se realiza anualmente un gran nmero de congre-
sos sobre temas generales y particulares, y se promueve el desa-
rrollo de la disciplina.
10) La Estadstica actualmente est incluida en los planes de estu-
dio de la mayora de carreras profesionales. Sin duda, esto cons-
tituye un gran reconocimiento a la importancia que esta discipli-
na tiene en la cultura general. Hay pases en los que el pensa-
miento y los principios de la Estadstica se difunden desde el
nivel primario y hay programas para difundir la cultura estads-
tica entre la poblacin en general.
Adoptando un punto de vista pragmtico, podemos decir que
la Estadstica es una ciencia que comprende dos reas importan-
tes: la primera es la descripcin, el resumen de la informacin de
modo que pueda ser interpretada, analizada y bien empleada; y la
segunda es la induccin, que consiste en formular generalizacio-
nes a una determinada poblacin sobre la base de una muestra
extrada de la misma.
Estadstica descriptiva
Es el rea de la Estadstica que trata de la organizacin, resumen y
anlisis e interpretacin de los datos; es decir, a travs de un an-
01_cap1.p65 31/03/2006, 02:31 p.m. 18
19
lisis descriptivo se formulan procedimientos para la presentacin,
organizacin, anlisis e interpretacin de la informacin obteni-
da. Estos procedimientos pueden aplicarse a poblaciones o a mues-
tras, teniendo as la posibilidad de una adecuada visualizacin de
los datos. Mencionaremos algunos procedimientos:
Tablas de distribuciones de frecuencias
Grficos de distribucin de frecuencias
Diagramas de cajas
Diagramas de tallo y hojas
Estadsticas de posicin
Estadsticas de dispersin
Estadsticas de asociacin
Estadstica inferencial
Es el rea de la Estadstica que usa mtodos apropiados con los
que es posible hacer una generalizacin o inferencia acerca de una
o ms caractersticas de la poblacin, basndose en la informacin
contenida en la muestra. Debe sealarse que la Teora de la Proba-
bilidad es el soporte de la Inferencia Estadstica. La estadstica
inferencial comprende dos reas importantes:
Estimacin: Puntual y por intervalos
Pruebas de hiptesis estadstica
Perspectivas para el siglo XXI
La Estadstica tiene un gran porvenir en el siglo XXI. Cada vez se
abren ms oportunidades para los principios, tcnicas y procedi-
mientos que forman el cuerpo de la llamada metodologa estadsti-
ca. A continuacin se sealan algunas lneas de desarrollo eviden-
tes, que ya estn tomando rumbo en los aspectos tericos,
metodolgicos y de las aplicaciones.
El hecho de disponer de grandes volmenes de datos hace
que sea difcil extraer informacin precisa y til a los propsitos
del entendimiento de procesos y fenmenos complejos. Por tal mo-
tivo, los principios estadsticos acompaados de algoritmos
01_cap1.p65 31/03/2006, 02:31 p.m. 19
20
computacionales estn dando origen a un rea que se prev tenga
gran dinamismo en los prximos aos: la minera de datos (data
mining). De hecho, ya en la actualidad se le cataloga como la disci-
plina para extraer informacin en grandes volmenes de datos.
La preocupacin por propiciar la creacin de una cultura es-
tadstica que forme parte de los elementos de la cultura general, ha
originado diversas iniciativas en la comunidad estadstica, pero
se prev que en las prximas dcadas sea una tarea ms generali-
zada que, desde luego, involucrar a los profesionales de la Esta-
dstica y a los actores del sistema educativo y de gobierno.
Conceptos importantes
A continuacin se presentarn algunos conceptos bsicos utiliza-
dos con frecuencia en el estudio y aplicacin de la Estadstica.
Unidad de anlisis
Es el objeto o elemento indivisible sobre la base del cual se obtienen
los datos. Por ejemplo, s la clnica universitaria de la UNMSM
tiene inters en conocer el nivel de satisfaccin de los pacientes con
relacin a la atencin recibida, en este caso el paciente es la unidad
de anlisis.
Poblacin
Es el conjunto de elementos (personas, plantas, organismos, obje-
tos, etc.) que contienen una o ms caractersticas comunes observa-
bles de naturaleza cualitativa o cuantitativa, acerca del cual desea-
mos obtener conclusiones o tomar decisiones. Algunos ejemplos
de poblaciones son los siguientes:
1. Los estudiantes de los colegios privados de Lima Metropolitana
matriculados en el ao acadmico 2005.
2. Los docentes con ttulo profesional contratados por el Ministerio
de Educacin en el ao 2003.
3. El personal administrativo que trabaja actualmente en el Minis-
terio de Educacin.
4. Los libros catalogados en la Biblioteca Nacional al 31 de diciem-
bre de 2004.
01_cap1.p65 31/03/2006, 02:31 p.m. 20
21
Parmetro
Es una medida utilizada para describir alguna caracterstica de la
poblacin y, para conocer su valor, es necesario utilizar la infor-
macin de toda la poblacin. En general, los parmetros de una
poblacin son desconocidos y por ello son estimados sobre la base
de una muestra obtenida de la poblacin. Algunos ejemplos de
parmetros para las poblaciones descritas anteriormente:
1. La edad promedio () de todos los estudiantes de colegios privados
de Lima Metropolitana matriculados en el ao acadmico 2005.
2. La variabilidad () existente en los sueldos de los docentes con
ttulo profesional contratados por el Ministerio de Educacin en
el ao 2003.
3. El tiempo de servicio promedio () del personal administrativo
que trabaja actualmente en el Ministerio de Educacin.
4. La proporcin () de libros deteriorados en la Biblioteca Nacio-
nal al 31 de diciembre de 2004.
Muestra
Es una parte de la poblacin, seleccionada de acuerdo a un plan o
regla con el fin de obtener informacin acerca de la poblacin de la
cual proviene. La muestra debe ser representativa de la poblacin.
De cada uno de los cuatro ejemplos anteriores presentados para
caracterizar la poblacin, se puede obtener una muestra seleccio-
nada aleatoriamente. As tenemos:
1. Los estudiantes de los colegios privados de Lima Metropolitana
matriculados en el 5
to
ao de secundaria en el ao acadmico 2005.
2. Los docentes con ttulo profesional que trabajan en zonas rura-
les, contratados por el Ministerio de Educacin en el ao 2003.
3. El personal administrativo del sexo femenino que trabaja actual-
mente en el Ministerio de Educacin.
4. Los libros de historia catalogados en la Biblioteca Nacional al 31
de diciembre de 2004.
Estadstica
Es una medida utilizada para describir alguna caracterstica de la
muestra. Considerando los ejemplos presentados en el caso de
01_cap1.p65 31/03/2006, 02:31 p.m. 21
22
parmetro y basndose en una muestra seleccionada de la pobla-
cin, pueden mencionarse los siguientes ejemplos:
1. La edad promedio X de los estudiantes de colegios privados de
Lima Metropolitana matriculados en 5
to
de secundaria en el ao
acadmico 2005.
2. La proporcin de docentes del sexo masculino (P) con ttulo pro-
fesional que trabajan en zonas rurales, contratados por el Minis-
terio de Educacin en el ao 2003.
3. El ingreso promedio X del personal administrativo del sexo fe-
menino que trabaja actualmente en el Ministerio de Educacin.
4. La proporcin de libros de historia (P) deteriorados en la Biblio-
teca Nacional, en el ao 2003.
En el siguiente cuadro se presenta la notacin usada para los
parmetros y estadsticas de comn uso.
MEDIDA PARMETRO ESTADSTICA
(POBLACIN) (MUESTRA)
Media
X
Varianza
2
S
2
Desviacin estndar S
Proporcin P
Coeficiente de r
correlacin
Dato
Es un hecho numrico o no, con informacin relativa a una situa-
cin que se desea analizar en un proceso de investigacin.
Variable
Es una caracterstica de la poblacin o muestra en estudio que
puede tomar diferentes valores. La variable es un aspecto especfi-
co de la realidad referida a la unidad de anlisis y que puede ser
susceptible de ser medida o cuantificada. Todas las variables tie-
nen una escala de medida (promedio ponderado durante un se-
mestre acadmico especfico, nmero de cursos matriculados, n-
mero de horas de estudio, etc.) o una cualidad no medible (estado
civil, nacionalidad, grado de instruccin, diagnstico mdico,
01_cap1.p65 31/03/2006, 02:31 p.m. 22
23
colegio de procedencia, etc.). Una variable puede ser clasificada
como cualitativa o cuantitativa, lo que estudiaremos ms adelante.
Convencionalmente, las variables son representadas por las
ltimas letras del alfabeto; por ejemplo, X es la letra ms usada y
puede representar:
1. Sexo de los estudiantes de educacin secundaria del colegio Te-
resa Gonzlez de Fanning matriculados en el ao 2001.
2. Edad de los postulantes a la UNMSM en el ao 2003.
3. Nota en el curso de Estadstica de los alumnos de la Escuela
Acadmico Profesional de Bibliotecologa, matriculados en el
semestre acadmico 2005-I.
4. Nmero de miembros por familia del distrito de Los Olivos, a
diciembre de 2004.
Escalas de medicin
La determinacin de la escala de medicin de una variable es muy
importante debido a que, conjuntamente al objetivo de estudio,
permite una adecuada eleccin del mtodo estadstico a ser aplica-
do. Las escalas de medicin pueden ser nominales, ordinales, de
intervalo o cociente (razn).
Escala nominal
La escala de medicin ms elemental es la escala nominal. La asig-
nacin de una escala nominal permite afirmar que, si a un elemen-
to x se le calific con un valor A y a otro elemento y se le calific con
el valor B diferente de A, x ser diferente de y en relacin con el
atributo en estudio.
Cuando una variable presenta una cualidad no medible, las
modalidades o categoras de la variable pueden ser etiquetadas
con nmeros, lo cual no implica que se pueda establecer una rela-
cin de orden o se puedan realizar operaciones aritmticas con
dichos nmeros o etiquetas.
VARIABLE MODALIDADES ESCALA DE MEDICIN
rea de Derecho y Ciencia Nominal
estudios Poltica: 1
universitarios Letras y Ciencias
Humanas: 2
Ciencias Bsicas: 3
Medicina: 4
01_cap1.p65 31/03/2006, 02:31 p.m. 23
24
Escala ordinal
Cuando la variable presenta modalidades o categoras de una inci-
piente ordenacin, puede hacerse uso de una propiedad de orden
de los nmeros que se asignan, de tal modo que si el valor asignado
al elemento x es mayor que el asignado al elemento y, se puede afir-
mar que x posee mayor grado que y en la propiedad que se estudia.
VARIABLE PROPIEDAD DE ORDEN ESCALA DE MEDICIN
Orden de Puesto 1: 1 Ordinal
mrito de Puesto 2: 2
ingreso a la
.
E.A.P. de
.
Educacin
.
Puesto 100: 100
En este caso, debe tenerse en cuenta que los nmeros slo indi-
can una posicin en toda la organizacin de los datos, y que la
diferencia existente entre estos nmeros no tiene significacin pues-
to que, por ejemplo, el valor 3 asignado al puntaje alcanzado por el
alumno que ocup el tercer puesto no es la suma del puesto 1 y el
puesto 2.
Escala de intervalo
Esta escala es considerablemente ms fuerte que la ordinal; tiene
todas las caractersticas de una escala ordinal y, adems, puede
establecerse la distancia o diferencia entre dos nmeros cuales-
quiera. Por ejemplo, el registro de la temperatura de un horno me-
dida en las escalas Centgrados y Fahrenheit. La unidad de medi-
da y el punto cero en la medicin de la temperatura son diferentes
y arbitrarios en ambos casos.
La relacin entre los grados Fahrenheit (F) y Centgrados (C)
es la siguiente:
32
5
9
+ = C F
Puede observarse que las diferencias entre las temperaturas
son independientes de la unidad de medida y del punto cero; en la
escala Centgrados el congelamiento ocurre a los 0 C y la ebulli-
cin a los 100 C (debe notarse que el valor cero no implica ausen-
cia de temperatura), mientras que en la escala Fahrenheit el
congelamiento ocurre a los 32 F y la ebullicin a los 212 F. En
01_cap1.p65 31/03/2006, 02:31 p.m. 24
25
este caso, puede decirse que entre 15 C y 20 C existe la misma
diferencia que entre 5 C y 10 C, pero no puede afirmarse que el
tener 20 C implique el doble de calor que cuando se tienen 10 C.
Escala de cociente o razn
En esta escala, los nmeros asignados reflejan los cocientes o razo-
nes de las cantidades que se miden. Las operaciones aritmticas
son posibles de efectuarse con los valores numricos asignados.
VARIABLE VALOR ESCALA DE MEDICIN
Promedio final 18 razn
del examen de (en escala vigesimal)
Estadstica Puede decirse que la
nota 18 es el doble de
la nota 9 obtenida por
otro estudiante en el
mismo examen.
Ancho de una 2,40 m razn
pizarra Puede decirse que
la medida de 1,20 m
es la mitad del
ancho de la pizarra
que mide 2,40 m.
Tiempo de 120 minutos razn
duracin de Puede decirse que un
un examen alumno que se demora
en resolver el examen
en 60 minutos usa la
mitad del tiempo que
se demora otro alumno
en resolver el mismo
examen en 120 minutos.
Clasificacin de variables
Las variables pueden ser clasificadas en cualitativas y cuantitati-
vas; a continuacin, describiremos cada una relacionndola con
su escala de medicin correspondiente.
Variable cualitativa
Es la caracterstica cuyos valores se expresan en escala nominal u
ordinal. Otra denominacin que reciben es la de variable categrica,
debido a que sus posibles valores son categoras de clasificacin.
I) Variable cualitativa medida en escala nominal. Se dice que una
variable cualitativa es medida en una escala nominal si los valores
01_cap1.p65 31/03/2006, 02:31 p.m. 25
26
que puede asumir clasifican los elementos observados, pero no
tienen ordenacin alguna. Por ejemplo, la variable:
1. Sexo de los estudiantes, clasificada en masculino y femenino.
2. Religin que profesan los estudiantes, clasificada en catlica,
protestante y otras religiones.
II) Variable cualitativa medida en escala ordinal. En caso de que
los valores que puede asumir la variable clasifiquen y ordenen los
elementos observados, entonces se dice que la variable es medida
en una escala ordinal. Por ejemplo, las variables:
1. Calidad de la educacin clasificada como: psima, regular, buena,
excelente.
2. Nivel de instruccin de los padres clasificado en: sin instruc-
cin, instruccin primaria, instruccin secundaria e instruccin
superior.
Otros ejemplos de variables cualitativas son:
VARIABLE CUALITATIVA CATEGORAS
NOMINAL
Condicin laboral de un Estable
trabajador estatal Contratado
Eventual
Desempleado
Estado civil de los docentes Soltero
universitarios Casado
Divorciado
Conviviente
Viudo
Colegio de procedencia de los Nacional
postulantes a la UNMSM Particular Laico
Particular Religioso
Diagnstico de hospitalizacin de los Infeccin respiratoria
pacientes del Hospital Dos de Mayo Infarto cardiaco
Insuficiencia renal
Neoplasia
ORDINAL
Estado de conservacin de los textos Sin deterioro
de la biblioteca Federico Villarreal Parcialmente deteriorado
Totalmente deteriorado
01_cap1.p65 31/03/2006, 02:31 p.m. 26
2
Variables cuantitativas
Son el resultado de un proceso de medicin o conteo.
I) Variables cuantitativas discretas. Son aqullas que toman como
valores nmeros enteros, es decir, pueden tomar solamente algu-
nos valores dentro de un rango de valores posibles de la variable
y entre dos valores consecutivos de la variable no puede tomar
ningn valor. Por ejemplo, el nmero de cursos aprobados por
un estudiante en un semestre acadmico.
II) Variables cuantitativas continuas Son aqullas que pueden to-
mar cualquier valor dentro de un rango de valores posibles de la
variable. Por ejemplo, los ingresos mensuales de los docentes.
Otros ejemplos de variables cuantitativas son:
VARIABLE EJEMPLOS
CUANTITATIVA
DISCRETA Nmero de libros comprados por los
estudiantes en un semestre acadmico 2005-I.
Nmero de docentes nombrados por el
Ministerio de Educacin por departamentos a
diciembre de 2003.
Nmero de docentes investigadores de las
universidades nacionales a febrero de 2003.
CONTINUA Ingreso familiar mensual de los trabajadores
del sector salud en el mes de marzo de 2005.
Tiempo de traslado de su domicilio a su centro
de trabajo, de los trabajadores del sector
pblico, el 15 de diciembre de 2004.
Estatura de los estudiantes del Colegio
Nuestra Seora de Guadalupe.
Tiempo diario dedicado al estudio fuera de las
horas de clase, de los estudiantes del Centro
Preuniversitario de la UNMSM matriculados en
el Ciclo 2004-I.
Ejemplo 1
Los alumnos del Doctorado en Educacin matriculados en el se-
mestre 2004-I, en el marco del curso de Estadstica Aplicada a la
Investigacin I, realizaron una investigacin con el objetivo de es-
tablecer el perfil de los estudiantes de maestra de la UNMSM,
01_cap1.p65 31/03/2006, 02:31 p.m. 27
28
matriculados en el Semestre Acadmico 2004-I y que ingresaron a
la universidad entre los aos 2002 y 2004-I.
Como el nmero total de estudiantes que cursaban las diver-
sas maestras era alrededor de 3000, despus de grandes debates,
los alumnos del Doctorado en Educacin decidieron seleccionar
una muestra de 70 estudiantes de la Maestra en Educacin.
A los alumnos seleccionados y que conformaron la muestra se
les aplic una prueba psicolgica para evaluar su coeficiente de
inteligencia y grado de motivacin, entre otras caractersticas. El
estudio se llev a cabo en el periodo de abril a junio del ao 2004.
Las caractersticas motivo de estudio fueron obtenidas a tra-
vs de una encuesta y son las siguientes: Rendimiento en el curso
de matemtica. Rendimiento en el curso de filosofa. Nmero total
de horas de estudio diario (fuera de las horas de clase). Mtodo de
estudio (N: nuevo, T: tradicional). Sexo (F: femenino, M: masculi-
no). Estado civil (S: soltero N: no soltero).
Es importante para el cumplimiento de los objetivos del estu-
dio identificar: a) la unidad de anlisis, b) la poblacin, c) la mues-
tra, d) las variables de inters y su respectiva clasificacin.
Solucin
a) La unidad de anlisis, es un maestrista que ingres durante los
aos 2002-2004-I a las Maestras de la UNMSM y que cursa estu-
dios en el Semestre 2004-I.
b) La poblacin, est conformada por los 3000 maestristas que ingre-
saron durante los aos 2002-2004-I a las Maestras de la UNMSM
y que cursan estudios en el Semestre 2004-I.
c) La muestra, est conformada por los 70 maestristas ingresantes
durante los aos 2002-2004-I a las Maestras de la UNMSM y
que cursan estudios en el Semestre 2004-I elegidos aleatoriamente,
y en base a la cual se estudiarn las caractersticas de inters.
d) Clasificacin de algunas variables consideradas en el estudio.
01_cap1.p65 31/03/2006, 02:31 p.m. 28
29
VARIABLE CLASIFICACIN
Coeficiente de inteligencia Cuantitativa discreta
Rendimiento en el curso Cuantitativa continua
de Metodologa de la
Investigacin
Rendimiento en el curso de Cuantitativa continua
Estadstica
Nmero total de horas de estudio
diario (fuera de las horas de clase) Cuantitativa continua
Mtodo de estudio Cualitativa
Sexo Cualitativa
Estado civil Cualitativa
La informacin correspondiente a la muestra se presenta en el
Anexo 1 de la presente publicacin.
Estimacin
Denotaremos con x
1
, x
2
,
..., x
n
a los valores observados de una varia-
ble. Por ejemplo, para un determinado estudio se seleccion una
muestra de 10 estudiantes y se consider la variable X: Edad de los
estudiantes, resultando los valores observados:
1 2 3 4 5
6 7 8 9 10
17, 16, 13, 15, 16,
14, 15, 16, 15, 13
x x x x x
x x x x x
= = = = =
= = = = =
Y se define la estimacin como el valor resultante de la evaluacin
de una estadstica. Por ejemplo, la estimacin de la media poblacional
() es el valor numrico de la media en la muestra (
X
),
10
1
150
15
10 10
i
i
x
X
=
= = =
Produccin de datos
Mtodos de produccin de datos. La obtencin de datos puede
realizarse a travs de la:
01_cap1.p65 31/03/2006, 02:31 p.m. 29
30
Observacin
Que consiste en el examen de una situacin tal como se presenta,
sin modificarla. Por ejemplo, observar los ttulos de los libros con-
sultados por los estudiantes de la Escuela de Filosofa en los das
previos a un examen.
Experimentacin
Es la construccin de una situacin creada y controlada por el
investigador. Mtodo muy aplicado en Agricultura, Medicina, Bio-
loga, etc. Por ejemplo, la administracin de un extracto a ratones
durante un periodo de tiempo especfico, con el objetivo de conocer
su eficacia contra la diabetes.
Encuesta
Interrogacin sobre una situacin en la que estn involucrados
individuos. Cuando se aplica a todos los individuos de la pobla-
cin recibe el nombre de encuesta enumerativa o censo y cuando se
aplica a una muestra de la poblacin se denomina encuesta por
muestreo. Por ejemplo, se tiene inters en conocer la opinin de los
estudiantes de la Escuela de Negocios Internacionales en relacin
con el Tratado de Libre Comercio del Per con otros pases.
La encuesta por muestreo
La encuesta por muestreo es un procedimiento utilizado en el pro-
ceso de investigacin para obtener informacin mediante pregun-
tas dirigidas a una muestra de individuos representativa de la
poblacin, de tal forma que las conclusiones que se obtengan pue-
dan generalizarse al conjunto de la poblacin siguiendo los prin-
cipios bsicos de la inferencia estadstica, ya que la encuesta por
muestreo se basa en el mtodo inductivo; es decir, a partir de un
nmero suficiente de datos podemos obtener conclusiones a nivel
general de la poblacin de la cual se seleccion la muestra.
La principal ventaja de la encuesta frente a otros mtodos es
su versatilidad o capacidad para recoger datos sobre una amplia
gama de necesidades de informacin. Sin embargo, tambin pre-
senta ciertas limitaciones o inconvenientes, tales como:
La posible renuncia del encuestado a proporcionar la informa-
cin que se desea obtener.
El encuestado puede no tener la capacidad de aportar la infor-
macin requerida por mltiples motivos (que no recuerde hechos,
no los conozca, no distinga entre diferentes situaciones, etc.).
01_cap1.p65 31/03/2006, 02:31 p.m. 30
31
El propio proceso de interrogacin puede influir en las res-
puestas del encuestado: por cansancio, cuando se trata de encues-
tas excesivamente largas, por dar respuestas socialmente acepta-
das, etc.
Estas limitaciones de la encuesta se pueden evitar o reducir a
travs de un exhaustivo control del instrumento de recopilacin de
la informacin, es decir, mediante un adecuado diseo del cuestio-
nario y de una buena capacitacin de los encuestadores o
empadronadores.
Mtodos para llevar a cabo una encuesta
Pueden sealarse los siguientes mtodos bsicos para llevar a cabo
las encuestas: entrevista, entrega personal, por telfono o por correo.
1. En la entrevista personal, las preguntas se formulan en un en-
cuentro directo entre encuestado y encuestador
2. En la entrega personal, el encuestador entrega el cuestionario a
un grupo de encuestados les imparte las directivas pertinentes y
luego los recoge, previa verificacin.
3. En la encuesta telefnica la comunicacin entre el encuestado y
encuestador se realiza mediante el telfono.
4. En la encuesta postal o por correo, se solicita a los encuestados
que respondan y devuelvan el cuestionario que se les enva por
correo.
A continuacin se presentan los distintos mtodos de encues-
ta asociados a sus ventajas e inconvenientes.
01_cap1.p65 31/03/2006, 02:31 p.m. 31
32
MTODO VENTAJAS INCONVENIENTES
Entrevista personal Elevado ndice Costo elevado
de respuesta Sesgos por influencia del
Conocimiento de entrevistador
quin brinda la Necesidad de controlar
informacin a los entrevistadores para
Reduccin de evitar errores por parte de
respuestas estos
evasivas
Facilita la
utilizacin de
material auxiliar,
como por ejemplo
el uso de tarjetas
ilustrativas para
lograr una respuesta
ms precisa
Se puede obtener
informacin por la
observacin directa
verificando las
respuestas
Encuesta telefnica Rapidez en la Falta de representatividad
obtencin de datos de la muestra (personas que
Reduccin del costo no estn, que no tienen
Permite entrevistar a telfono, etc.)
personas poco Brevedad del cuestionario
accesibles No se puede utilizar
Elevado ndice de material auxiliar
respuesta (pero menos
que en la entrevista)
Encuesta postal Reducido costo Bajo ndice de respuesta
o por correo Facilidad de acceso a No hay seguridad de quin
las personas a contesta el cuestionario
encuestar, siempre que El cuestionario debe ser
funcionen reducido
eficientemente las Falta de representatividad
oficinas postales (Entrevistados elegidos
Flexibilidad en el pueden haber cambiado de
tiempo para el domicilio)
entrevistado (puede
contestar en cualquier
momento)
Se evita la posible
influencia del
entrevistador
01_cap1.p65 31/03/2006, 02:31 p.m. 32
33
El proceso de una encuesta
Una vez planificada la encuesta, es decir, determinados los objeti-
vos de la investigacin, las necesidades de informacin que se re-
quieren y definido el tipo de encuesta, la primera fase del proceso
de realizacin de una encuesta la constituye el diseo muestral,
que implica decidir cul va a ser el universo o poblacin de la cual
se obtendr la informacin, determinar el tamao de la muestra y
la eleccin del mtodo de muestreo ms apropiado.
Luego se procede a la elaboracin del cuestionario, que estar
enmarcado por el objetivo de la investigacin y una serie de crite-
rios generales que hacen referencia al contenido, tipo y secuencia
de preguntas. Elaborado el cuestionario, es necesario aplicarlo a
una pequea submuestra para detectar posibles errores y corregir-
los, este proceso se denomina encuesta piloto.
Una vez elaborado el cuestionario final se procede a la organi-
zacin y realizacin del trabajo de campo, es decir, la obtencin
efectiva de los datos a travs del procedimiento correspondiente.
En la realizacin de las encuestas, a excepcin de las postales, el
encuestador debe estar familiarizado con el cuestionario, formular
las preguntas exactamente como aparecen escritas en el cuestiona-
rio y en el mismo orden, y es importante tambin utilizar algunas
tcnicas de indagacin para lograr que el encuestado conteste las
preguntas. En este sentido, es de gran importancia una buena se-
leccin y formacin de los entrevistadores y la supervisin del tra-
bajo de campo, siendo necesario introducir los mecanismos de con-
trol pertinentes. Por otra parte, es necesario inspeccionar los datos
obtenidos de las encuestas, con la finalidad de comprobar que los
cuestionarios estn correctamente contestados, que las respuestas
dadas sean consistentes y rechazar aquellos cuestionarios que no
sean correctos.
Todo este proceso conlleva a la creacin de la base de datos. El
anlisis de la informacin se realiza en funcin de los objetivos de
la investigacin, utilizndose los mtodos estadsticos adecuados
a travs de los distintos softwares estadsticos existentes, entre los
que destacan el SPSS (Statistical Package Social Science), MINITAB,
STATA, STATISTICA, MATLAB, etc. El anlisis de datos pueden
ser llevado a cabo en forma univariante, bivariante o multivariante.
01_cap1.p65 31/03/2006, 02:31 p.m. 33
34
La ltima etapa del proceso de investigacin la constituye la
interpretacin de los resultados obtenidos. Estos resultados con-
firmarn o no las hiptesis planteadas, si es que las hubiese, per-
mitiendo obtener conclusiones que pondrn de manifiesto la nece-
sidad de posteriores investigaciones. Por ltimo, todo el proceso
de investigacin, desde el planteamiento del problema a investi-
gar, la metodologa seguida, los resultados obtenidos hasta las
conclusiones alcanzadas, se recogern en un informe escrito con
la sntesis de todo el proceso de investigacin.
A continuacin resumiremos las etapas del proceso de reali-
zacin de una investigacin, una vez determinados los objetivos.
DISEO MUESTRAL
Determinar la unidad de anlisis
Determinar la poblacin
Determinar el tamao de la muestra
Elegir mtodo de muestreo
DISEO DEL CUESTIONARIO
Contenido de preguntas
Tipo de preguntas
Secuencia de preguntas
Pretest (encuesta piloto)
Revisin y cuestionario final
ORGANIZACIN Y REALIZACIN DEL
TRABAJO DE CAMPO
Aplicacin del cuestionario final
Consistencia (crtica y codificacin)
CREACIN DE UNA BASE DE DATOS Y
ANLISIS DE LA INFORMACIN
INTERPRETACIN DE LOS RESULTADOS
INFORME FINAL
Seleccin de la muestra
La decisin de seleccionar una muestra de la poblacin previa-
mente definida implica que se lleve a cabo un proceso de muestreo.
Mediante el muestreo se determina qu parte de la realidad en
estudio (poblacin o universo) debe ser examinada con la finalidad
de hacer inferencias sobre dicha poblacin. El error que se comete
debido a que se obtienen conclusiones sobre cierta realidad a partir
01_cap1.p65 31/03/2006, 02:31 p.m. 34
35
de la observacin de slo una parte de ella, se denomina error de
muestreo. Obtener una muestra significa lograr que sta represente
la estructura de la poblacin en estudio. Las ventajas de estudiar
una poblacin a partir de una muestra son, principalmente:
Costo reducido Si la informacin que buscamos puede ser obte-
nida a partir de una pequea parte del total de la poblacin, los
gastos de obtencin y tratamiento de los datos sern menores.
Por ejemplo, cuando se realizan encuestas previas a un refern-
dum, es ms barato preguntar a 1 000 personas su intencin de
voto, que a 5 000 000.
Mayor rapidez Por ejemplo, en un proceso electoral estamos acos-
tumbrados a observar cmo, con los resultados del escrutinio de
las primeras mesas electorales, se obtiene una aproximacin bas-
tante buena del resultado final de unas elecciones, muchas ho-
ras antes de que el recuento final de votos haya finalizado.
Mtodos de muestreo
De acuerdo con el problema de investigacin, la muestra puede ser
seleccionada a travs de un mtodo de muestreo probabilstico o
de uno no probalilstico.
Muestreo probabilstico
Los mtodos de muestreo probabilsticos nos aseguran la
representatividad de la muestra seleccionada de una poblacin de
inters. Dentro de los mtodos de muestreo probabilsticos pueden
mencionarse los siguientes:
Muestreo aleatorio simple
Muestreo sistemtico
Muestreo estratificado
Muestreo por conglomerados (cluster)
Muestreo aleatorio simple
El procedimiento consiste en asignar un nmero a cada elemento
(o individuo) de la poblacin y, a travs de algn medio mecnico
(esferas dentro de una urna, tablas de nmeros aleatorios, nme-
01_cap1.p65 31/03/2006, 02:31 p.m. 35
36
ros aleatorios generados con una calculadora o algn software
informtico, etc.), se eligen tantos elementos como sea necesario
para completar el tamao de muestra requerido. Este procedimien-
to es atractivo por ser sencillo y de fcil comprensin; sin embargo,
podra sealarse como principal desventaja que se requiere contar
con un listado completo de todos los elementos de la poblacin.
Por ejemplo, si se considera que una poblacin est conforma-
da por los 300 ingresantes a un Programa de Segunda Especializa-
cin en Educacin y se requiere entrevistar a 30 de ellos, esta selec-
cin puede ser llevada a cabo a travs de un muestreo aleatorio
simple. Se cuenta con la base de datos y de esta base de datos se
elegirn 30 ingresantes.
donde
k
es el nmero de modalidades o de posibles valores de
la variable.
Frecuencia relativa ( )
i
h . Es igual a la frecuencia absoluta dividi-
da entre el nmero de observaciones o tamao de la muestra:
.
i
i
f
h
n
,
( )
1 2
1 2
...
... 1.
k
k
f f f f f f n
n n n n n
+ + +
+ + +
Frecuencia absoluta acumulada ( )
i
F . Es el nmero de datos igual
o inferior (menor o igual que) al valor considerado de la variable
o la suma de las frecuencias absolutas menor o igual que el valor
considerado de la variable. Es decir,
02_cap2.p65 31/03/2006, 02:32 p.m. 64
65
1 1
2 1 2
1 2
.
.
.
...
k k
F f
F f f
F f f f
+
+ + +
La ltima frecuencia acumulada es igual al nmero total de
observaciones o tamao de la muestra:
.
k
F n
Frecuencia relativa acumulada. Es el resultado de cada frecuencia
absoluta acumulada dividida entre el nmero total de observacio-
nes, o la suma de las frecuencias relativas menor o igual al valor
considerado de la variable:
1
1,..., .
i
i
i j
j
F
H h i k
n
+
+ +
+ +
'
i
x Marca de clase o punto medio de cada intervalo de clase,
es igual a la semisuma de sus valores extremos,
( )
1 '
2
i i
i
L L
x
+
,
_
n
F
3
H
La salida del SPSS mostrndonos la distribucin de las dife-
rentes frecuencias puede ser presentada en un cuadro estadstico.
02_cap2.p65 31/03/2006, 02:32 p.m. 71
2
Cuadro 1. Nmero y porcentaje de representantes de 4 distritos rurales*
del Per segn el nmero de organizaciones sociales a las que pertenece.
Setiembre-Diciembre 2003
Nmero de Nmero de Porcentaje de
organizaciones representantes representantes
sociales distritales distritales (%)
1 10 10
2 27 27
3 37 37
4 21 21
5 5 5
Total 100 100
* Limatambo (Cuzco), Luricocha (Ayacucho), Izuchaca (Huancavelica), Vilca
(Huancavelica).
Tabla de distribucin de frecuencias para una variable
cuantitativa continua
Mediante ejemplos se presentar la construccin de tablas de dis-
tribucin de frecuencias para una variable cuantitativa continua.
Ejemplo 3
Los siguientes datos corresponden a las aportaciones que hicieron
al Sistema Nacional de Pensiones 100 docentes universitarios per-
tenecientes a la Ley 20530, en el mes de enero del presente ao. Los
datos estn expresados en nuevos soles.
265 197 349 280 265 200 221 265 261 278 205 286 317 242 254 235 174
262 248 250 263 274 242 260 281 246 248 271 260 265 307 243 258 321
294 328 263 245 274 270 220 231 276 228 223 296 231 301 337 298 268
267 300 250 260 276 334 280 250 257 260 281 208 299 308 264 280 274
278 210 234 265 187 258 235 269 265 253 254 280 299 214 264 267 283
235 272 287 274 269 215 318 271 293 277 290 283 258 275 251
Se desea presentarlos en una tabla de distribucin de frecuencias.
Solucin
Variable X : Aportaciones en nuevos soles
Tipo de variable: Cuantitativa continua
02_cap2.p65 31/03/2006, 02:32 p.m. 72
3
max
349 x
min
174 x
Rango: R = 349 - 174 = 175
Nmero de intervalos:
10
1 3, 3 ( ) log k n +
10
1 3, 3 (100) log k + = 7,6
8 k
Amplitud de cada intervalo: a = 175 / 8 = 21,875
22 a
Lmites de los intervalos de clase:
I 1 = [174, 174 + 22) = [174,196)
I 2 = [196, 196+ 22) = [196, 218)
I 3 = [218, 218 + 22) = [218, 240)
'
<
<
<
<
<
x
x
x
x
x
x
x F
5 , 30
5 4 , 27
4 2 , 24
2 1 , 13
1 0 , 2
0 , 0
) (
0, 0
6, 0 1
43, 1 2
( )
80, 2 4
90, 4 5
100, 5
x
x
x
H x
x
x
x
<
<
<
'
<
<
(3.2)
donde
i
w , es la importancia o peso que se asigna a cada valor
de la variable.
Ejemplo 2
Supongamos que un profesor decide utilizar un promedio ponde-
rado para obtener los promedios finales de cada uno de los estu-
diantes que asisten al curso de Estadstica. El promedio de trabajos
tendr un valor de 20% de la calificacin del estudiante; el examen
parcial, 25%; el examen final, 35%; y el promedio de prcticas,
20%. A partir de los datos siguientes calcularemos el promedio
final para dos estudiantes cualesquiera.
Estudiante Nota de trabajos Examen parcial Examen final Promedio
prcticas
1 15 12 18 13
2 17 10 14 17
Solucin
a) Obtengamos el promedio ponderado del primer estudiante. Apli-
cando la frmula (3.2) se tiene:
1
1
k
i i
i
w
k
i
i
x w
X
w
=
=
= =
15(0, 2) 12(0, 25) 18(0, 35) 13(0, 20)
14, 9
0, 20 0, 25 0, 35 0, 20
+ + +
=
+ + +
puntos.
Por otro lado, calculamos la media aritmtica de las notas del
primer estudiante, obtenemos 14,5 puntos.
b) Obtengamos el promedio ponderado del segundo estudian-
te. En este caso el promedio ponderado es:
03_cap3.p65 31/03/2006, 02:34 p.m. 109
110
17(0, 2) 10(0, 25) 14(0, 35) 17(0, 20)
14, 2
0, 20 0, 25 0, 35 0, 20
w X
+ + +
= =
+ + +
puntos.
Observe que la media aritmtica del segundo estudiante tam-
bin es 14,5.
El primer estudiante tiene mayor promedio ponderado que el
segundo estudiante debido a que el examen final tiene mayor peso,
a pesar de que el segundo estudiante supera al primero en las
notas de trabajo y prcticas.
Si los datos se presentan en una distribucin de frecuencias,
donde los valores
i
x de la variable se repiten
i
f veces, la frmula
(3.1) quedar expresada en la siguiente forma:
1
1
k
i i
i
X x f
n
=
=
(3.3)
Ejemplo 3
Los alumnos del Doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM matri-
culados en el semestre acadmico 2000-I y que ingresaron a la uni-
versidad entre los aos 1997 y 1999. El estudio se llev a cabo entre
abril y junio del ao 2000. Como el nmero total de estudiantes que
cursaban las diversas maestras era alrededor de 2 500, despus de
grandes debates, los alumnos del doctorado en Educacin decidie-
ron seleccionar una muestra de 30 estudiantes de la maestra en
Gestin Educativa. A continuacin se presentan los datos para la
variable nmero de hijos de los 30 maestristas. Encontraremos el
nmero promedio de hijos.
Nmero de hijos
i
f
X
0 2
1 11
2 11
4 3
5 3
Total 30
03_cap3.p65 31/03/2006, 02:34 p.m. 110
111
Solucin
Como los datos se encuentran tabulados usaremos la expresin
(3.3) para obtener la media aritmtica. Los clculos auxiliares se
presentan en la siguiente tabla.
i
x
i
f
i i
x f
0 2 0
1 11 11
2 11 22
4 3 12
5 3 15
Total 30 60
Reemplazando en la frmula (3. 3) se tiene:
1
1
k
i i
i
X x f
n
=
=
=
0(2) 1(11) 2(11) 4(3) 5(3) 60
2
30 30
X
+ + + +
= = =
hijos.
En promedio, los estudiantes de la maestra tienen 2 hijos.
Si los datos se presentan en una tabla de distribucin de fre-
cuencias agrupados en intervalos de clase, los valores
i
x de la
expresin (3.3) sern reemplazados por la marca de clase de cada
intervalo y el valor de la media aritmtica se obtiene de la siguiente
manera:
1
1
' '
, es la i-sima marca de clase
k
i i i
i
X x f x
n
=
=
(3.4)
Ejemplo 4
Los alumnos del doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM, matri-
culados en el semestre acadmico 2000-I y que ingresaron a la uni-
versidad entre los aos 1997 y 1999. El estudio se llev a cabo entre
abril y junio del ao 2000. Como el nmero total de estudiantes que
cursaban las diversas maestras era alrededor de 2 500, despus de
grandes debates, los alumnos del doctorado en Educacin decidie-
ron seleccionar una muestra de 30 estudiantes de la maestra en
03_cap3.p65 31/03/2006, 02:34 p.m. 111
112
Gestin Educativa. A continuacin se presentan los datos para la
variable edad de los estudiantes. Obtengamos la media aritmtica.
Edades Marca de clase Frecuencia Absoluta
[ )
1
,
i i
L L
'
i
x
i
f
[23 - 32) 27, 5 6
[32 - 41) 36, 5 12
[41 - 50) 45, 5 8
[50 - 59) 54, 5 2
[59 - 68] 63, 5 2
Solucin
Como los datos se presentan agrupados en intervalos de clase usa-
remos la expresin (3.4) para obtener el valor de la media aritmti-
ca. Los clculos auxiliares se presentan en la siguiente tabla:
Edades Marca de clase Frecuencia Absoluta
[ )
1
,
i i
L L
'
i
x
i
f
'
i i
x f
[23 - 32) 27, 5 6 165,0
[32 - 41) 36, 5 12 438,0
[41 - 50) 45, 5 8 364,0
[50 - 59) 54, 5 2 109,0
[59 - 68] 63, 5 2 127,0
Total 30 1203,0
y reemplazando en la frmula (3.4) se encuentra:
'
1
1
n
i i
i
X x f
n
=
=
27, 5(6) 36, 5(12) 45, 5(8) 54, 5(2) 63, 5(2) 1203
40,1 aos.
30 30
+ + + +
= = =
La edad promedio de los estudiantes es 40,1 aos.
Propiedades de la media aritmtica
Propiedad 1. La suma de las desviaciones de los valores de la
variable respecto a la media aritmtica es igual a cero. Expresado
matemticamente, tendremos:
( )
1
0
k
i i
i
x X f
=
=
.
03_cap3.p65 31/03/2006, 02:34 p.m. 112
113
Demostracin
( )
1
k
i i
i
x X f
=
=
1
1 1
0, puesto que
k
i i k k
i
i i i
i i
x f
x f X f n X nX X
n
=
= =
= = =
Ejemplo 5
El Director del colegio Guadalupe est preocupado porque duran-
te el ao acadmico 2004, algunos alumnos han faltado frecuente-
mente a clases. Con la finalidad de verificar su percepcin, solicita
al Director Acadmico que tome una muestra de 20 estudiantes
que en el ao 2004 cursaron el cuarto ao de secundaria. Obtenga
para dichos estudiantes: a) el promedio de inasistencias del mes
de noviembre y b) compruebe la propiedad 1 de la media aritmtica.
El informe del Director Acadmico consigna los siguientes datos.
Nmero de Inasistencias 1 3 6 7 8
en Noviembre
i
f 3 4 8 3 2
Solucin
a) Primero encontramos la media aritmtica general usando la fr-
mula (3.3):
i
x
i
f
i
x
i
f
1 3 1 x 3= 3
3 4 3 x 4=12
6 8 6 x 8=48
7 3 7 x 3=21
8 2 8 x 2=16
Total 100
1
1
k
i i
i
X x f
n
=
=
100
5
20
= =
inasistencias en promedio en el mes
de noviembre.
b) Luego, comprobamos la propiedad 1:
( ) ( ) ( ) ( )
1
1 5 3 3 5 4 6 5 8 (7 5)3 (8 5)2 12 8 8 6 6 0
k
i i
i
x X f
=
= + + + + = + + + =
Ejemplo 6
Aplicaremos la propiedad 2 a la distribucin de frecuencias des-
crita en el ejemplo 5.
Nmero de Inasistencias 1 3 6 7 8
en Noviembre
i
f 3 4 8 3 2
Solucin
Calculando los cuadrados de las desviaciones con respecto a la
media y tambin con respecto a cada uno de los valores de la varia-
ble se tiene:
i
x
i
f
2
( )
i i
x X f
2
( 1)
i i
x f
2
( 3)
i i
x f
2
( 6)
i i
x f
2
( 7)
i i
x f
2
( 8)
i i
x f
1 3 (1-5)
2
x 3=48 0 12 75 108 147
3 4 (3-5)
2
x 4=16 16 0 36 64 100
6 8 (6-5)
2
x 8= 8 200 72 0 8 32
7 3 (7-5)
2
x 3=12 108 48 3 0
3
8 2 (8-5)
2
x 2=18 98 50 8 2
0
Total 102 422 182 122 182 282
Observe que la suma de los cuadrados de las desviaciones
respecto a la media de la distribucin es menor que cualquier otra
suma de las desviaciones con respecto a cada uno de los valores de
la muestra.
Propiedad 3. Dados k conjuntos de datos con sus medias
1 2, , . . . , k X X X y con
1 2
, , . . .,
k
n n n observaciones, respec-
tivamente, la media global de todos los datos se obtiene mediante
la media ponderada, cuya expresin matemtica es:
03_cap3.p65 31/03/2006, 02:34 p.m. 114
115
1 2
1 2 1
1 2
1
...
...
k
i
i
k
k i
global
k
k
i
i
n X
n X n X n X
X
n n n
n
=
=
+ + +
= =
+ + +
<
donde
1 i
F
es la frecuen-
cia absoluta acumulada inmediatamente inferior o igual que
2
n
y
i
F es la frecuencia absoluta acumulada inmediata-
mente superior que
2
n
.
4) Ubicar en la columna del recorrido de la variable el valor
i
x asociado a
i
F y encontrar el valor de la mediana de
acuerdo con la frmula siguiente:
1
1
1
si ( )
2
si ( )
2 2
i i i
i i
i- i
n
Me x F F a
o
x x n
Me F F b
= < <
+
= = <
(3.6)
Ejemplo 10
Para la distribucin de frecuencias del nmero de hijos de los estu-
diantes de maestra presentados en el ejemplo 3, vamos a ilustrar
la obtencin de la mediana.
03_cap3.p65 31/03/2006, 02:34 p.m. 119
120
Solucin
Primero debemos encontrar las frecuencias absolutas acumuladas,
como se muestra a continuacin:
Nmero de hijos
i
f
i
F
0 2 2
1 11 13
2
F
2 11 24
3
F
4 3 27
5 3 30
Total 30
y luego calcular
2
n
, es decir,
2
n
=
30
15
2
=
.
En la columna de frecuencias absolutas acumuladas ubica-
mos
i
F y
1 i
F
= < = < =
. Usando
(3.6(a)), el valor de la variable asociada a la frecuencia absoluta
acumulada
3
24,
i
F F = = es
3
2 x = ; o sea, el valor de la media-
na es 2. 2 Me = . El 50% de los estudiantes de maestra tiene 2 o
menos de 2 hijos.
Ejemplo 11
Los alumnos del doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM ma-
triculados en el semestre acadmico 2000-I y que ingresaron a la
universidad entre 1997 y 1999. El estudio se llev a cabo entre abril
y junio de 2000. Como el nmero total de estudiantes que cursaban
las diversas maestras era alrededor de 2 500, despus de grandes
debates, los alumnos del doctorado en Educacin decidieron se-
leccionar una muestra de 30 estudiantes de la maestra en Gestin
Educativa. A continuacin, se presentan los datos para la variable
nmero de hijos de los 30 maestristas. Encontraremos la mediana.
03_cap3.p65 31/03/2006, 02:34 p.m. 120
121
Nmero de hijos
i
f
i
F
0 2 2
1 13 15
2
F
2 9 24
3
F
4 3 27
5 3 30
Total 30
El valor de
2
n
=
30
15
2
=
, por lo que se cumple que
2
n
coinci-
de con
1 i
F
=
2
F , esto es,
1
15 15 24
2
i i
n
F F
= = = < =
. El valor
de la variable asociada a la frecuencia absoluta acumulada
i
F =
3
F =24 es
3
x =2, y el valor de la variable que corresponde
a
1 i
F
=15 es
2
x =1. Usando (3,6(b)) la mediana es
2 3
1 2
2 2
x x
Me
+ +
= =
=1,5. El 50% de los estudiantes de
maestra tienen menos de 1,5 hijos.
Datos agrupados en intervalos de clase y presentados en
una tabla de frecuencia
Seguir los pasos 1), 2), 3) del caso anterior de datos sin agrupar en
intervalos de clase y, como paso 4), ubicar el intervalo de clase
asociado a la frecuencia absoluta acumulada
i
F y encontrar el
valor de la mediana de acuerdo a la siguiente expresin:
1
1 1
1
1 1
2
Si (a)
2
Si (b)
2
i
i i i i
i i
i i i
n
F
n
Me L a F F
F F
n
Me L F F
= + < <
= = <
(3.7)
03_cap3.p65 31/03/2006, 02:34 p.m. 121
122
donde:
1 i
L
= 6 <
15
2
n
=
<
i
F =
18, en este caso el intervalo de clase asociado a
2
18
i
F F = = es
[ ) 32 41 ; ste intervalo contiene el valor de la variable que ocu-
pa la posicin
30
15
2 2
n
= =
. Para dicho intervalo, la amplitud
es
i
a =9 y, el lmite inferior es
1 i
L
. El 50% de los
estudiantes tiene edades inferiores a 38,75 aos.
03_cap3.p65 31/03/2006, 02:34 p.m. 122
123
Ejemplo 13
Supongamos que en el ejemplo 4 la distribucin de frecuencias de
la edad de los estudiantes de maestra sea de la siguiente forma:
Edades Frecuencia absoluta Frecuencia absoluta acumulada
[ )
1
,
i i
L L
i
f
i
F
[23 - 32) 6 6
[32 - 41) 9 15
2
F
[41 - 50) 11 26
3
F
[50 - 59) 2 28
[59 - 68) 2 30
Total 30
Obtendremos la mediana.
Solucin
El valor de
30
15
2 2
n
= = , se cumple que
2
n
coincide con
1 i
F
, esto
es,
1 i
F
=15=
15
2
n
=
<
i
F = 26. El intervalo de clase asociado a
la frecuencia absoluta acumulada
i
F =
3
F =26 es [ ) 41 50 ; luego,
usando (3.7(b)), la mediana es
1 2
41
i
Me L L
= = = . El 50% de los
estudiantes tiene edades inferiores a 41 aos.
Moda
Definicin
La moda es el valor de la variable que se repite con mayor frecuen-
cia. Se expresa como:
, si Mo x x
i i
= es el valor de la variable que ms se repite (3.8)
03_cap3.p65 31/03/2006, 02:34 p.m. 123
124
Cuando todas las puntuaciones de un conjunto de datos tie-
nen la misma frecuencia, ste no tiene moda. Tambin existen si-
tuaciones donde se tiene ms de una moda, en tal caso diremos que
la distribucin de frecuencias es bimodal, trimodal, o multimodal.
Ejemplo 14
Obtendremos la moda para los siguientes conjuntos da datos:
a) 10 11 11 12 13 09 15
b) 10 11 12 13 09 15
c) 11 11 11 12 12 12 05 04
Solucin
Para el conjunto de datos (a): 10 11 11 12 13 09 15 la moda es
11 Mo = (unimodal); mientras que en el conjunto (b): 10 11 12 13
09 15, no existe moda. Si el conjunto de datos es (c): 11 11 11 12 12
12 05 04, las modas son 11 Mo = y 12 Mo = (bimodal).
A continuacin, se presentan los mtodos de obtencin de la
moda cuando se tiene un mayor nmero de datos, razn por la
cual previamente han sido tabulados.
Datos sin agrupar en intervalos de clase y presentados en
tablas de frecuencias
Para identificar el valor de la moda debe observarse la columna de
las frecuencias absolutas y seleccionar la mayor de ellas. Suponga-
mos que esa frecuencia sea
i
f ; entonces, el valor de la moda es:
i
Mo x = si 1 1
i i i i
f f y f f
+
> >
(3.9)
donde:
1
1
frecuencia absoluta inmediatamente anterior a
frecuencia absoluta inmediatamente posterior a
i i
i i
f f
f f
+
Ejemplo 15
Con los datos presentados en el ejemplo 11 vamos a ilustrar la
obtencin de la moda.
03_cap3.p65 31/03/2006, 02:34 p.m. 124
125
Nmero de hijos
i
f
0 2
1 13
2 9
4 3
5 3
Solucin
Para calcular la moda, observamos la columna de frecuencias ab-
solutas y vemos que la mayor frecuencia corresponde a
2
f = 13.
Por lo tanto el valor de la moda es
2
x =1, es decir, 1 Mo = , indica
que la mayora de estudiantes de maestra tienen un hijo.
Ejemplo 16
Con los datos presentados en el ejemplo 3 ilustraremos nuevamen-
te la obtencin de la moda.
Nmero de hijos
i
f
0 2
1 11
2 11
4 3
5 3
Solucin
Esta distribucin posee dos modas: 1 Mo = y 2 Mo = ; pues a la
segunda frecuencia
2
f =11, le corresponde el valor
2
1 x = y a la
tercera frecuencia absoluta,
3
f = 11, le corresponde el valor
3
2 x = .
En este caso la mayora de los estudiantes tienen 1 2 hijos.
Datos agrupados en intervalos de clase, presentados en
tablas de frecuencias
Debe observarse la columna de las frecuencias absolutas y detectar
la mayor de ellas. Supongamos que esa frecuencia sea
i
f , asocia-
do a l se encuentra el intervalo de clase
1
[ )
i i
L L
que contiene a la
moda y se denomina intervalo modal. La moda se obtendr me-
diante la siguiente expresin matemtica:
03_cap3.p65 31/03/2006, 02:34 p.m. 125
126
1
1
1 2
i i
d
Mo L a
d d
= +
+
(3.10)
donde:
1
1
1
es el lmite inferior del intervalo modal,
es la mayor frecuencia,
es la frecuencia inmediatamente anterior a la mayor frecuencia,
es la frecuencia inmediatamente posterior a la m
i
i
i
i
L
f
f
f
+
1 1
2 1
ayor frecuencia,
,
,
es la amplitud del intervalo modal.
i i
i i
i
d f f
d f f
a
+
=
=
Ejemplo 17
En el ejemplo 4 se tienen las edades de un grupo de estudiantes de
maestra de la Facultad de Educacin. Con dichos datos obtenga-
mos la moda.
Edades Frecuencia Absoluta
[ )
1
,
i i
L L
i
f
[23 - 32) 6
[32 - 41) 12
[41 - 50) 8
[50 - 59) 2
[59 - 68) 2
Solucin
Se encuentra que el valor de la mayor frecuencia absoluta,
2
12 f = .
El intervalo con mayor frecuencia es [ ) 32 41 , su amplitud es
igual a
i
a =9 y su lmite inferior es
1 i
L
=32,
1 1
6 , 8
i i
f f
+
= =
entonces: d
1
= 12-6=6, d
2
= 12-8=4.
Luego, el valor de la moda es:
1
1
1 2
i i
d
Mo L a
d d
= +
+
=
6
32 9 32 5, 4 37, 4aos
6 4
+ = + =
+
La edad ms frecuente es 37,4 aos, es decir, 37 aos.
03_cap3.p65 31/03/2006, 02:34 p.m. 126
12
Ejemplo 18
Los alumnos del doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM matri-
culados en el semestre acadmico 2000-I y que ingresaron a la uni-
versidad entre los aos 1997 y 1999. El estudio se llev a cabo entre
abril y junio de 2000. Como el nmero total de estudiantes que
cursaban las diversas maestras era alrededor de 2 500, despus de
grandes debates, los alumnos del doctorado en Educacin decidie-
ron seleccionar una muestra de 30 estudiantes de la maestra en
Gestin Educativa. A continuacin se presentan los datos para la
variable disposicin para el estudio. Obtengamos la moda.
Disposicin para el estudio Nmero de estudiantes
Ninguna 2
Regular 7
Buena 5
Muy buena 9
Excelente 7
Total 30
Solucin
Al observar la tabla de frecuencias, podemos afirmar que, con ma-
yor frecuencia, 9 estudiantes respondieron tener muy buena dis-
posicin para el estudio. Luego, la moda es muy buena disposi-
cin para el estudio.
Cabe indicar que, en este ejemplo, tenemos la distribucin de
una variable cualitativa; luego, la moda es la nica estadstica de
posicin que podemos calcular cuando se tiene una variable cuali-
tativa.
Cuartiles
Son nmeros que dividen un conjunto de datos en cuatro partes
iguales. Ellos son:
El cuartil uno, Q1, es el punto por debajo del cual se ubica
el 25% de los datos.
El cuartil dos, Q2, es el punto por debajo del cual se ubica el
50% de los datos.
03_cap3.p65 31/03/2006, 02:34 p.m. 127
128
El cuartil tres, Q3, es el punto por debajo del cual se ubica el
75% de los datos.
Clculo de cuartiles en conjuntos de datos pequeos
Primero, ordenamos los datos en orden de magnitud creciente.
Luego, encontramos la posicin para cada uno de los cuartiles,
segn como sigue:
Para el cuartil uno, calcular ( )
1
1
4
n +
y redondear al entero
ms cercano. La observacin ordenada que ocupa esta posicin,
representa el cuartil uno. Si la posicin es la mitad entre dos ente-
ros consecutivos, el cuartil uno es el promedio de los dos valores
correspondientes.
Para encontrar el valor del cuartil dos (mediana), usar la ex-
presin (3.5).
Para el cuartil tres, calcular ( )
3
1
4
n +
y redondear al entero
ms cercano. La observacin ordenada que ocupa esta posicin,
representa el cuartil tres. Si la posicin se encuentra a mitad entre
dos enteros, el cuartil tres es el promedio de los dos valores corres-
pondientes.
Ejemplo 19
Para los siguientes conjuntos de datos
a) 13 11 19 20 18 21 23
b) 10 16 4 9 13 17
Obtendremos el cuartil uno, el cuartil tres y la mediana.
Solucin
a) Si tenemos la siguiente muestra de datos: 13 11 19 20 18 21 23,
donde n=7; entonces, para encontrar el cuartil uno calculamos
1 7 1
2
4 4
n + +
= =
, por lo que el cuartil uno es el valor de la variable
03_cap3.p65 31/03/2006, 02:34 p.m. 128
129
que ocupa la posicin 2 de las observaciones ordenadas: 11 13 18
19 20 21 23. Luego,
( ) 1 2
13 Q x = =
.
Para encontrar el cuartil dos por ser n impar usamos la fr-
mula (3.5(a)):
( ) 1 7 1 4
2 2
19.
n
Me x x x
+ +
= = = =
Para encontrar el cuartil tres, calculamos ( )
3
1
4
n +
= ( )
3
7 1 6
4
+ =
luego el cuartil tres es
( ) 3 6
21 Q x = =
.
b) Si tenemos otra muestra de datos, por ejemplo 10 16 4 9 13 17,
donde n=6 y ordenados son: 4 9 10 13 16 17. Entonces, para encon-
trar el cuartil uno, calculamos
1 6 1
1, 75,
4 4
n + +
= =
luego, el entero
ms cercano es 2, por lo que el cuartil uno es el valor de la variable
que ocupa la posicin 2 de las observaciones ordenadas. Luego,
( ) 1 2
9 Q x = =
.
Para encontrar el cuartil dos o mediana, por ser n par, usamos
(3.5 (b)).
( ) ( )
6 6
1 1
3 4 2 2 2 2
10 13
11, 5.
2 2 2 2
n n
x x x x
x x
Me
+ +
+ +
+
+
= = = = =
Para encontrar el cuartil tres, calculamos
( )
3
1
4
n +
=
( )
3
6 1 5, 25
4
+ =
luego, el entero ms cercano es 5, por lo que el
cuartil tres es .
( ) 3 5
16 Q x = =
.
03_cap3.p65 31/03/2006, 02:34 p.m. 129
130
Para obtener los cuartiles a partir de una tabla de distribucin
de frecuencias, se procede como en el caso del clculo de la media-
na, teniendo en cuenta que la fraccin n/2 ser cambiada por las
fracciones
4
n
,
2
4
n
,
3
4
n
segn se requiera calcular el cuartil uno,
cuartil dos (mediana) o cuartil tres respectivamente. As tenemos
los casos siguientes.
Datos sin agrupar en intervalos de clase y presentados en
tabla de frecuencias
I. Para encontrar el cuartil uno, proceder de la siguiente manera:
1) Encontrar las frecuencias absolutas acumuladas,
2) Encontrar
4
n
,
3) En la columna de las frecuencias absolutas acumuladas, ubi-
car el intervalo
1
4
i i
n
F F
<
, donde
1 i
F
es la frecuen-
cia absoluta acumulada inmediatamente inferior o igual que
4
n
y
i
F es la frecuencia absoluta acumulada inmediata-
mente superior que
4
n
,
4) Ubicar en la columna del recorrido de la variable el valor
i
x asociado a
i
F y encontrar el valor del cuartil uno de
acuerdo con la frmula siguiente:
03_cap3.p65 31/03/2006, 02:35 p.m. 130
131
1 1
1
1 1
n
si (a)
4
n
si (b)
2 4
i i i
i i
i- i
Q x F F
o
x x
Q F F
= < <
+
= = <
(3.11)
II. Para encontrar el cuartil tres:
1) Encontrar las frecuencias absolutas acumuladas,
2) Encontrar
3
4
n
,
3) En la columna de las frecuencias absolutas acumuladas ubi-
car el intervalo
1
3
4
i i
n
F F
<
donde
1 i
F
es la frecuen-
cia absoluta acumulada inmediatamente anterior o igual que
3
4
n
y
i
F es la frecuencia absoluta acumulada inmediata-
mente superior que
3
4
n
,
4) Ubicar en la columna del recorrido de la variable el valor
i
x asociado a
i
F y encontrar el valor del cuartil tres de
acuerdo con la frmula siguiente:
3 1
1
3 1
3
si (a)
4
3
si (b)
2 4
i i i
i i
i- i
n
Q x F F
o
x x n
Q F F
= < <
+
= = <
(3.12)
Ejemplo 20
Con la distribucin del nmero de hijos de los estudiantes de maes-
tra del ejemplo 3, vamos a ilustrar la obtencin del cuartil uno y el
cuartil tres.
03_cap3.p65 31/03/2006, 02:35 p.m. 131
132
Solucin
a) Cuartil uno.
Primero debemos encontrar las frecuencias absolutas acumuladas,
como se muestra a continuacin:
Nmero de hijos
i
f
i
F
0 2 2
1 11 13
2 11 24
4 3 27
5 3 30
Total 30
y luego calcular
4
n
, es decir,
4
n
=
30
7,5
4
=
En la columna de frecuencias absolutas acumuladas ubica-
mos
i
F y
1 i
F
= < = < =
. Ubi-
camos el valor de la variable asociada a la frecuencia absoluta
acumulada
2
13,
i
F F = = es
2
1 x = ; luego, usando (3.11(a)) el
valor del cuartil uno es 1.
1 2
1 Q x = = . El 25% de los estudiantes
tiene como mximo un hijo.
b) Cuartil tres.
Despus de encontrar la frecuencia absoluta acumulada como se
muestra en la tabla siguiente:
Nmero de hijos
i
f
i
F
0 2 2
1 11 13
2 11 24
4 3 27
5 3 30
Total 30
03_cap3.p65 31/03/2006, 02:35 p.m. 132
133
Calculamos
3
4
n
, es decir,
3
4
n
=
( ) 3 30
4
=22,5
En la columna de la frecuencia absoluta acumulada ubicamos
i
F y
1 i
F
= < = < =
. Ubi-
camos el valor de la variable asociada a la frecuencia absoluta
acumulada
3
24,
i
F F = = es
3
2 x = ; luego, usando (3.12(a)) el
valor del cuartil tres es 2.
3 3
2 Q x = = . El 75% de los estudiantes
tiene dos o menos hijos.
Cuartiles a partir de una distribucin de frecuencias para
datos agrupados en intervalos de clase
Para obtener los cuartiles para datos agrupados en intervalos de
clase, se procede como en el caso del clculo de la mediana, tenien-
do en cuenta que la fraccin
2
n
incluida en la frmula (3.7) ser
cambiada por las fracciones
4
n
,
2
4
n
,
3
4
n
segn se requiera obte-
ner el cuartil uno, cuartil dos (mediana) o cuartil tres, respectiva-
mente.
Percentiles
Son nmeros que dividen el conjunto de datos en 100 partes igua-
les. De manera semejante a la mediana, en que la distribucin de
un conjunto de datos se dividi en dos partes, un 50% inferior y
otro 50% superior, o en cuartiles, en donde la distribucin se divi-
di en cuatro partes, cada una conteniendo un 25% de los datos.
As, por ejemplo, el percentil 10, P10, es el valor de la variable
debajo del cual se encuentra el 10% de los datos. Es importante
calcularlos en distribuciones con un gran nmero de datos.
A continuacin se presentan los mtodos de obtencin de los
percentiles para datos tabulados.
03_cap3.p65 31/03/2006, 02:35 p.m. 133
134
Datos sin agrupar en intervalos de clase y presentados en
una tabla de frecuencias
Se procede como en el caso del clculo de la mediana, teniendo en
cuenta que la fraccin
2
n
ser cambiada por la fraccin
100
n
k
de
acuerdo al percentil que sea de nuestro inters encontrar (k =1,2,,99),
para luego continuar con los pasos ya conocidos:
1) Encontrar las frecuencias absolutas acumuladas,
2) Obtener la fraccin
100
n
k
, donde k puede tomar los valo-
res k = 1, 2,. . . ,99,
3) En la columna de las frecuencias absolutas acumuladas, ubi-
car el intervalo
1
100
i i
kn
F F
<
, donde
1 i
F
es la fre-
cuencia absoluta acumulada inmediatamente inferior o
igual que
100
kn
y
i
F es la frecuencia absoluta acumulada
inmediatamente superior que
100
kn
,
4) Ubicar en la columna del recorrido de la variable el valor
i
x asociado a
i
F y encontrar el valor del percentil k de
acuerdo a la frmula siguiente:
1
1
1
k
si (a)
100
k
si (b)
2 100
k i i i
i i
k i- i
n
P x F F
o
x x n
P F F
= < <
+
= = <
(3.13)
03_cap3.p65 31/03/2006, 02:35 p.m. 134
135
Datos agrupados en intervalos de clase y presentados en
una tabla de frecuencias
Para obtener el percentil k , en el caso de una distribucin de fre-
cuencias para datos agrupados en intervalos de clase, seguir los
pasos 1), 2), 3) del caso anterior de datos sin agrupar en intervalos
de clase y, como paso 4), ubicar el intervalo de clase asociado a la
frecuencia absoluta acumulada
i
F y encontrar el valor del percentil
k de acuerdo a la frmula siguiente:
1
1 1
1
1 1
100
si (a)
100
si (b)
100
i
k i i i i
i i
k i i i
n
k F
kn
P L a F F
F F
kn
P L F F
= + < <
= = <
(3.14)
donde:
1 i
L
, es el lmite inferior del intervalo asociado a la frecuen-
cia absoluta acumulada
i
F y
i
a es la amplitud del intervalo aso-
ciado a
i
F .
Ejemplo 21
Considerando los datos de la edad de los estudiantes de maestra
del ejemplo 4, vamos a obtener el percentil 75, P
75
.
Solucin
Previamente se calculan las frecuencias absolutas acumuladas
como se muestra a continuacin:
Edades Frecuencia absoluta Frecuencia absoluta acumulada
[ )
1
,
i i
L L
i
f
i
F
[23 - 32) 6 6
[32 - 41) 12 18
[41 - 50) 8 26
[50 - 59) 2 28
[59 - 68] 2 30
Total 30
03_cap3.p65 31/03/2006, 02:35 p.m. 135
136
y al calcular
30
75 22, 5,
100 100
n
k = =
se cumple
1 i
F
= 18 <
22, 5
100
n
k =
<
i
F = 26, en este caso el intervalo
asociado a
3
26
i
F F = = es [ ) 41 50 , que contiene el valor de
la variable que ocupa la posicin
30
75 22, 5
100
=
. La amplitud
de dicho intervalo es
i
a =9 y el lmite inferior
1 i
L
=41. Entonces,
usando (3.14(a)), el valor del percentil 75, P75, es
1
1
1
100
i
k i i
i i
n
k F
P L a
F F
= +
=
22, 5 18 4, 5
41 9 41 9 46,1
26 18 8
+ = + =
.
El 75% de los estudiantes tiene edades inferiores a 46,1 aos.
Comentarios
Dependiendo de lo que se quiera representar o explicar y del tipo
de variable con la que estemos trabajando, se elegir a la estadsti-
ca de posicin ms apropiada segn el caso. Por ello, hacemos las
siguientes observaciones.
La media aritmtica es afectada por valores extremos de la
variable.
La mediana no es afectada por valores extremos (valores in-
feriores o superiores muy distantes del valor central) de la
variable.
La media, mediana y moda se pueden calcular para datos
cuantitativos.
La moda es la nica medida que sirve tanto para el caso de
variables categricas como para variables cuantitativas, pues-
to que su definicin no exige ordenar los valores de la varia-
ble, ni hacer operaciones matemticas con ellos. Por ejemplo,
si se est trabajando la distribucin de la variable nacionali-
dad para un determinado conjunto de personas, no tiene nin-
gn sentido hablar del promedio o de la mediana de esa dis-
tribucin; en cambio, s tiene sentido hablar de la moda.
03_cap3.p65 31/03/2006, 02:35 p.m. 136
13
Si se trabaja la distribucin de una variable cuantitativa, en
principio tiene sentido calcular la media, la moda y la media-
na; pero para efectos prcticos, puede no tenerlo. Entonces,
hace falta desarrollar un cierto criterio para decidir, en casos
particulares, cul es la mejor medida de tendencia central.
La media aritmtica es muy sensible a valores extremos. En-
tonces, si en una distribucin hubiera presencia de dichos
valores, la media no es la mejor de las medidas de tenden-
cia central. Por ejemplo, tenemos dos conjuntos de datos, al
triplicar el ltimo valor del conjunto 2, el nico valor que se
altera es el de la media.
Media Mediana Moda
Conjunto 1: 9,9,9,10,11,12,13,14,19 11.77 11 9
Conjunto 2: 9,9,9,10,11,12,13,14,57 16 11 9
Puesto que las tres medidas de posicin tienen debilidades
y fortalezas, vale la pena observarlas e interpretarlas en for-
ma conjunta. Una forma de entender la relacin entre estas
tres es localizando los valores de cada una de ellos en una
distribucin de frecuencias.
La siguiente figura muestra las tres formas ms comunes de
distribucin de frecuencias
Moda<Mediana< Media Media=Mediana=Moda Media<Mediana< Moda
(a) (b) (c)
En la distribucin de frecuencias (a), la posicin relativa de la
media, mediana y moda indica asimetra positiva.
La distribucin de frecuencias (b) nos muestra que la media,
mediana y moda de una variable son iguales. Esta distribucin
tiene forma de campana y se la conoce como distribucin normal (o
campana de Gauss).
03_cap3.p65 31/03/2006, 02:35 p.m. 137
138
En la distribucin de frecuencias (c), la posicin relativa de la
media, mediana y moda indica asimetra negativa
Ejemplo 22
Con la base de DATOS1-maestra vamos a obtener la media aritm-
tica, la mediana, la moda y el percentil 75 de la variable coeficiente
de inteligencia usando el SPSS.
Solucin
Al usar la base de DATOS1-maestra y los comandos del SPSS para
estadsticas de posicin, la salida del SPSS para la variable coefi-
ciente de inteligencia es:
Statistics
coeficiente de inteligencia
70
0
101,79
100,00
100,00
7125, 00
104,31
Valid
Mi ssing
N
Mean
Median
Mode
Sum
75 Percentiles
Media: El coeficiente de inteligencia promedio de los estudian-
tes de maestra es 101,79 puntos.
Mediana: El 50% de los estudiantes de maestra tienen un co-
eficiente de inteligencia menor a 100 puntos.
Moda: La mayora de los estudiantes de maestra tienen un
coeficiente de inteligencia igual a 100 puntos.
P
75
: El el 75% de los estudiantes de maestra tienen un coefi-
ciente de inteligencia menor a 104,3 puntos.
Ejemplo 23
Con la base de DATOS4-ciudadana obtendremos la media aritm-
tica, la mediana, la moda, percentil 25 y el percentil 75 de la varia-
ble nmero de elecciones a las que asisti, usando los comandos
del SPSS del captulo VII (procedimientos estadsticos).
03_cap3.p65 31/03/2006, 02:35 p.m. 138
139
Solucin
Se abre la base de DATOS4-ciudadana y usando los comandos
del SPSS para estadsticas de posicin para la variable nmero de
elecciones a las que asisti se obtiene lo siguiente:
Statistics
100
0
3,00
3,00
3
1
5
2,00
4,00
Valid
Missing
N
Mean
Median
Mode
Minimum
Maximum
25
75
Percentil es
Media: El nmero promedio de elecciones a la que asistieron
representantes vecinales fue 3.
Mediana: El 50% de los representantes vecinales asistieron a
menos de 3 elecciones.
Moda: La mayora de los ciudadanos asisti a 3 elecciones.
P
25
: El 25% de los representantes vecinales asistieron a menos
de 2 elecciones.
P
75
: El 75 % de los representantes vecinales asistieron a menos
de 4 elecciones.
Ejemplo 24
Con la base de DATOS3-educacin se obtendr la media aritmti-
ca, la mediana, la moda y los percentiles 10 y 90 para las variables
edad, tiempo de servicio en la docencia y nota promedio de los
participantes, usando el software SPSS.
Solucin
Se abre la base de DATOS3-educacin y usamos los comandos del
SPSS del captulo VII (procedimientos estadsticos). En este caso, se
seleccionan las variables edad, tiempo de servicio en la docencia y
nota promedio de los participantes en el programa de capacitacin.
03_cap3.p65 31/03/2006, 02:35 p.m. 139
140
En el siguiente cuadro se presentan los resultados que propor-
ciona el SPSS para las tres variables.
Edad de los Tiempo de Notas
participantes servicio promedio
N Valid 47 47 47
Mean 34,78 13,97 11,536788
Median 34,84 14,00 11,540694
Mode 30(a) 13(a) 8,8495(a)
Sum 1635 656 542, 2290
Percentiles 10 31,07 11,00 9, 556556
90 37,49 17,09 13,417391
a Multiple modes exist. The smallest value is shown
Media: La edad promedio de los participantes en el programa
de capacitacin fue 34,78 aos, es decir, 35 aos.
Mediana: El 50% de los participantes en el programa de capa-
citacin tienen menos de 34,84 aos, es decir, 35 aos.
Moda: La mayora de los participantes tena 30 aos, pero la
distribucin no es unimodal, existen otras modas.
P
10
: El 10% de los participantes en el programa de capacita-
cin tienen menos de 31,07 aos, es decir 31 aos.
P
90
: El 90% de los participantes en el programa de capacita-
cin tienen menos de 37,49 aos, es decir menos de 37 aos.
Queda para el lector hacer las interpretaciones de manera similar
de las estadsticas de posicin para las variables, tiempo de servi-
cio en la docencia y la nota promedio final de los participantes.
Medidas de dispersin
En la seccin anterior se definieron medidas que permiten encon-
trar la ubicacin del centro de una distribucin y que, por tanto,
contribuyen a la descripcin del correspondiente conjunto de datos
mediante un valor representativo; pero para lograr una imagen com-
pleta de cmo es la distribucin es necesario saber cmo se distribu-
yen los datos alrededor de ese valor representativo. Retomemos,
entonces, la segunda pregunta formulada en la introduccin del
presente captulo: Qu tan separados estn entre s los diferentes
valores que asume la variable? El objetivo del presente captulo es
encontrar una manera adecuada de responder la pregunta plantea-
03_cap3.p65 31/03/2006, 02:35 p.m. 140
141
da, es decir, encontrar una forma de medir la dispersin de los
datos. Entre las medidas de dispersin ms usadas estn: el rango,
la varianza, la desviacin estndar y el coeficiente de variacin.
Rango
Es la diferencia entre los valores mximo y mnimo de un conjunto
de datos.
Rango
mx mn
x x = (3.15)
Ejemplo 25
Los dos conjuntos de valores que siguen corresponden a los aos
de servicio en la docencia de 14 profesionales en Estadstica. Ob-
tendremos el rango para cada conjunto de valores.
Conjunto 1: 15 15 30 30 30 30 30 30 30 30 30 30 45 45
Conjunto 2: 15 15 20 30 30 30 30 30 40 40 40 40 40 45
Solucin
En el conjunto 1, cuyos valores ya ordenados en forma ascendente
son:
15 15 30 30 30 30 30 30 30 30 30 30 45 45
el mximo valor es 45 y el mnimo valor es 15; entonces, el
rango es: Rango =45-15=30 y, en el conjunto 2, tambin el mximo
valor es 45 y el mnimo valor es 15, e igualmente tiene Rango = 45-
15 = 30. Pero tenemos que aceptar que la primera distribucin es
menos dispersa que la segunda; sin embargo, el rango es el mismo
para las dos distribuciones. Por tanto, en este caso el rango es una
medida que no refleja las diferencias que segn la intuicin y la
observacin son evidentes entre las dos distribuciones. Este hecho
nos exige seguir buscando otras medidas de dispersin que supe-
ren la limitacin anterior.
Rango intercuartlico
Es la diferencia entre el cuartil uno y el cuartil tres y se expresa
como:
03_cap3.p65 31/03/2006, 02:35 p.m. 141
142
Rango intercuartlico =
3 1
Q Q (3.16)
Esta medida de dispersin nos permite saber en cunto se
diferencian el mayor valor del menor valor del 50% de los valores
que se ubican en la parte central de la muestra ordenada y, desde
luego, no se ve influenciada por la presencia de valores extremos.
Ejemplo 26
Con los datos presentados en el ejemplo 25, encontraremos el ran-
go intercuartlico para cada conjunto de valores.
Solucin
a) Para el conjunto 1 cuyos valores son: 15 15 30 30 30 30 30 30 30
30 30 30 45 45, encontraremos primero los cuartiles.
Cuartil uno: se tiene que n=14, la posicin es ( )
1
1
4
n +
= ( )
1
14 1 3, 75
4
+ =
y el entero ms cercano a 3,75 es 4; luego, el valor que ocupa la
posicin 4 es
1
Q =
( ) 4
x
=30.
Cuartil tres: tambin n = 14, la posicin es ( )
3
1
4
n +
= ( )
3
14 1 11, 25
4
+ =
y el entero ms cercano a 11,25 es 11; luego, el valor que ocupa la
posicin 11 es
3
Q =
( ) 11
x
=30.
Luego,
Rango intercuartlico =
3 1
Q Q = 30-30 =0.
b) Para el conjunto 2, cuyos valores son: 15 15 20 30 30 30 30 30 40
40 40 40 40 45, tambin primero encontraremos los cuartiles.
Cuartil uno: n=14, la posicin es ( )
1
1
4
n +
= ( )
1
14 1 3, 75
4
+ =
, el
entero ms cercano a 3, 75 es 4; luego, el valor que ocupa la posi-
cin 4 es
1
Q =
( ) 4
x
=30.
03_cap3.p65 31/03/2006, 02:35 p.m. 142
143
Cuartil tres: n=14, la posicin es ( )
3
1
4
n +
= ( )
3
14 1 11, 25
4
+ =
y
el entero ms cercano a 11,25 es 11; luego, el valor que ocupa la
posicin 11 es
3
Q =
( ) 11
x
=40.
Luego,
Rango intercuartlico =
3 1
Q Q = 40-30 =10.
En el conjunto 1, el rango intercuartlico es igual a 0, es decir,
no existe variabilidad en el 50% de los datos que se encuentran
ubicados en la parte central. Mientras que en el conjunto 2, el rango
intercuartlico es igual a 10, indicando que el menor valor y el
mayor valor del 50% de los datos que se encuentran ubicados en la
parte central, tienen una diferencia de 10 unidades.
Rango semi-intercuartlico
Es la diferencia promedio desde la mediana hacia los dos cuartiles;
es decir, evala, en promedio, qu tan lejos se hallan los valores de
los cuartiles
1
Q y
3
Q con respecto a la mediana, y se expresa
mediante la frmula:
Rango semi-intercuartlico =
3 1
2
Q Q
(3.17)
Ejemplo 27
Con los dos conjuntos de datos presentados en el ejemplo 25, corres-
pondientes a los aos de servicio en la docencia, con rangos ambos
iguales a 30, rangos intercuartlicos iguales a cero y diez respectiva-
mente, encontraremos el rango semi-intercuartlico en cada caso.
Solucin
Para el conjunto 1: Rango semi-intercuartlico =
3 1
2
Q Q
=
30 30
0
2
=
Para el conjunto 2: Rango semi-intercuartlico =
3 1
2
Q Q
=
40 30 10
5
2 2
= =
03_cap3.p65 31/03/2006, 02:35 p.m. 143
144
Para el conjunto 1, esta medida de dispersin nos dice que no hay
dispersin en el 50% central de los datos respecto a la mediana.
Para el conjunto 2, esta medida de dispersin nos dice que tanto el
valor del cuartil uno como el valor del cuartil tres distan de la
mediana en promedio en 5 unidades.
Ejemplo 28
En la Escuela de Educacin Primaria Juana de Arco, los estudian-
tes fueron sometidos a un examen odontolgico. Los siguientes
datos corresponden al nmero de dientes con caries en una mues-
tra de 7 alumnos de primer ao de primaria: 6, 0, 10, 8, 2, 3, 1.
Encontraremos:
a) El rango, b) rango intercuartlico, c) rango semiintercuartlico.
Solucin
a) El rango es:
Rango
mx mn
x x = =10 - 0 =10.
b) Para encontrar el rango intercuartlico:
Ordenamos las observaciones en orden creciente: 0, 1, 2, 3, 6, 8, 10
y previamente encontramos los cuartiles uno y tres:
Cuartil uno: calculamos la posicin
1 7 1
2
4 4
n + +
= =
entonces,
en la muestra ordenada, la observacin que ocupa la posicin 2 es
( ) 1 2
1 Q x = =
.
Cuartil tres: calculamos la posicin
3( 1) 3(7 1)
6
4 4
n + +
= =
en-
tonces, en la muestra ordenada, la observacin que ocupa la posi-
cin 6 es
( ) 3 6
8 Q x = =
.
Luego,
Rango intercuartlico =
3 1
Q Q =
8 1 7 =
.
Es decir, 7 es la diferencia entre el mayor y el menor nmero de
dientes con caries del 50% de la parte central de la muestra, a dife-
03_cap3.p65 31/03/2006, 02:35 p.m. 144
145
rencia del rango que nos indica que 1 es la diferencia entre el mayor
y el menor nmero de dientes con caries del 100% de la muestra.
c) Rango semiintercuartlico =
3 1
2
Q Q
=
8 1 7
2 2
=
=3,5. Esta
medida de dispersin nos indica que tanto el valor del cuartil uno
como el valor del cuartil tres de la variable nmero de dientes con
caries en el grupo de 7 alumnos, distan de la mediana en promedio
en 3,5 dientes con caries.
Cada una de las medidas que se han presentado hasta el mo-
mento proporcionan informacin parcial de la dispersin de la
muestra. Una medida que describe la dispersin de todos los valo-
res que conforman la muestra, es la varianza.
Varianza
Es una medida de dispersin y se define como la media o promedio
de los cuadrados de las diferencias de cada valor de la variable con
respecto a la media aritmtica, cuya expresin matemtica es:
( )
2
2 1
1
n
i
i
x X
S
n
=
1
n
i
i
x
donde X
n
=
=
(3.18)
Una frmula alternativa es la siguiente:
2
2
2 1
1
n
i
i
x n X
S
n
=
(3.19)
Cabe indicar que la varianza tambin se puede expresar como:
( )
2
2 1
n
i
i
x X
S
n
=
(3.20)
03_cap3.p65 31/03/2006, 02:35 p.m. 145
146
Cuando el tamao de muestra es grande, las frmulas (3.18) y
(3.20) proporcionan resultados similares.
La varianza es una buena medida de la dispersin absoluta
de un conjunto de datos. Sin embargo, tiene un problema, puesto
que se consideran los cuadrados de las diferencias, y no las dife-
rencias mismas, el resultado no se encuentra en la misma escala
que los datos originales. Por ejemplo, si los datos se refieren a esta-
turas de un grupo de estudiantes, en centmetros, entonces tene-
mos la medida de dispersin varianza, en centmetros cuadrados,
y la media aritmtica en centmetros. Este problema se resuelve
definiendo la desviacin estndar.
Desviacin estndar
Es la raz cuadrada de la varianza, y se expresa mediante la frmula:
( )
2
1 1
S ,
1
n n
i i
i i
x X x
donde X
n n
= =
= =
(3.21)
Tanto la varianza como la desviacin estndar miden la dis-
persin de todos los valores de la muestra con respecto a la media
de la misma. Para efectos de interpretacin, la desviacin estndar
es la ms apropiada.
Ejemplo 29
Los siguientes datos representan las edades de seis nios en aos
cumplidos:
1, 3, 3, 0, 4, 1. La media aritmtica es
2 X =
aos. Obtendre-
mos la varianza.
Solucin
Los clculos auxiliares para el clculo de la varianza se muestran
en la siguiente tabla:
03_cap3.p65 31/03/2006, 02:35 p.m. 146
14
Edades Edad - Media (Edad- Media)
2
0 0-2=-2 4
1 1-2=-1 1
1 1-2=-1 1
3 3-2=1 1
3 3-2=1 1
4 4-2=2 4
Total
( )
2
1
n
i
i
x X
=
=12
Luego, el valor de la varianza es:
( )
2
2 2
1
1 12
2, 4
1 5
n
i
i
S x X aos
n
=
= = =
.
Desviacin estndar
2
2, 4 1, 5 S aos aos = =
.
La variabilidad media de las edades de los nios respecto a la
media aritmtica es de 1,5 aos.
Si resolvemos el mismo problema usando el SPSS, se tienen los
siguientes resultados:
N Valid 6
Mean 2, 00
Std. Deviation 1,549
Variante 2,400
Para obtener la varianza a partir de una distribucin de fre-
cuencias, se consideran los siguientes casos:
Datos sin agrupar en intervalos de clase y presentados en
tablas de frecuencias
Para datos sin agrupar en intervalos de clase, la frmula de la
varianza (3.18) se expresa como:
03_cap3.p65 31/03/2006, 02:35 p.m. 147
148
( )
2
2 1
1
k
i i
i
x X f
S
n
=
(3.22)
donde
1
,
k
i i
i
x f
X
n
=
=
= =
(3.23)
Otra expresin de la varianza es la siguiente:
2
2
2 1
1
k
i i
i
x f n
S
n
X
=
1
k
i i
i
x f
donde X
n
=
=
(3.24)
Ejemplo 30
Los alumnos del doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM matri-
culados en el semestre acadmico 2000-I y que ingresaron a la uni-
versidad entre 1997 y 1999. El estudio se llev a cabo entre abril y
junio de 2000. Como el nmero total de estudiantes que cursaban
las diversas maestras era alrededor de 2 500, despus de grandes
debates, los alumnos del doctorado en Educacin decidieron se-
leccionar una muestra de 30 estudiantes de la Maestra en Gestin
Educativa. A continuacin se presentan los datos para la variable
nmero de hijos de los 30 maestristas. Encontraremos la varianza
y desviacin estndar del nmero de hijos.
03_cap3.p65 31/03/2006, 02:35 p.m. 148
149
Solucin
Usaremos la expresin (3.24). Los datos y los clculos auxiliares se
presentan en la siguiente tabla:
i
x
i
f
2
i
x
2
i i
x f
0 2 0 0
1 11 1 11
2 11 4 44
4 3 16 48
5 3 25 75
Total 30 178
Reemplazando en la expresin (3.24) se encuentra:
2 2
2 1
1
k
i i
i
x f nX
S
n
=
=
( )
2
178 30 2
30 1
=2 hijos
2
2
2 hijos 1, 41 hijos S = =
La variabilidad media del nmero de hijos respecto a la media
aritmtica es de 1,4 hijos.
Datos agrupados en intervalos de clase y presentados en
una tabla de frecuencias
Para datos agrupados en intervalos de clase, la frmula de la
varianza (3.18) se expresa como sigue:
( )
2
'
2 1
'
1
donde,
es el nmero de intervalos de clase
es la marca de clase del i-simo intervalo
es la frecuencia absoluta asociada al i-simo intervalo
k
i i
i
i
i
x X f
S
n
k
x
f
=
(3.25)
Otra expresin de la varianza para datos agrupados con
intervalos de clase es la siguiente:
03_cap3.p65 31/03/2006, 02:35 p.m. 149
150
2
' 2 ' 2
2 1 1
donde
1
k k
i i i i
i i
x f nX x f
S X
n n
= =
= =
(3.26)
y la desviacin estndar es:
2
S S = en cualquiera de los dos casos.
Ejemplo 31
Los alumnos del doctorado en Educacin matriculados en el se-
mestre 2000, en el marco del curso de Estadstica Aplicada a la
Investigacin, realizaron una investigacin con el objetivo de esta-
blecer el perfil de los estudiantes de maestra de la UNMSM matri-
culados en el semestre acadmico 2000-I y que ingresaron a la uni-
versidad entre los aos 1997 y 1999. El estudio se llev a cabo entre
abril y junio de 2000. Como el nmero total de estudiantes que cur-
saban las diversas maestras era alrededor de 2 500, despus de
grandes debates, los alumnos del doctorado en Educacin decidie-
ron seleccionar una muestra de 30 estudiantes de la maestra en
Gestin Educativa. A continuacin se presentan los datos para la
variable edad de los estudiantes. Obtengamos la varianza y la des-
viacin estndar.
Solucin
Se resumen los pasos para la obtencin de la varianza y los clculos
se presentan en el siguiente cuadro:
Se calculan las marcas de clase
'
i
x ,
se genera una columna con los productos de cada marca
de clase por su correspondiente frecuencia
'
i i
x f ,
la columna anterior (los resultados obtenidos en cada caso)
se vuelve a multiplicar por la correspondiente marca de cla-
se, resultando
2
'
i i
x f
,
03_cap3.p65 31/03/2006, 02:35 p.m. 150
151
Edades
'
i
x
i
f
'
i i
x f
2
'
i i
x f
[ )
1
,
i i i
L L
'
1
1 1203
40,1
30
n
i i
i
X x f
n
=
= = =
aos
y reemplazando en (3.26) el valor de la varianza es:
( )
2
2
51091, 5 30 40,1
29
S
= = 98,31 aos
2
y el valor de la desviacin estndar es:
98, 31 S = =
9,92 aos.
La dispersin media de las edades de los estudiantes respecto
a la media es de 10 aos.
Propiedades de la varianza
Propiedad 1. La varianza debe ser siempre un valor no negativo
2
0 S
.
En la expresin
( )
2
2 1
1
k
i i
i
x X f
S
n
=
, como
( )
2
0 0,
i i
x X y f entonces
( )
2
0,
i i
x X f de ah
que ( )
2
1
0
k
i
i
x X
=
, por tanto
2
S siempre es no negativo.
03_cap3.p65 31/03/2006, 02:35 p.m. 151
152
Propiedad 2. La varianza de una constante es igual a cero. Esto es,
( ) 0 V C = , donde
C
es cualquier constante (Convenimos que
2
(.) S V = ).
Supongamos que las observaciones
i
x = C para
i
, entonces
C X = y
( )
2
0
i
x X = , pues las observaciones toman un nico valor,
por lo tanto V( C )=0 .
Propiedad 3. La varianza de una variable mas una constante es
igual a la varianza de la variable. Esto es, si
i i
y x C = + , i =1,,n
entonces ( ) ( ) ( ) V Y V X C V X = + = .
Ejemplo 32
El director del colegio Guadalupe esta preocupado porque duran-
te el ao acadmico 2004, algunos alumnos han faltado frecuente-
mente a clases. Con la finalidad de verificar su percepcin solicita
al director acadmico que tome una muestra de 20 estudiantes que
en el ao 2004 cursaron el cuarto ao de secundaria y obtenga
para dichos estudiantes:
a) La varianza de la variable X , nmero de inasistencias de
los alumnos del cuarto ao en el mes de noviembre.
b) Si en el mes de diciembre cada uno de los 20 estudiantes
faltaron a clases 2 das ms que en noviembre, cunto ser
la varianza de la variable Y , nmero de insistencias de
los estudiantes de cuarto ao durante el mes de diciembre?
Los datos de la muestra son:
Nmero de inasistencias 1 3 6 7 8
en el mes de noviembre
i
f 3 4 8 3 2
Solucin
a) Usando la expresin (3.24), el valor de la varianza para la varia-
ble X , nmero de inasistencias de los alumnos del cuarto ao en
el mes de noviembre es:
2
2
602-20(5)
5, 37
19
S = = , sabiendo que
5, 2 X =
.
03_cap3.p65 31/03/2006, 02:35 p.m. 152
153
b) Si a cada observacin del mes de noviembre le sumamos la
constante C = 2 inasistencias del mes de diciembre, obtendremos
2
i i
y x = + , i = 1,,5. Para calcular la varianza de la variable Y ,
nmero de inasistencias durante el mes de diciembre, aplicamos
la propiedad ( ) ( ) ( ) V Y V X C V X = + = y se tiene:
V ( Y )= ( ) ( ) 2 5, 37 V X V X + = = . Vemos que la varianza
de la variable Y , es igual a la varianza de la variable X .
Propiedad 4. La varianza de una constante por una variable, es
igual al producto de la constante al cuadrado por la varianza de la
variable. Esto es, si
i i
y Cx = , i =1,,n entonces
( )
2
( ) ( ) V Y V CX C V X = = .
Ejemplo 33
Con los mismos datos del problema anterior aplicaremos la pro-
piedad 4.
Solucin
Ya se encontr que el valor de la media aritmtica es 5 X = y el
valor de la varianza es
2
5, 3 7 S =
.
Supongamos que el nmero de inasistencias de cada alumno
se duplica, esto es, 2
i i
y x = .
Entonces la constante es C=2 y, aplicando la propiedad, se
tiene que, ( ) ( )
2
V Y C V X = =
2
2 (5, 37) 21, 48. = Vemos en este
caso que la varianza s sufri un cambio al haber multiplicado por
una constante a todas las observaciones.
Propiedad 5. Dados dos conjuntos de datos de tamaos, medias y
varianzas respectivas:
1 2
, n n ;
2 2
1 2
1 2
, ; , X X S S
y si se desea cal-
cular la varianza global de las dos muestras se aplica la siguiente
frmula:
03_cap3.p65 31/03/2006, 02:35 p.m. 153
154
( ) ( )
2 2
2 2
1 2
1 2
2 1 1 2 2
1 2 1 2
( ) ( )
( ) ( )
X X n X X n
S n S n
S
n n n n
+
+
= +
+ +
donde:
el primer trmino:
2 2
1 1 2 2
1 2
( ) ( ) S n S n
n n
+
+
representa la varia-
bilidad dentro de cada muestra y se le denomina intravarianza;
el segundo trmino:
( ) ( )
2 2
1 2
1 2
1 2
( ) ( ) X X n X X n
n n
+
+
donde
X
=
1 2
1 2
1 2
X n X n
n n
+
+
, representa la variabilidad entre las
dos muestras y se le denomina intervarianza. Por tanto la varianza
global de las dos muestras es,
2
intravarianza intervarianza S = +
Esta propiedad se puede generalizar para ms de dos muestras.
Ejemplo 34
En el colegio San Carlos, en un concurso de lgebra, tres alumnos
por cada seccin de quinto ao de secundaria obtuvieron las cali-
ficaciones siguientes:
Seccin A: 7, 9,11
2
1
1
9 2, 7 X S = =
Seccin B: 11,14,17
2
2
2
14 6, 0 X S = =
Encontraremos la varianza global de las calificaciones de los
6 alumnos, aplicando la propiedad 5.
Solucin
Sea la muestra 1 la seccin A y la muestra 2 la seccin B, entonces
se tiene:
03_cap3.p65 31/03/2006, 02:35 p.m. 154
155
Muestra 1:
2
1
1 1
3 9 2, 7 n X S = = =
Muestra 2:
2
2
2 2
3 14 6, 0 n X S = = =
El valor de la intravarianza es:
2 2
1 1 2 2
1 2
( ) ( ) 2, 7(3) 6(3) 8,1 18
4, 35
3 3 6
S n S n
n n
+ + +
= = =
+ +
El valor de la media global es:
1 2
1 2
1 2
3(9) 3(14) 27 42 69
11, 5
3 3 6 6
global
n X n X
X
n n
+ + +
= = = = =
+ +
El valor de la intervarianza es:
( ) ( )
2 2
1 2
1 2
1 2
( ) ( ) X X n X X n
n n
+
=
+
2 2
(9 11, 5) 3 (14 11, 5) 3
6, 25
3 3
+
=
+
Finalmente, el valor de la varianza global es:
2
intravarianza intervarianza S = + = 4,35 +6,25 = 10,6
Ejemplo 35
Con los datos presentados en el ejemplo 32 aplicaremos la propie-
dad 5.
Solucin
Al dividir la muestra total en las siguientes dos submuestras, se
obtiene:
Muestra 1:
i
x
i
f
i
x
i
f
1 3 1 x 3= 3
3 4 3 x 4= 12
6 8 6 x 8= 48
Total 15 63
03_cap3.p65 31/03/2006, 02:35 p.m. 155
156
Muestra 2:
i
x
i
f
i
x
i
f
7 3 7 x 3=21
8 2 8 x 2=16
Total 5 37
Para la muestra 1 se tiene:
n
1
=15 1
63
15
X =
=4,2
( )
3
2
2 2 2
2 1
1
(1 4, 2) 3 (3 4, 2) 4 (6 4, 2) 8
4,16
15
i i
i
x X f
S
n
=
+ +
= = =
+
= = =
(3.27)
En otras palabras, el teorema nos dice que en el intervalo se
encuentra al menos
2
1
1
k
2
1
(1 )%
k
=
2
1 8
1
3 9
=
88,9%.
Si la distribucin de frecuencias se asemeja grficamente a
una forma de campana, como en la siguiente figura:
-3s -2s -1s 0 +1s +2s +3s
03_cap3.p65 31/03/2006, 02:35 p.m. 158
159
en este caso, se le suele llamar curva normal y la relacin entre
la desviacin estndar (
S
) y la proporcin de observaciones es:
Lmites dentro de los cules Porcentaje
se ubican las observaciones de observaciones
Entre 1 1 S y S + 68,2
Entre 2 2 S y S + 95,4
Entre 3 3 S y S + 99,8
Entre
1 X y S +
34,1
Entre
1 X y S
34,1
Entre
2 X y S +
47,7
Entre
2 X y S
47,7
Entre
3 X y S +
49,9
Entre
3 X y S
49,9
a esta relacin se conoce como la regla emprica, porque su-
puestamente los porcentajes de observaciones establecidos se ob-
servan en la prctica.
Ejemplo 38
Un club deportivo tiene como propsito planear las actividades re-
creativas. La distribucin de frecuencias de las edades tiene forma
acampanada (normal), con media y desviacin estndar iguales a
27 aos y 8 aos respectivamente, como se muestran en la tabla y el
grfico que se presentan. Se desea conocer cual es el porcentaje de
socios cuyas edades oscilan entre 11 y 43 aos.
1 i i
L L
'
i
x
Frecuencia
[5-9) 7 2
[9-13) 11 3
[13-17) 15 7
[17-21) 19 12
[21-25) 23 15
[25-29) 27 23
[29-33) 31 16
[33-37) 35 12
[37-41) 39 7
[41-45) 43 2
[45-49] 47 1
03_cap3.p65 31/03/2006, 02:35 p.m. 159
160
Solucin
La distribucin de la variable edad tiene forma normal, como tam-
bin se puede observar en el grfico de la figura anterior,
con
27 aos y 8 aos X S = =
. El problema consiste en encon-
trar el valor de k.
Si k k(8) S = y la proporcin de edades debe oscilar
entre 11 y 43, entonces
(8) X k +
=43 y
(8) X k
= 11, luego
(8) k = 4327=2711=16 y por tanto
2 k =
y el porcentaje de
personas cuyas edades oscilan entre 11 y 43 es el 95,4% como
establece la relacin.
Para compronbar que la relacin terica se cumple en la
prctca, observamos la tabla de distribucin de frecuencias, y con-
tamos las observaciones comprendidas desde la edad 11 hasta 43
aos se tiene:
En el intervalo [9-13) la amplitud es igual 4 y tiene 3 observa-
ciones. Pero necesitamos contar las frecuencias exactamente desde
11; entonces, tenemos que entre 11 y 13 hay una amplitud de 2 y le
corresponde una frecuencia de
2(3)
1, 5
4
=
que se aproxima a 2.
Asimismo, en el intervalo [41-45) la amplitud es igual a 4 y su
frecuencia es 2, entonces desde 41 hasta 43 la amplitud es 2 y su
frecuencia igual a
2(2)
1
4
=
.
Ahora ya tenemos las frecuencias que estn comprendidas en
el intervalo 11 y 43 aos y sumando tenemos: 2+7+12+15+23+
16+12+7+1=95. La proporcin, entonces, es
95
0, 95
100
=
o, en por-
03_cap3.p65 31/03/2006, 02:35 p.m. 160
161
centaje, 95%. Note que el porcentaje observado es una aproximacin
aceptable del porcentaje especificado por la regla emprica.
Puntajes Estandarizados
Los valores originales
i
x de un conjunto de datos tambin se pue-
den expresar en puntajes estandarizados
i
z , donde el puntaje es-
tandarizado es la distancia a la que se encuentra el valor
i
x , por
arriba o por debajo de la media, medida en unidades de la desvia-
cin estndar, es decir:
i
i
x X
z
S
=
(3.28)
Este puntaje estandarizado determina la posicin de una ob-
servacin dada, en relacin a la media y en unidades de la desvia-
cin estndar.
Si el valor de
i
z es negativo, indica que la observacin queda
debajo (a la izquierda) de la media; un valor de
i
z positivo indica
que la observacin queda arriba (a la derecha) de la media.
Ejemplo 39
Tenemos los siguientes datos, correspondientes al peso y altura de
tres estudiantes universitarias:
Estudiante Peso (Kg) Altura (cm)
X Y
Mara 80 175
Ana 65 160
Rosa 60 172
Media aritmtica
X
= 70 Kg
Y
= 164 cm
Desviacin Estndar
x
S =10 Kg
y
S = 6 cm
Para el caso de las tres estudiantes, encontramos los puntajes
estandarizados
i
z .
Solucin
Encontramos los respectivos valores estandarizados z para la
variable X, as tenemos:
03_cap3.p65 31/03/2006, 02:35 p.m. 161
162
Mara:
1
1
80 70
1
10
x X
z
S
= = = +
desviaciones estndar
Ana:
2
2
65 70
0, 5
10
x X
z
S
= = =
desviaciones estndar
Rosa:
3
3
60 70
1
10
x X
z
S
= = =
desviaciones estndar.
Los resultados se resumen en la siguiente tabla:
Estudiante Peso (Kg) Puntaje estandarizado
X
Mara 80 +1 desviacin estndar
Ana 65 -0,5 desviaciones estndar
Rosa 60 -1 desviaciones estndar
De igual manera se obtienen los valores
i
z para los valores
observados de la variable Y
Estudiante Altura (cm) Puntaje estandarizado
Y
Mara 175 +1,83 desviacin estndar
Ana 160 0,67 desviacin estndar
Rosa 172 +1,33 desviacin estndar
Como se puede distinguir en las tablas anteriores, la unidad
de medida que tenga cada variable no importa, sus valores z se
miden en desviaciones estndar, luego pueden ser comparables.
As podemos decir, respecto a la variable peso, que Mara se en-
cuentra a una desviacin estndar por arriba de la media, mien-
tras que Rosa se encuentra a una desviacin estndar por debajo
de la media. Respecto a la variable altura, Mara se encuentra a
1,83 desviaciones estndar por arriba de la media, mientras que
Rosa se encuentra a 1,33 desviaciones estndar, tambin arriba de
la media.
Ejemplo 40
Los siguientes datos corresponden a las calificaciones de un gru-
po de estudiantes en el curso de Estadstica. La media es 34,6 y la
desviacin estndar 9,6. Supngase que Pedro tiene una califica-
03_cap3.p65 31/03/2006, 02:35 p.m. 162
163
cin de 48. Cul ser la ubicacin de Pedro en el grupo respecto a
su nota?
Solucin
Encontraremos la nota estandarizada de Pedro, reemplazando su
calificacin en la frmula (3.28):
48 34, 6
1, 4
9, 6
z
= =
. Luego, la nota de Pedro se ubica a 1,4
desviaciones estndar por arriba de la media aritmtica.
Ejemplo 41
Dos alumnos rindieron exmenes en los cursos de razonamiento
matemtico y razonamiento verbal, y sus calificaciones y medidas
importantes se presentan a continuacin.
Individuo Calificaciones originales
Razonamiento Razonamiento
matemtico, X verbal, Y
Manuel
1
x =25
1
y =75
Juan
2
x =32
2
y =70
Medidas Cursos
Razonamiento Razonamiento
matemtico verbal
Media
X
=20,9
Y
= 61,3
Aritmtica
Desviacin
x
S = 8
y
S = 15,2
estndar
a) En cul de los dos cursos Manuel obtuvo un mejor rendimiento?
b) En cul de los dos cursos Juan obtuvo un mejor rendimiento?
c) Quin de los dos alumnos y en cul de los dos cursos obtuvo
una mejor ubicacin?
Solucin
Para responder las preguntas planteadas debemos estandarizar
las calificaciones originales, las mismas que se presentan a conti-
nuacin.
03_cap3.p65 31/03/2006, 02:35 p.m. 163
164
Individuo Calificaciones originales Puntajes estandarizados
Razonamiento Razonamiento Razonamiento Razonamiento
matemtico,X verbal,Y matemtico verbal
Manuel
1
x =25
1
y =75 1
25 20, 9
0, 51
8
z
= =
1
75 61,3
0, 90
15, 2
w
= =
Juan
2
x =32
2
y =70 2
32 20, 9
1, 39
8
z
= = 2
70 61,3
0, 57
15, 2
w
= =
a) Manuel obtuvo mejor rendimiento en el curso de razonamiento
verbal, puesto que el valor
1
w = 0,90 es mayor que
1
z = 0,51.
b) Juan obtuvo mejor rendimiento en el curso de razonamiento ma-
temtico, puesto que el valor
2
z = 1,39 es mayor que
2
w = 0,57.
c) Juan obtuvo la mejor ubicacin en el curso de razonamiento ma-
temtico, puesto que el valor
2
z = 1,39 es el mayor de todos los
puntajes estandarizados, esto es, la nota de Juan est a 1,39 des-
viaciones estndar por arriba de la media.
Coeficiente de variacin
El coeficiente de variacin CV se define como:
S
CV
X
=
(3.28)
donde:
X
es la media aritmtica y
S
, la desviacin estndar
Tambin se expresa en porcentajes:
(100%)
S
CV
X
=
(3.29)
Mide la dispersin de los datos con respecto a la media. Fre-
cuentemente se usa para comparar la variabilidad de dos o ms
conjuntos de datos que estn expresados en diferentes unidades.
El grupo de datos con mayor coeficiente de variacin, es el que
tiene mayor dispersin. Si las medias aritmticas de los dos grupos
son iguales y expresados en las mismas unidades, entonces el gru-
po que tenga mayor desviacin estndar ser el de mayor disper-
sin o variacin.
03_cap3.p65 31/03/2006, 02:35 p.m. 164
165
Ejemplo 42
El curso de Estadstica se dict a dos grupos de estudiantes. El
grupo 2 realiz el curso con el auxilio del software SPSS y las cali-
ficaciones fueron de 0 a 200; mientras que el grupo 1 lo realiz con
la metodologa tradicional y las calificaciones fueron de 0 a 100.
Grupo 1: 10 20 30 40 50
Grupo 2: 60 85 110 135 160
En cul de los dos grupos la dispersin es mayor?
Solucin
En el siguiente cuadro se muestra que las desviaciones estndar
son 15,81 y 39,53 respectivamente; sin embargo, no se puede decir
que en el segundo grupo existe mayor dispersin que en el prime-
ro, puesto que las calificaciones estn en diferentes escalas, por lo
que usaremos el coeficiente de variacin.
Datos 1 Datos 2
Media 30, 0000 110, 0000
Desviacin estndar 15, 81139 39,52847
Coeficiente de variacin 0,527 0,359
El coeficiente de variacin para el primer grupo es CV1=0,527
(52,7%) y, para el segundo grupo, CV2=0,359(35,9%), indicando
que en el primer grupo existe mayor dispersin relativa que en el
segundo.
Ejemplo 43
Obtendremos los coeficientes de variacin para la variable nmero
de hijos del ejemplo 30 y para la variable edad del ejemplo 31.
Variable Media aritmtica Desviacin estndar
Edad 40, 1 9, 91
Nmero de hijos 2 1, 41
Solucin
a) Para el nmero de hijos de los estudiantes, el coeficiente de va-
riacin toma el valor:
1, 41
0, 705
2
CV = =
(70, 5%) .
03_cap3.p65 31/03/2006, 02:35 p.m. 165
166
b) Para la edad de los estudiantes, el coeficiente de variacin toma
el valor:
9, 91
0, 2471(24, 71%)
40,1
CV = =
por lo que la variable
nmero de hijos es relativamente ms dispersa que la variable
edad.
Ejemplo 44
En un colegio de educacin especial fue de inters del Director
evaluar la conducta de sus estudiantes a travs de las siguientes
variables: conducta de aislamiento ( X ), cuantificada mediante el
tiempo que el estudiante permanece aislado en un periodo de 2
horas; nmero de participacin en clase (
Y
); realizacin de tarea
(Z), medida mediante el porcentaje del tiempo que los nios per-
manecan haciendo las tareas.
Observ una muestra de 20 estudiantes, de quienes se presen-
ta la media y la desviacin estndar de las variables evaluadas. Es
nuestro inters usar dichos resultados para evaluar la variabili-
dad de las mismas.
Medidas de Variables
posicin y
dispersin
Conducta de Participacin en Realizacin de
aislamiento clase tareas
Media
X
=56 minutos
Y
=7,58
Z
=78,35%
participaciones
Desviacin
x
S =4,76 minutos
y
S =2,66
z
S
=19,35%
estndar participaciones
Solucin
Observamos que las tres variables estn expresadas en diferentes
unidades de medida; por tanto, es pertinente hacer uso del coefi-
ciente de variacin como medida de dispersin para analizar la
variabilidad de las tres variables.
03_cap3.p65 31/03/2006, 02:35 p.m. 166
16
Medidas de Conducta de Participacin en Realizacin de
dispersin aislamiento clase tareas
Coeficiente de
x
CV =8,5%
y
CV =35,09%
z
CV
=24,7%
variacin
La variable con menor dispersin relativa o menor coeficiente
de variacin es la conducta de aislamiento, indicando una menor
heterogeneidad que las variables nmero de participaciones en
clase y realizacin de tareas.
Ejemplo 45
Con la base de DATOS1-maestra obtenemos la varianza y la des-
viacin estndar para los coeficientes de inteligencia usando los
comandos del SPSS.
Solucin
Se abre la base de DATOS1-maestra y usamos los comandos del
captulo VII (procedimientos estadsticos).
Los resultados que proporciona el SPSS para la variable coefi-
ciente de inteligencia son:
Coeficiente de N Range Mean Std. Deviation Variante
Inteligencia 70 27 101,79 6,282 39, 464
Media aritmtica, 101,79 puntos, varianza, 39,46 puntos
2
, des-
viacin estndar, 6,28 puntos y el valor del coeficiente de variacin
es:
6, 282
(100%) 6,17%.
101, 79
CV = =
Ejemplo 46
Con la base de DATOS3-educacin y para las variables: tiempo de
servicio de los docentes, edad de los docentes y rendimiento pro-
medio de los docentes en el programa de capacitacin, encontra-
mos el rango, la varianza, la desviacin estndar y el coeficiente de
variacin, usando los comandos del SPSS.
03_cap3.p65 31/03/2006, 02:35 p.m. 167
168
Solucin:
Se abre la base de DATOS3-educacin y se usan los comandos del ca-
ptulo VII (procedimientos estadsticos) y se obtiene la siguiente salida:
Edad de los Tiempo de Notas
Participantes servicio promedio
N 47 47 47
Mean (media aritmtica) 34,78 13,97 11, 536788
Std. Deviation (desviacin 2,264 2,080 1, 3462899
estndar)
Variance (varianza) 5,126 4,326 1,812
Range (rango) 9 8
5, 2505
Podemos decir que la media aritmtica del tiempo de servicio
es de 13,97 aos; la varianza es 4,326 aos
2
; la desviacin estndar,
2,08 aos y el valor del coeficiente de variacin es :
2, 08
(100%) 14, 89%
13, 97
CV = =
.
Si calculamos el coeficiente de variacin para las otras varia-
bles, se tiene que el CV para la variable edad de los participantes es
igual a 6,5%; y el CV para la variable notas promedio es igual al
11,67%. Luego, la variable edad de los participantes tiene los valo-
res ms homogneos respecto a la media, por tener menor CV que
las otras variables, a pesar de tener la mayor desviacin estndar.
Medidas de forma: Asimetra o sesgo y curtosis o
apuntamiento
Asimetra
Adems de las medidas de posicin y dispersin, es posible obte-
ner otras medidas respecto al grado de asimetra de la distribucin
de frecuencias, porque estas medidas constituyen una de las ca-
ractersticas de importancia de los datos. En la prctica casi nunca
se encuentran polgonos o histogramas perfectamente simtricos,
por lo que el grado en el cual la distribucin no es simtrica consti-
tuye su sesgo.
La asimetra de las distribuciones unimodales se mide con el
sesgo de Pearson y se define como la diferencia entre la media y la
moda. Si la diferencia es positiva, decimos que la asimetra es posi-
03_cap3.p65 31/03/2006, 02:35 p.m. 168
169
tiva y grficamente la curva presenta la cola ms larga a la dere-
cha; si la diferencia es cero la curva es simtrica; si la diferencia es
negativa decimos que la asimetra es negativa y grficamente la
curva presenta la cola ms larga a la izquierda, como se muestra en
las siguientes figuras:
Mo Me X < <
Mo Me X = =
X Me Mo < <
Asimetra positiva Simtrica Asimetra negativa
La medida obtenida depende de las unidades que en cada
caso se usen, por lo que, para comparar la asimetra de dos o ms
curvas, es necesario estandarizar los sesgos, obtenindose la si-
guiente frmula:
Primer coeficiente de asimetra
1
X Mo
a
S
=
(3.30)
Este coeficiente de asimetra se compara con el valor cero, que
corresponde a la distribucin normal
1
( 0) a = . As, si tenemos:
1
0 a > la asimetra de la distribucin de frecuencias es positiva,
1
0 a < la asimetra de la distribucin de frecuencias es negativa,
1
0 a = la distribucin de frecuencias es simtrica.
En distribuciones que no son muy asimtricas se cumple la
siguiente relacin emprica
( ) moda 3 media-mediana X = . (3.31)
Usando esta relacin, el sesgo de Pearson se aproxima con la
siguiente frmula:
Segundo coeficiente de asimetra
( )
2
3 X Me
a
S
= = (3.32)
Este coeficiente de asimetra se compara con el valor cero, que
corresponde a la distribucin normal
2
( 0) a = . As, si tenemos:
03_cap3.p65 31/03/2006, 02:35 p.m. 169
10
2
0 a > la asimetra de la distribucin de frecuencias es positiva,
2
0 a < la asimetra de la distribucin de frecuencias es negativa,
2
0 a = la distribucin de frecuencias es simtrica.
Coeficiente de asimetra de tercer orden
( )
3
3 3
/
i
x X n
a
S
= =
= =
( ) 3 40,1 38, 75
0, 4085
9, 915
=
, por lo tanto la distribucin de las edades
es moderadamente asimtrica positiva.
Curtosis
El coeficiente de curtosis de un conjunto de datos unimodal, es una
medida de apuntamiento o aplastamiento de un polgono de fre-
cuencias.
Si la curva de frecuencias es muy en punta, las observaciones
estn concentradas al centro y se denomina leptocrtica y, si es
muy plana, recibe el nombre de platicrtica. Curvas con apunta-
miento medio reciben el nombre de mesocrticas.
Pearson tuvo el mrito de formalizar el concepto de curtosis,
proponiendo el coeficiente de curtosis de cuarto orden,
4
a :
( )
4
1
4 4
3,
n
i
i
x X
n
a
S
=
(3.33)
03_cap3.p65 31/03/2006, 02:35 p.m. 170
11
donde S es la desviacin estndar de los datos.
ste es un coeficiente sin dimensin. En distribuciones nor-
males,
( )
4
1
4
n
i
i
x X
n
S
=
(3.34)
donde ( )
3 1
Q Q es el rango intercuartlico y
90 10
P P
es el rango interpercentlico. En distribuciones normales,
( )
3 1
90 10
1
2
Q Q
P P
= =
( ) 3 26, 68 27
0,118
8,11
=
La distribucin tiene una ligera asimetra negativa, pero se
podra decir que es casi simtrica.
( )
75 25
90 10
1
2
0, 263
P P
k
P P
=
( )
1
31 23
2
0, 263 0, 2 0, 263 0, 063
38, 6 15
= =
Ejemplo 55
Los siguientes datos corresponden al nmero de libros revisados
por 22 estudiantes de ltimo ao de Filosofa, durante el ao aca-
dmico 2003. Encontraremos los valores literales representndo-
los luego en el grfico de caja haciendo uso del SPSS
62 88 75 66 52 73 35 65 147 76 40 51 69 68 72 48 82 54 79 42 50 38
Solucin
Mediana y los cuartos:
a) Ordenando la muestra, se tiene:
35 38 40 42 48 50 51 52 54 62 65 66 68 69 72 73 75 76 79 82 88 147
b) Profundidad de la mediana:
1
2
n +
=
22 1
2
+
=11,5; entonces Mediana =
65 66
65, 5
2
+
=
03_cap3.p65 31/03/2006, 02:35 p.m. 182
183
c) Profundidad del Cuarto =
[ ] 11, 5 1
6
2
+
=
; entonces
Cuarto inferior =
(6)
50 x = y Cuarto superior =
(6)
75 x =
d) Cortes:
1, 5
i C
C d = 50-1,5 (75-50)= 12,5
1, 5
s C
C d + =75+1,5 (75-50) = 112,5
e) Usando los comandos del SPSS encontramos el siguiente
diagrama de caja:
15 0 12 5 10 0 75 50 25
22
*
Nmero de l ibr os r evisados
Segn el grfico el 50% central de los datos correspondientes a
la variable nmero de libros revisados por los estudiantes se distri-
buye de forma asimtrica positiva. Asimismo, el 100% de las obser-
vaciones se distribuye de forma asimtrica positiva.
Podemos observar que el corte inferior es 12,5 y el menor valor
observado de la variable es 38, por tanto 38 es el extremo inferior
del bigote. As tambin, el corte superior es 112,5 y el mayor valor
observado ms cercano a l, es 88, por tanto 88 es el extremo supe-
rior del bigote. Se observa la existencia de un dato discordante y es
la observacin 22 con el valor 147.
03_cap3.p65 31/03/2006, 02:35 p.m. 183
184
Ejemplo 56
El director del colegio mixto Juan Bautista, en el ao 2003, solicit
al tutor del quinto ao de secundaria, presentar un informe acad-
mico del primer bimestre del ao. Le sugiri que incluya un grfico
comparativo como el grfico de caja para las calificaciones en in-
gls, de los estudiantes que se encuentran bajo su tutora, segn
sexo. Las calificaciones son como sigue:
Femenino 6 7 12 16 17 20 15 13 12
Masculino 3 4 5 7 6 11 10 9 12
Solucin
Usando los comandos del SPPS del captulo VII (procedimientos
estadsticos) obtenemos el siguiente grfico de caja para las califi-
caciones en ingls de los estudiantes segn sexo.
Mascul i no
Femeni no
20 15 10 5 0
cal i ficacin en i ngl s
03_cap3.p65 31/03/2006, 02:35 p.m. 184
185
El tutor informar que la mediana de las calificaciones en in-
gls de las alumnas es superior a la mediana de las calificaciones
en ingls de los alumnos y que la forma de la distribucin de fre-
cuencias de las calificaciones en ingls del 100% de los estudian-
tes varones es aproximadamente asimtrica positiva, mientras que
la forma de la distribucin de frecuencias de las calificaciones en
ingls en las mujeres es aproximadamente simtrica. Adems en
ambas distribuciones no hay presencia de datos discordantes.
Ejercicios
1. En un examen de seleccin se aplic una prueba con 50 pregun-
tas a 52 estudiantes. Se obtuvieron las puntuaciones siguientes:
49 48 46 46 45 44 43 43 41 41 39 39 38 37 37 36 35 35
34 33 33 31 31 31 31 31 30 30 30 29 29 28 27 27 27 27
26 26 26 24 24 23 23 22 21 20 20 20 15 18 16 19
a) Obtenga la media aritmtica, la mediana y la moda. Inter-
prete los resultados.
b) Cul de las tres medidas de tendencia central obtenidas en
el paso previo representa mejor al conjunto de datos?
c) Obtenga el percentil 25 y el percentil 75. Interprete los resul-
tados.
2. Una importadora de libros se dedica a la venta de libros de cuatro
editoriales. Durante el ao 2000 el total de ventas y el margen de
utilidad por editorial fueron los siguientes:
Editoriales Ventas(miles unidades) Margen de utilidad %
Aguilar 214 12, 6
Pirmide 90 5,8
Trbol 183 9,3
Santa Cruz 75 4,6
Calcular:
a) La media aritmtica del margen de utilidad obtenida en el
2000.
b) La media ponderada del margen de utilidad para ese mis-
mo ao.
c) Cul de las dos medias es la ms representativa? Por qu?
03_cap3.p65 31/03/2006, 02:35 p.m. 185
186
3. Los datos de la siguiente tabla son las puntuaciones de una prue-
ba de relaciones espaciales a dos grupos de adolescentes.
Intervalos de Grupo A Grupo B Intervalos de Grupo A Grupo B
puntuaciones puntuaciones
[ 4- 8) 1 1 [36-40) 18 10
[ 8-12) 0 2 [40-44) 20 8
[12-16) 0 2 [44-48) 38 5
[16-20) 2 3 [48-52) 36 4
[20-24) 4 3 [52-56) 18 2
[24-28) 6 4 [56-60) 12 0
[28-32) 8 4 [60-64] 2 1
[32-36) 10 6
a) Calcular media aritmtica, mediana y moda para cada grupo
de adolescentes.
b) Cul es la medida de tendencia central que mejor repre-
senta a cada una de las distribuciones? Por qu?
c) Calcular el percentil 10 y percentil 90. Interpretar en cada
caso.
d) Calcular el coeficiente de asimetra y curtosis.
4. Una profesora tiene dos secciones del mismo grado en diferentes
colegios, en los cuales imparte las mismas materias, les aplica el
mismo examen y obtiene las siguientes calificaciones:
Seccin A: 50 50 50 50 50 50 65 65 65 70 70 75
80 85 85 85 100 100 100 100 100 100 80
Seccin B: 100 85 85 80 80 80 76 76 76 76 75 75 75
75 75 75 74 74 74 74 70 70 70 65 65 50
Repetir las preguntas a), b), c) del ejercicio 1.
5. Los datos siguientes corresponden al estudio de 20 casos de es-
tudiantes del quinto ao de secundaria, que presentaban lesin
de tipo vesicular, la cual generalmente tiene repercusin al nivel
de la cavidad bucal.
Se presentan los datos de: edad, sexo, raza, lugar de la lesin en
la cavidad bucal (lengua, paladar, piso de boca, mucosa yugal,
labios, encas), lesin extraoral (lugar de la lesin fuera de la
cavidad bucal), duracin de la lesin.
03_cap3.p65 31/03/2006, 02:35 p.m. 186
18
Individuo Edad Sexo Raza Lesin cav. Lesin Duracin de
bucal extraoral lesin en das
1 20 0 cauc. 0 1 4
2 25 1 cauc. 0 1 2
3 40 0 cauc. 3 1 2
4 38 0 cauc. 1 1 0
5 27 1 cauc. 2 0 1
6 22 1 negro 1 0 3
7 20 0 cauc. 1 1 4
8 26 0 cauc. 3 1 0
9 34 0 cauc. 3 0 0
10 35 0 cauc. 4 1 1
11 39 1 cauc. 5 1 2
12 40 1 cauc. 5 0 1
13 38 1 cauc. 2 0 2
14 36 1 cauc. 1 0 4
15 28 0 cauc. 0 1 3
16 25 1 cauc. 2 1 2
17 22 0 cauc. 2 0 0
18 20 0 cauc. 3 0 1
19 24 1 cauc. 1 1 4
20 35 0 cauc. 4 1 3
Claves: Sexo: 0 M=0. F=1 Lesin en la cavidad bucal: lengua=0, paladar=1,
piso de la boca=2, mucosa yugal=3, labios=4, encas =5. Lesin extraoral:
zonas cutneas=0, mucosas=1.
a) Para cada una de las variables, calcular la medida de posi-
cin que corresponda: media aritmtica, mediana, moda. In-
terpretar en cada caso.
b) Hallar las medidas de dispersin: Rango, Varianza, Desvia-
cin estndar, Coeficiente de variacin, Interpretar los re-
sultados.
6. En el centro educativo Virgen de Ftima informan que Pedro ocu-
pa el lugar 9 en su clase; no sabemos mucho de su posicin
relativa en la clase, ya que esta depender del nmero de alum-
nos. Si los alumnos son 250, cul es su percentil?
7. Los demgrafos estudian las poblaciones de varios estados, co-
munidades y pases. Un asunto de inters es el crecimiento o
disminucin en el tamao de una poblacin, la cual es afectada
por la rapidez de los nacimientos, cunto tiempo viven (longevi-
dad) y a qu edades comnmente mueren. Una variable es la
edad de muerte. Suponga que en la nacin A, la edad modal de
03_cap3.p65 31/03/2006, 02:35 p.m. 187
188
muerte es 55, la mediana 60 y la media 65. En la nacin B, la
media tambin es 65, la moda es 75 y la mediana 70.
a) A partir de esta informacin, construya las curvas de fre-
cuencia para cada nacin.
b) Qu nacin parece mejor en trminos de longevidad?
8. Las siguientes son las edades medias de pacientes con adiccin a
sustancias en un centro de tratamiento local, clasificados de
acuerdo con el tipo de adiccin primaria. Calcule la edad media
de todos los pacientes con adiccin a sustancias en el centro
Adicin primaria
Cocana Herona Alcohol
(n=44) (n=24) (n=69)
Edad media (aos) 29,8 34,6 42,9
9. El peso medio de los 45 jugadores de un equipo de ftbol america-
no es de 215 libras. Si ninguno de los jugadores pesa menos de
170 libras, cuntos de ellos como mximo pueden pesar 250
libras o ms?
10. De 10 familias con Internet, cable y auto se obtuvo la siguiente
informacin relativa al mes de marzo:
Distribucin de costos de servicio de Internet
Costo (soles) N de Familias
[120 - 130) 1
[130 - 140) 2
[140 - 150) 3
[150 - 160) 3
[160 - 170] 1
Costo promedio de mantenimiento del auto es S/.300,00
Costo de cable (soles): 65, 130, 65, 65, 65, 65, 130,130, 65,130
Calcular el costo total promedio por familia, de los tres servi-
cios considerados.
11. a) Para los ejercicios 3 y 4, calcular la varianza, desviacin estndar
y el coeficiente de variacin para cada grupo. En cada caso com-
pare las respuestas y comente los resultados. b) Para el ejercicio 3
calcular la media y varianza global de las puntuaciones de los
dos grupos de estudiantes.
03_cap3.p65 31/03/2006, 02:35 p.m. 188
189
12. Un trabajador social obtuvo las siguientes caractersticas demo-
grficas y de servicio social de 15 miembros de un asilo:
Edad Visitas al Gastos de mantenimiento Sexo
mdico en el en el asilo (soles)
ltimo ao
74 8 2 347 M
81 7 2 434 M
83 11 1 636 F
77 4 1 963 M
76 5 2 358 F
79 13 1 968 F
79 7 2 683 M
a) Comparando las tres variables cuantitativas cul de ellas
presenta menor variabilidad?
b) Teniendo en cuenta el sexo, en cul de los grupos el nme-
ro de visitas es relativamente menos variable?
13. En el centro educativo Santa Rosa, la talla media de 300 alum-
nas es 1,72 m, con una desviacin estndar de 0,8 y, en el centro
educativo Santa Teresa, las 300 alumnas tienen una talla media
de 1,69 m y desviacin estndar 0,07. Calcular la media y la
desviacin estndar de la muestra formada por el conjunto de
los dos centros educativos.
14. En una muestra de 50 alumnos universitarios se obtuvo el tiem-
po transcurrido (en meses) desde la aparicin de una enferme-
dad hasta recurrir al especialista, y los datos se muestran en la
siguiente tabla:
2 9 14 19 4 7 14 8 1 0
4 2 9 7 18 1 1 24 5 12
3 6 16 4 0 8 0 4 11 23
32 4 7 3 6 3 4 8 18 6
9 2 8 2 13 1 18 5 26 1
a) Examine los datos y cuente el nmero de observaciones que
caen en los intervalos
, 2 , 3 X S X S X S
.
b) Coinciden las proporciones de las observaciones que caen
en estos intervalos con el teorema de Chebyshev? Con la
relacin suponiendo que la distribucin es normal?
03_cap3.p65 31/03/2006, 02:35 p.m. 189
190
c) Cul de los criterios anteriores ser el indicado para des-
cribir estos datos?
15. El cociente de inteligencia expresa la inteligencia como la razn
de la edad mental a la edad cronolgica multiplicada por 100.
As, el coeficiente de inteligencia es 100, cuando la edad mental
es igual a la edad cronolgica. Para los siguientes coeficientes de
inteligencia:
100 103 99 101 100 120 109
82
101 112 95 118 118 89 114 113
92 137 130 94 87 93 111 96
93 98 101 96 84 86
89 90
a) Construya un histograma de frecuencias relativas.
b) Encuentre el nmero de observaciones en los intervalos
, 2 , 3 X S X S X S
.
c) Compare las proporciones de observaciones en estos inter-
valos indicados en (b), con las que se obtendran por el teo-
rema de Chebyshev.
16. Un maestro aplic la misma prueba de Estadstica a dos seccio-
nes de un mismo grado. Los resultados fueron los siguientes:
Seccin A Seccin B
Mediana 64, 6 64, 3
Media 65, 0 63, 2
Percentil 25 61, 0 54, 0
Percentil 75 69, 0 70, 0
Desviacin Estndar 6,0 10, 5
a) Calcular el rango semiintercuartlico. Interprete el resultado.
b) En cul de las dos secciones los resultados fueron ms ho-
mogneos?
c) Calcular el coeficiente de asimetra y curtosis. Indicar la for-
ma de la distribucin.
d) Qu puede concluir usted acerca del desempeo de las dos
secciones?
e) Calcular la media y varianza global para las dos secciones.
17. En un concurso de matemticas se aplic una prueba a 2 500
estudiantes de sexto grado, resultando una calificacin media
03_cap3.p65 31/03/2006, 02:35 p.m. 190
191
de 11 puntos y una desviacin estndar de 2,0 puntos. Teniendo
en cuenta estos resultados, a cuntas desviaciones estndar
por arriba o por debajo de la media se coloca a los alumnos si-
guientes de acuerdo con su puntaje?
Pedro 09, Enrique 12, Jorge 07, Alberto 11, Juan 06, scar 17.
18. Si la distribucin en el ejercicio anterior es normal, a qu por-
centaje del grupo sobrepas cada uno de los alumnos arriba
mencionados?
19. En la clase de ingls impartida a los estudiantes de la escuela de
Literatura se aplic una prueba de comprensin de lectura y los
puntajes obtenidos por los estudiantes fueron los siguientes:
46 48 64 76 78 54 39 80 48 60 64 59 62 57 57 61 63 68 72 64 57 59 65 68
67 71 72 75 94 86 41 68 67 61 69 76 65 66 27 68 67 61
a) Encontrar los extremos, la mediana, los cuartos e interpre-
tarlos.
b) Encontrar la dispersin cuarta e interpretarla.
c) Determinar los cortes y estudiar si existen datos
discordantes.
d) Construir un grfico de caja, describir sus elementos e in-
terpretar.
20. A un grupo de estudiantes universitarios se les aplic una prue-
ba de habilidad mental y se obtuvieron las puntuaciones siguien-
tes:
71 64 58 54 50 34 70 63 57 54 50 30 69 61 56 53 49 69 60
55 52 47 69 59 54 52 40 64 58 54 52 40 64 58 54 51 39
a) Encontrar los extremos, la mediana, los cuartos e interpre-
tarlos.
b) Encontrar la dispersin cuarta e interpretarla.
c) Determinar los cortes y estudiar si existen datos
discordantes.
d) Construir un grfico de caja, describir sus elementos e in-
terpretar.
03_cap3.p65 31/03/2006, 02:35 p.m. 191
192
21. El gerente de una tienda de ropa realiza un estudio de mercado-
tecnia y, como primera etapa, desea conocer la distribucin de
edades de sus clientes. Durante una semana se toma una muestra
de 30 mujeres y 30 hombres, resultando las siguientes edades:
Mujeres Hombres
31 39 37 24 32 27 27 26 33 24 28 33 30 29 31 27 29 31
26 29 38 44 35 37 26 32 37 31 26 34 24 32 39 40 33 30
35 19 55 36 40 23 27 27 22 32 31 34 28 35 27 30 35 38
28 25 29 37 45 36
a) Calcular los extremos, mediana, cuartos, octavos. Interprete.
b) Trazar grficas de caja para la edad de los hombres y las
mujeres. Describir sus componentes e interpretar.
c) Verifique si existen datos discordantes.
22. Con los datos del ejercicio 3:
a) Calcular los extremos, mediana, cuartos, octavos. Interprete.
b) Trazar grficas de caja para las puntuaciones de los gru-
pos de adolescentes A y B respectivamente. Describir sus
componentes e interpretar.
c) Verifique si existen datos discordantes.
03_cap3.p65 31/03/2006, 02:35 p.m. 192
193
Introduccin
En muchas situaciones el inters es estudiar la relacin entre dos
o ms variables definidas en una poblacin o en una muestra y
como paso previo se hace necesario la presentacin de los datos en
tablas bidimensionales. Por ejemplo si nos remitimos a la datos
presentados en la base de DATOS3-educacin, podemos estar in-
teresados en estudiar la relacin entre el sexo y el lugar de proce-
dencia de los participantes, entre el sexo y el rendimiento acad-
mico en el curso de lgebra, entre la edad y el tiempo de servicio de
los participantes en el programa de capacitacin, por lo que pre-
viamente se presentan las correspondientes tablas bidimensionales.
En la primera parte del presente captulo se construyen y
analizan las tablas bidimensionales para dos variables cualitati-
vas, una variable cualitativa y otra cuantitativa, y para dos varia-
bles cuantitativas; asimismo se hacen las presentaciones grficas
para dichos casos. En la segunda parte del captulo se hace el
estudio de asociacin entre dichas variables.
Tablas de contingencia bidimensional
Tablas bidimensionales para dos variables cualitativas
En una muestra de n individuos en quienes se han observado
las variables X e Y , se denota con A
1
, A
2
, , A
k
los k niveles o
|193]
Captulo IV
Tablas y grficos bidimensionales.
Anlisis de asociacin
04_cap4.p65 31/03/2006, 02:37 p.m. 193
194
modalidades de X y con B
1
, B
2
, , B
r
los r niveles o modalida-
des de Y . La distribucin de los n individuos, considerando las
dos caractersticas, se puede presentar en una tabla de doble entrada
o en una tabla bidimensional como la siguiente, donde los niveles de
una de las variables ocupan la posicin de las filas y los niveles de
la otra variable ocupan la posicin de las columnas y los valores
dentro de la tabla o celdas son las frecuencias absolutas conjuntas.
Las tablas bidimensionales o de doble entrada, tambin se
denominan tablas de contingencia y muestran la ocurrencia con-
junta de pares de niveles (o de pares de valores) en dos variables.
Tabla de la distribucin bivariante con las frecuencias conjuntas absolutas
Y
X B
1
B
2
. B
j
B
r
Total
A
1 11
f
12
f .
1 j
f
.
1r
f
1
f
A
2 21
f
22
f .
2 j
f .
2r
f
2
f
.. . .. . . .
A
i 1 i
f
2 i
f .
i j
f .
ir
f
i
f
. . . . .
A
k 1 k
f
2 k
f
. kj
f .
kr
f
k
f
Total
1
f
2
f
.
j
f
.
r
f
n
donde:
ij
f , es el nmero de elementos con las modalidades A
i
y
Bj, denominadas frecuencias absolutas conjuntas,
i
f
, es el nmero de elementos con la modalidad A
i
deno-
minada i-sima frecuencia marginal,
j
f
, es el nmero de elementos con la modalidad Bj denomi-
nada j-sima frecuencia marginal,
Eligiendo X como variable fila e Y como variable columna,
se cumplen las siguientes propiedades:
1
k
ij j
i
f f
,
1
r
ij i
j
f f
(4.1)
04_cap4.p65 31/03/2006, 02:37 p.m. 194
195
1 1 1 1
.
k r k r
ij i j
i j i j
n
f f f
Al dividir las frecuencias absolutas conjuntas entre el nmero
total de observaciones se obtienen las frecuencias relativas conjun-
tas
ij
h correspondiente a las modalidades Ai y Bj, y las correspon-
dientes frecuencias relativas marginales; . i h y .j h , las que se pre-
sentan en la siguiente tabla de frecuencias relativas bidimensional.
Tabla de la distribucin bivariante con las frecuencias conjuntas relativas:
Y
X B
1
B
2
. B
j
B
r
Total
A
1
11
h 12
h .
1 j
h
.
1r
h
1
h
A
2 21
h
22
h .
2 j
h
.
2r
h
2
h
.. . .. . . .
A
i 1 i
h
2 i
h
.
ij
h
.
ir
h
i
h
. . . . . .
A
k
1 k
h
2 k
h
.
kj
h .
kr
h
k
h
Total
1
h
2
h
.
j
h
.
r
h
n
donde:
.
ij
ij
f
h
n
(4.2)
A continuacin se presentan algunos ejemplos para ilustrar el
tema.
04_cap4.p65 31/03/2006, 02:37 p.m. 195
196
Ejemplo 1
Tomemos una pequea sub muestra de los datos presentados en
la base de DATOS3-educacin para las variables sexo y estado
civil de los participantes en el programa de capacitacin. Se
tabular la informacin en una tabla de doble entrada donde la
variable sexo est representada en las filas y el estado civil en las
columnas.
Sexo Estado Sexo Estado Sexo Estado Sexo Estado
civil civil civil civil
Femenino Soltero Femenino Soltero Femenino Soltero Femenino Soltero
Femenino Soltero Masculino Soltero Masculino Casado Masculino Casado
Masculino Soltero Masculino Soltero Femenino Casado Femenino Casado
Femenino Casado Femenino Casado Masculino Soltero Masculino Soltero
Masculino Soltero Femenino Soltero Femenino Casado Masculino Soltero
Masculino Soltero Femenino Soltero Femenino Casado Masculino Soltero
Solucin
Slo con fines didcticos no hacemos uso del SPSS y contamos el
nmero de veces que se repite la categora Ai de la variable sexo y
el nmero de veces que se repite la categora B
j
de la variable estado
civil. As, para A1=femenino, A2=masculino, B1=soltero, B2=casado
se tiene: f22=2, es decir, son 2 estudiantes del sexo masculino y
casados; f12=6, es decir, son 6 estudiantes del sexo femenino y casa-
dos. En el siguiente cuadro se presentan las frecuencias conjuntas.
Cuadro 1:
Distribucin de los participantes segn sexo y estado civil,
en el Programa de Capacitacin de la FCM-UNMSM Lima - 2004
Sexo Estado civil Total
Soltero Casado
Femenino 7 6 13
Masculino 9 2 11
Total 16 8 24
Fuente: submuestra de la base de DATOS3-educacin
Son 7 docentes solteras y 6 casadas del sexo femenino. De los
estudiantes del sexo masculino 9 son solteros y 2 son casados.
04_cap4.p65 31/03/2006, 02:37 p.m. 196
19
Ejemplo 2
Con la base DATOS2-matemticas y usando los comandos del
captulo VII se presentarn las frecuencias absolutas en la tabla de
doble entrada entre la variable sexo como fila y escuelas profesio-
nales como variable columna.
Solucin
Se encuentran las siguientes frecuencias absolutas conjuntas en
la tabla bidimensional proporcionada por el SPSS:
sexo de los estudiantes* escuelas acadmico profesionales- FACULTAD DE
MATEMATICAS
Crosstabulation
Count
escuelas acadmico profesionales-
FACULTAD DE MATEMATICAS
matematica estadstica investigacin Total
operativa
sexo de los FEMENINO 21 33 47 101
estudiantes-
FACULTAD DE MASCULINO 37 35 27 99
MATEMATICAS
Total 58 68 74 200
resultados que editados en el procesador de texto Word se
presentan en el cuadro 2.
Cuadro 2: Distribucin de los estudiantes de la Facultad de Ciencias
Matemticas segn sexo y escuelas profesionales.
Censo universitario- UNMSM. Lima-2002
Escuelas Acadmico-Profesionales
Sexo Matemtica Estadstica Investigacin Total
Operativa
Femenino 21 33 47 101
Masculino 37 35 27 99
Total 58 68 74 200
Fuente: Base de DATOS2-matemticas
Se observa que 21 estudiantes del sexo femenino y 37 del sexo
masculino estudian matemticas; 33 estudiantes del sexo femeni-
no y 35 del sexo masculino estudian estadstica; 47 estudiantes del
sexo femenino y 27 del sexo masculino estudian investigacin
operativa.
04_cap4.p65 31/03/2006, 02:37 p.m. 197
198
Ejemplo 3
Usando la base de DATOS2-matemticas se obtienen los porcen-
tajes de la tabla de doble entrada considerando escuelas profesio-
nales como variable columna y sexo como variable fila.
Solucin
Usando los comandos del captulo VII se encuentran las frecuen-
cias relativas conjuntas multiplicas por 100, es decir los porcenta-
jes conjuntos presentados en la siguiente tabla bidimensional:
sexo de los estudiantes* escuelas acadmico profesionales- FACULTAD DE
MATEMTICAS Crosstabulation
% of Total
escuelas acadmico profesionales-
FACULTAD DE MATEMTICAS
matematica estadstica investigacin Total
operativa
sexo de los Femenino 10,5% 16,5% 23,5% 50,5%
estudiantes-
FACULTAD DE Masculino 18,5% 17,5% 13,5% 49,5%
MATEMTICAS
Total 29,0% 34,0% 37,0% 100,0%
Fuente: Base de DATOS2-matemticas
que editado en el Word se presenta en el siguiente cuadro.
Cuadro 3: Porcentaje de estudiantes de la Facultad de Ciencias Matemti-
cas segn sexo y escuelas profesionales. Censo Universitario- Lima 2002
Escuelas Acadmico-Profesionales
Sexo Matemtica Estadstica Investigacin Total
Operativa
Femenino 10, 5 16, 5 23, 5 50, 5
Masculino 18, 5 17, 5 13, 5 49, 5
Total 29, 0 34, 0 37, 0 100,0
Fuente: Base de DATOS2-matemticas
Tablas bidimensionales para una variable cualitativa y
una variable discreta
La tabulacin de una variable cualitativa y otra variable cuantita-
tiva discreta se realiza siguiendo la misma metodologa que en el
caso de dos variables cualitativas, considerando los comandos del
04_cap4.p65 31/03/2006, 02:37 p.m. 198
199
captulo VII. Luego, directamente se obtendrn las frecuencias ab-
solutas o frecuencias relativas conjuntas, lo que se ilustra con la
base de DATOS4-ciudadana.
Ejemplo 4
Para la base de DATOS4-ciudadana y usando el SPSS se encuen-
tra la tabla de doble entrada con las frecuencias absolutas conjun-
tas para las variables, lugar de procedencia y el nmero de organi-
zaciones sociales a la que pertenecen los ciudadanos.
En el marco del curso de Herramientas de Analisis Cuantitati-
vo de la maestra en Poltica Social, un grupo de maestristas, se
interes en encontrar los factores que posibilitan y/o impiden la
participacin ciudadana en el marco del desarrollo local. El estu-
dio se desarroll en los distritos rurales Limatambo (Cuzco), Lu-
ricocha (Ayacucho), Izcuchaca (Huancavelica) y Vilca (Huan-
cavelica), en las que se evaluaron algunas variables tales como el
nmero de organizaciones sociales a la que pertenecen los pobla-
dores de cada una de dichas zonas rurales. Usando los comandos
del SPSS presentados en el captulo VII se encuentra la siguiente
tabla bidimensional.
DISTRITOS DE LA ENCUESTA * NMERO ORGANIZACIONES SOCIA-
LES A LAS QUE PERTENECE Crosstabulation
Count
NMERO ORGANIZACIONES
SOCIALES A LAS QUE
PERTENECE
0 1 2 Total
Distritos de Limatambo
La Encuesta Luricocha 7 17 1 25
0 8 17 25
Izcuchaca 8 13 4 25
Vilca 9 9 7 25
Total 24 47 29 100
que editado en el Word se presentan en el cuadro 4.
04_cap4.p65 31/03/2006, 02:37 p.m. 199
200
Cuadro 4: Pobladores segn nmero organizaciones sociales a las que per-
tenecen y el distrito de procedencia. Zonas rurales de Cuzco, Ayacucho y
Huancavelica. Lima- 2003
Distrito Nmero organizaciones sociales Total
0 1 2
Limatambo 7 17 1 25
Luricocha 0 8 17 25
Izcuchaca 8 13 4 25
Vilca 9 9 7 25
Total 24 47 29 100
Fuente: Base de DATOS4-ciudadana
Por ejemplo, pertenecen a una organizacin social: 17 pobla-
dores de Limatambo, 8 de Luricocha, 13 de Izcuchaca y 9 de Vilca.
Pertenecen a dos organizaciones sociales: 1 poblador de Limatam-
bo, 17 de Luricocha 4 de Izcuchaca y 7 de Vilca.
Tablas bidimensionales para variables cuantitativas
Cuando se desea construir la tabla de frecuencias para dos variables
de naturaleza cuantitativa, se hace necesario de acuerdo con el inters
del investigador plantear previamente los intervalos de clase. Se re-
presentan con A
i
y B
j
los correspondientes intervalos y la estructura
de las frecuencias absolutas y relativas conjuntas son similares a la ya
presentada para el caso de dos variables cualitativas. Con un conjun-
to de datos reales se ilustra en detalle la metodologa.
Ejemplo 5
De la base de DATOS1-maestra se seleccionan las variables coefi-
ciente de inteligencia y nota de ingreso a la maestra y construire-
mos una tabla bidimensional con las frecuencias absolutas.
As, supongamos que se desea presentar los coeficientes de
inteligencia en dos intervalos. En el primer intervalo los coeficien-
tes de inteligencia inferiores a 102 puntos y el resto en el segundo
intervalo.
04_cap4.p65 31/03/2006, 02:37 p.m. 200
201
De igual manera, la variable notas de ingreso a la maestra se
desea presentarla en tres intervalos [ ] 45 - 55 , [ ] 56 - 66 y
[ ] 67 - 77 .
Solucin
a) Para la variable coeficiente de inteligencia:
x
min
= 93 puntos x
mx
= 120 puntos
Se crea el intervalo 1 donde se colocan los puntajes inferiores
a 102, y se rotulan como coeficientes de inteligencia medios. En el
intervalo 2 se colocan los puntajes mayores o iguales a 102 y se
rotulan como coeficientes de inteligencia altos. Se crea la variable
ficticia COEFI1 donde se guardan todos los datos originales eti-
quetados de acuerdo con la clasificacin mencionada. Por ejem-
plo, el coeficiente de inteligencia 100 de un maestrista se etiqueta
como coeficiente de inteligencia medio.
b) Para la variable nota de ingreso a la maestra:
x
min
= 45 puntos x
mx
= 77 puntos
Se crea el intervalo 1, se colocan los puntajes [ ] 45 - 55 y se
rotulan como notas de ingreso bajas. En el intervalo 2 se colocan
los puntajes [ ] 56 - 66 y se rotulan como notas de ingreso medias.
En el intervalo 3 se colocan los puntajes [ ] 67 - 77 y se rotulan
como notas de ingreso altas. Se crea la variable ficticia INGRE1
donde se guardan todos los datos originales segn los tres inter-
valos descritos. Por ejemplo, la nota de ingreso 46 se etiqueta como
baja, mientras que la nota de ingreso 59 como media y la nota de
ingreso 71 se etiqueta como alta.
c) Se usan los comandos del captulo VII para construir la tabla
bidimensional con las variables ficticias: COEFI1 e INGRE1 y como
respuesta se tiene la siguiente tabla bidimensional con las frecuen-
cias conjuntas.
ingre1 * coefi1 Crosstabulation
coefi1
medio alto Total
ingre1 baja 7 3 10
media 17 17 34
alta 18 8 26
Total 42 28 70
04_cap4.p65 31/03/2006, 02:37 p.m. 201
202
que luego de ser editado en el Word se presenta en el siguien-
te cuadro.
Cuadro 5: Distribucin de los estudiantes de maestra segn notas de
ingreso a la maestra y coeficientes de inteligencia
Notas de Coeficiente de Total
Ingreso inteligencia
Medio Alto
Bajas 7 3 10
Medias 17 17 34
Altas 18 8 26
Total 42 28 70
As, se tiene que 7 estudiantes con coeficiente de inteligencia
medio y 3 con coeficiente de inteligencia alto ingresaron con notas
bajas a la maestra; 18 estudiantes con coeficiente de inteligencia
medio y 8 estudiantes con coeficientes de inteligencia alto ingresa-
ron con notas altas.
Representaciones graficas de datos tabulados en tablas de
contingencia bidimensionales
La informacin contenida en una tabla estadstica de doble entra-
da tambin puede presentarse grficamente. Dichas representa-
ciones grficas se ilustran tomando como referencia la informa-
cin presentada en los cuadros de la seccin 4.2.
Dos variables cualitativas
Usando los comandos del SPSS descritos en el captulo VII y la
base de DATOS2-matemticas, se obtiene el siguiente grfico que
corresponde al cuadro 2.
04_cap4.p65 31/03/2006, 02:37 p.m. 202
203
Figura 1:
Nmero de estudiantes segn sexo por escuelas profesionales
FE M ENI NO M AS CULI NO
- sexo de los estu diant es FACULTAD DE MAT EMATI CAS
0
10
20
30
40
50
Nmero
es cu el as
ac ad mic o
pr ofesi on al
mate mt ica s
es tads tic a
investi gaci n
op er at iva
Asimismo, usando los mismos comando pero si se selecciona
como variable fila la escuela acadmico profesional y como varia-
ble columna la variable sexo se obtiene el siguiente grfico.
Figura 2: Estudiantes segn escuelas profesionales por sexo
matemat icas estad st ica investiga cin
oper ativa
escuelas acadmico profesionales- FACULTAD DE MATEMATICAS
0
10
20
30
40
50
Nmero
se xo d e los
e st ud ia nt es
F EMENI NO
M AS CUL INO
Una variable cualitativa y una variable cuantitativa
discreta
Para hacer la representacin grfica se procede con la misma meto-
dologa que para el caso de dos variables cualitativas. As, usando
04_cap4.p65 31/03/2006, 02:37 p.m. 203
204
los comandos del captulo VII se obtienen los grficos asociados al
cuadro 4.
a) Cuando en CATEGORY AXIS se selecciona la procedencia
de los ciudadanos se tiene el siguiente grfico.
Figura 3
LI MATA M BO LU RIC OC HA IZ CUC HA CA VI LCA
DISTRI TOS DE LA ENCUESTA
0
5
10
15
20
Nmero
N M ER O
O R G AN I Z A C I O N E S
S OC I A L ES A L A S
Q U E P ER T E NE CE
0
1
2
b) Cuando en CATEGORY AXIS se selecciona el nmero de
organizaciones sociales se tiene el siguiente grfico.
Figura 4
0 1 2
NMERO ORGANIZACIONES SOCIALES A LAS QUE PERTENECE
0
5
10
15
20
Nmero
D I S T R IT O S D E L A
E N C U E S TA
L I M A TA M B O
L U R I C O C H A
I Z C U CH A C A
V I L C A
04_cap4.p65 31/03/2006, 02:37 p.m. 204
205
Dos variables cuantitativas categorizadas
Para hacer el grfico asociado al cuadro 5 para las variables nota
de ingreso a la maestra y coeficiente de inteligencia, tenemos que
pedir el grfico para las variables ficticias COEFI1 e INGRE1 como
si se tratasen de variables cualitativas.
As por ejemplo, si se usan los comandos del captulo VII y la
base DATOS1-maestra, el SPSS nos proporciona los siguientes
grficos.
a) Si COEFI1 es la variable ficticia seleccionada en CATEGORY
AXIS, el grfico es el siguiente
Figura 5
medio alto
COEFI1
0
5
1 0
1 5
2 0
Nmero
INGRE1
baja
media
al ta
b) Si INGRE1 es la variable seleccionada en CATEGORY AXIS,
se tiene el siguiente grfico:
04_cap4.p65 31/03/2006, 02:37 p.m. 205
206
Figura 6
baja media alta
ingre1
0
5
10
15
20
Nmero
i nteli 1
medio
alto
Cabe indicar que, siguiendo los mismos pasos, se pueden ela-
borar todas las tablas de doble entrada que sean de inters para el
investigador, a partir de las cuales se puede estudiar la asociacin
entre las variables involucradas.
Medidas de asociacin
I ntroduccin
En este captulo se hace la presentacin de las relaciones entre dos
variables, tema que suscita inters en muchos investigadores de
diversas reas del conocimiento humano, en particular en investi-
gadores del campo educativo y social.
Algunas preguntas que se hacen investigadores del campo
social y educativo son, por ejemplo: Existe asociacin entre el co-
eficiente de inteligencia y el rendimiento acadmico de los estu-
diantes? Existe asociacin entre los ingresos de los docentes y sus
gastos en educacin? Estn asociados el sexo y el rendimiento
acadmico? Existe asociacin entre el mtodo de enseanza y el
rendimiento acadmico? Existe asociacin entre el lugar de pro-
cedencia de los participantes en un programa de capacitacin y el
sexo? Existe asociacin entre el nmero de organizaciones socia-
les y el distrito de procedencia de los pobladores de zonas rurales?
04_cap4.p65 31/03/2006, 02:37 p.m. 206
20
Algunas de dichas inquietudes sern respondidas en el presente
captulo mediante la presentacin de algunos coeficientes de aso-
ciacin. Cabe indicar que el coeficiente de correlacin de Pearson
ser abordado junto con el anlisis de regresin en el captulo 5.
En todos los casos vamos a suponer que se tienen los valores
observados de las variables para una muestra de tamao n.
Coeficiente de correlacin PHI
Cuando se desea estudiar la asociacin entre dos variables de na-
turaleza cualitativas dicotmicas se recomienda obtener el coefi-
ciente de correlacin Phi. Por ejemplo, si se desea estudiar la aso-
ciacin entre las variables estado civil dicotomizada y desercin
de los estudiantes de maestra; o la asociacin entre el sexo de los
estudiantes y su opinin respecto a la reeleccin del Decano de su
Facultad.
A continuacin, se hace la presentacin resumida de la meto-
dologa para obtener el valor del coeficiente.
Se definen:
X : variable dicotmica con valores 0 y 1,
Y
: variable dicotmica con valores 0 y 1,
x
p : proporcin de puntuaciones 1 en la variable X ,
x
q : proporcin de puntuaciones 0 en la variable X ,
y
p : proporcin de puntuaciones 1 en la variable
Y
,
y
q : proporcin de puntuaciones 0 en la variable
Y
,
xy
p : proporcin de puntuaciones 1 tanto en la variable X
como en la variable
Y
.
Luego, el coeficiente de correlacin Phi, , se calcula de la
siguiente manera:
.
xy x y
x x y y
p p p
p q p q
(4.3)
Cuando los datos estn tabulados en una tabla de contingen-
cia (tabla que muestra la ocurrencia conjunta de pares de puntua-
ciones en dos variables), puede calcularse mediante la siguien-
te metodologa:
04_cap4.p65 31/03/2006, 02:37 p.m. 207
208
Variable X
Variable Y 0 1 Total
1 a b a + b
0 c d c + d
Total a + c b + d n
.
( )( )( )( )
bc ad
a c b d a b c d
+ + + +
Este coeficiente tomar el valor 1 solamente cuando (a+b) y (c+d)
son iguales (consecuentemente a=d) en una tabla de contingencia
de dos por dos; es decir, cuando la proporcin de unos es la mis-
ma en X y en Y . Entonces, Y no puede predecirse perfectamente a
partir de X , por lo que algunos profesionales en estadstica consi-
deran este hecho como una desventaja del coeficiente Phi.
Ejemplo 6
Se ha observado que los estudiantes que inician sus estudios de
Maestra presentan mucha dificultad en el primer semestre, por lo
que algunos de ellos abandonan sus estudios. Al respecto se reali-
z un estudio con 15 estudiantes de la maestra en Poltica Social
que se matricularon en el semestre 2004-II y que abandonaron el
curso de herramientas de anlisis cuantitativo, cuyos resultados
se presentan a continuacin. Se desea averiguar si existe asocia-
cin entre el estado civil y la permanencia en el curso de herra-
mientas de anlisis cuantitativo, para lo que encontraremos el co-
eficiente de correlacin Phi.
X : estado civil 1: no casado 0: casado
Y : permanencia 0: abandona el curso
1: permanece en el curso hasta el final
Estudiante Estado civil (X) Permanencia (Y)
1 0 0
2 1 1
3 0 1
4 0 0
5 1 1
6 1 0
7 0 0
8 1 1
9 0 0
10 0 1
11 0 0
12 1 1
13 0 0
14 0 0
15 0 0
04_cap4.p65 31/03/2006, 02:37 p.m. 208
209
Solucin
La informacin anterior se resume en el siguiente cuadro:
Y X Total
0 1
Casado Soltero
1(permanece) 2 4 6
0 (abandona) 8 1 9
Total 10 5 15
y se calculan las respectivas proporciones:
10
0, 6667
15
x
q
6
0, 4
15
y
p
5
0, 3333
15
x
p
4
0, 2667
15
xy
p
9
0, 6
15
y
q
que se reemplazan en la frmula:
( )( )( )( )
0, 2667 (0, 3333)(0, 4)
0, 58.
0, 3333 0, 6667 0, 4 0, 6
Luego, el coeficiente de correlacin Phi entre estado civil y
desercin de los estudiantes es 0,58, evidenciando moderada aso-
ciacin entre las variables.
Ejemplo 7
Vamos a resolver el problema anterior usando el SPSS.
Solucin
Para resolver el problema usando SPSS se ha creado la base de
datos DATOS8-phi y, ejecutando los comandos del captulo VII, se
obtienen la tabla de contingencia y el valor del coeficiente Phi.
04_cap4.p65 31/03/2006, 02:37 p.m. 209
210
DESERCION * ESTADO CIVIL Crosstabulation
Count
8 1 9
2 4 6
10 5 15
0
1
DESERCION
Tot al
0 1
ESTADO CI VIL
Tot al
Symmetric Measures
Value
Nominal by Phi 0,577
Nominal
Obsrvese que el valor del coeficiente Phi coincide con el valor
obtenido aplicando la frmula (4.3).
Coeficiente de correlacin biseral-puntual
Se emplea cuando una variable es de naturaleza cualitativa
dicotmica y la segunda es interval o de razn. Por ejemplo, pode-
mos estar interesados en saber si existe alguna asociacin entre
sexo ( Y ) y estatura de los estudiantes ( X ).
La relacin entre X e Y se puede calcular mediante el coefi-
ciente de Pearson, a partir de los datos tal y como se presentan; el
resultado se denomina coeficiente de correlacin biseral-puntual y
se denota bp
r .
A continuacin se hace la presentacin de la simbologa y de
la metodologa empleada:
Y es una variable dicotmica (1 y 0),
X es una variable continua,
1 X es la media de las puntuaciones en X para los que Y tiene
puntaje 1
0 X es la media de las puntuaciones en X para los que Y tiene
puntaje 0
04_cap4.p65 31/03/2006, 02:37 p.m. 210
211
x s es la desviacin estndar de los valores de la variable X ,
1 n : nmero de unos en la variable Y ,
0 n : nmero de ceros en la variable Y .
Luego, el coeficiente de correlacin biseral puntual es igual a:
1 0 0 1
(4.4)
( 1)
bP
x
n n
n n
X X
r
s
Ejemplo 8
En la 2.
a
y 3.
a
columna del siguiente cuadro se presentan los datos
del sexo y estatura de 15 nios que realizan deportes todos los fines
de semana en el Parque Zonal Sinchi Roca. Encontraremos el coefi-
ciente de correlacin biseral-puntual entre las variables.
Solucin
Para encontrar el coeficiente de asociacin entre dichas variables
se denota con:
Y : variable sexo con niveles
0: femenino 1: masculino,
X : variable estatura de los adolescentes, en centmetros,
Se crean las variables ficticias, cada una con dos niveles:
0
X , con las estaturas de los adolescentes del sexo femenino, y
1
X ,
con las estaturas de los adolescentes del sexo masculino, las que se
presentan en las columnas 4.
a
y 5.
a
de la siguiente tabla.
Adolescente Y X 0 X 1 X
1 1 69 - 69
2 0 67 67 -
3 1 73 - 73
4 1 65 - 65
5 0 55 55 -
6 1 72 - 72
7 0 62 62 -
8 0 60 60 -
9 1 64 - 64
10 1 66 - 66
11 1 63 - 63
12 0 61 61 -
13 1 62 - 62
14 0 63 63 -
15 0 60 60 -
04_cap4.p65 31/03/2006, 02:37 p.m. 211
212
Se realizan los clculos auxiliares, para luego calcular el co-
eficiente de correlacin biseral- puntual usando la frmula (4.4).
1 0
8 7 4, 749
x
n n S
1
69 73 65 72 64 66 63 62
66, 75
8
X
+ + + + + + +
0
67 55 62 60 61 63 60
61,14
7
X
+ + + + + +
66, 75 61,14 (7)(8)
0, 61.
4, 749 15(14)
bP r
Ejemplo 9
Si se quiere resolver el ejemplo anterior usando comandos del SPSS
no se puede encontrar la solucin directamente, pues el SPSS slo
nos proporciona los clculos auxiliares que luego se reemplazan
en la frmula (4.4).
Solucin
Se siguen los siguientes pasos:
Crear (o abrir) el archivo, en este caso vamos a ilustrar con las
variables X e Y de la base de DATOS9-puntual.
Crear la variable ficticia
0
X , donde se guardan las estaturas
de los estudiantes del sexo femenino.
Crear la variable ficticia
1
X , donde se guardan las estaturas
de los estudiantes del sexo masculino.
Calcular las medias aritmticas de
0
X ,
1
X y la desviacin
estndar de X ; para lo que deber seguir los comandos del cap-
tulo VII (procedimientos estadsticos).
A continuacin se presenta el output del SPSS:
Estatura de
los estudiantes 0 X 1 X
n 15 7 8
Mean 64,13 61,1429 66, 7500
Std. Deviation 4,749
valores que se reemplazan en la frmula y se encuentra que el
valor del coeficiente es 0,61.
En promedio, los jvenes son ms altos que las seoritas, pero
la relacin entre sexo y altura es moderada.
04_cap4.p65 31/03/2006, 02:37 p.m. 212
213
Coeficiente de correlacin tetracrico
Este tipo de coeficiente es recomendable en situaciones donde dos
variables cuantitativas de naturaleza subyacente normal, han sido
dicotomizadas. As, por ejemplo, el autor de una pregunta que mide
la capacidad de razonamiento matemtico de los estudiantes de
quinto ao de secundaria considera que es una variable normal-
mente distribuida; pero el tem slo permitir identificar al grupo
que responda correctamente, al que se le asigna puntuacin 1 y al
grupo que responda incorrectamente, al que se le asigna puntua-
cin 0.
Por otro lado, suponga que las estaturas de 1 000 estudiantes
se distribuyen normalmente, pero el entrenador asigna puntaje 1 a
los que tienen estatura de 1,50 m o superior y le asigna puntaje 0 a
los que tienen estatura inferior a 1,50 m.
A continuacin se presenta la metodologa para obtener el
coeficiente tetracrico.
Sean:
X : variable con distribucin normal dicotomizada segn el
siguiente criterio:
X =
1 estatura > 1,50 m
0 estatura < 1,50 m
Y : variable con distribucin normal dicotomizada segn el
siguiente criterio:
Y =
1 respuesta correcta
0 respuesta incorrecta,
niveles que se resumen en la siguiente estructura de tabla
bidimensional:
tem Y tem X
0 1
1 a b
0 c d
A partir de la tabla anterior, se calcula el cociente
b c
a d
y, con
el valor obtenido, se va a la tabla A presentada en el apndice 2.
'
'
,
(4.6)
Este coeficiente puede ser menor que 1 y mayor que +1. Estos
valores extremos indican que no era cierto que las puntuaciones
X categorizadas tuvieran distribucin normal subyacente, o tam-
bin puede indicar fluctuaciones de muestreo cuando n es peque-
o y produce una distribucin de X marcadamente platicrtica.
Ejemplo 13
Los datos que se presentan en la siguiente tabla corresponden al
tiempo que los alumnos invierten en resolver una pregunta de
matemticas ( X ) y la habilidad que tienen para llegar a la solu-
cin ( Y ). Encontraremos el coeficiente de correlacin biseral.
Alumno Tiempo(X) Nota en la prueba(Y)
1 16 1
2 12 0
3 11 0
4 7 1
5 15 1
6 14 1
7 10 0
8 11 0
9 15 1
10 9 0
11 13 1
12 7 0
13 13 1
14 11 1
15 10 0
16 11 1
17 10 1
18 11 1
Solucin
Sean:
X : tiempo que demor en resolver la pregunta, en minutos,
Y =1 solucin correcta Y =0 solucin incorrecta.
04_cap4.p65 31/03/2006, 02:37 p.m. 218
219
Se crean las variables ficticias X0 y X1, con las notas de los que
resolvieron de manera incorrecta y correcta, respectivamente. Se
calculan la media aritmtica y la desviacin estndar del tiempo
que demoran en resolver la pregunta, sin discriminar si llegaron o
no a la solucin correcta. As:
1 0 1 0
X
11 7 18 12, 36 10
s 2, 55.
n n n X X
,
Ejemplo 14
En el marco del curso de Herramientas de Anlisis Cuantitativo en
la Maestra de Poltica Social, el profesor pidi que los alumnos
resolvieran un problema y observ las siguientes variables:
X: el tiempo que el alumno demora en resolver la prueba,
Y: la habilidad del alumno para resolver el problema (llegar o
no a la solucin correcta).
1 respuesta correcta
0 respuesta incorrecta,
con la finalidad de saber si estn asociadas las variables: el
tiempo que un estudiante demora en resolver una pregunta y la
habilidad que tiene para resolver la pregunta. Los datos se presen-
tan en la base de DATOS11-biseral.
Solucin
Los datos que se presentan en la base de DATOS11-biseral corres-
ponden a una muestra de 99 alumnos del quinto ao de secunda-
04_cap4.p65 31/03/2006, 02:37 p.m. 219
220
ria, con los cuales el profesor desea saber si estn asociadas las
variables: tiempo que un estudiante demora en resolver una pre-
gunta y la habilidad que tiene para resolver el problema. Se denota
con:
X : el tiempo, en minutos, que los alumnos demoran en resol-
ver una pregunta,
Y : la habilidad del alumno para llegar a la solucin. A la so-
lucin correcta el profesor le asign 1 y, a la incorrecta, le
asign 0.
Se abre la base de DATOS11-puntual, con las dos variables
X e Y ,
Se crea la variable X
0
, donde se guardan los tiempos que de-
moran en resolver la pregunta los alumnos que no llegaron a la
solucin correcta.
Se crea la variable X1, donde se guardan los tiempos que de-
moran en resolver la pregunta los alumnos que llegaron a la solu-
cin correcta.
Usando los comandos del captulo VII, se obtiene la media arit-
mtica de X0, X1 y la desviacin estndar de X.
Tiempo para resolver X0 X1
N Valid 99 52 47
Mean 63,54 63, 0113 64, 1310
Std. Deviation 10, 168 10, 58776 9, 76176
1 0 1 0
47 52 64,13 63, 01 n n X X . En la Tabla B
del anexo se encuentra el valor de u ,
47
( ) 0, 4747 0, 3982
99
P Z z u < >
2
64,13 63, 01 47(52)
0, 07
10,168
0, 3982 (99) 99 99
b r
_
,
Finalmente, el valor del coeficiente de correlacin biseral 0,07,
indica que no existe asociacin entre la habilidad del estudiante y
el tiempo que demora para resolver la pregunta.
04_cap4.p65 31/03/2006, 02:37 p.m. 220
221
Ejemplo 15
Si para otro conjunto de estudiantes se llega a la siguiente situa-
cin, encontraremos el valor del coeficiente de correlacin biseral.
Tiempo demorado X
0
X
1
en resolver la pregunta
N Valid 99 67 32
Mean 63,54 68, 9787 52, 1616
Std. Deviation 10,68
Solucin
1 0 1 0
32 67 52,16 68,97 n n X X 10, 68
X
S
1
32
0, 3232.
99
n
n
Luego:
32
( ) 0, 323 0, 3589
99
P Z z u < >
y reemplazando los valores encontrados en la frmula (4.6), el
valor del coeficiente es:
2
52,16 68, 98 32(67) 36062, 08
0, 96,
10, 68 37377, 52
0, 3589 ( 99) 99 99
b r
_
,
valor que indica que existe una buena asociacin entre el tiem-
po que demoran en resolver la prueba y la nota o la habilidad del
estudiante; quienes menos demoran en resolver las preguntas tie-
nen una mejor calificacin.
Coeficiente de correlacin de Spearman
El coeficiente de correlacin producto-momento calculado a partir
de dos series de n posiciones o rangos consecutivos independien-
tes, provenientes de dos variables cuantitativas o cualitativas, que
van de 1 hasta n, se conoce con el nombre de coeficiente de correla-
cin por rangos ordenados de Spearman. En este caso, ambas va-
riables, X e Y, son medidas en la escala ordinal.
04_cap4.p65 31/03/2006, 02:37 p.m. 221
222
Si los datos son cuantitativos, estos pueden convertirse en
rangos o posiciones.
Por ejemplo, la posicin u orden de mrito de los alumnos en
el saln de clase es un ejemplo de conversin de puntuaciones
ordenadas en rangos. Es decir, en un grupo de 50 estudiantes se le
asigna la posicin 1 al que alcanz el ms alto puntaje, posicin 2
al siguiente,..., y posicin 50 al puntaje ms bajo.
Si los datos son cualitativos, tambin se les puede asignar
rangos o posiciones, por ejemplo, los juicios sobre la excelencia de
una declamacin tambin constituyen un ejemplo de agrupamien-
to de posiciones o rangos. 10 estudiantes recitan una poesa y un
juez asigna un 1 a la mejor declamacin, un 2 a la segunda,...,
y 10 a la peor declamacin.
Independientemente de cmo se originaron las puntuaciones
1, 2, 3,.............,(n-1), n; pueden correlacionarse dos series de rangos
para los mismos n individuos.
A continuacin se presenta la metodologa.
Sean:
1
,....,
n
x x : rangos asignados a la variable X,
1
,....,
n
y y : rangos asignados a la variable Y,
n : tamao de muestra o nmero de individuos,
i i
x y : diferencia entre el rango asignado a la variable X
y el rango asignado a la variable Y de la i-sima persona.
Si existen dos o ms valores iguales (valores empatados), los
rangos de cada uno de estos son iguales al promedio de los rangos
que les corresponderan en el caso de que fueran diferentes. As,
por ejemplo, si las edades de los participantes en un programa de
capacitacin docente son las siguientes: 40 41 42 43 43 44 46, los
rangos asignados son: 1; 2; 3; 4,5; 4,5; 6 y 7.
Luego, el coeficiente de correlacin de Spearman se define de
la siguiente manera:
( )
( )
2
2
6
1
1
s
i i
r
n
x y
n
(4.7)
1 1
s
r
04_cap4.p65 31/03/2006, 02:37 p.m. 222
223
Su valor no puede ser menor que 1 ni mayor que 1; alcanza
su mximo valor, 1, cuando los individuos ocupan los mismos
rangos o posiciones tanto en X como en Y.
Este coeficiente es muy til cuando los datos originales son
rangos o posiciones y cuando se emiten juicios para clasificar indi-
viduos o cosas, pero se recomienda que el tamao de muestra sea
superior a 10.
Ejemplo 16
Los siguientes datos corresponden a una muestra aleatoria de 12
estudiantes para quienes un juez asign posiciones o rangos en
base a la hostilidad que manifestaban a su profesor de Metodolo-
ga de la Investigacin y a sus compaeros de clase, es decir, dos
series de rangos. Encontraremos el valor del coeficiente de correla-
cin de Spearman.
Hostilidad al profesor Hostilidad a los compaeros
( )
2
i i
y x
i
x
i
y
2 6 16
8 5 9
12 10 4
3 7 16
1 3 4
6 4 4
7 9 4
10 8 4
4 1 4
9 11 4
11 12 1
5 2 9
Solucin
Sea X : la hostilidad manifestada por el estudiante a su profesor
de matemticas, donde:
1 : es el puntaje asignado al que manifiesta mayor hostili-
dad al profesor,
12 : es el puntaje asignado al que manifiesta menor hostili-
dad al profesor,
Y: la hostilidad manifestada por el estudiante hacia sus com-
paeros, donde:
04_cap4.p65 31/03/2006, 02:37 p.m. 223
224
1 : es el puntaje asignado al que manifiesta mayor hostili-
dad hacia sus compaeros,
12 : es el puntaje asignado al que manifiesta menor hostili-
dad hacia sus compaeros.
En la siguiente tabla se presentan los datos y las correspon-
dientes cuentas:
Estudiante Hostilidad al Hostilidad a los
i i
y x
( )
2
i i
y x
profesor compaeros
i
x
i
y
1 2 6 - 4 16
2 8 5 3 9
3 12 10 2 4
4 3 7 - 4 16
5 1 3 - 2 4
6 6 4 2 4
7 7 9 - 2 4
8 10 8 2 4
9 4 1 2 4
10 9 11 2 4
11 11 12 - 1 1
12 5 2 3 9
Total 84
2
84.
( )
i
i
y
x
Ejemplo 17
Resolveremos el problema anterior usando las opciones del SPSS.
Solucin
Para resolver el problema anterior usando las opciones del SPSS,
se tiene que abrir la base de DATOS5-juez y ejecutar los comandos
del captulo VII.
El output del SPSS nos da el mismo valor encontrado con la
frmula (4.7):
04_cap4.p65 31/03/2006, 02:37 p.m. 224
225
Hostilidad Hostilidad a
al los
profesor compaeros
Spearman's Hostilidad Correlation
rho al profesor Coefficient 1,000 0,706
valor que indica que existe una asociacin fuerte y directa
entre la hostilidad manifestada hacia el profesor y la que se obser-
va hacia los compaeros, segn la clasificacin del juez.
Ejemplo 18
En la entrevista personal para ingresar a la carrera docente en una
universidad participaron 40 postulantes, quienes fueron califica-
dos por dos miembros del jurado. En la base de DATOS6-jurado se
dispone de la siguiente informacin:
1
X
: puntaje asignado a cada postulante por el miembro 1
del jurado,
2
X
: puntaje asignado a cada postulante por el miembro 2
del jurado,
X : rango que corresponde a las calificaciones del jurado 1,
Y
: rango que corresponde a las calificaciones del jurado 2.
Encontraremos el valor del coeficiente de correlacin de
Spearman.
Solucin
Se usan los comandos del SPSS presentados en el captulo VII y el
output nos proporciona el valor 0,332 para el coeficiente de corre-
lacin de Spearman, resultando pobre la relacin entre los puntajes
asignados por los miembros del jurado.
RANGO DEL RANGO DEL
JURADO 1 JURADO 2
Spearman's RANGO DEL Correlation 1,000 0,332
rho JURADO 1 Coefficient
RANGO DEL Correlation 0,332 1,000
JURADO 2 Coefficient
04_cap4.p65 31/03/2006, 02:37 p.m. 225
226
Coeficiente de contingencia
En tablas bidimensionales para dos variables cualitativas se cal-
cula el coeficiente de contingencia, que mide la relacin entre las
dos variables. Como se ver, este ndice est en funcin de la esta-
dstica ji-cuadrado,
2
, ampliamente usada por los investigado-
res de las ciencias sociales, pero cuya interpretacin a veces reviste
dificultades, porque no existe un valor de comparacin y puede
tomar cualquier valor positivo, mientras que el valor del coeficien-
te de contingencia oscila entre 0 y 1.
A continuacin se presenta la metodologa.
Para la presentacin general de una tabla de contingencia para
dos variables cualitativas se tiene:
n : tamao de la muestra,
ij
f : frecuencia absoluta conjunta que corresponde al i-simo
nivel de la variable fila y al j-simo nivel de la variable
columna,
ij
e : la frecuencia esperada conjunta que corresponde al i-
simo nivel de la variable fila y al j-simo nivel de la varia-
ble columna, que se calcula con la siguiente frmula,
i j
ij
f f
n
e
(4.8)
Finalmente, se define el coeficiente de contingencia como:
2
2
C
n
+
(4.9)
cuyo valor oscila entre 0 y 1.
04_cap4.p65 31/03/2006, 02:37 p.m. 226
22
Ejemplo 19
Encontraremos el coeficiente de contingencia para los datos pre-
sentados en el cuadro 2.
Solucin
Para encontrar el coeficiente de contingencia entre sexo y escuela
acadmico profesional del cuadro 2, se procede de la siguiente
manera:
a) Se encuentran las frecuencias observadas:
11
21 f
12
33 f
13
47 f
21
37 f
22
35 f
23
27 f
.
b) Se encuentran las frecuencias esperadas con las siguien-
tes frmulas:
1 1
11
101(58)
29, 29
200
f f
e
n
1 2
12
101(68)
34, 34
200
f f
e
n
1 3
13
101(74)
37, 37
200
f f
e
n
2 1
21
99(58)
28, 71
200
f f
e
n
2 2
22
99(68)
33, 66
200
f f
e
n
2 3
23
99(74)
36, 63
200
f f
e
n
c) Se calcula el valor de la estadstica ji-cuadrado:
04_cap4.p65 31/03/2006, 02:37 p.m. 227
228
( )
2
3 2
2
1 1 j i
ij
ij ij
f e
e
( )
2
21 29,29
29,29
+
( )
2
33 34,34
34,34
+
( )
2
47 37,37
37,37
+
( )
2
37 28,71
28,71
+
( )
2
35 33,66
33,66
+
( )
2
27 36,63
36,63
=9,859
d) Finalmente, el valor del coeficiente de contingencia es:
9, 859
0, 047 0, 217
209, 859
C
, valor que indica aso-
ciacin dbil entre el sexo de los estudiantes y la escuela acadmi-
co profesional a la que pertenecen.
Ejemplo 20
Resolver el mismo problema usando los comandos del SPSS. Al
usar dichos comandos, el output del SPSS muestra el siguiente
resultado:
Count
escuelas acadmico profesionales-
FACULTAD DE MATEMATICA
matematica estadstica investigacin Total
operativa
sexo de los Femenino 21 33 47 101
estudiantes-
FACULTAD DE Masculino 37 35 27 99
MATEMATICAS
Total 58 68 74 200
Chi-Square Tests Value
Pearson Chi- 9,859
Square
Symmetric Measures
Value
Nominal by Contingency 0,217
Nominal Coefficient
que coincide con el valor ya encontrado.
04_cap4.p65 31/03/2006, 02:37 p.m. 228
229
Ejercicios
1. Seleccione la base de DATOS1-maestra y:
a) Construya las tablas de doble entrada con las frecuencias
absolutas y relativas para las variables condicin laboral
de los estudiantes y el mtodo con el que estudiaron el cur-
so de estadstica.
b) Interprete algunas frecuencias absolutas y relativas conjun-
tas.
c) Encuentre el coeficiente de contingencia e interprete su va-
lor.
d) Haga las presentaciones grficas.
2. Seleccione la base de DATOS1-maestra y:
a) Construya las tablas de doble entrada con las frecuencias
absolutas y relativas para las variables nmero de hijos y
condicin laboral.
b) Interprete algunas frecuencias absolutas y relativas conjun-
tas.
c) Haga las presentaciones grficas.
3. Seleccione la base de DATOS1-maestra y:
a) Construya las tablas de doble entrada con las frecuencias
absolutas y relativas para las variables notas en los cursos
de estadstica y metodologa de la investigacin. Para cada
variable plantee los intervalos que considere adecuados.
b) Interprete algunas frecuencias absolutas y relativas conjun-
tas.
c) Haga las presentaciones grficas.
4. Seleccione la base de DATOS2-matemticas y:
a) Construya las tablas de doble entrada con las frecuencias
absolutas y relativas para las variables expectativas respecto
a su futuro y escuela profesional.
b) Interprete algunas frecuencias absolutas y relativas conjun-
tas.
c) Encuentre el coeficiente de contingencia.
d) Haga las presentaciones grficas.
04_cap4.p65 31/03/2006, 02:37 p.m. 229
230
5. Seleccione la base de DATOS2-matemticas y:
a) Construya las tablas de doble entrada con las frecuencias
absolutas y relativas para las variables medio de transpor-
te que usan para dirigirse a la universidad y sexo.
b) Interprete algunas frecuencias absolutas y relativas conjun-
tas.
c) Encuentre el coeficiente de contingencia e interprete su va-
lor.
d) Haga las presentaciones grficas.
6. Seleccione la base DATOS3-educacin y:
a) Recodifique la variable notas de lgebra en notas de alum-
nos aprobados y notas de alumnos desaprobados. Denomi-
ne ALGE1 a la nueva variable.
b) Recodifique la variable notas de aritmtica en notas de
alumnos aprobados y notas de alumnos desaprobados. De-
nomine ARIT1 a la nueva variable.
c) Construya la tabla bidimensional con las frecuencias abso-
lutas conjuntas para las variables recodificadas ARIT1 y
ALGE1.
d) Construya la tabla bidimensional con las frecuencias rela-
tivas conjuntas para las variables recodificadas ARIT1 y
ALGE1.
e) Interprete algunas frecuencias.
f) Haga la presentacin grfica.
7. Para el problema 1, encuentre el coeficiente de asociacin phi
entre la variable fila condicin laboral y la variable columna
mtodo con el que se estudi el curso de estadstica. Interprete.
8. En la base de DATOS1-maestra seleccione las variables mtodo
de enseanza y notas en el curso de Estadstica.
a) Defina una nueva variable ficticia
0
X y guarde las notas
de Estadstica para los que estudiaron con el mtodo tradi-
cional.
b) Defina una nueva variable ficticia
1
X y guarde las notas
de Estadstica para los que estudiaron con el mtodo no tra-
dicional.
04_cap4.p65 31/03/2006, 02:37 p.m. 230
231
c) Encuentre la media aritmtica de las dos variables anteriores.
d) Encuentre la desviacin estndar de las notas de Estadstica.
e) Encuentre el coeficiente de correlacin biseral-puntual e in-
terprete su valor.
9. De una poblacin de nios de 10 aos se seleccion una muestra
de 100 nios, 50 de los cuales tenan algn conocimiento de
ingls y los otros 50 nios no tenan ningn conocimiento de ese
idioma. Se les aplicaron las pruebas de retencin de dgitos y de
vocabulario, con los siguientes resultados:
Ingls Retencin de dgitos Total
No(0) s(1)
Conocen (1) 25 25 50
No conocen(0) 39 21 50
Total 64 56 100
Ingls Retencin de vocabulario Total
No(0) S(1)
Conocen (1) 22 28 50
No conocen(0) 39 11 50
Total 61 39 100
a) Calcule e interprete el coeficiente Phi entre el idioma y la
retencin de dgitos.
b) Calcule e interprete el coeficiente Phi entre el idioma y la
retencin de vocabulario.
10. De una muestra de 150 estudiantes se escogieron datos dicoto-
mizados en ejecucin de lectura X y en lateralidad Y (consis-
tencia con el cual se emplea un solo lado del cuerpo ojo-mano-
pie). Los datos se dieron en forma de juicios de ejecucin, mala
lectura (0), buena lectura (1) y consistencia en el uso de un solo
lado del cuerpo, alta (19) o baja (0). Los resultados fueron los
siguientes:
Lateral Ejecucin en lectura
Mala(0) Buena(1) Total
Alta(1) 18 42 60
Baja(0) 28 62 90
Total 46 104 150
04_cap4.p65 31/03/2006, 02:37 p.m. 231
232
Suponga que las dos variables subyacentes a ambas variables
dicotmicas son continuas. Calcule el coeficiente de correlacin
tetracrico entre ejecucin de lectura y lateralidad.
11. Use la base de DATOS1-maestra.
a) Dicotomice la variable nota de ingreso a la maestra.
b) Encuentre el coeficiente de correlacin biseral entre la nota
de ingreso y el rendimiento promedio al semestre 99-II.
04_cap4.p65 31/03/2006, 02:37 p.m. 232