Sunteți pe pagina 1din 155

Apuntes de Estadstica

Para Ing. Industrial


(2015)

Elaborado por: Manuel Francisco Hurtado Snchez, Lic. Estad. MsC.


Profesor adscrito al Dpto. de Ingeniera - USAT
Director de Informacin Estadstica USAT
CONTENIDO
Tema 1: Aspectos bsicos de la estadstica
Tema 2: Tcnicas de recoleccin de datos, elaboracin de cuestionario
Tema 3: Organizacin y presentacin de datos.
Tema 4: Medidas de resumen.
Chiclayo, Agosto del 2015

INDICE

Contenido
Pgina
Resumen...................................
Presentacin
Resumen ejecutivo .
I.
INTROCUCCIN
1.1 Antecedentes..
1.2. Formulacin del problema..
1.3. Objetivos
1.4. Variables....
1.5. Cuadro de operacionalizacin de variables
II.

III.

IV.
V.

METODOLOGA
2.1. Tipo de estudio ...
2.2. Diseo de contrastacin .
2.3. Poblacin y Muestra
2.4. Mtodos, tcnicas e instrumentos de recoleccin de datos .
RESULTADOS
3.1. Demanda de formacin profesional en estudiantes de 5 de secundaria .........
3.2. Oferta de formacin profesional en universidades e institutos ....
3.3. Oferta Laboral en hogares .
3.4. Demanda laboral en empresas e instituciones ..
3.5. Anlisis prospectivo para las carreras objeto de estudio .
CONCLUSIONES.
ANEXOS....

2
4
5
10
11
11
12
13

14
14
16
22
23
55
74
86
92
100
106

Introduccin a la Estadstica

El trmino estadstica tiene, entre otros, dos significados de uso comn. De un lado se entiende
estadstica como dato; y en tal sentido los gobiernos cuentan con institutos que se encargan de
preparar y difundir estadsticas pblicas. Pero, de otro lado, se entiende como una disciplina
cientfica, cuya importancia es cada da mayor.

En realidad siempre han existido estadsticas, en un inicio, de forma muy elemental, como cuando
se utilizaban diversos smbolos utilizando pieles, rocas, palos o cualquier otro objeto, para
representar cuentas de personas, animales o ciertas cosas. En la antigedad los babilonios usaban
pequeas tablillas de arcilla para recopilar datos sobre la produccin agrcola; los egipcios
llevaban cuentas sobre la poblacin y las cosechas; el libro bblico de Nmeros presenta el
informe de dos censos de la poblacin de Israel, etc.

El Imperio romano fue el primer gobierno que recopil una gran cantidad de datos sobre la
poblacin, superficie y renta de todos los territorios bajo su control. Durante la edad media, en
Europa, slo se realizaron algunos censos exhaustivos.

El registro de nacimientos y defunciones comenz en Inglaterra a principios del siglo XVI, y en


1662 apareci el primer estudio estadstico notable de poblacin, titulado Observations on the
London Bills of Mortality (Comentarios sobre las partidas de defuncin en Londres). La estadstica
demogrfica se difundi luego por Europa.

En los siglos posteriores el desarrollo de la investigacin cientfica en prcticamente todas las


ramas del saber hizo que se aceptara la necesidad de manipular los datos siguiendo reglas
objetivas y reconocidas por todos. La formulacin de la teora de la probabilidad ha permitido que
la estadstica desarrolle mtodos de induccin que han tenido un efecto muy positivo en la toma
de decisiones en los ms diversos campos de la actividad humana.

El origen etimolgico de la palabra estadstica no est bien determinado, puesto que existen
distintas opiniones y referencias. Para algunos viene de la voz griega STATERA que significa
balanza, otros sostienen que deriva del latn STATUS que significa situacin, mientras que
algunos autores afirman que procede del latn STAAT que significa estado. En el caso concreto
de suponer que viene del vocablo estado, es por el hecho que una de las funciones tradicionales
del gobierno central y del estado es llevar registros sobre la situacin de la poblacin,
nacimientos, defunciones, produccin, impuestos y otros hechos contables o de control.

La evolucin y desarrollo de la estadstica en el mundo actual definitivamente ha superado en


significado etimolgico de esta ciencia; la estadstica constituye hoy en da un valioso
instrumento de decisin en todas las situaciones de la vida, desde el hogar hasta la poltica
nacional y mundial.
En el mundo actual por Estadstica debemos entender algo ms elaborado y susceptible de u
tratamiento cientfico. La Estadstica ya no es la errnea concepcin de recopilaciones de grandes
masas de datos y presentarlos en tabla o grficos; ni tampoco el simple clculo de totales,
promedios y porcentaje, etc. En todo caso estas ideas corresponden a inicios de la Estadstica o a
las etapas del proceso estadstico.
En el intento de precisar una idea o definicin, se puede decir que la Estadstica es la Ciencia que
tiene por objeto el desarrollo de modelos y metodologas para la recoleccin, clasificacin y
anlisis de conjuntos de datos de observaciones, para interpretarlos y obtener leyes y relaciones
entre ellas, y facilitar as la toma de decisiones, cuando prevalecen condiciones de
incertidumbre.
Es la ciencia que orienta la toma de decisiones a partir del anlisis e interpretacin de
observaciones realizadas en forma directa o experimentalmente.
Los estudiantes confunden comnmente los dems trminos asociados con las Estadsticas, una
confusin que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra
estadstica, en primer trmino se usa para referirse a la informacin estadstica; tambin para
referirse al conjunto de tcnicas y mtodos que se utilizan para analizar la informacin estadstica;
y el trmino estadstico, en singular y en masculino, se refiere a una medida derivada de una
muestra.
An cuando aqu se establece que la Estadstica es una ciencia, sin embargo entre los propios
especialistas existen algunas discrepancias de considerarla como ciencia o como una tcnica.
Mientras que se supone definitivamente esta discusin, resultara ms preciso describir a la
Estadstica como LA TECNOLOGA DEL MTODO CIENTFICO (A.M.MOOD), entendiendo que la
tecnologa se ocupa de la aplicacin sistemtica del conocimiento cientfico para resolver
problemas prcticos. En este sentido la Estadstica proporciona reglas, tcnicas e instrumentos
para los investigadores, las que pueden ser de aplicacin completamente general y tiles en
cualquier campo de las ciencias: Fsica, qumica, biologa, economa, sociologa, ingeniera, etc., y
en cualquier campo del conocimiento.
H.Cramer, sostiene que el principal objeto de la teora Estadstica consiste en la investigacin de
la posibilidad de obtener inferencias vlidas a partir de los datos estadsticos, y en la construccin
de mtodos para realizar dichas inferencias.
Jerzy Neyman, afirma que la Estadstica trata de los problemas relativos alas caractersticas
operatorias de las reglas de comportamiento inductivo basado en experimentos aleatorias. Para
A.Wald el objetivo principal de la Estadstica es el estudio de las funciones decisorias
estadsticas.

Kennedy- Neville, asevera que La Estadstica es una ciencia que comprende la recopilacin,
tabulacin, anlisis e interpretacin de los datos cuantitativos y cualitativos.
William Gunther establece que La Estadstica es un campo de ensayo en el que se recogen y
analizan datos con el propsito de sacar conclusiones proporciona instrumentos para la toma de
decisiones cuando prevalecen condiciones de incertidumbre.
Proponer ahora una definicin de la Estadstica puede resultar poco significativa porque no se
lograra precisar se esencia, su cobertura y los hechos que estudia esta ciencia. A manera de
informacin, conviene indicar que hace ms de un siglo Gustavo Rumelin sostena que haba por
lo menos 63 definiciones de Estadstica, y que pueden aadir otras si se tiene en cuenta el avance
de esta disciplina.
La funcin principal de la Estadstica es elaborar principios y mtodos que nos ayuden a tomar
decisiones frente a la incertidumbre sostiene Ya Luu Chou, por esta razn, podra definirse la
Estadstica como un mtodo de toma de decisiones frente a la incertidumbre. Y cuyo objetivo
principal de la Estadstica es Reunir una informacin cuantitativa concerniente a individuos,
grupos, serie de hechos, etc. y deducir de ello gracias al anlisis de estos datos, unas previsiones
para el futuro.
La Estadstica como ciencia cumple los aspectos principales del mtodo cientfico, tales como:
Realizacin de experimentos y observaciones;
Obtencin de conclusiones o proposiciones objetivas a partir de los resultados de dichos
experimentos y observaciones,
Formulacin de leyes que simplifiquen la descripcin de un gran nmero de experiencias u
observaciones.

2. Objetivos de la Estadstica
En trminos generales los objetivos de la estadstica pueden ser clasificados o agrupados en tres
grandes captulos: Descripcin, Anlisis y Prediccin.
Descripcin de grandes colecciones de datos empricos, segn la terminologa de R.A. Fisher, este
proceso se conoce con la denominacin de reduccin de datos. La descripcin supone que los
datos que vienen expresados en su forma natural deben ser clasificados y presentados
sistemticamente en cuadros o tablas como una primera reduccin de datos propiamente dicha
se obtiene cuando en comportamiento y caractersticas de los datos se expresan por un conjunto
de indicadores, medidas de resumen o estadgrafos.

Anlisis estadstico de datos experimentales y de los fenmenos observados, toda investigacin


concluye un problema de anlisis de datos experimentales con el objeto de formarse un concepto
de una poblacin o universo y adoptar decisiones. En este caso no es necesario observar toda la
poblacin sino que ser suficiente elegir a una muestra representativa. La preocupacin del
anlisis estadstico es inferir propiedades para una poblacin sobre la base de resultados
mustrales conocidos.
Prediccin o comportamiento de los fenmenos en el futuro, este objetivo de prediccin y
previsin est implcito tanto en la descripcin como en el anlisis estadstico, puesto que en
general interesa orientar la toma de decisiones con vigencia y efecto en el futuro. El pasado
puede ser evaluado, el presente descrito con cierta exactitud y el futuro puede ser previsto.
3. Ramas de la estadstica
La Estadstica se divide en dos ramas:
La estadstica descriptiva, que se dedica a los mtodos de recoleccin, descripcin,
visualizacin y resumen de datos originados a partir de los fenmenos en estudio.
La estadstica inferencial, que se dedica a la generacin de los modelos, inferencias y
predicciones asociadas a los fenmenos en estudio, tomando como base una parte de la
poblacin o de observaciones de algn fenmeno.

HISTORIA DE LA EVOLUCIN DE LA ESTADSTICA EN EL PER Y EN EL MUNDO


En el mundo, las estadsticas son tan antiguas como la humanidad misma. Los esfuerzos del
hombre para evaluar en forma cuantitativa las caractersticas que lo rodean, dio como resultado
la Estadstica.
Los comienzos de la estadstica pueden ser hallados en el antiguo Egipto, cuyos faraones lograron
recopilaciones regulares de datos para la administracin estatal, hacia el ao 3050 AC; prolijos
datos relativos a la poblacin y la riqueza del pas. De acuerdo al historiador griego Herodoto,
dicho registro de riqueza y poblacin se hizo con el objetivo de preparar la construccin de las
pirmides. En el mismo Egipto, Ramss II hizo un censo de las tierras con el objeto de verificar un
nuevo reparto.
En el antiguo Israel la Biblia de referencias, en el libro de los nmeros, de los datos estadsticos
obtenidos en dos recuentos de la poblacin hebrea. El rey David por otra parte, orden a Jacob,
general del ejrcito, hacer un censo de Israel con la finalidad de conocer el nmero de la
poblacin.

Tambin los chinos efectuaron censos hace ms de cuarenta siglos. Los griegos efectuaron censos
peridicamente con fines tributarios, sociales (divisin de tierras) y militares (clculo de recursos y
hombres disponibles). La investigacin histrica revela que se realizaron 69 censos para calcular
los impuestos, determinar los derechos de voto y ponderar la potencia guerrera.

Los hebreos utilizaron datos


estadsticos a menudo; as la
Biblia menciona el censo que
moiss levant instancias a
Yahv. En el ao 2258 AC, el emperador Yao dispuso el levantamiento de un censo en la China. En
Roma, se llevaban registros numricos para fines tributarios, en el tiempo de Octavio Augusto se
realiz un censo. Algunos sostienen que en el ao 0, ao del nacimiento de Jesucristo, est
relacionado con un empadronamiento.
Pero fueron los romanos, maestros de la organizacin poltica, quienes mejor supieron emplear
los recursos de la estadstica. Cada cinco aos realizaban un censo de la poblacin y sus
funcionaros pblicos tena la obligacin de anotar nacimientos, defunciones y matrimonios, sin
olvidar los recuentos polticos del ganado y de las riquezas contenidas en las tierras conquistadas.
Se sabe que en el ao 727, los rabes realizaron un censo ms o menos completo en la pennsula
Ibrica. En la Edad Media ya se encontraban estadsticas sistematizadas. El clero se dedic a la
recopilacin, ordenamiento y estudio de los datos de tipo demogrfico.
Durante la cada del imperio romano se realizaron muy pocas operaciones estadsticas, con la
notable excepcin de las relaciones de tierras perteneciente a la iglesia, copiladas por Pepino el
Breve en el ao 758 DC y por Carlomagno en el ao 762 DC. Durante el siglo IX se realizaron en
Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el conquistador recopil el
DOMESDAY BOOK O LIBRO DEL GRAN CATASTRO para el ao 1086, un documento de la
propiedad, extensin y valor de las tierras de Inglaterra. Esa obra fue el primer compendio
estadstico en Inglaterra.
Aunque Carlomagno, en Francia; y Guillermo el conquistador, en Inglaterra, trataron de revivir la
tcnica romana, los mtodos estadsticos permanecieron casi olvidados durante la Edad Media.
Durante los siglos XV, XVI y XVII, los hombres como Leonardo de Vinci, Nicols Coprnico, Galileo,
Neper, William Harvey, Sir Francis Bacn y Ren Descartes, hicieron grandes operaciones con el

mtodo cientfico, de tal forma que cuando se crearon los estados nacionales y surgi como
fuerza el comercio internacional exista ya un mtodo capaz de aplicarse a los datos econmicos.
Para el ao 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que
Enrique VII tema por la peste. Ms o menos por la misma poca, en Francia la ley exigi a los
clrigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que
apareci a fines de la dcada de 1500, el gobierno ingls comenz a publicar estadsticas
semanales de los decesos. Esa costumbre continu muchos aos y en el ao 1632 estos BILLS OF
MORTALITY (CUENTAS DE MORTALIDAD) contenan los nacimientos y fallecimientos por sexo. En
1662 el capitn John Graunt us documentos que abarcaban treinta aos y efecta predicciones
sobre el nmero de personas que moriran de varia enfermedades y sobre las proporciones de
nacimiento de varones y mujeres que cabra esperar.
El trabajo de Graunt, condensado en su obra NATURAL AND POLITICAL OBSERVATIONSMADE
UPON THE BILLS OF MORTALITY (OBSERVACIONES POLTICAS Y NATURALES HECHAS A PARTIR
DE LAS CUENTAS DE MORTALIDAD), fue un esfuerzo innovador en el anlisis estadstico.
En Amrica latina es posible encontrar algunos antecedentes estadsticos en la poca PREcolombina. An cuando los pobladores del tahuantinsuyo no conocan la estadstica como tal,
estaban familiarizados con datos e informes sobre aspectos demogrficos y econmicos.
En el Imperio Incaico exista la costumbre de registrar todos los hechos demogrficos y
socioeconmicos, la cual permiti desarrollar tcnicas de recopilacin y archivo de datos. El Inca y
su esforzada lite cooperadora, conocan por medio de los Quipus el potencial humano y
econmico del Imperio y, en consecuencia, deducan las necesidades que deban satisfacer.

El Quipu consista en un cordn central de lana del que pendan otros cordones unidos por otros,
que se diferenciaban entre s por su grosor, color, nmero y forma de nudos. El nudo dice
Gracilaso de la Vega, expresa el nmero pero no la palabra. La Yupana o Abaco, era el accesorio
del Quipu, y facilitaba el clculo de grandes cantidades. El Quipu Camayoc era el funcionario que
conoca la tcnica del registro por medio de los nudos. En el Cusco se ubicaba la Oficina Central de
los Quipus.
El Quipu sirvi a los antiguos peruanos para levantar los censos de poblacin de cada cierto
nmero de aos. El Imperio Incaico era una sociedad veraz y, por tanto todos los habitantes
estaban acostumbrados a decir la verdad en el acto censal.

Durante el Depotismo Ilustrado de Federico Guillermo I y de Federico El Grande de Prusia, la


Estadstica pas a ser una organizacin estatal. Desde hace mucho tiempo, la iglesia siempre se
dedic a recopilar ciertos datos demogrficos y, a partir del Concilio de Trento (1545-1563), se
establece la obligatoriedad de inscribir los nacimientos, matrimonios y defunciones.

Los antecedentes histricos de la Estadstica se encuentran fundamentalmente en la demografa,


recin a mediados del siglo XVII se considera a la Estadstica como una disciplina independiente.
En Alemania, se cre por primera vez la ctedra de Estadstica, originndose la Escuela
Universitaria Administrativa, la que consideraba la Estadstica como una descripcin de los
fenmenos pertenecientes al estado, segn la orientacin de Vito de Seckendorft (1626-1689) y
Hermann Conring (1606-1681), quien en 1660 empez a dictar un curso en la Universidad de
Helmstadt. Su discpulo Godofredo de Achenwall (1719-1772), fue el primer gran terico de la
Estadstica en lengua alemana y le dio el nombre de Estadstica, basndose en el origen
etimolgico STATUS.
Por la misma poca en Inglaterra nace la Escuela Demogrfica o de los aritmticos polticos,
quienes se proponan determinar en forma cuantitativa las leyes empricas que regan el
comportamiento de los fenmenos polticos y sociales, que de ninguna manera eran
independientes del volumen, estructura y distribucin de la poblacin. Entre los miembros de
esta escuela destacaron William Petty (1623-1687), Edmundo Halley (1662-1742), King, Devenant
y John Graunt (1623-1674), este ltimo realiz un trabajo matemtico de estadsticas vitales y
econmicas. En Alemania, esta orientacin, en dura lucha con la escuela Achenwall y Schlzer,
obtuvo el primer xito definitivo gracias al esfuerzo de Johann Meter Sussnilch.
Por la poca Contempornea, en Francia se origin la Escuela Probabilstica, basada en los
problemas de juegos de azar planteadas por Blas Pascal (1623-1662) por el Caballero de Mre
(Antonio Gambaud). La solucin de estos problemas motiv el auge del Clculo de Probabilidades,
con destacada participacin de Pedro de Fermat (1601-1665), Laplace (1749-1827), Poisson
(1777-1855), los hermanos Bernouilli (Daniel, Jacob y Nicols), Gauss y Moivr (1667-1754).

Poco tiempo despus el Clculo de Probabilidades toma un gran impulso debido a los trabajos de
los franceses Borel, Frchet y Levy, y de los rusos Tchevyshev (1821-1894), Tchuprov, Markov,
Kintchine y Kolmogorov (nacido en 1903). Entre los ingleses destac el clrigo Toms Bayes.

Cabe destacar el aporte de Adolph Quetelet primer presidente de la ISI (1796-1874) que fue el
primero en aplicar mtodos estadsticos modernos al estudio de conjuntos de datos, razn por la
cual se le reconoce como padre de la Estadstica Moderna.

Durante el siglo XIX y a principios del XX el trabajo estadstico se caracteriza por el estudio de
grandes masas de datos. La idea bsica era la coleccin completa de datos. Pero, a principios del
siglo XX y especficamente alrededor de los aos treinta, se produjo un nuevo giro en el desarrollo
de la Estadstica. Naci la Estadstica Moderna, la Estadstica Inductiva o Inferencia Estadstica, la
Estadstica Analtica. Se espera obtener informacin de cada detalle en particular; actualmente se
buscan mtodos que hagan posibles obtener conclusiones generales a partir de muestras y de
estudios parciales. En la Estadstica moderna, la palabra clave es MUESTRA.
Estos cambios en la teora y prctica estadstica requirieron cada vez ms de las matemticas
superiores, entonces surge la Estadstica Matemtica, cuyos procedimientos caractersticos son el
anlisis de la varianza, el clculo de correlaciones y las pruebas de hiptesis estadsticas.

10

Los progresos ms recientes en el campo de la Estadstica se refieren al ulterior desarrollo del


clculo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad,
se ha demostrado que el determinismo fue reconocido en la Fsica como resultado de las
investigaciones atmicas y que este principio se juzga aplicable tanto a las ciencias sociales como
a las fsicas.
En el campo de Estadstica Moderna destacaron Francisco Galcton (1822-1911) y Kart Pearson
(1857-1936), que desarrollaron ideas sobre regresin y correlacin, William Gosset (1876-1962),
quienes desarrollaron mtodos de trabajo usados en el anlisis estadstico y en la prueba de la
hiptesis. Por su parte en 1894, Jerzy Neyman, conjuntamente con el hijo de Pearson, crearon la
teora del muestreo. Otro destacado estadstico fue Abraham Wald (1902-1950) con aplicaciones
en el campo de la Gentica.
Resumiendo, en la historia de la evolucin de la Estadstica se pueden distinguir tres fases:
CENSOS Y EMPADRONAMIENTOS (HASTA EL SIGLO XVI).
Desde el momento en que se constituye una autoridad poltica, la idea de inventariar de una
forma ms o menos regular de la poblacin y las riquezas existentes en el interior est ligada a la
conciencia de soberana y a los primero esfuerzos administrativos.

DE LA DESCRIPCIN DE POBLACIONES A LA ARITMTICA POLTICA (S. XVII a XVIII).


Las ideas mercantilistas extraan una intensificacin de este tipo de investigacin.
Colbert multiplica las encuestas sobre artculos manufacturados, el comercio y la poblacin: los
intendentes del Reino envan a Pars sus memorias. Vauban, ms conocidos por sus fortificaciones

11

o su Dime Royale, que es la primera propuesta de un impuesto sobre los ingresos, se seala como
el verdadero precursor de los sondeos.
Ms tarde, Bufn se preocupa de esos problemas antes de dedicarse a la historia natural.
La escuela inglesa proporciona un nuevo progreso al superar la fase puramente descriptiva. Sus
tres principales representantes son Graunt, Petty y Halley. El penltimo es autor de la famosa
Aritmtica Poltica.
Chaptal, ministro del interior francs, publica en 1801 el primer censo general de poblacin,
desarrolla los estudios industriales, de las producciones y los cambios, hacindose sistemticos
durante las dos terceras partes del siglo XIX.

3. ESTADSTICA Y CLCULO DE PROBABILIDADES (S. XIX A LA FECHA).


El Clculo de Probabilidades se incorpora rpidamente como un instrumento de anlisis
extremadamente poderoso para el estudio de los fenmenos econmicos y sociales y en general
para el estudio de fenmenos cuyas causas son demasiadas complejas para conocerlas
totalmente y hacer posible un anlisis.

12

Captulo 1: Introduccin a la Estadstica Descriptiva


1. Qu es la Estadstica?
La Estadstica es una ciencia, que se encarga de desarrollar mtodos para la recopilacin,
presentacin, anlisis y uso de los datos, para facilitar la toma de decisiones frente a
condiciones de incertidumbre y resolver problemas. Cualquier persona, tanto en su carrera
profesional como en la vida cotidiana recibe informacin en forma de datos a travs de
diferentes medios de comunicacin. A menudo es necesario obtener alguna conclusin a
partir de la informacin contenida en los datos, por eso ser til para cualquier persona
tener cierta comprensin de la estadstica. Puesto que los Ingenieros y los cientficos
obtienen y analizan datos de manera rutinaria, el conocimiento de la estadstica tiene una
importancia especial en estos campos. De manera especfica, el conocimiento de la
estadstica y la probabilidad puede constituirse en una herramienta poderosa para ayudar a
los cientficos e ingenieros a disear nuevos productos, y sistemas, a perfeccionar los
existentes y a disear, desarrollar y mejorar los procesos de produccin.
2. El papel de la Estadstica
La estadstica ha jugado un papel muy importante en el desarrollo de todas las ciencias que
tienen que ver con la verificacin emprica como la ingeniera, la administracin, salud,
Psicologa, educacin, etc. As por ejemplo en la industria ha contribuido en el aumento de la
calidad. Muchas empresas se han dado cuenta de que la baja calidad de un producto tiene un
efecto pronunciado en la productividad global de la empresa, en el mercado y la posicin
competitiva y, finalmente en la rentabilidad de la empresa.
3. El mtodo estadstico de investigacin
En la investigacin estadstica por su naturaleza, pueden distinguirse cinco etapas:
1. Planeamiento:
a. Fundamentacin y comprensin del estudio del estudio e identificacin de las variables.
b. Determinacin de objetivos
c. Organizacin de las variables, precisin de los datos e informacin requerida.
d. Identificacin y evaluacin de las fuentes de informacin.
e. Identificacin y anlisis de estudios similares.
f. Determinacin del mbito de investigacin.
g. Preparacin del plan para ejecutar la investigacin.
h. Formacin y capacitacin del equipo de trabajo.
i. Elaboracin del calendario de actividades
j. Formulacin del presupuesto y fuentes de financiamiento.
k. Diseo y ejecucin de una prueba piloto o experimental

13

2. Recopilacin de datos: Es el momento en el cual el investigador se pone en contacto con


los objetos o elementos sometidos a estudio, con el propsito de obtener los datos de
las variables analizadas. Los mtodos de recoleccin son diversos, su utilizacin depende
de las posibilidades de acceso a los elementos investigados, del tamao de la poblacin
o muestra de la oportunidad de obtener datos, del presupuesto y de las exigencias del
tiempo.
3. Organizacin y presentacin de datos,
Despus de la recoleccin de datos, se procede a su organizacin, clasificacin y
tabulacin, de modo que se facilite la presentacin en tablas, cuadros o grficos.
Como tarea previa a la organizacin es indispensable realizar una evaluacin, crtica,
correccin y ajuste de los datos, el propsito es superar las omisiones, o inconsistencias
y desechar las respuestas no significativas o errneas. La validez de los resultados y
conclusiones dependen en gran medida de la fidelidad de los datos utilizados.
Realizadas las correcciones o ajustes, se inicia el procesamiento de datos con un anlisis
exploratorio, y la construccin de tablas o grficos de distribuciones de frecuencias,
clculo de medidas de resumen, etc.
4. Anlisis e interpretacin de datos.
En esta etapa se aplican los argumentos matemticos y tericos de la estadstica. A travs
de mtodos estadsticos se calcula indicadores y medidas de resumen, se establecen
relaciones entre variables, se estiman valores, se ejecutan pruebas estadsticas, etc.,
como elementos de referencia para la descripcin, anlisis e interpretacin del
comportamiento de los datos, hacer inferencias vlidas y obtener informacin de los
elementos o unidades estudiadas.
5. Formulacin de conclusiones y preparacin del informe
En toda investigacin debe analizarse el cumplimiento de los objetivos, en funcin de los
resultados fundamentales. Esta contrastacin permite elaborar un resumen de los
aspectos sustantivos, que luego se expresarn en forma de conclusiones y sugerencias
orientadoras en la toma de decisiones.
4. Variables
Son caractersticas observables, susceptibles de adoptar distintos valores o ser expresados
en distintas categoras. Matemticamente sera X:
R

14

5. Clasificacin de variables
5.1. Por su Naturaleza
5.1.1. Cualitativas: Expresan una cualidad de la unidad elemental o de anlisis. Ej. Lugar
de procedencia, Lugar de nacimiento, sexo, etc.
5.1.2. Cuantitativas: Expresan una cantidad, la cual puede obtenerse mediante procesos
de conteo o de medicin haciendo uso de algn instrumento de medida para dicha
variable; por lo que a su vez se pueden subdividir en:
5.1.2.1.

Discretas: Expresan cantidades aisladas mediante nmeros enteros o


racionales (a/b), su valor se suele obtener mediante procesos de conteo. Ej.
Nmero de hijos por mujer, nmero de estudiantes matriculados por
asignatura, nmero de trabajadores por empresa, nmero de productos
terminados por turno de trabajo, etc.

5.1.2.2.

Continuas: Expresan cantidades usando los nmeros reales, los cuales son
obtenidos mediante procesos de medicin utilizando algn instrumento de
medida. Ej. Peso de un recin nacido, Tiempo de vida de una lmpara
incandescente, estatura de una persona, etc.

5.2. Por su escala de medida


5.2.1.Nominal: Permite clasificar y no admite ninguna operacin matemtica. Ejemplo:
Carrera de estudio, lugar de procedencia, sexo, etc.
5.2.2.Ordinal: Permite clasificar y ordenar, adems es posible establecer relaciones < y >.
Ejemplo: Rango militar, clase social, nivel de instruccin, etc.
5.2.3.Intervalo: Permite clasificar, ordenar y medir distancias pero con cero relativo.
Admite todas las operaciones matemticas, excepto la divisin. Ejemplo:
Temperatura, puntaje de un test psicomtrico validado, etc.
5.2.4.Razn: Permite clasificar, ordenar y medir distancias con cero absoluto. Admite todas
las operaciones matemticas. Ejemplo: Peso, estatura, nmero de hijos por mujer,
etc.
5.3. Por el tipo de relacin: es necesario la presencia de por lo menos dos variables. La
clasificacin se hace dentro del conjunto de variables que estn siendo estudiadas.
5.3.1.Dependientes: Su valores dependen del valor de otra variable. Ejemplo: rendimiento
acadmico.
5.3.2.Independientes: Sus valores no dependen de otra variable, sino de la voluntad del
investigador. Ejemplo: Horas de estudio
5.3.3.Intervinientes: Son aquellas que condicionan el modo de influencia de la variable
independiente sobre la dependiente. Ejemplo: Nivel de estrs.
5.4. Por el orden en el registro de datos.
5.4.1.Atemporales. Los valores NO estn asociados al tiempo en que fueron registrados.
Sexo, Lugar de procedencia, etc.

15

5.4.2.Temporales (Series de tiempo). Los valores estn asociados al tiempo en que fueron
registrados de la fuente primaria. Ejemplo: Preferencia electoral actual, ventas
mensuales, etc.
5.5. Por la amplitud
5.5.1. Individuales: Se refieren a las caractersticas de las unidades elementales, como
por ejemplo personas
5.5.1.1. Privadas: Se refieren a las caractersticas de las unidades elementales que
voluntariamente permiten su observacin, por ejemplo: Coeficiente de
inteligencia, Nivel de estrs, etc.
5.5.1.2. Pblicas. Se refieren a caractersticas que pueden ser observadas incluso
sin el permiso del individuo, por ejemplo: Sexo, raza, color de cabello, etc.
5.5.2. Colectivas: son caractersticas que se refieren a colectivos de unidades
elementales, por ejemplo: Tasa de morbilidad en una poblacin, inflacin, etc.
6. Operacionalizacin de variables
Es el proceso mediante el cual se hace medible una variable con un nivel de abstraccin
elevado o que no es directamente medible.

16

Ejemplo del cuadro de operacionalizacin de la variable Nivel Socioeconmico (NSE)


CONCEPTO

DIMENSIN

INDICADOR

(Variable terica)

(Variable Emprica)

I1: Nmero de aos de


estudio del jefe del hogar

I2: Grado acadmico del jefe

D1: Nivel Social:

del hogar

Es el entorno en que el

NSE:
Es una caracterstica de un
hogar. El hogar obtiene su
NSE a partir de
caractersticas propias del
mismo y el entorno en que
se mueve. La primera
forma la parte econmica
del NSE y la segunda la
parte socio del NSE.
Adems, el NSE incorpora
tanto caractersticas fsicas
de la vivienda que habita el
hogar, como de las
personas que integran al
hogar.

hogar se mueve (los dems


hogares con los que
interacta; La ocupacin
que tienen, las escuelas a
que se asiste, el club
deportivo al que pertenece,
las actividades culturales).

I3: Ocupacin del Jefe del


hogar

I4: Zona de residencia

Valores o
cualidades

Nmero

Ninguno, Br., Mg.,


Dr.
Gerente, , obrero
eventual o ambulante
Urb. Santa Victoria,
, P.J. El Bosque
Turismo Internacional,

I5: Turismo

Turismo nacional,
Turismo local,
No hace turismo

D2: Nivel econmico:


Est determinado por la
capacidad econmica del
hogar (cmo est
constituido y cmo son las
personas que lo conforman;
qu artculos o posesiones
tiene)

I6: Ingreso econmico familiar


mensual

I7: Gasto en alimentacin

En nuevos soles

En nuevos soles
Uso particular del ao

I8: Vehculos

Uso Partic. No del ao


Para trabajo

1. Nivel Alto A1: En esta categora se encuentran las personas que tienen un nivel de
estudios Superior / post-grado, con un promedio en aos de estudios de 17.5. Estas
personas ocupan cargos de Gerentes Generales cuyo ingreso es de $5000. Y tienen
un gasto promedio mensual de $750 en alimentos. En servicios de televisin a
control remoto es al 100% de igual manera en tenencia de telfono y servicios
domsticos.
2. Nivel Medio Superior A2: En esta categora se encuentran las personas con un nivel
de estudios Superior Universitarios, con un promedio de aos de estudios de 16.8.
Estas personas ocupan cargos profesionales independientes / dependientes.
Con un ingreso familiar mensual ms de $2000, y tienen un gasto promedio
mensual de $450 en alimentos.
En servicios de tenencia de televisin a control remoto es de 100% de igual
manera en tenencia de telfono y servicios domsticos.

17

3. Nivel Medio Tpico B1: En esta categora se encuentran las personas con un nivel
de estudios Superior Universitario, con un promedio en aos de estudios de 16.7.
Estas personas ocupan cargos profesionales independientes / dependientes. Con
un ingreso familiar mensual mas de $1000, y tienen un gasto promedio mensual de
$280 en alimentos. En servicios de tenencia de televisin a control remoto es de
92% en tenencia de telfono es de 96% y en servicios domsticos es de 67%.
4. Nivel Medio Inferior B2: En esta categora se encuentran las personas con un nivel
de estudios Universitario y no Universitario, con un promedio en aos de estudios
de 15.1. Estas personas ocupan cargos especializado/ profesional independiente.
Con un ingreso familiar mensual mas de $780, y tienen un gasto promedio mensual
de $235 en alimentos. En servicios de tenencia de televisin a control remoto es
de 82% en tenencia de telfono es de 92% y en servicios domsticos es de 32%.
5. Nivel Bajo Superior C1: En esta categora se encuentran las personas con un nivel
de estudios Superior no Universitario/ Secundaria, con un promedio en aos de
estudios de 13.1. Estas personas ocupan cargos pequeos Comerciantes/ Trabajo
especializado Con un ingreso familiar mensual mas de $400, y tienen un gasto
promedio mensual de $180 en alimentos. En servicios de tenencia de televisin a
control remoto es de 77% en tenencia de telfono es de 73% y en servicios
domsticos es de 8%.
6. Nivel Bajo Inferior C2: En esta categora se encuentran las personas con un nivel
de estudios Secundaria, con un promedio en aos de estudios de 10.6. Estas
personas ocupan cargos pequeos Comerciantes/ Trabajo especializado Con un
ingreso familiar mensual mas de $320, y tienen un gasto promedio mensual de
$150 en alimentos. En servicios de tenencia de televisin a control remoto es de
61% en tenencia de telfono es de 56% y en servicios domsticos es de 2%.
7. Nivel Muy Bajo D: En esta categora se encuentran las personas con un nivel de
estudios Secundaria/ Primaria, con un promedio en aos de estudios de 8.8. Estas
personas ocupan cargos como Empleado poco especializado/ Obrero con un
ingreso familiar mensual mas de $230, y tienen un gasto promedio mensual de
$135 en alimentos. En servicios de tenencia de televisin a control remoto es de
42% en tenencia de telfono es de 25% y en servicios domsticos es de 1%.
8. Nivel Bajo Extremo E : En esta categora se encuentran las personas con un nivel
de estudios Primarios, con un promedio en aos de estudios de 6.2. Estas personas
ocupan cargos como Obrero eventual/ Ambulante con un ingreso familiar mensual
mas de $150, y tienen un gasto promedio mensual de $105 en alimentos. En
servicios de tenencia de televisin a control remoto es de 16% en tenencia de
telfono es de 7% y en servicios domsticos es de 0%.

PERFIL DE LOS NIVELES SOCIO ECONOMICOS


A1

A2

B1

18

B2

C1

C2

Caractersticas
dominantes
% de hogares en Lima
Metropolitana

Alto

Medio superior

Medio Tpico

Medio
inferior

Bajo superior

Bajo inferior

Muy Bajo

Bajo Extremo

0.8

3.5

6.5

8.8

10.9

21.5

36.1

11.9

Educacin del jefe del


hogar

Superior
universitaria /
Postgrado

Superior
universitaria

Superior
universitaria

Superior
universitaria /
no
universitaria

Superior no
universitaria /
secundaria

Secundaria

Secundaria
/ Primaria

Primaria /
Secundaria

Aos de estudio del


jefe del hogar

17.5

16.8

16.7

15.1

13.1

10.6

8.8

6.2

Profesional
Independiente /
Dependiente

Profesional
Independiente /
Dependiente

Trabajador
especializado
/ Profesional
Independiente

Pequeo
comerciante /
Trabajador
Especializado

Pequeo
comerciante /
Trabajador
Especializado

Empleado
poco
especializa
do / Obrero

Obrero eventual
/ ambulante

+ us$ 5,000

+ us$ 2,800

Us$ 1,000

Us$ 780

Us$ 400

Us$ 320

Us$ 230

Us$ 150

Us$ 750

Us$ 450

Us$ 280

Us$ 235

Us$ 180

Us$ 150

Us$ 135

Us$ 105

100%

100%

92%

82%

77%

61%

42%

16%

100%

100%

96%

92%

73%

56%

25%

7%

8%

2%

1%

0%

Ocupacin del jefe del


Empresario /
hogar
Gerente General
Ingreso familiar
mensual bruto
Promedio
(aproximado) gasto
mensual en alimentos
Promedio
(aproximado) tenencia
de TV LSD / PLASMA
Tenencia de
telfono/Internet
Tenencia de TV
Cable
Servicio domstico
Vehculo de uso
particular

100%

100%

67%

32%

Del ao

De 1 ao

De 3 aos

De 4 aos

Fuente: Apoyo Opinin y Mercado S.A. Actualizado por M. Hurtado S. Junio/2006

7. Recoleccin de datos
Es el uso de tcnicas e instrumentos para recopilar informacin acerca de un determinado
tema que es objeto de investigacin. Es una de las tareas ms importantes en la
investigacin, pues de ello depende la calidad de conocimiento que se pueda obtener en
dicha investigacin.
7.1. Etapas de la recoleccin de datos:
a.

Planificacin: Comprende el diseo del cuestionario, diseo de muestra, seleccin


de informantes, reclutamiento y capacitacin de encuestadores, incluyendo una
prueba piloto como prctica de campo, reajustes del cuestionario y clculo de
tiempos y costos del operativo de recoleccin de datos.

b.

Registro de datos: Consiste en la accin de registrar los datos de acuerdo a la


modalidad prevista en la planificacin.

c.

Revisin y crtica: Esta etapa se realiza en dos momentos, la primera a cargo del
supervisor de encuestadores, se realiza en el escenario mismo de la recoleccin de
datos y la segunda a cargo del equipo de investigacin y se realiza en el centro de
operaciones de la investigacin. La actividad consiste en revisar que los datos sean
consignados en el instrumento de acuerdo a lo previsto guardando la coherencia
correspondiente a cada informante. Finalmente comprende la codificacin de las
respuestas abiertas si las hubiera.

d.

Digitacin a una base electrnica de datos: Previamente se debe disear la base


de datos definiendo los cdigos numricos en cada una de las preguntas, para luego
consignar cada uno de los datos en la base. En esta etapa se enumera los
cuestionarios y se consigna en la base.

19

e.

Limpieza de la base de datos: Se procede a revisar la consistencia de la base de


datos, para lo cual se procede en dos etapas, la primera consiste en seleccionar una
muestra aleatoria del 5% de registros de la base y se procede a revisar cada uno de
los registros de la base comparndolos con el cuestionario correspondiente,
posteriormente se elaboran tablas de frecuencia de una y dos entradas y se examina
la consistencia de los datos de cada uno de las variables, poniendo especial cuidado
en los filtros que pueda tener el cuestionario

7.2. Tcnicas de recoleccin de datos:


Existen diversas tcnicas, las mismas que pueden ser utilizadas de acuerdo a la
naturaleza de los datos que se pretenden recolectar. Entre las ms conocidas
tenemos:
a.Entrevista
b. Encuesta
c. Observacin
d. Sesin de Grupo
La Entrevista: Se utilizan para obtener informacin de forma verbal, a travs de
preguntas, acerca de las necesidades del tema de investigacin. Los entrevistados
deben ser personas pertenecientes a la poblacin objeto de estudio.
Para realizar una entrevista se deben preparar las preguntas que van a plantearse, y
los documentos necesarios, se debe tambin fijar un lmite de tiempo y preparar la
agenda para la entrevista, finalmente se debe elegir un lugar donde se puede
conducir la entrevista con la mayor comodidad, para lo cual se debe hacer la cita
con la debida anticipacin.
Los tipos de preguntas que se utilizan pueden ser abiertas o no estructuradas, con
las que se obtienen respuestas cualitativas y subjetivas, por ejemplo: Qu opina
acerca de la actual gestin municipal?, tambin se pueden utilizar preguntas
cerradas o estructuradas, pudindose obtener respuestas cuantitativas y concretas,
por ejemplo Cuntos accidentes de transito ocurrieron en las ultimas fiestas
navideas?
La encuesta: Es una tcnica para recopilar informacin tomando una muestra de la
poblacin objetivo. Se obtiene informacin sobre las necesidades y preferencias de
usuarios o clientes. Difiere de un censo en donde toda la poblacin es estudiada. Se
pueden obtener datos estadsticos de la informacin recolectada. Las preguntas
suelen ser cerradas.
Observacin: Esta tcnica se usa con el fin de estudiar a las personas en sus
actividades de grupo y como miembros de la organizacin. Permite al analista
determinar que se est haciendo, como se est haciendo, quien lo hace, cuando se
lleva a cabo, cuanto tiempo toma, dnde se hace y por qu se hace.

20

Tipos de Observacin: Observar sin ser detectado, observar siendo detectado sin
intervenir, observar e intervenir o interactuar con la persona observada.
Preparacin para la observacin: Determinar y definir aquello que va a observarse.
Estimar el tiempo necesario de observacin. Obtener la autorizacin de la gerencia
para llevar a cabo la observacin. Explicar a las personas que van a ser observadas
lo que se va a hacer y las razones para ello.
Sesin de Grupo. Consiste en reunir a todos los participantes del proyecto para
generar alternativas de solucin ante un determinado problema. La lluvia de ideas
es una de las tcnicas ms utilizada en estos casos en donde cada miembro hace
sus aportaciones y al final se decide por votacin cuales sern las alternativas ms
adecuadas frente al problema planteado.
8. Instrumentos de recoleccin de datos.
De acuerdo al tipo de variable existen instrumentos apropiados para la recoleccin de datos;
as, tenemos que para las variables naturales o fsicas, existen hojas de registro o
instrumentos fsicos para cada caso, por ejemplo, para medir el peso, se puede utilizar una
balanza, para medir una distancia, se puede utilizar el metro, para medir el voltaje del fluido
elctrico, se puede utilizar el voltmetro, etc.; en cambio para variables sociales se suelen
utilizar los cuestionarios, los mismos que deben ser elaborados cuidadosamente para
recolectar adecuadamente los datos que se necesitan.
a. Propiedades de los Cuestionarios: Cada uno de los tems de un cuestionario debe tener las
propiedades de validez y confiabilidad. Validez, significa que el tem debe medir lo que se
pretende medir, y confiabilidad, significa que cada tem debe medir siempre lo mismo
cuanta veces sea utilizado.
b. Partes de un cuestionario:
i. Nombre de la Institucin: a la que pertenece o est adscrito el proyecto de
investigacin, podra ser suficiente con el logo institucional, el cual se suelo colocar
en la parte superior izquierda. A esta misma altura pero al lado derecho se coloca un
espacio para la numeracin correlativa de los cuestionarios N ___ , lo cual permitir
una fcil ubicacin en la base de datos.
ii.

Ttulo del cuestionario: El cual contiene el objeto de estudio

iii.

Objetivo de la investigacin: Es opcional, se justifica slo cuando el cuestionario va ha


ser autodiligenciado, en cambio cuando su aplicacin va ha estar a cargo de un
encuestador, no es necesario, pues ocupara un espacio que hara elevar los costos
innecesariamente.

iv.

Identificacin del Informante: La identificacin precisa del informante con nombre y


direccin, y otros datos como DNI, Telfono, etc. Se puede justificar slo en estudios
de a nivel censo, en los que se pretende elaborar un padrn a nivel poblacional. Si ste
no fuera el caso, la identificacin puede ser a un nivel muy leve, solo lo necesario para
hacer los cruces o identificacin de clsteres en el anlisis, para lo cual no es necesario
el nombre u otros datos del informante.

v.

Batera de preguntas: las cuales se organizan por reas temticas u objetivos de la


investigacin, teniendo cuidado la secuencia de las preguntas para evitar que el

21

informante falsee la informacin, y adems que permita al investigador la fcil


deteccin de posibles inconsistencias.
vi.

9.

Salida: Aqu se suele escribir el agradecimiento al informante con la frace Muchas


gracias, adems se debe consignar la fecha de la aplicacin del cuestionario y el
nombre del encuestador.

Clases de tems o preguntas


a.

Por el tipo de respuesta:


i. Preguntas cerradas: Son aquellas que tienen sus posibles respuestas en una lista de
alternativas pre codificadas con nmeros. Estas alternativas generalmente son
colocadas de acuerdo a la naturaleza de la variable o a su definicin operacional que
aparece en el cuadro de operacionalizacin de variables. La ventaja de esta clase de
preguntas radica en la facilidad de respuesta y de procesamiento; sin embargo su
desventaja es que podra sesgar a cierta clase de alternativas que no representan
genuinamente el sentir del informante, sobre todo en aquellas preguntas cuyas
alternativas han sido construidas en reuniones de grupos focales.
Ejemplo:
4.

Cul es su Grado de Instruccin?


Ninguna ...
Primaria
Secundaria .

1
2
3

Superior tcnica
Superior Universitaria .
Post Grado (Ms, o Dr.)..

4
5
6

ii. Preguntas abiertas: Son aquellas en las que se solicita una opinin o que describa una
cierta problemtica. La ventaja de esta clase de preguntas radica en que permite
capturar el sentir de exacto del informante cuando se le pide una opinin, sin embargo
la desventaja est en la gran laboriosidad que implica la identificacin de la o las ideas
principales de las respuestas en el momento de su codificacin, se requiere mucho
esfuerzo, tiempo y capacidad de sntesis, motivo por el cual hay una tendencia a evitar
en lo posible esta clase de preguntas en un cuestionario.
Ejemplo:
Si el establecimiento de salud en el que se hicieron atender, queda fuera de Chiclayo, Cul fue el
principal motivo por el que se traslad o trasladaron a dicha localidad?

iii.

Preguntas Semicerradas: son aquellas preguntas que debiendo haber sido abiertas
se ha hecho un esfuerzo a travs de grupos focales de proponer cierto nmero de
alternativas de solucin, de las cuales la ltima es abierta
Ejemplo
Por qu no se atendi por la enfermedad que present?
Horario inapropiado
Atencin lenta .
Maltrato
Servicio alejado ..
Falta de Medicinas .

b.

Por el nmero de respuestas posibles

22

1
2
3
4
5

No confa en Servicio ..
No hay mdico

No tiene dinero
No era necesario.
Dificult. P Comunic. .
Otro: (especifique)______________

6
7
8
9
10
11

i. Respuesta nica: Slo admiten una nica respuesta, de una lista de alternativas
posibles.
Cul es su estado civil?
Soltero(a)
Casado(a)
Viudo(a).......

4
5
6

Divorciado(a)
Conviviente
Separado..

1
2
3

ii. Respuesta mltiple: pueden admitir una o ms respuestas posibles de la relacin de


alternativas posibles.
Ejemplo:
Con qu servicios cuenta actualmente su vivienda?
Telfono fijo
TV Cable
Internet

c.

1
2
3

Agua Potable
Desage
Luz elctrica

4
5
6

Por su graduacin
i. Preguntas valorativas: Se suelen utilizar para asignar valoraciones en una escala
especfica, generalmente entre 0 y 10, acerca del grado de aceptacin o conformidad
con un servicio, de la intencin de acudir o tomar un servicio, o acerca de un
desempeo.
Durante su permanencia en el establecimiento cmo valora el trato general que le
brindaron?. Utilice una escala entre 0 y 10, teniendo en cuenta que:
0

Psimo

10

Excelente

Seale aqu su respuesta:

ii.

Preguntas en escala de Licker. Se redactan en forma de proposicin, redactada ya


sea en positivo o en negativo y se le pide al informante que manifieste su nivel de
acuerdo o desacuerdo con dicha proposicin, para lo cual se les presenta
generalmente cinco niveles: Total acuerdo, De acuerdo, Indiferente, En Desacuerdo
y en Total Desacuerdo.
Ejemplo
Los contenidos del curso evidencian en su desarrollo una actualizacin terica
prctica
- En Total desacuerdo ..
- En desacuerdo.
- Indiferente
- De acuerdo .
- Totalmente de acuerdo .

1
2
3
4
5

10 Matriz tripartita de datos (Base de datos)


Es un ordenamiento de los datos en filas y columnas, de moda tal que en cada columna
aparecen los datos de una variable en todos los informantes y en cada fila aparecen los datos
de un informante correspondiente a todas las variables correspondientes al estudio. Esta base

23

se suele registrar en formato electrnico como una hoja de Excel o algn software estadstico
como el SPSS.
Ejemplo: A continuacin se presenta una base de datos de 8 variables de respuesta nica
correspondiente a 12 informantes en formato Excel.
Variables: Sexo, Edad, Escuela, ., N de dormitorios

Informante

Depart.
Proced.
1=Lamb.
2=Piura
1=Estad.
3=Cajam.
2=Matem.
4=Amaz.
3=Fsica.
5=Tumbes
4=Comp.
6=SanMart.
5=Ing.Electr. 7=Otros

Escuela
Sexo
N
1=Varn Edad
cuest. 2=Mujer (aos)
1
2
3
4
5
6
7
8
9
10
11
12

2
1
2
1
2
1
2
2
2
1
1
1

20
18
18
18
19
18
18
21
18
21
20
20

2
2
2
1
2
2
2
2
2
2
2
2

2
1
1
3
3
1
1
1
1
1
1
1

Distrito de
residencia

Condicin
N de
Tenencia de
miembros
Vivienda
Nmero de
del hogar
1=Propia
dormitorios
nuclear
2=Alquil.

1=Chiclayo
2=J.L.O.
(padre,
3=La.Victoria
4=Lambayeque madre e
hijos)
5=Otro

1
1
4
4
2
2
2
5
1
4
1
5

5
4
4
7
5
6
4
6
4
3
5
4

3=Cedida
4=Invasin
5=Otra

1
1
1
2
2
1
2
1
1
1
1
1

4
2
5
1
2
3
2
3
6
3
6
3

Esta misma base en formato SPSS tiene la siguiente presentacin

Pasos hacer una base en el SPSS:


1. En el SPSS, seleccionar la hoja Vista de variables . Como se puede apreciar,
en esta hoja aparecen 10 columnas, de las cuales slo utilizamos las 6
primeras par ingresar cada una de los atributos o caractersticas de cada

24

variable. Cada una de las filas se utilizan para definir una variable de
respuesta nica.

En la primera columna designada con el encabezamiento nombre se escribe


el nombre de la variable, el cual puede ser un texto de a lo ms 8 caracteres sin
espacios en blanco, pudiendo admitir un punto o guion bajo como parte de los
caracteres. Generalmente se escribe una abreviatura del nombre de la variable,
como por ejemplo: Edad_mad para hacer referencia a la Edad de la madre, o
simplemente la letra p seguida de un nmero para hacer referencia al nmero de
la pregunta del cuestionario, por ejemplo p14 para hacer referencia a la
pregunta 14, la cual contiene los datos de la Edad de la madre.
En la segunda columna designada con el encabezamiento tipo se escribe el
tipo de variable, el cual puede ser visualizado colocando el cursor en lado
izquierdo de la celda, tal como se aprecia en la siguiente figura

El cuadro de tipos de variable que se visualizar es el siguiente:

25

Es este cuadro debemos marcar el tipo de variable; si sta es numrica, se deber


consignar el nmero de decimales, caso contrario el SPSS asumir por defecto 2
decimales. Asimismo cuando la variable es cualitativa es decir se ingresar textos,
debemos marcar como tipo de variable cadena y a continuacin asignar el nmero
mximo de caracteres que se puede registrar en la base, en forma similar, si no
hacemos esto, el SPSS asumir por defecto un ancho de 8 caracteres. Estas dos
especificaciones aparecern en las columnas 3 y cuatro designadas con los
nombres Anchura y Decimales respectivamente. Debemos tener presente que
una variable cualitativa cuya informacin es recopilada con una pregunta cerrada y
cuyas categoras han sido codificadas con nmeros, se debe definir como variable
numrica., puesto que a la base se ingresar cdigos numricos sin decimales, en
cuyo caso cada cdigo debe ser definido en la sexta columna.
En la quinta columna designada con el encabezamiento Etiqueta se escribe el
nombre completo de la variable, el cual aparecer como ttulo del cuadro de
frecuencias cuando esta variable sea procesada. Se debe tener cuidado con la
ortografa para no tener que corregir posteriormente en las salidas del
procesamiento de la variable.
En la sexta columna designada con el encabezamiento Valores se escribe la
definicin de cada cdigo numrico utilizado en la pregunta especfica. Para tener
acceso a realizar esta definicin, tambin debemos hacer Click en la parte
izquierda de la celda, con lo cual aparecer el siguiente cuadro de dilogo, en el
cual se asigna el nombre a cada cdigo utilizado en la pregunta, por ejemplo para
la pregunta:
Sexo:

Varn 1
Mujer 2

26

El 1 significar varn y el 2 significar mujer, lo cual se ir asignando con el


botn aadir. Al culminar con la definicin de todos los cdigos se debe hacer clic
en el boton Aceptar

Note que la primera fila siempre es utilizada para definir la numeracin correlativa
de los cuestionarios por lo que se le suele dar el nombre de nmero. A partir de
la segunda fila se definen los campos para cada una de las variables que
aparecen en el cuestionario.
Al visualizar la otra hoja vista de datos, aparecer la siguiente presentacin:

Ejemplo: supongamos que deseamos estudiar la relacin entre el rendimiento acadmico


de los estudiantes universitarios de Lambayeque en el semestre acadmico 2014-II, y las
condiciones de estudio de dichos estudiantes.
Aqu existen dos variables:
1. Rendimiento Acadmico
2. Condiciones de estudio
A continuacin presentamos las definiciones operacionales dichas variables:

27

Variable Y: Rendimiento acadmico de los estudiantes Universitarios en el semestre


2014-II: Est dado por el promedio ponderado obtenido por el estudiante en el
semestre acadmico 2014-II
Variable X: Condiciones de estudio de los estudiantes en el semestre 2014-II: Se refiere a
cada una de las condiciones de estudio que tuvieron en el semestre acadmico 2014-II
los estudiantes universitarios de Lambayeque, en cuanto a lugar de procedencia,
caractersticas del hogar, carga acadmica, recursos de apoyo al estudio, y situacin
laboral.
Cuadro de Operacionalizacin de la variable Condiciones de estudio
Variable

Condiciones de
Estudio:
Se refiere a cada una
de las condiciones de
estudio que tuvieron
en el semestre
acadmico 2013-I
los estudiantes
universitarios de
Lambayeque, en
cuanto a lugar de
procedencia,
caractersticas del
hogar, carga
acadmica, recursos
de apoyo al estudio,
y situacin laboral.

Dimensiones

Informacin general

Caractersticas el
hogar

Carga acadmica

Indicadores

Valores / categora

Sexo
Edad
Escuela Profesional
Dpto. procedencia
Distr. residencia
N de miembros del hogar
Tenencia de la vivienda
N de dormitorios de la vivienda
Servicios de la vivienda

Varn, Mujer

Espacio en la vivienda para estudiar

Si, No

N de cursos matriculados
N de cursos aprobados

Nmero

N de horas de estudio a la semana

Recursos de apoyo al
estudio

N de textos adquiridos
Fuentes de consulta
Tenencia de computadora
Ocupacin laboral
N de horas de trabajo a la semana

Situacin laboral

Actividad en el trabajo

El cuestionario para este tema de investigacin ser el siguiente:

28

Aos
Estadstica, Fsica,
Lambayeque, Piura, ..
Lambayeque, ..
Nmero
Propia, alquiler, .
Nmero
Luz, Agua, .

Nmero

N ____

CONDICIONES DE ESTUDIO DE ESTUDIANTES UNIVERSITARIOS EN EL 2014-II

Objetivo: Medir la relacin entre el rendimiento acadmico y las condiciones de estudio en estudiantes universitarios
I.

Informacin General

Nombre: ___________________ Sexo: 1. Varn ( ) 2. Mujer ( )

Fecha de Nac. ___ / ___ / __

Escuela: ______________________ Ao y semestre de ingreso: (Ejemplo: 2014-I): ______ - __


Departamento donde viva habitualmente y termin sus estudios secundarios: 1.Lambayeque( )
2.Piura ( ) 3.Cajamarca ( ) 4.Amazonas ( ) 5.Tumbes ( ) 6.San Martn ( ) 7.Otros ( ): _________
1.Chiclayo ( ) 2 . J.L.O. ( ) 3 . La Victoria ( )
6. Mrrope ( ) 7. Otro ( ) Especifique: _______________

4.

Distrito donde reside actualmente para estudiar:


Lambayeque (

II.
1.

) 5. Ferreafe ( )

Caractersticas del hogar

Si Hogar es el conjunto de personas que satisfacen sus necesidades de alimentacin y vivienda


de un mismo presupuesto, Cuntos miembros tiene su hogar? : ______

2. Cul es la condicin de tenencia de la vivienda de su hogar?: 1.Propia( ) 2.Alquilada ( ) 3.Cedida


en uso sin pago ( ) 4.Invasin( ) 5.Otra forma ( ) ____________________
3.

Cul es el nmero de dormitorios de la vivienda?. _____

4.

Con qu servicios cuenta la vivienda?: 1. Agua

5.

2. Desage (

3. Electricidad (

4.Telfono (

5. TV Cable (

6. Internet

Su vivienda dispone de un espacio solo para estudiar?: 1. Si ( )

III.

2.No ( )

Carga acadmica en el semestre 2014-II

6. En cuntas asignaturas estuvo matriculado(a) en el semestre 2014-II?: _____


7. Cuntas asignaturas aprob en el semestre 2014-II?: _____
8. Indique en forma aproximada el n de horas a la semana que le dedic al estudio de todas sus
asignaturas en el semestre 2014-II (tome referencia un periodo tpico que no sea tiempo de evaluaciones, adems no
incluya en la estimacin las horas que le dedica a asistir a clases): ____

IV. Recursos de apoyo al estudio


9.

Cuntos textos adquiri para apoyar sus estudios en el semestre 2014-II?: _____

10.

Cul fue su fuente habitual de consulta, para hacer sus trabajos acadmicos en el semestre 2014-II?:
1. Libros propios( ) 2. Biblioteca ( )
3.Internet ( )
4.Otro ( ): _______________

11. Ud. tuvo acceso a usar una PC o Latop personal en su casa en el semestre 2014-II?:
1.Si ( )
2.No

V.

Situacin laboral

( )

12. Ud. realiz alguna ocupacin laboral regular en el semestre 2014-II? (Incluye trabajo remunerado o no
remunerado en algn negocio familiar): 1. Si

( ) Cuntas horas a la semana? _____

2. No ( ) Pase a pregunta 14
13. Cul fue la actividad principal que realiz en su trabajo?:_________________________

VI.

Rendimiento Acadmico

14. Cul fue su promedio ponderado en el semestre 2014-II?: _______

Muchas gracias
Fecha: ____ / ___ / ____

29

Encuestador:______

11 . Organizacin de datos en tablas de frecuencia


La organizacin de los datos en tablas de frecuencia, constituye el primer paso
para un anlisis descriptivo de los datos y sirve para identificar empricamente, la
estructura de la distribucin de una variable en estudio. Una tabla nos puede
reflejar, el mximo y mnimo de la variable y por lo tanto el rango en el cual la
variable toma sus valores, tambin nos puede revelar si los datos de la variable
estn concentrados en una clase o categora, o en un grupo de clases o
categoras.
Una tabla de frecuencias, en general tiene tres partes principales:
1. El Nmero y ttulo de la tabla: El nmero de la tabla sirve para hacer una
referencia rpida de la tabla, en cambio el ttulo, debe contener el nombre de la
variable, en donde han sido observados los datos de la variable, es decir las
unidades elementales o de anlisis, segn sea el caso, finalmente el momento
en fueron tomados los datos, o el perodo temporal al cual corresponden los
datos.
Ejemplo:

2. El cuerpo de la tabla: Es la tabla de frecuencias propiamente dicha, en la cual


tambin podemos identificar tres componentes:
Encabezamiento: En la parte superior de la primera columna del lado
izquierdo se escribe el nombre de la variable y las unidades de medida.
Clases o categoras: En la primera y debajo del nombre de la variable
(encabezamiento) se ubican las clases o categoras de la variable. el nmero
de clases se suele representar por m
Frecuencias: A partir de la segunda columna se escriben las frecuencias, las
mismas que pueden ser de dos clases, absolutas y relativas, y cada una de
ellas a su vez pueden ser simples o acumuladas; as tenemos:
Frecuencias absolutas simples ( ni ): Indica el nmero de elementos o
datos que contiene la clase o categora i.
Frecuencias absolutas acumuladas menor igual que ( Ni ): Expresa el
nmero de elementos o datos acumulados desde la primera clase hasta la
i-sima clase.
i

Ni n j
j 1

30

Frecuencias absolutas acumuladas mayor igual que ( Ni ): Expresa el


nmero de elementos o datos acumulados desde la i-sima clase hasta la
ltima clase.
m

Ni n j
j i

Frecuencias relativas simples ( hi ): Expresa la proporcin de elementos o


datos que representan los ni datos contenidos en la i-sima clase.

hi

ni
n

donde

n ni = nmero total de datos y


i 1

h 1
i 1

Frecuencias relativas porcentuales simples ( hi % ): Expresa el


porcentaje de elementos o datos que representan los ni datos contenidos en
la i-sima clase.

hi %

ni
100
n

Frecuencias relativas porcentuales acumuladas menor igual que ( Hi %


): Expresa la proporcin en trminos porcentuales de elementos o datos
acumulados desde la primera clase hasta la i-sima clase.

Hi %

Ni
100
n

Frecuencias relativas porcentuales acumuladas mayor igual que (


H i % ): Expresa la proporcin porcentual de elementos o datos
acumulados desde la i-sima clase hasta la ltima clase.

Hi %

Ni
100
n

3. Fuente: Expresa el lugar de donde fueron obtenidos los datos, de modo tal
que cualquier persona pueda acudir a la fuente y encontrarlos. Cuando el
investigador que presenta una tabla de frecuencias es el que obtuvo los datos
directamente del informante utilizando sus propios instrumentos, no es
necesario que escriba la fuente, en virtud que l mismo es el autor.

31

Tabla N 1 Base datos para ejemplos de tablas de frecuencias


Lugar_Proc

Jefe de
hogar

Chic=1
Lamb=2
Ferr=3
Cajam=4
Piura=5
Otros=6

N Personas
por hogar

Edad
(aos)

Peso
(Kgr.)

Cuenta

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

1
1
6
1
2
1
1
1
1
2
1
1
3
1
1
2
4
1
1
2
1
4
2
1
1
1
3
1
1
2
1
1
2
1
1
5
1
3
1
6

1
3
6
1
4
2
2
3
3
4
3
2
5
2
2
4
5
3
4
4
3
5
4
3
3
4
5
4
3
5
3
3
4
3
4
6
2
5
2
6

42
39
35
41
50
39
33
30
26
32
35
26
43
40
30
46
47
38
38
45
28
43
37
36
40
32
38
49
54
31
33
44
43
25
31
34
34
36
35
36

66.6
59
69.2
73
66.3
58.6
67.5
66.1
63.1
55.8
69.1
53.9
64.4
72.2
64.4
68.1
73.2
60.5
66.4
61.9
69.1
57.9
62.7
65.7
63.8
71.6
52.4
61.9
58.8
67
63.8
73.4
61.3
61.3
66
69.8
71.1
76.9
67.2
65.9

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

32

12.1. Tabla de frecuencias para variables cualitativas


En este caso las categoras estn determinadas por cada una de las
categoras de la variable cualitativa. En esta clase de tablas solamente
se pueden obtener frecuencias simples, tanto absolutas como
relativas, y las clases deben ser ordenadas de mayor a menor, de
acuerdo a su frecuencia absoluta simple, teniendo presente que si
hubiera una categora otros, sta debera ser ubicada al final, aun
cuando no tenga la mnima frecuencia. Finalmente se recomienda
evitar el uso de smbolos en el encabezamiento de cada una de las
columnas de la tabla, as como tambin evitar las lneas verticales,
solamente se deben marcar las lneas horizontales del
encabezamiento y la del final para totalizar las frecuencias. Las
frecuencias absolutas simples se obtienen mediante un proceso de
conteo, el cual puede hacerse manualmente mediante la tcnica del
paloteo o usando algn software como el Excel o el SPSS.

Ejemplo 1: Usando la base de datos presentada en la tabla N 1


construir una tabla de frecuencias para la variable Lugar de
procedencia.
1 Paso: Usando la tcnica del paloteo obtenemos las frecuencias
absolutas simples
Lugar de procedencia
N de jefes de hogar
Chiclayo
IIIII IIIII IIIII IIIII IIIII = 25
Lambayeque
IIIII II
=7
Ferreafe
III
=3
Cajamarca
II
= 2
Piura
I
= 1
Otros
II
= 2
Total
= 40

2 Paso: Construir la tabla


Tabla N 2 Lugar de procedencia de los jefes de hogar residentes en
el distrito de Chiclayo. Marzo 2011
Lugar de
N de jefes de
Proporcin de
% de jefes de
procedencia
hogar
jefes de hogar
hogar
Chiclayo
25
0.625
62.5
Lambayeque
7
0.175
17.5
Ferreafe
3
0.075
7.5
Cajamarca
2
0.05
5.0
Piura
1
0.025
2.5
Otros
2
0.050
5.0
Total
40
1
100
Fuente: Encuesta a hogares, marzo 2011

33

Note en esta tabla que:


Variable: Lugar de procedencia del jefe del hogar, aparece en el ttulo de
la tabla y en el encabezamiento de la primera columna, y sus
categoras son: Chiclayo, Lambayeque, , otros.
Frecuencias absolutas simples (ni): Nmero de jefes de hogar, aparecen
en la segunda columna, as tenemos que: n1 = 25, significa
que existen 25 jefes de hogar procedentes de Chiclayo, n2 =
7, significa que existen 7 jefes de hogar procedentes de
Lambayeque, as sucesivamente. Finalmente el nmero total
de datos est dado por la suma de todas las frecuencias
absolutas simples, que en este caso suman 40, es decir que
se han entrevistado a un total de 40 jefes de hogar.
Matemticamente se puede expresar as:
m6

i 1

n 40

Frecuencias relativas simples (hi): Proporcin de jefes de hogar, aparecen


en la tercera columna, as tenemos que: h1 = 0.625, significa
la proporcin de jefes de hogar procedentes de Chiclayo es
de 0.625, h2 = 0.175, significa que la proporcin de jefes de
hogar procedentes de Lambayeque es de 0.175, as
sucesivamente. Finalmente la suma de todas las frecuencias
relativas simples suman 1. Matemticamente se puede
expresar as:
m6

h
i 1

Frecuencias relativas simples porcentuales (hi%): Porcentaje de jefes de


hogar, aparecen en la cuarta columna, as tenemos que: h1
%= 62.5%, significa que el 62.5% de jefes de hogar proceden
de Chiclayo, h2 %= 17.5%, significa que 17.5% de jefes de
hogar proceden de Lambayeque, as sucesivamente.
Finalmente la suma de todas las frecuencias relativas simples
porcentuales suman 100. Matemticamente se puede
expresar as:
m6

h % 100
i 1

A continuacin se presenta los pasos para hacer esta tabla con ayuda
del Excel

34

1 paso: Agregue una columna de unos en la parte final de la base


con el nombre de cuenta.

2 paso: Active el comando Insertar y coloque el cursor en la celda


superior de la primera columna de la base.

3 paso: Seleccione el botn Tabla dinmica y haga click nuevamente


en el siguiente botn Tabla dinmica.

35

4 paso: Se seleccione toda la base de datos y aparecer un cuadro


con el nombre Crear tabla dinmica, en este cuadro hacer click en
Aceptar.

5 paso: Seleccione la variable Lugar_proc y arrstrela al cuadro


Rtulos de variable y la Variable Cuenta arrstrela al cuadro de
valores, con lo cual aparecer automticamente una tabla dinmica
indicando el nmero de cada uno de los rtulos de la variable. esta
es la tabla propiamente dicha.

36

6 paso: Seleccione el contenido de esta tabla y cpielo en la parte


inferior, a continuacin remplace cada cdigo por su significado y
complete la construccin de la tabla de frecuencias.

Lugar de
N de
procedencia hogares
Chiclayo
25
Lambayeque
7
Ferreafe
3
Cajamarca
2
Piura
1
Otros
2
Total
40

Proporcin de
hogares
0.625
0.175
0.075
0.05
0.025
0.05
1

% de
hogares
62.5
17.5
7.5
5.0
2.5
5.0
100

12.2. Tabla de frecuencias para variables cuantitativas


En variables cuantitativas se presentan dos casos, a saber, cuando la
variable cuantitativa tiene pocos valores diferentes (menos de 15
valores diferentes) y cuando la variable tiene muchos valores
diferentes. En ambos casos, las clases se ordenan de acuerdo al valor
de la variable y las frecuencias que se pueden obtener pueden ser
simples y acumuladas, estas ltimas pueden ser del tipo menor que o
mayor que. Finalmente, al igual que para el caso de variables
cualitativas, se recomienda evitar el uso de smbolos en el
encabezamiento de cada una de las columnas de la tabla, as como
tambin se debe evitar las lneas verticales, solamente se deben

37

marcar las lneas horizontales del encabezamiento y la del final para


totalizar las frecuencias.
Primer caso, Cuando la variable tiene pocos valores diferentes. En este
caso, las clases estn conformadas por cada uno de los valores
diferentes de la variable. Las frecuencias absolutas simples se
obtienen mediante procesos de conteo.
Ejemplo 2: Usando la base de datos presentada en la tabla N 1
construir una tabla de frecuencias para la variable
Nmero de miembros por hogar.
1 Paso: Usando la tcnica del paloteo obtenemos las frecuencias
absolutas simples
N de miembros por hogar
1
2
3
4
5
6
Total

N de hogares
II
=2
IIIII II
=7
IIIII IIIII II
= 12
IIIII IIIII
= 10
IIIII I
= 6
III
= 3
= 40

6 Paso: Construir la tabla de frecuencias obteniendo todas las clases


de frecuencias, absolutas y relativas, simples y acumuladas.
Ejemplo 3. Usando la base de datos presentada en la tabla N 1
construir una tabla de frecuencias para la variable Nmero de
miembros por hogar.
Tabla N 2 Nmero de miembros por hogar en el distrito de Chiclayo.
Marzo 2011
N
Nmero de
Acumulado
miembros N de Proporcin % de
de
por hogar hogares de hogares hogares hogares
1
2
0.0500
5.00
2
2
7
0.1750
17.50
9
3
12
0.3000
30.00
21
4
10
0.2500
25.00
31
5
6
0.1500
15
37
6
3
0.0750
7.5
40

Total

40

100

Fuente: Encuesta a hogares, marzo 2011

Note en esta tabla que:

38

%
Acumulado
de
hogares
5.00
22.50
52.50
77.50
92.50
100.00

N
Acumulado
de
hogares
40
38
31
19
9
3

%
Acumulado
de
hogares
100
95
77.5
47.5
22.5
7.5

Variable: Nmero de miembros por hogar, aparece en el ttulo de la tabla


y en el encabezamiento de la primera columna, y sus valores son: 1, 2, 3,
, 6.

Frecuencias absolutas simples (ni): Nmero de hogares, aparecen en la


segunda columna, as tenemos que: n1 = 2, significa que existen 2
hogares conformados por un solo miembro, n2 = 7, significa que existen
7 hogares conformados por dos miembros, as sucesivamente.
Finalmente el nmero total de datos est dado por la suma de todas las
frecuencias absolutas simples, que en este caso suman 40, es decir que
se han entrevistado a un total de 40 hogares. Matemticamente se
puede expresar as:
m6

n
i 1

n 40

Frecuencias relativas simples (hi): Proporcin de hogares, aparecen en la


tercera columna, as tenemos que: h1 = 0.05, significa la proporcin de
hogares conformados por un solo miembro es de 0.05, h2 = 0.175,
significa que la proporcin de hogares conformados por dos miembros
es de 0.175, as sucesivamente. Finalmente la suma de todas las
frecuencias relativas simples suman 1. Matemticamente se puede
expresar as:
m6

h
i 1

donde hi

ni
n

Frecuencias relativas simples porcentuales (hi%): Porcentaje de jefes de


hogar, aparecen en la cuarta columna, as tenemos que: h1 %= 5%,
significa que el 5% de hogares estn conformados por un solo miembro,
h2 %= 17.5%, significa que 17.5% de hogares estn conformados por
dos miembros, as sucesivamente. Finalmente la suma de todas las
frecuencias relativas simples porcentuales suman 100.
Matemticamente se puede expresar as:
m6

h % 100
i 1

donde

hi %

ni
100
n

Frecuencias absolutas acumuladas (Ni): Nmero acumulado de


hogares, aparecen en la quinta columna, as tenemos que: N1 = 2,
significa que existen 2 hogares conformados por un solo miembro, N2 =
9, significa que existen 90 hogares conformados por dos miembros o
menos (menor o igual que 2), N3 = 21, significa que existen 21 hogares
conformados por tres miembros o menos (menor o igual que 3) as
sucesivamente. Finalmente la ultima frecuencia absoluta acumulada ,
es igual al nmero total de datos, es decir que es igual a la suma de
todas las frecuencias absolutas simples, que en este caso suman 40, es

39

decir que se han entrevistado a un total de 40 hogares.


Matemticamente se puede expresar as:
i

n
j 1

Ni

Nm n

donde

Frecuencias relativas acumuladas porcentuales (Hi%): Porcentaje


acumulado de jefes de hogar, aparecen en la sexta columna, as
tenemos que: H1 %= 5%, significa que el 5% de hogares estn
conformados por un solo miembro, H2 %= 22.5%, significa que 22.5% de
hogares estn conformados por dos miembros o menos, H3 %= 52.5%,
significa que 52.5% de hogares estn conformados por tres miembros o
menos, as sucesivamente. Finalmente la ltima de estas frecuencia es
igual a la suma de todas las frecuencias relativas simples porcentuales
la cual debe llegar a 100. Matemticamente se puede expresar as:
i

h % H %
j 1

o tambin

Ni
100 H i % y H m % 100
Nm

Frecuencias absolutas acumuladas (Ni): Nmero acumulado de


hogares, aparecen en la sptima columna, as tenemos que: la primera
frecuencia absoluta acumulada mayor igual que es igual al nmero total
de datos, en este caso N1 = 40 = n, significa que existen 400 hogares
conformados por un solo miembro o ms, N2 = 38, significa que
existen 38 hogares conformados por dos miembros o ms (mayor o
igual que 2), N3 = 31, significa que existen 31 hogares conformados por
tres miembros o ms (mayor o igual que 3) as sucesivamente.
Finalmente la ltima frecuencia absoluta acumulada es igual a la
ltima frecuencia absoluta simple, que en este caso es igual a 3, es
decir que se han entrevistado a un total de 40 hogares.
Matemticamente se puede expresar as:
m

n
j i

Ni

donde

N1 n

N m nm

Frecuencias relativas acumuladas porcentuales (Hi%): Porcentaje


acumulado de jefes de hogar, aparecen en la octava columna, as
tenemos que: la primera frecuencia relativa porcentual acumulada es
siempre igual al 100%, H1 %= 100%, significa que el 100% de
hogares estn conformados por un miembro o ms, H2 % = 95%,
significa que 95% de hogares estn conformados por dos miembros o
ms, H3%= 77.5%, significa que 52.5% de hogares estn conformados
por tres miembros o ms, as sucesivamente. Finalmente la ltima de
estas frecuencia es igual a la ltima frecuencias relativas simples
porcentual. Matemticamente se puede expresar as:

40

h % H %
j i

H1 % 100%

o tambin

Ni
100 H i % y
Nm

H m % h1 %

La elaboracin de este tipo de tablas con ayuda del Excel es similar que para el
caso de variables cualitativas, solo que en este caso se completa con las
frecuencias acumuladas.
Segundo caso: Cuando la variable tiene muchos valores diferentes. En este
caso las clases estn constituidas por intervalos, para lo cual se siguen los
siguientes pasos:
1 Paso: Determinar el Rango
R = Mximo Mnimo
2 Paso: Elegir o calcular el nmero de clases m
Este nmero depende del nmero de observaciones, en algunos
casos se desea construir una tabla de modo tal que sirva para hacer
comparaciones con otros estudios, en tal caso el nmero de clases
queda determinado por la amplitud de clase deseada para hacer
dichas comparaciones. Si ste no fuera el caso, se adoptar algunas
frmulas para obtener este nmero de clases, a continuacin se
presentan algunas:
m 1 3.322 Log (n) . (1) regla de Sturges
m Log (n) (2)

m n (3)

Donde

es en nmero de datos

La primera frmula conocida como la Regla de Stugers es la ms


utilizada. En general se sugiere que el nmero de clases podra estar
comprendido entre 5 y 15 inclusive.
3 Paso: Calcular la amplitud de clase C.
Se recomienda que todos los intervalos sean de igual amplitud,
siempre que los datos distribuyan mas o menos en forma uniforme en
cada uno de los intervalos; pero si existen variaciones muy
pronunciadas, podra convenir analizar la conveniencia de utilizar
intervalos de amplitudes diferentes.
Para el caso de utilizar intervalos de igual amplitud, sta se puede
obtener mediante la siguiente frmula

41

R
C
m

Donde:
[ ] : Significa que el cociente R es redondeado al menor mayor
m

entero, siempre que C sea redondeado a un nmero entero, pero si C


es un nmero con un decimal, el redondeo se realizar al decimal
inmediato superior. Pero nunca se debe truncar.
R 25
C 5
m 5

es una divisin exacta, no es necesario redondear

R 28
C 5.6 6
m 5

Redondeo a un nmero menor mayor entero

R 27
C 5.4 6
m 5
R 25
C 3.571 3.6
m 7

Redondeo al decimal inmediato superior a


nivel de decenas

4 Paso: Construir los intervalos de clase.


Calcular la cobertura m C , a continuacin se debe obtener el exceso
con respecto al rango R y dividirlo en dos partes: m C con lo cual

se procede a construir los intervalos del siguiente modo:


- Cuando el cociente C R 20 5 es un nmero exacto
m 4

- Cuando el cociente C R 25 6.25 7 no es un nmero exacto y


m 4
fue necesario de redondear

42

5 Paso: Conteo del nmero de datos contenidos en cada


intervalo de clase.
Clases
[
[
[
[
Total

Conteo (ejemplo de conteo)


IIII
= 4 = n1
IIIII IIIII II
= 12 = n2
IIIII II
= 7 = n3
III
= 3 = n4
16 = n

)
)
)
)

6 Paso: Construir la tabla de frecuencia


Ejemplo 3: Usando los datos de la base que aparece en la tabla N 1,
construya una tabla de frecuencia para la variable edad.
1 Paso: Determinacin del Rango
R = Mximo Mnimo = 54 25 = 29
2 Paso: Clculo del nmero de clases m
Usaremos la regla de Sturges
m 1 3.322 Log (n) 1 3.322 Log (40) 6.32 6

3 Paso: Clculo de la amplitud de clase C.


R 29
C 4.8 5
m 6

4 Paso: Construccin de los intervalos de clase.


Clculo de la cobertura m C 6 5 30 ,
Obtencin el exceso de la cobertura respecto al rango R
m C R 6 5 29 30 29 1

43

Como el exceso es 1, no es necesario dividirlo en dos partes, debido a


que construiremos intervalos cuyos lmites sern nmeros enteros, con
lo cual se procede a construir los intervalos del siguiente modo:

5 Paso: Conteo del nmero de datos contenidos en cada intervalo


de clase.
Edad (aos)
[ 25 - 30)
[30 - 35)
[35 - 40)
[40 - 45)
[45 - 50)
[50 - 55)
Total

Nmero de jefes de hogar


IIII
= n1 = 4
IIIII III
= n2 = 8
IIIII IIIII
= n3 = 10
IIIII IIIII II
= n4 = 12
IIII
= n5 = 4
II
= n6 = 2
n = 40

6 Paso: Construir la tabla de frecuencia


Tabla N 3 Edad de 40 jefes de hogar en el distrito de Chiclayo. Marzo 2011
N
Edad del N de Proporcin % de Acumulado
jefe del jefes de de jefes de jefes de de jefes
hogar
hogar hogar
hogar de hogar
[ 25 4
30)
4
0.10
10
[30 - 35)
8
0.20
20
12
[35 - 40)
10
0.25
25
22
[40 - 45)
12
0.30
30
34
[45 - 50)
4
0.10
10
38
[50 - 55)
2
0.05
5
40

Total

40

%
Acumulado
de jefes
de hogar
10

N
Acumulado
de jefes
de hogar
40

%
Acumulado
de jefes
de hogar
100

30
55
85
95
100

36
28
18
6
2

90
70
45
15
5

100

Fuente: Encuesta a hogares, marzo 2011

Note en esta tabla que la Variable Edad del jefe del hogar, aparece en el
ttulo de la tabla y en el encabezamiento.
Frecuencias absolutas simples (ni): Nmero de jefes de hogar, aparecen en
la segunda columna, as tenemos que: n1 = 4, significa que existen 4
jefes de hogar con edades comprendidas entre 25 y 30 aos, n2 = 8,
significa que existen 8 hogares con edades comprendidas entre 30 y 35
aos, as sucesivamente. Finalmente el nmero total de datos est dado
por la suma de todas las frecuencias absolutas simples, que en este

44

caso suman 40, es decir que se han entrevistado a un total de 40 jefes


de hogar. Matemticamente se puede expresar as:
m6

n
i 1

n 40

Frecuencias relativas simples (hi): Proporcin de jefes de hogar, aparecen


en la tercera columna, as tenemos que: h1 = 0.10, significa la
proporcin de jefes de hogar con edades comprendidas en el intervalo
[25-30) aos es de 0.10, h2 = 0.20, significa que la proporcin de jefes
de hogar con edades comprendidas en el intervalo [30-35) es de 0.20,
as sucesivamente. Finalmente la suma de todas las frecuencias
relativas simples es igual a 1. Matemticamente se puede expresar as:
m6

i 1

donde hi

ni
n

Frecuencias relativas simples porcentuales (hi%): Porcentaje de jefes de


hogar, aparecen en la cuarta columna, as tenemos que: h1 %= 10%,
significa que el 10% de jefes de hogar tienen edades comprendidas en
el intervalo [25-30) aos, h2 %= 20%, significa que el 20% de jefes de
hogar tienen edades comprendidas en el intervalo [30-35), as
sucesivamente. Finalmente la suma de todas las frecuencias relativas
simples porcentuales es igual a 100. Matemticamente se puede
expresar as:
m6

h % 100
i 1

donde

hi %

ni
100
n

Frecuencias absolutas acumuladas (Ni): Nmero acumulado de jefes


de hogar, aparecen en la quinta columna, as tenemos que: N1 = 4,
significa que existen 4 jefes de hogar con edades menores de 30 aos,
N2 = 12, significa que existen 12 jefes de hogar con edades menores
que 35 aos, N3 = 22, significa que existen 22 jefes de hogar con
edades menores que 40 aos, as sucesivamente. Finalmente la ltima
frecuencia absoluta acumulada , es igual al nmero total de datos, es
decir que es igual a la suma de todas las frecuencias absolutas simples,
que en este caso suman 40, es decir que se han entrevistado a un total
de 40 hogares. Matemticamente se puede expresar as:
i

n
j 1

Ni

donde

Nm n

Frecuencias relativas acumuladas porcentuales (Hi%): Porcentaje


acumulado de jefes de hogar, aparecen en la sexta columna, as
tenemos que: H1 %= 10%, significa que el 10% de jefes de hogar tienen
edades menores que 30 aos, H2 %= 30%, significa que el 30% de jefes

45

de hogar tienen edades menores que 35 aos, H3 %= 55%, significa que


el 55% de jefes de hogar tienen edades menores que 40 aos, as
sucesivamente. Finalmente la ltima de estas frecuencias es igual a la
suma de todas las frecuencias relativas simples porcentuales la cual
debe llegar a 100. Matemticamente se puede expresar as:
i

h % H %
j

j 1

o tambin

Ni
100 H i % y H m % 100
Nm

Frecuencias absolutas acumuladas (Ni): Nmero acumulado de jefes


de hogar, aparecen en la sptima columna, as tenemos que: la primera
frecuencia absoluta acumulada mayor igual que es igual al nmero total
de datos, en este caso N1 = 40 = n, significa que existen 40 hogares
con edades mayores o iguales que 25 aos, N2 = 36, significa que
existen 36 jefes de hogar con edades mayores o igual que 30 aos, N3
= 28, significa que existen 28 jefes de hogar con edades mayor o igual
que 35 aos, as sucesivamente. Finalmente la ltima frecuencia
absoluta acumulada es igual a la ltima frecuencia absoluta simple,
que en este caso es igual a 2, es decir que se han entrevistado a un
total de 40 hogares. Matemticamente se puede expresar as:
m

n
j i

Ni

N1 n

donde

N m nm

Frecuencias relativas acumuladas porcentuales (Hi%): Porcentaje


acumulado de jefes de hogar, aparecen en la octava columna, as
tenemos que: la primera frecuencia relativa porcentual acumulada es
siempre igual al 100%, H1 %= 100%, significa que el 100% de los jefes
de hogar tienen edades mayores o iguales que 25 aos, H2 % = 90%,
significa que el 90% de jefes de hogar tienen edades mayores o iguales
que 30 aos, H3 % = 70%, significa que 70% de jefes de hogar tienen
edades mayores o iguales que 35 aos, as sucesivamente. Finalmente
la ltima de estas frecuencias es igual a la ltima frecuencia relativa
simple porcentual. Matemticamente se puede expresar as:
m

h % H %
j i

o tambin N i 100 H i %

H1 % 100%

Nm

H m % h1 %

13. Grficos estadsticos:


Son representaciones grficas de las distribuciones de frecuencias, que tienen
por finalidad transmitir la mayor cantidad posible de informacin acerca de la
variable en estudio, para que sea interpretada en el menor tiempo, con el menor
esfuerzo y sin necesidad de conocer teora estadstica. En forma similar a las
tablas de frecuencia, los grficos tambin tienen tres partes: el nmero y ttulo
del grfico, el grfico propiamente dicho y la fuente. Existen una diversidad muy

46

amplia de grficos estadsticos, su elaboracin es ms un arte que una tcnica,


sin embargo presentaremos algunos grficos clsicos que se suelen usar en los
informas de investigacin cientfica.
13.1. Diagrama de Tallos y hojas. En una buena manera de obtener una
presentacin visual informativa del conjunto de datos x1, x2, , xn, donde
cada nmero xi est formado por al menos dos dgitos. Para construir un
diagrama de este tipo, los nmeros xi se dividen en dos partes: Un tallo,
formado por uno ms de los dgitos principales, y una hoja, la cual
contiene el resto de los dgitos. Para ilustrar lo anterior, si los datos
contienen informacin sobre el porcentaje entre 0 y 100 de artculos
defectuosos en lotes de pastillas de semiconductor, entonces el valor 76
puede dividirse en un tallo 7 y una hoja 6. En general debe escogerse un
nmero relativamente pequeo de tallos en comparacin con el nmero
de observaciones. Lo usual es seleccionar entre 5 y 20 tallos. Una vez
elegido el conjunto de tallos, estos se enlistan en la parte izquierda del
diagrama. Al lado de cada tallo se colocan todas las hojas que
correspondan a los valores observados, ordenados tal como se
encuentran en el conjunto de datos. Ejemplo: Considere los datos sobre
la resistencia a la tensin que aparecen en la siguiente tabla. En este
caso se seleccionan como tallos los nmeros 7, 8, 9, , 24. La figura 1
presenta la figura resultante. La ltima columna del diagrama es una
frecuencia del nmero de hojas asociadas a cada tallo.

Tabla 1-1 Resistencia a la tensin de 80 muestras de


aleacin aluminio-Litio (*)
105
221
183
186
121
181 180
143
97
154
153
174
120
168 167
141
245
228
174
199
181
158 176
110
163
131
154
115
160
208 158
133
207
180
190
193
194
133 156
123
134
178
76
167
184
135 229
146
218
157
101
171
165
172 158
169
199
151
142
163
145
171 148
158
160
175
149
87
160
237 150
135
196
201
200
176
150
170 118
149
(*). Montgomery. Probabilidad y Estadstica. Aplicaciones a la Ingeniera. Ed. Mc
Graw Hill, 1996. Pg. 5

Diagrama de hojas y tallos de la resistencia a la tensin de 80 muestras de aleacin


de aluminio y litio

Tallo
7
8
9
10
11
12
13
14
15
16
17

Hojas
6
7
7
5
5
1
4
2
4
3
8

1
8
0
1
9
7
0
5

0
3
3
5
1
7
4

5
8
3
3
4

3
3
4
0
1

5
1
0
5
6

6
8
0
2

9
8 6 8 0 8
8 7 9
1 0 6

47

Frecuencia
1
1
1
2
3
3
6
8
12
10
10

18
19
20
21
22
23
24

13.2.

0
9
7
8
1
7
5

3
6
1

6 1 4 1 0
0 9 3 4
0 8

7
6
4
1
3
1
1
80

Grfico de barras:
Est constituido como su nombre lo indica por barras separadas, las
mismas que pueden ser horizontales o verticales con ancho arbitrario,
pero con una longitud proporcional a la frecuencia representada. Se
recomienda su utilizacin para variables cualitativas, de preferencia se
recomienda tambin ordenar las categoras, segn su frecuencia, de
mayor a menor, de modo que facilite su interpretacin. Si la variable
cualitativa tiene pocas categoras se pueden utilizar barras verticales (o
columnas), y si tiene muchas categoras, entonces se recomienda
utilizar barras horizontales, por la facilidad para colocar el nombre de
cada categora. A continuacin se presenta el grfico para la tabla N 2
de la variable Lugar de procedencia de los jefes de hogar.

Para el caso en que la variable tiene muchas categoras o el nombre de


cada categora son textos grandes, se recomienda el uso del grfico de
barras horizontales, siempre ordenadas por la frecuencia. Tambin se
puede agregar el valor del porcentaje que representa cada barra. A
continuacin se presenta una tabla de frecuencia de la actividad a la
que se dedican las empresas de Lambayeque en el 2013.

48

13.3. Grfico de sectores circulares o de pastel

13.4. Histograma de frecuencias

49

13.5. Polgono de frecuencias

13.6.

Ojivas de frecuencias
Se utiliza para representar frecuencias acumuladas menor y mayor que
y su mayor utilidad est en que permite encontrar cualquier percentil, a
travs de la extrapolacin.

50

3.7.

Grfico de series de tiempo

Estos grficos a diferencia de los anteriores, no representan


frecuencias, sino el valor de una variable en distintos momentos del
tiempo y son utilizados para detectar y analizar la tendencia de una
variable en el tiempo con fines de pronsticos

51

Laboratorio 1
1. Considere que se desea determinar el nivel de satisfaccin de los estudiantes
de Ing. Industrial por las clases que reciben en su Universidad. Para medir la
satisfaccin considere las siguiente dimensiones: Aspectos tangibles, como son
por ejemplo las aulas y los laboratorios y las bibliotecas, cumplimiento de
obligaciones del profesor y estudiante, nivel acadmico de las clases y exhibido
por el profesor, metodologa de profesor en el aula y actitud del profesor hacia
los estudiantes. Proponga un cuestionario para medir esta satisfaccin en los
estudiantes. Sugerencia, Utilice una escala de Lickert.
2. El gerente de ventas de una tienda de prendas de vestir desea saber cul ser
la demanda de pantalones en el prximo mes, as como las tallas que ms
demanda tendrn. Si el gerente dispone de un registro del total de las ventas
realizadas por la tienda durante los 10 meses anteriores y usa esta informacin
como una muestra para predecir las ventas del prximo mes, Cul es la
poblacin?

52

3. En los siguientes casos, indicar la poblacin, las unidades estadsticas y el tipo

de escala a usar:
Caso

Poblacin

Unidad
estadstica

Variable

Escala
de
medida

a. Asignar a los distritos de la capital su


cdigo postal.
b. Asignar a las viviendas de una calle,
el nmero de la puerta principal.
c. Asignar a cada postulante de una
universidad su coeficiente de
inteligencia.
d. Asignar a cada par de ciudades de
un pas la distancia, en kilmetros,
que existe entre ellas.

4. Considere la variable Rendimiento escolar definida como la suma ponderada

de transformaciones que se operan en el pensamiento, en el lenguaje tcnico,


en la manera de obrar y en las bases aptitudinales del comportamiento del
alumno, todo esto expresado en un puntaje total comprendido entre 0 y 20
inclusive. Las transformaciones en el pensamiento se manifiestan en la
congruencia de los argumentos de sus enunciados y en la originalidad de los
mismos, las transformaciones en el lenguaje tcnico se manifiestan en el uso
apropiado y coherente de los trminos tcnicos de las disciplinas estudiadas,
las transformaciones en la manera de obrar se ponen de manifiesto en su
actitudes positivas, indiferentes o de rechazo ante un hecho en el que tiene que
poner en prctica lo aprendido y finalmente, las transformaciones en las bases
aptitudinales se pueden apreciar en las destrezas adquiridas para hacer un buen
trabajo ya sea manual o intelectual. A partir de esta definicin elabore un cuadro
de operacionalizacin de la variable Rendimiento escolar, identificando sus
dimensiones e indicadores.
5. Clasifique la variable Rendimiento escolar, de la pregunta anterior, segn su
naturaleza y segn su escala de medida.
6. Cmo elaborara Ud. una pregunta, si
encuestado acerca de:

necesita obtener datos de un

a. Estado civil?
b. Satisfaccin por un servicio de lavado de carros?
c. Tamao familiar de un hogar nuclear?
d. Servicios que dispone una vivienda?
7. Un profesor propone a sus alumnos del curso de aritmtica, una prueba de 10
ejercicios de clculo de sumas. Si alguno de los ejercicios presenta, al
resolverlo, algn error de clculo, el profesor califica la pregunta con 0, de otro
modo la califica con 1.

53

a. Qu tipo de escala emple en cada pregunta?


b. Si el, profesor del ejercicio anterior cuenta los ejercicios correctos y
considera que tal nmero corresponde a la habilidad de clculo, qu tipo
de escala ha empleado?
8. Los salarios que una empresa ofrece a los practicantes oscilan entre $150 y
$270 y se encuentran divididos en cuatro intervalos de clase de igual longitud.
Si se supone que los salarios se distribuyen de manera uniforme, que el 40%
de los practicantes ganan no ms de $195, el 80% ganan $225 o menos y el
15% gana ms de $232.5,
a. Cul es el porcentaje de practicantes en cada categora o intervalo de
clase?
b. Cunto debe aumentar la compaa a cada practicante para que el 20% de
ellos supere los $240 de salario?
9. Completar la siguiente tabla. Indicar los extremos de cada intervalo de clase.
Intervalos de clase
[
,
)
[
,
)
[
,
)
[
,
)
[
,
)

Marca de clase
..
6
..
14
..

Frec. relativa
0.10

0.55

0.10

Frec. relativa acumulada

0.25

0.9

10. Entre todos los estudiantes de la asignatura aplicar el cuestionario que aparece
como ejemplo en la pg. 29 aplicar a todos los estudiantes. La informacin
diligenciada en los cuestionarios deben ser digitados en una base de datos en
formato Excel y agregarlo a la base que contiene la misma informacin de otros
grupos de estudiantes universitarios de Lambayeque, (en archivo Excel adjunto
a este material) con la cual deben elaborar todas las tablas y grficos que
corresponda a un anlisis descriptivo. Con las tablas de frecuencia de variables
cuantitativas elabore todas las clases de frecuencia y construya un grfico para
cada tabla. Finalmente presente sus resultados con un anlisis descriptivo para
cada variable, se acuerdo a la siguiente gua:
a. Elabore la distribucin del Departamento de procedencia segn
universidad
b. Elabore la distribucin del Distrito de residencia segn universidad
c. A partir de la fecha de nacimiento, calcule la edad de los estudiantes
expresado en aos con dos decimales.
d. Categorice la edad calculada en aos exactos en intervalos quinquenales
[15.00 19.99], [20.00 24.99], [25.00 29.99], as sucesivamente.

54

e. Usando la edad categorizada en intervalos, obtenga la distribucin de la


Edad segn Sexo.
f. Usando la edad categorizada en 03 intervalos, obtenga la distribucin de
la Edad segn Sexo.
g. Usando la edad categorizada en 03 intervalos, obtenga la distribucin de
la Edad segn Sexo.
h. Usando la edad categorizada en 03 intervalos, obtenga la distribucin de
la Edad segn Universidad.
i. Categorice la variable, Promedio ponderado en 5 intervalos de clase.
j. Usando el promedio ponderado categorizado anteriormente, obtenga la
distribucin del promedio ponderado segn Sexo.
k. Usando el promedio ponderado categorizado anteriormente, obtenga la
distribucin del promedio ponderado segn Universidad.
l. Elabore las tablas de frecuencia bidimensionales para las preguntas 1, 2,
. , 13, segn Universidad.
m. Obtenga los grficos de dispersin del promedio ponderado con el nmero
de asignaturas matriculadas
n. Obtenga los grficos de dispersin del promedio ponderado con el nmero
de asignaturas aprobadas

55

1.1. Medidas de Resumen


El clculo de las medidas de resumen de una variable constituye la
segunda etapa de un anlisis descriptivo. Su propsito es cuantificar
diversas caractersticas de una variable cuantitativa, tales como las
medidas de posicin, tendencia central, dispersin, deformacin y
correlacin.
Medidas de Posicin:
Moda [Mo]:
La Moda es el dato que ms se repite. Aqu se presentan distintas
situaciones:
Un conjunto de datos no necesariamente tiene que tener una moda,
podra suceder que todos los datos tengan el mismo nmero de
repeticiones, en tal caso no existir moda
Un conjunto de datos podra tener una o ms modas. Si tuviera una
sola moda entonces la distribucin sera unimodal, si tuviera dos
modas entonces sera bimodal y si tuviera ms de una moda,
entonces sera multimodal.
CASO: DATOS ORIGINALES O SIN AGRUPAR
Ejemplo:
Considere los siguientes datos que representan el nmero de
personas por hogar
Nmero de personas por hogar

1
3
6
1

4
2
2
3

3
4
3
2

5
2
2
4

5
3
4
4

3
5
4
3

3
4
5
4

3
5
3
3

4
3
4
6

2
5
2
6

Debemos arreglar los datos en una tabla de frecuencias con clases


simples, en donde cada valor es una clase

56

Tambin podemos observar en el siguiente grfico la posicin o


ubicacin que tiene la moda. Observe que se trata de una distribucin
unimodal

El siguiente grfico representa el caso de una distribucin bimodal

57

CASO: DATOS AGRUPADOS EN INTERVALOS DE CLASE


Para obtener la moda a partir de una tabla de frecuencias con
intervalos se utiliza la siguiente frmula:
= +

1
1 + 2

Donde:
=
=
1 =
2 =
=
=
=

Ejemplo
Considere los puntajes obtenidos en la prueba de conocimientos por
los 261 postulantes a la Academia de Diplomticos del Per en el
proceso de admisin 2015. Los datos se presentan en la siguiente
tabla N 5.
Se aprecia aqu que:
Frecuencia modal es igual a 54 ( = 54 )
Intervalo de la clase modal: [11.375 12.500)
Lmite Real Inferior LRI = 11.375
Frecuencia anterior a la modal: = 50

58

Frecuencia posterior a la modal: = 43


Amplitud de clase

C = 12.500 11.375 = 1.125

Con lo cual se obtiene: 1 = 54 50 = 4


2 = 54 43 = 11
Por lo tanto la moda ser obtenida as:
= 11.375 +

59

4 1.125
= 11.675
4 + 11

En caso hubiera ms de una moda, para cada una de las modas se


procede en forma similar. En el siguiente ejemplo se presenta un caso
donde hay dos modas

Ejemplo 4. A continuacin se presentan las edades de un conjunto


de 120 estudiantes universitarios
Tabla N 2 Edad de estudiantes universitarios de la escuela
de Estadstica UNPRG, a Octubre del 2012.
Edad (aos)
15 - 19
20 - 24
25 - 29
30 - 34
35 - 39
40 - 44
45 - 49
Total

fmo = 30

N de estudiantes
18
30
20
30
12
8
2
120

Clases modales: [20 - 24] y [30 - 34]

Para la clase modal: [20 24]

LRI

19 20
19.5
2

C = 24.5 19.5 = 5
1 = 30 18 = 12
2 = 30 20 = 10

M o (1) LRI

1 C
12 5
19.5
19.5 2.727 22.227 aos
1 2
12 10

Para la clase modal: [30 34]

LRI

29 30
29.5
2

C = 34.5 29.5 = 5
1 = 30 20 = 10
2 = 30 12 = 18

M o (2) LRI

1 C
10 5
29.5
19.5 1.786 31.286 aos
1 2
10 18

60

Note que en este caso las clases modales o con la ms alta frecuencia
absoluta simple, se encuentran separadas, conteniendo cada una de ellas
una moda, por lo que a esta clase de distribuciones de les conoce como
Distribuciones Bimodales

Ejemplo 5. Consideremos ahora que las dos clase con las mximas
frecuencias estn juntas una a continuacin de la otra
Tabla N 3 Edad de estudiantes universitarios de la escuela de Estadstica
UNPRG, a Octubre del 2012.
Edad (aos)
15
20
25
30
35
40
45

19
24
29
34
39
44
49

Total

fmo = 30

N de estudiantes
18
30
30
20
12
8
2

120

Clases modales: [20 - 24] y [30 - 34]

Para la clase modal: [20 24]

LRI

19 20
19.5
2

C = 24.5 19.5 = 5
1 = 30 18 = 12
2 = 30 30 = 0

M o (1) LRI

1 C
12 5
19.5
19.5 5 24.5 aos
1 2
12 0

Para la clase modal: [25 29]

61

LRI

24 25
24.5
2

C = 34.5 29.5 = 5
1 = 30 30 = 0
2 = 30 20 = 10

M o (2) LRI

1 C
05
24.5
24.5 0 24.5 aos
1 2
0 10

Note que aun cuando en este caso existen dos clases con la ms alta
frecuencia, es decir dos clases modales, sin embargo, la
distribucin es Unimodal, debido a que ambas clases estn una
a continuacin de la otra, en este caso la moda se ubica en el lmite
real entre las dos clases modales.

13.6.1.
Cuantiles de orden j: Son medidas de orden que
dividen a una serie ordenada de datos en j-partes iguales,
para todo j = {2, 4, 5, 10, 100}. Segn el valor que tome j, el
cuantil toma un nombre especfico:
Si j = 2 entonces Cuantil (2) = Mediana
Si j = 4 entonces Cuantil (4) = Cuartil
Si j = 5 entonces Cuantil (5) = quintil
Si j = 10 entonces Cuantil (10) = Decil
Si j = 100 entonces Cuantil (100) = Percentil

62

Mediana[Me]: Es el dato que ocupa el lugar central en una serie


ordenada de datos.

Para datos sin agrupar:


Aqu la mediana se identifica segn el nmero de datos, as:

M e X n 1

Cuando n es impar:

Ejemplo 1: Obtenga la mediana del siguiente conjunto de datos:


Xi = {3, 5, 2, 7, 8, 9, 8, 9, 4}, aqu, n = 9 (impar)
1 Paso: Ordenar:

2 Paso:
= (9+1) = 5 = 7
2

63


1
M

Cuando n es par:
e
n
n2

2 2
2

Ejemplo 2: Obtenga la mediana del siguiente conjunto de datos:


Xi = {3, 5, 2, 7, 8, 9, 8, 9, 4, 10}, aqu, n = 10 (par)
1 Paso: Ordenar:

2 Paso:

Me

1
1
1
X 10 X 102 X 5 X 6 7 8 7.5

2 2
2
2
2

Para datos agrupados:


Se utiliza la siguiente frmula:

N i1 C
2

M e LRI
ni
Donde:
n

= nmero total de datos

n
= Identificador de la clase de la mediana en la columna de las
2
frecuencias absolutas acumuladas menor o igual que

LRI

Lmite real inferior de la clase de la mediana

Amplitud de clase

ni

Frecuencia absoluta simple de la clase de la mediana

64

Ni 1

= Frecuencia absoluta acumulada menor igual que hasta la


clase anterior a la clase de la mediana

Demostracin
Para la siguiente Tabla de datos:

i
1
2
3
4
5

Intervalo
A: [
B: [
C: [
D: [
E: [
Total

,
,
,
,
,

)
)
)
)
)

Frecuencia
absoluta simple:
ni
n1
n2
n3
n4
n5
n

Frecuencia absoluta
acumulada menor que:
Ni
N1
N2
N3
N4
N5

Consideremos ahora el siguiente grfico de la ojiva menor que:


Con ayuda del grfico de la distribucin acumulativa menor que
deducimos que la mediana debe ubicarse en Me = LRI + X, entonces
debemos centrar nuestra atencin en encontrar el valor de X
Segn el teorema de Thales sobre tringulos semejantes, a partir de
los tringulos formados en la clase i donde se encuentra la mediana
con el segmento correspondiente del grfico de la distribucin
acumulativa menor que, debemos tener que:

= 2

De donde obtenemos que

( 1 )
= 2

Por lo tanto la mediana debe ser:

= +

65

(2 1 )

Ejemplo: Obtenga la mediana de la siguiente tabla de datos


correspondiente a la resistencia a la tensin.
Tabla N Resistencia a la tensin de 80 muestras de la aleacin
aluminio Litio (Kgrf/cm2)(*)

66

(*). Montgomery. Probabilidad y Estadstica. Aplicaciones a la


Ingeniera. Ed. Mc Graw Hill, 1996. Pg. 5

n 80
40 la clase de la mediana ser [16 18]

2 2

LRI

15 16
15.5
2

C 3
ni 27

Ni1 37

80

37 3
9
2

M e 15.5
15.5
15.83
27
27

M e 15.83 Kgrf / cm 2

67

Cuartiles[Qi]: Son valores que dividen a una serie ordenada de datos


en cuatro partes iguales.

68

Cuando los datos estn agrupados en intervalos de clase, los


cuartiles se obtienen utilizando la siguiente frmula

in

N i 1 C

4
para todo i =1, 2, 3
Qi LRI
ni
Donde:

= nmero total de datos

in

= Identificador de la clase de la clase del cuartil i en la columna de las


4
frecuencias absolutas acumuladas menor o igual que
LRI = Lmite real inferior de la clase del cuartil i
C
= Amplitud de clase

ni

= Frecuencia absoluta simple de la clase del cuartil i.

Ni 1 = Frecuencia absoluta acumulada menor igual que hasta la clase anterior a


la clase del cuartil i
Ejemplo: Obtenga cada uno de los cuartiles de la distribucin de la edad de los
habitantes de Chiclayo.

69

Para el Cuartil 1: Q1
i = 1
1 n 1 260948
65237 La clase de Q1 es: [10 14]

4
4

LRI

9 10
9.5
2

C 5

ni 24977

Ni1 43382
1 260948

43382 5

Q1 9.5
13.875
24977

Q1 13.875 aos

25%

75%
Q1

Para el Cuartil 2: Q2 (equivalente a la mediana)

i = 2

2 n 1 n 1 260948
130474 La clase de Q2 es: [25 29],

2
4 2

LRI

24 25
24.5
2

C 5
ni 21269

Ni1 120076
2 260948

120076 5

Q2 24.5
26.94
21269

Q2 26.94 aos

50%
Q2

70

Para el Cuartil 3: Q3
i = 3
3 n 3 260948
195711 La clase de Q3 es: [40 44]

4
4

LRI

39 40
39.5
2

C 5
f i 16693
Fi1 179456
3 260948

179456 5

Q3 39.5
44.369
16693

Q3 44.369 aos

75%
Q3

71

Quintiles[qi]: Son valores que dividen a una serie ordenada de datos


en cinco partes iguales.

in

N i 1 C

5
para todo i =1, 2, 3,4
qi LRI
ni
Donde:

= nmero total de datos

in

= Identificador de la clase de la clase del quintil i en la columna de las


5
frecuencias absolutas acumuladas menor o igual que

LRI = Lmite real inferior de la clase del quintil i

ni

= Amplitud de clase
= Frecuencia absoluta simple de la clase del quintil i.

Ni 1 = Frecuencia absoluta acumulada menor igual que hasta la clase anterior a


la clase del quintil i

Ejemplo: Obtenga cada uno de los quintiles de la distribucin de la


edad de los habitantes de Chiclayo.

72

Para el quintil 1: q1
i = 1

1 n 1 260948
52189 .6 La clase de q1 es: [10 14]

5
5

LRI

9 10
9.5
2

C 5
ni 24977

Ni1 43382
1 260948

43382 5

q1 9.5
11.263
24977

q1 11.263 aos

20%
q1

73

80%

Para el quintil 2: q2
i = 2

2 n 2 260948
104379 .2 La clase de q2 es: [20 24],

5
5

LRI

19 24
19.5
2

C 5
ni 25111

Ni1 94965
2 260948

94965 5

q2 19.5
21.37
25111

q2 21.37 aos

40%

60%
q2

Para el quintil 3: q3
i = 3

3 n 3 260948
156568 .8 La clase de q3 es: [30 34]

5
5

LRI

29 30
29.5
2

C 5
fi 19805

Fi1 141345
3 260948

14134 5

q3 29.5
33.34
19805

74

q3 33.34 aos

60%

40%
q3

Para el quintil 4: q4
i = 4

4 n 4 260948
208758 .4 La clase de q4 es: [45 49]

5
5

LRI

44 45
44.5
2

C 5

ni 14789
Ni1 196149
4 260948

196149 5

q4 44.5
48.763
14789

q4 48.763 aos

80%

20%
q4

75

Deciles[Di]: Son valores que dividen a una serie ordenada de datos en


diez partes iguales.

Cuando los datos estn organizados en tabla de frecuencias, la


frmula para obtener los deciles es la siguiente:

76

in

N i 1 C

10
para todo i =1, 2, , 9
Di LRI
ni
Donde:

= nmero total de datos

in

= Identificador de la clase de la clase del decil i en la columna de las


10
frecuencias absolutas acumuladas menor o igual que
LRI = Lmite real inferior de la clase del decil i
C
= Amplitud de clase

ni

= Frecuencia absoluta simple de la clase del decil i.

Ni 1 = Frecuencia absoluta acumulada menor igual que hasta la clase anterior a


la clase del decil i

Ejemplo: Obtenga cada uno de los decil de la distribucin de la edad


de los habitantes de Chiclayo.

77

Para el Decil 1: D1
i = 1

1 n 1 260948
26094 .8 La clase de D1 es: [5 9]

10
10

LRI

45
4.5
2

C 5
ni 21540

Ni1 21842
1 260948

21842 5

10

D1 4.5
5.49
21540
D1 5.49 aos

10%

90%

D1

Para el decil 4: D4
i = 4

4 n 4 260948
104379 .2 La clase de q2 es: [2024], equivalente al

10
10
quintil 2

LRI

19 24
19.5
2

C 5
ni 25111

Ni1 94965
4 260948

94965 5

10

D4 19.5
21.37
25111
D4 21.37 aos

40%

60%
D2

78

Para el Decil 6: D6
i = 6

6 n 6 260948
156568 .8 La clase de D6 es: [30 34]

10
10

LRI

29 30
29.5
2

C 5
ni 19805

Ni1 141345
6 260948

14134 5

10

D6 29.5
33.34
19805
D6 33.34 aos
60%

40%
D6

Para el Decil 8: D8
i = 8

8 n 8 260948
208758 .4 La clase de D8 es: [45 49]

10
10

LRI

44 45
44.5
2

C 5
fi 14789

Fi1 196149
8 260948

196149 5

10

D8 44.5
48.763
14789
D8 48.763 aos

80%

20%
D8

79

Percentiles[Pi]: Son valores que dividen a una serie ordenada de datos


en cien partes iguales.

80

Cuando los datos estn agrupados en tablas de frecuencia, los


percentiles son obtenidos utilizando la siguiente frmula:

in

Fi 1 C

100

Pi LRI
fi
Donde:

= nmero total de datos

i n

= Identificador de la clase de la clase del percentil i en la columna de


100
las frecuencias absolutas acumuladas menor o igual que
LRI = Lmite real inferior de la clase del percentil i
C
= Amplitud de clase

fi

= Frecuencia absoluta simple de la clase del percentil i.

Fi1 = Frecuencia absoluta acumulada menor igual que hasta la clase anterior a
la clase del percentil i

Ejemplo: Obtenga los siguientes percentil de la distribucin de la


edad de los habitantes de Chiclayo.

81

Para el Percentil 15: P15


i = 15

15 n 15 260948
39142 .2 La clase de P15 es: [5 9]

100
100

LRI

45
4.5
2

C 5
ni 21540

Ni1 21842
15 260948

21842 5

100

P15 4.5
8.52
21540
P15 8.52 aos

85%

15%

P15

Para el Percentil 83: P83


i = 83
83 n 83 260948
216586 .8.2 La clase de P83 es: [50 54]

100
100

LRI

49 50
49.5
2

C 5
ni 13060

Ni1 210938
83 260948

210938 5

100

P83 49.5
51.66
13060
P83 51.66 aos

83%

17%
P83

82

Medidas de tendencia central:


Media aritmtica o promedio:
Es un nmero real que caracteriza o representa a un conjunto de
datos, cuyo polgono de frecuencias presenta simetra y poca
dispersin; tambin podemos entender a la media aritmtica como el
punto de equilibrio del conjunto de datos.
Para el caso en que todos los datos son igualmente importantes,
podemos definir la media aritmtica de la siguiente manera: Si x1,..., xn
es un grupo de datos, la media aritmtica o simplemente media de
estos datos es igual a la suma de todos estos datos dividido entre el
nmero total de datos.
n

x x2 ... xn
x 1

x
i 1

A continuacin se presentan otras frmulas para calcular la media


aritmtica para el caso de datos agrupados.
m

x n

i i

i 1

n
83

x xi hi

donde:

i 1

hi

ni
n

Para el caso en que los datos no tengan el mismo grado de


importancia, se utilizar la media ponderada, para lo cual se utilizar
la siguiente frmula:
= =1

siempre que se cumpla con =1 = 1

Fsicamente, tambin puede entenderse a la media aritmtica como


el centro de masa de la distribucin de los datos

Para datos sin agrupar no ponderados


Ejemplo 1:
Sea X = Nmero de trabajadores por microempresa.
Xi : 4, 5, 3, 8, 6, 5, 6, 5, 4, 5 .
Notemos que el nmero de microempresas es n = 5
La media aritmtica ser:
=

+ + + + + + + + + +

=
= .

= .

84

Estos mismos datos tambin se podran arreglar en una tabla


Nmero de trabajadores por
microempresa: Xi
3
4
5
6
8
Total

Nmero de microempresas: ni
1
2
4
2
1
10

Y por lo tanto podramos aplicar la siguiente frmula:


n

x
i 1

3 1 4 2 5 4 6 2 8 1 51
5.1
10
10

Se suele utilizar la siguiente tabla de clculos:


Nmero de trabajadores Xi

Nmero de empresas: ni

Xi * ni

1
2
4
2
1

3
8
20
12
8
51

3
4
5
6
8
Total

Para datos agrupados en intervalos


Ejemplo 2. En la siguiente tabla de frecuencias aparecen los valores
de compra (en nuevos soles) de un conjunto de 17 clientes.

85

Una aproximacin de la media es:


__

2(7) 4(11) 7(15) 3(19) 1(23) 273

14.294. nuevos soles


17
17

Aqu debemos interpretar o entender que el valor de compra


representativo o caracterstico de los 17 clientes es de 14.294 nuevos
soles. aproximadamente.
Decimos aproximadamente por que el clculo se ha realizado
utilizando las marcas de clase y no precisamente los datos originales.

Media aritmtica para datos ponderados


Para el caso en que los datos no son igualmente importantes, se debe
utilizar la media aritmtica ponderada
= =1 , siempre que se cumpla con =1 = 1
Ejemplo:
Sea X las calificaciones de que un estudiante universitario recibe en
una asignatura.
-

Promedio de evaluaciones escritas: 15, con una ponderacin del 40%,


Promedio intervenciones orales: 12, con una ponderacin de 5%
Promedio de presentacin de trabajos en clase: 16, con una ponderacin del 15%
Promedio de trabajo de aplicacin: 18 con una ponderacin del 30% y
Promedio de actitudes: 14, con una ponderacin de 10%

El promedio ponderado se obtiene de la siguiente manera:

= = 15 0.4 + 12 0.05 + 16 0.15 + 18 0.3 + 14 0.1


=1

= 15.8

En cuadro de clculos se muestra a continuacin

86

Algunos vicios y argumentos en la interpretacin de la media


aritmtica:
Se dice por ejemplo que si una persona gana un milln y otra nada, la
"media aritmtica" establece que las dos han ganado medio milln, lo
cual no es verdad. Este argumento parece suficiente para desvirtuar
una disciplina, puesto que: si no sabe hacer algo tan sencillo cmo
es posible que sea capaz de resolver problemas ms complejos?.
Veamos otro ejemplo, Si un soldado que dispara sobre un blanco una
vez medio metro a la derecha y otra medio metro a la izquierda, la
media establece que dicho soldado en promedio ha tenido un acierto
en los dos disparos al blanco, lo cual tampoco es verdad.
Podemos darnos cuenta fcilmente que el clculo de la media es una
operacin estrictamente matemtica y que en un sentido estricto lo
que falla en los ejemplos es la interpretacin de un resultado
aritmtico. Una de las caractersticas de la Estadstica es
precisamente analizar la validez de los resultados. Para que este
ejemplo pueda abandonar el mbito de las matemticas y pasar al
terreno de la Estadstica es necesario que se establezca alguna
medida de la representatividad, de la validez, del resultado que se
presenta. Es evidente que la media aritmtica en estos ejemplos esta
afectada por una escasa representatividad.

Propiedades:
La media aritmtica tiene cuatro propiedades importantes.
1) La media de una constante es la misma constante. () =

2) La suma de las diferencias simples respecto a la media


aritmtica es igual a cero.
( ) = 0

87

3) Si a cada uno de los datos se le realiza la misma operacin


matemtica bsica: suma, resta, multiplicacin o divisin (*) por
el mismo valor constante k, la media de los datos transformados
queda afectada por la misma operacin con dicha constante k, (
x *k).
( ) = () =
4) La suma de las diferencias cuadrticas de cada uno de los
datos respecto a su correspondiente media aritmtica, es
mnima.
( )2 =
Ahora verifiquemos estas propiedades con un ejemplo sencillo
Si tomamos como base los datos del ejemplo 1, debemos tener que:
1. Suma de las distancias respecto de la media
(4 - 4.2)+(2- 4.2)+(6-4.2)+(4-4.2)+(5-4.2)+(3-4.2)+(4-4.2)+(3-4.2)+(44.2)+(7 4.2) = 0
(-0.2) +(-2.2) +(1.8) +(-0.2) +(0.8) +(-1.2) +(-0.2) +(-1.2) +(0.2)+ (2.8)
= 0
(5.4) + (- 5.4)
= 0
2. Si k = 2 y la operacin matemtica bsica (*) fuera la multiplicacin,
entonces la media de los datos transformados:
X 2 : 4 x 2 , 2 x 2 , 6 x 2, 4 x 2, 5 x 2, 3 x 2, 4 x 2, 3 x 2, 4 x 2, 7 x 2
: 8,

4 ,

Media

12 ,

8,

10 ,

6, 8,

6,

8,

14

8 4 ... 14 84
8.4 4.2 2 x 2
10
10

En cambio si la operacin matemtica bsica (*) fuera la suma,


entonces la media de los datos transformados:
X 2 : 4 + 2 , 2 + 2 , 6 + 2, 4 + 2, 5 + 2, 3 + 2, 4 + 2, 3 + 2, 4 + 2, 7 + 2
:

6,

4 ,

Media

8,

6,

7,

5,

6,

5,

6,

6 4 8 6 ... 9 62

6.2 4.2 2 x 2
10
10

88

3. La suma de las diferencias cuadrticas respecto a la media es mnima,


entonces debemos tener que
__ 2

( xi x ) ( xi a ) 2
i 1

Prueba:
Sea a

i 1

x ,
n

La a minimizar sera:

(x
i 1

( x
i 1

a) 2

a ) 2 xi x x a
n

i 1

x
n

i 1

i x x a

xi x x a 2xi x x a
n

i 1
n

xi x x a 2xi x x a
i 1

xi x x a 2x a xi x
n

i 1

i 1

i 1

xi x nx a
n

i 1

>0
n

x
i 1

a xi x
2

L.Q.Q.D.

i 1

Po ejemplo para los datos anteriores tenemos que x 4.2 y si


a 4 , entonces:

(4 4.2)2 + (2 4.2)2 +(6-4.2)2 +(4-4.2)2 + + (7 4.2)2 < (4 4)2 + (2 4)2 + + (7 4)2


(-0.2)2 + (-2.2)2

+ (1.8)2 + (-0.2) + + (2.8)2

0.04 + (4.84) + (3.24) + (0.04) + + (7.84)


19.6

<

+ (-2)2 + + (3)2

(0)

<

<

20

+ + (9)

As hemos verificado cada una de las propiedades de la media aritmtica.

89

13.6.2.

Media armnica

Cuando los datos corresponden a velocidades, es decir cuando


expresan cantidad de desplazamiento por unidad de tiempo, la media
que corresponde es la media armnica, la cual viene expresada en
las siguientes frmulas, tanto para datos sin agrupar, como para datos
agrupados:

xH

xH

n
n

i 1 xi

Para datos sin agrupar,

xi 0

n
Para datos agrupados en m-clases, xi 0
ni

i 1 xi
m

Note que en esta clase de promedio, todos los valores de la variable


deben ser diferentes de cero.
Ejemplo1
Durante la primera semana de vigencia del control del lmite de
velocidad de vehculos de transporte pblico, se instala en un punto
de la carretera una cmara que registra la velocidad de la unidad
mvil, encontrando las siguientes velocidades en una muestra de 10
vehculos (en Km/h): 85, 90, 80, 95, 100, 87, 88, 84, 92, 92. Cul
ser la velocidad promedio de este grupo de vehculos?
Vi (Km/h) 1/vi

0,01176471
0,01111111
0,01250000
0,01052632
0,01000000
0,01149425
0,01136364
0,01190476
0,01086957
0,01086957

85
90
80
95
100
87
88
84
92
92

0,11240391

La velocidad promedio se obtiene con la media armnica:

xH

n
n

x
i 1

10
88.96 Km / h
0.11240391

90

Ejemplo 2
Un auto recorre una distancia total de 16 Km. el primer tramo de 2 Km
lo recorre a una velocidad de 20 km/h, el segundo tramo de 5 Km lo
recorre a una velocidad de 80 Km/h, el tercer tramo de 8 Km, lo recorre
a una velocidad de 100 Km/h y el ltimo tramo de 1 Km, lo recorre a
una velocidad de 25 Km/h. Calcular la velocidad promedio de dicho
vehculo.
Tramo (Km)
ni

Vi:
Velocidad (Km/h)

2
5
8
1

20
80
100
25

ni/vi
0.1
0.0625
0.08
0.04
0.2825

La velocidad promedio de los autos se obtiene con la media armnica:

xH

13.6.3.

n
16

56.64 Km / h
n
ni 0.2825

i 1 xi

Media geomtrica

Cuando los datos representan tasas de crecimiento, entonces la


media que corresponde utilizar es la media geomtrica, la cual viene
expresada en las siguientes frmulas, tanto para datos sin agrupar,
como para datos agrupados:

xG n

x
i 1

xG n

Para datos sin agrupar, xi 0

x
i 1

ni
i

Para datos agrupados, xi 0

Note que en esta clase de promedio, todos los valores de la variable


deben ser diferentes de cero.

91

Ejemplo
Durante cuatro aos consecutivos una pequea empresa aument su
capital en 20%, 50%, 80% y 90%. Calcular la tasa promedio de
aumento del capital.
Los coeficientes de crecimiento de cada ao sern: Xi: 1.2, 1.5, 1.8
y 1.9 respectivamente, con lo cual se obtiene el promedio geomtrico
de dichos coeficientes:

=4

= =
=1

X G 4 (1.2)(1.5)(1.8)(1.9) 4 6.156 1.5752


Tasa promedio de crecimiento = 57.52%

13.7. Medidas de dispersin.


Miden el grado discrepancia o de diferencias entre los datos

13.7.1.

Rango:

Expresa la mxima diferencia de un conjunto de datos

R X mximo X mnimo
13.7.2.

Varianza.

La varianza es un indicador de la variabilidad de los datos


respecto a su valor promedio. En el leguaje de los
Econometristas, la varianza es conocida como la volatilidad de
una serie de datos. En general la varianza es una medida que
siempre debe acompaar al promedio para asignarle
representatividad, en el sentido que un promedio acompaado
de una pequea varianza, ste ser muy importante o
representativo del conjunto de datos; en cambio, si un promedio
es acompaado por una varianza grande, nos indicar que este
es poco representativo de los datos.
Matemticamente se dice que la varianza es el valor esperado
de las diferencias cuadrticas respecto a la media: V(X) = E(X)2 . Existen diversas frmulas para clculos manuales, a
continuacin se presentan las ms usadas.

92

x
N

Varianza terica poblacional: V ( x)

i 1

X ni
2

x X n
N

Varianza prctica poblacional: V ( x)

i 1

N 1

S2

Relacin entre las varianzas terica y prctica


2
xi X ni
N

S2

i 1

N 1

N N

i 1
N N 1

N 2
S2

N 1

v( x)

N 2

N 1

lmiteN S 2 2

x
n

Varianza muestral:

xi X 2 ni

i 1

x ni
2

n 1

s2

Cuando los datos estn sin agrupar, se considera las mismas


frmulas, haciendo que ni 1
13.7.3.

Desviacin estndar

Es una medida del grado de dispersin de los datos respecto a


su promedio, es utilizada para asignar un grado de importancia
al promedio en su funcin de representar a un conjunto de datos.
As mientras ms pequea es la desviacin estndar, ms
representativo es el promedio.
Matemticamente se obtiene extrayendo la raz cuadrada a la
varianza, por lo tanto para cada caso, la desviacin estndar se
calcular utilizando las siguientes frmulas.
Desviacin estndar terica poblacional:

93

x X
N

DE( x)

i 1

Desviacin estndar prctica poblacional:

x X
N

DE( x)

i 1

N 1

S2 S

Desviacin estndar muestral:

x x
n

de( x)
13.7.4.

i 1

n 1

s2 s

Desviacin Media [Dm]

Es el promedio de las desviaciones absolutas respecto a la


media aritmtica.

=1| |
=

13.7.5. Desviacin absoluta respecto a la mediana [DM]


Es el promedio de las desviaciones absolutas respecto a la mediana.

=1| |
=

Se puede verificar que

13.7.6.

Coeficiente de variacin

Es una medida de dispersin relativa de los datos respecto a su


valor promedio. Sirve para comparar la dispersin de dos o ms
conjuntos de datos
Coeficiente de variacin poblacional: CV ( x)

Coeficiente de variacin muestral: cv( x)

94

DE( x)
100
X

de( x)
100
x

Nota: Cuando CV(x) < 33% : Distribucin homognea


Cuando CV(x) 33% : Distribucin heterognea

13.8.

Medidas de deformacin.

13.8.1. Coeficiente de asimetra


Mide el grado de asimetra respecto a una distribucin simtrica.
Existen diversas formas de calcular este coeficiente, cada uno
de los cuales no dan necesariamente el mismo valor, pero
generalmente no permiten llegar a la misma conclusin en
cuanto a la asimetra de la distribucin, sin embargo cuando la
asimetra es muy pequea, entonces podra suceder que un
coeficiente nos diga que existe una pequea asimetra positiva y
otro coeficiente nos diga lo contrario, en estos casos es mejor
concluir que la distribucin es aproximadamente simtrica.
A continuacin presentamos los distintos tipos de coeficientes de
asimetra
1. Sesgo de Pearson:
Es utilizado solo en distribuciones unimodales

CA( x)

x Mo

2. Aproximacin del Sesgo de Pearson: CA( x)


3. En funcin de Cuartiles: CA( x)

3( x Me)

Q3 Q1 2Q2
Q3 Q1

4. Coeficiente de asimetra de Fisher: CA( x)

3
3

Donde:
n

Momento central de tercer orden:

( x x)
i 1

n
n

Momento Central de segundo orden:

95

2 2

( x x)
i 1

( x x)
i 1

Nota:

( xi x)

i 1

Cuando CA(x) < 0 : Asimtrica negativa


Cuando CA(x) = 0 : Simtrica
Cuando CA(x) > 0 : Asimtrica positiva

13.8.2.

Coeficiente de Curtosis

Este coeficiente permite medir el grado de elevacin o


apuntamiento de la distribucin con respecto a una distribucin
normal estndar.
Al igual que para el caso del coeficiente de asimetra, existen
diversas frmulas para calcular el coeficiente de curtosis:

1. En funcin de los percentiles: k

(0.5)( P75 P25 )


P90 P10

2. Coeficiente de Apuntamiento de Fisher:

4
3
4

Donde:
n

Momento central de cuarto orden:

96

( x x)
i 1

Momento Central de segundo orden: 2 2

(x
i 1

x) 4

( x x)

i 1

( xi x)

i 1

Nota:
Cuando K < 0 : Distribucin platicurtica
Cuando K = 0 : Distribucin mesocurtica
Cuando K > 0 : Distribucin leptocurtica

Ejemplo: Considere que los siguientes datos corresponden a las


edades 50 trabajadores expresadas en aos. Se desea obtener la
media aritmtica, desviacin estndar, coeficiente de variacin,
coeficiente de asimetra y coeficiente de curtosis. Los clculos se
muestran en el mismo cuadro de datos
Cuadro de clculos
Edad

xi

ni

15 19
20 24
25 29
30 34
35 39
40 44

17
22
27
32
37
42

3
12
16
10
5
3

45 49

47

Total

50

Ni

Xi. Ni

(Xi-u)^2*ni

3
15
31
41
46
49

51
264
432
320
185
126

396.75
507.00
36.00
122.50
361.25
546.75

-4562.625
-3295.5
-54.00
428.75
3070.625
7381.125

52470.1875
21420.75
81.00
1500.625
26100.3125
99645.1875

50

47

342.25

6331.625

117135.0625

9300

318353.125

1425

97

2312.50

(Xi-u)^3*ni

(Xi-u)^4*ni

Media aritmtica:

x n

i i

i 1

1425
28.5 aos
50

Desviacin estndar DE(x):


7

V ( x)

(x
i 1

x) 2 ni
n

2312 .5
46.25 aos2
50

DE( x) V ( x) 46.25 aos2 6.80074

aos

Coeficiente de variacin: CV(x):

CV ( x)

DE( x) 6.80074 aos

0.2386 23.86%
x
28.5 aos

Esto significa que la dispersin de las edades no es muy importante


y al no exceder el 33%, las edades del grupo de trabajadores puede
considerarse como homognea
Coeficiente de asimetra de fisher: CA(x)

CA( x )

3
9300 / 50
186

0.59 0
3
3

6.80074 314.534664

Al ser el coeficiente de asimetra mayor que cero, nos indica que


existe una asimetra positiva, que la mayor cola del polgono de
frecuencias est en el lado derecho
Coeficiente de Curtosis: [k]

4
318353 .125 / 50
3
3
2 2
( )
(46.25)2

6367 .0625
3 2.976 3 0.0234 0
2139 .0625

El coeficiente de curtosis menor que cero, significa que el grado de


elevacin o apuntamiento de las frecuencias el ligeramente
aplanado, es decir corresponde a una distribucin platicurtica.

98

Medidas Concentracin: ndice de Gini y curva de Lorenz.


Las medidas de concentracin tratan de poner de relieve el mayor o
menor grado de igualdad en el reparto del total de los valores de la
variable, son por tanto indicadores del grado de distribucin de la
variable.
Para este fin, estn concebidos los estudios sobre concentracin.
Denominamos concentracin a la mayor o menor equidad en el
reparto de la suma total de los valores de la variable considerada
(renta, salarios, etc.).
Estudiaremos dos medidas de concentracin de la riqueza:
Indice de Gini [ IG ] Es un nmero real comprendido entre 0 y 1 que
se utiliza como una medida del grado de concentracin de la riqueza
en la poblacin.
0 1
Cuando = 0 indica que existe una equidad absoluta, es decir que
todos los miembros de una poblacin tienen exactamente la misma
riqueza. Es un caso extremo que en la prctica no se cumple.
Cuando = 1 indica que existe una inequidad absoluta, es decir que
toda la riqueza est concentrada en una sola clase y el resto de la
poblacin no posee riqueza. Este tambin es un caso extremo que en
la prctica no se cumple.
Lo que si se cumple es que 0 < < 1 , las polticas sociales de los
gobiernos procuran que este ndice sea lo ms bajo posible, lo cual
indicar que la riqueza est mejor distribuida en la poblacin, en

99

cambio cuando este valor se acerca a 1 indicar que la mayor


cantidad de la riqueza est concentrada en un pequeo grupo de la
poblacin.
Matemticamente, el ndice de Gini est definido por la siguiente
ecuacin:

1
=1 ( )
=
1
=1
Este ndice tomara los valores de IG = 0 cuando pi = qi
concentracin mnima

y de Ig = 1 cuando qi = 0

Curva de Lorenz, es un mtodo grfico de estudiar la concentracin


de la riqueza.
Sea una distribucin de rentas (xi, ni) de la que formaremos una tabla
con las siguientes columnas:
1.-Los productos xi ni, que nos indicarn la renta total percibida por
los ni rentistas de renta individual xi .
2.-

Las frecuencias absolutas acumuladas Ni .

3.Los totales acumulados ui que se calculan de la siguiente


forma:
u1= x1 n1
u2 = x1 n1 + x2 n2
u3 = x1 n1 + x2 n2 + x3 n3
u4 = x1 n1 + x2 n2 + x3 n3 + x4 n4
un = x1 n1 + x2 n2 + x3 n3 + x4 n4 + . + xn nn
n

Por tanto podemos decir que u n x i n i


i 1

4.- La columna total de frecuencias acumuladas relativas, que


expresaremos en tanto por ciento y que representaremos como pi y
que vendr dada por la siguiente notacin

100

5.- La renta total de todos los rentistas que ser un y que dada en tanto
por ciento, la cual representaremos como qi y que responder a la
siguiente notacin:

100

100

Por tanto, ya podemos confeccionar la tabla que ser la siguiente:


pi

xi
x1

ni
n1

xi ni
x1 n1

Ni Ui
N1 U1 p1

x2

n2

x2 n2

N2

U2

...

...

...

...

xn

nn

xn nn

Nn

Ni
100
n

qi

ui
100
un

pi - qi

q1

p1 - q1

p2

q2

p2 - q2

...

...

...

...

un

pn

qn

pn - qn

Como podemos ver la ltima columna es la diferencia entre las dos


penltimas, esta diferencia seria 0 para la concentracin mnima ya que
pi = qi y por tanto su diferencia seria cero.
Si esto lo representamos grficamente obtendremos la curva de
concentracin o curva de Lorenz .La manera de representarlo ser,
en el eje de las X, los valores pi en % y en el de las Y los valores de qi
en %. Al ser un %, el grfico siempre ser un cuadrado, y la grfica ser
una curva que se unir al cuadrado, por los valores (0,0), y (100,100), y
quedar siempre por debajo de la diagonal.
La manera de interpretarla ser: cuanto ms cerca se site esta curva
de la diagonal, menor concentracin habr, o ms homogeneidad en la
distribucin. Cuanto ms se acerque a los ejes, por la parte inferior del
cuadrado, mayor concentracin.
Los extremos son

101

Esto lo veremos mejor con un ejemplo


Frecuencia

Li-1 - Li
0 - 50
50 - 100
100 - 150
150 - 200
200 - 250
250 - 300
300 - 350
350 - 400
400 - 450
450 - 500

marca
xi
ni

Ni

25
75
125
175
225
275
325
375
425
475

23
95
157
205
224
232
246
253
258
260

23
72
62
48
19
8
14
7
5
2
260

xini

un

qi = (ui/un) 100 pi = (Ni/n) 100 pi - qi

575
5400
7750
8400
4275
2200
4550
2625
2125
950
38850

575
5975
13725
22125
26400
28600
33150
35775
37900
38850

1,48
15,38
35,33
56,95
67,95
73,62
85,33
92,08
97,55
100,00

8,85
36,54
60,38
78,85
86,15
89,23
94,62
97,31
99,23
100,00
651,15

7,37
21,16
25,06
21,90
18,20
15,61
9,29
5,22
1,68
0,00
125,48

Obtenga el ndice de concentracin de Gini y Curva de Lorenz


correspondiente
a)

ndice de concentracin de GINI


k 1

IG

p i q i
i 1

k 1

pi

125,48
0,193 ,
651,15

i 1

Observamos que hay poca concentracin por encontrarse cerca del 0.

b)

Curva de Lorenz
La curva la obtenemos cerca de la diagonal, que indica que hay
poca concentracin:

102

2. Nmeros ndices
El nmero ndice es una medida estadstica diseada para mostrar los cambios
de una variable o un grupo de variables relacionadas, con respecto al tiempo,
situacin geogrfica u otra caracterstica
a) Precios relativos
Un precio relativo es el ejemplo ms sencillo de nmero ndice. Es la razn
del precio de un bien determinado, en un perodo dado, a un precio en otro
perodo, llamado perodo base o perodo de referencia. Si po y pn denotan
los precios del bien durante el perodo base y el perodo considerado,
respectivamente, entonces, debemos tener que:

Generalmente se expresa como porcentaje


En general si pa y pb son precios de un bien durante los periodos a y b ,
respectivamente, el precio relativo del periodo b con respecto al periodo a
se define como pb/pa y se denota por pa/b. Asi el precio relativo de la
ecuacin anterior puede expresarse por po/n.
Ejemplos:
1. Suponga que los precios de consumo de un tarro de leche en los aos
2005, 2009 fueron 2.5 y 3.0 nuevos soles respectivamente. Tomando
2005 como ao base y 2009 como ao dado, se tiene:
2009 3.0
=
= 1.2 = 120%
2009
2005 2.5
Brevementen 120, omitiendo el signo % como se hace frecuentemente
en literatura estadstica.
2005

Este resultado significa sencillamente que en el 2009 el precio de la


leche fue el 120% del que tena en 2005, es decir se increment en un
20%
2. Tomando 2009 como ao base y 2005 como ao dado, en el ejemplo
anterior, se tiene

2009

2005

2005
2009

2.5
3.0

= 83 13%

O brevemente 83 13 . Esto significa que en el 2005 el precio de


la leche fue el 83 13 del de 2009, es decir menor en 16 23 %.
b) Cantidad y volumen relativo
Tambin se pueden comparar cantidades o volmenes del bien, tales como
cantidad o volumen de produccin, de consumo, de exportacin, etc.

103

En tales casos se habla de cantidad relativa o volumen relativo. Si qo denota


la cantidad de un bien producido, consumido, exportado, etc., durante un
perodo base, mientras que qn denota la correspondiente cantidad
producida, consumida, esportada, etc., durante un perodo dado, se tiene.

Generalmente se expresa como porcentaje

c) Valor relativo
Si p es el precio de un bien durante un perodo y q es la cantidad o
volumen producido, vendido, etc., durante este perodo. Entonces pq se
llama valor total. As, si son vendidos 1000 tarros de leche a S/. 3.00 nuevos
soles cada uno, el valor total ser (3.00)(1000) = S/. 3000
Si po y qo denotan el precio y la cantidad de un bien durante un perodo
base, mientras que pn y qn denotan el precio y la cantidad correspondiente
durante el perodo dado, los valores totales durante estos perodos vienen
dados por Vo y Vn respectivamente y se define



=
= ( )( )

d) Enlaces y cadenas relativas


Sean p1, p2, p3, . Los precios durante los sucesivos intervalos de tiempo
1, 2, 3, Entonces p1/2, p2/3, p3/4, .. representan los precios relativos de
cada intervalo de tiempo con respecto al intervalo de tiempo precedente y
se llaman enlaces relativos.
Ejemplos
1. Si los precios de un bien durante 2003, 2004, 2006 son: 8, 12, 15, 18
nuevos soles respectivamente, los enlaces relativos son:
12
2003
=
= 150%
2004
8
2004

15
= 125%
12

2005

18
= 120%
15

2005

2006

El precio relativo para un periodo dado con respecto a otro perodo


tomando como ao base puede siempre expresarse en trminos de
enlaces relativos. As
5 = 5 4 3
2

2. Del ejemplo 1, el precio relativo para 2006 con respecto al ao base


2003 es:

104

P2006

2003

= P2006

2005

P2005

2004

P2004

2003

18 15 12

= 225%
15 12 8

El precio relativo con respecto a un perodo base finado que, como se ha


visto, puede obtenerse por medio de enlaces relativos, se llama a veces
cadena relativa con respecto a esta base, o encadenamientos relativos a
lavase fijada.
3. En los ejemplos fijados 1 y 2, la coleccin de cadenas relativas
para los aos 2004, 2005 y 2006 con respecto al ao base 2003,
estn dadas por
12
2003
= 8 = 150%
2004

P2003

2005

P2003

2006

= P2003

2004

= P2003

2004

P2004

2005

P2004

2005

P2005

12 15

= 187.5 %
8 12

2006

12 15 18

= 225%
8 12 15

El mtodo se aplica igual a las cantidades y valores relativos


e) CLCULO DE INDICES POR EL MTODO DE AGREGACIN
SIMPLE
En este mtodo de clculo de un ndice de precios se expresa el total de
los precios de bienes en el ao dado como porcentaje del total de los
precios en el ao base

=
0
Donde: 0 =
=

Donde el resultado se expresa como porcentaje, como son los ndices en


general.
Aunque este mtodo tiene la ventaja de ser fcil de aplicar, tiene tambin
dos inconvenientes que lo hacen poco satisfactorio.
1 No tiene en cuenta la importancia relativa de los diferentes bienes. As
de acuerdo con este mtodo igual peso o importancia tiene la leche que
la crema de afeitar, en el clculo del ndice de costo de vida.
2 Las unidades utilizadas en las cotizaciones de los precios tales como
salarios, libras, kilos, etc, afectan el valor del ndice.
f)

CLCULO DEL NDICE POR EL MTODO DE AGREGACIN


PONDERADA

105

Para salvar los inconvenientes del mtodo de agregacin simple, se da


un peso al precio de cada bien, mediante un factor adecuado, tomando
a menudo la cantidad o volumen del bien vendido, durante el ao base,
el ao dado o algn ao tipo (que puede ser la media de varios aos).
Tales pesos indican la importancia de cada bien en particular.
Aparecen as tres posibles frmulas, segn que se utilicen las cantidades
del ao base, del ao dado o de un ao tipo, denotadas por 0 , ,
respectivamente:
1. INDICE DE LASPEYRES, o mtodo del ao base
=

0
0 0

2. INDICE DE PAASCHE, o mtodo del ao dado


=

3. MMTODO DEL AO TPICO, o mtodo del ao dado


=

Ejemplo de precios relativos:


1. Los precios medios en soles, del carbn por tonelada de venta al por
menor, se dan en la tabla siguiente:
Ao

2003

2004

2005

2006

2007

2008

Precio medio

14.95

14.94

15.10

15.65

16.28

16.53

a. Tomando como base el ao 2003, hallar los precios relativos


correspondientes a los aos 2006, 2008
b. Tomando como base el ao 2006, hallar los precios relativos
correspondientes a todos los aos dados.
c. Tomando 2003 2005 como base, hallar los precios relativos
correspondientes a los aos dados.
SOLUCIN
a) El precio relativo para 2006 tomando como base 2003
2006
15.65
2003
=
=
= 1.047 104.7%
2006
2003
14.95
Precio relativo para 2008 tomando como base 2003
2008
16.53
2003
=
=
= 1.106 110.6%
2008
2003
14.95

106

b) Se divide cada precio de la tabla por S/.15.65, precio para el ao


2006. Entonces los precios relativos expresados como porcentajes
son:
Ao

2003

2004

2005

2006

2007

2008

Precio medio

14.95

14.94

15.10

15.65

16.28

16.53

Precio relativo
(2006=100.0)

9.55

95.5

96.5

100.0

104.0

105.6

c) La media aritmtica de precios para los aos


2003 + 2004 + 2005
3
14.95 + 14.94 + 15.1
44.99
=
=
= 15.00
3
3

(2003 2005) =

Se divide cada precio de la tabla inicial por S/. 15.00, entonces los precios
relativos expresados como porcentajes son:
Ao

2003

2004

2005

2006

2007

2008

Precio medio

14.95

14.94

15.10

15.65

16.28

16.53

99.7

99.6

100.7

104.3

108.5

110.2

Precio relativo
Precio promedio del 2003-2005=15.0
= 100

Ejemplo de nmeros ndices:


2. En la tabla siguiente se presentan los precios medios al por mayor y
la produccin de los siguientes productos: Leche, mantequilla y queso
para los aos: 2001, 2002 y 2008.
Producto
2001
2002
2008
2001
2002
2008
3.95
3.89
4.13
9675
9717
10436
Leche
Mantequilla 61.5
34.8
Queso

62.2

59.7

117.7

115.5

115.5

35.4

38.9

77.93

74.39

82.79

Calcular un ndice de precios al por mayor, de agregacin simple y


ponderada, para el ao 2008, utilizando como base:
a. 2001
b. 2001 2002
AGREGACIN SIMPLE
a)

(2008)
(2001)

4.13+59.7+38.9
3.95+61.5+34.8

102.73
100.25

= 1.025 102.5%

3. Anlisis Estadstico con dos variables


Cuando analizamos dos o ms variables de manera conjunta,
generalmente estamos interesados en estudiar la relacin que existe

107

entre dichas variables. En esta ocasin solo presentaremos el anlisis


estadstico para dos variables.
El primer nivel de anlisis estadstico con dos variables consiste en
elaborar tablas de frecuencia de doble entrada. Estas tablas se elaboran
cuidado de mantener el vnculo que existe que ambas variables son
observadas en una misma unidad de anlisis, y los datos originales en
este caso son pares ordenados

(X1, Y1)

(X2, Y2)

(X3, Y3)

..

(Xn, Yn)

Adems debemos conocer de antemano que existe una relacin de


dependencia entre dichas variables, es decir debemos conocer cul es
la variable dependiente y cul la variable independiente, y nuestro inters
ser identificar el comportamiento de la variable dependiente en funcin
de la variable independiente, para lo cual construiremos los perfiles de la
variable dependiente para cada nivel de la variable independiente, los
cuales son comparados para examinar la influencia de la variable
independiente.

Tablas de frecuencia de doble entrada


Sean X e Y dos variables observadas en una misma unidad de anlisis,
tal que, la variable Y es la variable dependiente o por lo menos
considerada como variable dependiente y sea X la variable
independiente o por lo menos considerada como variable independiente.
Las observaciones de estas dos variables en n unidades de anlisis
ser:
(X1, Y1)

(X2, Y2)

(X3, Y3)

..

(Xn, Yn)

Las variables X e Y pueden ser ambas cuantitativas, ambas cualitativas


o una cuantitativa y la otra cualitativa. Si la variable es cuantitativa se
deben construir intervalos de clase de la misma manera a como se hizo
cuando elaboramos tablas de frecuencia de una sola dimensin y si la
variable es cualitativa, cada una de sus categoras constituir una clase
para la tabla de frecuencias.
A continuacin presentamos un ejemplo de tabla de frecuencias
bidimensional.

108

Tabla N 1 Promedio ponderado de los estudiantes de la Fac.


de Ingeniera de la USAT en el semestre 2013-II segn sexo
Promedio
Ponderado (i)

SEXO (j)

Total

09.0 - 11.4

Varn
29

Mujer
18

47

11.5 - 13.9

53

24

77

14.0 - 16.4

Total

85

44

129

En esta tabla la variable Promedio Ponderado est en la primera entrada


o filas y tiene tres categoras, en cambio la variable Sexo en la segunda
entrada o columnas y tiene dos categoras.
Los nmeros que aparecen en el centro representan a las frecuencias
bidimensionales, es decir que representan al nmero de estudiantes cuyo
promedio ponderado est comprendido en una categora determinada y
adems pertenecen a una categora especfica del sexo.
Los nmero que aparen en la ltima columna representan a las
frecuencias marginales del promedio ponderado y los nmero de la ltima
fila representan las frecuencias marginales de la variable sexo. A
continuacin presentamos la notacin usual.

=
11 = 29 29 . . 09.0 11.4
12 = 18 18 . . 09.0 11.4
22 = 24 24 . . 11.5 13.9
As sucesivamente
. =

= ()

1. = 47 47 . . 09.0 11.4
2. = 77 77 . . 11.5 13.9

As sucesivamente.

. =

()

.1 = 85 85

109

.2 = 44 44

Como dijimos al inicio de este captulo, cuando estudiamos dos


variables, nos interesa la relacin entre dichas variables. Un primer nivel
de esta exploracin es la obtencin de las frecuencias relativas
condicionales denominados tambin perfiles, los cuales a ser
comparados podremos deducir si la variable considerada como
dependiente cambia de comportamiento cuando cambia de nivel la otra
variable independiente.
Los perfiles son obtenidos dividiendo cada frecuencia bidimensional
entre el total de cada nivel de la variable considerada como
independiente, de manera que la suma de estas frecuencias en cada uno
de estos niveles debe dar la unidad o en forma equivalente el 100%.
Considerando el Promedio ponderado como la variable dependiente y el
sexo como la variable independiente, entonces los perfiles del promedio
ponderado en los varones y las mujeres se muestran en la siguiente
tabla.
Tabla N Promedio ponderado de los estudiantes de la Facultad de Ingeniera de la
USAT en el semestre 2013-I segn SEXO
Promedio
Ponderado
(Puntos)
09.0 - 11.4
11.5 - 13.9
14.0 - 16.4
Total

SEXO
Varn
N de
estudiantes
29
53
3
85

Total

Mujer

% de
N de
% de
estudiantes estudiantes estudiantes
34.1%
18
40.9%
62.4%
24
54.5%
3.5%
2
4.5%
100.0%
44
100.0%

Perfil del Prom. Pond. De los varones

N de
estudiantes
47
77
5
129

% de
estudiantes
36.4%
59.7%
3.9%
100.0%

Perfil del Prom. Pond. de las mujeres

Aqu lo que se compara son los perfiles, as podemos leer que hay mayor
proporcin de mujeres en promedios ponderados bajos (09.0 a 11.4), en
cambio en promedios ponderados intermedios (11.5 a 13.9), se observa
mayor proporcin de varones, finalmente en promedios ponderados
sobresalientes (14.0 a 16.4) las proporciones de varones y mujeres son
bastante parecidas. Por lo tanto podemos concluir que el promedio
ponderado si guarda relacin con el sexo, los varones parecen estar en
ventaja sobre las mujeres.

Medidas de correlacin:
Despus de un anlisis descriptivo de cada variable, el siguiente nivel de
anlisis comprende analizar la relacin entre dos variables. Aqu

110

aparecen diferentes herramientas estadsticas, desde las tablas de


contingencia o tablas cruzadas hasta el clculo de coeficientes de
correlacin. Existen diversos coeficientes de correlacin que han sido
construidos para las diferentes escalas en quede estar medida una
variable; sin embargo en esta ocasin presentaremos solamente el
coeficiente de correlacin lineal de Pearson.

Coeficiente de correlacin lineal de Pearson [r]


Es una medida que sirve para medir el grado de correlacin lineal entre
dos variables medidas en escala de intervalo o de razn.

Cov( x, y)
;
x y

para todo:

1 r 1

Cov( x, y)

x x y y

Donde:
Covarianza entre X e Y:

x x

Desviacin estndar de X: x

y y

Desviacin estndar de Y: y

Para clculos manuales se puede demostrar que:

Cov( x, y)

x y
xy N
N

x
x n

: Co var ianza entre x e y

: Desviacin estndar de x

111

y
y N

: Desviacin estndar de y

x y
xy N

x x y x

N
N
2

: Coeficente de correlaci n de pearson

Sabiendo que el coeficiente de correlacin lineal de Pearson puede


valores comprendidos entre cero y 1, los significados aproximados que
se suelen dar se presentan en el siguiente grfico:

Ejemplo 1.
Se desea estudiar la relacin existente entre el tiempo (en das) utilizado
para realizar una obra de construccin de un canal (Y) y el nmero de
trabajadores participantes en ella (X)

112

N de das necesarios
para hacer la obra
x

N de trabajadores
participantes en la obra
y

XY

X^2

Y^2

1
2
3
4
5
6
7
8
9
10

2
3
3
5
6
6
8
8
10
12

8
7
6
6
5
4
3
2
1
0.5

16
21
18
30
30
24
24
16
10
6

4
9
9
25
36
36
64
64
100
144

64
49
36
36
25
16
9
4
1
0.25

63

42.5

195

491

240.25

63 42.5
10
r
0.971
2

63
42.52
491
240.25

10
10

195

113

Ejemplo 2.
Se desea estudiar la relacin existente entre la Longitud en metros de un cable
elctrico (X) y el peso en Kgr. del cable (Y)

i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Suma

Longitud del
cable (metros)
X
4
6
6
7
7
7
8
9
9
9
11
11
11
13
13
14
15
16
176

Peso del cable


(en Kgr.)
Y
5
5
7
6
7
8
8
8
9
10
10
11
12
12
13
14
15
15
175

XY

X^2

Y^2

20
30
42
42
49
56
64
72
81
90
110
121
132
156
169
196
225
240
1895

16
36
36
49
49
49
64
81
81
81
121
121
121
169
169
196
225
256
1920

25
25
49
36
49
64
64
64
81
100
100
121
144
144
169
196
225
225
1881

176 175
18
r
0.972
2

176
175 2
1920
1881

18
18

1895

114

Regresin Lineal simple


Cuando estamos frente a una situacin en la que tenemos dos variables,
digamos X e Y, entre las cuales existe una relacin de dependencia lineal
evidenciada en el grfico de dispersin de puntos, de manera similar a como
examinamos dicha relacin cuando estudiamos el coeficiente de correlacin
lineal de Pearson. Supongamos que Y depende de X, entonces podemos
establecer una ecuacin de regresin lineal simple de la siguiente manera:
= + +
Donde:
Y = Variable dependiente o respuesta
X = Variable independiente i regresora
= ( )
= ( )

115

Representa la razn de cambio esperado de Y por cada unidad de cambio en X


Representa el valor esperado de la variable respuesta Y, cuando X = 0, siempre
que sea posible que X pueda tomar el valor cero (0), caso contrario no tiene
interpretacin y solo es el trmino constante de la ecuacin de regresin.
Mtodo de Mnimos cuadrados para estimar los parmetros de la
ecuacin de regresin lineal simple
Para estimar los parmetros de la ecuacin de regresin necesitamos una
muestra aleatoria de n-observaciones bidimensionales: { (x1, y1), , (xn, yn)}.
1 Graficar los datos y verificar que el tipo de relacin es lineal
2 Estimar los parmetros con las frmulas:

xy
x

x y
x

Con lo cual podemos escribir la ecuacin de regresin lineal estimada.

Y X
Coeficiente de determinacin de la ecuacin de regresin lineal simple [
R2] El coeficiente de determinacin es una medida de adecuacin de la
ecuacin de regresin lineal simple, y expresa el porcentaje de variabilidad de
la variable dependiente (Y) que est siendo explicada por la variable regresora
(X) en la ecuacin de regresin lineal simple. Su clculo se puede obtener
elevando al cuadrado el coeficiente de correlacin lineal de Pearson:

R2 r 2
Podemos notar que

0 R2 1 o en forma equivalente 0 R2 100

Usos de la ecuacin de regresin lineal simple:


El mayor beneficio de una ecuacin de regresin lineal simple es poder estimar
o pronosticar el valor de la variable dependiente cuando se conoce
anticipadamente el valor de la variable independiente; Sin embargo debemos
tener presente algunas consideraciones antes de realizar estos pronsticos:
1. El valor de Xo para el cual se desea pronosticar el valor de Y debe ser muy
cercano al valor de la media aritmtica de los valores de X utilizados en la
estimacin de los parmetros (
del rango de estos valores.

116

), por ningn motivo puede estar fuera

2. Los errores residuales deben tener distribucin normal con media cero y
varianza constante.
3. El coeficiente de determinacin debe ser por lo menos 70%

Ejemplo: Un comerciante al menudeo lleva a cabo un estudio para


determinar de qu manera dependen las ventas de los gastos por
semana en publicidad, para lo cual registra los datos de ambas variables
en las ltimas 12 semanas, cuyos datos aparecen en la siguiente tabla:

Tabla N Ventas en funcin de los gastos en


publicidad
Semana Gasto semanal en valor de ventas
(i)
publicidad (X)
($): (Y)
1
2
3
4
5
6
7
8
9
10
11
12

40
20
25
20
30
50
40
20
50
40
25
50

385
400
395
365
475
440
490
420
560
525
480
510

1. En primer lugar por teora del mrquetin, sabemos que las ventas
dependen de los gastos en publicidad, y al representar los datos de
estas variables en las ltimas 12 semanas en la siguiente grfica,
verificamos que la relacin es del tipo lineal, entonces es aplicable el
uso de la regresin lineal simple.

117

2. Estimaremos los parmetros de la ecuacin de regresin lineal


simple, para lo cual hacemos construimos el siguiente cuadro de
clculos:
Tabla N __ cuadro de clculos para la regresin lineal simple de Ventas en funcin de los
gastos en publicidad
Gasto semanal en
valor de ventas ($):
Semana (i)
publicidad (X)
(Y)
X.Y
X2
Y2
1
2
3
4
5
6
7
8
9
10
11
12

40
20
25
20
30
50
40
20
50
40
25
50

385
400
395
365
475
440
490
420
560
525
480
510

15400
8000
9875
7300
14250
22000
19600
8400
28000
21000
12000
25500

1600
400
625
400
900
2500
1600
400
2500
1600
625
2500

148225
160000
156025
133225
225625
193600
240100
176400
313600
275625
230400
260100

Suma

410

5445

191325

15650

2512925

x y
xy
n

410 5 445
191 325
12

3.2208
410 2
15650
12

5445
410
3.2208
12
12

118

343.71

Esto significa que por cada


nuevo sol adicional que se
gaste en publicidad, debemos
esperar un incremento en las
ventas de 3.22 nuevos soles

Esto significa que si no se gasta


en publicidad, debemos esperar
un nivel de ventas de 342.71
nuevos soles

Y X

Y 343.71 3.2208 X

El coeficiente de correlacin lineal de Pearson es:

1913255

410 5445
10

410 2
5445 2
15650
2512925

12
12

0.6348

Por lo tanto el coeficiente de determinacin ser:

R2

r 2 0.6348 2

0.403 40.3%

El valor nos indica que el 40.3% de la variabilidad de las ventas lo explica los gastos
en publicidad, es decir que se trata de una ecuacin no muy til para realizar
pronsticos de las ventas en funcin de los gastos en publicidad.

4. MUESTREO
1. MUESTREO: El Muestreo es parte de la Estadstica. En su formulacin ms
general, puede decirse que su funcin bsica es determinar qu parte de una
realidad en estudio a la que suele llamarse poblacin debe examinarse con la
finalidad de hacer inferencia sobre el todo de la poblacin de la que procede.

119

El muestreo es, una herramienta de la investigacin cientfica; segn Cochran W.


Tiene como objetivo desarrollar mtodos de seleccin de muestras y de estimacin,
que proporcionen, al menor costo posibles, estimaciones con la suficiente exactitud
para nuestros propsitos.

2. VENTAJAS DEL MUESTREO.a. COSTO REDUCIDO.- Si los datos se obtienen nicamente de una
pequea fraccin del total, los gastos son menores que los que se
realizaran si se llevara a cabo un censo completo. En poblaciones
muy grandes se pueden obtener resultados lo suficientemente
exactos cuando se analizan muestras que representan slo una
pequea fraccin de la poblacin.
b. MAYOR RAPIDEZ.Los datos pueden ser recolectados y resumidos ms rpidamente con una muestra
que con una enumeracin completa. Esta es una consideracin vital cuando se
necesita la informacin con urgencia.

c. MAS POSIBILIDADES.Para obtener la informacin en ciertos tipos de encuestas, se utilizan los servicios
de personal altamente calificado o equipo muy especializado de disponibilidad
limitada. Por lo tanto, en estos casos el censo completo es impracticable y como
alternativa a la obtencin de datos por muestreo, solo existe la de no obtenerlos.
De ah que las encuestas basadas en el muestreo tengan ms posibilidades y
flexibilidad respecto a la informacin que puede obtenerse.

d. MAYOR EXACTITUD.Debido a que al reducir el volumen de trabajo se puede emplear personal ms


capacitado y someterlo a un entrenamiento intensivo y debido tambin a que en
estas condiciones ser factible la supervisin cuidadosa del trabajo de campo y del
procesamiento de los datos, una muestra puede producir resultados ms exactos
que la enumeracin completa.
e. NICO MTODO DE ESTUDIO.Hay situaciones en las que la observacin de unidades implica la destruccin de
las mismas, el muestreo en el nico mtodo lgico de obtener datos para tener
informacin de la poblacin.
TERMINOLOGA TCNICA:
f.

UNIDAD DE OBSERVACIN.Son los elementos de la poblacin sobre los cuales se medirn las variables de
inters. sta es la unidad bsica, a veces llamada elemento. En los estudios de
poblaciones humanas la unidad de observacin son los individuos.
Ejemplo: En una investigacin sobre el estado nutricional y el rendimiento escolar
de los nios del nivel primario; la unidad de observacin son los nios del nivel
primario.

120

g. POBLACION.Es el conjunto de todas las unidades de anlisis cuyas caractersticas se van a


estimar. Una poblacin debe definirse en trminos de su contenido, extensin y
tiempo

Ejemplo: Estudiantes del Colegio Nacional San Jos de Chiclayo,


matriculados en el ao 2013
Una poblacin en estudio debe estar definida sin ambigedad, de manera que
no d lugar a confusiones.
h. POBLACION OBJETIVO.La poblacin objetivo est constituida por todos los elementos (unidades de
observacin), sin lmite a travs del tiempo y del espacio, que constituyen el
objetivo final de la generalizacin o inferencia.
POBLACION MUESTRAL.La poblacin muestral est constituida por una parte o un subconjunto de la
poblacin objetivo. Est determinada y delimitada en el tiempo y en el espacio y de
cuyos elementos en la prctica se obtiene la muestra para realizar el estudio.

i. MUESTRA.Una muestra es un conjunto de unidades, una porcin del total, que nos
representa la conducta del universo en su conjunto.
Una muestra, en un sentido amplio, no es ms que eso, una parte del todo
que llamamos universo y que sirve para representarlo.
Sin embargo, no todas las muestras resultan tiles para llevar a cabo un
trabajo de investigacin. Lo que se busca al emplear una muestra es que,
observando una porcin relativamente reducida de unidades, se obtengan
conclusiones semejantes a las que lograramos si estudiramos el universo
total. Cuando una muestra cumple con esta condicin, es decir, cuando nos
refleja en sus unidades lo que ocurre en el universo, la llamamos muestra
representativa. Por lo tanto, una muestra representativa contiene las
caractersticas relevantes de la poblacin en las mismas proporciones en que
estn incluidas en tal poblacin. Sus conclusiones son susceptibles de ser
generalizadas al conjunto del universo, aunque para ello debamos aadir un
cierto margen de error en nuestras proyecciones.
Las muestras pueden ser clasificadas, en una primera divisin en
probabilsticas y no probabilsticas.
En las muestras probabilsticas, la caracterstica fundamental es que todo
elemento del universo tiene una determinada probabilidad de integrar la
muestra, y esa probabilidad puede ser calculada matemticamente con
precisin. En las muestras no probabilsticas ocurre lo contrario y el
investigador no tiene idea del error que puede estar introduciendo en sus
apreciaciones.
j. UNIDAD DE MUESTREO.-

121

La unidad de muestreo y la unidad de anlisis son las mismas, pero hay casos
en que no lo son. Una unidad de muestreo puede contener un conjunto de
unidades de observacin o, incluso, un conjunto de unidades de muestreo
correspondientes a una etapa posterior de seleccin.
Ejemplo:

Podramos querer estudiar a las personas, pero no tenemos una lista de todos
los individuos que pertenecen a la poblacin objetivo. En vez de esto, la
vivienda sirven como las unidades de muestreo y las unidades de observacin
son los individuos que viven en una vivienda.
k. MARCO MUESTRAL.-

Un marco muestral es una lista de unidades de muestreo de tal forma que se


pueda seleccionar de all, las unidades que constituirn la muestra. El marco
muestral es indispensable, al menos cuando se trata de realizar un muestreo
probabilstico. Debe ser actualizado (sin omisiones ni duplicaciones.)

Ejemplos de marcos muestrales:


1. La gua telefnica
2. Padrn de empresas pblicas y privadas
3. Un plano de la ciudad.
4. Mapa de un pas.
5. El listado de alumnos.
6. rea de un terreno de cultivo.
l. PLAN MUESTRAL.Conjunto se reglas o especificaciones para seleccionar una muestra.
m. DISEO MUESTRAL.- El diseo muestral comprende el mtodo de seleccin y
estimacin, el cual debe ser indicado en todo estudio muestral.
Ejemplo:
Los Estilos de vida de los residentes en distrito de Chiclayo
Variable en estudio: Estilos de Vida.
Escala de medida: Nominal
Unidad de Observacin: Cada uno de los residentes del distrito de Chiclayo
Poblacin Objetivo: Todos los residentes
Poblacin Muestral: Todos los residentes del distrito de Chiclayo

122

Ejemplo: Si se desea estudiar factores que influyen, para drogarse, en los


Jvenes de una determinada ciudad, no se podra tener informacin sobre cuntos
son, dnde viven, como se llaman, por lo que sera imposible extraer una muestra
de estos Jvenes. El investigador tendra que tomar una muestra de casas para
poder llegar a los Jvenes.

3. TIPOS DE MUESTREO
Con Reemplazo
Simple

T
I

Estratificado

Proporcional
Desproporcional
Cruzado

nico

O
S

Sin Reemplazo

Conglomerado

Probabilstico

Una etapa
Dos etapas
Multi etapas

Sistemtico

D
E

Doble
Mltiple
Secuencial

M
U
Casos tpicos.

Conveniencia

No

Probabilstico

Voluntarios
Bola de nieve

E
O

123

4. MUESTRAS NO ALEATORIAS
Si consideramos que no precisamos cifras exactas sobre la representatividad
estadstica de nuestros resultados, podramos plantearnos el usar una muestra no
aleatoria (o "no probabilstica"), lo que significa que elegiremos a voluntad nuestra.
Podemos considerar que esto puede ayudarnos a obtener los elementos que
necesitamos estudiar directamente y, adems, actuar sin los tediosos procesos de
seleccin aleatoria y verificacin estadstica.
Sin embargo, hay una desventaja: corremos un gran riesgo de obtener demasiado
sesgo en la muestra. No seremos capaces siquiera de advertir la presencia, y
menos an la cantidad, de sesgo si hacemos personalmente la seleccin de la
muestra. Y la presencia de sesgo puede hacer imposible generalizar nuestros
resultados.
Un modo de reducir el sesgo hasta cierto punto es dejar a otra persona o grupo la
seleccin de los elementos.
Estas muestras son bastante tiles en aquellas situaciones en las cuales no es
posible utilizar un muestreo probabilista, es decir cuando no es posible disponer de
un marco muestral para la seleccin de los elementos de la muestra. Su utilizacin
est reservada solo para aquellos investigadores que conocen la estructura de la
poblacin y tienen un criterio suficientemente bueno para conseguir
representatividad; incluso si se dispone de un buen criterio para conseguir
representatividad es posible obtener mayor precisin a ms bajos costos que con
un muestreo probabilista.
Entre los tipos comunes de muestras no aleatorias se incluyen,
Muestra de "casos tpicos" o los "mejores" casos es algo bastante tradicional en
historia del arte: estudiar solamente los "grandes maestros". La idea es que stos
representan lo ms autntico de su poca. Tal seleccin deliberada por parte del
investigador tiene no obstante riesgos serios, que se tratan en el punto Delimitar el
objeto de estudio.
Muestra de conveniencia. Un grupo existente, por ejemplo la gente en una
reunin, podra ser designado como muestra. Este es un mtodo fcil y barato,
pero el sesgo suele ser imposible de estimar. El mtodo es popular en las
demostraciones de cursos sobre mtodos, pero raramente usado en la
investigacin profesional.
Muestra de voluntarios es creada cuando todos los miembros de la poblacin
tienen la oportunidad de participar en la muestra. Un ejemplo es la respuesta
voluntaria de los clientes que llega a una empresa; igualmente, las respuestas que
un investigador recibe a un anuncio en un peridico pidiendo a la gente sus
opiniones.

124

Una muestra de voluntarios suele ser una alternativa bastante sensata; no obstante,
el investigador debe considerar cuidadosamente los riesgos de sesgo. Hay dos
cuestiones que plantearse:
Es cierto que todos los miembros de la poblacin bajo muestreo tenan las mismas
oportunidades de ser incluidos en la muestra? Por definicin, los voluntarios
difieren de la media de la poblacin en su mayor actividad. La cuestin crucial
entonces es difieren del resto de la poblacin tambin en otros aspectos?.
Muestra bola de nieve. Cuando se entrevista a miembros de un grupo, podemos
pedir a las personas que nos indiquen otros individuos en ese grupo que estn en la
mejor posicin para dar informacin sobre ese tema; podramos tambin pedirles
que nos indicasen personas que compartan sus puntos de vista y tambin otras que
sean de opinin opuesta. Entonces entrevistaremos a nuevos individuos y
continuaremos del mismo modo hasta que no obtengamos nuevos puntos de vista
de nuevos entrevistados. Este es un buen mtodo por ejemplo para recoger los
distintos puntos de vista existentes en un grupo, pero su inconveniente es que no
obtenemos una idea exacta de la distribucin de las opiniones.
En el momento de disear una muestra no aleatoria, debemos siempre tener en
mente la poblacin. Es representativa la muestra? Son vlidos los resultados en
la poblacin?
Recordemos tambin que no tenemos que incluir elementos que no sean miembros
de la poblacin en nuestra muestra.

Por ejemplo, podramos decidirnos (de forma bastante sensata) por


investigar las preferencias de los clientes de electrodomsticos entrevistando
a vendedores. O podramos estudiar las historias de vida de arrendatarios
mediante un cuestionario a administradores de casas o caseros. La idea es
factible, ya que esta gente habitualmente conoce mucho sobre el tema. Sin
embargo, los "especialistas" no pueden ser tomados como muestra de "no
especialistas". Son dos poblaciones diferentes. No debiramos generalizar
los resultados de "especialistas" a ninguna otra poblacin que no sea la
de "especialistas", cualquiera que sea el campo del que tratemos.
En los ejemplos de arriba, podramos tal vez continuar transformando los resultados
a partir de los especialistas en hiptesis que ms tarde verificaramos con una
muestra apropiada de la poblacin "real" o de no especialistas, que seran en los
ejemplos citados, respectivamente, los consumidores y los arrendatarios. En otras
palabras, podramos usar la entrevista de los especialistas slo como un estudio
preliminar.
5. Tamao de Muestras no aleatorias
No hay frmula para determinar el tamao de una muestra no aleatoria. Con
frecuencia, especialmente en investigaciones cualitativas, podemos simplemente
ampliar gradualmente nuestra muestra y analizar los resultados siempre que

125

continen llegando nuevos casos con informacin relevante o nueva; en cambio,


cuando en los casos nuevos ya no se presenta informacin nueva, podemos
concluir que nuestra muestra est saturada, y terminaremos el trabajo de muestreo.
Este mtodo es, sin embargo, muy vulnerable al muestreo sesgado, con lo que
tenemos que ser muy cuidadosos y asegurarnos que no omitimos a ningn grupo
de nuestra poblacin.
Antes de decidir el tamao de una muestra no aleatoria, tal vez debamos leer cmo
debe ser evaluada la representatividad de los resultados a partir de una muestra no
aleatoria. De otro modo podramos sufrir una sorpresa bastante desagradable
cuando estemos intentando, demasiado tarde, definir la poblacin en que nuestros
resultados puedan ser declarados vlidos.

6. ERROR DE MUESTREO:
Recordemos que la muestra descansa en el principio de que las partes
representan al todo y, por tal, refleja las caractersticas que definen a la
poblacin de la cual fue extrada, lo cual nos indica que es representativa. Es
decir, que para hacer una generalizacin exacta de una poblacin, es
necesario tomar una muestra representativa. Por lo tanto, la validez de la
generalizacin depende de la validez y tamao de la muestra.
Cuando trabajamos con muestras, generalmente se presentan dos tipos de
errores:
Error sistemtico. Llamado de distorsin o sesgo de la muestra, se presentan
por causas ajenas a la muestra:
Situaciones inadecuadas: se presentan, por ejemplo, cuando el encuestador tiene

dificultades para obtener la informacin y la sustituye por la que ms fcilmente est


a su alcance, que no siempre es la ms confiable.
Insuficiencia en la recoleccin de datos: hay distorsin por falta de respuestas,

o respuestas inadecuadas, ya sea por ignorancia o falta de datos relativos a los


elementos incluidos. Distorsiones del encuestador causadas por prejuicios, inters
personal o por fallas en la aplicacin de instrumentos.
Errores de cobertura a causa de que no se han incluido elementos importantes y

significativos para la investigacin que se realiza.


Error de muestreo o muestral. Cualquiera sea el procedimiento utilizado y la

perfeccin del mtodo empleado, la muestra diferir de la poblacin. A esta diferencia


se la denomina error de muestreo.

Cuando una muestra es aleatoria o probabilstica, es posible calcular sobre


ella el error muestral. Este error indica el porcentaje de incertidumbre, es
decir, el riesgo que se corre de que la muestra elegida no sea representativa.
Si trabajamos con un error calculado en 5%, ello significa que existe un 95%
de probabilidades de que el conjunto muestral represente adecuadamente al
universo del cual ha sido extrado.

126

A medida que incrementamos el tamao de la muestra, el error muestral


tiende a reducirse, pues la muestra va acercndose ms al tamao del
universo. Del mismo modo, para una muestra determinada, su error ser
menor cuanto ms pequeo sea el universo a partir del cual se la ha
seleccionado. As, para un universo de 10.000 casos, una muestra de 200
unidades tendr un error mayor que una de 300; una muestra de 200 casos,
por otra parte, tendr un error mayor si el universo tiene 10.000 unidades que
si ste posee solamente 2.000.
Para fijar el tamao de la muestra adecuado a cada investigacin, es preciso
primero determinar el porcentaje de error que estamos dispuestos a admitir.
Una vez hecho esto, debern realizarse las operaciones estadsticas
correspondientes para poder calcular el tamao de la muestra que nos permite
situarnos dentro del margen de error aceptado.
A veces, sin embargo, el tamao de la muestra queda determinado
previamente por consideraciones prcticas; en tales casos, no hay otra
alternativa que aceptar el nivel de error que su magnitud acarree.
Si una muestra extrada de la poblacin, se denomina error de muestreo para
esa muestra, a la diferencias que existe entre una estimacin muestral y el
parmetro poblacional obtenido por un censo completo. El error de muestreo
es inherente al uso de mtodos de muestreo, y el error estndar cuantifica su
magnitud.

Si es el parmetro de inters y es un estimador de , debemos especificar

un lmite para el error de estimacin; esto es, debemos especificar que y


difieran en valor absoluto en una cantidad menor que

Simblicamente: Error de estimacin = / /


Debemos establecer tambin una probabilidad ( 1 ), que especifica la fraccin de
las veces en muestreo repetido en que requerimos que el error de estimacin sea
menor que . Esta condicin puede ser establecida como
P{Error de estimacin < }= 1

127

1. MUESTREO ALEATORIO SIMPLE


Es un procedimiento de seleccin de una muestra por el cual todos y cada uno de
los elementos de la poblacin tienen igual probabilidad de ser incluidos en la
muestra, Adems, si se toma la muestra de tamao n, cualquier muestra posible de

elementos tiene la misma probabilidad de ser extrada que cualquier otra

combinacin de

elementos, ya sea que la muestra se seleccione con o sin

reposicin.
Una muestra aleatoria simple se extrae por seleccin aleatoria empleando los
nmeros aleatorios, este proceso ofrece la oportunidad de que todos los elementos
que no han sido sacados previamente tengan igual probabilidad de pertenecer a la
muestra.

Este tipo de muestreo es eficiente en poblaciones pequeas y homogneas,


para la cual se dispone de listas adecuadas (marco muestral) y cuando la
dispersin geogrfica de los elementos muestrales no constituye un problema; as
es relativamente fcil y barato seleccionar las unidades muestrales. El
inconveniente en poblaciones grandes es conseguir una lista completa o exacta de
la poblacin (marco muestral). Otro problema conexo es el costo de determinar el
nmero de elementos de la muestra y recabar informacin a partir de cada
elemento (poblaciones heterogneas) Por ejemplo, la muestra puede contener
elementos que se hallan muy dispersos por lo tanto, para efectuar entrevistas
personales se requieren fuertes desembolsos por concepto de viaje.

128

1.1. Tamao de muestra para estimar un Media Poblacional:

Z2 2
2

d2

Z2 2
2

Donde:

n Tamao de muestra

Desvo Normal para una confianza (1 ) . (Sus valores se obtienen de la


2

distribucin normal estndar).

2
d

Varianza poblacional (Generalmente tiene un valor desconocido)


Nivel de precisin (Mximo error de muestreo al estimar la media poblacional tolerada
por el investigador)

N =

Tamao total de la poblacin

Valores de Z

para distintos niveles de confianza


2

Probabilidad de
confianza (1 )
0.90
0.95
0.99

Probabilidad de
significancia: ( )
0.10
0.05
0.01

129

0.050
0.025
0.005

1.645
1.960
2.576

Tcnicas de estimacin de la varianza


1 Posibilidad: Utilizar la varianza

s2

de poblacin similar

2 Posibilidad: Utilizar la varianza s de la misma poblacin obtenida en un


estudio anterior resiente.
3 Posibilidad: Si la variable en estudio tiene distribucin normal, la varianza
puede ser estimada determinando el mximo y el mnimo y
utilizando la propiedad de la distribucin Normal que
aproximadamente 0.9973 del rea se encuentra en el intervalo

130

, por lo que la varianza estimada podr ser

estimada utilizando la siguiente frmula:

Mximo Mnimo
2

4 Posibilidad: Si la distribucin de la variable es del tipo triangular o asimtrica,


la desviacin estndar
podr ser estimada utilizando la
siguiente aproximacin:

0.24Mximo Mnimo

5 Posibilidad: Utilizando una muestra piloto, de donde podr obtenerse la


varianza muestral

s2

varianza poblacional

y utilizarla como un estimador de la

para efectos del clculo del

tamao de muestra. Es decir que:

2 s2

131

Ejemplo: Se desea estimar el peso promedio de una poblacin de 400


estudiantes ingresantes a una Universidad. En base a una muestra preliminar de
10 de estos estudiantes que acudieron a su control mdico en la Direccin de
Bienestar universitario, se estima una desviacin estndar de 6.6 Kgr. Si
deseamos tener un mximo error de muestreo de 1.5 Kgr. y una confianza de
0.95.Cul ser el tamao de muestra mnimo requerido?
La frmula a utilizar ser:

Z2 2

d
2

Poblacin N =
Confianza (1-)
Significancia ()
(1-/2)
Z
Error
DE(x) = =

Z2 2
2

400
0.95
0.05
0.975
1.960
1.500
6.6

Tamao de muestra n = 63

1.96 2 6.6 2
n
63
1.96 6.6 2
2
1.5
400

132

1.2.

Tamao de muestra para estimar una Proporcin Poblacional:

Z2 pq

d
2

Z2 pq
2

Donde:

n Tamao de muestra
Z

Desvo Normal para una confianza (1 ) . (Sus valores se obtienen de la


2

distribucin normal estndar).


Proporcin muestral esperada o conjeturada por el investigador

q 1 p Complemento de la proporcin muestral

N =

Nivel de precisin (Mximo error de muestreo al estimar la proporcin poblacional


tolerada por el investigador)
Tamao total de la poblacin

Estimacin de la proporcin para calcular el tamao de muestra:


1 Posibilidad: El investigador asigna un valor para P considerando un valor que l
puede esperar encontrar cuando realice el muestreo, siempre que este valor se
encuentre entre 0.25 y 0.75.

133

2 Posibilidad: Cuando p < 0.25, se considerar que estamos investigando una


caracterstica rara, por lo que debe abandonarse dicho valor y se asume p = 0.5, se
procede de manera similar cuando p>0.75, tambin se abandona y se remplaza por
0.5, con lo cual estaremos asumiendo una mxima varianza, puesto que el producto
p.q tiende a cero cuando p tiende a cero o a 1; en cambio toma su mximo valor
cuando p = 0.5.

Ejemplo
Se desea determinar el tamao de muestra para estimar la proporcin de
mujeres P con infeccin vaginal entre las que acuden al servicio de
Obstetricia del Hospital Regional Docente Las Mercedes de Chiclayo:

De acuerdo a la informacin histrica, del Hospital Regional Docente Las


Mercedes de Chiclayo, se conoce que, la proporcin de infecciones vaginales
en encontrado en el perodo 2010 2012 es p = 0.3.

Se estima que en el perodo de investigacin de enero a junio del 2013,


llegarn al servicio de obstetricia un total de 668 mujeres.

Si deseamos tener una confianza de 0.95 y un mximo error de muestreo d =


0.05, Cul deber ser el tamao de muestra mnimo requerido?

La frmula a utilizar en este caso es:

134

Z2 pq

d2

Z2 pq
2

Para una confianza (1-) = 0.95 tenemos que Z = 1.96


Proporcin de infecciones vaginales p = 0.30
Entonces: q = 1 - p = 0.70
Mximo error de muestreo o nivel de precisin d = 0.05
Remplazando en la frmula tenemos:

1.96 2 0.3 0.7


218
2
1
.
96

0
.
3

0
.
7
0.05 2
668

Respuesta: Se debe obtener una muestra de n = 218 mujeres. La seleccin


puede ser sistemtica con arranque aleatorio con un intervalo de seleccin k
= N/n = 3, es decir una cada tres mujeres.

1.3.

Tamao de muestra para probar hiptesis acerca de la Media


Poblacional:

Ho : o

1 Caso:

Ha : o
2

Z Z 2

n 2

Donde:

Probabilidad de error tipo I, o nivel de significancia de la prueba

Probabilidad de error tipo II

135

2 Caso:

Ho : o
Ha : o

Z
n

Ha : o
Z 2
2

Donde:

Probabilidad de error tipo I, o nivel de significancia de la prueba

Probabilidad de error tipo II

136

3 Caso:

Ho : 1 2
Ha : 1 2
2

Z Z ( 2 2 )

1
2
2

Donde:

Probabilidad de error tipo I, o nivel de significancia de la prueba

4 Caso:

Probabilidad de error tipo II

1 2

Ho : 1 2
Ha : 1 2

Z
n

Ha : 1 2

Z ( 12 22 )
2

Donde:

Probabilidad de error tipo I, o nivel de significancia de la prueba

Probabilidad de error tipo II

1 2

137

1.4.

Tamao de muestra para probar hiptesis acerca de la Proporcin


Poblacional:

Ho : P Po

1 Caso:

Ha : P Po
Z
Po Qo Z pq

n 2

Donde:

Probabilidad de error tipo I, o nivel de significancia de la prueba

Qo

Probabilidad de error tipo II

p Po

1 Po

proporcin muestral

q 1 p

2 Caso:

Ho : P Po

Ha : P Po

Z
n

Po Qo Z

138

Ha : P Po
pq

Donde:

Probabilidad de error tipo I, o nivel de significancia de la prueba

Probabilidad de error tipo II

p Po

1 Po

Qo

proporcin muestral

q 1 p

3 Caso:

Ho : P1 P2
Ha : P1 P2

n 2

p1 p2 p1 p2 / 2
2

p1q1 p2 q2

Donde:

Probabilidad de error tipo I, o nivel de significancia de la prueba

Probabilidad de error tipo II

P1 P2

139

4 Caso:

Ho : P1 P2
Ha : P1 P2

Z
n

Ha : P1 P2

p1 p2 q1 q2 / 2

Z p1q1 p2 q2

Donde:

Probabilidad de error tipo I, o nivel de significancia de la prueba

Probabilidad de error tipo II

P1 P2

Ejemplo:
Se desea determinar el tamao de muestra para probar una hiptesis de
comparacin de proporciones. Ho : P1 = P2 contra Ha: P1 < P2, donde:
P1 : Proporcin de complicaciones en intervenciones quirrgicas con protocolo.
P2 : Proporcin de complicaciones en intervenciones quirrgicas sin protocolo.
De acuerdo a la informacin histrica, del Hospital Regional Docente Las
Mercedes de Chiclayo, se conoce que, cuando se sigue el protocolo, la
proporcin de complicaciones quirrgicas es 0.01, y cuando no se sigue el
protocolo esta proporcin es de 0.18. Si deseamos tener una confianza de
0.95 y tambin una potencia para la prueba de hiptesis de 0.95, Cul deber
ser el tamao de muestra mnimo requerido?
La frmula a utilizar en este caso es:

Z
n

p1 p2 q1 q2 / 2

Z p1q1 p2 q2

n = tamao de muestra para cada grupo


Confianza de la prueba: (1-) = 0.95 entonces Z = 1.645

140

Potencia de la prueba: (1-) = 0.95 entonces Z = 1.645


Proporcin de complicaciones quirrgicas con protocolo p1 = 0.01
Proporcin de complicaciones quirrgicas sin protocolo p2 = 0.18
Entonces: q1 = 1 - p1 = 0.99

q2 = 1- p2 = 0.82

Remplazando en la frmula tenemos:

1.645
n

0.01 0.180.99 0.82 / 2 1.645


0.01 0.182

0.01 0.99 0.18 0.82

62

Respuesta: Se debe obtener una muestra de 62 observaciones de cada uno


de los grupos.

1.5.

Tamao de muestra para probar hiptesis de estudios de Casos y


Controles:

Ho : P1 P2
H a : P1 P2
Z
2 pq Z p1q1 p2 q2

Donde:

Probabilidad de error tipo I, o nivel de significancia de la prueba

Probabilidad de error tipo II

p1 Casos
p2

Controles

p2 p2
2

: Proporcin mancomunada

141

q 1 p

P1 P2

Ejemplo: Se necesita calcular el tamao de muestra para una investigacin con


diseo de casos y controles, para probar una hiptesis de que la proporcin de
partos exitosos con mtodo de induccin es mayor a la proporcin de partos
exitosos cuando no se usa este tratamiento.
Sea: P1 = Proporcin de induccin exitosa de partos con un tratamiento
P2 = Proporcin de induccin exitosa de partos con un tratamiento

La Hiptesis en prueba es:


Ho: P1=P2 contra
Ha: P1>P2
La frmula que corresponde ser utilizada es:

Z
n

2 pq Z

p1q1 p2 q2

p1 p2 2

= Tamao de muestra mnimo para cada grupo: Casos y controles


Z = 1.645 : Desvo normal para una significancia del 0.05
Z = 1.645 : Desvo normal para una significancia de 0.05
1 = 0.8

:Proporcin de induccin exitosa del parto usando el tratamiento

(Caso)

2 = 0.6

:Proporcin de partos exitosos sin usar tratamiento (control)

q1 = 1 p1 = 1 0.8 = 0.2
q1 = 1 p1 = 1 0.8 = 0.2

1 +2
2

0.8+0.6
2

= 0.7

= 1 = 1 0.7 = 0.3

Reemplazando en la frmula tenemos:


2

(1.645 2 0.7 0.3 + 1.645 0.8 0.2 + 0.4 0.4)


=
= 111
(0.8 0.6)2
Respuesta:
El tamao de muestra ser n1 = 111 casos y n2 = 111 controles

142

4.1.1.

Muestreo Aleatorio Estratificado (MAE):

En este tipo de muestreo, la poblacin es dividida en L subpoblaciones o


estratos, de tamaos Nh cada uno de ellos de los cuales se selecciona nh
elementos respectivamente, de modo tal, que en cada estrato, cada uno
de los elementos tengan la misma probabilidad de ser incluidos en la
muestra. Este proceso genera muestras representativas siempre que la
variabilidad en cada subpoblacin no exceda el 33%, aun cuando la
poblacin general dicha variabilidad sea mayor que el 33%.

El clculo del tamao de muestra depende del propsito del muestreo,


es decir del parmetro que se pretende estimar y del modo de asignacin
o reparto de tamao general de muestra a cada uno de los estratos.
Tamao general de muestra para estimar la media poblacional con
asignacin de Neyman en el MAE.
2
n

W S
W S
V
h

2
h

N = Tamao general de la Poblacin


n = Tamao general de muestra
Wh = Nh/N = Ponderacin del estrato h en la poblacin
Sh = Desviacin estndar en el estrato h.
V = (d/2 )2 = Varianza deseada al estimar la media poblacional

143

Tamao de la muestra en los estratos:

nh

Wh Sh
n
Wh Sh2

Ejemplo:

Se desea investigar el nivel de competencias bsicas de


comprensin lectora y Matemticas en estudiantes del 5 de secundaria de tres
instituciones educativas representativas de Chiclayo: Colegio Nacional San
Jos, Colegio Nacional Elvira Garca y Garca y el Colegio Nacional Magdalena
Sofa. Como antecedente de esta investigacin se dispone de las notas
promedio en ambos cursos, las cuales utilizaremos para disear la muestra.

RENDIMIENTO ACADMICO EN LENGUAJE Y MATEMTICAS DE ESTUDIANTES DE 5 DE


SECUNDARIA DE TRES INSTITUCIONES EDUCATIVAS DE CHICLAYO EN DICIEMBRE DEL 2012
N de
Estudiantes
148
152
150

Institucin Educativa
Elvira Garca
Magdalena Sofa
San Jos

Promedio.
Lenguaje
14.20
13.82
14.75

Desv. Estnd.
Lenguaje
2.25
2.36
2.52

Promedio.
Matemtica
13.94
14.11
14.92

Desv. Estnd.
Matemtica
3.22
2.59
3.05

Como la investigacin comprende dos variables, que son la Comprensin


Lectora y Matemticas, entonces haremos el clculo del tamao de muestra
estratificado para cada una de las variables y al final nos quedaremos el tamao
de muestra ms grande. Elegimos un nivel de confianza de 0.95 y un error de
muestreo de aproximadamente igual a 3.5% del promedio general en los tres
colegios, cuyo valor resulta ser igual a 0.5 puntos, con lo cual la varianza
deseada V ser obtenida del siguiente modo:
Confianza (1-/2)
Desvo Normal

= 0.95
= 1.96
2

Precisin (3.5% de la media)

d = 0.5

Varianza deseada: V=(d/Z)2 = 0.06507944


Calculo del tamao de muestra general para investigar competencias bsicas
de comprensin lectora:
( )2
(2.3786)2
=
=
= 73
5.6697
2
+ 0.06507944 + 450
Tamao de muestra para los estratos (colegios):
1 =

1 1
0.7406
=
73 = 23

2.3786

144

2 =

2 2
0.7980
=
73 = 24

2.3786

3 =

3 3
0.8400
=
73 = 26

2.3786

Cuadro de clculos del tamao de muestra para investigar competencias bsicas de


Lenguaje en tres instituciones Educativas de Chiclayo
Institucin Educativa
(Estrato h)
Elvira Garca
Magdalena Sofa
San Jos
Total

N de
Estudiantes
Nh
148
152
150
450

Promedio en
Lenguaje
14.20
13.82
14.75

Desv. Estnd.
Lenguaje Sh
2.25
2.36
2.52

Ponderacin:
Wh
0.329
0.338
0.333
1.000

Wh. Sh
0.7406
0.7980
0.8400
2.3786

Wh.Sh^2
1.6675
1.8854
2.1168
5.6697

muestra del
estrato: nh
23
24
26
73

Calculo del tamao de muestra general para investigar competencias bsicas


de comprensin Matemticas:

( )2
(2.9521)2
=
= 103
2 0.06507944 + 8.7850
+
450

Tamao de muestra para los estratos (colegios):


1 =

1 1
1.0591
=
103 = 37

2.9521

2 =

2 2
0.8763
=
103 = 31

2.9521

3 =

3 3
1.0167
=
103 = 35

2.9521

Cuadro de clculos del tamao de muestra para investigar competencias bsicas de Matemticas
en tres instituciones Educativas de Chiclayo
Institucin
Educativa
(Estrato h)
Elvira Garca

N de
Desv. Estnd.
Estudiantes Promedio en Matemticas Ponderacin:
Nh
Matemticas
Sh
Wh
148
13.94
3.22
0.329

145

Wh. Sh
1.0591

Wh.Sh^2
3.4107

muestra del
estrato: nh
37

Magdalena Sofa
San Jos
Total

152
150
450

14.11
14.92

2.59
3.05

0.338
0.333
1.000

0.8763
1.0167
2.9521

2.2734
3.1008333
8.7850

31
35
103

Conclusin: Para la investigacin nos debemos quedar con este ltimo


tamao por ser el ms grande
Tamao general de muestra para estimar la proporcin poblacional
con asignacin de Neyman en el MAE.
Cuando el diseo de muestra es el Estratificado con asignacin de
Neyman (Este tipo de asignacin se utiliza cuando los costos de
muestreo es igual en cada uno de los estratos), el tamao general de
muestra se calcula con la siguiente frmula:
2

( )
=

+

Donde:
N = Tamao general de la Poblacin
n = Tamao general de muestra

Wh = Nh/N = Ponderacin del estrato h en la poblacin


V = (d/2 )2 = Varianza deseada al estimar la media poblacional
ph = Proporcin estimada en el estrato h.
qh = 1-ph

Tamao de la muestra en los estratos:

Ejemplo de diseo y muestra para estimar una proporcin con M.A.E.

146

Poblacin: La poblacin lo constituyen los 6120 estudiantes de la USAT matriculados en el


semestre acadmico 2011-I, clasificados segn carrera profesional.
Muestra: Se utilizar un muestreo estratificado para estimar la proporcin de estudiantes con
calidad de sueo Deficiente. Las unidades elementales o informantes son cada uno de los
estudiantes. Se elige un nivel de confianza de 0.95 y un nivel de precisin de 0.05
Clculo del tamao de muestra.
El tamao de muestra se calcula para estimar la proporcin de estudiantes con calidad de sueo
deficiente, mediante un muestreo estratificado con asignacin de Neyman, la cual asigna un
tamao de muestra a los estratos teniendo en cuenta el tamao del estrato y la dispersin interna
del estrato. Suponiendo que los costos de muestreo dentro de cada estrato es el mismo.
Estudiantes de la USAT matriculados en el semestre 2011-I

P = Proporcin de
estudiantes con
calidad de sueo
deficiente

N = 6120

Administracin
Admi
de empresas

N1 = 1141

Psicologa

Administracin
hotelera

N18 = 301

N2 = 291

d = 0.05
(1-)=0.95

n1 = 69

n18 = 30

n2 = 18

Tamao general de
muestra
n = 413
Tamao general de muestra:

n
Donde

(Wh ph qh ) 2
,
Wh ph qh

V
N

d
V Varianza deseada del estimador de la proporcin
z
Asumimos
Una confianza (1-) de 0.95, para el cual, el desvo normal es Z = 1.96
Una precisin (mximo error de muestreo tolerado) d 0.05

147

pst = Estimado
estratificado de P

Entonces la varianza deseada debe ser:


2

0.05
V
0.000651
1.96
Los clculos se muestran en la siguiente tabla, con lo cual, el tamao de muestra es:
n

(0.434192) 2
276
0.203828
0.000651
6120

La asignacin de Neyman del tamao de muestra a los estratos se hace con la frmula:
nh

Wh ph qh

ph qh

por razones de conseguir estabilidad para los estimadores por carrera profesional, se corrige el
tamao de muestra a un mnimo de 30, con lo cual se tiene una muestra corregida de 535
estudiantes, tal como se puede apreciar en el siguiente cuadro.
Cuadro N 2 Clculo del tamao de muestra estratificado con asignacin de Neyman para estudiantes
de la USAT matriculados en el semestre acadmico 2011-I.
Matriculados

ESTRATO (h)
(2011-I): Nh
Carrera profesional

N
Wh h
N

Proporcin de
estudiantes con
calidad de
sueo deficiente

qh 1 ph

Wh p h q h

Wh ph qh

nh

nh (corr )

ph
ADM. DE EMPRESAS
ADM. HOTELERA Y
DE SERVICIOS
CONTABILIDAD
ECONOMA
EDUCACIN (inicial,
Prim. y Secundaria.)
COMUNICACIN
DERECHO
ARQUITECTURA
ING. CIVIL Y AMB.
ING. DE SIST. Y
COMP.
ING. ENERGTICA
ING. INDUSTRIAL
ING. MECNICA
ELCTRICA
ING. NAVAL
ENFERMERA
MEDICINA
ODONTOLOGA
PSICOLOGA
TOTAL

1131

0.1848

0.3

0.5

0.071574

0.027721

45

45

289

0.0472

0.25

0.5

0.016696

0.005903

11

30

479
177

0.0783
0.0289

0.3
0.3

0.5
0.5

0.030313
0.011201

0.011740
0.004338

19
7

30
30

254

0.0415

0.25

0.5

0.014674

0.005188

30

220
703
234
320

0.0359
0.1149
0.0382
0.0523

0.4
0.4
0.4
0.4

0.5
0.5
0.5
0.5

0.016076
0.051371
0.017099
0.023384

0.007190
0.022974
0.007647
0.010458

10
33
11
15

30
33
30
30

398

0.0650

0.6

0.5

0.035620

0.019510

23

30

9
415

0.0015
0.0678

0.4
0.6

0.5
0.5

0.000658
0.037141

0.000294
0.020343

0
24

9
30

71

0.0116

0.6

0.5

0.006354

0.003480

30

28
589
296
207
300
6120

0.0046
0.0962
0.0484
0.0338
0.0490
1.0000

0.4
0.4
0.7
0.6
0.4

0.5
0.5
0.5
0.5
0.5

0.002046
0.043041
0.028614
0.018526
0.009804
0.434192

0.000915 1
0.019248 27
0.016928 18
0.010147 12
0.009804 6
0.203828 276

El estimador de la proporcin y su desviacin estndar, se obtendrn con las formulas


correspondientes a este diseo muestral. A continuacin se muestran dichas frmulas:

148

28
30
30
30
30
535

18

pst phWh ,
h1

4.1.2.

DE( pst )

18

W
h1

2
h

ph qh N h nh

nh N h 1

Muestreo por conglomerados (PC):

En este tipo de muestreo, la poblacin es dividida en M subpoblaciones


o conglomerados, de tamaos Nj cada uno de ellos. En la 1 etapa se
seleccionan m conglomerados, de los cuales se selecciona nj elementos
respectivamente, de modo tal, que en cada conglomerado, cada uno de
los elementos tengan la misma probabilidad de ser incluidos en la
muestra. Este proceso genera muestras representativas aun cuando la
variabilidad en cada conglomerado exceda el 33%.

Tamao de Muestra por conglomerados en dos etapas con


probabilidades proporcionales al tamao:
o Supongamos que se tiene una poblacin de N unidades de
anlisis divididas en M conglomerados de tamaos N1, N2, ... , NM
conocidos.
o Por ejemplo tenemos un censo actualizado de un sector de
salud que tiene 2 189 individuos distribuidos en 8 manzanas del
siguiente modo:

149

Manzana: 1
8
Tamao : 114
210

222

525

308

205

6
191

7
414

o Se seleccionar una muestra de exactamente n elementos en


dos etapas:
o Obtener m conglomerados o unidades de primera etapa (UPE)
de modo que a las mayores les correspondan mayores
probabilidades de seleccin y luego tomar exactamente
c
individuos en cada UPE ( n = m x c )
Por ejemplo; de una poblacin de 2189 viviendas agrupadas en 8
conglomerados, se desea seleccionar una muestra de por
conglomerados de n = 200 viviendas, agrupadas en m = 4
conglomerados cada uno de un tamao C = 50 viviendas.
N = 2189,

n = 200,

m = 4 y c = 50.

Pasos:
1. Crear una lista de las UPE (conglomerados) y obtener los tamaos
acumulados Di = N1 + N2 + ... + Ni a lo largo de la misma:

Marco muestral de Unidad Primaria Elemental (UPE)


UPE i

Tamao Ni

Tamao acumulado Di

114

114

222

336

525

861

308

1169

205

1374

191

1565

414

1979

210

2189

2 Calcular el intervalo de seleccin I.

En el ejemplo =

2189
4

= 547.25 547

150

N
m

3. Seleccionar un nmero aleatorio R entre 1 e I. En nuestro caso de 1


en 547. Supongamos que al seleccionar un nmero aleatorio se
obtiene R = 369

Se calculan los nmeros


Z1 =R,

Z2 =R+I,

Z3 = R+2I . Zm = R+(m-1)I

En nuestro caso estos m = 4 nmeros son: 369, 916, 1 463, 2 010


Asociar cada uno de estos nmeros con una UPE del modo siguiente:
se selecciona en cada caso la primera UPE cuyo tamao acumulado
supere o iguale al nmero en cuestin.
De este modo, 369 identifica a la manzana 3 ( pues C3 = 861 es el
primer valor que supera 369); 916 identifica a la UPE nmero 4 por
ser 1 169 el primer acumulado que lo supera; 1 463 a la manzana 6
y 2 010 a la ltima.
As en el ejemplo han quedado elegidos los conglomerados que
ocupan los lugares 3, 4, 6 y 8 del listado
UPE i
1
2
3
4
5
6
7
8

Tamao Ni
114
222
525
308
205
191
414
210

Tamao
acumulado Di
114
336
861
1169
1374
1565
1979
2189

Zi

369
916
1463
2016

Hacer una seleccin simple aleatoria de exactamente


individuos de cada UPE elegida en el paso anterior.

4.2.

Muestreos No Probabilsticos

151

c = 50

Si consideramos que no precisamos cifras exactas sobre la


representatividad estadstica de nuestros resultados, podramos
plantearnos el usar una muestra no aleatoria (o "no probabilstica"), lo
que significa que elegiremos a voluntad nuestra. Podemos considerar
que esto puede ayudarnos a obtener los elementos que necesitamos
estudiar directamente y, adems, actuar sin los tediosos procesos de
seleccin aleatoria y verificacin estadstica.
Sin embargo, hay una desventaja: corremos un gran riesgo de obtener
demasiado sesgo en la muestra. No seremos capaces siquiera de
advertir la presencia, y menos an la cantidad, de sesgo si hacemos
personalmente la seleccin de la muestra. Y la presencia de sesgo
puede hacer imposible generalizar nuestros resultados.
Un modo de reducir el sesgo hasta cierto punto es dejar a otra persona
o grupo la seleccin de los elementos.
Estas muestras son bastante tiles en aquellas situaciones en las cuales
no es posible utilizar un muestreo probabilstico, es decir cuando no es
posible disponer de un marco muestral para la seleccin de los
elementos de la muestra. Su utilizacin est reservada solo para
aquellos investigadores que conocen la estructura de la poblacin y
tienen un criterio suficientemente bueno para conseguir
representatividad; incluso si se dispone de un buen criterio para
conseguir representatividad es posible obtener mayor precisin a ms
bajos costos que con un muestreo probabilstico.
Entre los tipos comunes de muestras no aleatorias se incluyen,
Muestra de "casos tpicos" o los "mejores" casos es algo bastante
tradicional en la historia del arte: estudiar solamente los "grandes
maestros". La idea es que stos representan lo ms autntico de su
poca. Tal seleccin deliberada por parte del investigador tiene no
obstante riesgos serios, que se tratan en el punto De limitar el objeto de
estudio.
Muestra de conveniencia. Un grupo existente, por ejemplo la gente en
una reunin, podra ser designado como muestra. Este es un mtodo
fcil y barato, pero el sesgo suele ser imposible de estimar. El mtodo
es popular en las demostraciones de cursos sobre mtodos, pero
raramente usado en la investigacin profesional.
Muestra de voluntarios es creada cuando todos los miembros de la
poblacin tienen la oportunidad de participar en la muestra. Un ejemplo
es la respuesta voluntaria de los clientes que llega a una empresa;
igualmente, las respuestas que un investigador recibe a un anuncio en
un peridico pidiendo a la gente sus opiniones.
Una muestra de voluntarios suele ser una alternativa bastante sensata;
no obstante, el investigador debe considerar cuidadosamente los
riesgos de sesgo. Hay dos cuestiones que plantearse:
Es cierto que todos los miembros de la poblacin bajo muestreo tenan
las mismas oportunidades de ser incluidos en la muestra? Por definicin,

152

los voluntarios difieren de la media de la poblacin en su mayor actividad.


La cuestin crucial entonces se diferencian del resto de la poblacin
tambin en otros aspectos?.
Muestra bola de nieve. Cuando se entrevista a miembros de un grupo,
podemos pedir a las personas que nos indiquen otros individuos en ese
grupo que estn en la mejor posicin para dar informacin sobre ese
tema; podramos tambin pedirles que nos indicasen personas que
compartan sus puntos de vista y tambin otras que sean de opinin
opuesta. Entonces entrevistaremos a nuevos individuos y continuaremos
del mismo modo hasta que no obtengamos nuevos puntos de vista de
nuevos entrevistados. Este es un buen mtodo por ejemplo para recoger
los distintos puntos de vista existentes en un grupo, pero su
inconveniente es que no obtenemos una idea exacta de la distribucin
de las opiniones.
En el momento de disear una muestra no aleatoria, debemos siempre
tener en mente la poblacin. Es representativa la muestra? Son
vlidos los resultados en la poblacin?
Recordemos tambin que no tenemos que incluir elementos que no sean
miembros de la poblacin en nuestra muestra.
Por ejemplo, podramos decidirnos (de forma bastante sensata) por
investigar las preferencias de los clientes de electrodomsticos
entrevistando a vendedores. O podramos estudiar las historias de vida
de arrendatarios mediante un cuestionario a administradores de casas o
caseros. La idea es factible, ya que esta gente habitualmente conoce
mucho sobre el tema. Sin embargo, los "especialistas" no pueden ser
tomados como muestra de "no especialistas". Son dos poblaciones
diferentes. No debemos generalizar los resultados de "especialistas" a
ninguna otra poblacin que no sea la de "especialistas", cualquiera que
sea el campo del que tratemos.
En los ejemplos de arriba, podramos tal vez continuar transformando los
resultados a partir de los especialistas en hiptesis que ms tarde
verificaramos con una muestra apropiada de la poblacin "real" o de no
especialistas, que seran en los ejemplos citados, respectivamente, los
consumidores y los arrendatarios. En otras palabras, podramos usar la
entrevista de los especialistas slo como un estudio preliminar.
Tamao de Muestras no aleatorias
No hay frmula para determinar el tamao de una muestra no aleatoria.
Con frecuencia, especialmente en investigaciones cualitativas, podemos
simplemente ampliar gradualmente nuestra muestra y analizar los
resultados siempre que continen llegando nuevos casos con
informacin relevante o nueva; en cambio, cuando en los casos nuevos
ya no se presenta informacin nueva, podemos concluir que nuestra

153

muestra est saturada, y terminaremos el trabajo de muestreo. Este


mtodo es, sin embargo, muy vulnerable al muestreo sesgado, con lo
que tenemos que ser muy cuidadosos y asegurarnos que no omitimos a
ningn grupo de nuestra poblacin.
Antes de decidir el tamao de una muestra no aleatoria, tal vez debamos
leer cmo debe ser evaluada la representatividad de los resultados a
partir de una muestra no aleatoria. De otro modo podramos sufrir una
sorpresa bastante desagradable cuando estemos intentando,
demasiado tarde, definir la poblacin en que nuestros resultados puedan
ser declarados vlidos.
REFERENCIAS BIBLIOGRFICAS
1. Bautista, Nelly Patricia. (2011). Proceso de la Investigacin Cualitativa. Ed. El Manual
Moderno. Bogot.
2. Box, G., Hunter, W. G., y Hunter, J. S. (1989). Estadstica para investigadores. Barcelona:
Revert.
3. Glass, G.V. y Stanley, J.C. (1980). Mtodos estadsticos aplicados a las ciencias sociales.
Barcelona: Editorial Prentice/Hall Internacional.
4. Gutierrez, Hugo A. (2009). Estrategias de Muestreo. Diseo de encuestas y estimacin de
parmetros. Ed. Universidad santo Toms. Bogot.
5. Hair, Anderson, Tatham y Black. (1999). Anlisis Multivariante. Ed. Pearson Prentice Hall.
Espaa.
6. Hurtado S. Manuel,(2011). Estadstica para Ingeniera y Ciencias. Edit. UNPRG Lambayeque,
Per
7. Pea, D. (1987). Estadstica. Modelos y mtodos. 1. Fundamentos. Madrid: Alianza Editorial.
8. Prez, Csar (2000): Tcnicas de Muestreo Estadstico. Teora, prctica y aplicaciones
informticas. Ed. Alfaomega. Mxico.
9. Rodrguez Osuna, J. (1991). Mtodos de muestreo. Madrid: Centro de Investigaciones
Sociolgicas.
10. Sharon L. Lohr. (2000). Muestreo: Diseo y Anlisis. Ed. Thomson. Mxico.
11. Tejedor, F. J. (1988). El soporte estadstico en la investigacin educativa. En Dendaluce,

154

155

S-ar putea să vă placă și