Sunteți pe pagina 1din 313

LA

ESTADISTICA
DESCRIPTIVA
QUE TEMAS VEREMOS EN LO QUE RESPECTA A PRESENTAR Y

DESCRIBIR LA INFORMACION, ES DECIR UNIDAD 1


• Que es la Estadística.-
• Explicar que significa Estadística Descriptiva y Estadística
Inferencial.-
• Entender sobre la diferencia de una variable cualitativa y
cuantitativa.-
• Distinguir entre variable discreta y continua.-
• Diferenciar entre los niveles de medición.-
• Definir los términos mutuamente excluyentes y exhaustivo.-
• Presentar tablas y gráficos para variable categórica.-
• Presentar tablas y gráficos para variable numérica.-
• Organizar y analizar los datos en una distribución de frecuencia.
9.- Presentar una distribución de frecuencia en gráficos.-

10.- Análisis de los distintos gráficos de la distribución.-

11.- Desarrollar una representación de tallo y hoja.-

12.Presentar tablas y gráficos de dos variables categóricas.-


13.- Calcular las medidas de tendencia central.- Media aritmética.-
Mediana- Modo.- La media ponderada y la media geométrica.-

14.- Explicar las características, empleo, ventajas y desventajas de


cada medida de tendencia central.-

15.- Ubicación de cada medida de tendencia central en la


distribución.-

16.- Cálculo e interpretación de las medidas de dispersión o


variabilidad.-
17.- Explicar las características, usos, ventajas y desventajas de
cada medida de dispersión.-

18.- Entender el uso del desvío estándar en el Teorema de


Chebycheff y la Regla Empírica, su relación con un conjunto de
datos.-

19.- Calcular y explicar los cuartiles, percentiles y la variación


intercuartílica.-

20.- Elaborar e interpretar los diagramas de caja.-

21.- Calcular y entender sobre la aplicación del Coeficiente de


Variación.-

22.- Calcular y entender sobre el Coeficiente de Asimetría.-

23.- Para finalizar como llevamos todo esto a un Paquete Estadístico


de Computación.-
APLICACIONES
DE LA ESTADISTICA
EN EL ÁREA DE LA
ECONOMÍA, ADMINISTRACIÓN
Y LA EMPRESA
Con lo que vamos a ver en esta cátedra, observaremos
como las técnicas estadísticas pueden servir al
administrador, economista y empresario para obtener un
conocimiento amplio sobre su realidad económica y
social.- Es obvio que toda persona que se dedique al
mundo de los negocios (industria, empresa, comercio, etc)
necesita información sobre las características del
ambiente y medio en que realiza su actividad.- Cualquier
información, ya sea de tipo cualitativo o cuantitativo,
debidamente tratada, puede servir para el estudio de la
economía en general y para el conocimiento, desarrollo y
control de los principales subsistemas funcionales de la
empresa, entre los que podemos mencionar, recursos
humanos, marketing, producción, finanzas, etc.- Si
analizamos algunos de estos subsistemas es posible
encontrar ejemplos en los que la Estadística puede
constituir un auténtico elemento de ayuda.-
RECURSOS
HUMANOS

Para la selección del personal los


administradores, empresarios etc, suelen usar
cada vez con más frecuencia, además de los
juicios subjetivos obtenido en las entrevistas a
los candidatos, los resultados obtenidos en
tests de aptitudes y conocimientos deseables en
la persona a contratar.- Las técnicas
descriptivas son instrumentos adecuados para
el tratamiento de las puntuaciones numéricas
alcanzadas en dichos tests.-
MARQUETING
Los estudios de mercado
dirigidos al conocimiento de la demanda
de productos, productos competidores,
efectos de campañas publicitarias, etc, se llevan a cabo con
regularidad en la empresa y el comercio.- Antes de sacar un
producto al mercado se suele realizar una investigación al respecto
mediante muestreo con objeto de obtener alguna información.-Las
técnicas estadísticas permiten en estas situaciones inferir valores
de parámetros poblacionales a partir de información muestral.- Por
supuesto, a partir de una muestra no se puede conocer con
exactitud y precisión las características de toda la población;
siempre habrá un grado de incertidumbre sobre el verdadero valor
poblacional; la cual puede ser cuantificada en cierta medida en
términos de probabilidad.-
FINANZAS
El conocimiento de las fuentes de
financiación y los movimientos de
los tipos de interés son esenciales
para que un comercio, empresa decida si se somete a
algún tipo de endeudamiento en un momento dado.- Así,
las decisiones de inversión en nuevos productos,
locales, maquinarias, etc, vendrán condicionadas por los
precios esperados del dinero.- Para ello son de gran
utilidad las técnicas de predicción, que constituyen una
auténtica necesidad en el mundo de los negocios. En
toda empresa suele ser necesario el conocimiento del
volumen y precios de acciones, obligaciones, futuros y
productos derivados de los mercados de valores, tanto si
la empresa cotiza en Bolsa como si se posee una Cartera
de Valores.-
Cualquier inversor que haya de decidir como equilibrar
su Cartera de Valores debe hacer un análisis de
inversiones para seleccionar entre los distintos
productos financieros ofertados por el mercado de
valores, y ha de tomar sus decisiones cuando aún
desconoce los movimientos futuros del mercado,
aunque pueda tener alguna información al respecto.-
Las técnicas estadística pueden ayudar en dicha tarea e
incluso cuantificar el grado de incertidumbre de sus
operaciones.-
CONTABILIDAD.-
Las empresas de contaduría pública emplean
procedimientos estadístico de muestreo para llevar a cabo
auditorias a sus clientes.- Por ejemplo, suponga que una
empresa de Contadores desea determinar la cantidad que
aparece en las cuentas por cobrar en el balance de un
cliente, representa fielmente la cantidad real de ese rubro.-
Usualmente, la cantidad de cuentas individuales por
cobrar es tan grande que sería demasiado lento y costoso
revisar y validar cada cuenta.- En casos como éste,
regularmente se acostumbra que el personal del auditor
seleccione un subconjunto de las cuentas llamado
muestra.- Después de revisar la exactitud de las cuentas
muestreadas, los auditores llegan a una conclusión acerca
de si la cantidad que aparece en cuentas por cobrar, en los
estados financieros de su cliente, es aceptable.-
PRODUCCION
En el proceso de fabricación de
un producto Intervienen innumerables factores
( materias primas, maquinarias, obreros, etc) que afectan
a las características de calidad de ese producto.- En muchas
fábricas es corriente ver como los productos llegan a una cinta
transportadora en cuyo final hay una máquina de empaquetar que
los envía al almacén .- Entre la cinta transportadora y la máquina de
empaquetar hay un obrero que observa atentamente los productos
que llegan y ocasionalmente arroja algunos a un cesto cercano.-
Está eliminando productos defectuosos.- Hoy en día el control de
calidad de la producción es básico para que los artículos
producidos cumplan los requisitos de calidad establecidos por las
normas tantos nacionales como las internacionales.- los métodos
estadísticos son una herramienta eficaz en esta área para mejorar
los procesos de producción reducir sus defectos.-
Resulta evidente que cualquier profesional de la empresa, comercios,
administración o los negocios debe adquirir una formación básica en
estadística en su proceso de aprendizaje, que le permita moverse con
soltura en el mundo que le rodea.- Si su objetivo va más allá del
entendimiento y ha de tomar decisiones en un entorno de
fluctuaciones y riesgo, no bastará con entender la terminología
estadística.- Necesitará conocerla lo suficiente como para aplicarla y
hacer de ella una herramienta realmente eficaz en el ejercicio de su
actividad.- Considerando además, el desarrollo y uso generalizado que
la informática ha tenido en los último años- Lo que facilita actualmente
una gran disponibilidad tanto en lo que respecta a la capacidad de
almacenamiento como en la rapidez en el cálculo y procesamiento de
datos-, Podemos asegurar que con el empleo de las técnicas
estadísticas, las posibilidades de utilizar la información de una manera
adecuada y eficiente son casi infinita.-
ECONOMIA
Con frecuencia se pide a los Economistas su
pronósticos acerca del futuro de la economía o
de algunos de sus aspectos, por lo que recurren
a información estadística diversa para elaborarlo.- Así,
para pronosticar las tasas de inflación usan indicadores
como índices de precios del productor, la tasa de
desempleo y la ocupación de la capacidad de producción.-
Muchas veces, esos indicadores estadísticos se
introducen en modelos computarizados de pronósticos,
cuyo resultado son predicciones sobre las tasas de
inflación.-
LAS APLICACIONES
DE LA ESTADISTICA
COMO LAS
MOSTRADAS Y OTRAS,
SON PARTE DE LO
QUE VEREMOS EN
ESTA CATEDRA
DEFINICIÓN
DE ESTADISTICA
Es una palabra que encontramos frecuentemente en nuestro lenguaje
diario.- En realidad es una palabra que tiene tres acepciones
diferentes:

Primera Acepción

No es más que
una colección de
datos ordenados
(*) y clasificados
según un criterio
Segunda Acepción

Es la ciencia, que con ayuda del calculo de


(**) probabilidades estudia las leyes del
comportamiento de aquellos fenómenos
que dependen del azar.-
(*) En este sentido se la tomo en la antigüedad.-

Cuando las sociedades primitivas se organizaron y


superaron su ámbito local, se vieron en la necesidad de
tener que tomar decisiones que exigían un conocimiento
numérico de los recursos disponibles.- Esta necesidad
dio lugar a la utilización y desarrollo de las primeras
técnicas estadísticas basadas en un principio,
exclusivamente, en el recuento y presentación de datos.-
La Historia nos muestra que las primeras estadísticas
fueron realizadas con efectos recaudatorios en la mayoría
de los casos, por los gobernantes de las grandes
civilizaciones antiguas, para conseguir conocer el
número de bienes que poseía el Estado y como estaban
repartidos entre la población.-
La utilización de estas técnicas, en su comienzos,
exclusivamente por el Estado hace que esta propia
palabra sea la raíz del término Estadística.-
El primer dato que se dispone de la elaboración de una
estadística nos la proporciona Heródoto que señala como
en el año 3050 a de C, se efectuó un recuento de las
riquezas y de la población de Egipto, cuya finalidad era
conocer los recursos humanos y económicos disponibles
para construir las pirámides.-
En el año 2238 a de C, se realiza una estadística industrial
y comercial por el emperador Yao de China, según cita de
Chu King en el libro de Confucio.-
En el año 1400 a de C, Ramses II realizó un censo de las
tierras de Egipto a fin de efectuar un nuevo reparto.-
Moisés en el año 1400 a de C, según aparece en el
Pentateuco, y David en el 1018 a de C. según aparece en el
Libro de Los Reyes, realizaron sendos censos para conocer
que número de guerreros disponían las tribus de Israel.-
Los griegos realizaron diversos censos con fines
tributarios, reparto de tierras, así como disponibilidad de
recursos y guerreros para sus campañas.-
En época romana de contabilizaban, al menos, la realización
de 69 censos con diversos fines; tributarios, número de
hombres con derecho al voto, y posibilidades para la
realización de sus campañas militares.-
Desde la caída del imperio romano pasa prácticamente un
milenio sin que se conozca ninguna estadística importante,
salvo las recopilaciones realizadas por Pepino el Breve en
el año758 y por Carlomagno en el 762 sobre las tierras
propiedad de la Iglesia.-
Durante el siglo IX se realizaron en Francia recuentos
parciales de siervos.- Recuentos similares se realizaron
en Inglaterra que fueron recopilados por Guillermo el
Conquistador en 1086 y muy posteriormente en el siglo
XIV, por Eduardo II.-
Es con el nacimiento de las Naciones cuando la
Estadística va adquiriendo un rigor científico en las
técnicas de recogida y presentación de datos que van a
facilitar el análisis de las conclusiones y por tanto, la
toma de decisiones.- En 1540, Sebastián Munter, realizó
una recopilación estadística de los recursos nacionales
alemanes, en la que se incluía la organización política de
la nación alemana, así como sus instituciones sociales,
su comercio y su potencia militar.-
Estudios parecidos fueron realizados durante el siglo XVI
en Italia y Francia.-
La estadística demográfica tiene un gran auge durante el
siglo XVII.- La gran pregunta era saber si la población se
modificaba, aumentando o disminuyendo o si éste era un
parámetro estático.- Estos estudios dieron lugar a la
creación de los índices de natalidad y mortalidad.-
(**) Durante el siglo XVII y principios del XVIII, se
desarrolla la Teoría de las Probabilidades, teoría que
proporciona a la Estadística métodos de investigación que
la permiten alcanzar la categoría de ciencia.- El primer
tratado sobre esta teoría fue escrita por Bernoulli en el
que se dice que la regularidad que aparece en el orden
social se debe a la probabilidad más que al designo
sobrenatural.- Durante el siglo XVII son conocidos los
trabajos realizados por Pascal y Farmat, sobre problemas
de juegos de azar, que tuvieron sus antecedentes en
algunos matemáticos del siglo XV como, Paccioli,
Cardano, Tartaglia, Kepler y Galileo.-
En este período también aparecen los grandes
matemáticos con diversos métodos estadísticos.-
Quetelet (1796 – 1874) aplicó la teoría de las
probabilidades a las ciencias sociales, elaborando una
teoría determinista en las que las características de un
hombre quedaría determinadas por su entorno social, con
lo que se podría aplicar el principio de los promedios,
pudiéndose hablar de un hombre medio.-
A principio del siglo XIX, se desarrolla dos nuevas teorías
matemáticas de gran influencia en la teoría estadística que
son; la teoría de los errores de observación de laplace y
Gauss y la teoría de los mínimos cuadrados desarrollada
por los dos anteriores y Legendre.-
Es a finales del siglo XIX cuando Sir Francis Galton
desarrolla el método de la correlación, que tiene por
objeto medir la influencia relativa de los factores sobre
las variables.- De este modo partió el método de
correlación creado por Klar Pearson.-
Los progresos más recientes en el campo de la
estadística se refieren al cálculo de las probabilidades
basado en el principio de indeterminismo, que supone que
la uniformidad de la naturaleza debe considerase como
una serie de posibles resultados procedentes de cualquier
causa o causas dadas, más que de un único resultados
exacto y preciso en cada caso.-
Tercera Acepción

Es la ciencia que aporta las técnicas


o métodos que se sigue para recoger,
organizar, resumir, presentar, analizar,
interpretar, generalizar y contrastar
resultados de las observaciones de
los fenómenos reales para ayudar a
tomar decisiones más efectivas.-
Para pensar en términos estadísticos hay que seguir una
serie de pasos que van desde la definición del problema
hasta la toma de decisiones.-
Una vez identificado y definido el problema, se recogen
datos producidos mediante diversos procesos de
acuerdo con un diseño y se analizan utilizando uno o
mas métodos estadísticos.- De este análisis se obtiene
información.-
La información se convierte a su vez, en conocimiento,
utilizando los resultados de las experiencias especificas,
la teoría y la literatura y aplicando métodos estadísticos
adicionales.- Para convertir los datos en un conocimiento
que lleva a tomar mejores decisiones se utiliza tanto la
estadística descriptiva como la inferencial.-
TIPOS DE
ESTADISTICAS.-

Dependiente del propósito del


estudio, la estadística puede ser
Descriptiva o Deductiva e
Inferencial o Inductiva.-
La Estadística Descriptiva
comprende aquellos métodos gráficos y
numéricos usados para recopilar,
organizar y describir la información que
se ha recogido con el fin de describir
sus características.-

La Estadística Inferencial comprende


aquellos métodos y técnicas usadas
para hacer generalizaciones,
predicciones y estimaciones que se
utilizan para transformar la información
en conocimiento.-
Veamos un ejemplo de como actúa en parte la
estadística descriptiva:

Producción diaria de una fabrica de cereales.-


Un jefe de producción de cereales de Trigo formo un
equipo de empleados para estudiar el proceso de
producción de cereales.- Durante la primera fase del
estudio se peso una selección aleatoria de cajas y se
midió la densidad del producto.- A continuación, el jefe
quería estudiar datos relacionados con las pautas de
producción diaria.- Se hallaron los niveles de producción
(en miles) de un periodo de 10 días.- Represente estos
resultados gráficamente y comente sus observaciones:
Día 1 2 3 4 5 6 7 8 9 10
Cajas 84 81 85 82 85 84 109 110 60 63
(miles)
Scatterplot of CAJAS (MILES) vs DIA

110

100
CAJAS (MILES)

90

80

70

60

0 2 4 6 8 10
DIA

Solución
En la figura, el jefe de producción puede identificar los
días de baja producción, así como los días de mayor
producción.-
No parecería que hubiera mucha diferencia en el numero
de cajas producidas en los seis primeros días.-
Sin embargo, en los días 7 y 8 el nivel de
producción parecería que era mas alto.- En
cambio, en los días 9 y 10 parecería que era mas
bajo.-
Basándose en estas observaciones, el equipo
intento identificar las causas por las que la
productividad era mas alta y mas baja.-
Por ejemplo, tal vez en los días 9 y 10 estuvieron
ausentes trabajadores clave o hubieran cambiado
las materias primas.- También se podrían
identificar las causas por las que aumento la
productividad en los días 7 y 8.-
Respecto a la Estadística Inferencial, diremos:

La estadística inferencial es un proceso, no un mero


resultado numérico.- Este proceso puede consistir en una
estimación, una prueba de hipótesis, un análisis de
relaciones o una predicción.-
En primer lugar, podemos querer estimar un parámetro.-
Supongamos que Florería Sicar SRL, quiere desarrollar
una nueva estrategia de comercialización.- Podría ser útil
la información sobre los hábitos de gasto de los clientes
de la florería.- Puede querer:
• Estimar la edad media de los clientes de la florería.-
• Estimar la diferencia entre la cantidad media que los
clientes pagan con Tarjeta American Express y la
cantidad media que pagan con Visa.-
• Estimar la proporción de clientes que están insatisfecho
con el sistema de reparto de la florería.- Etc…….

En segundo lugar, podemos querer probar una


hipótesis sobre un parámetro.- Por ejemplo, la Florería
Sicar puede querer:
• Probar la hipótesis si los clientes tienen este año una
preferencia por el color de las rosas distintas a la del año
pasado.-
• Probar la hipótesis si menos del 25 por ciento de los
clientes de la florería son turistas.-
• Probar la hipótesis si las ventas son mayores los fines
de semana que el resto de los días de la semana.-
• Probar la hipótesis si la cantidad media que gastaron los
clientes es su ultima compra supero los 50$.-
Las respuestas a estas preguntas pueden ayudar a la
Florería Sicar SRL a lanzar una campaña publicitaria que
le permita reducir costos, incrementar beneficios y
aumentar la satisfacción de los clientes.-

En tercer lugar, podemos querer analizar las relaciones


entre dos o mas variables.- El director financiero de la
General Motors, quiere tomar decisiones estratégicas que
afectan a toda la compañía.- En esos casos, puede
utilizar series de datos macroeconómicos de los que
puede disponerse en diversas publicaciones, para
analizar las relaciones entre variables como el producto
bruto interno, tipo de interés, la renta per capita, la
inversión total y oferta monetaria, etc., que indican la
situación general de la economía nacional.- El director
financiero puede hacerse las siguientes preguntas:
• ¿Influye la tasa de crecimiento de la oferta monetaria en
la tasa de inflación?.-
• Si General Motors sube un 5 por ciento el precio de los
automóviles de tamaño intermedio, ¿Cómo afectara la
subida a las ventas de estos automóviles?.-
• Afecta la legislación sobre el salario mínimo de
desempleo?.-
• Etc..
¿Cómo se comienza a responder a la pregunta sobre el
efecto que puede producir una subida de los precios en la
demanda de automóviles?.- La teoría económica básica
nos dice que manteniéndose todo lo demás constante,
una subida del precio va acompañada de una reducción
de la cantidad demandada.- Sin embargo, esta teoría es
puramente cualitativa.-
No nos dice cuanto disminuye la cantidad demandada.-
Para avanzar mas, hay que recoger información sobre
como ha respondido la demanda a las variaciones del
precio en el pasado y evaluarla.- Estudiando estadística
inferencial aprenderemos a recoger información y a
analizar relaciones.-

En cuarto lugar, podemos necesitar predecir, es decir,


hacer predicciones confiables.- Las decisiones de
inversión deben hacerse mucho antes de que pueda
llevarse un nuevo producto al mercado y evidentemente,
es deseable tener predicciones de la situación en la que
se encontrara probablemente el mercado dentro de unos
años.- Cuando los productos están consolidados, las
predicciones sobre las ventas a corto plazo son
importantes para decidir los niveles de existencias y los
programas de producción.-
Las predicciones de los futuros tipos de interés son
importantes para una empresa que tiene que decidir si
emite o no nueva deuda.- Para formular una política
económica coherente, el gobierno necesita predicciones
de los resultados probables de variables como el
producto bruto interno.-
Las predicciones de los futuros valores dependen de las
regularidades descubiertas en la conducta anterior de
estas variables.- por lo tanto, se recogen datos sobre la
conducta anterior de la variable que va a predecir y sobre
la conducta de otra variable relacionadas con ella.-
Utilizaremos la estadística inferencial para analizar esta
información y sugerir entonces las tendencias futuras
probables.-
EJERCICIOS PARA HACER EN CLASE

1.- Suponga que usted asesora al dueño de un


Supermercado,
a)Ponga un ejemplo de una pregunta que podría
responderse utilizando la estadística
descriptiva.-
b) Ponga un ejemplo de una pregunta en la que
seria útil estimar un parámetro.-
c) Ponga un ejemplo de una pregunta sobre una
posible relación entre dos variables que tienen
interés para su Supermercado.-
d) Ponga un ejemplo de una cuestión en la que
hay que hacer una predicción.-
2.- Averigüe si debe utilizarse la estadística
descriptiva o la inferencial para obtener la
siguiente información:
a) Un grafico que muestra el numero de botellas
defectuosas producidas durante el turno de día
a lo largo de una semana.-
b) Un estimación del porcentaje de empleados
que llegan tarde a trabajar.-
c) Una indicación de la relación entre los años
de experiencia de los empleados y la escala
salarial..-
Definición 1: El conjunto de personas,
POBLACION animales o cosas que son objeto de
nuestro estudio.-
Definición 2: es la que esta formada por
la totalidad de las observaciones en las
cuales se tiene cierto interés.-

Elemento o Unidad Estadìstica:


Son las personas, animales o cosas
Se simboliza que forman la población.-
con N

Tamaño
Población finita: cuando el número de elementos que la forman es
numerable, se puede contar, por ejemplo el número de alumnos de la
universidad, cantidad de empleados de una fábrica, etc.-
Población infinita: cuando el número de elementos que la forman es
incontable o tan grande que puede considerarse infinito. Como por
ejemplo, si se realizara un estudio estadístico sobre los productos
que hay en el mercado, producción de un torno, etc.-
Ejemplos de poblaciones son:
• Todos los estudiantes de una universidad.-
• Todos los votantes incriptos en un paìs.-
•Todas las familias que viven en una ciudad.-
• Todas las acciones que se cotizan en una bolsa de
valores.-
•Todas las reclamaciones que recibe en un año una
compañía de seguros.-
•Todas las cuentas pendientes de cobro de un comercio.-
• Todas las boletas de ventas correspondientes a un año
de un comercio que hay que auditar.-
• Etc……
ELEMENTOS Los elementos de una población
poseen una serie de cualidades,
O UNIDAD
propiedades o rasgos comunes que se
denominan en estadística
ESTADISTICA CARACTERES.

Por ejemplo: si tenemos un estudio sobre personal


de la administración pública provincial, todos los
empleados poseen una serie de características:
Edad.
Estado civil.
Número de hijos.
Nivel de instrucción alcanzado.-
Antigüedad en el trabajo.
Tarea que realiza.-
Remuneración que recibe.-
Etc..............................
Los caracteres de los elemento de la población
pueden ser:

CARACTERES CUALITATIVOS, ATRIBUTOS O VARIABLES


CATEGÓRICAS, son aquellas que por su propia naturaleza no se
pueden medir y se describen mediante palabras. Son producto de
conteo.- Por ejemplo: el sexo, nacionalidad, raza, color de pelo, estado
de ánimo, tipo de trabajo, ………….. etc.-
Las variables categóricas tiene modalidades.-

CARACTERES CUANTITATIVOS O VARIABLES NUMÉRICAS


son aquellos que se pueden describir mediante número, es decir, que
son susceptibles de cuantificación o de medición. Por ejemplo:
puntajes de un test, edad, el peso, la altura, ingreso de una empresa,
salario de una persona, minutos de demora en recorrer una distancia,
tiempo en elaborar una determinada pieza de producción, etc.-
Dentro de los caracteres cuantitativos o variables
numéricas pueden encontrarse dos clases de variables;
variables discretas y variables continuas.

Una variable estadística es DISCRETA si toma un


número finito o infinito numerable de valores, o
dicho de otra forma, si entre dos valores
consecutivos puede tomar a lo sumo un número
finito de valores. Por ejemplo: cantidad de hijos,
cantidad de alumnos por grado, cantidad de
obreros de una fábrica, cantidad de errores de
ortografía en un dictado, cantidad de niños en
edad escolar por hogares, cantidad de pacientes
de un hospital, cantidad de productos producidos
por una máquina, etc...-
Una variable estadística es CONTINUA si
toma un número infinito de valores en un
intervalo, o dicho de otra manera si entre
dos valores consecutivos puede tomar
cualquier otro. Por ejemplo: peso de
alumnos, altura, producción de fábrica,
salarios de médicos de un hospital, montos
de ventas de un comercio, tiempo de
armado de una determinada pieza para
autos, metros de tela producidos por un
telar, etc.-
DEFINICION
OPERACIONAL

Todas las variables deben tener una definición


operacional, es decir, un significado universal
aceptado que sea claro para todos aquellos
que estén relacionados con el análisis.- La
falta de las definiciones operacionales genera
confusión.-
ESCALAS
DE
MEDICION

DE LA VARIABLE EN
ESTUDIO
Para el análisis de datos se debe estar
familiarizado con que existen cuatro escalas
numéricas de medida de las variables que
estamos estudiando.- Cuanto más alta sea la
jerarquía o posición que ocupe el tipo de datos en
estas medidas más información contendrán.-

NOMINAL DE INTERVALOS

ORDINAL

DE RAZON, COCIENTE O PROPORCION


Nominal o de clasificación
Estas escalas tienen ciertas
propiedades básicas:
La escalas nominales o de •Entre los objetos clasificados
clasificación consisten en existe una relación de
clasificar objetos reales según equivalencia o no equivalencia.-
cierta características, tipologías
o nombres, dándoles una •Si se utilizan números, estos
denominación o símbolo, sin que solo distinguen orden de
implique ninguna relación de posiciones de determinada
orden, distancia o proporción categoría o clase, pero en modo
entre esos objetos.- alguno establecen relación
numérica entre los objetos
numerados.-
•Los objetos están clasificados
u ordenados en relación a una
igualdad o equivalencia de un
aspecto o característica.-
Escala ordinal o de orden jerárquico

Las propiedades básicas de


Con esta escala se establecen esta escala son:
posiciones relativas de objetos o
individuos en relación a una •Entre los objetos ordenados
característica, sin que se reflejen existe la relación mayor,
distancias entre ellos.- Hay un menor o igual y las relaciones
sentido de mayor(>) menor (<).- lógicas de transitividad y
asimetría.-
•La ordenación implica
diferentes niveles de posición
de un atributo: la utilización de
números establece relaciones
entre los objetos, pero no
distancia entre los intervalos.-
Escala de intervalos o Podemos señalar las siguientes
de distancias iguales características esenciales de este tipo
de escala:
Representan un nivel de •Entre los objetos y ordenados existe
medición más preciso una relación de mayor, igual o menor.-
que las anteriores; no
solo se establece un •La escala se presenta bajo una forma
orden en las posiciones cuantitativa.-
relativas de los objetos o •La utilización de números indica
individuos sino que se relaciones entre los objetos y distancia
mide también la entre los intervalos, que cuando son
distancia entre los numéricamente iguales representan
intervalos o las distancias también iguales en el atributo
diferentes categorías.- medido: así por ejemplo la distancia
entre 10 y 20 es la misma que entre 82 y
92.-
•El punto cero de la escala es arbitrario
y convencional, por ello no indica
ausencia de lo que estamos midiendo.-
Escala de razones
La caracterizaremos del siguiente
o de cocientes
modo:
•Entre los objetos ordenados existe
Esta es una escala que
un orden jerárquico, igualdad de
además de distinción,
intervalos y por último igualdad de
orden y distancia, permite
razón, proporción.-
establecer en que
proporción es mayor una •Los número utilizados son
categoría de la escala que números reales.-
otra.- Tiene un cero
•La serie de números reales tienen
absoluto o natural que
un origen llamado cero que por ser
representa la nulidad de lo
natural es inalterable.-
que se estudia.-
•Si una persona gana 200$ y otra
gana 400$, decimos que la segunda
gana el doble que la primera.-
EJERCICIOS PARA HACER EN CLASE

1.- Indique si cada una de las siguientes variables es


categórica o numérica.- Si es categórica, indique el nivel
de medición.- Si es numérica si es discreta o continua.-

a) Numero de mensajes de correo electrónico enviados


diariamente por un planificador financiero.-
b) Costo efectivo de los libros de texto de un estudiante
para un cuatrimestre.-
c) Su factura mensual de electricidad.-
d) Las clasificación de profesores universitarios según
cargos.-
e) Tiempo en minutos que demora usted en llegar a la
universidad.-
f) Ventas diarias del comercio donde trabaja.-
2.- En una facultad universitaria se ha repartido un
cuestionario entre los estudiantes para averiguar su
grado de satisfacción con diversas actividades y
servicios.- Por ejemplo, por lo que se refiere al “método
de matriculación para las clases del próximo
cuatrimestre”, se pide a los estudiantes que pongan una
cruz en una de las siguientes casillas:
 muy satisfecho
 moderadamente satisfecho
 neutral
 moderadamente insatisfecho
 muy insatisfecho

¿Es la respuesta de un estudiante a esta pregunta,


numérica o categórica?.-
LA ESTADISTICA EN
LAS DECISIONES EN
EL MUNDO DE LOS
NEGOCIOS
Un aspecto de los negocios en donde la estadística
cumple una función muy especial es en la toma de
decisiones.- Cada año, las empresas del mundo
arriesgan miles de millones de dólares en decisiones
importantes relacionadas con la expansión de la planta
productiva, el desarrollo de productos nuevos, la
captación de personal, el control de la calidad, las
técnicas de producción, la selección de proveedores y
muchas más.- Estas decisiones, casi siempre contiene
un elemento de incertidumbre.- Los competidores, el
gobierno, la tecnología y el ambiente social y
económico, junto con clientes y electores a veces
caprichosos, constituyen factores incontrolables que,
en ocasiones, pueden frustrar los planes mejor
trazados.-
Antes de tomar decisiones, a menudo las empresas
recolectan información a través de una serie de pasos,
lo que se denomina, “proceso de investigación”.-
Entre estos pasos están:
1) Definir el problema en términos específicos de forma
que la investigación pueda dar resultados.-
2) Definir tipo de datos requeridos.-
3) Determinar de que forma se obtendrán los datos.-
4) Planificar la recolección de los datos y si es
necesario, la selección de una muestra.-
5) Recolectar y analizar los datos.-
6) Sacar conclusiones y elaborar un informe con los
resultados.-
7) Culminar con la toma de decisiones con base a los
resultados.-
Las investigaciones en los negocios y las encuestas,
sirven tanto a la estadística descriptiva como a la
inferencia estadística para mejorar las decisiones en
los negocios en diversas situaciones, incluyendo las
siguientes:

• Un fabricante de automóviles examina datos


relativos a los vehículos de los fabricantes
locales y encuentra que sus vehículos reciben
una evaluación superior a la de los productos
de los competidores.- Esta información puede
ser útil en la toma de decisiones relacionadas
con técnicas de producción y proveedores de
componentes.-
• Un fabricante de un colonia para hombres piensa
contratar a un atleta profesional para anunciar su
producto en la televisión nacional.- Antes de decidir el
pago de los cuantiosos honorarios del atleta, la
compañía realiza un estudio para determinar el grado
en que el público objetivo reconoce al deportista y
cree en él.-

• Antes de comenzar a negociar un nuevo contrato de


trabajo, los funcionarios de una empresa determinan
que los sueldos y las prestaciones de los empleados
ya son un 10% más altos que los que reciben los
empleados que realizan funciones similares con un
importante competidor.- Tales datos pueden ser útiles
para el resultado final cuando los representantes de la
compañía elijan el “punto de discusión” en su
posición negociadora.-
NECESIDAD DE
DATOS
Los datos pueden concebirse como información
numérica o no necesaria para ayudarnos a tomar
decisiones con fundamentos, en una situación
particular.-

Un DATO, es el registro (numérico o no)


que se obtiene como resultado de
observar cierta característica de interés
en un individuo (persona, animal, cosa o
entidad de naturaleza abstracta) que
constituye el objeto de estudio.-
Es en extremo importante empezar el
análisis estadístico con la identificación
de las fuentes de datos más adecuadas.-
Si los datos presentan sesgos,
ambigüedades u otro tipo de errores por
más que apliquemos las más sofisticadas
metodologías del análisis estadístico, las
conclusiones a que lleguemos estarán mal
o serán muy deficientes.-
Para el análisis estadístico, es importante
distinguir entre datos transversales y datos
longitudinales.-

Datos
longitudinales.
Datos Son los datos de
transversales. series de tiempo, se
Se reúnen al mismo coleccionan a lo
tiempo y bajo las largo de varios
mismas condiciones.- períodos de
tiempo.-
FUNDAMENTOS DE LA
INVESTIGACION
EN LOS
NEGOCIOS Y AFINES
Los estudios de investigación en el mundo de los
negocios se clasifican de acuerdo con su objetivo.-
Se pueden identificar cuatro tipos de estudios:

EXPLORATORIOS

DESCRIPTIVOS

CAUSALES
PREDICTIVOS
EXPLORATORIO
Una investigación exploratoria suele ser el paso inicial y
nos ayuda a familiarizarnos con la situación o el
problema, a identificar las variables importantes y a
utilizar estas últimas para plantear hipótesis que puedan
ponerse a prueba en una investigación posterior.-
La hipótesis es una afirmación acerca de una variable o
de la relación entre las variables; por ejemplo, la
producción aumentará si intercambiamos las
asignaciones de las líneas de los operadores A y B.- La
hipótesis quizá no sea cierta, pero es una afirmación que
puede ser examinada mediante la recolección de datos
de la muestra para un período de prueba durante el cual
los operadores hayan intercambiado las posiciones en
las líneas.-
La investigación exploratoria también puede ser de
naturaleza cualitativa.- Uno de tales métodos es la
entrevista al grupo objetivo, en la cual un moderador
conduce un pequeño grupo de análisis, sobre un tema
mientras el cliente observa y escucha sin que los
entrevistados sepan de su presencia.- Un fabricante de
computadoras, que se preguntaba porque los dueños de
negocios pequeños no compraban sus productos,
preparó una de tales sesiones.- Los directivos de la
empresa comprendieron muy pronto que los dueños de
los negocios pequeños no tenían tantos conocimientos
técnicos como habían supuesto la compañía y que no
compraban las computadoras porque no comprendían
como funcionaban o les atemorizaba no conocerlas.-
Este tipo de estudio lo esta aplicando muchas de las
grandes empresas en la actualidad.-
DESCRIPTIVOS.-
Como cabría esperar, una investigación descriptiva tiene
el propósito de describir algo.- Por ejemplo, el dueño de
un Supermercado importante , encontró que a la hora de
la siesta la afluencia de público era baja, solo un 15% de
la ocurrencia diaria y el 8% de los clientes eran gente de
bajos recursos, donde los canastos demostraban poco
gastos, por lo que debía analizar si convenía tenerlo
abierto o no.-
CAUSALES
En una investigación causal, el objetivo es determinar si
una variable afecta a otra.- Veamos un ejemplo, que se
publicó en una revista técnica norteamericana, la
Duquesne Light Company encontró que se dañaban
alrededor de 30% menos postes después de que en
Pensylvania entraron en vigor leyes más estrictas contra
los conductores ebrios.- De acuerdo con un vocero de la
empresa, “puede ser solo una coincidencia, pero antes,
teníamos un promedio de 1000 postes dañados.-
Después de este año, el promedio disminuyó a 700
postes.- Casi todos los accidentes relacionados con
postes de alumbrado ocurren entre la 1 y 4 de la mañana,
,más o menos la hora en que cierran los bares y las
personas vuelven a sus casas.-
Con respecto a los estudios causales, debe señalarse
que las técnicas estadísticas por si mismas no
demuestran una causalidad.- Debe realizarse una
comprobación con base en los resultados cuantitativos y
en la lógica.-
En el caso de los postes telefónicos del párrafo
anterior, parece obvio que la causa no fue en la dirección
inversa (es decir, que la reducción del daño de los
postes provoco leyes más severa contra los
conductores ebrios).- Sin embargo, debemos considerar
la posibilidad de que una o más variables pudieron haber
contribuido a la reducción en el daño a los postes, por
ejemplo, la empresa pudo haber iniciado un cableado
subterráneo al mismo tiempo que se promulgó la ley
más estricta.-
PREDICTIVOS
La investigación predictiva intenta pronosticar una
situación o valor que ocurrirá en el futuro.- Una variable
común para tales estudios es el nivel esperado de ventas
futuras.- Como cabría esperar, las predicciones no
siempre son exactas.- Por ejemplo, cierta empresa
predijo un aumento de ventas del 22% para el año
siguiente cuando en realidad fue del 17%.- Como
cualquier pronostico, siempre habrá un error entre la
cantidad pronosticada y la cantidad real.- No obstante,
para un buen modelo de predicción, la magnitud de ese
error debe ser más pequeña que si no utilizara el
modelo.-
Sobre este tema, veremos una Unidad completa.-
LOS DATOS SE PUEDEN OBTENER
POR DOS TIPOS DE FUENTES

SECUNDARIAS
PRIMARIAS
DATOS PRIMARIOS.-
Son aquellos que se encuentran en la forma original en
que fueron registrados (datos brutos), sin haber sufrido
ningún tipo de tratamiento o elaboración posterior.
Ejemplos: una encuesta, un censo.-

DATOS SECUNDARIOS.-
Son aquellos que fueron producidos (diseñados y
recopilados) por terceros con un fin ajeno al de la
investigación y que ya han sido sometidos a alguna
forma de elaboración posterior.- En consecuencia,
estos datos siempre se originan en terceras fuentes.-
Ejemplo; los datos que publican las oficinas de
estadísticas de organismos oficiales, de empresas, etc.-
FUENTES PRIMARIAS.-
Los datos los podemos obtener
mediante dos tipos de estudios
estadísticos:

1.-Experimentales
2.- Observacionales
ESTUDIO EXPERIMENTALES.-
En un estudio experimental, primero se
identifican las variables de interés.- Luego se
identifican o controlan una o más variables, de
modo que se pueda obtener datos de cómo
influyen en la variable de interés.- Por ejemplo,
una empresa farmacéutica.-

ESTUDIO OBSERVACIONALES O NO
EXPERIMENTAL.-
En este tipo de estudios no se trata de
controlarlas variables de interés, ni de influir
sobre ellas.- Quizá los tipo más común de
estudios observacionales sean:
a) Realización de un CENSO.
b) Conducción de una encuesta.-

Los estudios observacionales hoy se


presentan en formas muy variadas en
las empresas, principalmente en todo
lo referente a estudios grupales o la
importancia de los trabajos en equipo.-
Se hace hincapié en la Administración
de la Calidad Total.-
Los administradores, economistas, etc, que deseen
emplear datos y análisis estadístico como un apoyo para
la toma de decisiones deben considerar el tiempo y el
costo necesario para obtenerlos.-
Es preferible usar fuentes existentes cuando los datos se
deben recabar en un período relativamente corto.- Si no
se dispone de ellos fácilmente, es necesario tener en
cuenta el tiempo y el costo adicional para conseguirlos.-
En todo caso, quien toma la decisión debe pensar en la
contribución del análisis estadístico al proceso de toma
de decisiones.-
El costo de recopilar datos y su análisis estadístico
posterior no debe ser mayor que los ahorros generados al
usar la información para determinar la mejor opción.-
LA TOMA DE DECISIONES EN UN ENTORNO
INCIERTO

Las decisiones a menudo se basan en información


incompleta.- Por ejemplo, se supone que los estudiantes
universitarios de primer año, cuando son admitidos en la
universidad, seleccionan una carrera.- Asimismo, las
decisiones empresariales normalmente se toman en un
entorno en el que los responsables de tomarlas no
pueden estar seguros de la futura conducta de los
factores que acabaran afectando al resultado de las
distintas opciones consideradas.-
Cuando un fabricante presenta una oferta para hacerse
con un contrato, no esta totalmente seguro de cuales
serán los costos totales ni de que ofertas presentaran los
competidores.-
A pesar de esta incertidumbre, debe hacer una oferta.- Un
inversor no sabe con seguridad si los mercados
financieros estarán en alzas, estables o deprimidos.- No
obstante, debe elegir las acciones, los bonos y los
instrumentos del mercado de dinero de manera que su
cartera este equilibrada sin saber como evolucionara el
mercado en el futuro.-
Consideremos las siguientes afirmaciones:
• El precio de las acciones de IBM será mas alto dentro de
seis meses que ahora.-
• Si el déficit presupuestario publico es tan elevado como
se prevé, los tipos de interés se mantendrán altos el resto
del año,.
•La renta anual de un titulado universitario serà mayor
que la renta de una persona que no tenga titulo
universitario.-
Cada una de estas afirmaciones contiene un lenguaje que
sugiere la existencia de una cantidad espuria de certeza.-
En el momento en que se hicieron las afirmaciones, era
importante estar seguro de que eran ciertas.- Aunque un
analista crea que lo que ocurrirá en los próximos meses
será tal que se prevé que el precio de las acciones de IBM
subirá durante ese periodo, no estará seguro de eso.- Por
lo tanto, las afirmaciones deben modificarse como
indican los siguientes ejemplos:
• El precio de las acciones de IBM probablemente será
mas alto dentro de seis meses que ahora.-
• Si el déficit presupuestario publico es tan elevado como
se prevé, es probable que los tipos de interés se
mantengan altos durante el resto del año.-

• La renta anual de un titulado universitario
probablemente será mayor que la renta anual de una
persona sin estudios universitarios.-
Es muy importante pensar bien como se dicen las cosas.-
No es correcto sustituir las afirmaciones
injustificadamente precisas por afirmaciones
innecesariamente vagas.- Al fin y al cabo ¿Qué significa
probablemente ? o ¿es probable que?.- Debe ponerse
especial cuidado en expresar las ideas que se pretende
expresar, sobre todo cuando se trata de probabilidades o
cuando hay incertidumbre.-
PARA HACER EN CLASE

1.- Modificar las afirmaciones siguientes para que reflejen una posible
incertidumbre:

a) El mejor instrumento para mejorar la cuota de mercado de este


producto es una campaña publicitaria destinada al grupo de edad
18 a 24 años.-
b) Si se presenta una oferta de esta cuantía, será mas baja que las
del competidor y el contrato estará asegurado.-
c) El costo de la nafta Súper será mas alto en Argentina dentro de
dos meses.-

2.- Ponga un ejemplo de una decisión de comercialización que debe


tomarse en condiciones de incertidumbre.-

3.- Ponga un ejemplo de una decisión financiera que debe tomarse en


condiciones de incertidumbre.-
EL MUESTREO.-

Antes de introducir un nuevo producto en el mercado, su


fabricante quiere saber cual será el nivel probable de
demanda y es posible que realice una encuesta de
mercado.- Lo que le interesa, en realidad son todos los
compradores potenciales (la población).- Sin embargo,
las poblaciones a menudo son tan grandes que es difícil
analizarlas; seria imposible o prohibitivo recoger toda la
información de una población.- Incluso en las
circunstancias en las que parece que se dispone de
suficientes recursos, las limitaciones de tiempo obligan a
examinar un subconjunto de ella (muestra).-
Nuestro objetivo final es hacer afirmaciones basadas en
datos muestrales que tengan alguna validez sobre la
población en general.- Necesitamos, pues, una muestra
que sea representativa de la población.-
¿Como podemos lograrlo?.- Uno de los principios
importantes que debemos seguir en el proceso de la
muestra es la aleatoriedad.-
El muestreo aleatorio simple es un método que se
emplea para seleccionar una muestra de n objetos de una
población en el que cada miembro de la población se
elige estrictamente al azar, cada miembro de la población
se elige con la misma probabilidad y todas las muestras
posibles de un tamaño dado n, tienen la misma
probabilidad de ser seleccionadas.- Este método es tan
frecuente que generalmente se denomina muestra
aleatoria.-
El muestreo se utiliza mucho en todas las áreas de los
negocios, así como en otras disciplinas.- Para averiguar
si un proceso de producción esta funcionando
correctamente, se selecciona una muestra de bienes
producidos.-
Las auditorias de las cuentas pendientes de cobro
generalmente se basan en una muestra.- Durante los años
de elecciones presidenciales se hacen estimaciones de
las preferencias de los votantes a partir de muestras de
votantes, también puede hacerse una encuesta a la salida
de los colegios electorales para predecir que candidato
obtendrá mas votos.-
Sin embargo, tomar una muestra es meramente un medio
para llegar a un fin.- Necesitamos estudiar estadística, no
para hacer afirmaciones sobre la muestra sino, mas bien,
para extraer conclusiones sobre la población en general.-
La estadística es el estudio de cómo se toman decisiones
sobre una población cuando la información procede de
una muestra.- Siempre quedara alguna incertidumbre.-
Supongamos que queremos saber cual es la edad media
de los votantes de un país.- Es evidente que la población
es tan grande que solo podríamos tomar una muestra
aleatoria, por ejemplo, 500 votantes y calcular su edad
media.- Como esta media se basa en datos muestrales se
llama “estadístico” .- Si pudiéramos calcular la media de
toda la población, la media resultante se llamaría
“parámetro”.- Mas adelante veremos como se toman
decisiones sobre un parámetro, basándose en un
estadístico.-
Debemos darnos cuenta de que siempre habrá una cierta
incertidumbre, ya que no se conoce el valor exacto del
parámetro.-

DESPUES DE LO EXPRESADO
PODEMOS RESUMIR DICIENDO:
Muy frecuentemente es necesario seleccionar una muestra y en base
a ésta, extraer conclusiones respecto de la población.-

Una muestra estadística es un subconjunto de la


población.- Se la simboliza con n.-
N
x x
x x x x
x x
x x x
x x x x
x x
xxx x x x x
x x x
x x x x x x
x x x x x
x x x x x n
x x x x x
La selección de una muestra representativa es un
problema importante en la investigación estadística ya
que ésta puede proporcionar una visión útil de la
naturaleza de la población que se estudia, mientras que
una muestra no representativa puede sugerir
conclusiones totalmente erróneas sobre la población.-

El punto esencial en el muestreo es estar seguro de que


los elementos de la muestra representan a la población
tan fielmente como sea posible.- Por lo general, esta
tarea es más difícil de lo que parece.- Con frecuencia
debe dedicarse mucho tiempo y atención al proceso de
selección, ya que una vez medidos los elementos se
supondrá que la muestra es representativa de la
población.-
METODOS DE SELECCIÓN DE LA MUESTRA

Existen dos métodos básicos para seleccionar los


elementos de una población:

Si cada elemento de la población tiene la misma


posibilidad de ser elegido, esto constituye una
muestra aleatoria.-

Si algunos elementos de la población tienen mayores


posibilidades de selección que otros, esto constituye
una muestra no aleatoria.-

Estos dos métodos también se conocen con el nombre


de muestras probabilísticas y muestras no
probabilísticas.-
ESTADISTICO Y PARAMETRO.-

Un estadístico es cualquier característica numérica de una


muestra.-
Un parámetro es cualquier característica numérica de una
población.-

Por ejemplo, en un estudio realizado en 2007 por cierta Consultora


sobre la moda de compras en supermercados, una muestra de
respuestas dadas por los compradores reveló que el promedio de
consumo familiar de alimentos por semanas era de 280 pesos.- Ese
promedio es un ejemplo de estadístico.- Si por ejemplo del mismo
estudio se revelo que la permanencia de las personas en el recorrido
para sus compras tiene un promedio de 80 minutos, este también es
un ejemplo de estadístico.-
Si en cambio les preguntamos a todos los clientes del supermercado
la cantidad de viajes al supermercado por mes que realiza y este nos
da un promedio de 3 viajes, este valor es un ejemplo de parámetro, ya
que la consulta se hizo a toda la población.-
EJERCICIOS PARA HACER EN CLASE

1.- Ponga un ejemplo de un parámetro en cada una de las


siguientes poblaciones:

a) La rentas de todas las familias que viven en una


ciudad.-
b) Los rendimientos anuales de todas las acciones que
cotizan en una bolsa de valores.-
c) Los costos de todas las reclamaciones que recibe en
un año dado una compañía de seguros medicos.-
d) Los valores de todas las cuentas pendientes de cobro
de una empresa.-
2.- Su universidad ha encuestado a sus estudiantes para averiguar el
tiempo semanal medio que dedican a navegar por Internet.-
a) ¿Cuál es la población?.-
b) ¿Cuál es la muestra?.-
c) ¿Cual es el estadístico?.-
d) ¿Es el valor de 6,1 horas un parámetro o un estadístico?.-

3.- Una compañía aérea sostiene que menos de un 1 % de los vuelos


programados que despegan del aeropuerto de Ezeiza sale tarde.-
Se ha observado que el 1,5 por ciento de una muestra aleatoria de
200 vuelos salio mas tarde de la hora prevista.-
• ¿Cuál es la población?.-
• ¿Cuál es la muestra?.-
• ¿Cual es el estadístico?.-
• ¿Es el valor 1,5 por ciento un parámetro o un estadístico?.-
PRESENTACION DE DATOS
ESTADISTICOS

COMO HEMOS DICHO, AL


PLANTEARNOS UN ESTUDIO
ESTADISTICO Y OBTENER LOS
DATOS NECESARIOS, NOS
ENCONTRAMOS QUE PODEMOS
ESTUDIAR VARIABLES
CATEGÓRICAS Y/O
NUMÉRICAS
PRESENTACION DE
VARIABLE CATEGORICA
EN TABLAS Y GRAFICOS.-
NOS PREGUNTAMOS CUANTAS
VARIABLES MOSTRAMOS

1 var + 2 var 2 var


TABLA TABLA DE
SUPERTABLA
RESUMEN CONTINGENCIA

CUADRO
ESTADISTICO

PORCENTAJES
DEL TOTAL, DE FILAS
GRAFICOS Y DE COLUMNAS
PARTES DE UN CUADRO ESTADISTICO

TITULO
NOTA DE
CALCE

Encabezado
y
sub.-
encabezado
CUERPO
Columna
Matriz o
concepto
FUENTE

Nota al pie
1.-TITULO.- Se coloca siempre sobre el cuadro, ya que
leemos de arriba hacia abajo.- Si el titulo es muy largo,
se coloca en forma de pirámide truncada.-
Un titulo debe responder a cuatro preguntas básicas:
QUE?, que es lo que queremos mostrar.-
DONDE?, se refiere al lugar donde fueron obtenidos.-
COMO?, se refiere a como queremos mostrar los datos.-
CUANDO?, hace referencia cuando fueron obtenidos los
datos.-

2.-ENCABEZADO Y SUBENCABEZADOS.-
Son las denominaciones de las columnas y
responde al Como del titulo.- Una columna
puede tener subencabezados.-
3.-COLUMNA MATRIZ O CONCEPTO.- Son
las denominaciones de la filas.- Responde
también al Como del titulo.-

4.-CUERPO.- Son las diversas casillas donde


se colocan los datos.-

5.-FUENTE.- Nos indica la institución,


investigación o el texto de donde provienen los
datos.- Nos sirve para saber donde consultar, si
queremos más información o si deseamos
presentar alguna disconformidad o aclaración.-
Las cinco partes mencionadas nunca deben faltar al
elaborarse un cuadro estadístico.- Hay dos partes
restantes que pueden ir o no según el cuadro
estadístico que elaboremos.-

NOTA DE CALCE.- Se coloca entre el titulo y


el cuadro estadístico, hace referencia a como
debemos leer los datos del cuerpo del cuadro.-
Por ejemplo, (en %), (en miles), etc.-

NOTA AL PIE.- Hace referencia a como leer


algunos símbolos que pueden aparecer en el
cuerpo del cuadro, por ejemplo, (-) dato no
relevado, (*) dato estimado, etc.-
CUADRO RESUMEN. Ejemplo
Supongamos que se selecciono en la Universidad una muestra al
azar de 120 alumnos en Marzo 2008 y se les pregunto en que
carrera estaban inscriptos.- Resulto la siguiente tabla:

Matricula de la UNLAR según carreras.


Frecuencia
Marzo 2008
absoluta
CARRERA TOTAL
Contador 28
Psicopedagogía 11
Sistema 23
Medicina 19
Arquitectura 15
Abogacía 24
TOTAL 120
Fuente: Elaboración propia
Matricula de la UNLAR según carreras.
Marzo 2008
CARRERA TOTAL % del total
Contador 28 23,3
Psicopedagogía 11 9,2
Frecuencia
Sistema 23 19,2
Medicina 19 15,8 Relativa %

Arquitectura 15 12,5
Abogacía 24 20,0
TOTAL 120 100,0
Fuente: Elaboración propia
Matricula de la UNLAR según carreras.
Marzo 2008

Abogacía

Arquitectura
Medicina
Sistema

Psicopedagogía
Contador
0 5 10 15 20 25 30
Matricula de la UNLAR según carreras.
Marzo 2008

20% 23%

13% 9%

16% 19%

Contador Psicopedagogía Sistema


Medicina Arquitectura Abogacía
Supongamos que tenemos un cuadro resumen donde
mostramos datos para tres tiempos diferentes, por
ejemplo:

Total de alumnos matriculados en la UNC, en tres


especialidades de Administración de Empresa.- Años
2006, 2007 y 2008

Especialidad 2006 2007 2008


Finanzas 82 120 100
Marketing 114 135 156
Contabilidad 56 100 85
TOTAL 252 355 341
Fuente: UNC
Si queremos explicar el cuadro, podremos mostrar lo
siguiente:

Total de alumnos matriculados en la UNC, en tres


especialidades de Administración de Empresa.- Años
2006, 2007 y 2008

En %

Especialidad 2006 2007 2008


Finanzas 32,5 33,8 29,3
Marketing 45,2 38,1 45,7
Contabilidad 22,2 28,1 25,0
TOTAL 100,0 100,0 100,0
Fuente: UNC
Total de alumnos matriculados en la UNC, en tres
especialidades de Administración de Empresa.-
Años 2006, 2007 y 2008

100%
90%
80%
70%
60% Contabilidad
50% Marketing
40%
Finanzas
30%
20%
10%
0%
2006 2007 2008

Fuente: UNC
TABLA DE CONTINGENCIA.-
Supongamos que ahora a la muestra de estudiantes se observo el
sexo y se registro la información:

Carrera Sexo TOTAL


Varón Mujer
Contador 16 12 28 Frecuencias
Psicopedagogía 3 8 11 absolutas
Sistemas 13 10 23 conjuntas

Medicina 15 4 19
Arquitectura 5 10 15
Abogacía 17 7 24 Frecuencias
TOTAL 69 51 120 absolutas
marginales
Matricula de la UNLAR por carreras y sexo. Marzo 2008.-

Abogacía

Arquitectura

Medicina Mujeres
Sistemas Varones

Psicopedagogía

Contador

0 5 10 15 20
Analizamos una tabla de contingencia, según lo que queramos
explicar.-

Porcentajes según las carreras que cursan.-

CARRERAS SEXO TOTAL


Varón Mujer
Contador 57,0 43,0 100,0
Psicopedagogía 27,3 72,7 100,0
Sistemas 56,5 43,5 100,0
Medicina 78,9 21,1 100,0
Arquitectura 33,3 66,7 100,0
Abogacía 70,8 29,2 100,0
TOTAL 57,5 42,5 100,0
Porcentajes según el sexo del alumnado

CARRERAS SEXO TOTAL


Varón Mujer
Contador 23,4 23,5 23,3
Psicopedagogía 4,3 15,7 9,2
Sistemas 18,8 19,6 19,2
Medicina 21,7 7,8 15,8
Arquitectura 7,2 19,6 12,5
Abogacía 24,6 13,7 20,0
TOTAL 100,0 100,0 100,0
Porcentajes según el total general

CARRERAS SEXO
Varón Mujer
Contador 13,3 10,0
Psicopedagogía 2,5 6,7
Sistemas 10,8 8,3
Medicina 12,5 3,3
Arquitectura 4,2 8,3
Abogacía 14,2 5,8
EJERCICIO PARA HACER EN CLASE

Demanda de un producto por zonas

Un minorista de materiales de construcción ha estado


estudiando un plan para abrir sucursales en nuevos
lugares dentro de su programa de expansión regional.-
En una ciudad propuesta para la expansión hay tres
lugares posibles; norte, este y oeste.- El minorista sabe
por experiencia que los tres mayores centros de
beneficios de sus negocios son los de herramientas,
madera y pintura.- Para seleccionar un lugar, son
importantes las pautas de demanda de las diferentes
partes de la ciudad.- Ha pedido, pues, ayuda al
departamento de estudios de mercado para obtener y
analizar los datos relevantes.- Este minorista cree que
tiene una ventaja comparativa en la venta de
herramientas.-
a) Comente como haría el relevamiento de la información.- De
sugerencias.-
b) El Departamento de estudios de mercado selecciono una
muestra aleatoria de 750 hogares, con 250 en cada una de las
zonas.- Surge la siguiente tabla de contingencia (3 x 4) de las
variables “lugar residencial” y “producto comprado”.-
c) Analice toda esta información y comente como lo mostraría
gráficamente.-

Este Norte Oeste TOTAL


Herramienta 100 50 65 215
Madera 50 95 70 215
Pintura 50 45 75 170
Ninguno 50 60 40 150
TOTAL 250 250 250 750
Este Norte Oeste TOTAL
Herramienta 13,33% 6,67% 8,67% 29%
Madera 6,67% 12,67% 9,33% 29%
Pintura 6,67% 6,00% 10,00% 23%
Ninguno 6,67% 8,00% 5,33% 20%
TOTAL 33% 33% 33% 100%

14,0% 13,33%
12,67%

12,0%
10,00%
10,0% 9,33%
8,67%
8,00%
8,0% Este
6,67% 6,67% 6,67% 6,67%
6,00% Norte
6,0% 5,33% Oeste

4,0%

2,0%

0,0%
Herramienta Madera Pintura Ninguno
ALGUNOS TIPOS DE GRÁFICOS ESTADISTICOS

DE BARRAS DE SECTOR LINEALES PICTOGRAMAS

VERTICALES SIMPLES

HORIZONTALES DOBLES

COMPUESTAS

SUBDIVIDIDAS
Veamos algunos gráficos para interpretar en
clase.-

Pie Chart of Frecuencia vs Curso


Porcentaje
Category
Primer Primer año
3,2% Segundi año
Año 3,2% Tercer año
14,6%
Cuarto año
Segundo 28,0% Quinto año
Año 14,6% Recibidos

Tercer
Año 18,5%
Cuarto 18,5%
Año 12,7%
Quinto
Año 22,9%
22,9%
Recibidos 28% 12,7%

TOTAL 99,9%
NO USAR este tipo de Grafico
Chart of Curso
30

25

20
Percent

15

10

0
Cuarto año Primer año Quinto año Recibidos Segundi año Tercer año
Curso
Percent within all data.
“SI USAR” este tipo de Grafico
Recibidos 28%

Quinto Año 22,90%

Cuarto Año 12,70%

Tercer Año 18,50%

Segundo Año 14,60%

Primer Año 3,20%

0,00% 5,00% 10,00% 15,00% 20,00% 25,00% 30,00%


MONTO VENTAS
Enero 10500
Febrero 8300
Marzo 17500
Abril 15200
Mayo 13000
Junio 8000
Julio 10300
Agosto 12000
Septiembre 11000
Octubre 16000
Noviembre 15000
Diciembre 19000
Scatterplot of Montos de Ventas vs Meses
20000

18000
Montos de Ventas

16000

14000

12000

10000

8000

Enero Marzo Mayo Julio Septiembre Noviembre


Meses
Scatterplot of año 2006. año 2007 vs Meses
20000 Variable
año 2006
año 2007
18000

16000
Y-Data

14000

12000

10000

8000

Enero Marzo Mayo Julio Septiembre Noviembre


Meses
PRINCIPIOS DE
EXCELENCIA
GRAFICA
90
80
70
60
50
Este
40
Oeste
30
Norte
20
10
0
1er trim. 2do 3er trim.4to trim.
trim.
Hasta ahora hemos analizado como presentar un conjunto de
datos en forma de tablas y gráficos cuando las variables que se
observan son variables categóricas.- Entre los métodos para
describir y comunicar información estadística, las presentaciones
gráficas bien diseñadas por lo general son más sencillas y
poderosas.- Las buenas exposiciones gráficas revelan lo que
transmiten los datos.-
Para que el análisis mejore con la presentación visual de los datos,
es esencial que las tablas y los gráficos tengan una presentación
cuidadosa y clara.- Todo lo innecesario debe eliminarse para no
ocultar el mensaje que contienen los datos.-
El amplio uso de las hojas de cálculo y de software gráfico ha
llevado a una proliferación de gráficas en los últimos años.-
Aunque muchas de las gráficas presentadas sirven como
representaciones útiles de los datos, por desgracia la naturaleza
impropia e inadecuada de muchas presentaciones ha perjudicado
la comprensión y el análisis de las mismas.-
El profesor Edward R. Tufte, es quien escribió una serie de libros que
describen los métodos adecuados de diseños de gráficos
estadísticos.- El considera que las características básicas
esenciales de una representación gráfica adecuada
incluyen:

1.- Mostrar los datos.-


2.- Hacer que el observador se concentre en lo
sustancial de la gráfica y no en como se desarrollo.-
3.- Evitar distorsiones.-
4.- Facilitar la comparación de los datos.-
5.- Cumplir con un objetivo claro.-
6.- Que esté integrada con las descripciones
estadísticas y verbales de la gráfica.-
Tufte establece cinco principios de excelencia
gráfica que son:

1.- La excelencia gráfica es una presentación bien


diseñada de los datos que proporciona sustancia,
estadística y diseño.-
2.- La excelencia gráfica comunica ideas complejas con
claridad, precisión y eficiencia.-
3.- La excelencia gráfica proporciona al observador el
mayor número de ideas en el menor tiempo y con el
mínimo de tinta.-
4.- La excelencia gráfica casi siempre involucra varias
dimensiones.-
5.- La excelencia gráfica requiere decir la verdad acerca
de los datos.-
Una característica principal de la excelencia gráfica es la
importancia que tiene el evitar usar una gráfica para
distorsionar los datos que representa.-
Una gráfica no distorsiona si su presentación visual es
consistente con su representación numérica.- La cantidad
de distorsión puede medirse con el factor mentira.- El
factor mentira, es la razón del tamaño del efecto que
muestra la gráfica con respecto al tamaño de los efectos
que muestran los datos.-
Un principio incluido aquí es que cualquier variación en el
diseño de una gráfica debe ser consistente con las
variaciones que presentan los datos.- Con frecuencia, los
cambios en la gráfica no son consistentes con las
variaciones en los datos y se produce una distorsión entre
lo que representan los datos y lo que muestra la gráfica.-
Esto se da en general cuando usamos gráficas de
pictogramas.-
En resumen:
Somos consumidores activos de la información
que escuchamos o vemos cada día en los
distintos medios de comunicación.- Debido a
que mucho de lo que se escucha o se lee es
basura, necesitamos aprender a evaluar en
forma crítica y desechar lo que no tiene un
valor real.- También es imperativo tener en
cuenta que a veces la basura que se presenta
está fundamentada en la ignorancia; otra veces;
es planteada y maliciosa.- Lo importante es
analizar y dudar de la información
proporcionada.-
DIAGRAMA
DE
PARETO
Los directivos que necesitan identificar las principales
causas de los problemas e intentar corregirlas
rápidamente con un costo mínimo a menudo utilizan un
grafico de barras especial llamado “diagrama de Pareto
El economista italiano Vilfredo Pareto (1848-1923)
señalo que en la mayoría de los casos un pequeño
numero de factores es responsable de la mayoría de los
problemas.- Ordenamos las barras de un diagrama de
Pareto de izquierda a derecha para poner énfasis en las
causas mas frecuentes de los defectos.-

Un diagrama de Pareto es un grafico de barras de las


causas de los defectos.- La barra de la izquierda indica
la causa mas frecuente y las de la derecha indican las
causas con frecuencias decreciente.- Los diagramas de
Pareto se utilizan para separar lo “poco vital” de lo
“mucho trivial”.-
El resultado de Pareto se aplica a una amplia variedad
de conductas en muchos sistemas.- A veces se
denomina regla de 80-20, por ejemplo un fabricante de
cereales puede observar que la mayoría de los errores
de empaquetado se deben únicamente a unas cuantas
causas.- Un estudiante podría pensar que el 80 por
ciento del trabajo de un proyecto de grupo ha sido
realizado únicamente por el 20 por ciento de los
miembros del equipo.-
La utilización de Pareto también puede mejorar la
comunicación con los empleados o con la dirección y
dentro de los equipos de producción.-

Veamos el uso de Pareto aplicado a un problema


de una compañía de seguros médicos.-
Errores de tramitación de las reclamaciones a un seguro.-

El análisis y pago de las reclamaciones a un seguro es


un complejo proceso que puede llevar a tramitar
incorrectamente algunas reclamaciones.- Estos errores
provocan un aumento del tiempo que dedica el personal
a obtener información correcta y posiblemente a pagar
indemnizaciones indebidas.- El beneficiario
normalmente detecta los errores cuando cobra una
indemnización menor a la debida y a menudo puede
pasar por alto indemnizaciones superiores a las
debidas.- Estos errores pueden incrementar
considerablemente los costos, además de afectar
negativamente a las relaciones con los clientes.- Se
realizan considerables esfuerzos para analizar la
actividad de presentación y de tramitación de las
reclamaciones con el fin de poder desarrollar métodos
para reducir lo mas posibles los errores.-
Una importante compañía de seguros médicos se fijo el
objetivo de reducir un 50 por ciento los errores.-
Muestre como utilizaría el análisis de Pareto para ayudar
a averiguar los factores importantes que contribuyen a
eliminar los errores.-
Solución

La compañía de seguros médicos realizo una intensa


investigación de todo el proceso de presentación de
reclamaciones y pago de indemnizaciones.- Se
selecciono un equipo de personas clave de los
departamentos encargados de tramitar reclamaciones,
de relaciones con los proveedores y de marketing, de
auditoria interna, de procesamiento de datos y de
revisiones medicas.-
Basándose en su experiencia y en una revisión del
proceso, los miembros del equipo llegaron finalmente a
un acuerdo sobre una lista de posibles errores.- tres de
ellos (códigos de procesamiento y diagnostico,
información de los proveedores e información de los
pacientes) están relacionados con el proceso de
presentación de reclamaciones y deben comprobarse
revisando los historiales médicos de los pacientes en
las clínicas y los hospitales.- Tres posibles errores
(tablas de precios, solicitudes de contratos y ajuste de
los proveedores) están relacionados con la tramitación
de las reclamaciones de indemnización dentro de la
oficina en la compañía de seguros.- Los errores de los
programas y de los sistemas están incluidos en la
categoría “Otros”.-
Se puso en marcha una auditoria completa de una
muestra aleatoria de 120 reclamaciones contrastando
cada reclamación con los historiales médicos de las
clínicas y los hospitales hasta llegar a la fase final del
pago de la indemnización.- Se separaron las
reclamaciones que contenían errores y se anoto el
numero de errores de cada tipo.- Si una reclamación
tenia múltiples errores, se anotaron todas.- En este
proceso se tomaron muchas decisiones sobre la
definición de error.-
Si se había dado a un niño un tratamiento que se daba
normalmente a los adultos y el sistema informático de
procesamiento no lo detecto, este error debía registrase
como un error 7 (errores de los programas y de los
sistemas) y también como un error 3 (información de los
pacientes).-
Si el tratamiento de un esguince estaba codificado como
una fractura, debía registrarse un error 1 (código de
procedimiento y diagnostico).- A continuación se
elaboro una tabla de distribución de frecuencia de las
categorías y el numero de errores cometidos en cada
categoría:

Categorías Tipos de errores Frecuencia


1 Código de procedimiento y 40
diagnostico
2 Información del proveedor 9
3 Información del paciente 6
4 Tabla de precios 17
5 Solicitudes de contratos 37
6 Ajuste de los proveedores 7
7 Otros 4
Vemos en la figura anterior, que cuando se van
sumando los porcentajes de defectos correspondientes a
los tipos de error (de izquierda a derecha), el ascenso de
la línea de frecuencias acumuladas indica la mejora
relativa que se obtendría corrigiendo cada uno de los
problemas mas frecuentes.-
En el diagrama de Pareto, los analistas vieron que el
error 1 (código de procedimiento y diagnostico) y el error
5 (solicitudes de contratos) eran las principales causas
de errores.- La combinación de los errores 1, 5 y 4 (tablas
de precios) provocaba casi un 80 por ciento de los
errores.- Examinando el diagrama de Pareto de la figura
anterior, los analistas pueden averiguar rápidamente a
que causas debe dedicarse la mayor parte de los
esfuerzos para corregir los problemas.- El análisis de
Pareto separo las “pocas causas vitales” de las “muchas
triviales”.-
Con esta información, el equipo hizo una serie
de recomendaciones para reducir los errores
y controlar el proceso.-
1)Se harían sesiones especiales de formación
para los encargados de tramitar las
reclamaciones de los hospitales y clínicas.-
2) Se harían auditorias aleatorias por sorpresa
para verificar los errores de codificación.-
3) Se evaluaría la posibilidad de imponer
sanciones monetarias a las organizaciones
que cometieran excesivos errores.-
4) Dos personas prepararían cada una por
separado el conjunto completo de tablas de
solicitud de contrato.- A continuación, se
compararían todas las entradas de las tablas
utilizando un programa informático y se
resolverían las diferencias que hubiera.-
5) Se prepararía unos modelos tipo de
reclamación que se utilizarían para verificar las
solicitudes correctas de contrato.-

El diagrama de Pareto, y las recomendaciones ayudaron


a reducir los errores.- Se redujeron los casos en los que
se pagaban indemnizaciones de mas, así como la
burocracia necesaria para corregir los errores.-
VEAMOS OTRO
EJEMPLO
DE USO DEL
DIAGRAMA DE
PARETO
Usted es el Analista de Sistemas encargado de mantener la Base de Datos
de una empresa que fabrica heladeras, ante la gran cantidad de quejas, le
comenta al Gerente que le pida a los Ingenieros que deben analizar cuales
son los defectos más frecuentes que aparecen en las unidades al salir de la
línea de producción.- Para esto, empezaron por clasificar todos los defectos
posibles en sus diversos tipos:

TIPOS DE DEFECTOS DETALLE DEL PROBLEMA


Motor no detiene No para el motor cuando alcanza temperatura
No enfría El motor arranca pero la heladera no enfria
Burlete defectuoso Burlete roto o deforme que no ajusta
Pintura defectuosa Defectos de pintura en superficie externa
Rayas Rayas en las superficies externas
No funciona Al enchufar no arranca el motor
Puerta no cierra La puerta no cierra correctamente
Gavetas defectuosa Gavetas interiores con rajaduras
Motor no arranca El motor no arranca después de ciclo de parada
Mala nivelación La heladera se balancea y no se puede nivelar
Puerta defectuosa Puerta del refrigerador no cierra herméticamente
Otros Otros defectos no incluidos en los anteriores
Posteriormente un inspector revisa cada heladera que sale de
producción registrando sus defectos de acuerdo con dichos tipos, .-
Después de inspeccionar 88 heladeras se obtuvo una tabla como
esta:

TIPO DE DEFECTO DETALLE DEL PROBLEMA Frec.


Burlete defectuoso Burlete roto o deforme que no ajusta 9
Pintura defectuosa Defectos de pintura en superficie exterior 5
Gavetas defectuosas Gavetas interiores con rajaduras 1
Mal Nivelación La heladera se balancea y no se puede cerrar 1
Motor no arranca El motor no arranca después de ciclos de paradas 1
Motor no se detiene No para el motor cuando alcanza temperatura 36
No enfría El motor arranca pero la heladera no enfría 27
No funciona Al enchufar no arranca el motor 2
Otros Otros defectos no incluidos en los anteriores 0
Puerta defectuosa Puerta del refrigerador no cierra herméticamente 0
Puerta no cierra La puerta no cierra correctamente 2
Rayas Rayas en la superficie externas 4
TOTAL 88
La última columna muestra el número de heladeras que presentaban
cada tipo de defectos, es decir, la frecuencia con que se presenta
cada defectos.- En lugar de la frecuencia numérica utilizar la
frecuencia porcentual, es decir, el % de heladeras en cada tipo de
defectos:
TIPO DE DEFECTO DETALLE DEL PROBLEMA Frec. Frec.%
Burlete defectuoso Burlete roto o deforme que no ajusta 9 10,2
Pintura defectuosa Defectos de pintura en superficie exterior 5 5,7
Gavetas defectuosas Gavetas interiores con rajaduras 1 1,1
Mal Nivelación La heladera se balancea y no se puede cerrar 1 1,1
Motor no arranca El motor no arranca después de ciclos de paradas 1 1,1
Motor no se detiene No para el motor cuando alcanza temperatura 36 40,9
No enfría El motor arranca pero la heladera no enfría 27 30,7
No funciona Al enchufar no arranca el motor 2 2,3
Otros Otros defectos no incluidos en los anteriores 0 0,0
Puerta defectuosa Puerta del refrigerador no cierra herméticamente 0 0,0
Puerta no cierra La puerta no cierra correctamente 2 2,3
Rayas Rayas en la superficie externas 4 4,5
TOTAL 88 100,0
Pero, ¿Cuáles son los defectos que aparecen con mayor
frecuencia?.- Para hacerlo más evidente, antes de graficar podemos
ordenar los datos de la tabla en orden decreciente de frecuencia:

TIPO DE DEFECTO DETALLE DEL PROBLEMA Frec. Frec.%


Motor no se detiene No para el motor cuando alcanza temperatura 36 40,9
No enfría El motor arranca pero la heladera no enfría 27 30,7
Burlete defectuoso Burlete roto o deforme que no ajusta 9 10,2
Pintura defectuosa Defectos de pintura en superficie exterior 5 5,7
Rayas Rayas en la superficie externas 4 4,5
No funciona Al enchufar no arranca el motor 2 2,3
Puerta no cierra La puerta no cierra correctamente 2 2,3
Gavetas defectuosas Gavetas interiores con rajaduras 1 1,1
Mal Nivelación La heladera se balancea y no se puede cerrar 1 1,1
Motor no arranca El motor no arranca después de ciclos de paradas 1 1,1
Otros Otros defectos no incluidos en los anteriores 0 0,0
Puerta defectuosa Puerta del refrigerador no cierra herméticamente 0 0,0
TOTAL 88 100,0
Pareto Chart of TIPO DE DEFECTO
90 100
80
70 80
60

Percent
60
Count

50
40
40
30
20 20
10
0 0
TIPO DE DEFECTO ne ía so sa a s na ra er
f r o o r
e tie en tu tu R ay cio cie O
th
d c c n
se No e fe e fe
o
fu no
o d d N rta
n te r a e
tor ur le intu Pu
o B P
M
Count 36 27 9 5 4 2 2 3
Percent 40,9 30,7 10,2 5,7 4,5 2,3 2,3 3,4
Cum % 40,9 71,6 81,8 87,5 92,0 94,3 96,6 100,0
Vemos que la categoría “otros” siempre debe ir al final,
sin importar su valor.- De esta manera, si hubiese
tenido un valor más alto, igual debería haberse ubicado
en la última fila.-
Ahora resulta evidente cuales son los tipos de defectos
más frecuentes.- Podemos observar que los tres
primeros tipos de defectos se presentan en el 82% de
las heladeras, aproximadamente.-

Por el principio de Pareto, concluimos que: La


mayor parte de los defectos encontrados en el
lote pertenece a solo tres tipos de defectos, de
manera que si se eliminan las causas que los
provocan desaparecería la mayor parte de los
defectos.-
GRAFICOS PARA
DESCRIBIR
DATOS DE
SERIES TEMPORALES
Supongamos que tomamos una muestra aleatoria de 100
cajas de una nueva variedad de galletitas.- Si recogemos
nuestra muestra en un momento del tiempo y
ponderamos cada caja, las mediciones obtenidas se
conocen como vimos, con el nombre de datos
transversales.- Sin embargo, podríamos recoger y medir
una muestra aleatoria de 5 cajas cada 15 minutos o de 10
cajas cada 20 minutos.- Los datos medidos en sucesivos
momentos de tiempo se denominan con sabemos, datos
de series temporales.-
El estudio de Series de Tiempos, esta fuera del alcance de
esta cátedra, por lo tanto solo veremos los gráficos de las
series temporales.-
Un grafico de series temporales representa una serie de
datos en varios intervalos de tiempo.- Midiendo el tiempo
en el eje de abscisa y la cantidad numérica que interesa
en el eje de la ordenada, se obtiene un punto en el grafico
por cada observación.- Uniendo los puntos contiguos en
el tiempo por medio de líneas rectas se obtiene un grafico
de series temporales.-

La tecnología del siglo XXI permite acceder rápidamente a


datos que pueden ayudar a tomar decisiones y muchos
de estos datos son de series temporales.-
El comercio electrónico es importante para todos
nosotros.- Se puede comprar casi todo; boletos de avión,
automóviles, electrónica. libros, flores, acciones,
comestibles, etc.-
Los minoristas del país notifican a las autoridades
cuanto negocio hacen en línea y esta información se
utiliza en los informes oficiales mensuales sobre la
situación de la economía.- Estos datos se recogen a
intervalos sucesivos de tiempo.-
Numerosas empresas analizan y venden encuestas y
datos estadísticos por Internet.- Para desarrollar planes
de marketing, muchas empresas necesitan las
características demográficas de los compradores por
Internet, así como del resto de los compradores.- Muchas
veces las observaciones se miden a sucesivos intervalos
de tiempo (anual, mensual, semanal, por día, por horas,
etc).- Las universidades estudian la evolución de las
cifras de matriculados para comprender mejor sus
tendencias.- Un Contador estudia la evolución de las
ventas diarias de un comercio que asesora, etc.-
Un medico controla semanalmente o mensualmente los
análisis de sangre de pacientes con cierta patología.-
Para describir gráficamente todos estos ejemplos, se
utiliza un grafico de series temporales.-

Veamos dos ejemplos de gráficos de series


temporales.-

El rector de una pequeña universidad privada


solicito datos sobre el numero de estudiantes de
primer año y sobre el numero de estudiantes
procedentes de otras universidades que entraron
en la universidad entre 1995 y 2005.-
Los datos fueron:
AÑO 1º Año Otras Univ.
1995 460 145
1996 475 165
1997 485 150
1998 460 150
1999 486 162
2000 478 147
2001 557 190
2002 545 160
2003 560 140
2004 588 185
2005 575 200
Time Series Plot of First Y ear. Transfers
600 Variable
F irst Year
Transfers

500

400
Data

300

200

100
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
Year

Solución
En la figura de arriba, podemos ver que el numero de
matriculados de primer año ha aumentado desde 2000 y
que el máximo que alcanzo el numero de estudiantes
procedentes de otras universidades en 2001 fue seguido
de un continuo descenso.- El personal de administración
debe averiguar cuales son los factores que explican
ambas tendencias.-
La tabla siguiente muestra las ventas trimestrales
realizadas por una empresa durante un periodo de 6 años,
desde el 2001 al 2006.- Describa gráficamente los datos:

AÑOS TRIMESTRE
1 2 3 4
2001 271 199 240 255
2002 341 246 245 275
2003 351 283 353 292
2004 401 282 306 291
2005 370 242 281 274
2006 356 245 304 279
Venta trimestrales de la empresa en 6 años

450

400

350
Venta en miles

300

250

200

150
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
2001 2002 2003 2004 2005 2006
Años y trimestres
La figura anterior es un grafico de serie
temporales de los 24 intervalos de tiempo.-
Observamos que las ventas del primer trimestre
van seguidas sistemáticamente de una
disminución de las ventas en el segundo.- Tal vez
la estación del año sea una explicación.- En el
estudio de Series de Tiempo se ven modelos para
ajustar los datos de las series temporales con el
fin de tener en cuenta la estacionalidad, las
tendencias, la conducta cíclica o algún otro
componente irregular.-
Si solo nos interesa comparar las ventas del primer trimestre con las
del segundo, puede hacerse un grafico de series temporales como el
de la figura siguiente:
GRAFICOS PARA
DESCRIBIR
RELACIONES ENTRE
DOS VARIABLES
NUMERICAS
En todos los temas anteriores nos hemos
ocupado de mostrar gráficamente una única
variable.- Estas imágenes nos han ayudado a
entender y analizar mejor la información que
contenía un gran volumen de datos.- En este
apartado ampliamos las medidas graficas para
describir las relaciones entre dos variables
numéricas.- Aquí elaboramos lo que llamamos
los diagramas de dispersión, algunos autores los
llaman diagrama de puntos dispersos.-
Los analistas empresariales y economistas a
menudo se refieren a relaciones entre variables
numéricas.-
Por ejemplo, ¿Cuánto varia la cantidad vendida
cuando varia el precio?, ¿obtienen mejores
clasificaciones medias en la universidad los
alumnos que tienen mejores notas en los
exámenes de ingreso?, ¿aumenta la publicidad
las ventas?, ¿Cómo influye en las ventas los
ingresos total de las familias de la región?.....etc.-
En estos ejemplos, observamos que una variable
puede depender de alguna medida de la otra
variable, es decir que tenemos pares de valores
que llamamos X e Y.- Por ejemplo, los montos de
ventas puede depender de cuanto se haya
gastado en publicidad.- En este caso llamamos a
la variable Y dependiente y a la X independiente.-
El diagrama de dispersión, es una imagen que muestra a
menudo la relación entre las dos variables.-
Podemos trazar un diagrama de dispersión, localizando
un punto por cada par de dos variables que
representan una observación del conjunto de datos.-
Nos muestra:
a) El rango de cada variable.-
b) La pauta de valores existentes dentro del rango.-
c) Una sugerencia sobre la posible relación entre las dos
variables.-
d) Una indicación de los casos atípicos (puntos muy
extremos).-
Veamos un ejemplo:
Notas de los exámenes de admisión en las
universidades en los EEUU y las calificaciones
media de los estudios universitarios.-
¿Son las notas obtenidas en la prueba de
matemáticas del SAT para acceder a la
universidad un buen indicador de éxito en la
universidad?.- En los EEUU, todos los
estudiantes realizan uno o mas test de aptitud
para ingresar en una universidad.- El personal de
admisiones de las universidades utilizan los
resultados para admitir o no a los estudiantes.-
En la tabla siguiente se muestra las notas
obtenidas en la prueba de admisión por una
muestra aleatoria de 11 estudiantes de una
pequeña universidad del oeste, y la calificación
media obtenida al terminar los estudios
universitarios.- Trace un diagrama de dispersión
y comente que información le suministra.- Los
datos fueron:

Nota de matemáticas en el SAT.-

450 480 500 520 560 580 590 600 620 650 700

Calificación media en los estudios universitarios.-


3,25 2,60 2,88 2,85 3,30 3,10 3,35 3,20 3,50 3,59 3,95
Scatterplot of Calificacion media vs Notas en matematicas
4,00

3,75
Calificacion media

3,50

3,25

3,00

2,75

2,50
450 500 550 600 650 700
Notas en matematicas
Hemos utilizado un programa Minitab, para hacer el
diagrama, hoy todos los paquetes tienen este grafico,
incluso Excel.-
Observamos que las calificaciones medias van desde
alrededor de 2,5 hasta 4 y las notas de matemáticas van
desde 450 hasta 700.- Una interesante pauta es la
tendencia ascendente positiva; las calificaciones medias
tienden a aumentar directamente con los aumentos de las
notas obtenida en la prueba de matemáticas.- Observe
también que la relación no suministra una predicción
exacta.- Algunos estudiantes que obtienen una baja nota
en la prueba de matemáticas tiene una calificación media
mas alta que los estudiantes que obtienen una nota
mejor en la prueba de matemáticas.- Vemos que la pauta
básica indica que las notas mas altas obtenidas en los
exámenes de admisión predicen mayores calificaciones
medias pero los resultados no son perfectos.-
EJERCICIO PARA HACER EN CLASE.-

Una empresa de bienes de consumo ha estado


estudiando la influencia de la publicidad en los
beneficios totales.- Se han recogido como parte
del estudio datos sobre los gastos publicitarios
(en miles) y las ventas totales (en miles) de un
periodo de 10 meses y son los siguientes:

Gastos 10 15 7 12 14 18 14 9 15 13 16 17

Ventas 100 200 80 120 150 270 160 120 220 170 240 200

Muestre esta información en un diagrama de dispersión y comente.-


PRESENTACION DE
VARIABLE NUMERICA EN
TABLAS Y GRAFICOS
Hemos dicho que cuando la variable en estudio es numérica
debemos distinguir entre variable discreta y continua.-
Además debemos tener en cuenta que en este caso vamos a
estudiar una sola variable numérica por vez, es decir
distribuciones unidimensionales.-

Otra cosa que debemos tener en claro es que según la cantidad de


datos que forman nuestra población o muestra según con lo que
hayamos decidido trabajar, a estos los podemos tratar como:

a) Datos sin agrupar


(pocos)
b1) Sin intervalos
(discreta)
b) Datos agrupados
(muchos)
b2) Con intervalos
(continua)
a) DATOS SIN AGRUPAR.-

Vamos a verlo mediante un ejemplo.- Supongamos que el Gerente


de un Supermercado esta interesado en saber que cantidad de
gente entra a el durante la siesta (13 a 16 horas).- Tomamos una
muestra de 80 días y contamos la gente que entró en ese horario
al Supermercado.- Resultaron los siguientes valores:

4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Podemos ordenarlos en forma creciente y algo podemos decir:

2 2 2 3 3 3 3 3 3 3
3 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 5 5 5 5
5 5 5 5 5 5 5 5 5 5
5 5 5 5 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 7 7 7 7
7 7 7 7 7 8 8 8 8 8

¿Qué comentario puede hacer el alumnos?


Un gráfico que se suele hacer cuando los datos no
son muchos es el “gráfico de puntos” o Dotplot.-

Gráfica de puntos de C1

2 3 4 5 6 7 8
C1
b1) Datos
agrupados sin
intervalos.-
Variable discreta.-
Vamos a verlo mediante un ejemplo.- Supongamos que
el Gerente de un Supermercado esta interesado en
saber que cantidad de gente entra a el durante la siesta
(13 a 16 horas).- Tomamos una muestra de 80 días y
contamos la gente que entró en ese horario al
Supermercado.- Resultaron los siguientes valores:

4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Xi = cantidad de personas que entraron en ese horario.-
Xi variable discreta.-
Agrupamos en una tabla que llamamos DISTRIBUCIÓN DE
FRECUENCIA.-

Xi Conteo fi hi Fi Hi Fi%
2 III 3 0,0375 3 0.0375 3,75
3 IIIIIIII 8 0,1000 11 0.1375 13.75
4 IIIIIIIIIIIIIII 15 0,1875 26 0.3250 32,50
5 IIIIIIIIIIIIIIIIII 18 0,2250 44 0.5500 55,00
6 IIIIIIIIIIIIIIIIIIIIII 22 0,2750 66 0.8250 82,50
7 IIIIIIIII 9 0,1125 75 0.9375 93,75
8 IIIII 5 0,0625 80 1.0000 100,0
TOTAL --------- 80 1,0000 ------ --------- -------------

En el analizamos toda la cuarta fila.-


Xi = es la variable en estudio, me indica cantidad de personas, 5.-
fi = hay 18 días que entraron 5 personas.-
hi = el 22,5 % de los días entraron 5 personas.-
Fi = hay 44 días que entraron entre 2 y 5 personas.-
Fi = el 55,0% de los días entraron entre 2 y 5 personas.-

Si decidimos mostrar gráficamente esta distribución será por


medio de un GRAFICO DE BASTONES.-

Días
25
20
15
10
5
0 1 2 3 4 5 6 7 8 Cantidad personas
b2) Datos
agrupados con
intervalos.-
Variable continua.-
Para agrupar los datos en una distribución de
frecuencia con intervalos, debemos pensar varias
cosas, como cuantos intervalos vamos a hacer, que
amplitud usamos, etc.- Se recomienda no usar menos
de 5 ni más de 15 intervalos.- Cuando agrupamos los
datos en intervalos, perdemos la individualidad del
dato.-

a) Sacamos la cantidad de Intervalos ( I ) haciendo:

k
2 ≥ n
Donde k nos indica la cantidad de intervalos a realizar.-
b) Amplitud a utilizar:
Rx = rango o recorrido de la variable.
Rx =Xi máximo --- Xi mínimo
Ci = amplitud Ci = Rx / I

Debemos ahora determinar con que valor de variable


empezamos los intervalos, para ello definimos el
siguiente criterio:
Li ≤ Xi < Ls
Tomamos el dato donde es límite inferior.-
Veamos esto con un ejemplo.- Supongamos tener las
ventas (en $ por 100) de cierto comercio.- Se observo una
muestra de 30 días.- Estas fueron:

61 88 70 76 66 79 64 75 78 76

80 61 75 79 76 60 74 68 76 78

70 65 52 78 72 76 58 86 94 78

I = 5
Rx = 94 - 52 = 42
Ci = 42 / 5 = 8,4 ≈ 9
La distribución de frecuencia será:

Li - Ls Conteo fi hi Fi Hi Fi %

52 61 III 3 0,100 3 0.1000 10,0

61 70 IIIIII 6 0,200 9 0.3000 30,0

70 79 IIIIIIIIIIIII 15 0,500 24 0.8000 80,0


II
79 88 IIII 4 0,133 28 0.9300 93,0

88 97 II 2 0,067 30 1.0000 100,0

TOTAL ---------- 30 1,000 ---- --------- -----------


fi = 15 Significa que durante 15 días vendió entre 70 y
79 pesos.-
hi = 0,500 .- El 50% de los días vendió entre 70 y 79
pesos.-
Fi = 24 días vendió entre 52 y 79 pesos.-
Fi % = 80.0 %.- El 80% de los días vendió entre 52 y 79
pesos.-
Representación gráfica de una
distribución de frecuencia con intervalos

POLIGONO DE OJIVA O GRAFICO


HISTOGRAMA
FRECUENCIA DE Fi %
Comentarios sobre los
gráficos de una
distribución de
frecuencia con
intervalos.-
HISTOGRAMA

Es un gráfico de barras verticales adyacentes y


me muestra la forma en que se distribuyen los
datos que estamos estudiando.- Todas las
barras tienen el mismo ancho y se diferencia en
la altura que corresponde a cada frecuencia
absoluta o frecuencia relativa del intervalo.- El
histograma nos muestra como están repartidos
los datos.- Por ejemplo si estamos analizando
ventas de un comercio y nos encontramos con
Histogramas de las siguientes formas:
Histogram of X1
20

15
Frequency

10

0
-4 -2 0 2 4 6 8 10
X1
Histogram of X3
18

16

14

12
Frequency

10

0
0 10 20 30 40
X3
Histogram of HSPct
30

25

20
Frequency

15

10

0
30 40 50 60 70 80 90 100
HSPct
POLIGONO DE
FRECUENCIA

Es un gráfico lineal.- Los puntos medios


de los intervalos representa los datos de
ese intervalo.- Me cuenta lo mismo que el
histograma, como se distribuyen mis
datos.- Es apropiado cuando se quieren
comparar distribuciones, ya que pueden
encimarse dos polígonos con distintas
tramas.-
OJIVA O GRAFICO DE
FRECUENCIA ACUMULADA

Con este gráfico podemos calcular


alguna medidas descriptivas, además,
podemos decir que porcentaje de
observaciones son menores a cierto
valor de variable.-
Veamos estos tres
gráficos en el ejemplo
que venimos viendo sobre
las ventas de un
comercio.
HISTOGRAMA

V entas del comercio

16
frecuencia absoluta
12

0
43 52 61 70 79 88 97 106
Montos de ventas
POLIGONO DE FRECUENCIA CON EL HISTOGRAMA

V entas del comercio

16
frecuencia absoluta

12

0
43 52 61 70 79 88 97 106
Montos de ventas
POLIGONO DE FRECUENCIA SIN EL HISTOGRAMA

V entas del comercio

16
frecuencia absoluta

12

0
43 52 61 70 79 88 97 106
Montos de ventas
OJIVA O GRÁFICO DE FRECUENCIA ACUMULADA

Ventas del comercio

32
frec. abs. acumulada

24

16

0
43 52 61 70 79 88 97 106
Montos de ventas
ANALISIS
EXPLORATORIO
DE DATOS.-
Las técnicas del análisis exploratorio de datos consisten
en operaciones aritméticas sencillas y gráficas fáciles de
trazar, que pueden emplearse para resumir con rapidez los
datos.-
Una técnica de explorar los datos que son objeto de
nuestro estudio y que hoy trae casi todos los paquetes
estadísticos de computación es el llamado DIAGRAMA
DE TALLO Y HOJA.- La importancia de este diagrama es
que no perdemos el dato original, cosa que nos sucede
con las distribución de frecuencia con intervalos.-
El diagrama es una herramienta valiosa y versátil para
organizar un conjunto de datos y entender la distribución y
agrupación de los valores dentro del intervalo de
observaciones en el conjunto.- Generalmente el primer
dígito forma el tallo y el resto las hojas.- Veamos un
ejemplo sencillo.-
Suponga que las calificaciones en un parcial de ESTADÍSTICA de
40 alumnos fueron las siguientes:

42 46 87 34 81
2 1 9
64 87 69 75 73 3 4 7
91 70 86 67 49 4 2 6 7 9
55 74 81 75 37 5 5 7 9
21 69 29 59 69 6 9 4 0 9 5 7 9 8 6 8
60 81 77 47 68 7 5 7 3 4 0 4 5
74 65 87 97 57 8 7 1 7 1 2 6 7 1
68 66 90 82 94
9 7 1 0 4
MEDIDAS
DESCRIPTIVAS
QUE RESUMEN
A LOS DATOS
Hasta este punto, hemos analizado la
presentación de datos categóricos y
numéricos en forma tabular y gráfica.-
Aunque la presentación de datos es una
componente esencial de la estadística
descriptiva, la tarea no termina ahí.- Dentro
del manejo de la información numérica, un
buen análisis de los datos no se limita a la
presentación de datos y la observación de
lo que estos tratan de transmitir, también
abarca los cálculos y el resumen de las
características importante y el análisis de
lo que contienen.-
LAS MEDIDAS DESCRIPTIVAS ESTADISTICAS QUE
CARACTERIZAN A UNA MUESTRA O A UNA POBLACION SON:

MEDIDAS
DE MEDIDAS DE
TENDENCIA ORDEN
CENTRAL

MEDIDAS DE
MEDIDAS DE FORMA
DISPERSION O DE
VARIABILIDAD
MEDIDAS DE TENDENCIA CENTRAL.-

MEDIA
ARITMETICA MEDIANA
X Me

MEDIA
PONDERADA MODO
Xp Mo

MEDIA MEDIA
GEOMETRICA ARMONICA
XG XA
MEDIDAS DE ORDEN

PERCENTILES
CUARTILES
PR %
QR

RANGO DEL
PERCENTIL
RP (xi)
MEDIDAS DE DISPERSION O DE VARIABILIDAD

RANGO O
RECORRIDO
VARIANCIA
RX
S²X

RANGO
INTERCUARTILICO

COEFICIENTE
DESVIO DE
ESTANDAR VARIACION
SX CVX
MEDIDAS DE FORMA

ASIMETRIA
AS
CURTOSIS
CR
MEDIA ARITMETICA , también llamada Media:

Es el promedio y es la medida de tendencia central que


se utiliza con mayor frecuencia.- Se calcula con la suma
de todas las observaciones en un conjunto de datos,
dividida entre el número de elementos involucrados.- Si
estamos trabajando con una muestra aleatoria de la
población en estudio estamos calculando un
ESTADISTICO, que será:

∑ xi
x =
n

Si estamos trabajando con la población y nos piden la


media, calculamos un PARAMETRO, por ejemplo:
Si tenemos un Comercio con seis empleados, cuyos sueldos
mensuales son 1800, 1760, 1780, 2100, 1980, 2350 y queremos
observar el sueldo promedio será:

∑ xi 1800 + 1760 + 1780 + 2100 + 1980 + 2350


μ= = = 1961,7 $
N 6

El sueldo mensual promedio de los empleados es de 1962 $.-

a) Media aritmética para datos sin agrupar.


Cuando es muy pequeño el número de elementos de la serie u
observaciones recogidas, puede hacerse innecesario la
agrupación de los datos por frecuencia e intervalos.
Por ejemplo: Se tienen los montos de ventas de un comercio
durante 14 meses seleccionados al azar- Los datos resultantes
fueron: (por 100 $)

87- 99- 160- 180- 135- 145- 105- 138- 153- 129- 119- 99- 165- 172
Observamos que, la media aritmética será:

∑ xi 1886
x = ---------- = ----------- = 134,71  135 $.-
n 14

Significa que el promedio de ventas en los 14 meses fue de 135


pesos.-

b) Media aritmética para datos agrupados sin y


con intervalos.-

La fórmula es la misma.- La diferencia va estar dada en el valor de la


variable xi.- En la distribución sin intervalos esta será los valores
originales de la variable, en cambio en datos agrupados con
intervalos, los valores de la variable serán los puntos medios de los
intervalos.-
∑ xi * fi
x =
n
Veamos un ejemplo.-
Supongamos que tenemos los tiempos en minutos que demora un
Contador Bancario en auditar una muestra de 50 créditos
solicitados- Presentamos los datos ordenados en una distribución de
frecuencia,
Li Ls fi xi xi * fi
20 22 3 21 63
∑ XI * fi
X = =
22 24 5 23 115
n
24 26 12 25 300
1324
26 28 17 27 459
= = 26,48
28 30 8 29 232
50
30 32 5 31 155
 26 minutos
TOTAL 50 - 1324

El promedio que demora el Contador en auditar un Crédito es de 26


minutos.-
MEDIANA.-
Se la simboliza con Me .-
La mediana me divide mis observaciones en dos partes iguales.-
La mediana es aquel valor de la variable que un 50% de los datos
es igual a ella o menor.-

Nº IMPAR DE DATOS
a) PARA DATOS
SIN AGRUPAR
Nº PAR DE DATOS

Lo primero que debemos hacer es


ordenar los datos en forma
crecientes.-
a1) Nº IMPAR DE DATOS.-
Supongamos tener los tiempos que un empleado durante 15 días
tiene que esperar el ómnibus para llegar al trabajo.- Estos son:
8 8 9 9 9 10 10 10 11 12 13 15 17 18 20

Mº = (n + 1) / 2 = 16 / 2 = 8ª posición
Me = 10 minutos
a2) Nº PAR DE DATOS.-
En el ejemplo anterior supongamos tener datos durante 14 días.-
8 9 9 10 10 11 12 13 13 15 17 18 18 20

Mº = (n + 1) / 2 = 15 / 2 = 7,5 ª posición
12 + 13
Me = = 12,5 minutos
2
b1) MEDIANA PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos tener la cantidad de accidentes automovilísticos por
mes en cierta localidad.- Se registraron datos correspondientes a 60
meses.-
xi fi Fi Fi% Buscamos la menor Fi % que
0 10 10 16,7 me contiene al 50 %.-
1 12 22 36,7 Observamos ahora que valor
2 16 38 63,3 de variable le corresponde:
3 8 46 76,7
4 7 53 88,3
Me = 2 accidentes
5 5 58 96,7
6 2 60 100,0
Total 60 ----- -----
b2) MEDIANA PARA DATOS AGRUPADOS EN INTERVALOS.-

Supongamos tener las notas de un parcial del Estadística de una


muestra de 50 alumnos.- Los datos agrupados en una tabla de
frecuencia con intervalo fueron:
n 
Li Ls fi Fi Fi %   Fi - 1 
 
Me Li  2 * ci
36 44 2 2 4,0  f i 
 
44 52 12 14 28,0
25 - 14
52 60 15 29 58,0
Me = 52 + ---------------- * 8 =
60 68 18 47 94,0
15
68 76 3 50 100,0 Me = 57,87 ≈ 58 puntos.-
Total 50 ----- ------
MODO
Se lo simboliza con Mo.- Es el valor de la variable que más veces
se repite.-
Es la única medida descriptiva que podemos calcular en una
variable cuya medición esta en escala nominal.-

MODO PARA DATOS SIN AGRUPAR


Por ejemplo si tenemos los montos de ingresos quincenales de
un grupo de empleados de una empresa,

850 – 875 – 856 – 882 – 875 – 880 – 896 – 810 – 875 – 942 - 975
Observamos el valor de variable que más veces se da:
M o = 875 $
MODO PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos que en el relevamiento de 50 empleados de una
empresa, se les pregunto la cantidad de niños en edad escolar
que tienen.- Resulto la siguiente tabla:

xi fi

2 5 Observamos la mayor frecuencia


absoluta.- El valor de variable que le
3 12 corresponde es el modo.-

4 18

5 9 Mo = 4 niños en edad escolar

6 6

TOTAL 50
MODO PARA DATOS AGRUPADOS CON INTERVALOS.-
Supongamos que tenemos una muestra de 72 notas de un parcial
de Estadística que se les tomo a un curso integrado por 200
alumnos.- Estas fueron las siguientes:

Li Ls fi  d1 
   *c
36 46 4 Mo Li    i
 d1 d 2 
46 56 9
d1 = fi - fi-1 = 23 - 18 = 5
56 66 18
d2 = fi - fi+1 = 23 - 11 = 12
66 76 23
5
76 86 11
Mo = 66 + ---------------- * 10 =
86 96 7 5 + 12
TOTAL 72 = 68,94 ≈ 69 puntos.-
USO DE LAS
DISTINTAS MEDIDAS
DE TENDENCIA CENTRAL
Cuando se tiene datos de escalas intervalares o proporcionales, en
general se utiliza la media porque, es una medida que atiende en
forma exhaustiva toda la información disponible: los valores, las
distancias y proporcionalidad entre ellos y la frecuencia de cada
uno.

Hemos visto que el modo solo atiende a las frecuencias y la


mediana solo utiliza el orden expresado por los valores
numéricos y no atiende el valor de las observaciones extremas.

La media tiene importantes propiedades matemáticas, lo que no la


mediana y el modo, y esto se irá observando a medida que
avancemos en el estudio de la estadística.

El modo en escala intervalar, se utiliza para una primera


estimación rápida de la tendencia central, puesto que se
determina fácilmente, sin necesidad de cálculo alguno, con solo
observar la tabla de distribución de frecuencia.
Cuando se tiene datos de escalas intervalares o proporcionales, en
general se utiliza la media porque, es una medida que atiende en
forma exhaustiva toda la información disponible: los valores, las
distancias y proporcionalidad entre ellos y la frecuencia de cada
uno.

Hemos visto que el modo solo atiende a las frecuencias y la


mediana solo utiliza el orden expresado por los valores
numéricos y no atiende el valor de las observaciones extremas.

La media tiene importantes propiedades matemáticas, lo que no la


mediana y el modo, y esto se irá observando a medida que
avancemos en el estudio de la estadística.

El modo en escala intervalar, se utiliza para una primera


estimación rápida de la tendencia central, puesto que se
determina fácilmente, sin necesidad de cálculo alguno, con solo
observar la tabla de distribución de frecuencia.
El modo interviene en él cálculo de algunas medidas de asimetría.-

La mediana en escalas intervalares es recomendada cuando en un


conjunto de dato, existen uno o unos pocos datos extremos que
son incomparables con el resto de los datos.

La mediana no se ve afectada por los valores extremos, mientras


que la media es muy sensible a estos valores y por lo tanto en
estos casos la mediana es el valor que mejor me representa los
datos.-

Las medidas de tendencia central como ya hemos dicho, son


índices que permiten resumir un conjunto de datos en una sola
expresión, de modo que se pueda apreciar mejor el significado de
los datos.

Las medidas de tendencia central como cualquier estadística,


cobran sentido cuando las empleamos para hacer comparaciones
u otras operaciones.
Cuando se tiene una distribución de frecuencias con intervalos
abiertos, no puede calcularse la media y en estos casos se elige
como mejor medida la mediana ya que en su cálculo solo participa
el intervalo mediano.

Cuando la forma de la distribución de frecuencia es asimétrica ya


sea a izquierda o derecha, la mejor medida de tendencia central es
la mediana ya que se encuentra entre las otras dos, media y modo.-

Si es simétrica, como las tres medidas son iguales, se puede elegir


cualquiera y en esos casos se prefiere la media, dependiendo esto
del tipo de investigación que se haya planificado.-

Mucho se podría seguir profundizando sobre estas medidas y los


procedimientos para su cálculo, pero se considera que hoy en día
no tiene mucho sentido.

Hoy hay sistemas de computación estándar preparados para el


análisis estadístico de datos y es muy importante que el alumno
vaya tratando de conocerlas y usarlas.-
EJERCICIOS PARA HACER EN CLASE
1.- Diez economistas recibieron el encargo de predecir el
crecimiento porcentual que experimentará el índice de
precio al consumidor el próximo año.- Sus predicciones
fueron:
3,6 3,1 3,9 3,7 3,5 3,7 3,4 3,0 3,7 3,4
Calcule y explique la media, mediana y modo.-
2.- Una consultora, elige al azar 10 grandes negocios de
ventas minoristas de una zona de cierta ciudad, para
analizar las ventas alcanzadas este año en las navidades.-
Observo respecto al año anterior los siguientes
incrementos porcentuales:
10,2 3,1 5,9 7,0 3,7 3,9 6,8 7,3 8,2 4,3
Calcule media, mediana, modo y comente sobre la forma
de la distribución.-
3.- Un estudio de investigación sobre las ventas diarias
de una muestra aleatorias de días del 2008 (en miles) de
un comercio fueron las siguientes:

7.1 7.2 7.2 7.6 7.6 7.9 8.1 8.1 8.1 8.3
8.3 8.4 8.4 8.9 9.0 9.0 9.1 9.1 9.1 9.1
9.4 9.6 9.9 10.1 10.1 10.1 10.2 10.3 10.5 10.7
11.0 11.1 11.2 11.2 11.2 12.0 13.6 14.7 14.9 15.5

a) Diga cual es la variable en estudio, tipo y nivel de


medición.-
b) Agrupe los datos en una distribución de frecuencia.-
c) Calcule la media, mediana y modo.-
d) Comente sobre la forma de la distribución
comparando medidas.-
4.- Un estudio de investigación sobre los sueldos anuales de
empleados de una empresa papelera, fueron los que mostramos en
Minitab, y del calculo surge:

Descriptive Statistics: Sueldos anuales

Variable Mean Minimum Median Maximum


Sueldos anuales 39467 28800 38650 100000

a) Comente que le dicen las medidas que calculo.-


b) Comparando medidas que le dicen sobre la forma de la
distribución, y que le dice respecto a los sueldos.-
5.- Los porcentajes de la remuneración total
correspondientes al pago de planes de una muestra
de 12 ejecutivos son los siguientes;
15,8 17,3 28,4 18,2 15,0 24,7
13,1 10,2 29,3 34,7 16,9 25,3

a) Calcule y explique la media muestral.-


b) Calcule y explique la mediana.-
c) Comente sobre estos datos.-
MEDIA ARITMETICA PONDERADA

Cuando calculamos la Media, se asume que cada observación era


de igual importancia.- Sin embargo, en ciertos casos, puede
querer darse mayor peso a algunas observaciones.- Se la calcula
haciendo:

∑ xi W i
Xp = ----------------

∑ Wi

Donde Xp es la media ponderada.-


xi es la observación individual
Wi es el peso o ponderación asignada a cada observación
Ejemplo de media ponderada.-
Supongamos que el Supermercado Alfa vende cinco tipos de
detergentes.- En la tabla siguiente se muestra cada tipo junto
con la utilidad por pote y el número de potes vendidos.-

Detergente Utilidad por Volumen de


pote (X) en ventas en Xi * Wi
$ potes (W)
A 2,00 3 6,00
B 3,50 7 24,50
C 5,00 15 75,00
D 7,50 12 90,00
E 6,00 15 90,00
TOTAL 24,00 52 285,50
Se puede calcular la media simple de la utilidad del Supermercado
como 24,00/ 5 = 4,80 $ por pote.-
Sin embargo, probablemente este no sea un buen estimado de la
utilidad promedio del Supermercado respecto a detergentes, debido a
que vende más de algunos tipos de detergentes que de otros.- Para
obtener un estado financiero más representativo del desempeño real
de su negocio, el Gerente del Supermercado debe dar más peso a
los tipos más populares de detergentes.- Por lo tanto el calculo más
apropiado sea el de la media ponderada:

∑ xi Wi 285,50
Xp = ---------------- = -------------- = $ 5,49
∑ Wi 52

La media ponderada es mayor que la media simple porque el


Supermercado vende más detergentes de los tipos que tienen un
margen de utilidad mayor.-
EJERCICIO PARA HACER EN CLASE

1.- La tabla siguiente, contiene el tamaño de la población


y la renta personal per capita de una muestra aleatoria
de cinco ciudades importantes de una provincia de
cierto país.- Calcule la renta personal per capita media
del 2008.-

Ciudad Población Renta personal per


capita
A 125867 32989
B 122674 29758
C 120745 33322
D 127342 26852
E 128456 29764
TOTAL 625084 152685
2.- Un empresario Luís Varesi SA es dueño de tres
fabricas que están localizadas en La Rioja, Córdoba y
San Juan.- En La Rioja tiene 270 empleados cuya edad
promedio es 42 años, 320 empleados con edad promedio
47 años y 200 empleados con edad promedio 38 años,
respectivamente.- Se pregunta cual es la edad promedio
de los empleados que ocupa el empresario Varesi.-

Empresa Edad promedio Cantidad de


empleados
A.- La Rioja 42 270
B.- Córdoba 47 320
C.- San Juan 38 200
TOTAL 127 790
MEDIA GEOMETRICA

Otra medida de la tendencia central que es importante en las


empresas y en economía, pero que a menudo se pasa por alto es la
media geométrica.-
Los analistas de empresas y los economistas que tienen interés en
saber cual es el crecimiento en una serie de periodos de tiempo
utilizan la media geométrica.- Entre las aplicaciones de la media
geométrica en las finanzas, se encuentran el interés compuesto a lo
largo de varios años, el crecimiento de las ventas totales y el
crecimiento de la población.- Una importante cuestión es el
crecimiento anual medio que provoca un cierto crecimiento total en
varios años.-

La media geométrica, Xg , es la n- raiz del producto de n


elementos:
n
1/n
Xg = x1 . x2 ……..xn = (x1 .x2…..xn)
La media geométrica se utiliza para hallar el crecimiento
medio de varios productos, dado el crecimiento
compuesto de cada producto.- Por ejemplo, la media
geométrica de:
1,05 1,02 1,10 1,06 es

1/4
Xg = ( 1,05 . 1,02 . 1,10 . 1,06) = 1,0571

Veamos un ejercicio:
Hallar la tasa de crecimiento suponiendo que las
ventas han crecido un 25 por ciento en 5 años.-
Solución
La tentación intuitiva, pero ingenua, es dividir simplemente el
crecimiento total, 25 por ciento, por el numero de periodos, 5 y
concluir que la tasa media de crecimiento es del 5 %.- Este resultado
es incorrecto porque no tiene en cuenta el efecto compuesto del
crecimiento.-
Suponiendo que la tasa anual de crecimiento es realmente del 5 por
ciento, en ese caso, el crecimiento total de 5 años será:
(1,05 . 1,05 . 1,05 . 1,05 . 1,05 ) = 1,2763 o sea un 27,63 %.-
Sin embargo, la tasa anual de crecimiento r, que daría un 25 % en
cinco año, debe satisfacer esta ecuación:
5
( 1 + r) = 1,25
Primero hallamos la media geométrica:

Xg = 1 + r = (1,25)1/5 = 1,046


La tasa de crecimiento es r = 1,046, o sea 4,6 por ciento.-
Veamos otro ejemplo:

Suponga que recibe un aumento de sueldo de 5% este


año y recibirá uno de 15% el año próximo.- El aumento
porcentual promedio es de 9,886 % y no 10,0.- ¿Por
qué?.- Comience calculando la media geométrica.-
Recuerde por ejemplo, que un aumento de 5% en el
sueldo es 105 o bien 1,05.- Usaremos 1,05.-
Xg = 1,05 . 1,15 = 1,09886

Lo anterior se puede verificar suponiendo que su ingreso


mensual inicial era de 3000$ y que recibió dos aumentos
de 5 % y 15 %.-
Aumento 1 = 3000,0 (0,05) = 150,0$
Aumento 2 = 3150,0 ( 0,15) = 472,50 $
Donde 150,0 + 472,50 = 622,50 $
El aumento total en el sueldo es de 662,50 $.- Esto
equivales a:
3000,00 . (0,09886) = 296,58 $
3296,58 . (0,09886) = 325,90 $
Donde 296,58 + 325,90 = 622,48 $

Veamos otro ejemplo:

Las ganancias obtenidas por la constructora


Alfa SRL en cuatro proyectos recientes fueron
de 3%, 2%, 4% y 6%.- ¿Cuál es la media
geométrica de la ganancia?.-
Solución
La media geométrica es de 3,46%, que se obtiene de
hacer:
4 4

Xg = 3 . 2 . 4 . 6 = 144

La media aritmética de las utilidades es de 3,75% que se


obtiene de sumar los cuatro valores y dividir por 4.-
Aunque la ganancia del 6% no es extremadamente
grande hace que la media aritmética se eleve.- La media
geométrica de 3,46, da una cifra mas conservadora, ya
que no esta siendo afectada por el valor grande.- De
hecho, siempre será menor que o igual a la media
aritmética.-
Un segundo uso de la media geométrica es
encontrar aumentos porcentuales promedios
en un intervalo de tiempo.-

Por ejemplo, si se ganaron 30000 dólares al año, en 1990,


y 50000 dólares en el año 2000, ¿Cuál es la tasa de
aumento en el periodo?.- La tasa de aumento se
determina mediante la siguiente formula:

n
Valor al final del periodo
Xg = - 1
Valor al inicio del periodo

En la formula el n es el numero de periodos.-


Un ejemplo ficticio, mostrara los detalles para encontrar
el aumento porcentual promedio anual.-

Supóngase que la población de un puesto es de 2


habitante en 1991 y en 2001 era de 22 habitantes.-
¿Cuál fue la tasa de crecimiento anual promedio para
ese periodo?.-

10
22
Xg = - 1
2

= 1,2710 - 1 = 0,2710
El valor final es 0,2710.- De modo que la tasa de aumento
anual es de 27,1 %.- Es decir que el puesto tuvo una
tasa de crecimiento de la población de 27,1% al año.-
Cuartiles
Se lo simboliza con Qr., donde con “r” indicamos el orden del
cuartil que queremos calcular. Los cuartiles dividen mi distribución
de datos u observaciones en cuatro partes iguales o sea que
tenemos tres cuartiles el cuartil de orden 1, de orden 2 y el de
orden 3, y en cada uno se encuentra el 25 % del total de casos
observados.

El cuartil de orden 1 es aquel que me deja un 25 % de datos a


izquierda y un 75 % a derecha, de su valor.

El cuartil de orden 2 es aquel que me deja un 50 % de datos a


izquierda y un 50 % a la derecha, de su valor. Coincide con la
mediana.

El cuartil de orden 3 es aquel que me deja un 75 % de datos a


izquierda y un 25 % a derecha, de su valor.
CUARTILES PARA DATOS SIN AGRUPAR.-
Lo primero que debemos hacer es agrupar los datos en forma
creciente.- Realizado esto, calculamos el orden del valor de variable
que será el Cuartil buscado.- Puede darse:

Si me da un valor entero, el cuartil


buscado será el valor de variable
que ocupe ese lugar.-

Si me da un valor decimal en 5, el
cuartil buscado será el promedio
(n + 1) r
entre el dato posición del entero y
el siguiente.-
Qºr = =
4 Si me da un valor ni entero, ni
decimal en 5, el cuartil buscado
será el dato que ocupe la
posición siguiente al valor
entero.-
Veamos un ejemplo.-
Supongamos tener las edades de una muestra de empleados de
cierta empresa textil.- Estos resultaron ser:
22-58-24-50-29-52-57-31-30-41-44-40-46-29-31-37-32-44-49-29
Ordenamos en forma creciente los datos:
22-24-29-29-29-30-31-31-32-37-40-41-44-44-46-49-50-52-57-58

Qº1 = 5,25 posición Q1 = 30 años

El 25 % de los empleados tienen 30 años o menos.-

Qº3 = 15,75 posición Q3 = 49 años

El 75 % de los empleados tienen 49 años o menos.-


CUARTILES PARA DATOS AGRUPADOS SIN
INTERVALOS.-

Supongamos que a una muestra de empleados de cierta empresa


se les pregunto la cantidad de hijos que tienen.- Resulto la
siguiente distribución:

xi fi Fi Fi% El cuartil 3 nos implica el


0 4 4 6,7 75%, por lo tanto buscamos
el menor porcentaje que lo
I 9 13 21,7 cubre, y observamos el
valor de variable que le
2 12 25 41,7 corresponde, entonces:
3 18 43 71,7
Q3 = 4 hijos.-
4 10 53 88,3
El 75% de los empleados
5 7 60 100,0 tienen 4 hijos o menos.-
Total 60 ------ ------
CUARTILES PARA DATOS AGRUPADOS EN INTERVALOS.-

Supongamos tener los tiempos en minutos que demoran los


empleados de una empresa en realizar una tarea.- Los valores
fueron:
 n *r 
  Fi - 1 
Li Ls fi Fi Fi%
Q r  Li   4 * ci
 fi 
12 16 3 3 5,8  
 
16 20 7 10 19,2
13 - 10
20 24 12 22 42,3
Q1 = 20 + ----------------- 4 =
24 28 15 37 71,2
12
28 32 10 47 90,4
32 36 5 52 100,0 = 21 minutos
TOTAL 52 ------ ----- El 25% de los empleados
demoran 21 o menos
minutos en realizar la tarea.-
PERCENTILES.- Se simbolizan P r

Los percentiles me dividen las observaciones en cien partes


iguales.-
Para los tres casos que vimos cuartiles, los percentiles se aplica
el mismo criterio solo que recordemos que dividen las
observaciones en 100 partes iguales.- Es decir que en todos los
casos que usamos 4 debemos usar 100.- Vamos a ver esto
mediante ejemplos.-
PERCENTILES PARA DATOS SIN AGRUPAR.-
Supongamos tener una muestra de 15 alumnos a los cuales se
les pregunto la cantidad de materias aprobadas.- Los datos
fueron ya ordenados:
3 5 5 5 6 7 7 7 7 8 8 8 10 13 15

Pº62% = 9,92 P62% = 8 materias


El 62% de los alumnos tienen 8 materias aprobadas o menos.-
PERCENTILES PARA DATOS AGRUPADOS SIN
INTERVALOS.-

Supongamos que a una muestra de empleados de cierta empresa


se les pregunto la cantidad de hijos que tienen.- Resulto la
siguiente distribución:

xi fi Fi Fi%
El PERCENTIL 82%, nos
0 4 4 6,7 implica el 82%, por lo tanto
buscamos el menor
I 9 13 21,7 porcentaje que lo cubre, y
2 12 25 41,7 observamos el valor de
variable que le corresponde,
3 18 43 71,7 entonces:
4 10 53 88,3 P82% = 4 hijos.-
5 7 60 100,0 El 82% de los empleados
Total 60 ------ ------ tienen 4 hijos o menos.-
PERCENTILES PARA DATOS AGRUPADOS CON INTERVALOS

Supongamos tener los tiempos en minutos que demoran los


empleados de una empresa en realizar una tarea.- Los valores
fueron:
 n *r 
  Fi - 1 
Li Ls fi Fi Fi%
P 70%  Li   100 
* ci
12 16 3 3 5,8  fi 
 
16 20 7 10 19,2
20 24 12 22 42,3 36,4 - 22

24 28 15 37 71,2 P70% = 24 + ----------------- 4 =


28 32 10 47 90,4 15
32 36 5 52 100,0 = 27,84 ≈ 28 minutos

TOTAL 52 ------ ----- El 70% de los empleados


demoran 28 minutos o menos
en realizar la tarea.-
RANGO DEL PERCENTIL.-
Nos encontramos con muchas situaciones en las que tenemos
una serie de datos ordenados en un tabla de frecuencia y nos
preguntan que porcentaje de datos están por debajo de un
determinado valor de variable, y esto es lo que nos dice el Rango
del Percentil.- Veamos esto en el ejemplo anterior.-

Calculamos el Rango mediante la siguiente formula:

Fi-1 + ( xi - Li) fi/ci

Rp(xi) = -------------------------------------- x 100


n
Supongamos tener los tiempos en minutos que demoran los
empleados de una empresa en realizar una tarea.- Los valores
fueron:
Calculamos el Rango mediante la
Li Ls fi Fi Fi % siguiente formula:

12 16 3 3 5,8 Fi -1 + ( xi - Li) fi /ci


16 20 7 10 19,2
Rp(22) = ------------------------------ 100
20 24 12 22 42,3
n
24 28 15 37 71,2
28 32 10 47 90,4 10 + 6

32 36 5 52 100,0 = --------------- 100 = 30,77


52
TOTAL 52 ----- -----
- ≈ 31 %
El 31% de los empleados demoran en realizar la tarea 22 minutos o
menos.-
Podemos preguntarnos ¿Por qué estudiar la
dispersión?.- Un promedio como la media o la mediana
solamente localiza el centro de los datos y esto es
importante desde ese punto de vista, pero un promedio
no dice nada acerca de la diseminación de los datos.-

Por ejemplo, usted es el Administrador o Contador de


un gran comercio y una sucursal.- Le solicitan analizar
las ventas del ultimo año.- Saca una muestra de datos en
ambos, la describe y determina que el monto de venta
promedio en ambos comercio es el mismo.- ¿usted se
conformaría solo con ese dato? y le diría al Gerente que
ambos comercio andan bien.- Seguramente no, trataría
además de buscar alguna medida que le pueda indicar
que paso con todas las ventas respecto a su promedio.-
Las medidas que le indicarían esto, son las llamadas
Medidas de Variabilidad o de Dispersión.-
Un valor pequeño para una medida de
dispersión indica que los datos se encuentran
acumulados cercanamente, por ejemplo
alrededor de la media.- Por lo tanto la media se
considera bastante representativa de los datos.-
Por lo contrario, , una medida de dispersión
grande indica que la media no es confiable, es
decir, que no es representativa de los datos.-
Una segunda razón para estudiar la dispersión
en un conjunto de datos es poder comparar
cuán dispersa están dos o más distribuciones.-
Dos distribuciones pueden tener iguales
medidas de tendencia central y sin embargo
mostrar grados de dispersión diferentes.
0,36

0,27

frecuencia relativa
0,18

0,09

0,00

0,36

0,27
frecuencia relativa

0,18

0,09

0,00

Media
RANGO O RECORRIDO DE LA VARIABLE.-

Se simboliza Rx .- Se la calcula haciendo la diferencia entre el


máximo valor de la variable y el mínimo que toma.-
Como medida de dispersión se la toma poco en cuenta ya que nada
me dice de los valores intermedio de la variable.-
Un uso importante del Rango lo encontramos cuando vemos la
Estadística Descriptiva en el Control de Calidad de Procesos.-

RANGO INTERCUARTÍLICO.-

Se simboliza con Rint.-


RIC = Q3 - Q1
Esta medida considera la dispersión de la mitad (parte
central) de los datos; por lo tanto, los valores extremos
no influyen en ella.- Es una buena medida de dispersión
cuando los datos están mejor representados por la
mediana.-
VARIANCIA O VARIANZA.-

Aunque el rango es una medida de la dispersión total y el rango


intercuartílico es una medida de la dispersión media, ninguna de
estas medidas de variación toman en cuenta como se distribuyen o
agrupan las observaciones.- Por lo tanto se pensó en una medida
estadística que me tuviera en cuenta todos los datos y esa medida
es la VARIANCIA.-
Simbolizamos a la variancia:

S²x si trabajamos con la muestra


σ² si trabajamos con la población
Como no conocemos la población vamos a calcular la variancia de la
muestra.-

A igual que las otras medidas descriptivas las podemos


calcular para datos sin agrupar, par datos agrupados sin
y con intervalos.-
VARIANCIA DE LA MUESTRA.-
La variancia de la muestra es la suma de los cuadrados de las
diferencias con relación a la media aritmética dividida entre el
tamaño de la muestra menos uno.-

∑ ( xi - x)²
S²x =
n - 1
Si el denominador fuera n en lugar de (n – 1), se obtendría el
promedio de los cuadrados de las diferencias con respecto a la
media.- Si embargo, se utiliza (n – 1) debido a ciertas propiedades
matemáticas deseadas que tiene el estadístico S², lo cual lo hacen
muy apropiadas para hacer inferencias estadísticas.- A medida
que se aumenta el tamaño de la muestra, la diferencia entre n y (n
– 1) disminuye cada vez más.-
• La variancia como esta definida como un valor cuadrado nunca
puede ser negativa.-
• No tiene explicación por estar definida como un valor cuadrado y
nos da un resultado con unidad de medida al cuadrado.- Por ejemplo,
si estamos trabajando datos en $, la variancia nos va dar un
resultado en $², si trabajamos empleados nos dará empleados al
cuadrado, etc.-
• Será igual a cero cuando no exista diferencia entre los datos, es
decir, todas las observaciones en la muestra deberían ser
exactamente iguales.-
En este improbable caso, el rango y rango intercuartílico también
sería igual a cero.-
Los datos numéricos por naturaleza, son variables no constantes.-
Cualquier fenómeno aleatorio de interés puede adquirir una amplia
variedad de valores.- Entonces, la importancia de estudiar, no solo
las medidas de tendencia central que resumen nuestros datos, sino
también las medidas de variación que reflejan la dispersión de los
datos numéricos, se debe a esa variación intrínseca de los datos.-
Como su calculo es bastante complicado,
surge la llamada Formula de Calculo de la
Variancia, que abrevia mucho el calculo de
la misma.-

∑ x² - n x²
S²x = para datos sin agrupar

n - 1
∑ x² fi - n x²
S²x = para datos agrupados
n - 1
Esta fórmula será para datos agrupados sin y con
intervalos.- La diferencia se da en el valor de las
observaciones xi, ya que en datos agrupados sin
intervalo serán los datos originales, y en datos
agrupados con intervalos serán los puntos
medios de los intervalos.-
Como dijimos, la variancia me da un resultado en
unidades de medida de la variable al cuadrado,
entonces aparece otra medida que llamamos
Desvío Estándar.-
DESVIACION ESTANDAR

La simbolizamos con sx en la muestra y con σx en la población.-


La desviación estándar mide la dispersión promedio alrededor de
la media: como fluctúan las observaciones mayores arriba de ella
y las observaciones menores debajo de ella.-
El desvío estándar es la verdadera medida de dispersión ya
que se expresa en las mismas unidades de medida que los datos
originales.-
Calculamos la desviación estándar como:

sx = variancia

Observamos que la media y el desvío estándar ayudan a definir en


donde se agrupan la mayor parte de los datos.-
Veamos un ejemplo de calculo del Desvío Estándar.-
Supongamos que se ha tomado un Parcial de la cátedra de
Estadística y se calificó al mismo de 0 a 10.- Las notas de una
muestra aleatoria de alumnos fueron resumidas en una tabla de
frecuencia y son:

Notas fi xi Xi * fi x²i X²i * fi

0 2 5 1 5 1 5

2 4 9 3 27 9 81

4 6 14 5 70 25 350

6 8 20 7 140 49 980

8 10 2 9 18 81 162

TOTAL 50 ------- 260 ----- 1578


∑ XI * fi ∑ x² fi - n x²
S²x = ----------------------- =
X = ---------------- = n - 1
n
1578 - 1352
260 = ---------------------- =
= ----------- = 5,2 49

50 226
 5 puntos = -------- = 4,61 ptos²
49

sx = variancia = 4,61 ptos.² = 2,15 puntos

En promedio cada nota se diferencia de la media en 2 puntos.-


VARIANCIA DE LA POBLACION

La variancia de la POBLACION es la suma de los cuadrados de


las diferencias con relación a la media aritmética poblacional
dividida entre el tamaño de la población.-

∑ ( xi - μ)²
σ²x =
N

Esta variancia poblacional, nunca la calculamos porque


sostenemos que las poblaciones son muy grandes, es un
parámetro, y a estos aprenderemos a estimarlos en la Unidad de
Estimaciones.-
EJERCICIOS PARA HACER EN CLASE
1.- Diez economistas recibieron el encargo de predecir el
crecimiento porcentual que experimentará el índice de
precio al consumidor el próximo año.- Sus predicciones
fueron:
3,6 3,1 3,9 3,7 3,5 3,7 3,4 3,0 3,7 3,4
Calcule y explique la dispersión de los datos.-

2.- Una consultora, analiza las ventas alcanzadas en la


navidad de los 10 grandes negocios que posee una
ciudad chica.- Observó respecto al año anterior, los
siguientes incrementos porcentuales:
10,7 3,1 5,9 7,0 3,7 3,9 6,8 7,3 8,2 4,3
Calcule la dispersión de los datos.-
USOS DEL
DESVIO
ESTANDAR.-
Un Desvío Estándar pequeño nos indica que los datos
están o se encuentran localizados muy cerca de la media,
caso inverso significa que los datos están muy lejos de
su media.- Por supuesto más chico sea el Desvió
Estándar mejor serán nuestros datos.-

El matemático ruso Chebycheff (1821 – 1894) desarrollo


un teorema que permite determinar la proporción mínima
de valores que se encuentran dentro de un número
específico de desviaciones estándar con respecto a su
media.-
Para este matemático no importa la forma de la
distribución es decir puede ser simétrica o asimétrica y
dice:
Para un conjunto cualquiera de
observaciones (muestra o población)
la proporción mínima de valores que
se encuentran dentro de k
observaciones estándares desde la
media es al menos (1 - 1/ k²) %, donde
k es una constante mayor que uno.-
Por ejemplo si suponemos K = 3, será:
1 - 1 / 3² = 1 - 1/ 9 = 8 /9 = 88,89 %
Esto me está diciendo que entre la media ± 3 desvío
estándar se encuentra el 89 % de los datos.-
Si estoy estudiando sueldos, y se que su X = 580$ y el
s = 24,10$, será:
507,70$
X ± 3 * s = 580 ± 3 * 24,10 = 580 ± 72,3
652,30$

Podemos decir, que del total de empleados a los cuales


estudiamos el sueldo, el 89 % de ellos cobran entre 508$
y 652$.- Ahora puedo tomar alguna decisión.-
REGLA EMPIRICA.-

Esta regla se aplica solo a distribuciones que son simétricas, es


decir aquellas que las medidas de tendencia central son iguales, o
sea, la media, la mediana y el modo.-
Esta regla sostiene:

Que el 68,0% de los datos se encuentran entre la


media más menos un desvío estándar.-
Que el 95,0% de los datos se encuentran entre la
media más menos dos desvío estándar.-
Que el 99,0% de los datos se encuentran entre la
media más menos 3 desvío estándar.-

En una clase práctica veremos aplicación del uso del Desvío


Estándar.-
EJERCICIO PARA HACER EN CLASE

1.- Un grupo de 13 estudiantes de Administración se van


de viaje de estudio a Turquía durante cinco semanas.-
Como parte de su estudio de la economía local, cada uno
compra una alfombra oriental y han hecho las gestiones
oportunas para que se la enviara a la Argentina.- El
tiempo que tardaba en llegar cada alfombra era, en días:
31 31 42 39 42 43 34 30 28 36 37 35 40
Estime el porcentaje de días que se encuentra dentro de
dos desviaciones estándar de la media.- ¿es probable
que se tarde 2 meses en enviar la alfombra?.-
Vea si aplica el Teorema o la Regla empírica o ambas.-
Explique.-
COEFICIENTE DE VARIACIÓN.-

A diferencia de las medidas que hemos estudiado hasta ahora, el


Coeficiente de Variación es una indicación relativa de la variación.-
Siempre se expresa como porcentaje, y lo simbolizamos con CVx.-
El hecho de no tener unidad de medida hace que pueda usarse para
comparar distribuciones en diferentes unidades de medidas, y
poder decir de ellas cual es más homogénea en sus datos respecto
a la media.-
Se calcula como:

El coeficiente de variación es igual a la desviación estándar


dividida entre la media, multiplicada por 100 por ciento.-

S
CVx = -------- * 100
x
Cuando comparamos dos distribuciones de
datos en diferentes unidades de medida, y
queremos saber cual es más homogénea
en sus datos referentes a su media, no
tenemos más opción que comparar los CV,
a menor CV más homogéneos son los
datos.- Por ejemplo, si tenemos una
distribución donde estudiamos sueldos de
la empresa y en la otra la antigüedad en la
empresa de esos mismos empleados, y nos
preguntamos en que son más homogéneos
esos empleados, en sueldos o en
antigüedad.-
Cuando comparamos dos distribuciones de
datos en igual unidad de medida podemos
preguntarnos en cual distribución son más
homogéneos los datos respecto a su media.- En
este caso podemos comparar los desvíos
estándar solo si las medias son iguales, y el
menor desvío estándar más homogéneos son
los datos.-

Cuando las medias son diferentes no es objetivo


comparar las desviaciones, y en esos casos
recurrimos a comparar los Coeficientes de
Variación.- A menor CV más homogéneos son
los datos respecto a su media.-
EJERCICIO PARA HACER EN CLASE

1.- Los siguientes datos representa los montos de ventas diarias,


de una muestra aleatoria de 15 días de dos comercios de
artículos del hogar, durante el año 2008.- (en miles de pesos).-

Comercio A Comercio B
10.5 8.9 9.6 7.9 10.6 8.4
10.1 9.3 9.1 8.2 10.1 9.2
10.0 9.7 11.2 9.1 8.5 10.7
11.0 10.4 10.5 9.3 7.5 9.8
9.8 10.0 9.9 8.8 9.3 9.5

Para cada serie de datos calcule:

Indique que Comercio tiene ventas más homogéneas.-


MEDIDAS DE FORMA.-
Las medidas de forma hacen referencia a la forma de la
distribución de datos.- Ya hemos comentado que pueden ser
simétricas, o asimétrica o segadas.-
Para describir la forma, solamente se deben comparar
la media y la mediana.- Si ambas medidas son iguales,
por lo general se considera que los datos son
simétricos o con sesgo cero.- Por el contrario, si la
media excede a la mediana, los datos se describen
como sesgados a derecha o con sesgo positivo.- Si la
mediana excede a la media, los datos suelen llamarse
sesgados a izquierda o con sesgo negativo.-

Media > Mediana : sesgo positivo a la derecha


Media = Mediana; simetría o sesgo cero
Media < Mediana: sesgo negativo o a la izquierda.-
El sesgo positivo surge cuando la media aumenta debido a algunos
valores grandes y poco usuales; el sesgo negativo ocurre cuando la
media se reduce debido a algunos valores muy pequeños.- Los datos
son simétricos cuando en realidad no hay valores extremos en
ninguna dirección, de tal manera que los valores grandes y pequeños
se equilibra.-

Asimétrica a izquierda o negativa

Simétrica Asimetría a derecha o positiva


COMO MEDIR
LA ASIMETRIA
Como señaláramos oportunamente la silueta de la forma
de la distribución (polígono de frecuencias) nos da una
idea acerca de la simetría del conjunto de datos.- Así
teníamos que, en la situación de simetría, cada mitad de
la curva es una imagen espejada de la otra mitad y la
recta que hace de espejo (eje de simetría) es la que pasa
por las medidas de tendencia central media, mediana y
modo, que coinciden en el mismo valor.-

Eje de simetría

Variable

X = Me = Mo
A medida que la distribución se hace más asimétrica
hacia uno u otro lado (derecha e izquierda), las medidas
de tendencia central tienden a alejarse una de otra,
siendo la media por estar afectada por los valores
extremos la que más se desplaza hacia la cola de la
distribución.-

X Me Mo Mo Me X

X < Me < Mo X > Me > Mo


Vemos en los Gráficos que, en el caso de una asimetría a
la izquierda, la media es menor que la mediana y esta a
su vez menor que el modo.- Inversamente en la asimetría
hacia la derecha, la media es mayor que la mediana y a
su vez esta mayor que el modo.-
Se puede ver además que la mediana toma un valor
intermedio entre las otras dos medidas, ubicándose más
próxima a la media.-
A medida que la asimetría crece en una u otra dirección,
también las distancias entre la media, mediana y modo
crecen.- En consecuencia, podemos usar estas
diferencias (X – Mo) o (X - Me) como medidas absoluta
de la asimetría de una distribución.- Además, se puede
ver que si la asimetría es a la izquierda, (X – Mo) dará un
valor negativo, en tanto que si la asimetría es a la
derecha dará un valor positivo.-
EN SINTESIS:
x - MO = 0 SIMÉTRICA

X - MO < 0 ASIMETRIA NEGATIVA


X - MO > 0 ASIMETRIA POSITIVA

Además, cuanto mayor sea el valor absoluto de la


diferencia, mayor será el grado de asimetría de la
distribución:

a mayor | X - Mo| mayor asimetría


Para poder comparar asimetría de distribuciones de
variables medidas en distintas escalas o para valores
de distintas magnitudes, la solución es construir
medidas relativas de asimetría.-

COEFICIENTE DE ASIMETRIA DE PEARSON.- (CAP)

Una de las medidas de asimetría más difundida es este


Coeficiente, que se calcula esa diferencia en términos
del desvío estándar.-

X - Mo 3(X - Me)
CAP = o CAP =
s s
Comentarios
• La magnitud absoluta del coeficiente indica la
“cantidad de desvío estándar” a los que se encuentra
la media del modo.-
• Se lo puede expresar en porcentaje, multiplicando
por cien el resultado de la expresión anterior.-
• Si el coeficiente es igual a cero, estamos en una
situación de simetría perfecta.-
• En situaciones de asimetría el coeficiente puede
tomar una asimetría a derecha o a izquierda.-
Recordemos que una es positiva y la otra negativa.-
•En términos teóricos, este Coeficiente puede tomar
valores que varían entre - 3 y +3.-
ANALISIS
EXPLORATORIO DE
DATOS

RESUMEN DE CINCO NUMEROS


Cuando hemos desarrollado el Análisis Exploratorio de Datos, se
dijo que ordenábamos los datos mediante un diagrama de tallo y
hoja.- Es importante identificar y describir las características
principales de los datos en forma resumida.- Un enfoque a este
resumen
Análisis Exploratorio de datos es desarrollar un
de cinco números y construir un
diagrama de caja y bigotes.-

En un resumen de cinco números se emplean los siguientes


datos
1.- Valor mínimo.-
2.- Primer cuartil.-
3.- Mediana.-
4.- Tercer cuartil.-
5.- Valor máximo.-
La forma más fácil de elaborar un resumen de cinco números es
poner los datos en orden ascendente, así es fácil identificar los
cincos datos.- Veamos un ejemplo:
Supongamos tener los salarios de 12 gerentes de empresas
medianas, ordenados son:
2710 2755 2850 2880 2880 2890 2920 2940 2950
3050 3130 3325 3051
La mediana es Me = 2905 y los cuartiles Q1 = 2880 y Q3 = 3050 los
otros dos datos es fácil verlos.-

DIAGRAMA DE CAJA Y BIGOTES.- (Boxplot)

Un diagrama de caja es un resumen gráfico de los datos


basado en un resumen de cinco datos y nos da una idea
de forma de la distribución de los datos, además de
poder determinar si tenemos valores atípicos.-
Los pasos para trazar un diagrama de caja y bigote son:
1.- Se traza un rectángulo con los extremos en el primer cuartil y
tercer cuartil.- Este rectángulo contiene el 50% de los datos.-
2.- En la caja se traza una recta vertical en el lugar de la mediana, así,
la línea de la mediana divide los datos en dos partes iguales.-
3.- Se ubican los límites mediante el rango intercuartil RIC = Q3 – Q1 .
Los límites en el diagrama estarán dados según la Regla de Tukey
en Q1 - 1,5 * RIC y Q3 + 1,5 * RIC.-
Todos los valores que nos queden fuera de esos límites son
considerados valores atípicos.-
4.- Las líneas punteadas a los costados de la caja se llaman bigotes
de la caja y se trazan de Tukey al cuartil 1 y del cuartil 3 al valor
Tukey.-
5.- Por último se marca con asterisco si hay algún valor atípico.-
----------- ---------- *

2400 2600 2800 3000 3200 3400


Boxplot of Sueldo
3400

3300

3200

3100
Sueldo

3000

2900

2800

2700
1obs 2obs 3obs
41 70 22
78 53 68
84 34 48
60 36 25
46 47 29
64 16 56 Suponga que tiene las tres
43 53 64
37 43 30
observaciones correspondientes a tres
50 29 57 meses diferentes de su empresa.-
57 83 32
24 42 39 Decide comparar la situación de su
78 48 39
51 57 50
empresa en los tres meses mediante
41 29 35 diagramas de caja y bigote.- Resulta el
56 64 36 diagrama siguiente:
46 41 16
99 86 98
71 54 39
41 2 53
41 39 36
22 40 46
62 70 46
64 52 57
44 38 60
41 63 62
Boxplot of 1obs; 2obs; 3obs

100

80

60
Data

40

20

0
1obs 2obs 3obs
VEAMOS OTRO EJEMPLO.-

La tabla siguiente muestra las puntuaciones obtenidas


en el examen final de Estadística para quince
estudiantes de Economía, quince de Administración y
quince de Contador.-

ECONOMIA ADMINISTRACION CONTADOR


47 72 56 76 43 80
52 72 59 80 48 80
52 78 59 83 50 83
57 81 61 83 55 85
63 81 67 84 61 89
64 86 69 90 67 91
69 91 73 94 72 97
71 76 78
Boxplot of 1º; 2º; 3º
100

90

80
Data

70

60

50

40
1º 2º 3º
La figura anterior contiene los diagramas de caja
de las puntuaciones de cada uno de estos tres
grupos.- En este ejemplo concreto, puede
apreciarse que no hay observaciones
excesivamente atípicas en ninguno de los tres
grupos.- Por eso, los bigotes de las cajas
corresponden a la menor y mayor puntuación de
cada grupo.- En el diagrama se observa que los
estudiantes de Contador consiguieron la mejor
mediana, pero sus puntuaciones tienen una
variabilidad considerablemente mayor que la de
los otros grupos.- Otro hecho que llama la
atención es la gran cantidad de puntuaciones
bajas obtenidas por los estudiantes de
Economía.-
EJERCICIO DE
MEDIDAS DESCRIPTIVA
Y
DIAGRAMA DE CAJA
CON INFOSTAT
Supongamos tener el Rendimiento anual, de una muestra de 50
fondos mutuos que se tomaron de 6858 fondos mutuos que se
publicaron en una Revista Económico Financiera en febrero del
2006.- Para cada fondo el rendimiento anual se da como porcentaje,
los valores fueron:

0,5 1,1 2,0 3,6 1,9 2,6 1,3 3,2 2,4 1,5

1,8 1,6 3,8 2,4 2,3 3,1 3,0 2,4 2,8 0,7

4,0 2,3 3,0 0,8 1,2 2,5 2,7 2,5 2,7 3,7

1,0 3,5 2,3 3,4 1,9 1,7 1,2 1,9 4,5 1,8

2,0 2,2 1,8 1,4 2,3 5,0 1,5 3,1 2,1 1,7
C:\ Archivos de programa\ InfoStat\datos\Rendimientos fondos
(pier).IDB: 22/03/2006 - 6:41:08

Estadística descriptiva
Resumen Columna1
n 50,00
Media 2,31
D.E. 0,98
Var(n-1) 0,95
CV 42,22
Mín 0,50
Máx 5,00
Mediana 2,30
Q1 1,70
Q3 3,00
Asimetría 0,53
Kurtosis 0,21
P(90) 3,60
5,2
Rendimiento anual en %

4,0

2,8

1,5

0,3

Boxplot con InfoStat


Boxplot of Rendimiento anual en %

4
Rendimiento anual en %

0
EJEMPLOS PARA RESOLVER EN CLASE

1.- Pedro Cuello, trabaja como corredor para E. F.


Hutton.- Sus registros muestran que las tasas de
rendimiento (en porcentaje) sobre dos valores para 10
meses seleccionados al azar fueron:
Valor 1: 5,6 7,2 6,3 6,3 7,1
8,2 7,8 5,3 6,2 6,2
Valor 2: 7,5 7,3 6,2 8,3 8,2
8,0 8,1 7,3 5,9 5,3
a) ¿Cuál valor puede ser mejor para los clientes que
están interesados en un rendimiento más alto?.-
b) ¿Cuál valor debería aconsejar Pedro a sus clientes
que prefieren menos riesgo?.-
2.- Aquí se muestran las relaciones precio ganancia para
30 acciones diferentes transadas en la Bolsa de Valores
de Nueva York.-

4,8 5,2 7,6 5,7 6,2 6,6 7,5 8,0 9,0 7,7
3,7 7,3 6,7 7,7 8,2 9,2 8,3 7,3 8,2 6,5
5,4 9,3 10,0 7,3 8,2 9,7 8,4 4,7 7,4 8,3
a) Calcule y explique la media y desviación estándar.-
b) De acuerdo con el Teorema de Chebycheff, por lo menos
¿Cuántas relaciones precios ganancias están dentro de dos
desviaciones estándar de la media?.-
c) ¿Cuántas están realmente a dos desviaciones estándar de la
media?.-
Resp. a) 7,3367 1,5464 b) 22,5 c) 29
MEDIDAS DE LAS
RELACIONES
ENTRE
VARIABLES
Cuando hemos hablados de los distintos gráficos para
mostrar los datos, hemos hecho referencia al diagrama
de dispersión como grafico para mostrar las relaciones
entre variables.- Ahora introduciremos la covariancia y
la correlación, que permiten describir numéricamente
una relación lineal y que después en la Unidad de
Regresión lineal simple y Correlación nos dedicaremos
en detalle.-

La covariancia es una media del sentido de una


relación lineal entre dos variables.- Un valor
positivo indica una relación lineal directa o creciente y
un valor negativo indica una relación lineal
decreciente.- Una covariancia poblacional será:
 (xi – μx) (yi - μy)
Cov (x; y) = σx,y =
N
Donde X e Y son los valores observados, μx y μy son
las medias poblacionales y N es el tamaño de la
población.-

Una covariancia muestral es:

 (xi – x) (yi - y)


Cov (X;Y) = Sxy = n-1

El coeficiente de correlación muestral nos da una medida


estandarizada de la relación lineal entre dos variables.-
Generalmente es una medida mas útil, ya que indica
tanto el sentido como el grado de la relación.- La
covariancia y el coeficiente de correlación
correspondiente tienen el mismo signo (ambos son
negativos o ambos son positivo).-
El coeficiente de correlación se calcula dividiendo la
covariancia por el producto de las desviaciones
estándares de las dos variables.-
El Coeficiente de Correlación poblacional será:
Cov (x; y)
ρ =
σx σy

Donde σx σy son las desviaciones estándar poblacionales


de las dos variables.-
El coeficiente de correlación muestral será:
Cov (x; y)
r =
sx sy
Donde Sx y Sy son las desviaciones estándar
muéstrales de las dos variables.-
Una regla útil y practica que se suele usar es que existe
una relación entre las variables numéricas si:

│r│ = 2

El coeficiente de correlación señala la relación o


asociación lineal entre dos variables numéricas.-
Cuando el coeficiente de correlación se acerca a +1 o a
-1, es mas fuerte la relación o asociación entre las dos
variables.- Cuando el coeficiente de correlación se
acerca a cero, existe poca o ninguna relación lineal
entre las dos variables numéricas
El signo del coeficiente de correlación lineal nos indica
de que tipo es la asociación.- Si el diagrama de
dispersión nos muestra una nube de puntos creciente,
es decir que a medida que crece una variable crece la
otra el coeficiente de correlación lineal será positivo,
caso inverso será negativo.- Será cero cuando no se
evidencia ningún tipo de relación entre ambas
variables.-

Veamos un ejemplo de
diagrama
de dispersión y su Coeficiente
de correlación.
EJERCICIO PARA DISCUTIR EN CLASE

Royal Manufacturas SRL, desea estudiar la relación entre


el numero de trabajadores, X y el numero de mesas, Y,
producidas en su planta de Córdoba.- Ha tomado una
muestra aleatoria de 10 horas de producción.- Se han
obtenido los siguientes pares de datos:

(12;20) (30:60) (15;27) (24;50) (14;21)


(18;30) (28;61) (26;54) (19;32) (27;57)

Calcule la covarianza y el coeficiente de correlación.-


Analizar brevemente la relación entre el numero de
trabajadores y el numero de mesas producidas por
hora.-

SOLUCION
Scatterplot of nº de mesas vs nº de trabajadores

60

50
nº de mesas

40

30

20

10 15 20 25 30
nº de trabajadores
La planilla de calculo para calcula la Covarianza y el
Coeficiente de correlación será:

x y Xi - x (xi - x)² (yi - y) (yi - y)² (xi - X) (yi- Y)
12 20 - 9,3 86,49 - 21,2 449,44 197,16
30 60 8,7 75,69 18,8 353,44 163,56
15 27 - 6,3 39,69 - 14,2 201,64 89,46
24 50 2,7 7,29 8,8 77,44 23,76
14 21 - 7,3 53,29 - 20,2 408,04 147,46
18 30 - 3,3 10,89 - 11,2 125,44 36,96
28 61 6,7 44,89 19,8 392,04 132,66
26 54 4,7 22,09 12,8 163,84 60,16
19 32 - 2,3 5,29 - 9,2 84,64 21,16
27 57 5,7 32,49 15,8 249,64 90,06
213 412 -------- 378,1 -------- 2505,6 962,4
Aplicando la ecuación de la covarianza tenemos:
 (xi – x) (yi - y)
Cov (x,y) = Sxy = =
n-1

962,4
= 9
= 106,93

Luego tenemos que el Coeficiente de correlación es:


Cov (x; y) 106,93
r = = = 0,989
Sx Sy 108,14758

Luego aplicando la relación 0,989 ≥ 0,64

Llegamos a la conclusión de que existe una estrecha


relación positiva entre el número de trabajadores y el
número de mesas producidas por hora.-

S-ar putea să vă placă și