Sunteți pe pagina 1din 26

1.

Introducción
2. Medidas de tendencia central
3. En resumen
4. Ejercicios propuestos

Introducción
El trabajo con datos se inició desde tiempos remotos en
las sociedades primitivas, cuando en los pueblos fue necesario contar sus
habitantes y calcular sus recursos para poder organizar sus comunidades y sus
vidas.
La historia confirma que los primeros procesos de recopilación, procesamiento
y análisis de información fueron realizados por los gobernantes de las grandes
civilizaciones antiguas con la finalidad de que tuvieran conocimientos de
los bienes que el Estado poseía y cómo estaban distribuidos en la población.
Desde entonces en muchos Estados se ordenaban estudios que les permitieran
tener mayor conocimiento de determinadas características de la población,
planificar los impuestos y conocer la cantidad de hombres disponibles para
la guerra.
Con el transcurso del tiempo ya por el siglo XVII en las sociedades era necesario
hacer análisis numéricos relacionados con la salud pública, nacimientos,
muertes y actividades propias del comercio, situación que determinó un
perfeccionamiento paulatino de los procesos de recopilación y tratamiento de
información hasta llegar a la actualidad en que el estudio y análisis de datos no
se limita solamente al estudio demográfico y de la Economía.
Su campo de aplicación se extendió a las diferentes esferas de la vida
del hombre pues día a día se presentan informaciones de carácter económico,
político y social que necesitan ser interpretados para una mejor comprensión de
los hechos y fenómenos de la sociedad y del mundo.
En esencia, la Estadística se puede dividir en dos grandes ramas: la Estadística
Descriptiva y la Inferencial. La Descriptiva es la que estudia la descripción de
una población representada por un conjunto de datos, se encarga principalmente
del estudio de las muestras. Cuando se pretende describir (hacer estimaciones,
tomar decisiones) acerca de una población partiendo solo de la información de
una muestra extraída de ella se hace uso de la Inferencial, o sea se realizan
generalizaciones a toda la población de la que fue seleccionada la muestra.
La Estadística Descriptiva analiza, estudia y describe a conjuntos de individuos
de una población. Su finalidad es obtener información, analizarla, elaborarla y
simplificarla lo necesario para que pueda ser interpretada cómoda y rápidamente
y, por tanto, pueda utilizarse eficazmente para el fin que se desee. El
trabajo estadístico inicial después de cuantificar las características
de interés consiste en describir a través de tablas, gráficos y determinados
estadígrafos agrupando los datos buscando descubrir características tendencias
en distribuciones de frecuencia empíricas.
Cuando se tiene una lista de datos numéricos a veces se necesita extraer uno
que sea representativo de todos, es decir, que ofrezca una cierta idea
del valor más típico, ya sea porque es el que más se repite o porque tenga la
misma cantidad de datos antes o después de él o porque es el valor alrededor
del cual están los demás. Este tipo de datos que se ubican hacia el lugar central
de la lista y que indican medidas representativas se llama medidas de tendencia
central o de posición.
Los valores que asumen estas medidas están incluidos entre el menor y el mayor
de los datos lo que no significa que ocuparán exacta y necesariamente su centro,
ni que los valores que tomen tengan que coincidir con alguno de los que han sido
recolectados. Entre estas medidas se tienen la moda, la mediana, la media
(aritmética, geométrica, armónica) y los percentiles, entre otras.
A veces es conveniente calcularlas todas, a veces dos y en otros casos una
medida es la apropiada, es decir, se pueden utilizar según el tipo de fenómeno
que se analice y las características de los datos que se procesan.
Desarrollo
Medidas de tendencia central
Definición 1: La moda
En una muestra de tamaño N, la moda, si existe, es el dato o los datos, que
tienen mayor frecuencia absoluta.
De lo anterior se infiere que en una muestra para que haya moda, tiene que
existir por lo menos un dato que se repita una cantidad de veces mayor que la
que aparecen los demás. Por tanto, en una muestra la moda puede o no existir,
y si existe puede ser única o no. Se puede calcular para
cualquier escala de medición de la variable que se estudia.
Para denotar la moda de una variable X, se usará la notación Mo.
En ocasiones una lista de datos puede tener más de una moda, cuando son
varios los datos que más se repiten (y se repiten la misma cantidad de veces).
Esta medida de tendencia central es también usualmente empleada para
estudiar situaciones de la vida práctica. Es muy útil cuando los datos son
cualitativos, pues no depende de cálculos con ellos.
Puede ser usada para cualquier tipo de datos, es fácil de determinar.
Se señala que puede no existir y que no es una función algebraica de los valores
individuales de la serie, por lo que puede oscilar mucho de una muestra a otra.
Por ejemplo, la moda se utiliza para indicar el número más frecuente de veces
que un árbitro muestra tarjeta amarilla a un jugador en un partido de voleibol para
penalizar sus faltas, para indicar la nota más frecuente que un grupo de alumnos
obtuvo en la prueba de Matemática, para identificar el horario preferido por los
pobladores de una ciudad en una encuesta sobre el tránsito de una línea de
ómnibus.
Definición 2: La mediana.
La mediana de una muestra de tamaño N, cuyos datos han sido ordenados
ascendente o descendentemente, es el valor (único) que ocupa el propio centro
de dichos datos.
Por tanto, si el elemento de la muestra cuyo valor es el de la mediana se excluye,
los datos primarios podrán redistribuirse en dos subgrupos, los cuales quedarán
integrados por cantidades iguales de datos.
Solo tiene validez práctica cuando se le aplica a variables que estén medidas en
escala métrica u ordinal.
Para calcular la mediana de una muestra de tamaño N, se deberán seguir los
siguientes pasos:
• Ordenar los datos de modo ascendente o descendente.
• Calcular la posición que ocupa la mediana: si N es impar, la mediana ocupa la
posición (N +1) / 2 de los datos; en cambio sí N es par, entonces la mediana se
encuentra entre los datos que ocupan las posiciones N/ 2 y (N /2) +1.
• Dentro de la muestra ordenada localizar el dato o los datos que ocupan la
posición o posiciones calculadas en el paso 3.
En el momento de realizar la interpretación de la mediana se deberá tener mucho
cuidado, ya que en ocasiones esta coincide con algunos de los datos primarios
y en otras no. Puede señalarse que:
 La mediana siempre existe y puede ser determinada para cualquier grupo de
datos, sean ordinales o numéricos (no para datos nominales).
 Siempre es única.
 Puede ser hallada con un mínimo de cálculos siendo apropiada para muestras
pequeñas.
 No es fácilmente afectada por valores extremos.
En la práctica se puede utilizar por ejemplo para determinar el valor central de
las notas de Matemática de los 30 alumnos de un grupo o el valor central de la
cantidad de pasajeros transportados por un ómnibus en los recorridos que hizo
en un día.
Ejemplo 1:
Conocidos los datos 3; 2; 5; 8; 7; 13; 11 calcule la mediana.
Después de ordenarlos queda: 2 3 5 7 8 11 13. El número de datos es impar: n

= 7, = 4, por tanto la mediana es el dato que ocupa el cuarto lugar; en éste


caso el número 7.
Definición 3: Media aritmética
La media aritmética es el valor alrededor del cual se encuentran los datos de
una lista.
Se calcula sumando todos los datos y dividiendo el resultado por el número de
datos. Solo tiene validez práctica cuando se le aplica a variables que estén
medidas en escala métrica.
Se denota por el símbolo y la fórmula para calcularla es:

Esta expresión Xi representa a cada dato o valor de la variable, el signo S


significa la suma de todos los datos y n es la cantidad de datos.
A esta media aritmética se le llamara simple para diferenciarla de la media
aritmética ponderada que se analizará posteriormente. También, se le suele
decir promedio, aunque este último nombre se puede prestar a confusión.
Constituye el punto de " equilibrio o centro de gravedad" de los datos.
Es muy utilizada al analizar situaciones de la vida como por ejemplo al calcular
el promedio de notas de un alumno y el promedio del gasto de electricidad o
de agua de una familia.
Puede señalarse que:
 Siempre existe.
 Siempre es única y fácil de calcular.
- Toma en cuenta cada dato de manera individual. Es una función algebraica de
los valores individuales de la serie de datos.
- Puede o no coincidir con uno o más de los datos y no depende de su cantidad.
Para su cálculo no requiere que los datos sean ordenados, ni tabulados y puede
o no ser igual a la moda.
- Se puede utilizar cuando la muestra no es extremadamente pequeña pero no
en el caso de datos nominales (que son atributos o valores dados por
propiedades) ni ordinales.
- Si en una muestra todos los datos son iguales (constantes), entonces la media
aritmética de esa muestra es esa misma constante.
La media aritmética está influida por valores extremos, lo que constituye una
limitante en su utilización, o sea, está "afectada" por cada dato y principalmente,
por aquellos que se alejan mucho de los demás. Quizás sea esta la gran
deficiencia o limitación de esta medida lo que hace que, en ocasiones, la media
no sea una "buena representación" de los datos.
Ejemplo 2:
Si se calcula la media considerando las calificaciones sobre 100 puntos de 10
alumnos 42 52 100 48 60 58 56 42 39 100
60 esto significaría que la media de los alumnos está aprobado, sin embargo
sólo hay 3 aprobados (es decir, tres calificaciones de 60 o más puntos).
Ejemplo 3:
Dada las notas (sobre 10 puntos) de 30 alumnos
6,9 9,7 3,2 6,8 8,8 5,3 4,5 2,8 8,7 9,8
6,8 7,6 9,2 8,3 8,3 6,3 6,9 7,6 6,8 9,3
7,7 7,6 9,8 5,7 1,3 7,2 9,7 4,9 6,9 1,7
a) Calcular la moda: Mo = 6,8 ; 6,9 ; 7,6
b) Calcular la mediana: Después de ordenadas las notas medias (pues 30 es
par) son la 15 (6,9) y la 16
(7,2), luego la mediana es:

En este caso la mediana no es un dato pues hay un número par de datos.


Definición 4: Media geométrica
La media geométrica de una muestra de tamaño N es la raíz n - ésima
del producto de los N datos de esa muestra. Se denota esta medida por G.
En símbolos:

Cuando los datos vienen dados por razones es más recomendable utilizar la
geométrica en lugar de la aritmética. La media geométrica se utiliza en los casos
en que los datos de la variable que se investiga, presenta una "razón de
crecimiento". Tiene, entre otros campos, gran uso dentro de la Biología.
Si la cantidad de observaciones es muy grande para simplificar los cálculos se
hace uso de las propiedades de los logaritmos decimales y se obtiene una nueva
expresión para esta fórmula, que en realidad es la que se utiliza:

En definitiva, para calcular la media geométrica de una muestra de tamaño N, se


procede del siguiente modo.
 Calcular el logaritmo decimal de cada dato de la muestra.
 Calcular la media aritmética de esos nuevos datos.
 Calcular el antilogaritmo de esa media.
Definición 5: Media armónica
La media armónica de una muestra de tamaño N es el cociente que se
establece entre el tamaño de la muestra y la suma de los recíprocos de los
datos de esa muestra.
Denotando por MA esta medida y su fórmula para el cálculo es:

En resumen, para calcular la media armónica de una muestra de tamaño N, se


procede del siguiente modo:
 Calcular el recíproco de cada dato de la muestra.
 Calcular la suma de esos nuevos datos.
 Dividir el valor de N por la suma anterior.
La media geométrica de un conjunto de valores positivos es menor o igual a su
aritmética pero mayor o igual que la armónica.
Ejemplo 4:
La tabla de frecuencias que se presenta a continuación corresponde a los
resultados del control que realizó la directora de una escuela- durante 19 días -
a los alumnos que llegaron tarde a clases. Calcule la media, la moda y la
mediana.

Para calcular la media, como los datos están recogidos en la tabla donde están
reflejadas las frecuencias absolutas se puede reducir el número de sumandos
haciendo uso del cálculo de los productos que se obtienen al multiplicar la
cantidad de alumnos que llegaron tarde por la frecuencia. La suma de estos
productos se divide por el número total de datos y de esta forma se obtiene la
media aritmética.

Si se observa la tabla de frecuencias se puede notar directamente de que el valor


que más se repite en este conjunto de datos es el 5. De manera que la cantidad
de alumnos que con más frecuencia llegaron tarde al matutino fue de 5, que es
la moda de estos datos En este caso para determinar la mediana se deberá
ordenar en forma creciente o decreciente el conjunto de datos: 0; 0; 1 ;1 ;2 ;2 ;2
;3 ;3 ;4 ;4; 5 ;5; 5; 5; 5; 5; 6; 7 . Como el número de datos es impar bastaría tomar
su valor central que en este caso es 4. Luego la mediana del número de alumnos
que llegaron tarde al matutino es 4.
En resumen
De las medidas de tendencia central estudiadas la media es la más utilizada,
aunque en ciertos casos la utilización de la mediana o de la moda es preferible.
La media en muy sensible a valores extremos, o sea, cuando se altera
drásticamente el valor de uno de los datos, la media varía considerablemente.
La mediana es preferible a la media cuando se está interesado en conocer el
punto medio de la distribución de los datos ya que es el valor que la divide en
dos partes iguales.
La moda revela su utilidad, tanto en el estudio de datos cualitativos, como
cuantitativos, mientras que la media y la mediana son aplicables a datos
cuantitativos.
La importancia de las medidas estudiadas está en dependencia del tipo de datos,
de su distribución y del objetivo que se tiene en la realización del estudio. A pesar
de ser considerada la media como la medida más importante en la mayoría de
los estudios de fenómenos o hechos, el conocimiento de las tres proporciona
una mejor descripción de estos.
Ejercicios propuestos
 1. Se lanza un dado 19 veces con las siguientes lecturas: 5, 1, 3, 3, 6, 2, 6, 4, 5,
2, 1, 2, 5, 3, 2, 6, 1, 4, 4
 a) ¿Cuál es el promedio de las lecturas obtenidas?
 b) ¿Cuál es la tirada que más se repite?
 c) ¿Cuál es el mayor valor intermedio de todas las lecturas, ordenadas estas de
menor a mayor?
 2. En un escuela se seleccionaron al azar 20 alumnos para hacer
una investigación sobre la edad de los alumnos que con más frecuencia
participas en competencias deportivas. Para ello se seleccionaron como muestra
alumnos de diferentes grados, recogiéndose sus edades de la siguiente forma:
11 15 14 12 11 14 14 13 15 16
12 12 14 14 15 15 13 14 15 13
a) Ordene los datos de menor a mayor.
b) Determine la cantidad de alumnos que tienen 15 años
c) ¿Qué porciento de alumnos tienen 11 años?
d) ¿Cuál es la edad más frecuente de los alumnos seleccionados?
e) Diga la cantidad de alumnos que tienen edad superior a 13 años.
f) Realice una investigación similar en la escuela donde realiza la
práctica laboral.
12. La media de las edades de Ángel y José es 24 años. Si José tiene 18 años,
entonces, que edad tienen Ángel.
13. La media de las edades de Carlos y Roberto es 15 años. La media de las
edades de Carlos y Ana es 26 años. La media de las edades de Ana y Roberto
es 18 años. ¿Qué edad tienen Carlos?
14. Se sabe que la media de tres números es 2,5 . 104, siendo dos de los
números 1, 2 . 104 y 5,6 . 10 4, entonces ¿Cuál es el tercer número?
15.

Autor:
Lic. Wilmer Valle Castañeda.

1. Desviación típica
2. Varianza y desviación estándar
3. Referencias bibliográficas

Las medias de tendencia central o posición nos indican donde se sitúa un dato
dentro de una distribución de datos. Las medidas de dispersión, variabilidad o
variación nos indican si esos datos están próximos entre sí o sí están dispersos,
es decir, nos indican cuán esparcidos se encuentran los datos. Estas medidas
de dispersión nos permiten apreciar la distancia que existe entre los datos a un
cierto valor central e identificar la concentración de los mismos en un cierto
sector de la distribución, es decir, permiten estimar cuán dispersas están dos o
más distribuciones de datos.
Estas medidas permiten evaluar la confiabilidad del valor del dato central de un
conjunto de datos, siendo la media aritmética el dato central más utilizado.
Cuando existe una dispersión pequeña se dice que los datos están dispersos o
acumulados cercanamente respecto a un valor central, en este caso el dato
central es un valor muy representativo. En el caso que la dispersión sea grande
el valor central no es muy confiable. Cuando una distribución de datos tiene poca
dispersión toma el nombre de distribución homogénea y si su dispersión es alta
se llama heterogénea.
Desviación media o desviación promedio
La desviación media o desviación promedio es la media aritmética de los
valores absolutos de las desviaciones respecto a la media aritmética.
1.1) PROPIEDADES
Guarda las mismas dimensiones que las observaciones. La suma
de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad
tiene un inconveniente: Desde el punto de vista geométrico, la distancia que
induce la desviación media en el espacio de observaciones no es la natural (no
permite definir ángulos entre dos conjuntos de observaciones). Esto hace que
sea muy engorroso trabajar con ella a la hora de hacer inferencia a la población.
Cuando mayor sea el valor de la desviación media, mayor es la dispersión de los
datos. Sin embargo, no proporciona una relación matemática precisa entre su
magnitud y la posición de un dato dentro de una distribución.
La desviación media al tomar los valores absolutos mide una observación sin
mostrar si la misma está por encima o por debajo de la media aritmética.
1.2) MÉTODOS DE CÁLCULO
1.2.1) Para Datos No Agrupados
Se emplea la ecuación:

Ejemplo ilustrativo:
Calcular la desviación media de la distribución: 3, 8, 8, 8, 9, 9, 9, 18
Solución:
Se calcula la media aritmética.

Se calcula la desviación media.

Empleando Excel se calcula de la siguiente manera:


1.2.2) Para Datos Agrupados en Tablas de Frecuencia
Se emplea la ecuación:

Ejemplo ilustrativo: Calcular la desviación media en base a la siguiente tabla


sobre las calificaciones de un estudiante en 12 asignaturas evaluadas sobre 10.
Cantidad de
Calificación
asignaturas
6 4
7 2
8 3
9 2
10 1
Total 12
Solución:
Se calcula la media aritmética.

1.2.3) Para Datos Agrupados en Intervalos


Se emplea la ecuación:

Donde xm es la marca de clase.


Ejemplo ilustrativo: Calcular la desviación media de un curso de 40 estudiantes
en la asignatura de Estadística en base a la siguiente tabla:
Cantidad de
Calificación
estudiantes
2-4 6
4-6 8
6-8 16
8-10 10
Total 40
Solución:
Para calcular la media aritmética se llena la siguiente tabla:
Intervalo f xm f·xm
2-4 6 3 18
4-6 8 5 40
6-8 16 7 112
8-10 10 9 90
Total 40 260
Calculando la media aritmética se obtiene:

Varianza y desviación estándar


La varianza es la media aritmética de los cuadrados de las desviaciones respecto
a la media aritmética, es decir, es el promedio de las desviaciones de la media
elevadas al cuadrado. La desviación estándar o desviación típica es la raíz de la
varianza.
La varianza y la desviación estándar proporcionan una medida sobre el punto
hasta el cual se dispersan las observaciones alrededor de su media aritmética.
2.1) PROPIEDADES
- La varianza y desviación estándar (o cualquier otra medida de dispersión)
indican el grado en que están dispersos los datos en una distribución. A mayor
medida, mayor dispersión.
- La varianza es un número muy grande con respecto a las observaciones, por
lo que con frecuencia se vuelve difícil para trabajar.
- Debido a que las desviaciones son elevadas al cuadrado y la varianza siempre
se expresa en términos de los datos originales elevados al cuadrado, se obtiene
unidades de medida de los datos que no tiene sentido o interpretación lógica.
Por ejemplo, si se calcula la varianza de una distribución de datos medidos en
metros, segundos, dólares, etc, se obtendrá una varianza mediada en metros
cuadrados, segundos cuadrados, dólares cuadrados, respectivamente, unidades
de medida que no tienen significado lógico respecto a los datos originales.
- Para solucionar las complicaciones que se tiene con la varianza, se halla la raíz
cuadrada de la misma, es decir, se calcula la desviación estándar, la cual es un
número pequeño expresado en unidades de los datos originales y que tiene un
significado lógico respeto a los mismos.
A pesar de lo anterior, es difícil describir exactamente qué es lo que mide la
desviación estándar. Sin embargo, hay un resultado útil, que lleva el nombre del
matemático ruso Pafnuty Lvovich Chebyshev, y se aplica a todos los conjuntos
de datos. Este teorema de Chebyshev establece que para todo conjunto de
datos, por lo menos 1- 1/k2 de las observaciones están dentro de k desviaciones
estándar de la media, en donde k es cualquier número mayor que 1. Este
teorema se expresa de la siguiente manera:

Así por ejemplo, si se forma una distribución de datos con k =3 desviaciones


estándar por debajo de la media hasta 3 desviaciones estándar por encima de la
media, entonces por lo menos

Interpretación: El 88,89% de todas las observaciones estarán dentro ± 3


desviaciones de la media.
2.2) MÉTODOS DE CÁLCULO
2.2.1) Para Datos No Agrupados
La varianza para una población se calcula con:
Notas:
1) Para el cálculo de la varianza de una muestra se divide por n-1 en lugar de N,
debido a que se tiene n-1 grados de libertad en la muestra. Otra razón por la que
se divide por n-1 es debido a que una muestra generalmente está un poco menos
dispersa que la población de la cual se tomó. Al dividir para n-1 en lugar de N se
cumple con la tendencia y sentido lógico de que la varianza y desviación
estándar de la muestra deben tener un valor más pequeño que la varianza y
desviación estándar de la población.
2) En la realidad, salvo indicación expresa, no se calcula la varianza y la
desviación estándar de la población, ya que para ahorrar tiempo,
esfuerzo, dinero, etc. es mejor trabajar con datos que representan a la muestra.
Ejemplo ilustrativo N° 1
Considere que los siguientes datos corresponden al sueldo de una población:
$350, $400, $500, $700 y $1000
1) Calcular la desviación estándar.
2) ¿Cuál es el intervalo que está dentro de k = 2 desviaciones estándar de la
media?. ¿Qué porcentaje de las observaciones se encuentran dentro de ese
intervalo?
Solución:
1) Para la calcular la desviación estándar se sigue los siguientes pasos:
a) Se calcula la media aritmética.
b) Se aplica la respectiva fórmula para calcular la varianza

c) Se calcula la desviación estándar.

Empleando Excel se calcula de la siguiente manera:

2) Cálculo del intervalo de k = 2 desviaciones estándar de la media.


Se transportan 2 desviaciones estándar (2 x $ 237,4868) = $ 474,97 por encima
y por debajo de la media = $ 590
Por lo tanto se tiene un intervalo desde $ 590 - $474,97 = $ 115,03 hasta $ 590
+ $474,97 = $ 1064,97
Aplicando el Teorema de Chebyshev

Interpretación: Se puede afirmar de que por lo menos el 75% los sueldos están
entre $ 115,03 y $ 1064,97
Ejemplo ilustrativo N° 2: Dos empresas, A y B, venden sobres
de café instantáneo de 350 gramos. Se seleccionaron al azar en
los mercados cinco sobres de cada una de las compañías y se pesaron
cuidadosamente sus contenidos. Los resultados fueron los siguientes.
A B
350,14 350,09
350,18 350,12
349,98 350,20
349,99 349,88
350,12 349,95
1) ¿Qué empresa proporciona más café en sus sobres?
2) ¿Qué empresa llena sus sobres de manera más consistente?
Solución:
a) Se calcula las medias aritméticas.

Interpretación: Como la media aritmética de la empresa A es mayor que la de la


empresa B, por lo tanto la empresa A proporciona más café en sus sobres.
b) Se calcula las desviaciones estándar.
Interpretación: Como la desviación estándar de la empresa A es menor a la
desviación estándar de la empresa B, por lo tanto la empresa A es más
consistente al llenar los sobres de café.
Empleando Excel se calcula de la siguiente manera:

2.2.2) Para Datos Agrupados en Tablas de Frecuencia


La varianza para una población se calcula con:
Ejemplo ilustrativo: Calcular la desviación estándar de los siguientes datos
correspondientes a una muestra.
Calificaciones f
4 3
5 6
6 4
7 13
8 7
10 6
Total 39
Solución:
a) Se llena la siguiente tabla:
Calificaciones f fx
4 3 12
5 6 30
6 4 24
7 13 91
8 7 56
10 6 60
Total 39 273
b) Se calcula la media aritmética.
2.2.3) Para Datos Agrupados en Intervalos
La varianza para una población se calcula con:

Ejemplo ilustrativo: Calcular la desviación estándar de los siguientes datos


correspondientes a una muestra.
Intervalo f
60-65 5
65-70 20
70-75 40
80-85 27
85-90 8
Total 100
Solución:
a) Se llena la siguiente tabla:
Intervalo f xm f·xm
60-65 5 62,5 312,5
65-70 20 67,5 1350
70-75 40 72,5 2900
80-85 27 82,5 2227,5
85-90 8 87,5 700
Total 100 7490
b) Se calcula la media aritmética.

d) Se calcula la desviación estándar.

Referencias bibliográficas
SUÁREZ, Mario, (2011), Interaprendizaje de Estadística Básica,
TAPIA , Fausto Ibarra, Ecuador.
Autor:
Mario Orlando Suárez Ibujes

Leer más: http://www.monografias.com/trabajos89/medidas-de-


dispersion/medidas-de-dispersion.shtml#ixzz5Fj9kGvZE
1.
Aspectos Teóricos
2. Antecedentes del Problema
3. Desarrollo
4. Hipótesis
5. Interpretación
6. Conclusión

1. INTRODUCCIÓN
Si sabemos que existe una relación entre una variable denominada dependiente
y otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las
estaturas y pesos de personas, la producción agraria y la cantidad de
fertilizantes utilizados, etc.), puede darse el problema de que la dependiente
asuma múltiples valores para una combinación de valores de las
independientes.
La dependencia a la que hacemos referencia es relacional matemática y no
necesariamente de causalidad. Así, para un mismo número de unidades
producidas, pueden existir niveles de costo, que varían empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en
los cuales se obtiene una nueva relación pero de un tipo especial
denominado función, en la cual la variable independiente se asocia con un
indicador de tendencia central de la variable dependiente. Cabe recordar que en
términos generales, una función es un tipo de relación en la cual para
cada valor de la variable independiente le corresponde uno y sólo un valor de la
variable dependiente.
2. ASPECTOS TEÓRICOS
REGRESIÓN SIMPLE Y CORRELACIÓN
La Regresión y la correlación son dos técnicas estadísticas que se pueden
utilizar para solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y
cuantificar alguna Relación Funcional entre dos o más variables, donde una
variable depende de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera
en un modelo de Regresión Simple.
"Y es una función de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable
dependiente y cuál es la variable independiente.
En el Modelo de Regresión Simple se establece que Y es una función de sólo
una variable independiente, razón por la cual se le denomina también Regresión
Divariada porque sólo hay dos variables, una dependiente y otra independiente
y se representa así:
Y = f (X)
"Y está regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. También
se le llama REGRESANDO ó VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó
REGRESOR y se le utiliza para EXPLICAR Y.
ANÁLISIS ESTADÍSTICO: REGRESIÓN LINEAL SIMPLE
En el estudio de la relación funcional entre dos variables poblacionales, una
variable X, llamada independiente, explicativa o de predicción y una variable Y,
llamada dependiente o variable respuesta, presenta la siguiente notación:
Y=a+bX+e
Donde:
a es el valor de la ordenada donde la línea de regresión se intercepta con el eje
Y.
b es el coeficiente de regresión poblacional (pendiente de la línea recta)
e es el error
SUPOSICIONES DE LA REGRESIÓN LINEAL
1. Los valores de la variable independiente X son fijos, medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y
(subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente
independientes.

ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN MUESTRAL


Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir,
encontrar los valores de a y b con los datos observados de la muestra.
El método de estimación es el de Mínimos Cuadrados, mediante el cual se
obtiene:

Luego, la ecuación de regresión muestral estimada es

Que se interpreta como:


a es el estimador de a
Es el valor estimado de la variable Y cuando la variable X = 0
b es el estimador de b , es el coeficiente de regresión
Está expresado en las mismas unidades de Y por cada unidad de X. Indica el
número de unidades en que varía Y cuando se produce un cambio, en una
unidad, en X (pendiente de la recta de regresión).
Un valor negativo de b sería interpretado como la magnitud del decremento en
Y por cada unidad de aumento en X.
3. ANTECEDENTES DEL PROBLEMA
Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y,
kg) de una muestra de 12 hombres adultos. Para cada estatura fijada
previamente se observó el peso de una persona seleccionada de entre
el grupo con dicha estatura, resultando:
X 152 155 152 155 157 152 157 165 162 178 183 178
Y 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82
Con estos datos vamos a plantear una ecuación de regresión simple que nos
permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y
contrastaremos nuestra hipótesis con la prueba F.
4. DESARROLLO
 Representación matemática y gráfica de los datos:

Representación Matemática
estatur peso I.C. para la I. C.
a s Regresión Lineal media individual
dato y Residu
s x y x ^2 y ^2 xy est. al L. I. L. S. L. I. L. S.
2310 56.4 53.0 59.7 47.3 65.5
1 152 50 4 2500 7600 3 -6.43 7 9 0 6
2402 3782. 9532. 59.0 56.0 61.9 50.0 68.0
2 155 61.5 5 3 5 3 2.47 9 7 5 2
2310 2970. 56.4 53.0 59.7 47.3 65.5
3 152 54.5 4 3 8284 3 -1.93 7 9 0 6
2402 3306. 8912. 59.0 56.0 61.9 50.0 68.0
4 155 57.5 5 3 5 3 -1.53 9 7 5 2
2464 4032. 9969. 60.7 58.0 63.4 51.8 69.6
5 157 63.5 9 3 5 7 2.73 5 8 5 8
2310 56.4 53.0 59.7 47.3 65.5
6 152 59 4 3481 8968 3 2.57 7 9 0 6
2464 60.7 58.0 63.4 51.8 69.6
7 157 61 9 3721 9577 7 0.23 5 8 5 8
2722 1188 67.7 65.1 70.2 58.8 76.5
8 165 72 5 5184 0 1 4.29 7 4 5 7
2624 1069 65.1 62.6 67.5 56.2 73.9
9 162 66 4 4356 2 1 0.89 5 6 7 4
3168 1281 78.9 74.6 83.3 69.4 88.5
10 178 72 4 5184 6 9 -6.99 5 3 5 2
3348 1537 83.3 78.0 88.6 73.3 93.3
11 183 84 9 7056 2 2 0.68 1 4 1 4
3168 1459 78.9 74.6 83.3 69.4 88.5
12 178 82 4 6724 6 9 3.01 5 3 5 2
Representación Gráfica
5. HIPÓTESIS
HO: No hay relación entre la variable peso y la variable estatura.
HA: Hay relación entre la variable peso y la variable estatura.
Tabla de análisis de
varianza
Fuente
de Grados de Suma de Cuadrados
estadístico
Variación libertad cuadrados medios F
Debido a
la
regresión 1 1061.1 1061.1 73.08
error 10 145.2 14.5
total 11 1206.3
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hipótesis nula y
aceptamos que la variable estatura está relacionada con la variable peso con un
95% de confianza.
 De acuerdo al desarrollo matemático hemos obtenido los siguientes cálculos:

Lo que nos permite obtener los coeficientes a y b.


Luego,
b = 1223 / 1409.667 = 0.8676
a = 65.25 – (0.8676) (162.167) = -75.446
6. INTERPRETACIÓN

 La ecuación de regresión estimada es:

Coeficiente de correlación: R= 0.9379


Coeficiente de determinación: R²=0.8796
El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio,
por cada centímetro de aumento en la estatura de los hombres adultos.
El valor de a, no tiene interpretación práctica en el ejemplo, se interpretaría como
el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0.
Utilizando la ecuación de regresión para estimar o predecir valores de la variable
Y: Para una talla de 180 se obtiene un peso de 80.7 kg.
¿Cuánto se espera que pese (en promedio) una persona que mide 1.60 m?
Sustituyendo el valor de interés en la ecuación:

Se obtiene:

7. CONCLUSIÓN
La ecuación de Regresión Lineal estimada para las variables estatura y peso
muestran, de acuerdo a la prueba F, relación.
Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación
positiva.
Además si consideramos el coeficiente de determinación R² = 87.9 podemos
indicar que el 87.9% de las variaciones que ocurren en el peso se explicarían por
las variaciones en la variable estatura.
MARÍA YSABEL RINCÓN PINO

S-ar putea să vă placă și