Documente Academic
Documente Profesional
Documente Cultură
Introducción
2. Medidas de tendencia central
3. En resumen
4. Ejercicios propuestos
Introducción
El trabajo con datos se inició desde tiempos remotos en
las sociedades primitivas, cuando en los pueblos fue necesario contar sus
habitantes y calcular sus recursos para poder organizar sus comunidades y sus
vidas.
La historia confirma que los primeros procesos de recopilación, procesamiento
y análisis de información fueron realizados por los gobernantes de las grandes
civilizaciones antiguas con la finalidad de que tuvieran conocimientos de
los bienes que el Estado poseía y cómo estaban distribuidos en la población.
Desde entonces en muchos Estados se ordenaban estudios que les permitieran
tener mayor conocimiento de determinadas características de la población,
planificar los impuestos y conocer la cantidad de hombres disponibles para
la guerra.
Con el transcurso del tiempo ya por el siglo XVII en las sociedades era necesario
hacer análisis numéricos relacionados con la salud pública, nacimientos,
muertes y actividades propias del comercio, situación que determinó un
perfeccionamiento paulatino de los procesos de recopilación y tratamiento de
información hasta llegar a la actualidad en que el estudio y análisis de datos no
se limita solamente al estudio demográfico y de la Economía.
Su campo de aplicación se extendió a las diferentes esferas de la vida
del hombre pues día a día se presentan informaciones de carácter económico,
político y social que necesitan ser interpretados para una mejor comprensión de
los hechos y fenómenos de la sociedad y del mundo.
En esencia, la Estadística se puede dividir en dos grandes ramas: la Estadística
Descriptiva y la Inferencial. La Descriptiva es la que estudia la descripción de
una población representada por un conjunto de datos, se encarga principalmente
del estudio de las muestras. Cuando se pretende describir (hacer estimaciones,
tomar decisiones) acerca de una población partiendo solo de la información de
una muestra extraída de ella se hace uso de la Inferencial, o sea se realizan
generalizaciones a toda la población de la que fue seleccionada la muestra.
La Estadística Descriptiva analiza, estudia y describe a conjuntos de individuos
de una población. Su finalidad es obtener información, analizarla, elaborarla y
simplificarla lo necesario para que pueda ser interpretada cómoda y rápidamente
y, por tanto, pueda utilizarse eficazmente para el fin que se desee. El
trabajo estadístico inicial después de cuantificar las características
de interés consiste en describir a través de tablas, gráficos y determinados
estadígrafos agrupando los datos buscando descubrir características tendencias
en distribuciones de frecuencia empíricas.
Cuando se tiene una lista de datos numéricos a veces se necesita extraer uno
que sea representativo de todos, es decir, que ofrezca una cierta idea
del valor más típico, ya sea porque es el que más se repite o porque tenga la
misma cantidad de datos antes o después de él o porque es el valor alrededor
del cual están los demás. Este tipo de datos que se ubican hacia el lugar central
de la lista y que indican medidas representativas se llama medidas de tendencia
central o de posición.
Los valores que asumen estas medidas están incluidos entre el menor y el mayor
de los datos lo que no significa que ocuparán exacta y necesariamente su centro,
ni que los valores que tomen tengan que coincidir con alguno de los que han sido
recolectados. Entre estas medidas se tienen la moda, la mediana, la media
(aritmética, geométrica, armónica) y los percentiles, entre otras.
A veces es conveniente calcularlas todas, a veces dos y en otros casos una
medida es la apropiada, es decir, se pueden utilizar según el tipo de fenómeno
que se analice y las características de los datos que se procesan.
Desarrollo
Medidas de tendencia central
Definición 1: La moda
En una muestra de tamaño N, la moda, si existe, es el dato o los datos, que
tienen mayor frecuencia absoluta.
De lo anterior se infiere que en una muestra para que haya moda, tiene que
existir por lo menos un dato que se repita una cantidad de veces mayor que la
que aparecen los demás. Por tanto, en una muestra la moda puede o no existir,
y si existe puede ser única o no. Se puede calcular para
cualquier escala de medición de la variable que se estudia.
Para denotar la moda de una variable X, se usará la notación Mo.
En ocasiones una lista de datos puede tener más de una moda, cuando son
varios los datos que más se repiten (y se repiten la misma cantidad de veces).
Esta medida de tendencia central es también usualmente empleada para
estudiar situaciones de la vida práctica. Es muy útil cuando los datos son
cualitativos, pues no depende de cálculos con ellos.
Puede ser usada para cualquier tipo de datos, es fácil de determinar.
Se señala que puede no existir y que no es una función algebraica de los valores
individuales de la serie, por lo que puede oscilar mucho de una muestra a otra.
Por ejemplo, la moda se utiliza para indicar el número más frecuente de veces
que un árbitro muestra tarjeta amarilla a un jugador en un partido de voleibol para
penalizar sus faltas, para indicar la nota más frecuente que un grupo de alumnos
obtuvo en la prueba de Matemática, para identificar el horario preferido por los
pobladores de una ciudad en una encuesta sobre el tránsito de una línea de
ómnibus.
Definición 2: La mediana.
La mediana de una muestra de tamaño N, cuyos datos han sido ordenados
ascendente o descendentemente, es el valor (único) que ocupa el propio centro
de dichos datos.
Por tanto, si el elemento de la muestra cuyo valor es el de la mediana se excluye,
los datos primarios podrán redistribuirse en dos subgrupos, los cuales quedarán
integrados por cantidades iguales de datos.
Solo tiene validez práctica cuando se le aplica a variables que estén medidas en
escala métrica u ordinal.
Para calcular la mediana de una muestra de tamaño N, se deberán seguir los
siguientes pasos:
• Ordenar los datos de modo ascendente o descendente.
• Calcular la posición que ocupa la mediana: si N es impar, la mediana ocupa la
posición (N +1) / 2 de los datos; en cambio sí N es par, entonces la mediana se
encuentra entre los datos que ocupan las posiciones N/ 2 y (N /2) +1.
• Dentro de la muestra ordenada localizar el dato o los datos que ocupan la
posición o posiciones calculadas en el paso 3.
En el momento de realizar la interpretación de la mediana se deberá tener mucho
cuidado, ya que en ocasiones esta coincide con algunos de los datos primarios
y en otras no. Puede señalarse que:
La mediana siempre existe y puede ser determinada para cualquier grupo de
datos, sean ordinales o numéricos (no para datos nominales).
Siempre es única.
Puede ser hallada con un mínimo de cálculos siendo apropiada para muestras
pequeñas.
No es fácilmente afectada por valores extremos.
En la práctica se puede utilizar por ejemplo para determinar el valor central de
las notas de Matemática de los 30 alumnos de un grupo o el valor central de la
cantidad de pasajeros transportados por un ómnibus en los recorridos que hizo
en un día.
Ejemplo 1:
Conocidos los datos 3; 2; 5; 8; 7; 13; 11 calcule la mediana.
Después de ordenarlos queda: 2 3 5 7 8 11 13. El número de datos es impar: n
Cuando los datos vienen dados por razones es más recomendable utilizar la
geométrica en lugar de la aritmética. La media geométrica se utiliza en los casos
en que los datos de la variable que se investiga, presenta una "razón de
crecimiento". Tiene, entre otros campos, gran uso dentro de la Biología.
Si la cantidad de observaciones es muy grande para simplificar los cálculos se
hace uso de las propiedades de los logaritmos decimales y se obtiene una nueva
expresión para esta fórmula, que en realidad es la que se utiliza:
Para calcular la media, como los datos están recogidos en la tabla donde están
reflejadas las frecuencias absolutas se puede reducir el número de sumandos
haciendo uso del cálculo de los productos que se obtienen al multiplicar la
cantidad de alumnos que llegaron tarde por la frecuencia. La suma de estos
productos se divide por el número total de datos y de esta forma se obtiene la
media aritmética.
Autor:
Lic. Wilmer Valle Castañeda.
1. Desviación típica
2. Varianza y desviación estándar
3. Referencias bibliográficas
Las medias de tendencia central o posición nos indican donde se sitúa un dato
dentro de una distribución de datos. Las medidas de dispersión, variabilidad o
variación nos indican si esos datos están próximos entre sí o sí están dispersos,
es decir, nos indican cuán esparcidos se encuentran los datos. Estas medidas
de dispersión nos permiten apreciar la distancia que existe entre los datos a un
cierto valor central e identificar la concentración de los mismos en un cierto
sector de la distribución, es decir, permiten estimar cuán dispersas están dos o
más distribuciones de datos.
Estas medidas permiten evaluar la confiabilidad del valor del dato central de un
conjunto de datos, siendo la media aritmética el dato central más utilizado.
Cuando existe una dispersión pequeña se dice que los datos están dispersos o
acumulados cercanamente respecto a un valor central, en este caso el dato
central es un valor muy representativo. En el caso que la dispersión sea grande
el valor central no es muy confiable. Cuando una distribución de datos tiene poca
dispersión toma el nombre de distribución homogénea y si su dispersión es alta
se llama heterogénea.
Desviación media o desviación promedio
La desviación media o desviación promedio es la media aritmética de los
valores absolutos de las desviaciones respecto a la media aritmética.
1.1) PROPIEDADES
Guarda las mismas dimensiones que las observaciones. La suma
de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad
tiene un inconveniente: Desde el punto de vista geométrico, la distancia que
induce la desviación media en el espacio de observaciones no es la natural (no
permite definir ángulos entre dos conjuntos de observaciones). Esto hace que
sea muy engorroso trabajar con ella a la hora de hacer inferencia a la población.
Cuando mayor sea el valor de la desviación media, mayor es la dispersión de los
datos. Sin embargo, no proporciona una relación matemática precisa entre su
magnitud y la posición de un dato dentro de una distribución.
La desviación media al tomar los valores absolutos mide una observación sin
mostrar si la misma está por encima o por debajo de la media aritmética.
1.2) MÉTODOS DE CÁLCULO
1.2.1) Para Datos No Agrupados
Se emplea la ecuación:
Ejemplo ilustrativo:
Calcular la desviación media de la distribución: 3, 8, 8, 8, 9, 9, 9, 18
Solución:
Se calcula la media aritmética.
Interpretación: Se puede afirmar de que por lo menos el 75% los sueldos están
entre $ 115,03 y $ 1064,97
Ejemplo ilustrativo N° 2: Dos empresas, A y B, venden sobres
de café instantáneo de 350 gramos. Se seleccionaron al azar en
los mercados cinco sobres de cada una de las compañías y se pesaron
cuidadosamente sus contenidos. Los resultados fueron los siguientes.
A B
350,14 350,09
350,18 350,12
349,98 350,20
349,99 349,88
350,12 349,95
1) ¿Qué empresa proporciona más café en sus sobres?
2) ¿Qué empresa llena sus sobres de manera más consistente?
Solución:
a) Se calcula las medias aritméticas.
Referencias bibliográficas
SUÁREZ, Mario, (2011), Interaprendizaje de Estadística Básica,
TAPIA , Fausto Ibarra, Ecuador.
Autor:
Mario Orlando Suárez Ibujes
1. INTRODUCCIÓN
Si sabemos que existe una relación entre una variable denominada dependiente
y otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las
estaturas y pesos de personas, la producción agraria y la cantidad de
fertilizantes utilizados, etc.), puede darse el problema de que la dependiente
asuma múltiples valores para una combinación de valores de las
independientes.
La dependencia a la que hacemos referencia es relacional matemática y no
necesariamente de causalidad. Así, para un mismo número de unidades
producidas, pueden existir niveles de costo, que varían empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en
los cuales se obtiene una nueva relación pero de un tipo especial
denominado función, en la cual la variable independiente se asocia con un
indicador de tendencia central de la variable dependiente. Cabe recordar que en
términos generales, una función es un tipo de relación en la cual para
cada valor de la variable independiente le corresponde uno y sólo un valor de la
variable dependiente.
2. ASPECTOS TEÓRICOS
REGRESIÓN SIMPLE Y CORRELACIÓN
La Regresión y la correlación son dos técnicas estadísticas que se pueden
utilizar para solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y
cuantificar alguna Relación Funcional entre dos o más variables, donde una
variable depende de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera
en un modelo de Regresión Simple.
"Y es una función de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable
dependiente y cuál es la variable independiente.
En el Modelo de Regresión Simple se establece que Y es una función de sólo
una variable independiente, razón por la cual se le denomina también Regresión
Divariada porque sólo hay dos variables, una dependiente y otra independiente
y se representa así:
Y = f (X)
"Y está regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. También
se le llama REGRESANDO ó VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó
REGRESOR y se le utiliza para EXPLICAR Y.
ANÁLISIS ESTADÍSTICO: REGRESIÓN LINEAL SIMPLE
En el estudio de la relación funcional entre dos variables poblacionales, una
variable X, llamada independiente, explicativa o de predicción y una variable Y,
llamada dependiente o variable respuesta, presenta la siguiente notación:
Y=a+bX+e
Donde:
a es el valor de la ordenada donde la línea de regresión se intercepta con el eje
Y.
b es el coeficiente de regresión poblacional (pendiente de la línea recta)
e es el error
SUPOSICIONES DE LA REGRESIÓN LINEAL
1. Los valores de la variable independiente X son fijos, medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y
(subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente
independientes.
Representación Matemática
estatur peso I.C. para la I. C.
a s Regresión Lineal media individual
dato y Residu
s x y x ^2 y ^2 xy est. al L. I. L. S. L. I. L. S.
2310 56.4 53.0 59.7 47.3 65.5
1 152 50 4 2500 7600 3 -6.43 7 9 0 6
2402 3782. 9532. 59.0 56.0 61.9 50.0 68.0
2 155 61.5 5 3 5 3 2.47 9 7 5 2
2310 2970. 56.4 53.0 59.7 47.3 65.5
3 152 54.5 4 3 8284 3 -1.93 7 9 0 6
2402 3306. 8912. 59.0 56.0 61.9 50.0 68.0
4 155 57.5 5 3 5 3 -1.53 9 7 5 2
2464 4032. 9969. 60.7 58.0 63.4 51.8 69.6
5 157 63.5 9 3 5 7 2.73 5 8 5 8
2310 56.4 53.0 59.7 47.3 65.5
6 152 59 4 3481 8968 3 2.57 7 9 0 6
2464 60.7 58.0 63.4 51.8 69.6
7 157 61 9 3721 9577 7 0.23 5 8 5 8
2722 1188 67.7 65.1 70.2 58.8 76.5
8 165 72 5 5184 0 1 4.29 7 4 5 7
2624 1069 65.1 62.6 67.5 56.2 73.9
9 162 66 4 4356 2 1 0.89 5 6 7 4
3168 1281 78.9 74.6 83.3 69.4 88.5
10 178 72 4 5184 6 9 -6.99 5 3 5 2
3348 1537 83.3 78.0 88.6 73.3 93.3
11 183 84 9 7056 2 2 0.68 1 4 1 4
3168 1459 78.9 74.6 83.3 69.4 88.5
12 178 82 4 6724 6 9 3.01 5 3 5 2
Representación Gráfica
5. HIPÓTESIS
HO: No hay relación entre la variable peso y la variable estatura.
HA: Hay relación entre la variable peso y la variable estatura.
Tabla de análisis de
varianza
Fuente
de Grados de Suma de Cuadrados
estadístico
Variación libertad cuadrados medios F
Debido a
la
regresión 1 1061.1 1061.1 73.08
error 10 145.2 14.5
total 11 1206.3
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hipótesis nula y
aceptamos que la variable estatura está relacionada con la variable peso con un
95% de confianza.
De acuerdo al desarrollo matemático hemos obtenido los siguientes cálculos:
Se obtiene:
7. CONCLUSIÓN
La ecuación de Regresión Lineal estimada para las variables estatura y peso
muestran, de acuerdo a la prueba F, relación.
Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación
positiva.
Además si consideramos el coeficiente de determinación R² = 87.9 podemos
indicar que el 87.9% de las variaciones que ocurren en el peso se explicarían por
las variaciones en la variable estatura.
MARÍA YSABEL RINCÓN PINO