Documente Academic
Documente Profesional
Documente Cultură
Presentado por:
Presentado a:
Tutor.
LICENCIATURA EN MATEMATICAS
NOVIEMBRE DE 2019
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
INTRODUCCIÓN
En este trabajo colaborativo se desarrollan ejercicios con diferentes problemáticas a analizar con
medidas de tendencia y e dispersión, dividido en 2 partes, la tarea 1 corresponde a definiciones
de conceptos estadísticos, tales como, medidas de dispersión, regresión lineal, correlación lineal
y diagramas de caja. Y en las tareas 2 a 5 se solucionan actividades relacionadas con varianza y
algunas medidas de dispersión.
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
ACTIVIDADES A DESARROLLAR
MEDIDAS DE DISPERSIÓN:
Son medidas estadísticas que indican como se alejan los datos respecto de la media aritmética.
Es decir permiten conocer la dispersión de los datos.
Las medidas de dispersión más utilizadas son el rango, la desviación estándar y la varianza.
Rango: es una medida útil a la hora de realizar tablas de datos agrupados por intervalos, además
de indicar la dispersión entre los valores extremos de una variable. Para hallarlo se realiza la
diferencia entre el mayor y el menor valor de la variable. Se denota como “R”.
R = x(n) - x(1)
D i=x− x́
La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto
a la media.
Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media
es:
Desviación estándar: llamada también desviación típica; mide el grado de disersión de los datos
con respecto a la media, se denota como “s” para una muestra o como “σ” para la población. Se
define como la raíz cuadrada de la varianza según la expresión:
Varianza: otro parámetro utilizado para medir la dispersión de los valores de una variable
respecto a la media. Corresponde a la media aritmética de los cuadrados de las desviaciones
respecto a la media. Su expresión matemática es:
Coeficiente de Variación: Sirve para determinar la razón existente entre la desviación estándar
“(s)” y la media. Se denota como “CV”. El coeficiente de variación permite decidir con mayor
claridad sobre la dispersión de los datos.
REGRESIÓN LINEAL
O ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre
una variable dependiente “Y”, las variables independientes “Xi” y un término aleatorio “ε” es
decir que permite determinar el grado de dependencia de las series de valores X e Y, prediciendo
el valor y estimado que se obtendría para un valor x que no esté en la distribución.
Regresión lineal simple: se basa en estudiar los cambios en una variable, no aleatoria
Regresión lineal múltiple: permite trabajar con una variable a nivel de intervalo o razón
CORRELACIÓN LINEAL
DIAGRAMA DE CAJA
También conocido como diagrama de caja y bigote; es un gráfico utilizado para representar una
variable cuantitativa (variable numérica). El gráfico es una herramienta que permite visualizar, a
través de los cuartiles, cómo es la distribución, su grado de asimetría, los valores extremos, la
posición de la mediana.
Se compone de:
Un rectángulo (caja) delimitado por el primer y tercer cuartil (Q1 y Q3). Dentro de la
caja una línea indica dónde se encuentra la mediana (segundo cuartil Q2)
Dos brazos, uno que empieza en el primer cuartil y acaba en el mínimo, y otro que
empieza en el tercer cuartil y acaba en el máximo.
Los datos atípicos (o valores extremos) que son los valores distintos que no cumplen
ciertos requisitos de heterogeneidad de los datos.
Ejemplo:
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
Medidas de dispersión
Diremos que una medida de dispersión tratara de medir la distancia a la que se encuentran los datos de
una determinada medida de posición. Así, cuanto menor sea la medida de dispersión, menor será la
a) Varianza: definimos la varianza como la media aritmética de la distancia de cada uno de los
valores que toma la variable en la muestra a la media aritmética y la cual calculamos haciendo
∑ (xi −x́)2 ∙ ni
S2= i=1
N
la varianza, es decir:
S= √ S2 =
√ ∑ (xi − x́)2 ∙ ni
i=1
N
Como vemos, se representa por S, y para calcularla es preciso en todo caso calcular previamente
la varianza.
adimensionales más importantes. Se define como el cociente entre la desviación típica y la media
aritmética:
S
V=
x́
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
Como ambas medidas tienen las mismas unidades que la variable original, dividirlas hace que
adimensional.
Regresión lineal
Diremos que la teoría de la regresión lineal tiene la finalidad de encontrar la estructura de dependencia
que mejor explique la relación entre dos o más variables. Se tratará entonces de encontrar la estructura
que mejor explique el comportamiento de la denominada variable dependiente o explicada (Y) en función
Abordaremos únicamente el caso que relaciona dos variables: la variable dependiente con una única
Si representamos los valores que tenemos en un diagrama de dispersión o nube de puntos, podemos
observar gráficamente la relación que presentan ambas variables. Para obtener este tipo de gráfico
debemos representar cada pareja de valores por un punto en el espacio euclídeo bidimensional. Si hubiese
alguna pareja de valores que presentase una frecuencia superior a 1, se indicaría junto al punto el valor de
dicha frecuencia.
En la siguiente figura se han representado los valores de la cosecha obtenida en una determinada región
en distintas temporadas y el fertilizante utilizado en cada una de ellas, ya que se pretende analizar si
Como vemos en el gráfico, estos datos presentan una relación lineal clara entre las variables, de modo
que podemos concluir que la estructura que mejor relaciona estas variables es la línea recta. Cuando esto
ocurre podemos modelizar los datos haciendo uso del modelo de regresión lineal.
Diremos entonces que la recta de regresión que relaciona dos variables tomará la forma:
Y =a+bx +ε
siendo ε el término de error. Para calcular los valores de a y b utilizaremos las siguientes fórmulas:
S xy m 11
b= 2
= ; a= ý−b x́
S x
m 10
Correlación lineal
El coeficiente de correlación lineal es una media del grado de dependencia estadística que presentan dos
variables. Se calcula como el cociente entre su varianza y el producto de sus desviaciones típicas, es
decir:
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
S xy
r=
Sx ∙ S y
De forma más precisa, podemos decir que nos indica hasta qué punto dos variables están linealmente
Si toma el valor 1, podemos decir que existe una dependencia funcional positiva entre las variables, es
decir, que presentan una relación lineal perfecta y, además, cuando una toma valores más grandes la otra
también.
Si toma el valor −1, podemos decir que existe una dependencia funcional negativa entre las variables, es
decir, que presentan una relación lineal perfecta, pero cuando una toma valores más grandes la otra
disminuye.
Si toma valor 0, podemos decir que las variables son linealmente independientes. Sin embargo, esto no
quiere decir que las variables no presenten algún tipo de estructura de dependencia que no sea lineal.
Lo normal será que tome valores entre 0 y 1 o entre −1 y 0. Si toma valores entre 0 y 1, estaremos ante
una relación estadística positiva, que será más fuerte si el valor está cerca de 1 y menos si está más cerca
de 0.
Si toma valores entre −1 y 0, estaremos ante una relación estadística negativa, que será más fuerte cuanto
Diagramas de caja
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
Un diagrama de cajas y bigotes es una manera conveniente de mostrar visualmente grupos de datos
Las líneas que se extienden paralelas a las cajas se conocen como «bigotes», y se usan para indicar
variabilidad fuera de los cuartiles superior e inferior. Los valores atípicos se representan a veces como
puntos individuales que están en línea con los bigotes. Los diagramas de cajas y bigotes se pueden
Normalmente utilizado en estadísticas descriptivas, los gráficos de cajas y bigotes son una excelente
forma de examinar rápidamente uno o más conjuntos de datos gráficamente. Aunque parezcan primitivos
en comparación con un Histograma o un Gráfico de Densidad, tienen la ventaja de ocupar menos espacio,
lo cual es útil cuando se comparan distribuciones entre muchos grupos o conjuntos de datos.
Medidas de dispersión
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
Parámetros estadísticos que indican como se alejan los datos respecto de la media aritmética.
Sirven como indicador de la variabilidad de los datos. Las medidas de dispersión más utilizadas
son el rango, la desviación estándar y la varianza.
Rango
Indica la dispersión entre los valores extremos de una variable. se calcula como la diferencia
entre el mayor y el menor valor de la variable. Se denota como R.
R = x(n) - x(1)
Desviación media
Es la media aritmética de los valores absolutos de las diferencias de cada dato respecto a la
media.
Donde:
Desviación estándar
Varianza
Es otro parámetro utilizado para medir la dispersión de los valores de una variable respecto a la
media. Corresponde a la media aritmética de los cuadrados de las desviaciones respecto a la
media. Su expresión matemática es:
Regresión lineal
Regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de
dependencia entre una variable dependiente Y, las variables independientes Xi y un término
aleatorio ε. Este modelo puede ser expresado como:
Correlación lineal
La correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos
variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando
los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
otra: si tenemos dos variables (A y B) existe correlación entre ellas si al disminuir los valores de
A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí
misma, ninguna relación de causalidad.
Diagrama de caja
También conocido como diagrama de caja y bigote, box plot, box-plot o boxplot. Es un método
estandarizado para representar gráficamente una serie de datos numéricos a través de sus
cuartiles. De esta manera, el diagrama de caja muestra a simple vista la mediana y los cuartiles
de los datos, 1pudiendo también representar los valores atípicos de estos.
Para la interpretación de este tipo de gráfico, primero obtenemos la media de cada intervalo, y
luego la mediana de la tabla de frecuencias en general. Con estos datos utilizamos la fórmula de
la media de cada intervalo elevado a la mediana. Los datos obtenidos en esta fórmula son la
interpretación.
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
TAREA 1
Los porcentajes de rentabilidad de los fondos de la inversión de diez grandes empresas fueron:
a) La varianza
b) La desviación típica
c) Desviación media.
Desarrollo:
A) LA VARIANZA:
Primero se halla la media aritmética, teniendo en cuenta que “n”(número de datos) es n=14
1507
5 1507
¿ = ≈ 21.5
14 14
2 2 2
2 ( x 1− x́ ) + ( x 2− x́ ) +…+ ( x n−x́ )
σ =
n
2 ( 28,2−21.5 )2+ ( 18,1−21.5 )2 + ( 34,4−21.5 )2 + ( 28,9−21.5 )2 + ( 26,5−21.5 )2 + ( 26−21.5 )2+ ( 25−21.5 )2 +¿ ( 12,5−2
σ =
14
σ 2=55.656043956044
Para comprobar el resultado además del uso de calculadora, Excel se usó una calculadora online:
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
B) LA DESVIACIÓN TÍPICA:
2 2 2 2 2 2 2
( 28,2−21.5 ) + (18,1−21.5 ) + ( 34,4−21.5 ) + ( 28,9−21.5 ) + ( 26,5−21.5 ) + ( 26−21.5 ) + ( 25−21.5 ) +¿ ( 12,5−2
σ=
√ 14
σ =7.1889228848902
Para comprobar el resultado además del uso de calculadora, Excel se usó una calculadora online:
C) DESVIACIÓN MEDIA:
Se usa la fórmula:
|28,2−21.5|+|18,1−21.5|+|34,4−21.5|+|28,9−21.5|+|26,5−21.5|+|26−21.5|+|25−21.5|+ ¿|12,5−21.5|+|
Dm =
14
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
D m =6.2571428571
Para comprobar el resultado además del uso de calculadora, Excel se usó una calculadora online:
TAREA 2:
En la siguiente aparecen los años de servicio acumulados por 360 trabajadores de una gran
empresa antes de su retiro voluntario:
2-3 56
3-4 76
4-5 80
5-6 25
6-7 10
7-8 27
8-9 12
9-10 8
10-11 19
11-12 3
a. Histograma
b. Media
c. Mediana
d. Moda
e. Varianza
f. Qué porcentaje de empleados tiene más de 8 años de experiencia y menos de 6 años de
experiencia
Tabla de frecuencias
Marca de clase: x i
Frecuencia absoluta: f i
Frecuencia acumulada: F i
Años de xi fi Fi
experiencia
0-1 0.5 10 10
1-2 1.5 34 44
2-3 2.5 56 100
3-4 3.5 76 176
4-5 4.5 80 256
5-6 5.5 25 281
6-7 6.5 10 291
7-8 7.5 27 318
8-9 8.5 12 330
9-10 9.5 8 338
10-11 10.5 19 357
11-12 11.5 3 360
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
a) Dibuje el histograma
Número de Empleados
80
76
Empleados
56
34
25 27
19
10 10 12
8
0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10 3
10-11 11-12
Años de experiencia
b) Media
Sumamos la totalidad de los productos de frecuencia absoluta por la marca de clase de
cada intervalo
Años de xi fi Fi x i* f i
experiencia
0-1 0.5 10 10 5
1-2 1.5 34 44 51
2-3 2.5 56 100 140
3-4 3.5 76 176 266
4-5 4.5 80 256 360
5-6 5.5 25 281 137,5
6-7 6.5 10 291 65
7-8 7.5 27 318 202,5
8-9 8.5 12 330 102
9-10 9.5 8 338 76
10-11 10.5 19 357 199,5
11-12 11.5 3 360 34,5
360 1639
1639
X=
360
1639
X=
360
X =4,55
c) Mediana
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
180−176 4
Me=4 + = =0,05
80 20
d) Moda
Buscamos los valores:
f i−f i −1
Mo=Li +
(f ¿ ¿i−f i−1 )+ ¿¿ ¿
80−76 4 4
Mo=4 + ∗1=¿ 4 + ∗1= =0,06
(80−76)+(80−25) 4+ 55 59
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
Mo= 0,06
e) Varianza
Realizamos la operación: el producto del cuadrado de la marca de clase por la frecuencia
absoluta
Años de xi fi Fi x i* f i x i2* f i
experiencia
0-1 0.5 10 10 5 2,5
1-2 1.5 34 44 51 76,5
2-3 2.5 56 100 140 350
3-4 3.5 76 176 266 931
4-5 4.5 80 256 360 1620
5-6 5.5 25 281 137,5 756,25
6-7 6.5 10 291 65 422,5
7-8 7.5 27 318 202,5 1518,75
8-9 8.5 12 330 102 867
9-10 9.5 8 338 76 722
10-11 10.5 19 357 199,5 2094,75
11-12 11.5 3 360 34,5 396,75
360 1639 9758
9758 9758
v= −4,552 = −20,7=26,1
360 360
f) Desviación típica
Necesitamos:
Media: X =4,55
Varianza: 26,1
9758
√ 360
−−4,552 =√27.10−20,7025= √ 6,7025 =2,529
TAREA 3.
La siguiente tabla refiere a los usos más comunes citados en una encuesta realizada a usuarios de
Área Respuesta
Contabilidad 26%
Procesadores de texto 15%
Hojas de calculo 24%
Bases de datos 13%
Puntos de venta 10%
Información 4%
Otros 8%
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
Hallar:
a) Media
b) Mediana
c) Moda
d) Varianza
e) Desviación típica
Solución:
Para el presente ejercicio, solo aplica la moda, ya que la variable que se mide es de tipo cualitativo; el
En estadística, la moda es el valor con mayor frecuencia, y por lo tanto, es el valor cuyo porcentaje es
mayor, en el caso de este ejercicio, la mayor respuesta se encuentra en 26% lo que corresponde al área de
TAREA 4:
Una compañía asigna diferentes precios a un equipo de sonido particular en ocho regiones
diferentes del país. La tabla adjunta muestra el número de unidades vendidas y los precios
Ventas 402 381 350 430 441 380 405 420 421
Precio 45 66 70 90 75 45 65 70 65
Ventas: x
Precio: y
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
Para organizar la tabla adecuadamente le damos los siguientes valores, (xy) serán
x y (xy) x2
402 45 18090 161604
Siendo n=9
a. Estimar la ecuación de regresión lineal de las ventas sobre el precio que mejor se ajuste.
y=ax+ b
n ∑ xy−∑ x ∑ y
a= 2
n ∑ x 2− ( ∑ x )
b=
∑ y−a ∑ x
n
Entonces
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
n ∑ xy−∑ x ∑ y
a= 2
n ∑ x 2− ( ∑ x )
(19307970)−( 2145330 )
a=
( 13236408 )−(1470712)
17162640
a=
11765696
a=1.4587
b=
∑ y−a ∑ x
n
591−(1.4587)(3630)
b=
9
591−(5295.1)
b=
8
−4704.1
b=
9
b=−522.67
y=1.4587 x−522.67
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
y +522.67=1.4587 x
y+ 522.67
=x
1.4587
y +522.67
x=
1.4587
PRECIO I: 55
y +522.67
x=
1.4587
55+522.67
x=
1.4587
577.67
x=
1.4587
x=¿396.01
PRECIO II: 58
y +522.67
x=
1.4587
58+522.67
x=
1.4587
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
580.67
x=
1.4587
x=¿398.07
PRECIO III: 68
y +522.67
x=
1.4587
68+522.67
x=
1.4587
590.67
x=
1.4587
x=404.92
PRECIO IV: 70
y +522.67
x=
1.4587
70+522.67
x=
1.4587
592.67
x=
1.4587
x=¿406.30
VENTAS 55 58 68 70
PRECIO 369.01 398.07 404.92 406.30
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
datos
n=9
Utilizamos la formula
r=
∑ (x−x́)( y− ý )
√ ∑ ( x−x́ )2 √∑ ( y −ý )2
1331
r=
√ 6612 √ 1572
1331
r=
( 81.31 ) ( 39.64 )
1331
r=
3223.3
r =0.4129
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
Para la correlación de Pearson, un valor absoluto de 1 indica una relación lineal perfecta. Una
correlación cercana a 0 indica que no existe relación lineal entre las variables. Esto quiere decir
que nuestro resultado se aproxima a r¿ 0.476
Algunos puntos están cerca de la línea, pero otros puntos están lejos de ella, lo que indica que
solo existe una relación lineal moderada entre las variables.
Estadística Descriptiva
Universidad Nacional Abierta Y A Distancia – UNAD
REFERENCIAS BIBLIOGRÁFICAS
%C3%B3n_lineal
estadistica-descriptiva/4-7-medidas-de-dispersion
Romero, E. (2016). Estadística para todos: análisis de datos; estadística descriptiva; teoría de la
probabilidad e inferencia. Editorial Difusora Larousse - Ediciones Pirámide. Recuperado
de
http://bibliotecavirtual.unad.edu.co:2077/lib/unadsp/detail.action?
docID=11231145&p00=Estadistica+descriptiva
Matus, R., et al. Estadística, Instituto Politécnico Nacional, 2010. ProQuest E-book Central,
http://ebookcentral.proquest.com/lib/unadsp/detail.action?docID=3187261.
Created from unadsp en 2019-04-17 11:54:39.
López, C. (2016). Que son las medidas de dispersión y tipos. Un profesor. Recuperado de:
https://www.unprofesor.com/matematicas/que-son-las-medidas-de-dispersion-y-tipos-927.html
Romero, E. (2016). Estadística para todos: análisis de datos; estadística descriptiva; teoría de la
probabilidad e inferencia. Editorial Difusora Larousse - Ediciones Pirámide. Recuperado de
http://bibliotecavirtual.unad.edu.co:2077/lib/unadsp/detail.action?
docID=11231145&p00=Estadistica+descriptiva
Gallardo, Y [Yoney Gallardo]. (12 dic. 2015). Curso Excel 2016 - Básico [Archivo de video].
Recuperado de https://www.youtube.com/watch?v=TLMKv1OzUDc