Documente Academic
Documente Profesional
Documente Cultură
Introduccin
Podemos definir la Estadstica como la ciencia que nos facilita los mtodos precisos
para la obtencin y descripcin de datos, as como los mtodos de anlisis, inter-
pretacin y obtencin de conclusiones a partir de la informacin recogida. Estas dos
vertientes dan lugar a dos partes bien diferenciadas de la Estadstica:
1. La Estadstica descriptiva o deductiva, que tiene por objeto la recogida, ordenacin,
anlisis y representacin de los datos obtenidos por las observaciones. En esta
parte de la Estadstica no se hace uso del clculo de probabilidades y se limita a
realizar deducciones directamente a partir de los datos y parmetros obtenidos.
2. La Estadstica inferencial o inductiva, que tiene por objeto conocer y analizar un
colectivo a partir del estudio de una parte del mismo, llamado muestra. Esta parte de
la Estadstica se apoya fuertemente en el clculo de probabilidades.
Llamaremos poblacin a cualquier colectivo de individuos u objetos de cualquier
ndole a los que se puede asociar una o varias caractersticas comunes. Cada ele-
mento de la poblacin se denomina individuo o unidad estadstica. Es frecuente que
el nmero de individuos de una poblacin (lo que se denomina tamao de la misma)
sea muy grande (posiblemente infinito), lo que aconseja tomar una parte representa-
tiva de tamao manejable, denominada muestra. A la eleccin de muestras se le
denomina muestreo y existen muchos criterios para realizar dicha seleccin. No vamos
a entrar en este tema, sino slo digamos que cualquier individuo de la poblacin debe
tener la misma probabilidad de estar en la muestra, que es mucho ms importante la
representatividad de la muestra que su tamao y que su composicin debe estar en
proporcin con la composicin de la poblacin.
Se denomina variable estadstica a una caracterstica, aspecto, fenmeno, rasgo o
cualidad que presenta cada individuo de la poblacin y que puede tomar distintos
valores (si se expresan numricamente) o modalidades (en caso contrario). Se deno-
tan por letras maysculas (X, Y, Z, ), mientras que los valores que puede tomar la
variable estadstica X se denotan con letras minsculas (x
1
, x
2
, x
3
, ). El conjunto de
los valores o modalidades que puede tomar una variable estadstica se llama dominio
de dicha variable. Atendiendo a su dominio, las variables estadsticas se clasifican en:
Variables estadsticas cualitativas: su dominio son valores no numricos, es decir,
que no se pueden medir; por ejemplo, la profesin de una persona, su estado civil, el
idioma elegido, etc.
Variables estadsticas cuantitativas: su dominio son valores numricos que s se
pueden medir; por ejemplo, la altura de una persona, el dimetro de una pieza de
precisin, el cociente intelectual de un alumno, etc. Si la variable cuantitativa slo
puede tomar un nmero finito de valores distintos, se denomina variable cuantitativa
discreta (por ejemplo, la edad de los alumnos de una clase), mientras que en caso
contrario se denomina variable cuantitativa continua (por ejemplo, la presin
sangunea de los enfermos de un determinado hospital). Normalmente, si una
variable discreta puede tomar un elevado nmero de valores distintos, se considera
como si fuese tambin una variable conitinua.
En este tema vamos a considerar slo variables estadsticas unidimensionales, con
las que se analiza un nico carcter de los individuos de la poblacin, y variables
estadsticas bidimensionales, con las que se analiza la relacin existente entre dos
caracteres de los individuos de la poblacin.
Dado que Mathematica dispone de un gran nmero de comandos estadsticos, utilizar
todos los que necesitamos en este tema puede ser una tarea larga y tediosa. Por ese
motivo, hemos creado algunos comandos nuevos de Mathematica que simplifiquen los
clculos estadsticos, cuyas definiciones se muestran a continuacin; dado que no son
comandos del propio programa, habr que copiar y pegar dichas lneas en un
cuaderno de Mathematica y ejecutarlas antes de poder usarlos.
IfNameQ"estaDescrip", AttributesestaDescrip ;
estaDescripvar_, opt_List: : Module
locVal, lcVar, lcMed,
IfLengthvar 1, locVal var1,
locVal
FlattenTableTablevar1, i, j, 1, var2, i,
i, 1, Lengthvar1;
PrintStyle"Medidas de Centralizacin", Red, Bold, 16;
lcMed MeanlocVal;
PrintStyle"Media: ", Bold, lcMed;
PrintStyle"Mediana: ", Bold, MedianlocVal;
PrintStyle"Moda: ", Bold, CommonestlocVal;
IfLengthopt 0, Print;
PrintStyle"Medidas de Posicin", Red, Bold, 16;
Fori 1, i Lengthopt,
i, PrintStyle"Percentil ", Bold,
Styleopti, Bold, Style": ", Bold,
QuantilelocVal, opti100;
Print;
PrintStyle"Medidas de Dispersin", Red, Bold, 16;
PrintStyle"Recorrido: ", Bold, MaxlocVal MinlocVal;
PrintStyle"Desviacin media: ", Bold,
MeanDeviationlocVal;
lcVar CentralMomentlocVal, 2;
PrintStyle"Desviacin tpica: ", Bold, SqrtlcVar;
PrintStyle"Varianza: ", Bold, lcVar;
PrintStyle"Coeficiente de variacin: ", Bold,
2 Tema 5 Estadistica.nb
SqrtlcVarlcMed;
Print;
PrintStyle"Medidas de Forma", Red, Bold, 16;
PrintStyle"Coeficiente de sesgo: ", Bold,
SkewnesslocVal;
PrintStyle"Coeficiente de curtosis: ", Bold,
KurtosislocVal 3;
Print;
1
15
,
1
10
,
1
30
,
1
30
,
1
30
,
1
10
,
1
15
,
1
6
,
7
30
,
1
6
xy
1
n
_
j 1
m
_
k1
n
(x
j
x) (y
k
y) f
j k
1
n
_
j 1
m
_
k1
n
x
j
y
k
f
j k
x y
siendo x e y las medias de las variables X e Y, respectivamente. El valor de la covari-
anza expresa si la correlacin es directa (s
xy
> 0) o inversa (s
xy
< 0), pero no indica el
grado.
Se define el coeficiente de correlacin lineal como:
xy
x
y
donde s
x
y s
y
son las desviaciones tpicas de las variables X e Y, respectivamente.
Este coeficiente, que no depende de las unidades de medida, tiene el mismo signo que
la covarianza y su valor siempre est comprendico entre -1 y 1, determina el grado de
intensidad de la relacin lineal. Sus principales propiedades son las siguientes:
Si r = 1 r = -1, existe dependencia funcional lineal directa o inversa,
respectivamente. Todos
los puntos del diagrama de dispersin estn situados sobre una recta.
Si r = 0, las variables son incorreladas.
Si r (0, 1), la correlacin lineal es aleatoria y positiva. Esta dependencia ser ms
fuerte
a medida que r se aproxime a 1 y ms dbil a medida que se aproxime a 0.
Si r (-1, 0), la correlacin lineal es aleatoria y negativa. Esta dependencia ser
ms fuerte
a medida que r se aproxime a -1 y ms dbil a medida que se aproxime a 0.
Una vez conocido el grado de dependencia de una variable con respecto a la otram se
hace necesario obtener la funcin a cuya representacin grfica se asemeja el dia-
grama de dispersin y que servir como aproximacin de una variable con respecto a
la otra.
El problema de la regresin o ajuste consiste en ajustar una funcin de ecuacin
conocida a la nube de puntos obtenida de los pares de datos de la variable bidimen-
sional. A la representacin grfica de esta funcin se le llama lnea de regresin.
Puesto que el diagrama de dispersin se condensa entorno a dicha lnea, en mayor o
menor grado, la funcin calculada nos sirve para obtener una aproximacin o predic-
cin de los valores de una variable a partir de la otra.
Existen distintos problemas de regresin dependiendo del tipo de funcin que busque-
mos como aproximacin: lineal, parablica, exponencial, etc. Por ser la ms simple y la
ms utilizada, estudiaremos el problema de la regresin lineal.
Se define la recta de regresin lineal como aqulla que hace mnima la suma de los
cuadrados de las distancias (en horizontal o en vertical, de ah que existan dos rectas
26 Tema 5 Estadistica.nb
(
de regresin) de los puntos observados a los puntos estimados:
Recta de regresin de Y sobre X: Esta recta de regresin se utiliza para predecir el
valor de Y una vez conocido el correspondiente valor de X.
r
Y/X
: Y y
xy
x
2
(X x)
Recta de regresin de X sobre Y: Esta recta de regresin se utiliza para predecir el
valor de X una vez conocido el correspondiente valor de Y.
r
X/Y
: X x
xy
y
2
(Y y)
En Mathematica, calcularemos estas rectas de regresin utilizando el comando
estaBidim[var,frec], el cual adems devuelve los valores tanto de la covarianza como
del coeficiente de correlacin. Si los valores de la variable estadstica bidimensional se
presentan con frecuencia 1, no es necesario escribir el segundo argumento frec, el
cual es opcional.
Por ejemplo, consideremos la variable bidimensional Gastos-Ventas, que definimos
anteriormente; sus rectas de regresin son las siguientes:
estaBidimgastosVentas
Covarianza: 1764. 814815
Coeficiente de correlacin: 0. 9716323552
Recta de regresin de Y sobre X: y 265. 3898791 63. 18958201 x
Recta de regresin de X sobre Y: x 3. 208069523 0. 01494027027y
Vemos que la relacin lineal es positiva y fuerte, pues el coeficiente de correlacin
lineal es prximo a 1. Podemos comprobar grficamente el grado de ajuste de las
rectas de regresin al diagrama de dispersin, empleando los comandos Plot (hay que
tener en cuenta que para representar la recta de regresin de X sobre Y hemos de
despejar la variable y de la correspondiente ecuacin) y Show de Mathematica:
Tema 5 Estadistica.nb 27
g1 diagDispersiongastosVentas;
g2
Plot265.3898791 63.18958201x, x, 0, 25, PlotStyle Red;
g3 Plotx 3.2080695230.01494027027,
x, 0, 25, PlotStyle Blue;
Show
g1,
g2,
g3
5 10 15 20
600
800
1000
1200
1400
Consideramos finalmente la variable Edad-Altura:
estaBidimedadAlturaVal, edadAlturaFrecAbs
Covarianza: 0. 01346938776
Coeficiente de correlacin: 0. 2122724262
Recta de regresin de Y sobre X: y 1. 503301887 0. 01556603774x
Recta de regresin de X sobre Y: x 12. 97368421 2. 894736842 y
Vemos que la correlacin lineal entre ambas variables es muy baja, pues el coeficiente
de correlacin es prximo a 0. Lo comprobamos grficamente con las rectas de
regresin:
28 Tema 5 Estadistica.nb
g1 diagDispersionedadAlturaVal, edadAlturaFrecAbs;
g2 Plot1.503301887 0.01556603774x,
x, 15, 25, PlotStyle Red;
g3 Plotx 12.973684212.894736842,
x, 15, 25, PlotStyle Blue;
Show
g1,
g2,
g3
Problemas resueltos
Mostramos en este apartado una coleccin de problemas del tema de Estadstica
descriptiva resueltos con la ayuda de Mathematica. Todos los problemas estn expli-
cados paso a paso para un mejor aprendizaje, y sirven de ejemplo de cmo utilizar el
programa Mathematica para resolver los problemas de la asignatura.
Problema 1
Con el fin de estimar la media y la desviacin tpica del tiempo empleado en realizar
cierto trabajo, se encomend la ejecucin del mismo a 50 obreros y se midi el
tiempo invertido por cada uno de ellos. Los datos obtenidos, expresados en segun-
dos, fueron los siguientes:
293 248 254 246 227 314 302 361 283 295
234 252 243 262 189 256 283 222 211 237
312 306 189 202 213 196 178 231 286 238
345 184 176 217 302 258 249 302 199 187
323 262 189 214 313 296 252 301 214 226
a) Cul es el menor tiempo tardado por algn obrero? Y el mayor?
Tema 5 Estadistica.nb 29
b) Cuntos obreros han tardado ms de 295 segundos en ejecutar el trabajo?
Cuntos han tardado menos de 275 segundos pero ms de 200 segundos?
c) Representar grficamente su histograma, considerando clases de amplitud 25
segundos empezando por la clase [170,195).
d) Calcular el tiempo medio invertido en la realizacin del trabajo. Es representativo
dicho valor?
e) Qu tipo de sesgo posee la distribucin de frecuencias de la variable?
f) Si la empresa selecciona al 15% de los obreros que menos tardan en ejecutar el
trabajo, cul es el tiempo mximo que tardan los obreros seleccionados?
g) Si la empresa despide al 15% de los obreros que ms tiempo tardan en ejecutar
el trabajo, cul es el tiempo mnimo del grupo de obreros despedidos?
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Clear"Global`"
a) Definimos primero los valores que toma la variable estadstica, como una lista de
nmeros separados por comas y encerrados entre llaves, y los ordenamos de menor a
mayor:
tiempo
Sort293, 248, 254, 246, 227, 314, 302, 361, 283, 295, 234, 252,
243, 262, 189, 256, 283, 222, 211, 237, 312, 306, 189, 202,
213, 196, 178, 231, 286, 238, 345, 184, 176, 217, 302, 258,
249, 302, 199, 187, 323,
262, 189, 214, 313, 296, 252, 301, 214, 226
{176, 178, 184, 187, 189, 189, 189, 196, 199, 202, 211, 213, 214,
214, 217, 222, 226, 227, 231, 234, 237, 238, 243, 246, 248, 249,
252, 252, 254, 256, 258, 262, 262, 283, 283, 286, 293, 295,
296, 301, 302, 302, 302, 306, 312, 313, 314, 323, 345, 361]
Vemos que el menor tiempo tardado por algn empleado es de 176 segundos y el
mayor es de 361 segundos.
b) Contamos primero cuntos obreros han tardado un tiempo comprendido en el inter-
valo (295,361], para lo cual podemos empelar el comando BinCounts. Como el inter-
valo que se le pase como argumento a este comando debe ser cerrado por la
izquierda y abierto por la derecha, podemos usar el intervalo [295.1,362), dado que no
hay ningn valor mayor de 361 ni ninguno que no sea un nmero entero:
BinCountstiempo, 295.1, 362
{12]
Por lo tanto, 12 obreros han tardado ms de 295 segundos. Contamos ahora cuntos
30 Tema 5 Estadistica.nb
g
obreros han tardado un tiempo comprendido en el intervalo (200,275), que es equiva-
lente al intervalo [200.1,275):
BinCountstiempo, 200.1, 275
{24]
Es decir, hay un total de 24 obreros que han tardado ms de 200 segundos pero
menos de 275 segundos.
c) Dibujamos el histograma empleando el comando Histogram, usando las clases
dadas en el enunciado:
Histogramtiempo, 170, 195, 220, 245, 270, 295, 320, 345, 370
d) Calculamos todos sus parmetros estadsticos, empleando el comando estaDe-
scrip definido al comienzo de este tema:
estaDescripNtiempo
Tema 5 Estadistica.nb 31
Medidas de Centralizacin
Media: 251. 44
Mediana: 248. 5
Moda: {189. , 302. ]
Medidas de Dispersin
Recorrido: 185.
Desviacin media: 39. 1376
Desviacin tpica: 46. 82612946
Varianza: 2192. 6864
Coeficiente de variacin: 0. 1862318225
Medidas de Forma
Coeficiente de sesgo: 0. 2554663196
Coeficiente de curtosis: 0. 842775447
Por lo tanto, el tiempo medio es de 251.44 segundos. Como el coeficiente de variacin
(0.18) es mucho menor de uno, dicha media s es representativa de los valores de la
variable, siendo sta homognea.
e) Como el coeficiente de sesgo (0.26) es positivo, la distribucin est ligeramente
sesgada a la derecha, vindose en su histograma una cola para valores mayores de la
mediana (248.5)
f) Se trata de hallar el valor de la variable que deja por debajo de l el 15% del total de
obreros; hemos de calcular por tanto el percentil 15 de la distribucin:
estaDescriptiempo, 15
32 Tema 5 Estadistica.nb
Medidas de Centralizacin
Media:
6286
25
Mediana:
497
2
Moda: {189, 302]
Medidas de Posicin
Percentil 15: 196
Medidas de Dispersin
Recorrido: 185
Desviacin media:
24461
625
Desviacin tpica:
1370429
25
Varianza:
1370429
625
Coeficiente de variacin:
1370429
6286
Medidas de Forma
Coeficiente de sesgo:
409843887
1370429 1370429
Coeficiente de curtosis:
1582796040496
1878075644041
Por lo tanto, el tiempo mximo que tardan los obreros seleccionados es de 196
segundos.
g) Se trata ahora de hallar el valor de la variable que deja por encima de l el 15% del
total de obreros, luego deja por debajo de l el 85% del total de obreros; hemos de
calcular por tanto el percentil 85:
estaDescriptiempo, 85
Tema 5 Estadistica.nb 33
Medidas de Centralizacin
Media:
6286
25
Mediana:
497
2
Moda: {189, 302]
Medidas de Posicin
Percentil 85: 302
Medidas de Dispersin
Recorrido: 185
Desviacin media:
24461
625
Desviacin tpica:
1370429
25
Varianza:
1370429
625
Coeficiente de variacin:
1370429
6286
Medidas de Forma
Coeficiente de sesgo:
409843887
1370429 1370429
Coeficiente de curtosis:
1582796040496
1878075644041
Por consiguiente, el tiempo mnimo del grupo de obreros despedidos es de 302
segundos.
Problema 2
El nmero de unidades de un determinado producto adquiridas anualmente por 110
consumidores entrevistados se distribuye de la siguiente forma:
N de unidades 20 30 30 40 40 50 50 60 60 100
N de consumidores 25 20 35 15 15
a) Representar grficamente la distribucin de frecuencias de la variable dada.
b) Calcular las unidades medias adquiridas, la mediana de las adquisiciones y el
nmero de unidades vendidas ms frecuente.
c) Analizar la homogeneidad de la muestra.
d) Cmo es la distribucin de frecuencias si la comparamos con la distribucin
34 Tema 5 Estadistica.nb
)
normal?
e) Si, una vez ordenados los grupos de consumidores por orden ascendente de sus
adquisiciones, se quieren clasificar en cuatro grupos de igual nmero de consumi-
dores cada uno, cul sera el nmero de unidades vendidas que delimitaran el
grupo de consumidores que ms unidades han adquirido?
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Clear"Global`"
a) Definimos primero la distribucin de frecuencias usando la agrupacin en clases
dada en el enunciado (obsrvese que no tenemos acceso a los datos originales de
cada consumidor). Para ello debemos definir primero los valores de la variable (las
marcas de las clases) y luego las respectivas frecuencias absolutas (en el mismo
orden):
ventasVal 25, 35, 45, 55, 80
ventasFrec 25, 20, 35, 15, 15
{25, 35, 45, 55, 80]
{25, 20, 35, 15, 15]
Aunque inicialmente la variable era continua, al estar agrupada en slo 5 clases se ha
convertido en una variable discreta; su representacin grfica vendr dada por tanto
por un diagrama de barras:
BarChartventasFrec, ChartLabels ventasVal
b) Las unidades medias adquiridas nos las da la media de la distribucin; calculamos
pues sus parmetros estadsticos
estaDescripNventasVal, ventasFrec
Tema 5 Estadistica.nb 35
Medidas de Centralizacin
Media: 44. 77272727
Mediana: 45.
Moda: {45. ]
Medidas de Dispersin
Recorrido: 55.
Desviacin media: 12. 54132231
Desviacin tpica: 17. 02119486
Varianza: 289. 7210744
Coeficiente de variacin: 0. 3801688192
Medidas de Forma
Coeficiente de sesgo: 0. 8477317488
Coeficiente de curtosis: 0. 04679748161
Por lo tanto, las unidades medias adquiridas son 44.77. La mediana de las observa-
ciones es 45, lo que quiere decir que la clase mediana es [40,50). FInalmente, el
nmero de unidades vendidas ms frecuentemente nos lo da la moda de la distribu-
cin, 45, lo que significa que la distribucin es unimodal y que la clase modal es tam-
bin [40,50).
c) Para analizar la homogeneidad de la muestra hemos de considerar el valor del
coeficiente de variacin, 0.38. Como ste es sensiblemente menor que la unidad, la
muestra es homognea.
d) Para comparar la distribucin de frecuencias de la variable dada con la variable
normal hemos de calcular su coeficiente de curtosis. Como ste es negativo (-0.047),
podemos concluir que la distribucin dada es menos puntiaguda que la distribucin
normal con la misma desviacin tpica (platicrtica), aunque su valor absoluto es tan
pequeo que la diferencia entre ambas distribuciones es mnima.
e) Los cuatro grupos con igual nmero de consumidores cada uno de ellos nos los
proporcionan los tres cuartiles de la distribucin. El grupo formado por los consumi-
dores que ms unidades ha adquirido est delimitado entre el tercer cuartil y el valor
mximo de la variable. Por lo tanto, lo que nos pide el enunciado es el tercer cuartil Q
3
,
que coincide con el percentil P
75
:
estaDescripventasVal, ventasFrec, 75
36 Tema 5 Estadistica.nb
Medidas de Centralizacin
Media:
985
22
Mediana: 45
Moda: {45]
Medidas de Posicin
Percentil 75: 55
Medidas de Dispersin
Recorrido: 55
Desviacin media:
3035
242
Desviacin tpica:
5 5609
22
Varianza:
140225
484
Coeficiente de variacin:
5609
197
Medidas de Forma
Coeficiente de sesgo:
356112
5609 5609
Coeficiente de curtosis:
1472290
31460881
Por lo tanto, el nmero de unidades vendidas que delimitara el grupo de consumi-
dores que ms unidades han adquirido es 55.
Problema 3
La siguiente tabla muestra las notas obtenidas por 14 alumnos de la ETSIE en dos
asignaturas: MAEI y
MAEII:
MAEI 5. 5 3 7 2 6 4 8 3 6. 5 5 3. 5 1 6 9
MAEII 6 2 8. 5 3 5. 5 3 6 4 7 4 5 2. 5 6. 5 8
a) Calcular la nota media de ambas asignaturas. Cul es ms representativa?.
b) Cuntos alumnos han aprobado (nota mayor o igual que 5) MAEI?
c) Qu calificacin de MAEII deja por encima el 70% de las observaciones?
d) Representar el diagrama de dispersin de las notas de ambas asignaturas.
e) Existe alguna relacin entre las notas obtenidas por los alumnos en ambas
Tema 5 Estadistica.nb 37
) g
asignaturas?
f) Hallar la ecuacin de la recta de regresin de las notas de MAEII sobre las notas
de MAEI y representarla grficamente sobre el diagrama de dispersin.
g) Si un alumno tiene un 7.5 en MAEI, qu nota se supone que tendra en MAEII?
Es fiable esta prediccin?
h) Si un alumno tiene un 5 en MAEII, qu nota se supone que tendra en MAEI?
Es fiable esta prediccin?
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Clear"Global`"
a) Al tratarse de una variable bidimensional, hemos definirla con los pares de notas
que ha obtenido cada uno de los 14 alumnos de la muestra:
notas 5.5, 6, 3, 2, 7, 8.5, 2, 3, 6, 5.5, 4, 3,
8, 6, 3, 4, 6.5, 7,
5, 4, 3.5, 5, 1, 2.5, 6, 6.5, 9, 8
{{5. 5, 6], {3, 2], {7, 8. 5], {2, 3], {6, 5. 5], {4, 3], {8, 6],
{3, 4], {6. 5, 7], {5, 4], {3. 5, 5], {1, 2. 5], {6, 6. 5], {9, 8]]
Como estos pares de valores se presentan todos con frecuencia 1, no es necesario
definir la lista con dichas frecuencias absolutas. Definimos ahora cada variable por
separado extrayendo las columnas de esta matriz y ordenando los valores de menor a
mayor:
notasMAEI SortnotasAll, 1
notasMAEII SortnotasAll, 2
{1, 2, 3, 3, 3. 5, 4, 5, 5. 5, 6, 6, 6. 5, 7, 8, 9]
{2, 2. 5, 3, 3, 4, 4, 5, 5. 5, 6, 6, 6. 5, 7, 8, 8. 5]
Calculamos ahora los parmetros estadsticos de ambas variables unidimensionales:
estaDescripnotasMAEI
38 Tema 5 Estadistica.nb
Medidas de Centralizacin
Media: 4. 964285714
Mediana: 5. 25
Moda: {3, 6]
Medidas de Dispersin
Recorrido: 8
Desviacin media: 1. 897959184
Desviacin tpica: 2. 231785686
Varianza: 4. 980867347
Coeficiente de variacin: 0. 4495683396
Medidas de Forma
Coeficiente de sesgo: 0. 003835696987
Coeficiente de curtosis: 0. 8845870474
estaDescripnotasMAEII
Medidas de Centralizacin
Media: 5. 071428571
Mediana: 5. 25
Moda: {3, 4, 6]
Medidas de Dispersin
Recorrido: 6. 5
Desviacin media: 1. 714285714
Desviacin tpica: 1. 980774946
Varianza: 3. 923469388
Coeficiente de variacin: 0. 3905753415
Medidas de Forma
Coeficiente de sesgo: 0. 1008674172
Coeficiente de curtosis: 1. 128014867
Por lo tanto, la nota media de MAEI es 4.96, mientras que la nota media de MAEII es
5.07. De ellas, la segunda es ms representativa, pues su coeficiente de variacin
(0.39) es menor que el de la primera variable (0.45). Observamos que las dos vari-
ables unidimensionales son homognesa, pues sus coeficientes de variacin son
claramente menores que 1.
Tema 5 Estadistica.nb 39
b) Para averiguar cuantos alumnos han aprobado MAEI, hemos de contar cuntos de
ellos han obtenido una nota comprendida en el intervalo [5,10) (la mayor nota es un 9):
BinCountsnotasMAEI, 5, 10
{8]
Es decir, han aprobado 8 de los 14 alumnos (el 57%). Tambin podemos resolver este
apartado hallando las frecuencias absolutas de las notas de MAEI:
TallynotasMAEI
{{1, 1], {2, 1], {3, 2], {3. 5, 1], {4, 1], {5, 1],
{5. 5, 1], {6, 2], {6. 5, 1], {7, 1], {8, 1], {9, 1]]
y contando cuntos alumnos han obtenido un 5 o ms:
nAprobados 1 1 2 1 1 1 1
8
c) La calificacin de MAEII que deja por encima el 70% de las observaciones dejar
por debajo el 30% restante, luego se trata del percentil 30:
estaDescripnotasMAEII, 30
40 Tema 5 Estadistica.nb
Medidas de Centralizacin
Media: 5. 071428571
Mediana: 5. 25
Moda: {3, 4, 6]
Medidas de Posicin
Percentil 30: 4.
Medidas de Dispersin
Recorrido: 6. 5
Desviacin media: 1. 714285714
Desviacin tpica: 1. 980774946
Varianza: 3. 923469388
Coeficiente de variacin: 0. 3905753415
Medidas de Forma
Coeficiente de sesgo: 0. 1008674172
Coeficiente de curtosis: 1. 128014867
Por lo tanto, el 70 % de los alumnos han obtenido una nota mayor de 4 en MAEII.
d) El diagrama de dispersin pedido lo dibujamos con el comando diagDispersion,
definido al principio del tema; como lo volveremos a necesitar ms adelante en otro
apartado, lo guardamos en una variable:
graf1 diagDispersionnotas
2 4 6 8
3
4
5
6
7
8
e) Para hallar el tipo de relacin que existe entre ambas asignatura hemos de calcular
el coeficiente de correlacin, para lo cual usamos el comando estaBidim definido al
principio de este tema:
Tema 5 Estadistica.nb 41
estaBidimnotas
Covarianza: 3. 823979592
Coeficiente de correlacin: 0. 8650235753
Recta de regresin de Y sobre X: y 1. 260179257 0. 7677336748 x
Recta de regresin de X sobre Y: x 0. 02145643693 0. 9746423927 y
Como el coeficiente de correlacin es 0.87, existe una correlacin aleatoria positiva,
aunque no muy fuerte pues dicho coeficiente ni siquiera llega a 0.9.
f) La recta de regresin pedida es la recta de regresin de Y sobre X, puesto que en la
definicin de la variable bidimensional, la primera coordenada de cada par corre-
sponde a MAEI, que es por tanto la variable que va en el eje de abscisas. la representa-
mos grficamente junto al diagrama de dispersin:
graf2 Plot1.260179257 0.7677336748x,
x, 0, 10, PlotStyle Red;
Showgraf1, graf2
2 4 6 8
3
4
5
6
7
8
g) Como conocemos la nota de MAEI, para estimar la nota de MAEII hemos de utilizar
la recta de regresin de Y sobre X. Si en sta sustituimos x =7.5, obtenemos:
predMAEII 1.260179257 0.76773367487.5
7. 018181818
la cual es la nota estimada que tendr ese nuevo alumno en MAEII. Esta prediccin es
fiable porque el coeficiente de correlacin entre ambas variables es prximo a 1.
h) Como conocemos la nota de MAEII, para estimar la nota de MAEI hemos de utilizar
la recta de regresin de X sobre Y. Si en sta sustituimos y =7.5, obtenemos:
predMAEI 0.02145643693 0.97464239275
4. 8946684
42 Tema 5 Estadistica.nb
la cual es la nota estimada que tendr ese nuevo alumno en MAEI. Esta prediccin es
fiable porque el coeficiente de correlacin entre ambas variables es prximo a 1.
Problema 4
La siguiente tabla representa la informacin obtenida sobre 60 personas, a cada una
de las cuales se le tom el peso (en Kg) y la estatura (en m):
Estatura
1. 55 1. 65 1. 65 1. 75 1. 75 1. 85
Peso 50 55 2 1 0
55 60 2 2 1
60 65 1 3 2
65 70 1 10 8
70 75 4 5 5
75 80 2 3 8
a) Hallar el peso medio y la estatura media de las personas del estudio. Cul de
ellas es ms representativa?.
b) Cul de las dos variables es ms simtrica?
c) Para realizar un estudio sobre obesidad se selecciona de la muestra el 15% de
las personas que ms pesan. Cul es el peso mnimo de las personas del grupo
seleccionado?
d) Representar el diagrama de dispersin de la estatura sobre el peso, junto con las
dos rectas de regresin de la variable bidimensional dada.
e) Existe algn tipo de dependencia entre el peso y la estatura de las personas de
la muestra?
f) Si se aade a la muestra una nueva persona que pesa 72 Kg, cul es su estatura
estimada?
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Clear"Global`"
a) En primer lugar hemos de definir la variable bidimensional, para lo cual vamos a
considerar todos los pares de valores (marcas de clase) que poseen frecuencia abso-
luta no nula:
Tema 5 Estadistica.nb 43
pesoEstaturaVal 52.5, 1.6, 52.5, 1.7, 57.5, 1.6,
57.5, 1.8, 57.5, 1.7,
62.5, 1.6, 62.5, 1.8, 62.5, 1.7,
67.5, 1.6, 67.5, 1.8, 67.5, 1.7,
72.5, 1.6, 72.5, 1.8,
72.5, 1.7, 77.5, 1.6, 77.5, 1.8, 77.5, 1.7
{{52. 5, 1. 6], {52. 5, 1. 7], {57. 5, 1. 6], {57. 5, 1. 8], {57. 5, 1. 7],
{62. 5, 1. 6], {62. 5, 1. 8], {62. 5, 1. 7], {67. 5, 1. 6],
{67. 5, 1. 8], {67. 5, 1. 7], {72. 5, 1. 6], {72. 5, 1. 8],
{72. 5, 1. 7], {77. 5, 1. 6], {77. 5, 1. 8], {77. 5, 1. 7]]
Definimos tambin las frecuencias absolutas de cada par de valores, en el mismo
orden:
pesoEstaturaFrecAbs
2, 1, 2, 2, 1, 1, 3, 2, 1, 10, 8, 4, 5, 5, 2, 3, 8
{2, 1, 2, 2, 1, 1, 3, 2, 1, 10, 8, 4, 5, 5, 2, 3, 8]
Definimos ahora cada variable unidimensional por separado, extrayendo las columnas
de la variable bidimensional y eliminando elementos duplicados:
pesoVal DeleteDuplicatespesoEstaturaValAll, 1
estaturaVal DeleteDuplicatespesoEstaturaValAll, 2
{52. 5, 57. 5, 62. 5, 67. 5, 72. 5, 77. 5]
{1. 6, 1. 7, 1. 8]
Las frecuencias absolutas de la variable Peso son la suma por filas de las frecuencias
de la tabla de doble entrada, mientras que las de la variable Estatura son la suma por
columnas:
pesoFrecAbs 3, 5, 6, 19, 14, 13
estaturaFrecAbs 12, 24, 24
{3, 5, 6, 19, 14, 13]
{12, 24, 24]
Calculamos los parmetros estadsticos de la variable Peso:
estaDescrippesoVal, pesoFrecAbs
44 Tema 5 Estadistica.nb
Medidas de Centralizacin
Media: 68. 75
Mediana: 67. 5
Moda: {67. 5]
Medidas de Dispersin
Recorrido: 25.
Desviacin media: 5. 541666667
Desviacin tpica: 6. 929706583
Varianza: 48. 02083333
Coeficiente de variacin: 0. 1007957321
Medidas de Forma
Coeficiente de sesgo: 0. 6033629176
Coeficiente de curtosis: 0. 2719637118
as como los de la variable Estatura:
estaDescripestaturaVal, estaturaFrecAbs
Medidas de Centralizacin
Media: 1. 72
Mediana: 1. 7
Moda: {1. 7, 1. 8]
Medidas de Dispersin
Recorrido: 0. 2
Desviacin media: 0. 064
Desviacin tpica: 0. 07483314774
Varianza: 0. 0056
Coeficiente de variacin: 0. 04350764403
Medidas de Forma
Coeficiente de sesgo: 0. 3436215967
Coeficiente de curtosis: 1. 153061224
Por lo tanto, el peso medio de las personas de la muestra es de 68.75 Kg, mientras
que la estatura media es de 1.72 m. Aunque ambas variables son bastante
homogneas, la estatura media es ms representativa por que su coeficiente de
variacin (0.043) es menor que el de la variable Peso (0.10).
Tema 5 Estadistica.nb 45
b) La simetra de una distribucin nos la da el coeficiente de sesgo o de asimetra.
Vemos entonces que la variable Estatura es ms simtrica que la variable Peso, pues
su coeficiente de sesgo, en valor absoluto, es menor (0.34 frente a 0.60).
c) La persona de menor peso del grupo seleccionado deja por debajo de ella al 85%
de los individuos de la muestra; hemos de calcular por tanto el percentil 85:
estaDescrippesoVal, pesoFrecAbs, 85
Medidas de Centralizacin
Media: 68. 75
Mediana: 67. 5
Moda: {67. 5]
Medidas de Posicin
Percentil 85: 77. 5
Medidas de Dispersin
Recorrido: 25.
Desviacin media: 5. 541666667
Desviacin tpica: 6. 929706583
Varianza: 48. 02083333
Coeficiente de variacin: 0. 1007957321
Medidas de Forma
Coeficiente de sesgo: 0. 6033629176
Coeficiente de curtosis: 0. 2719637118
Es decir, el menor peso del grupo seleccionado es 77.5 Kg.
d) Dibujamos el diagrama de dispersin pedido, y lo guardamos en una variable
porque nos har falta despus:
46 Tema 5 Estadistica.nb
graf1 diagDispersionpesoEstaturaVal, pesoEstaturaFrecAbs
Calculamos ahora las ecuaciones de las rectas de regresin:
estaBidimpesoEstaturaVal, pesoEstaturaFrecAbs
Covarianza: 0. 03541666667
Coeficiente de correlacin: 0. 06893204948
Recta de regresin de Y sobre X: y 1. 667628344 0. 000737527115x
Recta de regresin de X sobre Y: x 57. 67938353 6. 442647802 y
Dibujamos las dos rectas de regresin y las almacenamos en sendas variables (en la
de X sobre Y hemos de despejar la y en funcin de la x):
Tema 5 Estadistica.nb 47
grafYX Plot1.667628344 0.000737527115 x, x, 50, 80,
PlotStyle Red
grafXY Plotx 57.679383536.442647802, x, 50, 80,
PlotStyle Blue
55 60 65 70 75 80
1.710
1.715
1.720
1.725
55 60 65 70 75 80
-1
1
2
3
Finalmente, dibujamos las dos rectas de regresin sobre el diagrama de dispersin:
Showgraf1, grafYX, grafXY
e) Como vemos en el grfico anterior, las dos rectas de regresin son muy diferentes
entre s, lo que quiere decir que no hay relacin entre ambas variables. En efecto, el
48 Tema 5 Estadistica.nb
y
coeficiente de correlacin entre ellas es 0.069, lo que demuestra que ambas variables
son independientes.
f) Como conocemos el peso del nuevo individuo (variable X), hemos de emplear la
recta de regresin de Y sobre X; si en ella sustituimos x =72, obtenemos:
predEstatura 1.667628344 0.000737527115 72
1. 720730296
Es decir, que se espera que dicho individuo tenga una estatura de 1.72 m. Obsrvese
que aunque esta prediccin basada en la recta de regresin siempre se puede hacer,
hay veces, como en este ejercicio, en que la fiabilidad de dicha prediccin es nula,
dado que ambas variables son independientes (coeficiente de correlacin prximo a
cero). En realidad no tenemos informacin suficiente como para predecir la estatura
del nuevo individuo, que pudiera ser cualquiera.
Tema 5 Estadistica.nb 49