Sunteți pe pagina 1din 49

Estadstica Descriptiva

Introduccin
Podemos definir la Estadstica como la ciencia que nos facilita los mtodos precisos
para la obtencin y descripcin de datos, as como los mtodos de anlisis, inter-
pretacin y obtencin de conclusiones a partir de la informacin recogida. Estas dos
vertientes dan lugar a dos partes bien diferenciadas de la Estadstica:
1. La Estadstica descriptiva o deductiva, que tiene por objeto la recogida, ordenacin,
anlisis y representacin de los datos obtenidos por las observaciones. En esta
parte de la Estadstica no se hace uso del clculo de probabilidades y se limita a
realizar deducciones directamente a partir de los datos y parmetros obtenidos.
2. La Estadstica inferencial o inductiva, que tiene por objeto conocer y analizar un
colectivo a partir del estudio de una parte del mismo, llamado muestra. Esta parte de
la Estadstica se apoya fuertemente en el clculo de probabilidades.
Llamaremos poblacin a cualquier colectivo de individuos u objetos de cualquier
ndole a los que se puede asociar una o varias caractersticas comunes. Cada ele-
mento de la poblacin se denomina individuo o unidad estadstica. Es frecuente que
el nmero de individuos de una poblacin (lo que se denomina tamao de la misma)
sea muy grande (posiblemente infinito), lo que aconseja tomar una parte representa-
tiva de tamao manejable, denominada muestra. A la eleccin de muestras se le
denomina muestreo y existen muchos criterios para realizar dicha seleccin. No vamos
a entrar en este tema, sino slo digamos que cualquier individuo de la poblacin debe
tener la misma probabilidad de estar en la muestra, que es mucho ms importante la
representatividad de la muestra que su tamao y que su composicin debe estar en
proporcin con la composicin de la poblacin.
Se denomina variable estadstica a una caracterstica, aspecto, fenmeno, rasgo o
cualidad que presenta cada individuo de la poblacin y que puede tomar distintos
valores (si se expresan numricamente) o modalidades (en caso contrario). Se deno-
tan por letras maysculas (X, Y, Z, ), mientras que los valores que puede tomar la
variable estadstica X se denotan con letras minsculas (x
1
, x
2
, x
3
, ). El conjunto de
los valores o modalidades que puede tomar una variable estadstica se llama dominio
de dicha variable. Atendiendo a su dominio, las variables estadsticas se clasifican en:
Variables estadsticas cualitativas: su dominio son valores no numricos, es decir,
que no se pueden medir; por ejemplo, la profesin de una persona, su estado civil, el
idioma elegido, etc.
Variables estadsticas cuantitativas: su dominio son valores numricos que s se
pueden medir; por ejemplo, la altura de una persona, el dimetro de una pieza de
precisin, el cociente intelectual de un alumno, etc. Si la variable cuantitativa slo
puede tomar un nmero finito de valores distintos, se denomina variable cuantitativa
discreta (por ejemplo, la edad de los alumnos de una clase), mientras que en caso
contrario se denomina variable cuantitativa continua (por ejemplo, la presin
sangunea de los enfermos de un determinado hospital). Normalmente, si una
variable discreta puede tomar un elevado nmero de valores distintos, se considera
como si fuese tambin una variable conitinua.
En este tema vamos a considerar slo variables estadsticas unidimensionales, con
las que se analiza un nico carcter de los individuos de la poblacin, y variables
estadsticas bidimensionales, con las que se analiza la relacin existente entre dos
caracteres de los individuos de la poblacin.
Dado que Mathematica dispone de un gran nmero de comandos estadsticos, utilizar
todos los que necesitamos en este tema puede ser una tarea larga y tediosa. Por ese
motivo, hemos creado algunos comandos nuevos de Mathematica que simplifiquen los
clculos estadsticos, cuyas definiciones se muestran a continuacin; dado que no son
comandos del propio programa, habr que copiar y pegar dichas lneas en un
cuaderno de Mathematica y ejecutarlas antes de poder usarlos.
IfNameQ"estaDescrip", AttributesestaDescrip ;
estaDescripvar_, opt_List: : Module
locVal, lcVar, lcMed,
IfLengthvar 1, locVal var1,
locVal
FlattenTableTablevar1, i, j, 1, var2, i,
i, 1, Lengthvar1;
PrintStyle"Medidas de Centralizacin", Red, Bold, 16;
lcMed MeanlocVal;
PrintStyle"Media: ", Bold, lcMed;
PrintStyle"Mediana: ", Bold, MedianlocVal;
PrintStyle"Moda: ", Bold, CommonestlocVal;
IfLengthopt 0, Print;
PrintStyle"Medidas de Posicin", Red, Bold, 16;
Fori 1, i Lengthopt,
i, PrintStyle"Percentil ", Bold,
Styleopti, Bold, Style": ", Bold,
QuantilelocVal, opti100;
Print;
PrintStyle"Medidas de Dispersin", Red, Bold, 16;
PrintStyle"Recorrido: ", Bold, MaxlocVal MinlocVal;
PrintStyle"Desviacin media: ", Bold,
MeanDeviationlocVal;
lcVar CentralMomentlocVal, 2;
PrintStyle"Desviacin tpica: ", Bold, SqrtlcVar;
PrintStyle"Varianza: ", Bold, lcVar;
PrintStyle"Coeficiente de variacin: ", Bold,
2 Tema 5 Estadistica.nb
SqrtlcVarlcMed;
Print;
PrintStyle"Medidas de Forma", Red, Bold, 16;
PrintStyle"Coeficiente de sesgo: ", Bold,
SkewnesslocVal;
PrintStyle"Coeficiente de curtosis: ", Bold,
KurtosislocVal 3;
Print;

estaDescrip::usage "estaDescripvar,percen calcula los


parmetros estadsticos de la variable cuyos valores estn
definidos en la lista 'var'. Si el argumento 'percen' est
presente calcula tambin los percentiles que se pasen en
dicha lista.
estaDescripvar,frec,percen calcula los parmetros
estadsticos de la variable cuyos valores estn definidos en
la lista 'var' con frecuencias absolutas definidas en la lista
'frec'. Si el argumento 'percen' est presente calcula tambin
los percentiles que se pasen en dicha lista.";
ProtectestaDescrip;
IfNameQ"diagDispersion", AttributesdiagDispersion ;
diagDispersionvar_, frec_List: : Module
nSize,
nSize Lengthfrec;
IfnSize 0,
ListPlotvar, PlotStyle Black, PointSizeMedium,
ListPlotTableTooltipvari, freci, i, 1, nSize,
PlotStyle Black, PointSizeMedium

diagDispersion::usage "diagDispersionvar,frec representa


grficamente el diagrama
de dispersin de la variable estadstica
'var'. Si el segundo argumento, opcional,
est presente, representa
las frecuencias absolutas de dicha variable,
las cuales se muestran
en el diagrama como pequeas ventanas emergentes.";
ProtectdiagDispersion;
IfNameQ"estaBidim", AttributesestaBidim ;
estaBidimvar_, frec_List: : Module
lcVal1, lcVal2, lcMed1, lcMed2, nSize, lcCov, lcCorr,
Tema 5 Estadistica.nb 3
lcRegYX, lcRegXY,
nSize Lengthfrec;
IfnSize 0, lcVal1 varAll, 1, lcVal2 varAll, 2,
lcVal1
FlattenTableTablevari, 1, j, 1, freci,
i, 1, nSize, lcVal2
FlattenTableTablevari, 2,
j, 1, freci, i, 1, nSize;
lcMed1 MeanlcVal1;
lcMed2 MeanlcVal2;
lcCov
TotallcVal1 lcMed1lcVal2 lcMed2LengthlcVal1;
PrintStyle"Covarianza: ", Bold, 14, lcCov;
lcCorr lcCovSqrtCentralMomentlcVal1, 2
CentralMomentlcVal2, 2;
Print
Style"Coeficiente de correlacin: ", Bold, 14, lcCorr;
lcRegYXx_ MeanlcVal2 lcCovCentralMomentlcVal1, 2
x MeanlcVal1;
PrintStyle"Recta de regresin de Y sobre X: ", Bold, 14,
"y ", SimplifylcRegYXx;
lcRegXYy_
MeanlcVal1 lcCovCentralMomentlcVal2, 2
y MeanlcVal2;
PrintStyle"Recta de regresin de X sobre Y: ", Bold, 14,
"x ", SimplifylcRegXYy;

estaBidim::usage "estaBidimvar,frec calcula los parmetros


estadsticos covarianza, coeficiente de correlacin y rectas
de regresin de la variable estadstica bidimensional 'var'.
Si el segundo argumento, opcional, est presente, representa
las frecuencias absolutas de dicha variable.";
ProtectestaBidim;
Print"Definidos los nuevos comandos relativos a Estadstica
Descriptiva:";
PrintStyle"estaDescrip diagDispersion estaBidim",
Bold, 14;
Def i ni dos l os nuevos comandos r el at i vos a Est ad st i ca
Descr i pt i va:
estaDescrip diagDispersion estaBidim
4 Tema 5 Estadistica.nb
Variables estadsticas unidimensionales
El gran nmero de datos y el desorden con el que stos se obtienen hacen necesaria
su organizacin y presentacin en tablas y grficos, as como el clculo de diferentes
parmetros que permitan resumir la informacin que nos facilita el conjunto de datos.
Comenzamos esta seccin estableciendo la terminologa bsica de la disciplina que
nos ocupa, para, a continuacin, exponer dos vas diferentes de organizar y represen-
tar el conjunto de datos: las tablas de frecuencias y las representaciones grficas.
Por ltimo, estudiaremos diferentes parmetros estadsticos que resumen las
propiedades de la variable.
Definicin y presentacin de datos
Dada una variable estadstica cuantitativa discreta X, se llama frecuencia absoluta
del valor x
k
, y se representa por f
k
, al nmero de veces que aparece en una deter-
minda muestra. Se llama frecuencia relativa del valor x
k
, y se representa por h
k
, al
cociente h
k
=
f
k
n
, siendo n el nmero de individuos de la muestra. Tambin podemos
indicar la frecuencia relativa en trminos de porcentajes; se llama porcentaje del valor
x
k
, y se representa por p
k
, a p
k
= 100 h
k
.
Si ordenamos los valores de la variable discreta X de menor a mayor, obtenemos una
sucesin de valores x
1
< x
2
< < x
m
, siendo m el nmero de valores distintos que
toma dicha variable. En ese caso, se llama frecuencia absoluta acumulada del valor
x
k
, y se representa por F
k
, a F
k
= f
1
+f
2
+f
k
. De igual forma, se llama frecuencia
relativa acumulada del valor x
k
, y se representa por H
k
, a H
k
= h
1
+h
2
++h
k
=
F
k
n
.
La tabla o distribucin de frecuencias de una variable estadstica discreta est
formada por cinco columnas: valores, frecuencias absolutas, frecuencias relativas (o
porcentajes), frecuencias absolutas acumuladas y frecuencias relativas acumuladas.
En caso de que la variable X sea continua (o bien discreta pero con un nmero muy
grande de posibles valores) es muy conveniente agrupar los datos en clases. Una
clase es un intervalo [a, b), de forma que un valor x
k
pertenece a dicha clase si
a x
k
< b (obsrvese que toda clase es un intervalo cerrado por la izquierda y abierto
por la derecha). Los extremos a, b del intervalo se denominan lmites de clase, y el
punto medio |
a+b
2
] se denomina marca de clase.
Con el fin de que la clasificacin est bien hecha, los intervalos se deben construir de
la misma amplitud y de forma que el lmite superior de una clase coincida con el lmite
inferior de la siguiente. Ahora bien, cul es el nmero idneo de clases que debemos
escoger a la hora de agrupar? No existe una respuesta tajante a esta pregunta; uno de
los criterios ms sencillos establece que el nmero de clases debe ser aproximada-
mente igual a la raz cuadrada positiva del nmero de datos.
Veamos ahora cmo podemos definir los valores x
k
de una variable estadstica X con
Mathematica, calcular sus frecuencias absolutas f
k
y representar grficamente stas.
Estudiaremos por separado los casos de variable discreta y de variable continua.
Variable estadstica discreta
Tema 5 Estadistica.nb 5
Consideremos primero una variable discreta; por ejemplo, supongamos que las notas
de matemticas de 30 alumnos sean las siguientes :
5 3 4 1 2 8 9 8 7 6
6 7 9 8 7 7 1 0 1 5
9 9 8 0 8 8 8 9 5 7
Los valores de esta variable discreta se definen en Mathematica como una lista, es
decir, separados por comas y encerrados entre sendas llaves:
notas 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5,
9, 9, 8, 0, 8, 8, 8, 9, 5, 7
{5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9,
8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7]
Obsrvese que en este ejemplo hemos introducido los datos por filas, pero podramos
haberlos introducido tambin por columnas. A la hora de definir la variable el orden en
que introduzcamos sus valores es indiferente. Sin embargo, conviene definirla reorde-
nando los datos de menor a mayor; para ello, usamos el comando Sort[var]:
notas Sort5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0,
1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
{0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6,
7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9]
Para obtener la distribucin de frecuencias absolutas de una variable var podemos
usar el comando Tally[var]. Tngase presente que antes de aplicar este comando es
recomendable que la variable est ordenada. Este comando devuelve una matriz con
dos columnas; la primera contiene los valores que toma la variable y la segunda sus
respectivas frecuencias absolutas; para visualizar el resultado como una matriz hemos
de emplear el comando MatrixForm[mat]:
6 Tema 5 Estadistica.nb
notas2 Tallynotas
MatrixFormnotas2
{{0, 2], {1, 3], {2, 1], {3, 1],
{4, 1], {5, 3], {6, 2], {7, 5], {8, 7], {9, 5]]
0 2
1 3
2 1
3 1
4 1
5 3
6 2
7 5
8 7
9 5
Es decir, hay 2 alumnos con un 0, 3 alumnos con un 1, y as sucesivamente. Podemos
definir por separado los valores de la variable y sus frecuencias absolutas en sendas
variables, extrayendo la primera y segunda columna, respectivamente; para ello,
usamos el comando A[[All,k]], el cual extre la columna k-sima de la matriz A.
notasValores notas2All, 1
notasFrecAbs notas2All, 2
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
{2, 3, 1, 1, 1, 3, 2, 5, 7, 5]
La distribucin de frecuencias acumuladas se puede obtener aplicando el comando
Accumulate[frec] , donde frec representa la lista que contiene las frecuencias
absolutas:
notasFrecAbsAcum AccumulatenotasFrecAbs
{2, 5, 6, 7, 8, 11, 13, 18, 25, 30]
Y la distribucin de frecuencias relativas se obtiene dividiendo (cuando se aplica una
operacin aritmtica a una lista, se realiza dicha operacin a cada elemento de ella)
las frecuencias absolutas por el nmero total de elementos de la muestra, el cual se
puede obtener con el comando Length[var]:
Tema 5 Estadistica.nb 7
n Lengthnotas
notasFrecRel notasFrecAbsn
NnotasFrecRel
30

1
15
,
1
10
,
1
30
,
1
30
,
1
30
,
1
10
,
1
15
,
1
6
,
7
30
,
1
6

{0. 06666666667, 0. 1, 0. 03333333333,


0. 03333333333, 0. 03333333333, 0. 1, 0. 06666666667,
0. 1666666667, 0. 2333333333, 0. 1666666667]
donde hemos empleado el comando N[expr] para obtener una aproximacin decimal
de las frecuencias relativas.
Aun cuando la distribucin de frecuencias de una variable estadstica discreta contiene
toda la informacin, a veces es ms conveniente expresarla mediante un grfico, con
el fin de hacerla ms clara y evidente. Para comparar datos cuantitativos de tipo dis-
creto son muy tiles los denominados diagramas de barras. Para trazarlos se repre-
sentan sobre el eje de abscisas los valores de la variable discreta y sobre el eje de
ordenadas las frecuencias absolutas. A continuacin, por los puntos marcados en el
eje de abscisas se levantan trazos gruesos o barras de longitud igual a la frecuencia
correspondiente. Para visualizar un diagrama de barras con Mathematica podemos
usar el comando BarChart[frec], siendo frec la lista que contiene las frecuencias
absolutas de la variable dada:
BarChartnotasFrecAbs
Si queremos colocar en el eje de abscisas los valores de la variable correspondientes
a cada barra debemos usar la opcin ChartLabels->var:
8 Tema 5 Estadistica.nb
BarChartnotasFrecAbs, ChartLabels notasValores
Obsrvese que al pasar el cursor por encima de una barra se muestra el valor corre-
spondiente de la frecuencia absoluta que representa dicha barra. Para conocer ms
opciones grficas de este comando podemos acudir a la ayuda de Mathematica.
Tambin podemos representar grficamente las frecuencias absolutas acumuladas:
BarChartnotasFrecAbsAcum, ChartLabels notasValores
Hay ocasiones en las que los datos de que disponemos son las frecuencias absolutas
de los valores que toma una variable discreta; en estos casos, podemos definir directa-
mente las dos listas, correspondientes a sus valores y a sus frecuencias absolutas
asociadas. Por ejemplo, supongamos que en un muestreo realizado por una empresa
con el fin de estudiar el nmero de hijos por familia espaola se han encontrado los
siguientes resultados:
Nmero de hijos 0 1 2 3 4 5
Nmero de familias 10 16 20 18 12 12
Entonces, la variable queda definida mediante las siguientes dos listas (es necesario
escribir ambas en el mismo orden, de manera que podamos asociar cada valor con su
frecuencia absoluta):
Tema 5 Estadistica.nb 9
nHijos 0, 1, 2, 3, 4, 5
nFamilias 10, 16, 20, 18, 12, 12
{0, 1, 2, 3, 4, 5]
{10, 16, 20, 18, 12, 12]
En este caso, para saber el nmero total de individuos de la muestra hemos de sumar
todas las frecuencias absolutas, lo cual podemos hacer mediante el comando
Total[lista]:
nFamTotal TotalnFamilias
88
A partir de aqu las distribuciones de frecuencias acumuladas y relativas se calculan
igual que antes, as como los respectivos diagramas de barras.
Variable estadstica continua
Consideremos ahora una variable continua. Por ejemplo, supongamos que las edades
de las personas que acuden a un logopeda son las que se reflejan en la siguiente tabla:
3 2 11 13 4 3 2 4 5 6 7 3
4 5 3 2 5 6 27 15 4 21 12 4
3 6 29 13 6 17 6 13 6 5 12 26
Consideremos esta variable como una variable continua, dada la gran diversidad de
valores que puede tomar. En Mathematica, los valores que toma una variable continua
se pueden definir como si fuese una variable discreta; es decir:
edadLogo
Sort3, 2, 11, 13, 4, 3, 2, 4, 5, 6, 7, 3, 4, 5, 3, 2, 5, 6, 27,
15, 4, 21, 12, 4, 3, 6, 29, 13, 6, 17, 6, 13, 6, 5, 12, 26
{2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6,
6, 6, 6, 7, 11, 12, 12, 13, 13, 13, 15, 17, 21, 26, 27, 29]
El nmero de datos de los que disponemos nos lo da, como vimos antes, el comando
Length[var]:
edadNum LengthedadLogo
36
En el caso de una variable continua no tiene sentido hallar las frecuencias absolutas
de sus valores, pues lo ms problabe es que dicha frecuencia sea 0 o bien 1, lo cual
aporta poca informacin. Lo que s puede ser muy til es contar cuntos individuos
10 Tema 5 Estadistica.nb
y
tienen un valor de la variable comprendido entre ciertos valores. En Mathematica, el
comando BinCounts[var,{{a,b}}] devuelve el nmero de individuos para los cuales se
verifica que a x
k
< b. Por ejemplo, podemos calcular cuntos pacientes tienen una
edad comprendida en el intervalo [12,18):
nInd BinCountsedadLogo, 12, 18
{7]
Es decir, hay 7 pacientes con una edad mayor o igual que 12 aos y menor que 18
aos.
Como ocurra con las variables estadsticas discretas, una representacin grfica de la
distribucin de frecuencias puede en muchos casos hacerla ms clara y eficiente. Para
variables estadsticas continuas, o bien para variables estadsticas discretas con un
gran nmero de datos, se suelen emplear los denominados histogramas. Para con-
struir un histograma se representan sobre el eje de abscisas los lmites de las clases.
Sobre dicho eje se construyen rectngulos que tienen por base la amplitud de cada
clase y cuya altura es igual a la frecuencia absoluta correspondiente (con mayor exacti-
tud, dicha altura debera ser tal que el rea de cada rectngulo fuese igual a la frecuen-
cia de la correspondiente clase, pero en Mathematica la altura de cada rectngulo
conicide con la frecuencia absoluta).
En Mathematica, el comando Histogram(datos,{{clases}}) representa grficamente el
histograma de la variable estadstica datos, agrupndola en las clases indicadas en el
segundo argumento. Si no escribimos el segundo argumento, Mathematica utiliza unas
clases por defecto. Por ejemplo, el histograma de las edades de los pacientes de un
logopeda que nos ocupa se representa mediante el siguiente comando:
HistogramedadLogo
Obsrvese que Mathematica ha dibujado el histograma utilizando clases de amplitud
10 aos. Si quisiramos emplear clases de amplitud slo 5 aos ([0,5), [5,10), [10,15),
[15,20), [20,25) y [25,30)), escribiramos:
Tema 5 Estadistica.nb 11
HistogramedadLogo, 0, 5, 10, 15, 20, 25, 30
Si los datos de que disponemos son las frecuencias absolutas de los valores que toma
una variable continua agrupada en clases, podemos definir directamente las dos listas,
correspondientes a sus valores y a sus frecuencias absolutas asociadas. Por ejemplo,
supongamos que la siguiente tabla refleja el nmero de alumnos que han tardado un
determinado tiempo (en minutos) en resolver un problema de matemticas que se les
ha propuesto:
N de alumnos 3 6 10 12 9
Tiempo tardado [10, 12) [12, 14) [14, 16) [16, 18) [18, 20)
Definimos entonces las dos listas asociadas, una con las marcas de las clases y la otra
con las respectivas frecuencias absolutas, en el mismo orden:
alumnClases 11, 13, 15, 17, 19
alumnFrecAbs 3, 6, 10, 12, 9
{11, 13, 15, 17, 19]
{3, 6, 10, 12, 9]
Una vez que ya hemos pasado de una variable estadstica continua a otra variable
discreta, las frecuencias acumuladas y relativas se calculan igual que en el caso de
variables estadsticas discretas, as como el diagrama de barras correspondiente.
Medidas caractersticas
Es frecuente que las observaciones a estudiar estn compuestas por una gran canti-
dad de datos, por lo que se hace necesario complementar la informacin intuitiva que
aportan las tablas de frecuencias y las representaciones grficas con un anlisis
estadstico numrico. La idea es resumir toda la informacin de los datos en unos
pocos, de manera que se conserve la mayor informacin posible del conjunto total de
ellos y el comportamiento global de la poblacin o muestra en estudio.
En esta seccin se estudian los parmetros estadsticos que nos ayudan a emitir con-
clusiones sobre las poblaciones en estudio y a hacer comparaciones entre ellas, ya
12 Tema 5 Estadistica.nb
y y
que a travs slo de las tablas y grficos es posible que emitamos juicios no
acertados.
Para calcular todos estos parmetros estadsticos emplearemos el comando estaDe-
scrip definido al principio de este cuaderno. Si de la variable conocemos todos los
datos, estando definida por tanto mediante una nica lista var, sus parmetros estadsti-
cos se calculan usando la sintaxis estaDescrip[{var},percen], donde el segundo
argumento, percen, es opcional; si aparece, es una lista que contiene los percentiles
que queremos calcular, mientras que en caso contrario no se calcula ningn percentil.
Por ejemplo, podemos calcular los parmetros estadsticos de la variable discreta
notas, que representaba las notas de matemticas de 30 alumnos:
estaDescripnotas
Medidas de Centralizacin
Media:
35
6
Mediana: 7
Moda: {8]
Medidas de Dispersin
Recorrido: 9
Desviacin media:
223
90
Desviacin tpica:
1537
5
6
Varianza:
1537
180
Coeficiente de variacin:
1537
5
35
Medidas de Forma
Coeficiente de sesgo:
21052
5
1537
1537
Coeficiente de curtosis:
1781682
2362369
Para obtener expresionesdecimales de estos parmetros estadsticos podemos
emplear el comando N:
estaDescripNnotas
Tema 5 Estadistica.nb 13
Medidas de Centralizacin
Media: 5. 833333333
Mediana: 7.
Moda: {8. ]
Medidas de Dispersin
Recorrido: 9.
Desviacin media: 2. 477777778
Desviacin tpica: 2. 922137726
Varianza: 8. 538888889
Coeficiente de variacin: 0. 5009378959
Medidas de Forma
Coeficiente de sesgo: 0. 7812095833
Coeficiente de curtosis: 0. 7541929309
Si adems queremos calcular los percentiles 15 y 47 de la variable, escribiremos:
estaDescripNnotas, 15, 47
14 Tema 5 Estadistica.nb
Medidas de Centralizacin
Media: 5. 833333333
Mediana: 7.
Moda: {8. ]
Medidas de Posicin
Percentil 15: 1.
Percentil 47: 7.
Medidas de Dispersin
Recorrido: 9.
Desviacin media: 2. 477777778
Desviacin tpica: 2. 922137726
Varianza: 8. 538888889
Coeficiente de variacin: 0. 5009378959
Medidas de Forma
Coeficiente de sesgo: 0. 7812095833
Coeficiente de curtosis: 0. 7541929309
Si de la variable conocemos sus valores y sus frecuencias absolutas, definidas en
sendas listas val y frec, respectivamente, sus parmetros estadsticos se calculan
usando la sintaxis estaDescrip[{val,frec},percen], donde el segundo argumento,
percen, es opcional y representa lo mismo que en el caso anterior.
Por ejemplo, podemos calcular los parmetros estadsticos de la variable continua
alumnClases, con frecuencias alumnFrecAbs, que representaba el tiempo tardado por
un conjunto de alumnos en resolver un determinado problema de matemticas:
estaDescripNalumnClases, alumnFrecAbs, 25, 75
Tema 5 Estadistica.nb 15
Medidas de Centralizacin
Media: 15. 9
Mediana: 17.
Moda: {17. ]
Medidas de Posicin
Percentil 25: 15.
Percentil 75: 17.
Medidas de Dispersin
Recorrido: 8.
Desviacin media: 2. 055
Desviacin tpica: 2. 406241883
Varianza: 5. 79
Coeficiente de variacin: 0. 1513359675
Medidas de Forma
Coeficiente de sesgo: 0. 3992207801
Coeficiente de curtosis: 0. 7560113471
En los siguientes apartados definiremos todas estas medidas caractersticas y estable-
ceremos sus principales propiedades.
Medidas de centralizacin
Al describir grupos de observaciones, con frecuencia es conveniente resumir la informa-
cin con un solo nmero. Este nmero que, para tal fin, suele situarse hacia el centro
de la distribucin de datos se denomina medida de centralizacin. Estudiamos en
este tema tres de las ms importantes, como son la media, la mediana y la moda.
Media
Consideremos una variable estadstica X que toma los valores x
1
, x
2
, , x
n
. Dada
una distribucin de N observaciones de dicha variable estadstica en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, , f
n
, respectivamente, se
define la media de la distribucin como:
x =
1
N
_
k=1
n
x
k
f
k
Si la variable estadstica X es continua y sus datos se encuentran agrupados en
clases, se toman como valores x
1
, x
2
, , x
n
las marcas de cada clase.
La media es la medida de centralizacin ms utilizada por su fcil clculo y por tener
en cuenta todos los datos. Sin embargo, hay casos en los que se deben utilizar otras
medidas de centralizacin. Por ejemplo, si la variable toma algunos valores extremos
16 Tema 5 Estadistica.nb
j g
poco significativos, stos pueden distorsionar la media. Por otra parte, si los datos
estn agrupados en clases y alguna de ellas es abierta, no es posible calcular la media.
Mediana
Dada una variable estadstica X, ordenemos en orden creciente de magnitud todos los
valores que toma, repetidos tantas veces como indique su frecuencia absoluta. Si el
nmero de datos es impar, la mediana de la distribucin es el valor central, es decir, el
valor tal que hay tantos valores por debajo de l que por encima. Si el nmero de datos
es par, la mediana es el valor medio de los dos valores centrales.
La mediana es til cuando entre los datos existe uno ostensiblemente extremo que
distorsiona la media o cuando no es posible calcular sta. Por otra parte, en su clculo
mo utilizan todos los datos de los que dispone, pues depende del orden de los datos y
no de su valor.
En las variables que pueden representarse con histogramas, la mediana es el valor de
la variable tal que la vertical levantada sobre el mismo divide al histograma en dos
partes de igual rea.
Moda
Dada una variable estadstica X, se llama moda de la distribucin al valor de dicha
variable que presenta mayor frecuencia absoluta. Si la variable estadstica est agru-
pada en clases, se llama clase modal a la clase de mayor frecuencia absoluta. La
moda no tiene por qu ser nica, puesto que puede haber varios valores de la variable
que alcancen la misma frecuencia absoluta mxima. Se dice en este caso que la dis-
tribucin es bimodal, trimodal, etc.
En el clculo de la moda no intervienen todos los datos de los que se dispone, pues
slo representa el valor dominante, y no existe si la frecuencia es constante.
Medidas de posicin
Las medidas de posicin de una variable estadstica dividen sta en grupos con el
mismo nmero de individuos. Para calcular las medidas de posicin es necesario que
los valores de la variable estadstica estn ordenados de menor a mayor. Las princi-
pales medidas de posicin son los percentiles y los cuartiles.
Al igual que la mediana de una variable estadstica divida el conjunto de valores de
sta en dos partes con el mismo nmero de individuos, se llaman percentiles a 99
valores de la variable estadstica que dividen la serie de datos en 100 partes iguales.
Es decir, el percentil 15 (que se representa como P
15
) es el valor que debe tomar la
variable estadstica dada para que como mximo el 15% de los datos queden por
debajo de l y como mximo el restante 85% de los datos queden por encima de l.
Se llaman cuartiles de una variable estadstica a tres valores que dividen la serie de
datos en cuatro partes iguales. Corresponden a los percentiles P
25
, P
50
y P
75
y se
denotan por Q
1
, Q
2
y Q
3
, respectivamente.
Medidas de dispersin
La investigacin acerca de una variable estadstica queda incompleta si slo se estu-
dian las medidas de centralizacin, siendo imprescindible conocer si los datos numri-
Tema 5 Estadistica.nb 17
cos estn concentrados o no alrededor de los valores centrales. A esto es a lo que se
le llama dispersin, y a los parmetros que miden estas desviaciones respecto de la
media se les llama medidas de dispersin.
Recorrido
Se llama recorrido o rango de una distribucin a la diferencia entre el mayor y el
menor valor de la variable estadstica. Conforme menor es el rango mayor es la repre-
sentatividad de los valores centrales, en cuyo caso diremos que la distribucin es
menos dispersa. Su clculo es muy elemental, pero al depender slo de los valores
extremos basta que uno de ellos se separe mucho para que el recorrido se vea muy
afectado. Para evitar esto se utilizan tambin el rango intercuartlico Q
3
-Q
1
y el
rango entre percentiles P
90
-P
10
.
Desviacin media
Se llama desviacin media o desviacin respecto de la media de una distribucin a la
media aritmtica de los valores absolutos de las desviaciones observadas respecto de
un determinado valor medio x. Es decir, dada una distribucin de N observaciones de
una variable estadstica en la que se alcanzan los valores x
1
, x
2
, , x
n
con frecuencias
absolutas f
1
, f
2
, , f
n
, respectivamente, su desviacin media viene dada por:
DM=
1
N
_
k=1
n
f
k
x
k
-x
siendo x la media de la variable. Se trata de una medida de dispersin poco utilizada
dada su complejidad de clculo. Si la desviacin media es muy pequea, indica que
hay una gran concentracin de valores en torno a la media.
Desviacin tpica
Consideremos una variable estadstica X que toma los valores x
1
, x
2
, , x
n
. Dada una
distribucin de N observaciones de dicha variable estadstica en la que se alcanzan los
valores anteriores con frecuencias absolutas f
1
, f
2
, , f
n
, respectivamente, se define
la desviacin tpica de la distribucin como:
s =
1
N
_
k=1
n
f
k
(x
k
-x)
2
siendo x la media de la variable.
Se llama varianza de una variable estadstica al cuadrado de su desviacin tpica, y se
representa por s
2
.
Tanto la varianza como la desviacin tpica dependen de todos los datos, as como la
media, y no se pueden calcular en los casos en que sta no se pueda obtener. La
varianza tiene el inconveniente de que no viene expresada en las mismas unidades
que los datos (si, por ejemplo, stos se miden en m, la varianza se mide en m
2
). En
cambio, la desviacin tpica viene expresada en las mismas unidades, y es la medida
de dispersin ms utilizada.
La informacin conjunta que proporciona la media y la desviacin tpica puede precis-
arse con el denominado teorema de Tchebicheff: entre la media y k veces (k > 1) la
18 Tema 5 Estadistica.nb
y ( )
desviacin tpica existe, como mnimo, el 100 1-
1
k
2
% de las observaciones. Es
decir, entre la media y 2 desviaciones tpicas est al menos el 100 |1-
1
4
] = 75% de
las observaciones, y entre la media y 3 desviaciones tpicas se encuentra al menos el
100 |1-
1
9
] = 89% de las observaciones.
Coeficiente de variacin
Se define el coeficiente de variacin (CV) de una distribucin de valores de una
variable estadstica como el cociente entre su desviacin tpica s y el valor absoluto de
su media x, es decir, CV =
s
x
. En ocasiones se multiplica este coeficiente por 100 para
proporcionar valores percentuales. El coeficiente de variacin de una poblacin
homognea es tpicamente menor que la unidad. Si este coeficiente es mayor que 1.5
conviene estudiar posibles fuentes de heterogeneidad en los datos (utilizacin de
distintos instrumentos de medida, distintos momentos temporales, etc.).
Algunas veces resulta deseable comparar diversos grupos en relacin a su relativa
homogeneidad cuando los grupos tienen medias diferentes, pero puede motivar cierta
confusin la comparacin de las magnitudes absolutas de las deviaciones tpicas. En
esos casos resulta aconsejable utilizar como elemento de comparacin la desviacin
tpica en relacin a la media, es decir, el coeficiente de variacin.
Medidas de forma
La forma de la representacin grfica de una distribucin de frecuencias proporciona
en muchas ocasiones informacin til sobre la variable estadstica analizada. Las dos
caractersticas de forma ms importante son la de asimetra o sesgo, que establece si
la distribucin es simtrica respecto de la media o no, y la de apuntamiento o curto-
sis, que seala si la distribucin es ms puntiaguda o ms plana que la distribucin
normal, tambin conocida como campana de Gauss.
Asimetra o sesgo
Consideremos una variable estadstica X que toma los valores x
1
, x
2
, , x
n
. Dada
una distribucin de N observaciones de dicha variable estadstica en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, , f
n
, respectivamente, se
define el coeficiente de asimetra o coeficiente de sesgo como:
g
3
=
1
s
3

1
N
_
k=1
n
f
k
(x
k
-x)
3
siendo s la desviacin tpica de la variable y x su media.
Si g
3
= 0, la distribucin es simtrica respecto de la mediana; entonces, si la distribu-
cin es unimodal, las tres medidas de centralizacin, meda, mediana y moda,
coinciden.
Si g
3
> 0, la distribucin presenta asimetra positiva; entonces, dicha distribucin est
sesgada a la derecha, vindose en su representacin grfica una cola para valores
mayores de la mediana.
Si g
3
< 0, la distribucin presenta asimetra negativa; entonces, dicha distribucin est
Tema 5 Estadistica.nb 19
sesgada a la izquierda, vindose en su representacin grfica una cola para valores
menores de la mediana.
Apuntamiento o curtosis
Consideremos una variable estadstica X que toma los valores x
1
, x
2
, , x
n
. Dada
una distribucin de N observaciones de dicha variable estadstica en la que se alcan-
zan los valores anteriores con frecuencias absolutas f
1
, f
2
, , f
n
, respectivamente, se
define el coeficiente de apuntamiento o coeficiente de curtosis como:
g
4
=
1
s
4

1
N
_
k=1
n
f
k
(x
k
-x)
4
-3
siendo s la desviacin tpica de la variable y x su media.
Este coeficiente indica el grado de elevacin del diagrama de barras de las frecuencias
relativas de la distribucin. Este grado de elevacin se traduce en el reparto de la
frecuencia entre el centro y los extremos de la grfica. Como medida de referencia de
dicho grado de elevacin se toma la curva normal o campana de Gauss, la cual se
muestra en la siguiente figura:
Si g
4
= 0, la distribucin presenta el mismo grado de elevacin que la curva normal con
la misma varianza y se denomina distribucin mesocrtica.
Si g
4
> 0, la distribucin es ms apuntada que la curva normal con la misma varianza
y se denomina distribucin leptocrtica.
Si g
4
< 0, la distribucin es menos apuntada que la curva normal con la misma vari-
anza y se denomina distribucin platicrtica.
Variables estadsticas bidimensionales
Dedicamos esta seccin al estudio de las variables estadsticas bidimensionales,
aunque gran parte de las conclusiones y mtodos utilizados se pueden extrapolar a
variables multidimensionales. Empezaremos analizando cmo definir y representar
grficamente dichas variables, y pasaremos a continuacin al estudio de la dependen-
cia que puede existir entre ambas variables, concepto conocido como correlacin.
20 Tema 5 Estadistica.nb
Definicin y presentacin de datos
Sea (X,Y) una variable estadstica bidimensional donde las variables unidimensionales
X e Y adoptan los valores x
1
, x
2
, ..., x
n
e y
1
, y
2
, ..., y
n
, respectivamente. As, los datos
para la variable bidimensional son pares de valores de la forma |x
k
, y
j
]. En el caso de
que alguna de las variables sea continua y est agrupada en clases, consideraremos
slo sus marcas de clase.
Se llama frecuencia absoluta del par |x
k
, y
j
], y se denota por f
kj
, al nmero de veces
que se repite dicho par en los datos. Si N es el nmero total de observaciones, se
llama frecuencia relativa del par |x
k
, y
j
], y se denota por h
kj
, a h
kj
=
f
kj
N
.
Cuando cada par de la variable se presenta con frecuencia absoluta uno, los datos
suelen venir dados por una tabla, en la cual cada fila representa una de las variables y
cada columna al mismo individuo. Por ejemplo, la siguiente tabla muestra tanto el
gasto invertido en publicidad como las ventas (ambas en miles de ) realizados por
una empresa durante los ltimos aos:
Gastos publicidad 4. 2 8. 4 12 8. 4 15 16. 8 17. 4 18. 6 21
Ventas 480 660 1080 900 1200 1330 1380 1435 1490
En Mathematica, definimos esta variable estadstica bidimensional encerrando cada
par de datos entre llaves, y todos los datos entre otras llaves, como se muestra a
continuacin:
gastosVentas 4.2, 480, 8.4, 660, 12, 1080, 8.4, 900,
15, 1330, 16.8, 1330,
17.4, 1380, 18.6, 1435, 21, 1490
{{4. 2, 480], {8. 4, 660], {12, 1080], {8. 4, 900], {15, 1330],
{16. 8, 1330], {17. 4, 1380], {18. 6, 1435], {21, 1490]]
Podemos mostrar la variable en forma matricial empleando el comando MatrixForm[-
var]:
MatrixFormgastosVentas
4. 2 480
8. 4 660
12 1080
8. 4 900
15 1330
16. 8 1330
17. 4 1380
18. 6 1435
21 1490
Tema 5 Estadistica.nb 21
Si extraemos las dos columnas de esta matriz podemos definir las dos variables unidi-
mensionales:
gastos gastosVentasAll, 1
ventas gastosVentasAll, 2
{4. 2, 8. 4, 12, 8. 4, 15, 16. 8, 17. 4, 18. 6, 21]
{480, 660, 1080, 900, 1330, 1330, 1380, 1435, 1490]
Cuando cada par de la variable estadstica bidimensional se presenta con distinta
frecuencia, dicha variable se define mediante las denominadas tablas de doble
entrada. En ellas, cada fila corresponde al valor de una de las variables (X) y cada
columna al valor de la otra variable (Y); el elemento kj de la tabla representa el nmero
de veces que se repite el par |x
k
, y
j
], es decir, su frecuencia absoluta. Por ejemplo, la
siguiente tabla muestra las edades y las alturas de un conjunto de 35 personas:
Altura
[1. 65, 1. 75) [1. 75, 1. 85) [1. 85, 1. 95)
Edad 17 3 5 1
18 4 10 2
19 4 2 0
20 0 1 3
En Mathematica, para definir esta variable bidimensional hemos de definir dos listas.
La primera contiene todos los pares de valores posibles que puede tener la variable
(12 pares en este ejemplo, o bien slo 10 pares si excluimos los que poseen frecuen-
cia absoluta cero), empleando las marcas de clase para la variable altura, mientras
que la segunda contiene las respectivas frecuencias absolutas, escritas en el mismo
orden que la primera lista:
edadAlturaVal 17, 1.7, 17, 1.8, 17, 1.9, 18, 1.7,
18, 1.8, 18, 1.9,
19, 1.7, 19, 1.8, 20, 1.8, 20, 1.9
edadAlturaFrecAbs 3, 5, 1, 4, 10, 2, 4, 2, 1, 3
{{17, 1. 7], {17, 1. 8], {17, 1. 9], {18, 1. 7], {18, 1. 8],
{18, 1. 9], {19, 1. 7], {19, 1. 8], {20, 1. 8], {20, 1. 9]]
{3, 5, 1, 4, 10, 2, 4, 2, 1, 3]
Podemos comprobar, por seguridad, que ambas listas contienen el mismo nmero de
elementos:
22 Tema 5 Estadistica.nb
LengthedadAlturaVal
LengthedadAlturaFrecAbs
10
10
Extrayendo como antes las dos columnas de la variable bidimensional definida y elimi-
nando duplicidades con el comando DeleteDuplicates[lista] de Mathematica, porde-
mos obtener las variables unidimensionales por separado:
edad DeleteDuplicatesedadAlturaValAll, 1
altura DeleteDuplicatesedadAlturaValAll, 2
{17, 18, 19, 20]
{1. 7, 1. 8, 1. 9]
Las respectivas frecuencias absolutas de cada variable se obtienen sumando las
frecuencias absolutas de la tabla de doble entrada por filas y por columnas, respectiva-
mente:
edadFrecAbs 3 5 1, 4 10 2, 4 2 0, 0 1 3
alturaFrecAbs 3 4 4 0, 5 10 2 1, 1 2 0 3
{9, 16, 6, 4]
{11, 18, 6]
Los diagramas de dispersin o nubes de puntos son las representaciones ms
utilizadas para mostrar grficamente los datos de una variable estadstica bidimen-
sional. Consisten en un sistema de ejes coordenados representando en el eje de
abscisas los valores de la variable X y en el de ordenadas los de la variable Y, de
forma que cada punto del plano corresponde a un valor |x
j
, y
k
] de la variable bidimen-
sional. La frecuencia absoluta de cada uno de estos pares de valores se puede
mostrar en el grosor del punto mostrado o bien como una etiqueta en dicho punto.
Estos diagramas nos resultarn muy tiles para indicarnos si existe relacin o depen-
dencia entre las dos variables y medir el sentido y la intensidad de dicha relacin.
En Mathematica, los diagramas de dispersin los representaremos con el comando
diagDispersion[var,frec], definido al principio de este tema, donde var es la lista que
define la variable bidimensional y frec la que define sus frecuencias absolutas. En el
caso de que stas sean todas uno, no es necesario escribir este segundo argumento.
As, el diagrama de dispersin de la variable Gastos-Ventas viene dado por (estando la
variable Gastos representada en el eje de abscisas y la variable Ventas en el eje de
ordenadas):
Tema 5 Estadistica.nb 23
diagDispersiongastosVentas
5 10 15 20
600
800
1000
1200
1400
Por su parte, el diagrama de dispersin de la variable Edad-Altura (estando la variable
Edad en el eje de abscisas y la variable Altura en el de ordenadas) viene dado por:
diagDispersionedadAlturaVal, edadAlturaFrecAbs
Obsrvese que al pasar el cursor por encima de cada punto del diagrama se muestra
la frecuencia absoluta de dicho punto.
Dependencia y correlacin entre variables
Al estudiar una variable estadstica bidimensional surge la pregunta acerca de la posi-
ble relacin entre ambas variables. Ya apuntbamos antes la necesidad de abordar
este concepto, conocido como correlacin o dependencia, el cual es uno de los
estudios ms importantes que se pueden realizar entre dos variables.
Decimos que existe una dependencia funcional de Y sobre X cuando a cada valor de
x
k
le podemos asignar un nico valor y
j
de forma que y
j
= f (x
k
), es decir, cuando el
valor de una variable determina exactamente el valor de la otra. La dependencia fun-
cional ser lineal cuando todos los pares de puntos se encuentren sobre una recta, y
ser curvilnea cuando se encuentren sobre la curva definida por la funcin y = f (x).
24 Tema 5 Estadistica.nb
2 4 6 8 10
X
5
10
15
20
25
30
35
Y
Dependencia funcional directa
2 4 6 8 10
X
250
300
350
400
450
Y
Dependencia parablica inversa
Decimos que las variables X e Y son independientes o incorreladas si el valor de
una variable no influye en el valor de la otra
2 4 6 8 10
X
2
4
6
8
10
Y
Variables independientes
Los dos anteriores, dependencia funcional e independencia, son los casos extremos,
definiendo como opcin intermedia y ms habitual la dependencia o correlacin
aleatoria cuando el diagrama de puntos se condensa entorno a la representacin de
una funcin. Ser ms o menos fuerte en relacin con la tendencia de los valores de la
distribucin a satisfacer dicha funcin. Adems, diremos que la correlacin es positiva
o directa si, a medida que crecen los valores de una de las variables, crecen tambin
los de la otra; ser correlacin negativa o inversa en caso contrario.
2 4 6 8 10
X
2
4
6
8
Y
Correlacin aleatoria positiva
2 4 6 8 10
X
2
4
6
8
10
Y
Correlacin aleatoria negativa
Por tanto, mediante los diagramas de dispersin podemos tener una idea grfica de la
posible coprrelacin entre dos variables. Sin embargo, si dicha dependencia existe
Tema 5 Estadistica.nb 25
pero es dbil es difcil determinar grficamente este hecho, por lo que necesitamos un
mtodo analtico que cuantifique de manera fiable la relacin entre ambas variables.
Se llama covarianza de una variable estadstica bidimensional (X,Y), y denota por s
xy
,
al valor dado por:

xy

1
n
_
j 1
m
_
k1
n
(x
j
x) (y
k
y) f
j k

1
n
_
j 1
m
_
k1
n
x
j
y
k
f
j k
x y
siendo x e y las medias de las variables X e Y, respectivamente. El valor de la covari-
anza expresa si la correlacin es directa (s
xy
> 0) o inversa (s
xy
< 0), pero no indica el
grado.
Se define el coeficiente de correlacin lineal como:


xy

x

y
donde s
x
y s
y
son las desviaciones tpicas de las variables X e Y, respectivamente.
Este coeficiente, que no depende de las unidades de medida, tiene el mismo signo que
la covarianza y su valor siempre est comprendico entre -1 y 1, determina el grado de
intensidad de la relacin lineal. Sus principales propiedades son las siguientes:
Si r = 1 r = -1, existe dependencia funcional lineal directa o inversa,
respectivamente. Todos
los puntos del diagrama de dispersin estn situados sobre una recta.
Si r = 0, las variables son incorreladas.
Si r (0, 1), la correlacin lineal es aleatoria y positiva. Esta dependencia ser ms
fuerte
a medida que r se aproxime a 1 y ms dbil a medida que se aproxime a 0.
Si r (-1, 0), la correlacin lineal es aleatoria y negativa. Esta dependencia ser
ms fuerte
a medida que r se aproxime a -1 y ms dbil a medida que se aproxime a 0.
Una vez conocido el grado de dependencia de una variable con respecto a la otram se
hace necesario obtener la funcin a cuya representacin grfica se asemeja el dia-
grama de dispersin y que servir como aproximacin de una variable con respecto a
la otra.
El problema de la regresin o ajuste consiste en ajustar una funcin de ecuacin
conocida a la nube de puntos obtenida de los pares de datos de la variable bidimen-
sional. A la representacin grfica de esta funcin se le llama lnea de regresin.
Puesto que el diagrama de dispersin se condensa entorno a dicha lnea, en mayor o
menor grado, la funcin calculada nos sirve para obtener una aproximacin o predic-
cin de los valores de una variable a partir de la otra.
Existen distintos problemas de regresin dependiendo del tipo de funcin que busque-
mos como aproximacin: lineal, parablica, exponencial, etc. Por ser la ms simple y la
ms utilizada, estudiaremos el problema de la regresin lineal.
Se define la recta de regresin lineal como aqulla que hace mnima la suma de los
cuadrados de las distancias (en horizontal o en vertical, de ah que existan dos rectas
26 Tema 5 Estadistica.nb
(
de regresin) de los puntos observados a los puntos estimados:
Recta de regresin de Y sobre X: Esta recta de regresin se utiliza para predecir el
valor de Y una vez conocido el correspondiente valor de X.
r
Y/X
: Y y

xy

x
2
(X x)
Recta de regresin de X sobre Y: Esta recta de regresin se utiliza para predecir el
valor de X una vez conocido el correspondiente valor de Y.
r
X/Y
: X x

xy

y
2
(Y y)
En Mathematica, calcularemos estas rectas de regresin utilizando el comando
estaBidim[var,frec], el cual adems devuelve los valores tanto de la covarianza como
del coeficiente de correlacin. Si los valores de la variable estadstica bidimensional se
presentan con frecuencia 1, no es necesario escribir el segundo argumento frec, el
cual es opcional.
Por ejemplo, consideremos la variable bidimensional Gastos-Ventas, que definimos
anteriormente; sus rectas de regresin son las siguientes:
estaBidimgastosVentas
Covarianza: 1764. 814815
Coeficiente de correlacin: 0. 9716323552
Recta de regresin de Y sobre X: y 265. 3898791 63. 18958201 x
Recta de regresin de X sobre Y: x 3. 208069523 0. 01494027027y
Vemos que la relacin lineal es positiva y fuerte, pues el coeficiente de correlacin
lineal es prximo a 1. Podemos comprobar grficamente el grado de ajuste de las
rectas de regresin al diagrama de dispersin, empleando los comandos Plot (hay que
tener en cuenta que para representar la recta de regresin de X sobre Y hemos de
despejar la variable y de la correspondiente ecuacin) y Show de Mathematica:
Tema 5 Estadistica.nb 27
g1 diagDispersiongastosVentas;
g2
Plot265.3898791 63.18958201x, x, 0, 25, PlotStyle Red;
g3 Plotx 3.2080695230.01494027027,
x, 0, 25, PlotStyle Blue;
Show
g1,
g2,
g3
5 10 15 20
600
800
1000
1200
1400
Consideramos finalmente la variable Edad-Altura:
estaBidimedadAlturaVal, edadAlturaFrecAbs
Covarianza: 0. 01346938776
Coeficiente de correlacin: 0. 2122724262
Recta de regresin de Y sobre X: y 1. 503301887 0. 01556603774x
Recta de regresin de X sobre Y: x 12. 97368421 2. 894736842 y
Vemos que la correlacin lineal entre ambas variables es muy baja, pues el coeficiente
de correlacin es prximo a 0. Lo comprobamos grficamente con las rectas de
regresin:
28 Tema 5 Estadistica.nb
g1 diagDispersionedadAlturaVal, edadAlturaFrecAbs;
g2 Plot1.503301887 0.01556603774x,
x, 15, 25, PlotStyle Red;
g3 Plotx 12.973684212.894736842,
x, 15, 25, PlotStyle Blue;
Show
g1,
g2,
g3
Problemas resueltos
Mostramos en este apartado una coleccin de problemas del tema de Estadstica
descriptiva resueltos con la ayuda de Mathematica. Todos los problemas estn expli-
cados paso a paso para un mejor aprendizaje, y sirven de ejemplo de cmo utilizar el
programa Mathematica para resolver los problemas de la asignatura.
Problema 1
Con el fin de estimar la media y la desviacin tpica del tiempo empleado en realizar
cierto trabajo, se encomend la ejecucin del mismo a 50 obreros y se midi el
tiempo invertido por cada uno de ellos. Los datos obtenidos, expresados en segun-
dos, fueron los siguientes:
293 248 254 246 227 314 302 361 283 295
234 252 243 262 189 256 283 222 211 237
312 306 189 202 213 196 178 231 286 238
345 184 176 217 302 258 249 302 199 187
323 262 189 214 313 296 252 301 214 226
a) Cul es el menor tiempo tardado por algn obrero? Y el mayor?
Tema 5 Estadistica.nb 29
b) Cuntos obreros han tardado ms de 295 segundos en ejecutar el trabajo?
Cuntos han tardado menos de 275 segundos pero ms de 200 segundos?
c) Representar grficamente su histograma, considerando clases de amplitud 25
segundos empezando por la clase [170,195).
d) Calcular el tiempo medio invertido en la realizacin del trabajo. Es representativo
dicho valor?
e) Qu tipo de sesgo posee la distribucin de frecuencias de la variable?
f) Si la empresa selecciona al 15% de los obreros que menos tardan en ejecutar el
trabajo, cul es el tiempo mximo que tardan los obreros seleccionados?
g) Si la empresa despide al 15% de los obreros que ms tiempo tardan en ejecutar
el trabajo, cul es el tiempo mnimo del grupo de obreros despedidos?
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Clear"Global`"
a) Definimos primero los valores que toma la variable estadstica, como una lista de
nmeros separados por comas y encerrados entre llaves, y los ordenamos de menor a
mayor:
tiempo
Sort293, 248, 254, 246, 227, 314, 302, 361, 283, 295, 234, 252,
243, 262, 189, 256, 283, 222, 211, 237, 312, 306, 189, 202,
213, 196, 178, 231, 286, 238, 345, 184, 176, 217, 302, 258,
249, 302, 199, 187, 323,
262, 189, 214, 313, 296, 252, 301, 214, 226
{176, 178, 184, 187, 189, 189, 189, 196, 199, 202, 211, 213, 214,
214, 217, 222, 226, 227, 231, 234, 237, 238, 243, 246, 248, 249,
252, 252, 254, 256, 258, 262, 262, 283, 283, 286, 293, 295,
296, 301, 302, 302, 302, 306, 312, 313, 314, 323, 345, 361]
Vemos que el menor tiempo tardado por algn empleado es de 176 segundos y el
mayor es de 361 segundos.
b) Contamos primero cuntos obreros han tardado un tiempo comprendido en el inter-
valo (295,361], para lo cual podemos empelar el comando BinCounts. Como el inter-
valo que se le pase como argumento a este comando debe ser cerrado por la
izquierda y abierto por la derecha, podemos usar el intervalo [295.1,362), dado que no
hay ningn valor mayor de 361 ni ninguno que no sea un nmero entero:
BinCountstiempo, 295.1, 362
{12]
Por lo tanto, 12 obreros han tardado ms de 295 segundos. Contamos ahora cuntos
30 Tema 5 Estadistica.nb
g
obreros han tardado un tiempo comprendido en el intervalo (200,275), que es equiva-
lente al intervalo [200.1,275):
BinCountstiempo, 200.1, 275
{24]
Es decir, hay un total de 24 obreros que han tardado ms de 200 segundos pero
menos de 275 segundos.
c) Dibujamos el histograma empleando el comando Histogram, usando las clases
dadas en el enunciado:
Histogramtiempo, 170, 195, 220, 245, 270, 295, 320, 345, 370
d) Calculamos todos sus parmetros estadsticos, empleando el comando estaDe-
scrip definido al comienzo de este tema:
estaDescripNtiempo
Tema 5 Estadistica.nb 31
Medidas de Centralizacin
Media: 251. 44
Mediana: 248. 5
Moda: {189. , 302. ]
Medidas de Dispersin
Recorrido: 185.
Desviacin media: 39. 1376
Desviacin tpica: 46. 82612946
Varianza: 2192. 6864
Coeficiente de variacin: 0. 1862318225
Medidas de Forma
Coeficiente de sesgo: 0. 2554663196
Coeficiente de curtosis: 0. 842775447
Por lo tanto, el tiempo medio es de 251.44 segundos. Como el coeficiente de variacin
(0.18) es mucho menor de uno, dicha media s es representativa de los valores de la
variable, siendo sta homognea.
e) Como el coeficiente de sesgo (0.26) es positivo, la distribucin est ligeramente
sesgada a la derecha, vindose en su histograma una cola para valores mayores de la
mediana (248.5)
f) Se trata de hallar el valor de la variable que deja por debajo de l el 15% del total de
obreros; hemos de calcular por tanto el percentil 15 de la distribucin:
estaDescriptiempo, 15
32 Tema 5 Estadistica.nb
Medidas de Centralizacin
Media:
6286
25
Mediana:
497
2
Moda: {189, 302]
Medidas de Posicin
Percentil 15: 196
Medidas de Dispersin
Recorrido: 185
Desviacin media:
24461
625
Desviacin tpica:
1370429
25
Varianza:
1370429
625
Coeficiente de variacin:
1370429
6286
Medidas de Forma
Coeficiente de sesgo:
409843887
1370429 1370429
Coeficiente de curtosis:
1582796040496
1878075644041
Por lo tanto, el tiempo mximo que tardan los obreros seleccionados es de 196
segundos.
g) Se trata ahora de hallar el valor de la variable que deja por encima de l el 15% del
total de obreros, luego deja por debajo de l el 85% del total de obreros; hemos de
calcular por tanto el percentil 85:
estaDescriptiempo, 85
Tema 5 Estadistica.nb 33
Medidas de Centralizacin
Media:
6286
25
Mediana:
497
2
Moda: {189, 302]
Medidas de Posicin
Percentil 85: 302
Medidas de Dispersin
Recorrido: 185
Desviacin media:
24461
625
Desviacin tpica:
1370429
25
Varianza:
1370429
625
Coeficiente de variacin:
1370429
6286
Medidas de Forma
Coeficiente de sesgo:
409843887
1370429 1370429
Coeficiente de curtosis:
1582796040496
1878075644041
Por consiguiente, el tiempo mnimo del grupo de obreros despedidos es de 302
segundos.
Problema 2
El nmero de unidades de un determinado producto adquiridas anualmente por 110
consumidores entrevistados se distribuye de la siguiente forma:
N de unidades 20 30 30 40 40 50 50 60 60 100
N de consumidores 25 20 35 15 15
a) Representar grficamente la distribucin de frecuencias de la variable dada.
b) Calcular las unidades medias adquiridas, la mediana de las adquisiciones y el
nmero de unidades vendidas ms frecuente.
c) Analizar la homogeneidad de la muestra.
d) Cmo es la distribucin de frecuencias si la comparamos con la distribucin
34 Tema 5 Estadistica.nb
)
normal?
e) Si, una vez ordenados los grupos de consumidores por orden ascendente de sus
adquisiciones, se quieren clasificar en cuatro grupos de igual nmero de consumi-
dores cada uno, cul sera el nmero de unidades vendidas que delimitaran el
grupo de consumidores que ms unidades han adquirido?
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Clear"Global`"
a) Definimos primero la distribucin de frecuencias usando la agrupacin en clases
dada en el enunciado (obsrvese que no tenemos acceso a los datos originales de
cada consumidor). Para ello debemos definir primero los valores de la variable (las
marcas de las clases) y luego las respectivas frecuencias absolutas (en el mismo
orden):
ventasVal 25, 35, 45, 55, 80
ventasFrec 25, 20, 35, 15, 15
{25, 35, 45, 55, 80]
{25, 20, 35, 15, 15]
Aunque inicialmente la variable era continua, al estar agrupada en slo 5 clases se ha
convertido en una variable discreta; su representacin grfica vendr dada por tanto
por un diagrama de barras:
BarChartventasFrec, ChartLabels ventasVal
b) Las unidades medias adquiridas nos las da la media de la distribucin; calculamos
pues sus parmetros estadsticos
estaDescripNventasVal, ventasFrec
Tema 5 Estadistica.nb 35
Medidas de Centralizacin
Media: 44. 77272727
Mediana: 45.
Moda: {45. ]
Medidas de Dispersin
Recorrido: 55.
Desviacin media: 12. 54132231
Desviacin tpica: 17. 02119486
Varianza: 289. 7210744
Coeficiente de variacin: 0. 3801688192
Medidas de Forma
Coeficiente de sesgo: 0. 8477317488
Coeficiente de curtosis: 0. 04679748161
Por lo tanto, las unidades medias adquiridas son 44.77. La mediana de las observa-
ciones es 45, lo que quiere decir que la clase mediana es [40,50). FInalmente, el
nmero de unidades vendidas ms frecuentemente nos lo da la moda de la distribu-
cin, 45, lo que significa que la distribucin es unimodal y que la clase modal es tam-
bin [40,50).
c) Para analizar la homogeneidad de la muestra hemos de considerar el valor del
coeficiente de variacin, 0.38. Como ste es sensiblemente menor que la unidad, la
muestra es homognea.
d) Para comparar la distribucin de frecuencias de la variable dada con la variable
normal hemos de calcular su coeficiente de curtosis. Como ste es negativo (-0.047),
podemos concluir que la distribucin dada es menos puntiaguda que la distribucin
normal con la misma desviacin tpica (platicrtica), aunque su valor absoluto es tan
pequeo que la diferencia entre ambas distribuciones es mnima.
e) Los cuatro grupos con igual nmero de consumidores cada uno de ellos nos los
proporcionan los tres cuartiles de la distribucin. El grupo formado por los consumi-
dores que ms unidades ha adquirido est delimitado entre el tercer cuartil y el valor
mximo de la variable. Por lo tanto, lo que nos pide el enunciado es el tercer cuartil Q
3
,
que coincide con el percentil P
75
:
estaDescripventasVal, ventasFrec, 75
36 Tema 5 Estadistica.nb
Medidas de Centralizacin
Media:
985
22
Mediana: 45
Moda: {45]
Medidas de Posicin
Percentil 75: 55
Medidas de Dispersin
Recorrido: 55
Desviacin media:
3035
242
Desviacin tpica:
5 5609
22
Varianza:
140225
484
Coeficiente de variacin:
5609
197
Medidas de Forma
Coeficiente de sesgo:
356112
5609 5609
Coeficiente de curtosis:
1472290
31460881
Por lo tanto, el nmero de unidades vendidas que delimitara el grupo de consumi-
dores que ms unidades han adquirido es 55.
Problema 3
La siguiente tabla muestra las notas obtenidas por 14 alumnos de la ETSIE en dos
asignaturas: MAEI y
MAEII:
MAEI 5. 5 3 7 2 6 4 8 3 6. 5 5 3. 5 1 6 9
MAEII 6 2 8. 5 3 5. 5 3 6 4 7 4 5 2. 5 6. 5 8
a) Calcular la nota media de ambas asignaturas. Cul es ms representativa?.
b) Cuntos alumnos han aprobado (nota mayor o igual que 5) MAEI?
c) Qu calificacin de MAEII deja por encima el 70% de las observaciones?
d) Representar el diagrama de dispersin de las notas de ambas asignaturas.
e) Existe alguna relacin entre las notas obtenidas por los alumnos en ambas
Tema 5 Estadistica.nb 37
) g
asignaturas?
f) Hallar la ecuacin de la recta de regresin de las notas de MAEII sobre las notas
de MAEI y representarla grficamente sobre el diagrama de dispersin.
g) Si un alumno tiene un 7.5 en MAEI, qu nota se supone que tendra en MAEII?
Es fiable esta prediccin?
h) Si un alumno tiene un 5 en MAEII, qu nota se supone que tendra en MAEI?
Es fiable esta prediccin?
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Clear"Global`"
a) Al tratarse de una variable bidimensional, hemos definirla con los pares de notas
que ha obtenido cada uno de los 14 alumnos de la muestra:
notas 5.5, 6, 3, 2, 7, 8.5, 2, 3, 6, 5.5, 4, 3,
8, 6, 3, 4, 6.5, 7,
5, 4, 3.5, 5, 1, 2.5, 6, 6.5, 9, 8
{{5. 5, 6], {3, 2], {7, 8. 5], {2, 3], {6, 5. 5], {4, 3], {8, 6],
{3, 4], {6. 5, 7], {5, 4], {3. 5, 5], {1, 2. 5], {6, 6. 5], {9, 8]]
Como estos pares de valores se presentan todos con frecuencia 1, no es necesario
definir la lista con dichas frecuencias absolutas. Definimos ahora cada variable por
separado extrayendo las columnas de esta matriz y ordenando los valores de menor a
mayor:
notasMAEI SortnotasAll, 1
notasMAEII SortnotasAll, 2
{1, 2, 3, 3, 3. 5, 4, 5, 5. 5, 6, 6, 6. 5, 7, 8, 9]
{2, 2. 5, 3, 3, 4, 4, 5, 5. 5, 6, 6, 6. 5, 7, 8, 8. 5]
Calculamos ahora los parmetros estadsticos de ambas variables unidimensionales:
estaDescripnotasMAEI
38 Tema 5 Estadistica.nb
Medidas de Centralizacin
Media: 4. 964285714
Mediana: 5. 25
Moda: {3, 6]
Medidas de Dispersin
Recorrido: 8
Desviacin media: 1. 897959184
Desviacin tpica: 2. 231785686
Varianza: 4. 980867347
Coeficiente de variacin: 0. 4495683396
Medidas de Forma
Coeficiente de sesgo: 0. 003835696987
Coeficiente de curtosis: 0. 8845870474
estaDescripnotasMAEII
Medidas de Centralizacin
Media: 5. 071428571
Mediana: 5. 25
Moda: {3, 4, 6]
Medidas de Dispersin
Recorrido: 6. 5
Desviacin media: 1. 714285714
Desviacin tpica: 1. 980774946
Varianza: 3. 923469388
Coeficiente de variacin: 0. 3905753415
Medidas de Forma
Coeficiente de sesgo: 0. 1008674172
Coeficiente de curtosis: 1. 128014867
Por lo tanto, la nota media de MAEI es 4.96, mientras que la nota media de MAEII es
5.07. De ellas, la segunda es ms representativa, pues su coeficiente de variacin
(0.39) es menor que el de la primera variable (0.45). Observamos que las dos vari-
ables unidimensionales son homognesa, pues sus coeficientes de variacin son
claramente menores que 1.
Tema 5 Estadistica.nb 39
b) Para averiguar cuantos alumnos han aprobado MAEI, hemos de contar cuntos de
ellos han obtenido una nota comprendida en el intervalo [5,10) (la mayor nota es un 9):
BinCountsnotasMAEI, 5, 10
{8]
Es decir, han aprobado 8 de los 14 alumnos (el 57%). Tambin podemos resolver este
apartado hallando las frecuencias absolutas de las notas de MAEI:
TallynotasMAEI
{{1, 1], {2, 1], {3, 2], {3. 5, 1], {4, 1], {5, 1],
{5. 5, 1], {6, 2], {6. 5, 1], {7, 1], {8, 1], {9, 1]]
y contando cuntos alumnos han obtenido un 5 o ms:
nAprobados 1 1 2 1 1 1 1
8
c) La calificacin de MAEII que deja por encima el 70% de las observaciones dejar
por debajo el 30% restante, luego se trata del percentil 30:
estaDescripnotasMAEII, 30
40 Tema 5 Estadistica.nb
Medidas de Centralizacin
Media: 5. 071428571
Mediana: 5. 25
Moda: {3, 4, 6]
Medidas de Posicin
Percentil 30: 4.
Medidas de Dispersin
Recorrido: 6. 5
Desviacin media: 1. 714285714
Desviacin tpica: 1. 980774946
Varianza: 3. 923469388
Coeficiente de variacin: 0. 3905753415
Medidas de Forma
Coeficiente de sesgo: 0. 1008674172
Coeficiente de curtosis: 1. 128014867
Por lo tanto, el 70 % de los alumnos han obtenido una nota mayor de 4 en MAEII.
d) El diagrama de dispersin pedido lo dibujamos con el comando diagDispersion,
definido al principio del tema; como lo volveremos a necesitar ms adelante en otro
apartado, lo guardamos en una variable:
graf1 diagDispersionnotas
2 4 6 8
3
4
5
6
7
8
e) Para hallar el tipo de relacin que existe entre ambas asignatura hemos de calcular
el coeficiente de correlacin, para lo cual usamos el comando estaBidim definido al
principio de este tema:
Tema 5 Estadistica.nb 41
estaBidimnotas
Covarianza: 3. 823979592
Coeficiente de correlacin: 0. 8650235753
Recta de regresin de Y sobre X: y 1. 260179257 0. 7677336748 x
Recta de regresin de X sobre Y: x 0. 02145643693 0. 9746423927 y
Como el coeficiente de correlacin es 0.87, existe una correlacin aleatoria positiva,
aunque no muy fuerte pues dicho coeficiente ni siquiera llega a 0.9.
f) La recta de regresin pedida es la recta de regresin de Y sobre X, puesto que en la
definicin de la variable bidimensional, la primera coordenada de cada par corre-
sponde a MAEI, que es por tanto la variable que va en el eje de abscisas. la representa-
mos grficamente junto al diagrama de dispersin:
graf2 Plot1.260179257 0.7677336748x,
x, 0, 10, PlotStyle Red;
Showgraf1, graf2
2 4 6 8
3
4
5
6
7
8
g) Como conocemos la nota de MAEI, para estimar la nota de MAEII hemos de utilizar
la recta de regresin de Y sobre X. Si en sta sustituimos x =7.5, obtenemos:
predMAEII 1.260179257 0.76773367487.5
7. 018181818
la cual es la nota estimada que tendr ese nuevo alumno en MAEII. Esta prediccin es
fiable porque el coeficiente de correlacin entre ambas variables es prximo a 1.
h) Como conocemos la nota de MAEII, para estimar la nota de MAEI hemos de utilizar
la recta de regresin de X sobre Y. Si en sta sustituimos y =7.5, obtenemos:
predMAEI 0.02145643693 0.97464239275
4. 8946684
42 Tema 5 Estadistica.nb
la cual es la nota estimada que tendr ese nuevo alumno en MAEI. Esta prediccin es
fiable porque el coeficiente de correlacin entre ambas variables es prximo a 1.
Problema 4
La siguiente tabla representa la informacin obtenida sobre 60 personas, a cada una
de las cuales se le tom el peso (en Kg) y la estatura (en m):
Estatura
1. 55 1. 65 1. 65 1. 75 1. 75 1. 85
Peso 50 55 2 1 0
55 60 2 2 1
60 65 1 3 2
65 70 1 10 8
70 75 4 5 5
75 80 2 3 8
a) Hallar el peso medio y la estatura media de las personas del estudio. Cul de
ellas es ms representativa?.
b) Cul de las dos variables es ms simtrica?
c) Para realizar un estudio sobre obesidad se selecciona de la muestra el 15% de
las personas que ms pesan. Cul es el peso mnimo de las personas del grupo
seleccionado?
d) Representar el diagrama de dispersin de la estatura sobre el peso, junto con las
dos rectas de regresin de la variable bidimensional dada.
e) Existe algn tipo de dependencia entre el peso y la estatura de las personas de
la muestra?
f) Si se aade a la muestra una nueva persona que pesa 72 Kg, cul es su estatura
estimada?
Antes de resolver el problema conviene borrar todas las variables definidas previa-
mente, a fin de evitar posibles errores:
Clear"Global`"
a) En primer lugar hemos de definir la variable bidimensional, para lo cual vamos a
considerar todos los pares de valores (marcas de clase) que poseen frecuencia abso-
luta no nula:
Tema 5 Estadistica.nb 43
pesoEstaturaVal 52.5, 1.6, 52.5, 1.7, 57.5, 1.6,
57.5, 1.8, 57.5, 1.7,
62.5, 1.6, 62.5, 1.8, 62.5, 1.7,
67.5, 1.6, 67.5, 1.8, 67.5, 1.7,
72.5, 1.6, 72.5, 1.8,
72.5, 1.7, 77.5, 1.6, 77.5, 1.8, 77.5, 1.7
{{52. 5, 1. 6], {52. 5, 1. 7], {57. 5, 1. 6], {57. 5, 1. 8], {57. 5, 1. 7],
{62. 5, 1. 6], {62. 5, 1. 8], {62. 5, 1. 7], {67. 5, 1. 6],
{67. 5, 1. 8], {67. 5, 1. 7], {72. 5, 1. 6], {72. 5, 1. 8],
{72. 5, 1. 7], {77. 5, 1. 6], {77. 5, 1. 8], {77. 5, 1. 7]]
Definimos tambin las frecuencias absolutas de cada par de valores, en el mismo
orden:
pesoEstaturaFrecAbs
2, 1, 2, 2, 1, 1, 3, 2, 1, 10, 8, 4, 5, 5, 2, 3, 8
{2, 1, 2, 2, 1, 1, 3, 2, 1, 10, 8, 4, 5, 5, 2, 3, 8]
Definimos ahora cada variable unidimensional por separado, extrayendo las columnas
de la variable bidimensional y eliminando elementos duplicados:
pesoVal DeleteDuplicatespesoEstaturaValAll, 1
estaturaVal DeleteDuplicatespesoEstaturaValAll, 2
{52. 5, 57. 5, 62. 5, 67. 5, 72. 5, 77. 5]
{1. 6, 1. 7, 1. 8]
Las frecuencias absolutas de la variable Peso son la suma por filas de las frecuencias
de la tabla de doble entrada, mientras que las de la variable Estatura son la suma por
columnas:
pesoFrecAbs 3, 5, 6, 19, 14, 13
estaturaFrecAbs 12, 24, 24
{3, 5, 6, 19, 14, 13]
{12, 24, 24]
Calculamos los parmetros estadsticos de la variable Peso:
estaDescrippesoVal, pesoFrecAbs
44 Tema 5 Estadistica.nb
Medidas de Centralizacin
Media: 68. 75
Mediana: 67. 5
Moda: {67. 5]
Medidas de Dispersin
Recorrido: 25.
Desviacin media: 5. 541666667
Desviacin tpica: 6. 929706583
Varianza: 48. 02083333
Coeficiente de variacin: 0. 1007957321
Medidas de Forma
Coeficiente de sesgo: 0. 6033629176
Coeficiente de curtosis: 0. 2719637118
as como los de la variable Estatura:
estaDescripestaturaVal, estaturaFrecAbs
Medidas de Centralizacin
Media: 1. 72
Mediana: 1. 7
Moda: {1. 7, 1. 8]
Medidas de Dispersin
Recorrido: 0. 2
Desviacin media: 0. 064
Desviacin tpica: 0. 07483314774
Varianza: 0. 0056
Coeficiente de variacin: 0. 04350764403
Medidas de Forma
Coeficiente de sesgo: 0. 3436215967
Coeficiente de curtosis: 1. 153061224
Por lo tanto, el peso medio de las personas de la muestra es de 68.75 Kg, mientras
que la estatura media es de 1.72 m. Aunque ambas variables son bastante
homogneas, la estatura media es ms representativa por que su coeficiente de
variacin (0.043) es menor que el de la variable Peso (0.10).
Tema 5 Estadistica.nb 45
b) La simetra de una distribucin nos la da el coeficiente de sesgo o de asimetra.
Vemos entonces que la variable Estatura es ms simtrica que la variable Peso, pues
su coeficiente de sesgo, en valor absoluto, es menor (0.34 frente a 0.60).
c) La persona de menor peso del grupo seleccionado deja por debajo de ella al 85%
de los individuos de la muestra; hemos de calcular por tanto el percentil 85:
estaDescrippesoVal, pesoFrecAbs, 85
Medidas de Centralizacin
Media: 68. 75
Mediana: 67. 5
Moda: {67. 5]
Medidas de Posicin
Percentil 85: 77. 5
Medidas de Dispersin
Recorrido: 25.
Desviacin media: 5. 541666667
Desviacin tpica: 6. 929706583
Varianza: 48. 02083333
Coeficiente de variacin: 0. 1007957321
Medidas de Forma
Coeficiente de sesgo: 0. 6033629176
Coeficiente de curtosis: 0. 2719637118
Es decir, el menor peso del grupo seleccionado es 77.5 Kg.
d) Dibujamos el diagrama de dispersin pedido, y lo guardamos en una variable
porque nos har falta despus:
46 Tema 5 Estadistica.nb
graf1 diagDispersionpesoEstaturaVal, pesoEstaturaFrecAbs
Calculamos ahora las ecuaciones de las rectas de regresin:
estaBidimpesoEstaturaVal, pesoEstaturaFrecAbs
Covarianza: 0. 03541666667
Coeficiente de correlacin: 0. 06893204948
Recta de regresin de Y sobre X: y 1. 667628344 0. 000737527115x
Recta de regresin de X sobre Y: x 57. 67938353 6. 442647802 y
Dibujamos las dos rectas de regresin y las almacenamos en sendas variables (en la
de X sobre Y hemos de despejar la y en funcin de la x):
Tema 5 Estadistica.nb 47
grafYX Plot1.667628344 0.000737527115 x, x, 50, 80,
PlotStyle Red
grafXY Plotx 57.679383536.442647802, x, 50, 80,
PlotStyle Blue
55 60 65 70 75 80
1.710
1.715
1.720
1.725
55 60 65 70 75 80
-1
1
2
3
Finalmente, dibujamos las dos rectas de regresin sobre el diagrama de dispersin:
Showgraf1, grafYX, grafXY
e) Como vemos en el grfico anterior, las dos rectas de regresin son muy diferentes
entre s, lo que quiere decir que no hay relacin entre ambas variables. En efecto, el
48 Tema 5 Estadistica.nb
y
coeficiente de correlacin entre ellas es 0.069, lo que demuestra que ambas variables
son independientes.
f) Como conocemos el peso del nuevo individuo (variable X), hemos de emplear la
recta de regresin de Y sobre X; si en ella sustituimos x =72, obtenemos:
predEstatura 1.667628344 0.000737527115 72
1. 720730296
Es decir, que se espera que dicho individuo tenga una estatura de 1.72 m. Obsrvese
que aunque esta prediccin basada en la recta de regresin siempre se puede hacer,
hay veces, como en este ejercicio, en que la fiabilidad de dicha prediccin es nula,
dado que ambas variables son independientes (coeficiente de correlacin prximo a
cero). En realidad no tenemos informacin suficiente como para predecir la estatura
del nuevo individuo, que pudiera ser cualquiera.
Tema 5 Estadistica.nb 49

S-ar putea să vă placă și