Sunteți pe pagina 1din 49

3.

Variables bidimensionales
3.2 introduccin
En lo estudiado anteriormente hemos podido aprender cmo a partir de la gran cantidad
de datos que describen una muestra mediante una variable, X, se representan
grficamente los mismos de modo que resulta ms intuitivo hacerse una idea de como se
distribuyen las observaciones.
Otros conceptos que segn hemos visto, tambin nos ayudan en el anlisis, son los
estad!sticos de tendencia central, que nos indican hacia donde tienden a agruparse los
datos "en el caso en que lo hagan#, y los estad!sticos de dispersin, que nos indican si las
diferentes modalidades que presenta la variable estn muy agrupadas alrededor de cierto
valor central, o si por el contrario las variaciones que presentan las modalidades con
respecto al valor central son grandes.
$ambin sabemos determinar ya si los datos se distribuyen de forma simtrica a un lado
y a otro de un valor central.
En este cap!tulo pretendemos estudiar una situacin muy usual y por tanto de gran
inters en la prctica%
&i Y es otra variable definida sobre la misma poblacin que X, 'ser
posible determinar si e(iste alguna relacin entre las modalidades de X y
de Y)
*n e+emplo trivial consiste en considerar una poblacin formada por alumnos de
primero de ,edicina y definir sobre ella las variables
ya que la relacin es determinista y clara% Y-X./00. Obsrvese que aunque la variable Y,
como tal puede tener cierta dispersin, vista como funcin de X, su dispersin es nula.
*n e+emplo ms parecido a lo que nos interesa realmente lo tenemos cuando sobre la
misma poblacin definimos las variables
1ntuitivamente esperamos que e(ista cierta relacin entre ambas variables, por e+emplo,
dispersin
que nos e(presa que "en media# a mayor altura se espera mayor peso. 2a relacin no es
e(acta y por ello ser necesario introducir algn termino que e(prese la dispersin de
Ycon respecto a la variable X.
Es fundamental de cara a reali3ar un traba+o de investigacin e(perimental, conocer
muy bien las tcnicas de estudio de variables bidimensionales "y n4dimensionales en
general#. 5aste para ello pensar que normalmente las relaciones entre las variables no
son tan evidentes como se mencion arriba. 6or e+emplo%
'&e puede decir que en un grupo de personas e(iste alguna relacin entre
X - tensin arterial e Y - edad)
7unque en un principio la notacin pueda resultar a veces algo desagradable, el lector
podr comprobar, al final del cap!tulo, que es bastante accesible. 6or ello le pedimos
que no se asuste. 7l final ver que no son para tanto.
3.4 Tablas de doble entrada
8onsideramos una poblacin de n individuos, donde cada uno de ellos presenta dos
caracteres que representamos mediante las variables X e Y. 9epresentamos mediante
las k modalidades que presenta la variable X, y mediante
las p modalidades de Y.
8on la intencin de reunir en una sla estructura toda la informacin disponible,
creamos una tabla formada por casillas, organi3adas de forma que se tengan k filas
y p columnas. 2a casilla denotada de forma general mediante el har
referencia a los elementos de la muestra que presentan simultneamente las
modalidades x
i
e y
j
.
Y y
/
y
:
... y
j
... y
p

X
x
/
n
//
n
/:
... n
/j
... n
/p
x
:
n
:/
n
::
... n
:j
... n
:p
... ... ... ... ... ... ... ...
x
i
n
i/
n
i:
... n
ij
... n
ip
... ... ... ... ... ... ... ...
x
k
n
k/
n
k:
... n
kj
... n
kp
... ...
;e este modo, para , , se tiene que n
ij
es el nmero de
individuos o frecuencia absoluta, que presentan a la ve3 las modalidades x
i
e y
j
.
El nmero de individuos que presentan la modalidad x
i
, es lo que llamamos frecuencia
absoluta marginal de x
i
y se representa como . Es evidente la igualdad
Obsrvese que hemos escrito un s!mbolo << == en la ``parte de las jotas'' que simboli3a
que estamos considerando los elemento que presentan la modalidad x
i
,
independientemente de las modalidades que presente la variable Y. ;e forma anloga se
define la frecuencia absoluta marginal de la modalidad y
j
como
Estas dos distribuciones de frecuencias para , y para
reciben el nombre de distribuciones marginales de X e Y respectivamente.
El nmero total de elementos de la poblacin "o de la muestra#, n lo obtenemos de
cualquiera de las siguientes formas, que son equivalentes%
2as distribuciones de frecuencias de las variables bidimensionales tambin pueden ser
representadas grficamente. 7l igual que en el caso unidimensional e(isten diferentes
tipos de representaciones grficas, aunque estas resultan a ser ms complicadas "figura
3./#.

Figura: 7lgunos de las representaciones grficas habituales de distribuciones de frecuencias
bidimensionales.
3.4.2 Distribuciones marginales
7 la proporcin de elementos "tanto por uno# que presentan simultneamente las
modalidades x
i
e y
j
la llamamos frecuencia relativa f
ij

siendo las frecuencias relativas marginales las cantidades
>i que decir tiene que
3.4.2.1 Observacin
Es importante observar que las tablas bidimensionales aportan ms informacin que las
vistas anteriormente. ;e hecho, si quisisemos estudiar la variable X y la Ypor separado,
nos hubiese bastado con utili3ar%
,od. ,arg. 7bs. ,arg. 9el.
X
x
/
... ... ...
x
i
... ... ...
x
k
n /

,od. ,arg. 7bs. ,arg. 9el.
Y
y
/
... ... ...
y
j
... ... ...
y
p
n /
$oda esa informacin se puede resumir en una sla tabla del siguiente modo%
Y y
/
y
:
... y
j
... y
p

X
x
/
n
//
f
//
n
/:
f
/:
... n
/j
f
/j
... n
/p
f
/p
x
:
n
:/
f
:/
n
::
f
::
... n
:j
f
:j
... n
:p
f
:p
... ... ... ... ... ... ... ... ... ... ... ... ...
x
i
n
i/
f
i/
n
i:
f
i:
... n
ij
f
ij
... n
ip
f
ip
... ... ... ... ... ... ... ... ... ... ... ... ...
x
k
n
k/
f
k/
n
k:
f
k:
... n
kj
f
kj
... n
kp
f
kp
... ...
3.4.4 Distribuciones condicionadas
;e todos los elementos de la poblacin, n, podemos estar interesados, en un momento
dado, en un con+unto ms peque?o y que est formado por aquellos elementos que han
presentado la modalidad y
j
, para algn . El nmero de elementos de este
con+unto sabemos que es . 2a variable X definida sobre este con+unto se denomina
variable condicionada y se suele denotar mediante o bien . 2a
distribucin de frecuencias absolutas de esta nueva variable es e(actamente la columna
j de la tabla. 6or tanto sus frecuencias relativas, que denominaremos frecuencias
relativas condicionadas son
;e la misma forma, es posible dividir la poblacin inicial en ksubcon+untos, cada uno
de ellos caracteri3ados por la propiedad de que el i4simo con+unto todos los elementos
verifican la propiedad de presentar la modalidad x
i
. &obre cada uno de estos con+untos
tenemos la variable condicionada , cuya distribucin de frecuencias
relativas condicionadas es%
;e este modo la distribucin de cada una de las variables condicionadas se puede
representar en tablas como sigue%
,od. @r. 7bs. @r. 9el.
X.
yj
n
ij
f
i
j
x
/
n
/j
f
/
j
... ... ...
x
i
n
ij
... ... ...
x
k
n
kj
f
k
j
/

,od. @r. 7bs. @r. 9el.
Y.
xi
n
ij
f
j
i
y
/
n
i/
f
/
i
... ... ...
y
j
n
ij
... ... ...
y
p
n
ip
f
p
i
/
3.4.4.1 Observacin
&i interpretamos la relaciones
en trminos de probabilidades, vemos que no es ms que la definicin de probabilidad
condicionada%
lo que de forma abreviada representaremos normalmente como
3.6 Deendencia funcional e
indeendencia
2a relacin entre las variables X e Y, parte del ob+etivo de este cap!tulo y en general de
un nmero importante de los estudios de las 8iencias &ociales, puede ser ms o menos
acentuada, pudiendo llegar sta desde la dependencia total o dependencia funcional
hasta la independencia.
3.6.2 Deendencia funcional
2a dependencia funcional, que nos refle+a cualquier frmula matemtica o f!sica, es a la
que estamos normalmente ms habituados. 7l principio del cap!tulo consideramos un
e+emplo en el que sobre una poblacin de alumnos defin!amos las variables
7l tomar a uno de los alumnos, hasta que no se realice una medida sobre el mismo, no
tendremos claro cual ser su altura. 6odemos tener cierta intuicin sobre qu valor es
ms probable que tome "alrededor de la media, con cierta dispersin#. &in embargo, si la
medida Xha sido reali3ada, no es necesario practicar la de Y, pues la relacin entre
ambas es e(acta "dependencia funcional#%
Y - X./00
Ello puede describirse como que conocido el valor X-x
i
, la distribucin de slo
toma un valor con frecuencia del 100% Esto se traduce en una tabla bidimensional de
X e Y, del siguiente modo% 2a variable Y deende funcionalmente de la variable X si
para cada fila X-x
i
, e(iste un nico tal que . 7nlogamente, tenemos
dependencia funcional de X con respecto a Yhaciendo el ra3onamiento simtrico, pero
por columnas, es decir, X deende funcionalmente de la variable Y si para cada
columna Y-y
j
, e(iste un nico tal que .
Es claro que si la dependencia funcional es rec!proca, la tabla es necesariamente
cuadrada "k-p#.
3.6.2.1 !"emlo
8onsideramos una poblacin formada por /: individuos, donde hay 3 franceses, A
argentinos y 3 guineanos. ;efinimos las variables%
Entonces, sobre esta poblacin, podemos construir las siguientes tablas%
! &i >o
X
Europa 0 3 3
7mrica A 0 A
Bfrica : 0 :
C 3 /:

Y @rancs Duineano 7rgentino
X
Europa 3 0 0 3
7mrica 0 0 A A
Bfrica 0 : 0 :
3 : A /:
y nos damos cuenta de que, segn la definicin
! depende funcionalmente de X.
X no depende funcionalmente de !.
X e Y depende funcionalmente la una de la otra de modo rec!proco.
3.6.4 #ndeendencia
Eemos visto que la dependencia funcional implica una estructura muy particular de la
tabla bidimensional, en la que en todas las filas "o en todas las columnas# e(iste un
nico elemento no nulo. E(iste un concepto que de algn modo es el opuesto a la
dependencia funcional, que es el de independencia. &e puede e(presar de muchas
maneras el concepto de independencia, y va a implicar de nuevo una estructura muy
particular de la tabla bidimensional, en el que todas las filas y todas las columnas van a
ser proporcionales entre s!.
6ara enunciar lo que es la independencia de dos variables vamos a basarnos en el
siguiente ra3onamiento% &i la variable Y es independiente de X, lo lgico es que la
distribucin de frecuencias relativas condicionadas sea la misma que la de , ...,
. Esto se puede escribir diciendo que

6ues bien, diremos que la variable Y es indeendiente de Xsi la relacin "3.3# es
verificada. Eay otras formas equivalentes de enunciar la independencia% 8ada una de las
siguientes relaciones e(presa por si sla la condicin de independencia%
3.6.4.1 $roosicin %#ndeendencia en tablas de doble entrada&
8ada una de las siguientes relaciones e(presa por s! sla la condicin de independencia
entre las variables Xe Y


3.6.4.2 Observacin
Obsrvese que la relacin "3.F# "o bien la "3.G## implica que la independencia es siempre
rec!proca, es decir, si X es independiente de Y, entonces Y es independiente de X.
3.6.4.3 !"emlo
&i tenemos dos variables que son
y estn distribuidas en una tabla del modo%
Y
X
0 :F F H 3I
/ I / : C
: /: : F /H
F: A /F I3
podemos decir que ambas variables son independientes. Obsrvese la proporcionalidad
e(istente entre todas las filas de la tabla "incluidas la marginal# "figura 3.:#. 2o mismo
ocurre entre las columnas.

Figura: 8uando las variables son independientes, las diferencias entre las filas "o
columnas# pueden entenderse como cambios de escala.
3.' (edias ) varian*as marginales )
condicionadas
7sociados a las distribuciones marginales y condicionadas definidas en las secciones
anteriores, podemos definir algunos estad!sticos de tendencia central o dispersin,
generali3ando los que vimos en los cap!tulos dedicados al anlisis de una variable . 2as
medias marginales de la variable X e Y se definen del siguiente modo%
2as varian*as marginales respectivas son
6ara cada una de las p variables condicionadas definimos sus respectivas media
condicionada y varian*a condicionada mediante%
y lo mismo hacemos para las k condicionadas
Es interesante observar que podemos considerar que las observaciones de la variable
Xhan sido agrupadas en p subgrupos, cada uno de ellos caracteri3ados por la propiedad
de que Y-y
j
para algn . 7s! la proposicin de la pgina nos permite
afirmar que las medias de las marginales es la media ponderada de las condicionadas, y
la proposicin de la pgina :./, que la varian3a de las marginales es la media ponderada
de las varian3as condicionadas mas la varian3a ponderada de las medias condicionadas
"JuffK#. Vamos a enunciar de modo ms preciso lo que acabamos de enunciar%
3.'.+.1 $roosicin
2as medias y varian3as marginales de las variables X y Yse pueden escribir de modo
equivalente como%
3.1+ ,ovarian*a ) coeficiente de
correlacin
8uando anali3bamos las variables unidimensionales considerbamos, entre otras
medidas importantes, la media y la varian3a. 7hora hemos visto que estas medidas
tambin podemos considerarlas de forma individual para cada una de las componentes
de la variable bidimensional.
&i observamos con atencin los trminos
vemos que las cantidades y van al cuadrado y por tanto no pueden ser
negativas.
2a covarian*a , es una manera de generali3ar la varian3a y se define como%
8omo se ve, la frmula es muy parecida a las de las varian3as. Es sencillo comprobar
que se verifica la siguiente e(presin de , ms til en la prctica%

3.1+.+.1 $roosicin
&i las observaciones no estn ordenadas en una tabla de doble entrada, entonces se tiene
que
o lo que es lo mismo
3.1+.+.2 !"emlo
&e han clasificado /00 familias segn el nmero de hi+os varones " # o hembras " #,
en la tabla siguiente%
0 / : 3 F

0 F I C F /
/ G /0 A F :
: A H G 3 /
3 G G 3 : /
F : 3 : / 0
/.
Eallar las medias, varian3as y desviaciones t!picas marginales.
:.
'Lu nmero medio de hi+as hay en aquellas familias que tienen : hi+os)
3.
'Lu nmero medio de hi+os varones hay en aquellas familias que no tienen
hi+as)
F.
'Lu nmero medio de hi+os varones tienen aquellas familias que a lo sumo
tienen : hi+as)
G.
Eallar la covarian3a
-olucin:En primer lugar, definimos las variables X- nmero de hi+os varones, e
Y-nmero de hi+as y construimos la tabla con las frecuencias marginales, y con otras
cantidades que nos son tiles en el clculo de medias y varian3as%
y
/
y
:
y
3
y
F
y
G

0 / : 3 F
F I C F / 24 0 0 0
G /0 A F : 2' :H :H FF
A H G 3 / 24 FH CI I:
G G 3 : / 16 FH /FF I3
: 3 : / 0 ' 3: /:H F0
23 32 26 14 . 1++ 1.6 3/6 2+/
0 3: G: F: :0 146
0 3: /0F /:I H0 342
de este modo, las medias marginales son
8alculamos despus las varian3as marginales
que nos dan directamente las desviaciones t!picas marginales,
El nmero medio de hi+as en las familias con : hi+os varones se obtiene calculando la
distribucin condicionada de
n
3j
n
3j
y
j
A 0
H H
G /0
3 C
/ F
:F 3/

;el mismo modo, el nmero medio de hi+os varones de las familias sin hi+as, se calcula
con la distribucin condicionada
n
i/
n
i/
x
i
F 0
G G
A /F
G /G
: H
:3 F:

El nmero medio de hi+os varones en las familias que a lo sumo tienen dos hi+as, se
calcula usando las marginales de la tabla obtenida a partir de las columnas y
/
, y
:
e y
3

n
i/
n
i:
n
i3
n
i/
Mn
i:
Mn
i3
"n
i/
Mn
i:
Mn
i3
# x
i
F I C /C /C
G /0 A :: ::
A H G :0 F0
G G 3 /3 3C
: 3 : A :H
H/ /:C
2a covarian3a es%
3.1+.2 0na interretacin geom1trica de la covarian*a
8onsideremos la nube de puntos formadas por las n pare+as de datos "x
i
,y
i
#. El centro de
gravedad de esta nube de puntos es , o bien podemos escribir simplemente
si los datos no estn ordenados en una tabla de doble entrada. $rasladamos los e+es XY
al nuevo centro de coordenadas . Lueda as! dividida la nube de puntos en cuatro
cuadrantes como se observa en la figura 3.3. 2os puntos que se encuentran en el primer
y tercer cuadrante contribuyen positivamente al valor de , y los que se encuentran
en el segundo y el cuarto lo hacen negativamente.

Figura: 1nterpretacin geomtrica de
;e este modo%
&i hay mayor!a de puntos en el tercer y primer cuadrante, ocurrir que
, lo que se puede interpretar como que la variable Y tiende a aumentar cuando lo
hace XN
&i la mayor!a de puntos estn repartidos entre el segundo y cuarto cuadrante
entonces , es decir, las observaciones Y tienen tendencia a disminuir
cuando las de X aumentanN
&i los puntos se reparten con igual intensidad alrededor de , entonces se
tendr que . Vase la figura 3.F como ilustracin.

Figura: 8uando los puntos se reparte de modo ms o menos homogneo entre los cuadrantes
primero y tercero, y segundo y cuarto, se tiene que . Eso no quiere decir de ningn modo
que no pueda e(istir ninguna relacin entre las dos variables, ya que sta puede e(istir como se aprecia
en la figura de la derecha.
27 8OV7917>O7
&i las dos variables crecen o decrecen a la ve3 "nube de puntos creciente#.
&i cuando una variable crece, la otra tiene tendencia a decrecer "nube de
puntos decreciente#.
&i los puntos se reparten con igual intensidad alrededor de , "no hay
relacin lineal#.
;e este modo podemos utili3ar la covarian3a para medir la variacin con+unta
"covariacin# de las variables X e Y. Esta medida no debe ser utili3ada de modo
e(clusivo para medir la relacin entre las dos variables, ya que es sensible al cambio de
unidad de medida, como se observa en el siguiente resultado%
3.1+.2.1 $roosicin
;emostracin
6ara simplificar las notaciones, vamos a considerar que los datos no estn agrupados en
una tabla estad!stica% Entonces
7s! pues, es necesario definir una medida de la relacin entre dos variables, y que no
est afectada por los cambios de unidad de medida. *na forma posible de conseguir este
ob+etivo es dividir la covarian3a por el producto de las desviaciones t!picas de cada
variable, ya que as! se obtiene un coeficiente adimensional, r, que se denomina
coeficiente de correlacin lineal de $earson
El coeficiente de correlacin lineal posee las siguientes propiedades%
Estas propiedades sobre el coeficiente de correlacin lineal son e(plicadas en la
siguiente seccin.
3.1+.4 #nterretacin geom1trica de r
&i los datos son observaciones que no estn ordenadas en una tabla bidimensional,
tendremos pare+as de valores para cada su+eto o elemento
la frmula de la covarian3a, en este caso, es
6odemos a escribir las observaciones en forma de vectores de la siguiente manera%
&i denotamos al producto escalar de los vectores y , es inmediato comprobar
que en realidad las definiciones de varian3a y covarian3a tienen una idea geomtrica
muy simple% son productos escalares en los que intervienen los vectores e
8on esta descripcin geomtrica de las varian3as y covarian3as, podemos poner de
manifiesto la e(istencia de paralelismo entre las desviaciones de las variables X e Y, con
respecto a sus centros de gravedad ya que
donde es el ngulo entre los vectores e "vase la figura 3.G#.
;espe+ando%

Figura: 1nterpretacin geomtrica de r como el coseno del ngulo que forman los vectores
de las desviaciones con respecto a sus respectivas medias de X y de Y.
&i los vectores e son totalmente paralelos entonces . En este
caso e(istir una constante de proporcionalidad m tal que%
Esta es la ecuacin de una recta "vase la figura 3.I#. Es decir%

Figura: es lo mismo que decir que las observaciones de ambas variables estn
perfectamente alineadas. El signo de r, es el mismo que el de , por tanto nos indica el
crecimiento o decrecimiento de la recta.
2a magnitud que e(presa el coseno del ngulo que forman los vectores e
tiene un papel muy destacado como veremos ms adelante en regresin lineal. 2a hemos
denominado anteriormente como coeficiente de correlacin lineal de "earson y se
representa mediante la letra r%
&on evidentes entonces las siguientes propiedades de r
8ualesquiera que sean los valores "x
i
,y
i
#, , se tiene que
, ya que r es el coseno del ngulo que forman las variaciones con respecto a sus
valores medios de las observaciones x
i
e y
i
. &i cuando r es calculado en un caso
prctico se obtiene un valor no comprendido en ese rango, es signo evidente de
que se ha cometido un error de clculo, que por tanto ha de ser revisado.
&i las desviaciones con respecto al valor central de las observaciones x
i
, son
proporcionales a las desviaciones de y
i
con respecto a su valor central ,

entonces los vectores e son paralelos y por tanto . En este
caso se puede decir de modo e(acto que conocido X lo es tambin Y, "y
rec!procamente#, gracias a la relacin "3.H#.
6or el contrario si no e(iste dicha relacin, el ngulo que formen e
ser mayor, siendo el caso e(tremo en que ambos sean perpendiculares
"r-0#. 8uando r-0 decimos que las variables X e Y son incorreladas.
Otra propiedad interesante de r es la siguiente%
3.1+.4.1 $roosicin
El coeficiente de correlacin entre dos variables no se ve afectada por los cambios de
unidades.
;emostracin
8onsideramos la variable bidimensional "X,Y# y sometemos a Y a un cambio de unidad
. Entonces
6or tanto ambas variables X! y XY tienen el mismo coeficiente de correlacin.
3.12 2egresin
2as tcnicas de regresin permiten hacer predicciones sobre los valores de cierta
variable Y #dependiente$, a partir de los de otra X #independiente$, entre las que
intuimos que e(iste una relacin. 6ara ilustrarlo retomemos los e+emplos mencionados
al principio del cap!tulo. &i sobre un grupo de personas observamos los valores que
toman las variables
no es necesario hacer grandes esfuer3os para intuir que la relacin que hay entre ambas
es%
Obtener esta relacin es menos evidente cuando lo que medimos sobre el mismo grupo
de personas es
2a ra3n es que no es cierto que conocida la altura x
i
de un individuo, podamos
determinar de modo e(acto su peso y
i
"v.g. dos personas que miden /,A0 m pueden tener
pesos de I0 y IG Pilos#. &in embargo, alguna relacin entre ellas debe e(istir, pues
parece mucho ms probable que un individuo de : m pese ms que otro que mida /,:0
m. Es ms, nos puede parecer ms o menos apro(imada una relacin entre ambas
variables como la siguiente
7 la deduccin, a partir de una serie de datos, de este tipo de relaciones entre variables,
es lo que denominamos regresin.

Figura: ,ediante las tcnicas de regresin de una variable Y sobre una variable X,
buscamos una funcin que sea una buena apro(imacin de una nube de puntos
"xi,yi#, mediante una curva del tipo . 6ara ello hemos de asegurarnos
de que la diferencia entre los valores yi e sea tan peque?a como sea posible.
,ediante las tcnicas de regresin inventamos una variable como funcin de otra
variable X "o viceversa#,
Esto es lo que denominamos relacin funcional. El criterio para construir , tal como
citamos anteriormente, es que la diferencia entre Y e sea peque?a.
El trmino que hemos denominado error debe ser tan peque?o como sea posible "figura
3.A#. El ob+etivo ser buscar la funcin "tambin denominada modelo de regresin#
que lo minimice. Vase la figura 3.H.

Figura: ;iferentes nubes de puntos y modelos de regresin para ellas.
3.12.2 3ondad de un a"uste
8onsideremos un con+unto de observaciones sobre n individuos de una poblacin, en los
que se miden ciertas variables X e Y%
Estamos interesamos en hacer regresin para determinar, de modo apro(imado, los
valores de Y conocidos los de X, debemos definir cierta variable , que debe
tomar los valores
de modo que%
Ello se puede e(presar definiendo una nueva variable % que mida las diferencias entre
los autnticos valores de Y y los tericos suministrados por la regresin,
y calculando de modo que % tome valores cercanos a 0. ;icho de otro modo, % debe
ser una variable cuya media debe ser 0 , y cuya varian3a debe ser peque?a "en
comparacin con la de Y#. 6or ello se define el coeficiente de determinacin de la
regresin de Y sobre X, , como

&i el a+uste de Y mediante la curva de regresin es bueno, cabe esperar que
la cantidad tome un valor pr(imo a /.
7nlogamente si nos interesa encontrar una curva de regresin para X como funcin de
Y, definir!amos
y si el a+uste es bueno se debe tener que .
2as cantidades y sirven entonces para medir de qu modo las diferencias
entre los verdaderos valores de una variable y los de su apro(imacin mediante una
curva de regresin son peque?os en relacin con los de la variabilidad de la variable que
intentamos apro(imar. 6or esta ra3n estas cantidades miden el grado de bondad del
a"uste.
3.12.4 2egresin lineal
2a forma de la funcin f en principio podr!a ser arbitraria, y tal ve3 se tenga que la
relacin ms e(acta entre las variables peso y altura definidas anteriormente sea algo de
la forma
3./

6or el momento no pretendemos encontrar relaciones tan complicadas entre variables,
pues nos vamos a limitar al caso de la regresin lineal. 8on este tipo de regresiones nos
conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos
cantidades a y b tales que se pueda escribir

con el menor error posible entre e Y, o bien
de forma que sea una variable que toma valores pr(imos a cero.
3.12.4.1 Observacin
Obsrvese que la relacin 3./: e(plica cosas como que si X var!a en / unidad, var!a la
cantidad b. 6or tanto%
&i bQ0, las dos variables aumentan o disminuyen a la ve3N
&i bR0, cuando una variable aumenta, la otra disminuye.
6or tanto, en el caso de las variables peso y altura lo lgico ser encontrar que bQ0.
El problema que se plantea es entonces el de cmo calcular las cantidades a y b a partir
de un con+unto de n observaciones
de forma que se minimice el error. 2as etapas en que se divide el proceso que vamos a
desarrollar son de forma esquemtica, las que siguen%
/.
;adas dos variables X, Y, sobre las que definimos
medimos el error que se comete al apro(imar Y mediante calculando la suma
de las diferencias entre los valores reales y los apro(imados al cuadrado "para
que sean positivas y no se compensen los errores#%
:.
*na apro(imacin de Y, se define a partir de dos cantidades a y b.
Vamos a calcular aquellas que minimi3an la funcin

3.
6osteriormente encontraremos frmulas para el clculo directo de a y b que
sirvan para cualquier problema.
3.12.4.2 2egresin de Y sobre X
6ara calcular la recta de regresin de Y sobre X nos basamos en la figura 3.C.

Figura: 2os errores a minimi3ar son las cantidades
*na ve3 que tenemos definido el error de apro(imacin mediante la relacin "3./3# las
cantidades que lo minimi3an se calculan derivando con respecto a ambas e igualando a
cero #procedimiento de los m&nimos cuadrados$%

2a relacin "3./G#, no es ms que otra manera de escribir la relacin "3./F#, que se
denomina ecuaciones normales. 2a primera de "3./F# se escribe como
&ustituyendo se tiene que
2o que nos da las relaciones buscadas%
2a cantidad b se denomina coeficiente de re'resin de Ysobre X.
3.12.4.3 2egresin de X sobre Y
2as mismas conclusiones se sacan cuando intentamos hacer la regresin de X sobre Y,
pero JatencinK% 6ara calcular la recta de regresin de X sobre Y es totalmente incorrecto
despe+ar de
6ues esto nos da la regresin de X sobre , que no es lo que buscamos. 2a regresin de
X sobre Y se hace apro(imando X por , del modo
donde
pues de este modo se minimi3a, en el sentido de los m!nimos cuadrados, los errores
entre las cantidades x
i
y las "figura 3./0.#

Figura: 2os errores a minimi3ar son las cantidades
3.12.4.4 !"emlo
En una muestra de /.G00 individuos se recogen datos sobre dos medidas
antropomtricas X e Y. 2os resultados se muestran resumidos en los siguientes
estad!sticos%
Obtener el modelo de regresin lineal que me+or apro(ima Y en funcin de X.
*tili3ando este modelo, calcular de modo apro(imado la cantidad Y esperada cuando
X-/G.
-olucin:
2o que se busca es la recta, , que me+or apro(ima los valores de Y "segn
el criterio de los m!nimos cuadrados# en la nube de puntos que resulta de representar en
un plano "X,Y# las /.G00 observaciones. 2os coeficientes de esta recta son%
7s!, el modelo lineal consiste en%
6or tanto, si x-/G, el modelo lineal predice un valor de Y de%
En este punto hay que preguntarse si realmente esta prediccin puede considerarse
fiable. 6ara dar una respuesta, es necesario estudiar propiedades de la regresin lineal
que estn a continuacin.
3.12.4.. $roiedades de la regresin lineal
*na ve3 que ya tenemos perfectamente definida , "o bien # nos preguntamos las
relaciones que hay entre la media y la varian3a de esta y la de Y "o la de X#. 2a respuesta
nos la ofrece la siguiente proposicin%
3.12.4.6 $roosicin
En los a+ustes lineales se conservan las medias, es decir
En cuanto a la varian3a, no necesariamente son las mismas para los verdaderos valores
de las variables X e Y y sus apro(imaciones y , pues slo se mantienen en un factor
de r
:
, es decir,
;emostracin
5asta probar nuestra afirmacin para la variable Y, ya que para X es totalmente anlogo%
donde se ha utili3ado la magnitud que denominamos coeficiente de correlacin, r, y que
ya definimos anteriormente como
3.12.4.4 Observacin
8omo consecuencia de este resultado, podemos decir que la proporcin de varian(a
explicada por la re'resin lineal es del .
>os gustar!a tener que r-/, pues en ese caso ambas variables tendr!an la misma
varian3a, pero esto no es cierto en general. $odo lo que se puede afirmar, como
sabemos, es que
y por tanto
2a cantidad que le falta a la varian*a de regresin, , para llegar hasta la varian3a
total de Y, , es lo que se denomina varian*a residual, que no es ms que la varian3a
de , ya que
El tercer sumando se anula segn las ecuaciones normales e(presadas en la relacin
"3./G#%
6or ello
Obsrvese que entonces la bondad del a+uste es
6ara el a+uste contrario se define el error como , y su varian3a residual es
tambin proporcional a /4r
:
%
y el coeficiente de determinacin "que sirve para determinar la bondad del a+uste de X
en funcin de Y# vale%
lo que resumimos en la siguiente proposicin%
3.12.4.' $roosicin
6ara los a+ustes de tipo lineal se tiene que los dos coeficientes de determinacin son
iguales a r
:
, y por tanto representan adems la proporcin de varian3a e(plicada por la
regresin lineal%
6or ello%
&i el a+uste es bueno "Y se puede calcular de modo bastante apro(imado
a partir de X y viceversa#.
&i las variables X e Y no estn relacionadas "linealmente al menos#, por
tanto no tiene sentido hacer un a+uste lineal. &in embargo no es seguro que las
dos variables no posean ninguna relacin en el caso r-0, ya que si bien el a+uste
lineal puede no ser procentente, tal ve3 otro tipo de a+uste s! lo sea.
3.12.4./ !"emlo
;e una muestra de ocho observaciones con+untas de valores de dos variables X e Y, se
obtiene la siguiente informacin%
8alcule%
/.
2a recta de regresin de Y sobre X. E(plique el significado de los parmetros.
:.
El coeficiente de determinacin. 8omente el resultado e indique el tanto por
ciento de la variacin de Y que no est e(plicada por el modelo lineal de
regresin.
3.
&i el modelo es adecuado, 'cul es la prediccin para x-F.
-olucin:
/.
En primer lugar calculamos las medias y las covarian3a entre ambas variables%
8on estas cantidades podemos determinar los parmetros a y b de la recta. 2a
pendiente de la misma es b, y mide la variacin de Ycuando X aumenta en una
unidad%
7l ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa,
es decir, a medida que X aumenta, la tendencia es a la disminucin de Y. En
cuanto al valor de la ordenada en el origen, a, tenemos%
7s!, la recta de regresin de Y como funcin de X es%
:.
El grado de bondad del a+uste lo obtenemos a partir del coeficiente de
determinacin%
Es decir, el modelo de regresin lineal e(plica el de la variabilidad de Y en
funcin de la de X. 6or tanto queda un de variabilidad no e(plicada.
3.
2a prediccin que reali3a el modelo lineal de regresin para x-F es%
la cual hay que considerar con ciertas reservas, pues como hemos visto en el
apartado anterior,hay una ra3onable cantidad de variabilidad que no es e(plicada
por el modelo.
3.12.4.1+ !"emlo
En un grupo de H pacientes se miden las cantidades antropomtricas peso y edad,
obtenindose los siguientes resultados%
9esultado de las mediciones
edad /: H /0 // A A /0 /F
peso GH F: G/ GF F0 3C FC GI
'E(iste una relacin lineal importante entre ambas variables) 8alcular la recta de
regresin de la edad en funcin del peso y la del peso en funcin de la edad. 8alcular la
bondad del a+uste 'En qu medida, por trmino medio, var!a el peso cada a?o) 'En
cunto aumenta la edad por cada Pilo de peso)
-olucin:
6ara saber si e(iste una relacin lineal entre ambas variables se calcula el coeficiente de
correlacin lineal, que vale%
ya que
6or tanto el a+uste lineal es muy bueno. &e puede decir que el ngulo entre el vector
formado por las desviaciones del peso con respecto a su valor medio y el de la edad con
respecto a su valor medio, , es%
es decir, entre esos vectores hay un buen grado de paralelismo "slo unos /C grados de
desviacin#.
2a recta de regresin del peso en funcin de la edad es
2a recta de regresin de la edad como funcin del peso es
que como se puede comprobar, no resulta de despe+ar en la recta de regresin de Y sobre
X.
2a bondad del a+uste es
por tanto podemos decir que el de la variabilidad del peso en funcin de la edad
es e(plicada mediante la recta de regresin correspondiente. 2o mismo podemos decir
en cuanto a la variabilidad de la edad en funcin del peso. ;el mismo modo puede
decirse que hay un de varian3a que no es e(plicada por las
rectas de regresin. 6or tanto la varian3a residual de la regresin del peso en funcin de
la edad es
y la de la edad en funcin del peso%
6or ltimo la cantidad en que var!a el peso de un paciente cada a?o es, segn la recta de
regresin del peso en funcin de la edad, la pendiente de esta recta, es decir, b
/
-:,H3IA
Sg.a?o. 8uando dos personas difieren en peso, en promedio la diferencia de edad entre
ambas se rige por la cantidad b
:
-0,3/3I a?os.Sg de diferencia.
3.14 $roblemas
!"ercicio 3..1. &e reali3a un estudio para establecer una ecuacin mediante la cual se
pueda utili3ar la concentracin de estrona en saliva"X# para predecir la concentracin
del esteroide en plasma libre "Y#. &e e(tra+eron los siguientes datos de /F varones sanos%
X /,F A,G H,G C C // /3 /F /F,G /I /A /H :0 :3
Y 30 :G 3/,G :A,G 3C,G 3H F3 FC GG FH,G G/ IF,G I3 IH
/.
Estdiese la posible relacin lineal entre ambas variables.
:.
Obtener la ecuacin que se menciona en el enunciado del problema.
3.
;eterminar la variacin de la concentracin de estrona en plasma por unidad de
estrona en saliva.
!"ercicio 3..2. 2os investigadores estn estudiando la correlacin entre obesidad y la
respuesta individual al dolor. 2a obesidad se mide como porcenta+e sobre el peso ideal
"X#. 2a respuesta al dolor se mide utili3ando el umbral de refle+o de fle(in nociceptiva
"Y#, que es una medida de sensacin de pun3ada. &e obtienen los siguientes datos%
X HC C0 AG 30 G/ AG I: FG C0 :0
Y : 3 F F,G G,G A C /3 /G /F
/.
'Lu porcenta+e de la varian3a del peso es e(plicada mediante un modelo de
regesein lineal por la variacin del umbral de refle+o)
:.
Estdiese la posible relacin lineal entre ambas variables, obteniendo su grado
de a+uste.
3.
'Lu porcenta+e de sobrepeso podemos esperar para un umbral de refle+o de /0)
!"ercicio 3..3. &e lleva a cabo un estudio, por medio de detectores radioactivos, de la
capacidad corporal para absorber )ierro y plomo. 6articipan en el estudio /0 su+etos. 7
cada uno se le da una dosis oral idntica de hierro y plomo. ;espus de /: d!as se mide
la cantidad de cada componente retenida en el sistema corporal y, a partir de sta, se
determina el porcenta+e absorbido por el cuerpo. &e obtuvieron los siguientes datos%
6orcenta+e de hierro /A :: 3G F3 H0 HG C/ C: CI /00
6orcenta+e de plomo H /A /H :G GH GC F/ 30 F3 GH
/.
8omprobar la idoneidad del modelo lineal de regresin.
:.
Obtener la recta de regresin, si el modelo lineal es adecuado.
3.
6redecir el porcenta+e de hierro absorbido por un individuo cuyo sistema
corporal absorbe el /GT del plomo ingerido.
!"ercicio 3..4. 6ara estudiar el efecto de las aguas residuales de las alcantarillas que
afluyen a un lago, se toman medidas de la concentracin de nitrato en el agua. 6ara
monitori3ar la variable se ha utili3ado un antiguo m*todo manual. &e idea un nuevo
m*todo autom+tico. &i se pone de manifiesto una alta correlacin positiva entre las
medidas tomadas empleando los dos mtodos, entonces se har uso habitual del mtodo
automtico. 2os datos obtenidos son los siguientes%
,anual :G F0 /:0 AG /G0 300 :A0 F00 FG0 GAG
7utomtico 30 H0 /G0 H0 :00 3G0 :F0 3:0 FA0 GH3
/.
Eallar el coeficiente de determinacin para ambas variables.
:.
8omprobar la idoneidad del modelo lineal de regresin. &i el modelo es
apropiado, hallar la recta de regresin de Y sobre X y utili3arla para predecir la
lectura que se obtendr!a empleando la tcnica automtica con una muestra de
agua cuya lectura manual es de /00.
3.
6ara cada una de las observaciones, halle las predicciones que ofrece el modelo
lineal de regresin para X en funcin de Y, e Y en funcin de X, es decir, e .
F.
8alcule los errores para cada una de dichas predicciones, es decir, las variables
e .
G.
'Lue relacin hay entre las medias de X y ) 'U entre las de Y e )
I.
8alcule las medias de e . 'Era de esperar el valor obtenido)
A.
8alcule las varian3as de X, , Y, , e .
H.
'Lu relacin e(iste entre y 'U entre y )
C.
'Lue relacin ecuentra entre y ) '$ambin es vlida para y
)
/0.
Vustifique a partir de todo lo anterior porqu se denomina r
:
como grado de
bondad del a"uste lineal.
!"ercicio 3.... &e ha medido el aclaramiento de creatinina en pacientes tratados con
8aptopril tras la suspensin del tratamiento con dilisis, resultando la siguiente tabla%
;!as tras la dilisis / G /0 /G :0 :G 3G
8reatinina "mg.dl# G,A G,: F,H F,G F,: F 3,H
/.
Ellese la e(presin de la ecuacin lineal que me+or e(prese la variacin de la
creatinina, en funcin de los dias transcurridos tras la dilisis, as! como el grado
de bondad de a+uste y la varian3a residual.
:.
'En qu porcenta+e la variacin de la creatinina es e(plicada por el tiempo
transcurrido desde la dilisis)
3.
&i un individuo presenta F=/ mg.dl de creatinina, 'cunto tiempo es de esperar
que haya transcurrido desde la suspensin de la dilisis)
!"ercicio 3..6. En un ensayo cl!nico reali3ado tras el posible efecto hipotensor de un
frmaco, se evala la tensin arterial diastlica "$7;# en condiciones basales "X#, y tras
F semanas de tratamiento "Y#, en un total de /F pacientes hipertensos. &e obtienen los
siguiente valores de $7;%
X CG /00 /0: /0F /00 CG CG CH /0: CI /00 CI //0 CC
Y HG CF HF HH HG H0 H0 C: C0 AI C0 HA /0: HC
/.
'E(iste relacin lineal entre la $7; basal y la que se observa tras el tratamiento)
:.
'8ul es el valor de $7; esperado tras el tratamiento, en un paciente que
present una $7; basal de CG mm de Eg)
!"ercicio 3..4. &e han reali3ado C tomas de presin intracraneal en animales de
laboratorio, por un m*todo est+ndar directo y por una nueva t*cnica experimental
indirecta, obtenindose los resultados siguientes en mm de Eg%
,todo estndar C /: :H A: 30 3H AI :I G:
,todo e(perimental I /0 :A IA :G 3G AG :A G3
/.
Eallar la ecuacin lineal que e(prese la relacin e(istente entre las presiones
intracraneales, determinadas por los dos mtodos.
:.
'Lu tanto por ciento de la variabilidad de Y es e(plicada por la regresin)
Ellese el grado de dependencia entre las dos variables y la varian3a residual del
mismo.