Documente Academic
Documente Profesional
Documente Cultură
ndice
1. Introduccin 1
4. Representacin grfica 5
5. Regresin y correlacin 5
5.1. Regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
5.2. Correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1. Introduccin
En el anlisis estadstico es conveniente a veces contrastar los datos procedentes de dos caracteres estudia-
dos sobre un mismo individuo. En este sentido se plantea la consideracin de variables estadsticas bidimen-
sionales, as como la deteccin de posibles relaciones entre los dos caracteres investigados.
Definicin 1.1. Una variable estadstica bidimensional es el conjunto (X,Y ) de valores que pueden tomar
dos caracteres diferentes X e Y medidos sobre cada uno de los individuos de una poblacin o muestra. Los
caracteres X e Y se denominan caracteres o variables marginales y pueden ser ambos cuantitativos, ambos
cualitativos o uno de cada tipo; a su vez, los caracteres cuantitativos puede ser variables estadsticas tanto
(X,Y ) X Y
(nmero de hermanos, nmero de hijos) cuantitativo (v.e. discreta) cuantitativo (v.e. discreta)
e Y son ambos cuantitativos. Cada uno de los valores correspondientes a la variable bidimensional (X,Y )
se representa mediante un par ordenado (xi , y j ), donde xi es el valor que mide el primer carcter e y j es
el valor que mide el segundo carcter. En consecuencia, las variables marginales X e Y toman los valores
{x1 , x2 , ..., xm }, {y1 , y2 , ..., yr } para ciertos m, r, respectivamente, y la variable bidimensional (X,Y ) tomar los
Definicin 2.1. El nmero de elementos que tienen el valor xi para el primer carcter y el valor y j para el
segundo se denomina frecuencia absoluta del par (xi , y j ), y se denota ni j ; es decir, ni j es el nmero de veces
que aparece repetido el par (xi , y j ) en las observaciones. La frecuencia relativa del par (xi , y j ) es
ni j
fi j = ,
N
Advirtase que:
m r
i=1 j=1 ni j = N.
m r
i=1 j=1 f i j = 1.
Definicin 2.2. Se define la frecuencia (absoluta) marginal del valor xi como la suma de las frecuencias
r
nxi = ni j .
j=1
m
ny j = ni j .
i=1
Ntese que nxi (respectivamente, ny j ) representa el nmero de veces que aparece el valor xi (respectiva-
m m r
i=1 nxi = i=1 j=1 ni j = N.
rj=1 ny j = rj=1 m
i=1 ni j = N.
A partir de las frecuencias absolutas marginales se obtienen las frecuencias relativas marginales.
nxi ny j
fxi = , fy j = .
N N
1
m
i=1 f xi = N m
i=1 nxi = 1.
1
rj=1 fy j = N rj=1 ny j = 1.
Todos estos datos se disponen en una tabla de doble entrada, como se indica a continuacin:
Y
y1 y2 yj yr nxi fxi
X
fy j fy1 fy2 fy j f yr 1
En el caso de que alguna de las variables marginales est agrupada en intervalos de clase, sern stos los
que figuren en la cabecera de la fila o columna correspondiente; el recuento de frecuencias se har por clases,
Ejemplo 2.4. Se ha elegido al azar en un colegio a 30 nios a los que se les ha tomado la edad en aos y el
edad
xi 9 10 11 12 nxi f xi
peso
ny j 4 6 9 11 30
xi x1 x2 xn
yi y1 y2 yn
con x1 < x2 < . . . < xi < . . . < xn , y1 < y2 < . . . < y j < . . . < yn . En tal caso la ordenacin de los datos en
una tabla de doble entrada no es significativa, ya que en el cuerpo central de la tabla resulta una matriz
diagonal unitaria indicativa de que tanto las frecuencias absolutas de cada par (xi , yi ) como las marginales
de xi e yi (1 i n) valen 1.
Definicin 3.1. Se llaman medidas de centralizacin y dispersin marginales las correspondientes a las
variables marginales X e Y :
m
i=1 xi nxi rj=1 y j ny j
x= , y= ;
N N
m 2
i=1 (xi x) nxi m x2 nx
x2 = = i=1 i i x2 ,
N N
rj=1 (y j y)2 ny j rj=1 y2j ny j
y2 = = y2 ;
N N
r s
m
(x
i=1 i x) 2 n xi m 2
i=1 xi nxi
x = = x2 ,
N N
s s
rj=1 (y j y)2 ny j rj=1 y2j ny j
y = = y2 .
N N
Ejemplo 3.2. Obtener las medidas de centralizacin y dispersin marginales para los datos del Ejemplo
2.4.
' 26.245,
x ' 5.123,
= 1.090,
y ' 1.044.
4. Representacin grfica
Tienen especial inters los denominados diagramas de dispersin o nubes de puntos. Si las variables mar-
ginales no estn agrupadas en intervalos, se representa cada par (xi , y j ) en un diagrama cartesiano. Si slo
una de ellas est agrupada se trabaja con sus marcas de clase, representando los pares resultantes mediante
puntos del plano, como en el caso anterior. Si ambas variables marginales estn agrupadas dividimos el plano
en casillas, dibujando dentro de cada una un nmero de puntos igual a la frecuencia absoluta correspondiente
a sendos intervalos en la X y en la Y .
En un diagrama de dispersin no quedan reflejadas las veces que se repite un par o un intervalo; hemos
de recurrir a un diagrama de barras en tres dimensiones, de las cuales dos son para la variable bidimensional
y la tercera (altura) para las frecuencias. Precisamente denominamos diagramas de frecuencias a las grficas
de este tipo. En los diagramas de frecuencias en donde las dos variables estn agrupadas en intervalos, la
5. Regresin y correlacin
5.1. Regresin
existencia de algn tipo de dependencia entre ellos, y si es posible hallar una expresin matemtica que las
relacione. El problema de la regresin consiste precisamente en intentar ajustar al diagrama de dispersin una
curva de ecuacin conocida (recta, exponencial, parbola, hiprbola, etc.), sugerida por el propio diagrama,
con el fin de poder efectuar una prediccin del valor de una de las variables a partir de la otra. Cuando la
funcin que mejor se ajusta a la nube de puntos es una recta nos hallamos ante un problema de regresin
lineal.
Definicin 5.1. La recta de regresin de Y sobre X proporciona los valores aproximados de Y conocidos los
La recta de regresin de X sobre Y proporciona los valores aproximados de X conocidos los de Y , y tiene
por ecuacin
xy
rxy : x x = (y y).
y2
Aqu,
m r
i=1 j=1 (xi x)(y j y)ni j m r
i=1 j=1 xi y j ni j
xy = = x y
N N
es la covarianza de X e Y , mientras que x, y son las medias marginales y x2 , y2 las varianzas marginales de
X e Y , respectivamente. Ntese que ambas rectas de regresin se cruzan en el punto (x, y), llamado centro
xy xy
yx = , xy =
x2 y2
i) No toda nube de puntos se ajusta apropiadamente a un modelo de regresin lineal. Los modelos linea-
les suponen una explicacin simplificada y gil de la realidad, y cuentan con un vasto respaldo terico
desde las matemticas y la estadstica; pero existe todo un abanico de tcnicas de regresin (cuyo es-
tudio excede el alcance de este curso), que emplean modelos basados en cualquier clase de funcin
matemtica, y que pueden ser ms adecuados para el anlisis del problema particular considerado.
ii) Un conjunto de datos proporciona una prueba de linealidad solamente sobre aquellos valores de las
variables marginales cubiertos por el conjunto de datos; para valores fuera de stos, no hay evidencia
de linealidad. Es, por tanto, inadecuado utilizar una recta de regresin estimada para predecir los
valores de una de las variables marginales correspondientes a valores de la otra variable que estn
Ejemplo 5.3. Hallar las rectas de regresin correspondientes a las variables del Ejemplo 2.4.
R ESOLUCIN . Nos apoyaremos en los resultados del Ejemplo 3.2. En primer lugar, obtenemos la covarianza
1
xy = {22.5 (9 1)
30
+ 27.5 [(9 2) + (10 1) + (11 1)]
(34.833 10.900)
'3.570,
xy 3.570
yx = 2
= ' 0.136,
x 26.245
xy 3.570
xy = 2
= ' 3.275.
y 1.090
5.2. Correlacin
La correlacin estudia el tipo de dependencia que existe entre las variables marginales de una variable
Definicin 5.4. El coeficiente de correlacin lineal o de Pearson es la media geomtrica de los coeficientes
de regresin lineal: s
q xy xy xy
= yx xy = 2
2 = .
x y x y
Ntese que el signo de este coeficiente es el mismo que el de los coeficientes de regresin lineal, y se
El coeficiente de correlacin lineal proporciona la siguiente informacin sobre las rectas de regresin y el
Las variables X e Y se dicen linealmente incorreladas, esto es, no estn vinculadas por una dependencia
lineal.
ii) Si = 1, se comprueba sin dificultad que las dos rectas de regresin coinciden y tienen pendiente
positiva, de modo que una de ellas crece si, y slo si, crece la otra. En este caso decimos que X e Y
iii) Si = 1, entonces ambas rectas coinciden y tienen pendiente negativa, de modo que una de las varia-
bles crece si, y slo si, la otra decrece. Se dice que X e Y presentan correlacin negativa perfecta.
iv) Si 0 < || < 1, las variables estn tanto ms correladas cuanto ms prximo sea || a 1. De forma
Ejemplo 5.5. Calcular y discutir el coeficiente de correlacin lineal para las variables del Ejemplo 2.4.
xy 3.570
= = ' 0.67,
x y 5.123 1.044
lo que indica una correlacin positiva buena (0.5 < ' 0.67 < 0.8) entre ambas variables.