Sunteți pe pagina 1din 8

1.1.2.

Calidad del ajuste en regresin lineal simple


En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay una
relacin significativa entre y; sin embargo, no hemos visto si tal relacin permite
hacer estimaciones con una precisin aceptable. Por ejemplo, es de inters saber qu
tanta de la variabilidad presente en fue explicada por el modelo, adems si se
cumplen los supuestos de los residuos

Coeficiente de determinacin Una vez ajustada la recta de regresin a la nube de
observaciones es importante disponer de una medida que mida la bondad del ajuste
realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar
modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente
de determinacinn, definido como sigue

O bien

Como scE < scG, se verifica que 0 < R
2
< 1.
El coeficiente de determinacin mide la proporcin de variabilidad total de la variable
dependiente respecto a su media que es explicada por el modelo de regresin. Es
usual expresar esta medida en tanto por ciento, multiplicndola por cien.
Por otra parte, teniendo en cuenta que i - = 1 , se obtiene

Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relacin lineal que
hay entre ambas variables es el coeficiente de correlacin definido por

Donde representa la desviacin tpica de la variable X (anlogamente para ).
Un buen estimador de este parmetro es el coeficiente de correlacin lineal muestral
(o coeficiente de correlacin de Pearson), definido por

Por tanto, r . Este coeficiente es una buena medida de la bondad del ajuste de
la recta de regresin. Evidentemente, existe una estrecha relacin entre r y 1aunque
estos estimadores proporcionan diferentes interpretaciones del modelo:
* r es una medida de la relacin lineal entre las variables X e Y.
* 1 mide el cambio producido en la variable Y al realizarse un cambio de una unidad
en la variable X.
De las definiciones anteriores se deduce que:

Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que el
modelo de regresin lineal es significativo. Desafortunadamente la distribucin de r es
complicada pero para tamaos muestrales mayores que 30 su desviacin tpica es
1/ , y puede utilizarse la siguiente regla

En la interpretacin del coeficiente de correlacin se debe tener en cuenta que:
r = 1 indica una relacin lineal exacta positiva (creciente) o negativa (decreciente),
r = 0 indica la no existencia de relacin lineal estocstica, pero no indica
independencia de las variables ya que puede existir una relacin no lineal incluso
exacta,
valores intermedios de r (0 < r < 1 -1 < r < 0) indican la existencia de una relacin
lineal estocstica, ms fuerte cuanto ms prximo a +1 ( -1) sea el valor de r.
Para poder interpretar con mayor facilidad el coeficiente de correlacin muestral se
exponen varias nubes de observaciones y el ajuste lineal obtenido:
Figura 6.7. Existe una dependencia funcional lineal, las observaciones estn sobre la
recta de regresin. r = R
2
= 1, recta de regresin

Dependencia funcional lineal
Coeficiente de determinacin ajustado
El coeficiente de determinacin o coeficiente de correlacin mltiple al
cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del
modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define
como el cociente entre la variabilidad explicada por la regresin y la variabilidad total,
esto es:

algunas otras formas de presentar el coeficiente de determinacin son:

Algunas de las equivalencias anteriores pueden verse a partir de la
demostracin de .
Coeficiente de correlacin . Es bien conocido que el coeficiente de correlacin, ,
mide la intensidad de la relacin lineal entre dos variables Si se tiene pares de
datos de la forma ( , entonces este coeficiente se obtiene de la siguiente manera

Se puede ver que ; si es prximo a , entonces tendremos una relacin lineal
negativa fuerte, y si es prximo a cero, entonces diremos que no hay correlacin
lineal, y finalmente se es prximo a , entonces tendremos una relacin lineal positiva
fuerte. Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.1), el
coeficiente de correlacin es;
Error estndar de estimacin
El error estndar cuantifica
4
las oscilaciones de la media muestral (media obtenida en
los datos) alrededor de la media poblacional (verdadero valor de la media). El EEM o
SEM se estima generalmente dividiendo la desviacin estndar de la poblacin entre la
raz cuadrada del tamao de la muestra (asumiendo independencia estadstica de los
valores en la muestra):

Donde
s es la desviacin estndar (es decir, la estimacin basada en la muestra de la
desviacin estndar de la poblacin).
n es el tamao (nmero de individuos de la muestra)
Esta estimacin puede ser comparada con la frmula de la verdadera desviacin
estndar de la media de la muestra:


donde
es la verdadera desviacin estndar de la poblacin.
Esta frmula puede alcanzarse desde lo que ya conocemos sobre la varianza de la
suma de variables independientes aleatorias.
5

Si son observaciones independientes de una poblacin
que tiene una media y una desviacin estndar , entonces la varianza del
total is
La varianza de debe ser
Y la desviacin estndar de debe ser .

Anlisis de residuos. Grficos.
Como se ha indicado anteriormente, el anlisis de los residuos es bsico para chequear
si se verifican las hiptesis del modelo de regresin. Por ello, a continuacin se
exponen las propiedades matemticas de los mismos. Considrese el modelo de
regresin lineal mltiple

Los residuos mnimo-cuadrticos vienen dados por

o en forma matricial

Como = H , siendo H = X
-1
X
t
la matriz de proyeccin ortogonal. Es fcil
probar que la matriz H es idempotente y simtrica . En base a
esto
El grfico de dispersin matricial, de todas las variables del modelo (respuesta y
regresoras). En el estudio de un modelo de regresin lineal mltiple es el primer
grfico que se debe observar. Proporciona una primera idea de la existencia de
relacin lineal o de otro tipo entre la respuesta y las regresoras y tambin da una idea
de posibles relaciones lineales entre las variables regresoras, lo que crea problemas de
multicolinealidad.
























1.1.3 Intervalo de confianza

En estadstica, se llama a un par o varios pares de nmeros entre los cuales se estima que
estar cierto valor desconocido con una determinada probabilidad de acierto. Formalmente,
estos nmeros determinan un intervalo, que se calcula a partir de datos de una muestra, y el
valor desconocido es un parmetro poblacional. La probabilidad de xito en la estimacin se
representa con 1 - y se denomina nivel de confianza. En estas circunstancias, es el
llamado error aleatorio o nivel de significacin, esto es, una medida de las posibilidades de
fallar en la estimacin mediante tal intervalo.
1

El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un
intervalo ms amplio tendr ms probabilidad de acierto (mayor nivel de confianza), mientras
que para un intervalo ms pequeo, que ofrece una estimacin ms precisa, aumenta su
probabilidad de error.
Para la construccin de un determinado intervalo de confianza es necesario conocer
la distribucin terica que sigue el parmetro a estimar, .
2
Es habitual que el parmetro
presente una distribucin normal. Tambin pueden construirse intervalos de confianza con
la desigualdad de Chebyshev.
En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de un parmetro
poblacional que sigue una determinada distribucin de probabilidad, es una expresin del
tipo [1, 2] tal que P[1 2] = 1 - , donde P es la funcin de distribucin de probabilidad
de .
De una poblacin de media y desviacin tpica se pueden
tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media (
). Se puede demostrar que la media de todas las medias muestrales coincide con la
media poblacional:
3

Pero adems, si el tamao de las muestras es lo suficientemente grande,
4
la distribucin
de medias muestrales es, prcticamente, una distribucin normal (o gaussiana) con media
y una desviacin tpica dada por la siguiente expresin: . Esto se representa
como sigue: . Si estandarizamos, se sigue
que:
En una distribucin Z ~ N(0, 1) puede calcularse fcilmente un intervalo dentro del cual
caigan un determinado porcentaje de las observaciones, esto es, es sencillo
hallar z1 y z2tales que P[z1 z z2] = 1 - , donde (1 - )100 es el porcentaje deseado
(vase el uso de las tablas en una distribucin normal).
Se desea obtener una expresin tal que
En esta distribucin normal de medias se puede calcular el intervalo de confianza donde
se encontrar la media poblacional si slo se conoce una media muestral ( ), con una
confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99
por ciento. A este valor se le llamar (debido a que es el error que se cometer,
un trmino opuesto).
Para ello se necesita calcular el punto o, mejor dicho, su versin
estandarizada o valor crtico junto con su "opuesto en la distribucin" .
Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente
imagen:

Dicho punto es el nmero tal que:

Y en la versin estandarizada se cumple que:

As:

Haciendo operaciones es posible despejar para obtener el intervalo:

De lo cual se obtendr el intervalo de confianza:

Obsrvese que el intervalo de confianza viene dado por la media muestral el
producto del valor crtico por el error estndar .
Si no se conoce y n es grande (habitualmente se toma n 30):
5

, donde s es la desviacin tpica de una muestra.
Aproximaciones para el valor para los niveles de confianza estndar son 1,96
para y 2,576 para .
6

S-ar putea să vă placă și