Sunteți pe pagina 1din 8

1.1.2. Calidad del ajuste en regresión lineal simple

En la sección anterior estudiamos pruebas de hipótesis

relación significativa entre

hacer estimaciones con una precisión aceptable. Por ejemplo, es de interés saber qué

tanta de la variabilidad presente en cumplen los supuestos de los residuos

para verificar que hay una

y; sin embargo, no hemos visto si tal relación permite

fue explicada por el modelo, además si se

Coeficiente de determinación Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinaciónn, definido como sigue

el coeficiente de determinaciónn, definido como sigue O bien Como scE < scG, se verifica que

O bien

coeficiente de determinaciónn, definido como sigue O bien Como scE < scG, se verifica que 0

Como scE < scG, se verifica que 0 < R 2 < 1.

El coeficiente de determinación mide la proporción de variabilidad total de la variable

dependiente

usual expresar esta medida en tanto por ciento, multiplicándola por cien.

Por otra parte, teniendo en cuenta que

por cien. Por otra parte, teniendo en cuenta que respecto a su media que es explicada

respecto a su media que es explicada por el modelo de regresión. Es

i - = 1
i -
=
1

, se obtiene

por el modelo de regresión. Es i - = 1 , se obtiene Dadas dos variables

Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relación lineal que hay entre ambas variables es el coeficiente de correlación definido por

variables es el coeficiente de correlación definido por Donde Un buen estimador de este parámetro es

Donde

Un buen estimador de este parámetro es el coeficiente de correlación lineal muestral

(o coeficiente de correlación de Pearson), definido por

(o coeficiente de correlación de Pearson) , definido por representa la desviación típica de la variable

representa la desviación típica de la variable X (análogamente para

).
).
de correlación de Pearson) , definido por representa la desviación típica de la variable X (análogamente

Por tanto, r

la recta de regresión. Evidentemente, existe una estrecha relación entre r y estos estimadores proporcionan diferentes interpretaciones del modelo:

* r es una medida de la relación lineal entre las variables X e Y.

1 mide el cambio producido en la variable Y al realizarse un cambio de una unidad en la variable X.

*

al realizarse un cambio de una unidad en la variable X. * . Este coeficiente es

. Este coeficiente es una buena medida de la bondad del ajuste de

coeficiente es una buena medida de la bondad del ajuste de 1 aunque De las definiciones

1 aunque

es una buena medida de la bondad del ajuste de 1 aunque De las definiciones anteriores

De las definiciones anteriores se deduce que:

de 1 aunque De las definiciones anteriores se deduce que: Es importante estudiar si r es

Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que el modelo de regresión lineal es significativo. Desafortunadamente la distribución de r es complicada pero para tamaños muestrales mayores que 30 su desviación típica es

tamaños muestrales mayores que 30 su desviación típica es 1/ , y puede utilizarse la siguiente
1/
1/

, y puede utilizarse la siguiente regla

típica es 1/ , y puede utilizarse la siguiente regla En la interpretación del coeficiente de

En la interpretación del coeficiente de correlación se debe tener en cuenta que:

· r = ±1 indica una relación lineal exacta positiva (creciente) o negativa (decreciente),

· r = 0 indica la no existencia de relación lineal estocástica, pero no indica

independencia de las variables ya que puede existir una relación no lineal incluso

exacta,

· valores intermedios de r (0 < r < 1 ó -1 < r < 0) indican la existencia de una relación lineal estocástica, más fuerte cuanto más próximo a +1 (ó -1) sea el valor de r.

Para poder interpretar con mayor facilidad el coeficiente de correlación muestral se exponen varias nubes de observaciones y el ajuste lineal obtenido:

Figura 6.7. Existe una dependencia funcional lineal, las observaciones están sobre la recta de regresión. r = R 2 = 1, recta de regresión

las observaciones están sobre la recta de regresión. r = R 2 = 1, recta de

Dependencia funcional lineal

Coeficiente de determinación ajustado

Coeficiente de determinación ajustado El coeficiente de determinación cuadrado, es una medida descriptiva que sirve para

El coeficiente de determinación

cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresión y la variabilidad total,

esto es:

o coeficiente de correlación múltiple al

total, esto es: o coeficiente de correlación múltiple al algunas otras formas de presentar el coeficiente

algunas otras formas de presentar el coeficiente de determinación son:

formas de presentar el coeficiente de determinación son: Algunas de las equivalencias anteriores pueden verse a

Algunas de las equivalencias anteriores pueden verse a partir de la

demostración de

.
.

Coeficiente de correlación

mide la intensidad de la relación lineal entre dos variables

datos de la forma (

. Es bien conocido que el coeficiente de correlación, ,

pares de

Si se tiene

, entonces este coeficiente se obtiene de la siguiente manera

Se puede ver que negativa fuerte, y si lineal, y finalmente se

; si

es próximo a

, entonces tendremos una relación lineal

es próximo a cero, entonces diremos que no hay correlación es próximo a , entonces tendremos una relación lineal positiva

fuerte. Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.1), el coeficiente de correlación es;

Error estándar de estimación

El error estándar cuantifica 4 las oscilaciones de la media muestral (media obtenida en los datos) alrededor de la media poblacional (verdadero valor de la media). El EEM o SEM se estima generalmente dividiendo la desviación estándar de la población entre la raíz cuadrada del tamaño de la muestra (asumiendo independencia estadística de los valores en la muestra):

Donde s es la desviación estándar (es decir, la estimación basada en la muestra de

Donde

s es la desviación estándar (es decir, la estimación basada en la muestra de la desviación estándar de la población).

n es el tamaño (número de individuos de la muestra)

Esta estimación puede ser comparada con la fórmula de la verdadera desviación estándar de la media de la muestra:

verdadera desviación estándar de la media de la muestra: donde σ es la verdadera desviación estándar

donde

σ es la verdadera desviación estándar de la población.

Esta fórmula puede alcanzarse desde lo que ya conocemos sobre la varianza de la suma de variables independientes aleatorias. 5

son y una desviación estándar is
son
y una desviación estándar
is

Si que tiene una media

observaciones independientes de una población

, entonces la varianza del

total

La varianza de

, entonces la varianza del total  La varianza de debe ser  Y la desviación

debe ser

entonces la varianza del total  La varianza de debe ser  Y la desviación estándar

Y la desviación estándar de

La varianza de debe ser  Y la desviación estándar de debe ser . Análisis de

debe ser

.
.

Análisis de residuos. Gráficos.

Como se ha indicado anteriormente, el análisis de los residuos es básico para chequear

si se verifican las hipótesis del modelo de regresión. Por ello, a continuación se

exponen las propiedades matemáticas de los mismos. Considérese el modelo de

regresión lineal múltiple

Considérese el modelo de regresión lineal múltiple Los residuos mínimo-cuadráticos vienen dados por o en

Los residuos mínimo-cuadráticos vienen dados por

el modelo de regresión lineal múltiple Los residuos mínimo-cuadráticos vienen dados por o en forma matricial

o en forma matricial

el modelo de regresión lineal múltiple Los residuos mínimo-cuadráticos vienen dados por o en forma matricial
Como probar que la matriz H es idempotente esto El gráfico de dispersión matricial ,
Como probar que la matriz H es idempotente esto El gráfico de dispersión matricial ,

Como

probar que la matriz H es idempotente esto

El gráfico de dispersión matricial, de todas las variables del modelo (respuesta y regresoras). En el estudio de un modelo de regresión lineal múltiple es el primer gráfico que se debe observar. Proporciona una primera idea de la existencia de relación lineal o de otro tipo entre la respuesta y las regresoras y también da una idea de posibles relaciones lineales entre las variables regresoras, lo que crea problemas de multicolinealidad.

= H

regresoras, lo que crea problemas de multicolinealidad. = H , siendo H = X - 1

, siendo H = X

-1 X t la matriz de proyección ortogonal. Es fácil

= H , siendo H = X - 1 X t la matriz de proyección ortogonal.

y simétrica

= H , siendo H = X - 1 X t la matriz de proyección ortogonal.

. En base a

1.1.3 Intervalo de confianza

En estadística, se llama a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo. 1

El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más probabilidad de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumenta su probabilidad de error.

Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ. 2 Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con la desigualdad de Chebyshev.

En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ 1 , θ 2 ] tal que P[θ 1 ≤ θ ≤ θ 2 ] = 1 - α, donde P es la función de distribución de probabilidad de θ.

De una población de media

tomar muestras de

de media tomar muestras de y desviación típica se pueden elementos. Cada una de estas muestras

se pueden

media tomar muestras de y desviación típica se pueden elementos. Cada una de estas muestras tiene

elementos. Cada una de estas muestras tiene a su vez una media (

Cada una de estas muestras tiene a su vez una media ( ). Se puede demostrar

). Se puede demostrar que la media de todas las medias muestrales coincide con la

media poblacional: 3

medias muestrales coincide con la media poblacional : 3 Pero además, si el tamaño de las

Pero además, si el tamaño de las muestras es lo suficientemente grande, 4 la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media

μ y una desviación típica dada por la siguiente expresión:

y una desviación típica dada por la siguiente expresión: . Esto se representa como sigue: .

. Esto se representa

como sigue:

la siguiente expresión: . Esto se representa como sigue: . Si estandarizamos , se sigue que:

. Si estandarizamos, se sigue

que:

como sigue: . Si estandarizamos , se sigue que: En una distribución Z ~ N (0,

En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z 1 y z 2 tales que P[z 1 ≤ z ≤ z 2 ] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las tablas en una distribución normal).

Se desea obtener una expresión tal que

deseado ( véase e l uso de las tablas en una distribución normal ) . Se

En esta distribución normal de medias se puede calcular el intervalo de confianza donde

se encontrará la media poblacional si sólo se conoce una media muestral (

confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99

por ciento. A este valor se le llamará un término opuesto).

ciento. A este valor se le llamará un término opuesto). ), con una (debido a que

), con una

A este valor se le llamará un término opuesto). ), con una (debido a que es

(debido a que

le llamará un término opuesto). ), con una (debido a que es el error que se

es el error que se cometerá,

o, mejor dicho, su versión o, mejor dicho, su versión

Para ello se necesita calcular el punto

. Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:

estandarizada

como se muestra en la siguiente imagen: estandarizada o valor crítico — junto con su "opuesto
como se muestra en la siguiente imagen: estandarizada o valor crítico — junto con su "opuesto

o valor críticojunto con su "opuesto en la distribución"

— junto con su "opuesto en la distribución" Dicho punto es el número tal que: Y

Dicho punto es el número tal que:

en la distribución" Dicho punto es el número tal que: Y en la versión estandarizada se

Y en la versión estandarizada se cumple que:

tal que: Y en la versión estandarizada se cumple que: Así: Haciendo operaciones es posible despejar

Así:

tal que: Y en la versión estandarizada se cumple que: Así: Haciendo operaciones es posible despejar

Haciendo operaciones es posible despejar

para obtener el intervalo:se cumple que: Así: Haciendo operaciones es posible despejar De lo cual se obtendrá el intervalo

Haciendo operaciones es posible despejar para obtener el intervalo: De lo cual se obtendrá el intervalo

De lo cual se obtendrá el intervalo de confianza:

Haciendo operaciones es posible despejar para obtener el intervalo: De lo cual se obtendrá el intervalo

Obsérvese que el intervalo de confianza viene dado por la media muestral

producto del valor crítico

dado por la media muestral producto del valor crítico por el error estándar . ± el
.
.
producto del valor crítico por el error estándar . ± el Si no se conoce y

± el

Si no se conoce

crítico por el error estándar . ± el Si no se conoce y n es grande

y n es grande (habitualmente se toma n ≥ 30): 5

y n es grande (habitualmente se toma n ≥ 30) : 5 , donde s es

, donde s es la desviación típica de una muestra.

Aproximaciones para el valor

para

típica de una muestra. Aproximaciones para el valor para para los niveles de confianza estándar son

para los niveles de confianza estándar son 1,96 . 6

de una muestra. Aproximaciones para el valor para para los niveles de confianza estándar son 1,96

y 2,576 para