Unidad 1 de Estadistica

Estadstica Superior
CLAVE: LII
PROFESOR: MTRO. ALEJANDRO SALAZAR GUERRERO
1. REGRESIN LINEAL SIMPLE Y MLTIPLE 1.1. Regresin lineal simple 1.2. Estimacin y prediccin por intervalo en regresin lineal simple 1.3. Regresin lineal mltiple 1.4. Intervalos de confianza y prediccin en regresin mltiple 1.5. Uso de un software estadstico 2. DISEO DE EXPERIMENTOS DE UN FACTOR 2.1. Diseo complementario al azar y ANOVA 2.2. Comparaciones o pruebas de rangos mltiples 2.3. Verificacin de los supuestos del modelo 2.4. Eleccin del tamao de la muestra 2.5. Uso de un software estadstico 3. DISEO DE BLOQUES 3.1. Diseos en bloques completos al azar 3.2. Diseo en cuadrado latino 3.3. Diseo en cuadrado grecolatino 3.4. Uso de un software estadstico 4. INTRODUCCIN A LOS DISEOS FACTORIALES 4.1. Diseos factoriales con dos factores 4.2. Diseos factoriales con tres factores 4.3. Modelos de efectos aleatorios 4.4. Uso de un software estadstico
1. REGRESIN LINEAL SIMPLE Y MLTIPLE PLE 1.1. Regresin lineal simple Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma:
Donde
es el error asociado a la medicin del valor Xi y siguen los supuestos de modo que (media cero, varianza constante e igual a un y con ).
Anlisis Dado el modelo de regresin simple, si se calcula la esperanza (valor espera esperanza esperado) del valor Y, se obtiene:
Calculando
. Para esto se buscan dichos parmetros que minimicen
Derivando respecto a
e igualando a cero, se obtiene: gualando
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente sol solucin para ambos parmetros:
El anlisis de regresin es una tcnica estadstica para la investigacin de la relacin entre dos o mas variables, puede emplearse para construir un modelo que permita predecir el comportamiento
de una variable y (dependiente, respuesta) en funcin de una o mas variables (independientes, predictivas) x. Los comportamientos de estas variables pueden estar definidos de antemano lo cual nos remite a un modelo terico, o bien, se tiene el caso de que no exista una relacin establecida entre estas y sea necesario establecer una primera aproximacin del comportamiento de las mismas. Lo anterior se puede lograr usando una herramienta grfica denominada diagrama de dispersin lo que nos conducira a desarrollar un modelo emprico de la relacin que mantienen las variables en estudio. Por ejemplo: Podra ser una regresin de tipo lineal: En una empresa de servicio de Internet busca relacionar las ganancias que obtiene cada computadora con el nmero de usuarios que ingresan a dicha cabina diariamente. En la tabla representa Y (Ganancias S/.) y X (Numero de usuarios):
Y 100 98 99 102 102 111 97 104 102 96 X 116 96 110 105 99 106 100 109 98 108
1.2. Estimacin y prediccin por intervalo en regresin lineal simple En estadstica, la probabilidad que asociamos con una estimacin de intervalo se conoce como el nivel de confianza. Esta probabilidad nos indica que tanta confianza tenemos en que la estimacin del intervalo incluya al parmetro de la poblacin. Una probabilidad ms alta significa ms confianza. El intervalo de confianza es el alcance de la estimacin que estamos haciendo pero a menudo hacemos el intervalo de confianza en trminos de errores estndar, para esto debemos calcular el error estndar de la media as:
Donde
es el error estndar de la media para una poblacin infinita,
es la
desviacin estndar de la poblacin. Con frecuencia expresaremos los intervalos de confianza de esta forma:
X 1.64 X
en la que:
X 1.64 X X 1.64 X
= limite superior del intervalo de confianza = limite inferior del intervalo de confianza
Relacin entre nivel de confianza e intervalo de confianza Podra pensarse que deberamos utilizar un alto nivel de confianza, como 99% en todos los problemas sobre estimaciones, pero en algunos casos altos niveles de confianza producen intervalos de confianza alto por lo tanto imprecisos. Debe tenerse un intervalo de confianza que vaya de acuerdo al tema que se este estimando. Intervalos de prediccin aproximados. Una forma de ver el error estndar de la estimacin es concebirla como la herramienta estadstica que podemos usar para hacer un enunciado de probabilidad sobre el intervalo alrededor del valor estimado de Y , dentro del cual cae el valor real de Y. Cuando la muestra es mayor de 30 datos, se calcula los intervalos de prediccin aproximados de la siguiente manera: si queremos estar seguros en aproximadamente 65% de que el valor real de Y caer dentro de + 1 error estndar de Y . Podemos calcular los lmites superior e inferior de este intervalo de prediccin de la siguiente manera:
^ ^
Y 1S e = Limite superior del intervalo de prediccin Y 1S e = Limite inferior del intervalo de prediccin
Si, en lugar decimos que estamos seguros en aproximadamente 95.5% de que el dato real estar dentro de + 2 errores estndar de la estimacin de Y . Podramos calcular los lmites de este intervalo de la siguiente manera:
^
Y 2 S e = Limite superior del intervalo de prediccin Y 2S e = Limite inferior del intervalo de prediccin
y por ltimo decimos que estamos seguros en aproximadamente el 99.7% cuando usamos + 3 errores estndar de la estimacin de Y Podramos calcular los limites de este intervalo de la siguiente manera:
^
Y 3S e = Limite superior del intervalo de prediccin Y 3S e = Limite inferior del intervalo de prediccin
5
^
Como ya habamos mencionado solo se usa para grandes muestras (mayores de 30 datos) para muestras ms pequeas se usan la distribucin T Debemos poner nfasis en que los intervalos de prediccin son solo aproximaciones, de hecho los estadsticos pueden calcular el error estndar exacto para la prediccin Sp, usando la formula:
S p Se
En la que:
1 ( X X 0 )2 1 n X 2 nX 2
X0 = valor especifico de x en el que deseamos predecir el valor de Y 1.3. Regresin lineal mltiple
Los Modelos de Regresin estudian la relacin estocstica cuantitativa entre una variable de inters y un conjunto de variables explicativas. Sea Y la variable de inters, variable respuesta o dependiente y sean x1, x2,..., xk las variables explicativas o regresoras. La formulacin matemtica de estos modelos es la siguiente
Donde es el error de observacin debido a variables no controladas. En el modelo de Regresin Lineal General se supone que la funcin de regresin m es lineal. Por tanto, la expresin matemtica del modelo de regresin lineal general es (1) Un primer objetivo en el estudio de este modelo es el de estimar los parmetros del mismo a partir de una muestra de n 0, 1, 2,..., k, y la funcin de distribucin del error F observaciones, que tendr la forma
De la expresin matemtica del modelo de regresin lineal general se deduce que para i = 1,2,...,n se verifica la siguiente igualdad
6
Donde
es el error aleatorio o perturbacin de la observacin i-sima.
Es interesante escribir el modelo de regresin lineal general en forma matricial. De (1) se obtiene
Escrito en forma vectorial:
Escrito en forma matricial (2) Donde es un vector n-dimensional (matriz n 1) de la variable respuesta o dependiente, X es la matriz del diseo de las variables regresoras (matriz n ), la primera columna de esta matriz est formada por unos, es la columna asociada con el parmetro 0; la columna j + 1 contiene la informacin relativa a la variable xj, j = 1,...,k, es la columna asociada al parmetro j, es el vector -dimensional (matriz 1) de los parmetros del modelo, es el vector n-dimensional (matriz n 1) de las perturbaciones aleatorias. Desarrollando la ecuacin matricial anterior se tiene,
La fila i-sima de la matriz X, i. = se corresponde con los datos de las variables regresoras en el individuo i-simo, i = 1,2,...,n. Por tanto, la informacin acerca del individuo i-simo est contenida en el vector i.
t La columna j-sima de la matriz X, .j = se corresponde con los datos de la variable regresora xj, j = 1,2,...,k. La informacin acerca de la variable j -sima est contenida en el vector .j.
En resumen, las matrices del modelo de regresin lineal mltiple son:
En el estudio del modelo de regresin lineal general se asume que se verifican las siguientes hiptesis: 1. La funcin de regresin es lineal,
m(
i .
=m =
0
=E +
1
=E
k
xi1 +
xi2 + ... +
xik, i = 1,...,n,
2. o, equivalentemente, E = 0, i = 1,...,n. 3. La varianza es constante (homocedasticidad), O, equivalentemente, V ar 4. La distribucin es normal,

= , i = 1,...,n.
o, equivalentemente,
~N
, i = 1,...,n.
5. Las observaciones Y i son independientes (bajo normalidad, esto equivale a que la Cov(Y i,Y j) = 0, si i j). Esta hiptesis en funcin de los errores sera los i son independientes, que bajo normalidad, equivale a que Cov
= 0, si i j''.
6. n > k + 1. En caso contrario no se dispone de informacin suficiente para estimar los parmetros del modelo. 7. Las variables regresoras x1,x2,...,xk son linealmente independientes.
En el siguiente cuadro se resumen las hiptesis del modelo de regresin lineal general.
HIPTESIS del Modelo de Regresin Lineal General En base a la var. de error i E =0 E

0
En base a la var. respuesta Y = +

1
xi1 +
xi2 + ... +
xik
Homocedasticidad Homocedasticidad V ar =
2
V ar
Independencia, Cov = 0 los Independencia las observaciones, yi, son independientes errores, son i, independientes Normalidad
i
Normalidad Y/xi1,xi2,...,xik ~ N n>k+1 regresoras

2
N(0,
n>k+1
Las variables regresoras son Las variables linealmente son linealmente independientes independientes
Estimacin de los parmetros del modelo.

Sea un estimador del vector de parmetros . Se define el vector de predicciones como
El vector de residuos se obtiene como El estimador por mnimos cuadrados de se obtiene minimizando la suma de los residuos al cuadrado. Esto es, se minimiza la siguiente funcin de k + 1 variables:
Derivando respecto a
e igualando a cero, se obtienen las ecuaciones de regresin:
De donde se deduce el siguiente estimador por mnimos cuadrados. (3) Debe tenerse en cuenta que para calcular este estimador es necesario que la matriz XtX sea invertible. Esto est garantizado por la hiptesis 6 del modelo. La matriz XtX es una matriz
cuya expresin es la siguiente
La matriz XtY es una matriz
1 que viene dada por:
Si se trabaja con todas las variables centradas se obtiene otra forma interesante de expresar el modelo de regresin lineal. (4) Donde , 1, 2,..., son las medias muestrales de las variables Y,x1,x2,...,xk.
10
Razonando como antes, se obtiene el siguiente estimador por mnimos cuadrados del t vector =
Donde
es la matriz del diseo de las variables regresoras centradas (matriz n k )
SXX es la matriz de covarianzas de
, esto es,
Y SXY es el vector de covarianzas de Y con
En el estudio del modelo de regresin lineal mltiple con k variables regresoras a partir de una muestra de n observaciones se considera el subespacio vectorial de Rn, de dimensin
, generado por los vectores
(columnas de la matriz de diseo X).
El problema de ajustar un modelo de regresin lineal mltiple se puede interpretar geomtricamente como el problema de encontrar en este subespacio vectorial el vector (vector de predicciones) lo ms prximo al vector de la variable respuesta, . Esto es, encontrar el vector que minimice el mdulo del vector de residuos, = - (la suma de los residuos al cuadrado). La resolucin de este problema viene dada por el vector proyeccin ortogonal del vector en el subespacio considerado. Por tanto,
11
Siendo H la matriz de proyeccin (hat matrix) en el subespacio .
Figura 1. Interpretacin geomtrica. El estimador por mnimos cuadrados predicciones en el subespacio viene dado por las coordenadas del vector de
.
respecto a la base
De esta interpretacin geomtrica se deduce que los residuos verifican las siguientes restricciones:
Por tanto, los residuos tienen n -
grados de libertad.
H la matriz de proyeccin, 12
Dado que
Por tanto la matriz de proyeccin sobre el subespacio
es
n Por tanto la matriz H = i, j = 1 se obtiene a partir de la matriz del diseo X, es una matriz n n y juega un papel muy importante en el modelo de regresin lineal.
Clculo de la suma de residuos al cuadrado,
En el estudio del modelo de regresin mltiple tiene gran inters la suma de residuos al cuadrado que representa la variabilidad no explicada por el modelo (scR). A partir de este valor se obtiene el estimador de la varianza 2. Una forma sencilla de calcular scR es la siguiente: el vector de residuos se puede expresar como
Utilizando el mdulo de
al cuadrado es
Dado que
, el segundo trmino de la expresin es cero, por tanto
13
De donde se sigue que
O equivalentemente
(11)
La expresin (11) es muy til para el clculo de scR. Debe tenerse en cuenta que el clculo de la matriz ya se utiliz en el calculo del estimador .
1.4. Intervalos de confianza y prediccin en regresin mltiple Razonando como en el modelo de regresin lineal simple, se deben distinguir dos problemas diferentes: Estimar la media de la distribucin condicionada de Y/ parmetro =
t.
Esto es, se quiere estimar el
Y poder responder a preguntas como la siguiente: cul es el volumen medio de los rboles de dimetro 10 u. y altura 80 u.?.
Predecir el valor de la variable respuesta en un individuo del que se conoce que = h. h. Esto es, se quiere predecir un valor de la variable condicionada Y/
Se quiere responder a preguntas como la siguiente: conociendo que un determinado rbol tiene un dimetro 10 u. y una altura de 80 u. qu volumen se predice para este rbol? Estimacin de las medias condicionadas.
Una vez que se ha ajustado el modelo de regresin lineal por mnimos cuadrados se obtiene
El estimador de la media de la distribucin condicionada de Y/ , se obtiene sustituyendo

t
t,
esto es, del parmetro mt = E
en el modelo de regresin. Obteniendo 14
Este estimador tiene las siguientes propiedades: 1. Es un estimador centrado o insesgado, E 2. La varianza del estimador t es V ar = influencia o leverage asociado al vector t.
2
= mt = E htt, donde htt =

t t
-1
es el valor de
Se define el inverso de htt como el nmero equivalente de observaciones para estimar mt, valor que se denota por nt = 1/htt. La interpretacin de nt es la siguiente: la informacin que proporciona la muestra, de tamao n n, i = 1 para estimar mt es la misma que proporcionara una muestra de tamao nt de
n observaciones j = 1 hde una poblacin con distribucin igual a la condicionada de Y/ t. Para todas las observaciones muestrales i, i = 1,...,n, se verifica que
Adems para cualquier valor de t se verifica que el valor de nt ser mayor cuanto ms prximo est t de y cuando t = se obtiene que nt = n, valor mximo que puede tomar. Inversamente, si la distancia entre t y crece entonces el valor de nt disminuye, y si esta distancia se hace infinitamente grande (se extrapola) el valor de nt se aproxima a cero. 3. La distribucin de
t
es normal. Por tanto,
Como en la prctica el parmetro 2 es desconocido, el estadstico pivote t no se puede utilizar para calcular intervalos de confianza y es necesario sustituir 2 desconocido por un estimador, R2. Obteniendo el siguiente estadstico pivote t
(32)
Por la hiptesis de normalidad se sigue que la distribucin de
es (33)
De (33) se obtiene que un intervalo de confianza de mt con un nivel de confianza
es
(34)
Al estimar una media condicionada utilizando el modelo de regresin se debe de tener en cuenta que los resultados son razonables dentro del rango de valores de las variables regresoras (interpolar) 15
donde se verifica que 1 < nt < n y, en particular, para t = se verifica que nt = n, y la estimacin de mt tiene la menor varianza. Si t es un vector alejado de , entonces nt es pequeo y V ar grande, obtenindose estimaciones poco precisas. Finalmente, si se estima la media condicionada mt fuera del rango de valores de (extrapolar), entonces puede ocurrir que nt 0, lo que hace que la precisin de la estimacin de mt sea muy pequea. Prediccin de una observacin. Se desea predecir el valor de la respuesta, Y , de un individuo del que se sabe que = t, utilizando el ajuste de un modelo de regresin lineal de la variable Y respecto al vector de variables regresoras . El predictor por Por tanto, la prediccin de Y t = Y/ pero su varianza es mayor. =
t
que minimiza el Error Cuadrtico Medio de Prediccin, E
viene dado
es el mismo valor que se obtiene en la estimacin de mt
El predictor t verifica las siguientes propiedades: =E 1. La prediccin es centrada, ya que, E 2. La varianza de la prediccin es,
Para calcular intervalos de prediccin de yt se utilizar el siguiente estadstico pivote
(35)
Un intervalo de prediccin de yt con nivel de confianza
viene dado por
(36)
Los intervalos de prediccin que se obtienen son mucho mayores que los intervalos de confianza de la media condicionada mt ya que la varianza ha aumentado.
16
El anlisis de varianza (ANOVA) es una prueba, un clculo que nos permite medir la variacin de las respuestas numricas como valores de evaluacin de diferentes variables nominales. La prueba a realizar en el Anlisis de Varianza es de s existe diferencia en los promedios para la los diferentes valores de las variables nominales; esta prueba se realiza para variables donde una tiene valores nominales y la otra tiene valores numricos. LA DISTRIBUCION F ANOVA, del ingls Anlisis Of VAriance, es un test estadstico ideado por Fisher, gran genio ingls que pens hace ms de 60 aos como analizar datos simultneamente cuando tenemos varios grupos y as poder ahorrar tiempo y dinero. Este anlisis por lo tanto permite comprobar si existen diferencias entre promedios de tres o ms tratamientos y para ello se calcula el valor de F, y es equivalente al test de Student, salvo que ste ltimo solamente sirve para dos grupos. Desde ya tenemos que dejar establecido que cuando encontramos el valor de F sabremos si existen diferencias entre los grupos, pero no nos dice entre cuales grupos. La comparacin simultanea de varias medias poblacionales se denomina Anlisis de Varianza ( ANOVA de analisys of variante ). Para los casos, las poblaciones deben ser normales y los datos, por lo menos deben estar en el nivel de intervalos.

Los Grados de Libertad en el numerador y los Grados de Libertad en el denominador La distribucin F es continua, significa que puede tomar una cantidad infinita de valores entre 0 y mas infinito. La distribucin F no puede ser negativa. Dado que el menor valor de F es cero. La distribucin F es positivamente sesgada, dado que la cola larga de la distribucin se encuentra a la derecha , conforme el nmero de Grado de Libertad aumenta, tanto el numerador como el denominador, la distribucin se aproxima a una distribucin normal. La distribucin F es asinttica, conforme lo valores de X aumentan, la curva de la distribucin F se aproxima al eje X , pero nunca lo toca.
17
Grados de Libertad (n1/n2) El uso de la distribucin F es la tcnica del anlisis de varianza (ANOVA), con la que se comparan tres o ms medias poblacionales para determinar si son iguales. Para usar el ANOVA se considera lo siguiente:
o o o o
Las poblaciones estn distribuidas normalmente. Las poblaciones tienen desviaciones estndar iguales (s). Las muestras se seleccionan independientemente.
Cuando se satisface estas condiciones, F se utiliza como la distribucin del estadstico de prueba. Paso1: Plantear la Hiptesis nula y la Hiptesis alternativa. Ho : u1=u2=u3=u4 hiptesis Nula H1 : u1u2u3u4 hiptesis alternativa Si no se rechaza la hipotes Nula (Ho), se concluye que no hay diferencia en los promedios. Si se rechaza Ho, se concluye que hay diferencia al menos un par de promedios. Paso 2: Seleccionar el nivel de significancia, puede elegirse 0.01 , 0.05, etc. Paso 3: Determinar el estadstico de prueba, el estadstico de prueba sigue la distribucin F. Paso 4: Establecer la regla de decisin. Para establecer esta regla se necesita el valor crtico. El valor critico del Estadstico en base a los grados de libertad. Donde el nmero de grados de libertad del numerador es igual al nmero de tratamientos designado por ( K-1 ). El numero de grados de libertad en denominador es igual al numero de observaciones n menos el numero de tratamientos.( n- k )
Paso5: Seleccionar la muestra , realizar los clculos y tomar una decisin. Es decir es conveniente reunir los clculos del estadstico F en una tabla ANOVA. El Formato de la Tabla ANOVA es el siguiente: TABLA ANOVA FUENTE VARIACION Tratamientos Error Total DE Suma Cuadrados SST SSE SS Total de Grados Libertad k-1 n-k n-1 18 de Media Cuadrados SST/(k-1)=MST SSE/(n-k)=MSE de F MST/MSE
Hay tres valores llamados Suma de cuadrados (SS, de sumo f squares) usados para hallar el F Calculado y compararlo con el F terico segn el Grado de Libertad hallados en las tablas de Valores crticos de Distribucin F para valores de significancia al 5% o al 1% Criterios de decisin
Si {Fcalculado > F terico } se rechaza la H1, en caso contrario se acepta. Anlisis de un caso de un modelo de regresin lineal mltiple. Ejemplo. Los datos de la tabla adjunta proporcionan el volumen (en pies cbicos), altura (en pies) y dimetro (en pulgadas, medido a 54 pulgadas del suelo) de una muestra de 31 rboles del tipo cerezo negro, en el Allegheny National Forest, en Pensilvania. Con estos datos se quiere hacer un estudio sobre el rendimiento de la madera y, para ello, se ajusta un modelo de regresin lineal que permita predecir el volumen de un rbol cuando se conoce su altura y dimetro.
Estimacin de los coeficientes del modelo de regresin son
19
El modelo estimado es:
Para calcular la varianza residual, dado que
i=1
yi2 = 36.324'99, utilizando (11) se obtiene:
La matriz de varianzas de los estimadores puede aproximarse por:
Intervalos de confianza al 90% de los parmetros del modelo. Para la varianza

2
20
Para
Para
(dimetro):
Para
(altura):
Contrastes individuales de la t para los coeficientes del modelo de regresin. Contraste C0, H0 :
0
= 0 frente a
Contraste C1 (dimetro), H0 :
= 0 frente a
21
Por tanto la variable dimetro influye y explica el comportamiento de la variable respuesta volumen. Contraste C2 (altura), H0 :
2
= 0 frente a
Por tanto la variable altura influye y explica el comportamiento de la respuesta volumen. Tabla ANOVA. Contraste conjunto de la F. Se obtiene la siguiente tabla ANOVA,
Fuentes de Variacin
Suma de Cuadrados
Grados de libertad
Varianzas
Por el modelo 7.684'16
2 e
= 3.842'08
Residual
421'92
28
= 15'06
Global
8.106'08
30
2 y
= 270'20
Con estos datos se obtiene el siguiente estadstico del contraste conjunto de la F,
22
Se rechaza la no influencia del modelo en la variable respuesta. En base a los resultados de los contrastes individuales de la t y el contraste conjunto de la F se deduce la influencia de cada una de las dos variables regresoras y la influencia conjunta del modelo de regresin en la variable de inters, volumen de los rboles. Contraste individual de la F. A continuacin se estudia el contraste sobre la influencia individual de la variable dimetro en la respuesta volumen, utilizando el contraste individual de la F. Una vez calculado el modelo de regresin completo (con las dos variables regresoras). Tabla ANOVA (modelo completo)
Fuentes de Variacin
Suma de Cuadrados
Grados de libertad
Varianzas
Por el modelo 7.684'16
2 e
= 3.842'08
Residual
421'92
28
= 15'06
Global
8.106'08
30
2 y
= 270'20
Se calcula la regresin de volumen respecto a la altura:
Tabla ANOVA (una regresora)
Fuentes de Variacin
Suma de Cuadrados
Grados de libertad
Varianzas
23
Por altura
2.901'19
2 e
= 2.901'19
Residual
5.204'90
29
= 179'48
Global
8.106'08
30
2 y
= 270'20
La suma de cuadrados incremental debida a la variable dimetro es
Este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir la variable dimetro. Para contrastar la influencia o no de la variable altura se utiliza el estadstico
En este contraste se obtiene el mismo p-valor que el obtenido con el contraste individual de la t. Coeficientes de determinacin y de correlacin. El coeficiente de determinacin
El modelo ajustado explica el 94.79% de la variabilidad de la respuesta. El coeficiente de correlacin mltiple,
El coeficiente de determinacin corregido por el nmero de grados de libertad,
El coeficiente de correlacin mltiple corregido por el nmero de grados de libertad,
24
El coeficiente de correlacin simple entre las variables volumen y altura,
es una medida de la relacin lineal existente entre las variables volumen y altura. Otra forma de calcular el coeficiente de correlacin simple es hacerlo a partir del coeficiente de determinacin de la siguiente regresin lineal simple,
La tabla ANOVA de este modelo es:
Fuentes de Variacin
Suma de Cuadrados
Grados de libertad
Varianzas
Por altura
2.901'19
2 e
= 2.901'19
Residual
5.204'90
29
= 179'48
Global
8.106'08
30
2 y
= 270'20
De donde,
El coeficiente de correlacin parcial entre las variables volumen y altura controlado por la variable dimetro. Utilizando la relacin se obtiene
Una forma ms complicada de obtener este coeficiente es la siguiente: se calculan las siguientes regresiones lineales simples y se guardan los residuos, 25
El coeficiente de correlacin parcial entre las variables volumen y altura se obtiene como el coeficiente de correlacin simple entre las variables evol.diam y ealt.diam
Este coeficiente proporciona una medida de la relacin entre las variables volumen y altura libres de la influencia de la variable dimetro. Si se quiere comparar con el coeficiente de correlacin lineal simple de las variables volumen y altura, se obtiene que
El coeficiente de correlacin parcial entre las variables volumen y dimetro controlado por la variable altura es (se utiliza la relacin (8.31))
El valor del ndice de correlacin vara en el intervalo [-1, +1]:
Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica una independencia total entre las dos variables, es decir, que la variacin de una de ellas puede influir en el valor que pueda tomar la otra. Pudiendo haber relaciones no lineales entre las dos variables. Estas pueden calcularse con la razn de correlacin. Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia total entre las dos variables denominada relacin directa: cuando una de ellas aumenta, la otra tambin lo hace en idntica proporcin. Si 0 < r < 1, existe una correlacin positiva. Si r = -1, existe una correlacin negativa perfecta. El ndice indica una dependencia total entre las dos variables llamada relacin inversa: cuando una de ellas aumenta, la otra disminuye en idntica proporcin. Si -1 < r < 0, existe una correlacin negativa.
Estimacin de la media condicionada.
26
Estimar el volumen medio de los rboles de dimetro 10 y altura 80
La estimacin de la media es
El valor de influencia asociado a la observacin
es
La varianza del estimador,
Un intervalo de confianza al 90% de
es
Prediccin. Predecir el volumen del rbol de la plantacin numerado con el 100 que tiene un dimetro 10 y una altura de 80. La prediccin es
La varianza de la prediccin es
Un intervalo de prediccin al 90% es
En la tabla adjunta se obtienen las predicciones, intervalos de confianza e intervalos de prediccin para diferentes valores de . Tener en cuenta que .
27
Es bueno el modelo de regresin ajustado? Se puede mejorar este modelo?. El modelo de regresin ajustado es
Las caractersticas de las estimaciones se recogen en la siguiente tabla:
Modelo 1
p - valor
Constante
-57'988
8'638
-6'713
0'000
Dimetro
4'708
0'264
17'816
0'000
Altura
0'339
0'130
2'607
0'014
Las dos variables regresoras son significativas. La tabla ANOVA del modelo es Modelo 1 Regresin Residual Global R2 = 0'974 Suma de cuadrados 7684'163 421'921 8106'084
2
g.l. 2 28 30
varianza 3842'081 15'069 270'203
F 254'972
p - valor 0'000
= 0'944
= 3'882
La bondad del ajuste del modelo de regresin es alta. Dos grficos de inters son el grfico de predicciones frente a la respuesta observada (y) y el grfico de residuos (e) frente a las
predicciones estos grficos se representan en las Figuras 3. y 4. En la Figura 3 se observa que el ajuste es razonablemente bueno ya que las predicciones estn prximas a los valores observados (los puntos se acercan a la diagonal), pero en la Figura 4 se observa que el comportamiento de los residuos no es adecuado ya que los puntos parecen seguir una parbola.
28
Figura 3. Grfico de predicciones frente a la respuesta.
Figura 4. Grfico de residuos frente predicciones. Se ajusta un modelo de regresin introduciendo un trmino cuadrtico, la variable regresora dimetro al cuadrado. Los resultados de este nuevo ajuste son los siguientes:
Los contrastes individuales son: Modelo 2 t p - valor
Constante
-9'920
10'079
-0'984
0'334
Dimetro
-2'885
1'310
-2'203
0'036
29
Dimetro2
0'269
0'046
5'852
0'000
Altura
0'376
0'088
4'266
0'000
Las tres variables son significativas con
= 0'05, la tabla ANOVA del nuevo modelo ajustado es:
Modelo 2 Regresin Residual Global R2 = 0'988
Suma de cuadrados 7920'072 186'012 8106'084

2
g.l. 3 27 30
R
varianza 2640'024 6'889 270'203
F 383'205
p - valor 0'000
= 0'975
= 2'625 ha aumentado y la varianza residual
El segundo modelo mejora al primero ya que el coeficiente
ha disminuido. En el grfico de predicciones frente a la respuesta (y) (Figura 5.) se observa que los puntos se ajustan mejor a la diagonal. En el grfico de residuos (e) frente a las predicciones (y) (Figura 6) se observa un mejor comportamiento de los residuos y parece que se cumplen las hiptesis estructurales, aunque este aspecto se debe estudiar con ms detalle.
Figura 5. Grfico de predicciones frente a la respuesta.
30
Figura 6. Grfico de residuos frente a predicciones. 1.5. Uso de un software estadstico El uso de ordenadores y calculadoras facilita el que los alumnos comprendan mejor temas complejos de matemticas. Es evidente que en muchos casos la tecnologa agiliza y supera, la capacidad de clculo de la mente humana, con ayuda de la tecnologa, los alumnos tienen ms tiempo para concentrarse en enriquecer su aprendizaje matemtico. Las nuevas tecnologas han venido a cambiar por completo el panorama tradicional de como se hacan, se vean y se enseaban las matemticas. Introducirse en este nuevo panorama implica realizar profundos cambios en nuestros programas educativos. Es muy amplia la variedad de aplicaciones informticas disponibles para estadstica y probabilidad:

Excel o Calc Javascript Applet de Java Proyecto Descartes Software Libre Otros Software
La Hoja de Clculo Excel/Calc puede convertirse en una poderosa herramienta para crear entornos de aprendizaje que enriquezcan la representacin (modelado), comprensin y solucin de problemas, en el rea de la estadstica y probabilidad. Excel ofrece funcionalidades que van ms all de la tabulacin, clculo de frmulas y graficacin de datos:

En estadstica descriptiva representa todos los tipos de grficos y calcula la media, moda, mediana, recorrido, varianza y desviacin tpica. En estadstica bidimensional representa la nube de puntos y la recta de regresin. Calcula el centro de gravedad, las desviaciones tpicas marginales, la covarianza, el coeficiente de correlacin, la recta de regresin y buscar objetivos. En la distribucin binomial, calcula cualquier probabilidad, la media, varianza y desviacin tpica. En la distribucin normal, calcula cualquier probabilidad en la normal estndar N(0, 1) y en cualquier normal N(m, s) y genera la tabla N(0, 1) 31
En inferencia estadstica calcula los intervalos de confianza, el tamao de la muestra y se puede aplicar al contraste de hiptesis, tanto en el bilateral como en el unilateral. En probabilidad simula todo tipo de lanzamientos.
La instalacin del programa es muy sencilla, adems Microsoft Excel incluye un comando para el anlisis de datos, dentro de las "herramientas para el anlisis", su uso es poco comn, ya que no se tiene cuidado de instalar todas las funciones dentro de las "herramientas", perdiendo la oportunidad de utilizar un medio poderoso para el estudio dentro de la estadstica. Javascript JavaScript, es un lenguaje de programacin de pginas web de lado del cliente, nos permite aadir a las pginas web efectos y funciones adicionales a los contemplados en el estndar HTML. Gracias a que se ejecuta en el navegador(localmente), JavaScript, nos permite responder de manera rpida y eficaz a las acciones del usuario, creando de esta manera aplicaciones interactivas Applet de Java El lenguaje Java se puede usar para crear los applets de Java. Un applet es un elemento ms de una pgina web, como una imagen o una porcin de texto. Cuando el navegador carga la pgina web, el applet insertado en dicha pgina se carga y se ejecuta. Proyecto Descartes Descartes (M.E.C.) es un programa realizado en lenguaje applet de java que se caracterizan porque crean "escenas" que se pueden insertar en las pginas web. Descartes no slo convierte una web en una web interactiva sino que, adems, es configurable, es decir, que los usuarios (profesores) pueden "programarlo" para que aparezcan diferentes elementos y distintos tipos de interaccin. Software Libre "Software Libre" es un asunto de libertad, no de precio. `Software Libre'' se refiere a la libertad de los usuarios para ejecutar, copiar, distribuir, estudiar, cambiar y mejorar el software. Otros Software estadsticos: Destacamos para el entorno educativo: SPSS, S-PLUS, MINITAB, STATGRAPHICS,...
32

Unidad 1 de Estadistica

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Unidad 1 de Estadistica

Încărcat de

Drepturi de autor:

Formate disponibile

Estadstica Superior

PROFESOR: MTRO. ALEJANDRO SALAZAR GUERRERO

. Para esto se buscan dichos parmetros que minimicen

e igualando a cero, se obtiene: gualando

es el error estndar de la media para una poblacin infinita,

es el error aleatorio o perturbacin de la observacin i-sima.

Escrito en forma vectorial:

En resumen, las matrices del modelo de regresin lineal mltiple son:

2. o, equivalentemente, E = 0, i = 1,...,n. 3. La varianza es constante (homocedasticidad), O, equivalentemente, V ar 4. La distribucin es normal,

HIPTESIS del Modelo de Regresin Lineal General En base a la var. de error i E =0 E

En base a la var. respuesta Y = +

Normalidad Y/xi1,xi2,...,xik ~ N n>k+1 regresoras

Estimacin de los parmetros del modelo.

e igualando a cero, se obtienen las ecuaciones de regresin:

cuya expresin es la siguiente

La matriz XtY es una matriz

1 que viene dada por:

es la matriz del diseo de las variables regresoras centradas (matriz n k )

SXX es la matriz de covarianzas de

Y SXY es el vector de covarianzas de Y con

(columnas de la matriz de diseo X).

Siendo H la matriz de proyeccin (hat matrix) en el subespacio .

Por tanto, los residuos tienen n -

Por tanto la matriz de proyeccin sobre el subespacio

Clculo de la suma de residuos al cuadrado,

, el segundo trmino de la expresin es cero, por tanto

De donde se sigue que

Esto es, se quiere estimar el

El estimador de la media de la distribucin condicionada de Y/ , se obtiene sustituyendo

esto es, del parmetro mt = E

en el modelo de regresin. Obteniendo 14

= mt = E htt, donde htt =

es normal. Por tanto,

Por la hiptesis de normalidad se sigue que la distribucin de

De (33) se obtiene que un intervalo de confianza de mt con un nivel de confianza

que minimiza el Error Cuadrtico Medio de Prediccin, E

es el mismo valor que se obtiene en la estimacin de mt

Para calcular intervalos de prediccin de yt se utilizar el siguiente estadstico pivote

Un intervalo de prediccin de yt con nivel de confianza

viene dado por

Estimacin de los coeficientes del modelo de regresin son

El modelo estimado es:

Para calcular la varianza residual, dado que

yi2 = 36.324'99, utilizando (11) se obtiene:

La matriz de varianzas de los estimadores puede aproximarse por:

Intervalos de confianza al 90% de los parmetros del modelo. Para la varianza

Por el modelo 7.684'16

Con estos datos se obtiene el siguiente estadstico del contraste conjunto de la F,

Por el modelo 7.684'16

Se calcula la regresin de volumen respecto a la altura:

Tabla ANOVA (una regresora)

La suma de cuadrados incremental debida a la variable dimetro es

El modelo ajustado explica el 94.79% de la variabilidad de la respuesta. El coeficiente de correlacin mltiple,

El coeficiente de determinacin corregido por el nmero de grados de libertad,

El coeficiente de correlacin mltiple corregido por el nmero de grados de libertad,

El coeficiente de correlacin simple entre las variables volumen y altura,

La tabla ANOVA de este modelo es:

El valor del ndice de correlacin vara en el intervalo [-1, +1]:

Estimacin de la media condicionada.

Estimar el volumen medio de los rboles de dimetro 10 y altura 80

El valor de influencia asociado a la observacin

La varianza del estimador,

Un intervalo de confianza al 90% de