Documente Academic
Documente Profesional
Documente Cultură
Hay dos grandes tipos de Anlisis de Varianza: Simple, o de un factor (p.ej. consumidores) y la denominada De varios factores (p.ej. jueces y muestras). Los puntajes numricos para cada muestra, se tabulan y analizan por ANOVA, para determinar si existen diferencias significativas en el promedio de los puntajes asignados a las muestras. La varianza total se divide en varianza asignada a diferentes uentes especficas. La varianza de las medias entre muestras se compara con la varianza de dentro de la muestra (llamada tambin error experimental aleatorio)1. Si las muestras no son diferentes, la varianza de las medias entre muestras ser similar al error experimental. La varianza correspondiente a los panelistas o a otros efectos de agrupacin en bloque, puede tambin compararse con el error experimental aleatorio.
Dado que la varianza total dentro de las muestras es resultado de combinar las varianzas individuales de dentro de las muestras, un supuesto necesario es que las varianzas verdaderas dentro de las muestras son idnticas. Existen pruebas formales que pueden hacerse para comprobar la igualdad de las varianzas dentro de las muestras Csari Matilde 1
ANOVA - REGRESIN La medida de la varianza total para la prueba, es la suma total de los cuadrados SC(T). La varianza medida entre las medias de las muestras, es la suma de los cuadrados de los tratamientos o SC(Tr). La medida de la varianza entre las medias de panelistas es la sumade los cuadrados de los panelistas SC(P). La suma de los cuadrados del error SC(E) o MEC, es la medida de la varianza debida al error experimental o aleatorio. Los cuadrados medios (CM) para el tratamiento, los panelistas y el error, se calculan dividiendo cada SC entre sus respectivos grados de libertad (gl). Luego se calculan as razones entre CM(Tr) y CM(E) y entre CM(P) y CM(E). Estas razones se conocen como valores F o F estadstica. Los valores F calculados se comparan con los valores F tabulares a fin de determinar si existen diferencias significativas entre las medias del tratamiento o de los panelistas. Si el valor F calculado es superior al valor F tabulado, para el mismo nmero de grados de libertad, habr evidencia de que hay diferencias significativas. Una vez detectada una diferencia significativa, pueden hacerse pruebas de comparacin mltiple, para determinar cules son las medias del tratamiento o de la poblacin que difieren entre s. Los resultados de este tipo de test se resumen en un cuadro:
Existen muchas pruebas de comparacin mltiple, tales como la Nueva Prueba de Rangos Mltiples de Duncan, Prueba de Tukey, Prueba de la Menor Diferencia Significativa (MDS) y Prueba de Scheffe. De stas, la prueba de MDS resulta ser la ms poderosa y liberal, seguida de las pruebas de Duncan, Tukey y Scheffe. La prueba MDS har ms probable que se encuentren diferencias significativas entre dos muestras sin embargo, tambin puede identificar diferencias que en realidad no existen. La prueba de Scheffe, por otra parte, es bastante cautelosa o conservadora y puede no encontrar diferencias cuando stas en realidad existen. Duncan y Tukey son utilizadas frecuentemente para datos sensoriales ya que no son consideradas liberales o conservadoras[Watts, 1992].
Csari Matilde
ANOVA - REGRESIN Dos medias diferirn estadsticamente, si su diferencia supera la mnima diferencia significativa calculada por la prueba de comparaciones mltiples elegida.Mediasque no difieran significativamente, se identifican con la misma letra. Diferencia mnima significativa de Fisher LSD: es muy sensible porque acepta la diferencia an cuando es pequea. No es recomendable para comparar ms de 3-5 muestras. Se comparan las medias entre s y se verifica si la diferencia es mayor o igual o menor que FSD, si es la diferencia es significativa estadsticamente, para el nivel de significacin que se estableci para el estudio.
Y = 0 + 1X +
0 y 1 parmetros; error aleatorio. 0 y 1 son estimados a partir de la muestra obteniendo la recta 0 Constante de regresin 1 Coeficiente de regresin
Interpretacin de la pendiente: Cunto cambia la variable dependiente Y, por cada unidad que vare la variable independiente X. Estimacin de los parmetros: Mtodo de los mnimos cuadrados. La recta de regresin hace mnimos los cuadrados de las distancias verticales desde cada punto de una observacin a la recta.
Csari Matilde
ANOVA - REGRESIN
Yi es un valor observado real de la variable Y i es un valor de la recta predicho por la ecuacin
(Yi Yi )2 = min
min es el nmero ms pequeo que se puede obtener si se suman estas desviaciones verticales elevadas al cuadrado entre los puntos y la recta.
Yi Yi
a1 =
( xy ) ( x )( y ) 2 n x 2 ( x )
a 0 = y a1 x
Sobre el ejemplo realizamos el Anlisis de Regresin Salida:
r Adjusted r r Std. Error 20 1 Costo 0.659 0.640 -0.812 63.553 observations predictor variable is the dependent variable
Csari Matilde
ANOVA - REGRESIN
ANOVA table Source Regression Residual Total variables intercept Temp SS 140,214.9411 72,700.8089 212,915.7500 coefficients 388.8020 -4.9342 df 1 18 19 confidence interval t (df=18) 11.355 -5.892 p-value 1.22E-09 1.41E-05 95% lower 316.8646 -6.6936 95% upper 460.7393 -3.1748 std. error 34.2408 0.8374 MS 140,214.9411 4,038.9338 F 34.72 p-value 1.41E-05
Regression output
Y = 388,8020 - 4,9342X
Esta es la ecuacin de la recta de regresin pintada en el diagrama de dispersin, que fue mostrada anteriormente. Es importante destacar que la pendiente -4.9342 tiene signo negativo, sugiriendo que la relacin es inversa, anlogo al signo del coeficiente de correlacin (-.812). El valor de la pendiente significa que por cada grado que descienda la temperatura exterior habr un aumento promedio de 5 dlares en el costo de la calefaccin. El clculo de intervalos de confianza para la estimacin de parmetros son tcnicas que nos permiten hacer declaraciones sobre qu valores podemos esperar para un parmetro. El intervalo calculado depender de lo estimado en la muestra (porcentaje, media) El intervalo de confianza esta formado por valores ligeramente menores y mayores que la aproximacin ofrecida por la muestra; as como depender del tamao muestral, Cuantos ms datos hayan participado en el clculo, ms pequeo esperamos que sea la diferencia entre el valor estimado y el valor real desconocido y por ltimo de la probabilidad (nivel de confianza) con la que el mtodo dar una respuesta correcta. Niveles de confianza habituales para os intervalos de confianza son el 95% y el 99%. Puede parecer sorprendente que no busquemos respuestas con una confianza del 100%, pero ocurre que en ese caso, los intervalos seran tan grandes que no seran de gran provecho. La eleccin de un nivel de confianza como el 95% es un compromiso entre hacer declaraciones con una razonable probabilidad de acertar, y que adems el intervalo declarado, sea lo suficientemente pequeo como para suscitar algn inters. El nivel de confianza hay que interpretarlo como que disponemos de un mtodo de calcular intervalos que seguido con rigor, en cierto porcentaje de casos acierta (nivel de confianza) y en el resto falla. En multitud de ocasiones al utilizar un programa estadstico encontramos junto a las ms diversas estimaciones como una media, una proporcin, un coeficiente de regresin, un coeficiente de asimetra, etc., una cantidad misteriosa denominada error estndar o tambin error tpico o residuos. El error estndar2 tiene mucho que ver con los intervalos de confianza. Para muchos parmetros, su intervalo de confianza es habitualmente la estimacin obtenida sobre la muestra (proporcin, media,...), y un margen de error que nos es ms que un mltiplo del error estndar. Un ejemplo muy comn, consiste en elegir niveles de confianza del 95%. Para ello un margen de error de dos errores estndar es habitualmente la respuesta. 1. Clculo del Coeficiente de Determinacin Mide el poder explicativo del modelo de regresin, es decir, la parte de la variacin de Y explicada por la variacin de X.
2
Es una medida de la variabildad del estimador. Su clculo exacto es salvo excepciones y sin hacer simplificaciones, excesivamente complicado. Estas simplificaciones suelen ser del tipo que la variable en estudio tiene una distribucin conocida, o que la muestra es lo suficientemente grande para considerar algunas aproximaciones adecuadas Csari Matilde 5
ANOVA - REGRESIN
r2 =
El valor de r2 ha de estar entre 0 y 1, si r 2 = 0,70 significa que el 70% de la variacin de Y est explicada por las variaciones de X. Es evidente que cuanto mayor sea r2, mayor poder explicativo tendr nuestro modelo. En nuestro ejemplo Si analizamos el valor del coeficiente de determinacin r=0.659, apreciamos que aproximadamente el 66% de la variabilidad del costo esta determinado por la variabilidad en la Temperatura exterior.
Csari Matilde
ANOVA - REGRESIN
2. Prueba de Hiptesis para analizar si la pendiente es significativa Para tomar una decisin podemos comparar el valor de un estadstico con H0 : 1 = 0 un percentil, o utilizar un criterio equivalente, usado en los paquetes de H1 : 1 0 Estadstica: Comparar el p-valor con el nivel de significacin Regla de Decisin: Rechazar Ho si p < . En este caso decimos que 1 0 , la pendiente es significativa. En el ejemplo p = 1.41E-05 < 0.05, as que rechazamos H0 por lo que el valor de la pendiente es significativamente diferente de cero. Conclusin: La relacin entre la Temperatura Exterior y el Costo es significativa. Los intervalos de confianza proporcionan un rango de valores que es probable que contengan los parmetros del modelo. Se construyen de forma que la probabilidad de que el intervalo contenga el parmetro desconocido sea 1-, donde denota el nivel de significacin y 1- el nivel de confianza. Tambin son tiles para probar hiptesis estadsticas sobre los parmetros de la regresin. 3. Lmites del intervalo de confianza para la respuesta media Si los intervalos de confianza mostrados son del 95% significa que si se construye un gran nmero de ellos, el 95% de ellos contendr a la media. En la prctica se obtiene solamente una muestra y se calcula con ella un intervalo de confianza, dicho intervalo contiene o no contiene a la media, no es razonable asignar una probabilidad a este evento. La proposicin adecuada es que el intervalo contiene a la media con una confianza del 95%. La longitud del intervalo de confianza (-l) es una medida de la calidad de la informacin obtenida en la muestra, al semi intervalo -q, o q-l se le llama Precisin del estimador. Intervalo para la Media (Varianza conocida) Se tiene una poblacin con media desconocida , pero se supone conocida la varianza 2. Se toma una muestra aleatoria (X1,X2,...,XN). Con esta muestra se calcula el estadstico x , el cual es un estimador puntual insesgado para la media desconocida. Se puede obtener un intervalo de confianza del 100(1-) % para si consideramos los siguientes hechos acerca de la distribucin de: 1- Si la poblacin es Normal, la distribucin de x es Normal 2- Si la poblacin no es Normal, el Teorema del lmite central3 nos garantiza una distribucin de x aproximadamente normal cuando N
tiene una distribucin N(0,1) y P{-z/2 Z z/2 }=1-. Con lo cual el intervalo de confianza del 100(1-)% para la media es
X Z
2
X +Z N N 2
Ejemplo: Los siguientes son datos de conductividad trmica de cierto tipo de hierro (en BTU/hr-ft-F): 41.60 41.48 42.34 41.95 41.86 42.18 41.72 42.26 41.81 42.04
3
Teorema del Lmite Central: Afirma que la media muestral tiene una distribucin Normal aunque la poblacin original no la tenga, siempre y cuando la muestra sea muy grande (de manera prctica N>30) Csari Matilde 7
ANOVA - REGRESIN Una estimacin puntual para la media, es x = 41.924. Hallar un intervalo de confianza del 95 % y uno del 99% para la media. Se supone que la poblacin tiene una distribucin Normal con =0.3 l = 41.924 - 1.96(0.3)/10 = 41.738, u = 41.924+1.96(0.3)/10 = 42.110 Entonces el intervalo de confianza del 95% es 41.738 42.11. Y la longitud de este intervalo es 3.92/N Intervalo para la Media (Varianza desconocida) Si no se conoce la varianza 2 de la poblacin, una posibilidad es utilizar la varianza muestral S 2 en las ecuaciones obtenidas para estimar intervalos en el caso de varianza conocida. Este procedimiento funciona para muestras grandes (N>30), por ello los intervalos de confianza anteriores se les suele llamar intervalos de confianza para muestras grandes. Si las muestras son pequeas el enfoque anterior no funciona y para lograr un procedimiento vlido se supondr que la poblacin tiene una distribucin Normal Si la poblacin es Normal, la siguiente estadstica:
T= X S N
tiene una distribucin t con N-1 grados de libertad y P{-t/2,N-1 T t/2,N-1 }=1-. Con lo cual el intervalo de confianza del 100(1-a)% para la media es
X T(1
2 ),Gl( n 1)
S2 X + T(1 ),Gl( n 1) 2 n
S2 n
Si de una muestra aleatoria de tamao 25 se obtiene: x = 12 y S = 10 con el fin de calcular la amplitud, el intervalo de confianza (1 - ) para est dado por:
LI = X T(1
2 ),Gl( n 1)
S2 y S2 LS = X + T(1 ),Gl(n 1) 2 n n
2 10 = 12 2.063899 10 25 = 7.87 25
Entonces la amplitud es: A = LS LI. Reemplazando con los valores propuestos queda:
LI = 12 T(0.975),Gl(24) LS = 12 + T(0.975),Gl(24)
10 = 16.13 25
En este ejemplo, la amplitud es 8.26 unidades y se obtuvo con una muestra de tamao 25 4. Clculo del error estndar de la estimacin Mide la variabilidad o dispersin de los valores observados alrededor de una lnea de regresin
Se y sobre
Donde:
( Y Y) n - k -1
(7)
Y = valores obtenidos mediante la ecuacin de estimacin que corresponde a cada valor de Y. Y = valores de la variable dependiente. n = nmero de observaciones k = nmero de variables independientes
Si se trabaja con una recta, se puede calcular el error mediante:
Se y
sobre x
y 2 a 0 y a 1 xy
n2
(8)
Csari Matilde
ANOVA - REGRESIN Mientras ms grande sea el error estndar de la estimacin, mayor ser la dispersin de los puntos alrededor de la lnea de regresin. 5. Predicciones 1) Clculo de una prediccin puntual. Suponga que se desea un estimador puntual del costo de un apartamento, si la y = 8,8020 - 4,9342x y = 8,8020 - 4,9342 * 35 temperatura exterior es de 35 grados y = 216,05 Sol: Sustitucin del valor de x = 35, en la ecuacin de la recta para obtener un valor Los estimadores puntuales son tambin variables aleatorias y, por lo tanto, no se puede esperar que en una realizacin cualesquiera den un valor idntico al parmetro que estiman. Por ello, se desea que una estimacin puntual est acompaada de alguna medida del posible error de esa estimacin. Esto puede hacerse indicando el error estndar del estimador o dando un intervalo que incluya al verdadero valor del parmetro con un cierto nivel de confianza. 2) Clculo de un intervalo de Prediccin Clculo del Intervalo de Confianza para el Costo Promedio de todos los apartamentos, para una temperatura dada.
Csari Matilde
ANOVA - REGRESIN
Para muestras pequeas utilizamos t student. Podemos elaborar fcilmente contrastes sobre los coeficientes del modelo de regresin, basndonos en el estadstico t. Uno de especial inters prctico corresponde a contrastar si la pendiente de la recta de regresin poblacional es cero, lo que implicara que la esperanza condicional de Y no se vera afectada (linealmente) por el valor de la variable independiente. De hecho, dado que los resultados obtenidos se basan en una muestra, es lgico preguntarse si realmente existe alguna relacin a nivel poblacional, ya que podra ser que debido al error de muestreo los parmetros poblacionales fuesen cero. Se trata de comprobar si la estimacin es vlida en el sentido de si es significativa de forma que la variable explicativa X es relevante para explicar el comportamiento de la variable dependiente Y. Es conveniente, por tanto, contrastar si la pendiente de la recta de regresin poblacional es significativamente distinta de cero. Se desea calcular una estimacin por intervalo con un nivel del confianza del 95% para el apartamento especfico en un da considerado con temperatura de 35 grados. Aqu calculamos un intervalo de prediccin.
Y t 1 / 2 (n 2) * S p
S p = Se 1 +
(9)
2
( x x0 ) 1 + n x 2 nx 2
(10a)
En el ejemplo: calculamos el intervalo de prediccin del valor de prediccin de inters, 35. La salida obtenida con el programa es
Predicted values for: Costo Temp Predicted 35 216.105 95% Confidence Interval lower upper 186.000 246.211 95% Prediction Interval lower upper 79.234 352.976 Leverage 0.051
Nota: Observe que el tamao del intervalo de confianza (para todos los apartamentos con temperatura exterior de 35 grados), es menor que el intervalo de prediccin (para un solo apartamento con temperatura exterior de 35 grados). Es de una amplitud mucho menor, ya que habr mayor variacin en el estimado del costo para una observacin que para un grupo. Conclusiones: El costo por la calefaccin de un apartamento con Temperatura de 35 grados es de 216,105 dlares. Con un nivel de confianza del 95% el costo por la calefaccin de un apartamento con Temperatura de 35 grados oscila entre 79,234 y 352,976$ El costo promedio de la calefaccin de los apartamentos para una temperatura de 35 grados se encuentra entre 186,000 246,211 $; con una confianza del 95%.
Csari Matilde
10