Sunteți pe pagina 1din 8

Anlisis de la varianza

En estadstica, el anlisis de la varianza (ANOVA, ANalysis Of VAriance, segn terminologa inglesa) es una coleccin de modelos estadsticos y sus procedimientos asociados, en el cual lavarianza est particionada en ciertos componentes debidos a diferentes variables explicativas. Las tcnicas iniciales del anlisis de varianza fueron desarrolladas por el estadstico y genetista R. A. Fisher en los aos 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "anlisis de varianza de Fisher", debido al uso de la distribucin F de Fisher como parte del contraste de hiptesis.

[editar]Introduccin
El anlisis de la varianza parte de los conceptos de regresin lineal. El primer concepto fundamental es que todo valor observado puede expresarse mediante la siguiente funcin:

Donde Y sera el valor observado (variable dependiente), y X el valor que toma la variable independiente. sera una constante que en la recta de regresin equivale a la ordenada en el origen, constante que equivale a la pendiente de la recta, y es otra

es una variable aleatoria que aade a la funcin

cierto error que desva la puntuacin observada de la puntuacin pronosticada. Por tanto, a la funcin de pronstico la podemos llamar "Y prima":

Podemos resumir que las puntuaciones observadas equivalen a las puntuaciones esperadas, ms el error aleatorio: (1.1) Sabiendo este concepto, podemos operar con esta ecuacin de la siguiente forma: 1) Restamos a ambos lados de la ecuacin (para mantener la igualdad) la media de la variable dependiente:

2) Substituimos el error por la ecuacin resultante de despejar la ecuacin 1.1:

Por tanto...

Y reorganizando la ecuacin:

Ahora hay que tener en cuenta que la media de las puntuaciones observadas es exactamente igual que la media de las puntuaciones pronosticadas:

Por tanto:

Podemos ver que nos han quedado 3 puntuaciones diferenciales. Ahora las elevamos al cuadrado para que posteriormente, al hacer el sumatorio, no se anulen:

Y desarrollamos el cuadrado:

Podemos ver que tenemos los numeradores de las varianzas, pero al no estar divididas por el nmero de casos (n), las llamamos Sumas de Cuadrados., excepto en el ltimo trmino, que es una Suma Cruzada de Cuadrados (el numerador de la covarianza), y la covarianza en este caso es cero (por las propiedades de la regresin lineal, la covarianza entre el error y la variable independiente es cero). Por tanto:

O lo mismo que:

de un factor, que es el caso ms sencillo, la idea bsica del anlisis de la varianza es comparar la variacin total de un conjunto de muestras y descomponerla como:

Donde: es un nmero real relacionado con la varianza, que mide la variacin debida al "factor", "tratamiento" o tipo de situacin estudiado. es un nmero real relacionado con la varianza, que mide la variacin dentro de cada "factor", "tratamiento" o tipo de situacin.

En el caso de que la diferencia debida al factor o tratamiento no sean estadsticamente significativa puede probarse que las varianzas muestrales son iguales:

Donde: es el nmero de situaciones diferentes o valores del factor se estn comparando. es el nmero de mediciones en cada situacin se hacen o nmero de valores disponibles para cada valor del factor. As lo que un simple test a partir de la F de Snedecor puede decidir si el factor o tratamiento es estadsticamente significativo.

1. INTRODUCCIN Si sabemos que existe una relacin entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la produccin agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma mltiples valores para una combinacin de valores de las independientes. La dependencia a la que hacemos referencia es relacional matemtica y no necesariamente de causalidad. As, para un mismo nmero de unidades producidas, pueden existir niveles de costo, que varan empresa a empresa. Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los cuales se obtiene una nueva relacin pero de un tipo especial denominado funcin, en la cual la variable independiente se asocia con un indicador de tendencia central de la variable dependiente. Cabe recordar que en trminos generales, una funcin es un tipo de relacin en la cual para cada valor de la variable independiente le corresponde uno y slo un valor de la variable dependiente. 2. ASPECTOS TERICOS REGRESIN SIMPLE Y CORRELACIN La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relacin Funcional entre dos o ms variables, donde una variable depende de la otra variable. Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresin Simple. "Y es una funcin de X" Y = f(X) Como Y depende de X,

Y es la variable dependiente, y X es la variable independiente. En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es la variable independiente. En el Modelo de Regresin Simple se establece que Y es una funcin de slo una variable independiente, razn por la cual se le denomina tambin Regresin Divariada porque slo hay dos variables, una dependiente y otra independiente y se representa as: Y = f (X) "Y est regresando por X" La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama REGRESANDO VARIABLE DE RESPUESTA. La variable Independiente X se le denomina VARIABLE EXPLICATIVA REGRESOR y se le utiliza para EXPLICAR Y. ANLISIS ESTADSTICO: REGRESIN LINEAL SIMPLE En el estudio de la relacin funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de prediccin y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notacin: Y=a+bX+e Donde: a es el valor de la ordenada donde la lnea de regresin se intercepta con el eje Y. b es el coeficiente de regresin poblacional (pendiente de la lnea recta) e es el error SUPOSICIONES DE LA REGRESIN LINEAL 1. 2. 3. 4. 5. 6. Los valores de la variable independiente X son fijos, medidos sin error. La variable Y es aleatoria Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y) Las variancias de las subpoblaciones Y son todas iguales. Todas las medias de las subpoblaciones de Y estn sobre la recta. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes.

ESTIMACIN DE LA ECUACIN DE REGRESIN MUESTRAL Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. Elmtodo de estimacin es el de Mnimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuacin de regresin muestral estimada es

Que se interpreta como: a es el estimador de a Es el valor estimado de la variable Y cuando la variable X = 0 b es el estimador de b , es el coeficiente de regresin Est expresado en las mismas unidades de Y por cada unidad de X. Indica el nmero de unidades en que vara Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresin). Un valor negativo de b sera interpretado como la magnitud del decremento en Y por cada unidad de aumento en X. 3. ANTECEDENTES DEL PROBLEMA Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observ el peso de una persona seleccionada de entre el grupo con dicha estatura, resultando:
X Y 152 155 152 155 157 152 157 165 162 178 183 178 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82

Con estos datos vamos a plantear una ecuacin de regresin simple que nos permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y contrastaremos nuestra hiptesis con la prueba F. 4. DESARROLLO

Representacin matemtica y grfica de los datos: Representacin Matemtica


estatura pesos Regresin Lineal y 50 61.5 54.5 57.5 x ^2 23104 24025 23104 24025 y ^2 2500 3782.3 2970.3 3306.3 xy y est. Residual -6.43 2.47 -1.93 -1.53 I.C. para la media I. C. individual L. I. 53.07 56.09 53.07 56.09 L. S. 59.79 61.97 59.79 61.97 L. I. 47.30 L. S. 65.56

datos 1 2 3 4

x 152 155 152 155

7600 56.43 9532.5 59.03 8284 56.43 8912.5 59.03

50.05 68.02 47.30 65.56

50.05 68.02

5 6 7 8 9 10 11 12

157 152 157 165 162 178 183 178

63.5 59 61 72 66 72 84 82

24649 23104 24649 27225 26244 31684 33489 31684

4032.3 3481 3721 5184 4356 5184 7056 6724

9969.5 8968 9577 11880 10692

60.77 56.43 60.77 67.71 65.11

2.73 2.57 0.23 4.29 0.89 -6.99 0.68 3.01

58.05 53.07 58.05 65.17 62.65 74.65 78.01 74.65

63.48 59.79 63.48 70.24 67.56 83.33 88.64 83.33

51.85 69.68 47.30 65.56

51.85 69.68 58.85 56.27 76.57 73.94

12816 78.99 15372 83.32 14596 78.99

69.45 88.52 73.31 93.34 69.45 88.52

Representacin Grfica

5. HIPTESIS HO: No hay relacin entre la variable peso y la variable estatura. HA: Hay relacin entre la variable peso y la variable estatura.

Tabla de anlisis de varianza Fuente de Variacin Debido a la regresin error total 1 10 11 1061.1 145.2 1206.3 1061.1 14.5 73.08 Grados de libertad Suma de cuadrados Cuadrados medios estadstico F

Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hiptesis nula y aceptamos que la variable estatura est relacionada con la variable peso con un 95% de confianza.

De acuerdo al desarrollo matemtico hemos obtenido los siguientes clculos:

Lo que nos permite obtener los coeficientes a y b. Luego, b = 1223 / 1409.667 = 0.8676 a = 65.25 (0.8676) (162.167) = -75.446 6. INTERPRETACIN

La ecuacin de regresin estimada es:

Coeficiente de correlacin: R= 0.9379 Coeficiente de determinacin: R=0.8796 El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio, por cada centmetro de aumento en la estatura de los hombres adultos. El valor de a, no tiene interpretacin prctica en el ejemplo, se interpretara como el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0. Utilizando la ecuacin de regresin para estimar o predecir valores de la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg.

Cunto se espera que pese (en promedio) una persona que mide 1.60 m? Sustituyendo el valor de inters en la ecuacin:

Se obtiene:

7. CONCLUSIN La ecuacin de Regresin Lineal estimada para las variables estatura y peso muestran, de acuerdo a la prueba F, relacin. Esta relacin se ha estimado en un R = 93.7, que indica una fuerte relacin positiva. Adems si consideramos el coeficiente de determinacin R = 87.9 podemos indicar que el 87.9% de las variaciones que ocurren en el peso se explicaran por las variaciones en la variable estatura. MARA YSABEL RINCN PINO UNIVERSIDAD NACIONAL FEDERICO VILLARREAL MAESTRA EN SALUD REPRODUCTIVA CURSO ESTADSTICA LIMA PER 2005

Bibliografa www.uoc.edu/in3/emath/docs/RegresionLineal.pdf - Espaa

www.monografias.com Matematicas