Sunteți pe pagina 1din 6

Actividad

Parcial 1

Prueba Anova para datos médicos


Creado por: Santiago Neira y Diego Avendaño

1
Prueba Anova de un factor realizada a
datos del Centro para el control y
prevención de emfermedades de los
Estados Unidos

2
Base de datos
El centro para el control y prevención de emfermedades es una agencia del
departamento de salud y servicios humanos de los Estados Unidos cuya
responsabilidad a nivel nacional radica en el desarrollo y aplicación de acciones ante el
control, prevención de emfermedades, salud ambiental, y relación de actividades de
educación y promoción de salud.
La CDC tiene una base de datos online desde con información que abarca desde 1999
hasta 2017, esta información trata principalmente el número de personas con cancér
en diferentes categorías, y presenta opciones diversas para a visualización de datos
según los requerimientos del usuario, su página es (https://gis.cdc.gov).

Prueba Anova
Un análisis de varianza (ANOVA) prueba la hipótesis de que las medias de dos o más
poblaciones son iguales. Los ANOVA evalúan la importancia de uno o más factores al
comparar las medias de la variable de respuesta en los diferentes niveles de los
factores. La hipótesis nula establece que todas las medias de la población (medias de
los niveles de los factores) son iguales mientras que la hipótesis alternativa establece
que al menos una es diferente.

Los análisis ANOVA requieren:


Datos de poblaciones que sigan una distribución aproximadamente normal con
varianzas iguales entre los niveles de factores. Sin embargo, los procedimientos de
ANOVA funcionan bastante bien incluso cuando se viola el supuesto de normalidad, a
menos que una o más de las distribuciones sean muy asimétricas o si las varianzas son
bastante diferentes.

¿Cuándo se utiliza la prueba ANOVA?


 Con variables cuantitativas
 Si hay más de dos grupos de datos
 Se desea comparar medias

Es importante mencionar tres conceptos clave antes de incurrir en la aplicación de la


prueba ANOVA.

Grados de libertad: Los grados de libertad (GL) son la cantidad de información


suministrada por los datos que usted puede "gastar" para estimar los valores de

3
parámetros de población desconocidos y calcular la variabilidad de esas estimaciones.
Este valor se determina según el número de observaciones de la muestra y el número
de parámetros del modelo.
Valor F: en estadística es la medida de precisión que tiene una prueba. Se emplea en la
determinación de un valor único ponderado de la precisión y la exhaustividad.
Valor Critico: Un valor crítico es un punto en la distribución del estadístico de prueba
bajo la hipótesis nula que define un conjunto de valores que apoyan el rechazo de la
hipótesis nula. Este conjunto se denomina región crítica o de rechazo.
Tabla de distribución: Usada en teoría de probabilidad y estadística, la distribución F es
una distribución de probabilidad continua. También se le conoce como distribución F
de Snedecor (por George Snedecor) o como distribución F de Fisher-
Snedecor (por Ronald Fisher), puede obtenerse en
(https://drive.google.com/file/d/0B0HQjA3-vWRmV0dINHpwVkpacVk/view).
Nivel de significancia (α ) : El nivel de significación de una prueba estadística es un
concepto estadístico asociado a la verificación de una hipótesis. En pocas palabras, se
define como la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando
ésta es verdadera (decisión conocida como error de tipo I, o falso positivo).

Aplicación del método


 Agrupar los datos de cada población en una tabla
 Hacer la sumatoria, y la sumatoria de los cuadrados de los valores de los datos
para cada una de las poblaciones
 Calculamos los valores de los estadísticos:
2
2 2 2 ( ∑ x 1 +∑ x 2+ … ∑ xn )
SC Total=( ∑ x 1 +∑ x + …+ ∑ x n ) −
2
N
Donde x i es una de las N poblaciones, SC alude a la suma de cuadrados.
2
∑ x 12 ∑ x 22 ∑ xn2 ( ∑ x 1 +∑ x 2+ … ∑ xn )
SC Entre grupos= + +..+ −
n1 n2 nn N
Acá ni es la cantidad de elementos que posee cada grupo.
SC Intragrupos=SC Total−SC Entre grupos
Gl Total=N −1
Gl Entre grupos=r−1
Gl Intragrupos=N−r
Donde Gl son los grados de libertad según el caso, r es el número de poblaciones
o de grupos, que siempre es ¿ 2.
 Una vez se tienen los estadísticos, determinamos la media de cuadrados para

4
cada la suma de cuadrados Entre grupos, e Intragrupos dividiendo la Suma de
cuadrados entre sus correspondientes grados de libertad.
 Cuando la media de la suma de cuadrados Entre grupos es considerablemente
mayor que la media Intragrupos, las medias entre grupos diferirán de forma
confiable.
 Se determina el valor de F al dividir la media de los cuadrados Entre grupos
Med SC Entregrupos
sobre la media de cuadrados Intragrupos, F= Med SC Intragrupos .
 El Valor critico se halla por medio de la tabla de distribución F usando un α o
nivel de significancia de 0.05

Para las columnas se fija en


la que corresponde a los grados de libertad Entre grupos de los datos con que se esta
trabajando, y la fila corresponde a los grados de libertad Intragrupos, si no coincide
algunos de los valores, se hace una interpolación entre los valores que encierren los
grados de libertad con que se trabaja. Por ejemplo si los grads de libertad Entre grupos
es 3, se fija la columna 3, pero los grados de libertad Itragrupos es 57 el cual no aparece
en lasfilas, se debera promediar los valores para 40 y 60 según la tabla.
Interpolación: Para la situación, será el método por el cual determinaremos el valor
critico cuando no se corresponden los valores de los grados de libertad con los de la
X− X 1
[ ]
tabla de distribución, mediante la ecuación Y =Y 1+ X −X (Y 2−Y 1 ) , X 1 , X 2 son los límites
2 1

que encierran los el valor de los grados de libertad Entre grupos, y Y 1 ,Y 2los valores
correspondientes para X 1 , X 2según la tabla, y X es el valor de Gl no encontrado en la
tabla.

5
 Finalmente, si F> ¿ Valor crítico, se rechaza la hipótesis de nula de que todas las
medias son iguales.
Al Aplicarlo: Se tomaron datos de la cantidad de casos nuevos anuales de cáncer de
pulmón por millón de habitantes para tres estados diferentes de los Estados Unidos.
Pensilvania Utah Colorado N
casos x
Año casos x millón millón casos x millón 57
1999 815,326 236,444 417,651 r
2000 821,464 196,480 435,876 3
2001 840,802 222,445 456,200
2002 849,807 208,619 459,647
2003 841,316 230,919 450,678
2004 832,345 212,777 437,376
2005 859,117 227,854 430,710
2006 850,784 225,697 430,470
2007 863,662 212,107 458,381
2008 852,819 192,638 466,897
2009 855,461 230,225 452,315
2010 838,161 209,704 435,594
2011 844,594 233,458 433,444
2012 827,379 244,615 448,811
2013 842,633 215,326 432,788
2014 842,436 213,795 438,965
2015 853,841 220,285 430,476
2016 856,492 218,233 425,200
2017 854,466 216,556 430,563
Sumatoria 16042,905 4168,176 8372,041
Suma cuadrados 13549105,12 917506,109 3692264,005
Se aplico la prueba ANOVA y e obtuvieron los siguientes datos.
Grados de
Fuente de las variaciones Suma de Cuadrados libertad Media de los cuadrados F Valor Crítico
Entre grupos 3816207,577 2 1908103,789 10933,80313.286
Intragrupos 9423,766 54 174,5141904   
Total 3825631,344 56     

54−40
[
El valor critico de hallo a partir de la interpolación 3.286=3.23+ 60−40 (3.15−3.23) . ]
Por lo que la hipótesis nula es rechazada, y al menos una media es distinta, lo siguiente
seria plantearse ¿Por qué?.

S-ar putea să vă placă și