Documente Academic
Documente Profesional
Documente Cultură
Parcial 1
1
Prueba Anova de un factor realizada a
datos del Centro para el control y
prevención de emfermedades de los
Estados Unidos
2
Base de datos
El centro para el control y prevención de emfermedades es una agencia del
departamento de salud y servicios humanos de los Estados Unidos cuya
responsabilidad a nivel nacional radica en el desarrollo y aplicación de acciones ante el
control, prevención de emfermedades, salud ambiental, y relación de actividades de
educación y promoción de salud.
La CDC tiene una base de datos online desde con información que abarca desde 1999
hasta 2017, esta información trata principalmente el número de personas con cancér
en diferentes categorías, y presenta opciones diversas para a visualización de datos
según los requerimientos del usuario, su página es (https://gis.cdc.gov).
Prueba Anova
Un análisis de varianza (ANOVA) prueba la hipótesis de que las medias de dos o más
poblaciones son iguales. Los ANOVA evalúan la importancia de uno o más factores al
comparar las medias de la variable de respuesta en los diferentes niveles de los
factores. La hipótesis nula establece que todas las medias de la población (medias de
los niveles de los factores) son iguales mientras que la hipótesis alternativa establece
que al menos una es diferente.
3
parámetros de población desconocidos y calcular la variabilidad de esas estimaciones.
Este valor se determina según el número de observaciones de la muestra y el número
de parámetros del modelo.
Valor F: en estadística es la medida de precisión que tiene una prueba. Se emplea en la
determinación de un valor único ponderado de la precisión y la exhaustividad.
Valor Critico: Un valor crítico es un punto en la distribución del estadístico de prueba
bajo la hipótesis nula que define un conjunto de valores que apoyan el rechazo de la
hipótesis nula. Este conjunto se denomina región crítica o de rechazo.
Tabla de distribución: Usada en teoría de probabilidad y estadística, la distribución F es
una distribución de probabilidad continua. También se le conoce como distribución F
de Snedecor (por George Snedecor) o como distribución F de Fisher-
Snedecor (por Ronald Fisher), puede obtenerse en
(https://drive.google.com/file/d/0B0HQjA3-vWRmV0dINHpwVkpacVk/view).
Nivel de significancia (α ) : El nivel de significación de una prueba estadística es un
concepto estadístico asociado a la verificación de una hipótesis. En pocas palabras, se
define como la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando
ésta es verdadera (decisión conocida como error de tipo I, o falso positivo).
4
cada la suma de cuadrados Entre grupos, e Intragrupos dividiendo la Suma de
cuadrados entre sus correspondientes grados de libertad.
Cuando la media de la suma de cuadrados Entre grupos es considerablemente
mayor que la media Intragrupos, las medias entre grupos diferirán de forma
confiable.
Se determina el valor de F al dividir la media de los cuadrados Entre grupos
Med SC Entregrupos
sobre la media de cuadrados Intragrupos, F= Med SC Intragrupos .
El Valor critico se halla por medio de la tabla de distribución F usando un α o
nivel de significancia de 0.05
que encierran los el valor de los grados de libertad Entre grupos, y Y 1 ,Y 2los valores
correspondientes para X 1 , X 2según la tabla, y X es el valor de Gl no encontrado en la
tabla.
5
Finalmente, si F> ¿ Valor crítico, se rechaza la hipótesis de nula de que todas las
medias son iguales.
Al Aplicarlo: Se tomaron datos de la cantidad de casos nuevos anuales de cáncer de
pulmón por millón de habitantes para tres estados diferentes de los Estados Unidos.
Pensilvania Utah Colorado N
casos x
Año casos x millón millón casos x millón 57
1999 815,326 236,444 417,651 r
2000 821,464 196,480 435,876 3
2001 840,802 222,445 456,200
2002 849,807 208,619 459,647
2003 841,316 230,919 450,678
2004 832,345 212,777 437,376
2005 859,117 227,854 430,710
2006 850,784 225,697 430,470
2007 863,662 212,107 458,381
2008 852,819 192,638 466,897
2009 855,461 230,225 452,315
2010 838,161 209,704 435,594
2011 844,594 233,458 433,444
2012 827,379 244,615 448,811
2013 842,633 215,326 432,788
2014 842,436 213,795 438,965
2015 853,841 220,285 430,476
2016 856,492 218,233 425,200
2017 854,466 216,556 430,563
Sumatoria 16042,905 4168,176 8372,041
Suma cuadrados 13549105,12 917506,109 3692264,005
Se aplico la prueba ANOVA y e obtuvieron los siguientes datos.
Grados de
Fuente de las variaciones Suma de Cuadrados libertad Media de los cuadrados F Valor Crítico
Entre grupos 3816207,577 2 1908103,789 10933,80313.286
Intragrupos 9423,766 54 174,5141904
Total 3825631,344 56
54−40
[
El valor critico de hallo a partir de la interpolación 3.286=3.23+ 60−40 (3.15−3.23) . ]
Por lo que la hipótesis nula es rechazada, y al menos una media es distinta, lo siguiente
seria plantearse ¿Por qué?.