SPSS Fundamentos de Estadistica

FUNDAMENTOS DEL ANLISIS ESTADSTICO DE DATOS CON LA AYUDA DEL SPSS1 (Statistical Package for the Social Sciences)
UNIVERSIDAD DE ANTIOQUIA ESCUELA DE NUTRICIN Y DIETTICA MEDELLN, 2002
Diseado por Alejandro Estrada Restrepo

1
INTRODUCCIN La estadstica generalmente es considerada como la rama de las matemticas que se ocupa de reunir, organizar y analizar datos numricos y as mismo que ayuda a resolver problemas como el diseo de experimentos y la toma de decisiones. Pero en realidad, lo que se busca, no es simplemente cubrir un tema, sino hacer que a nuestros conocimientos se arraiguen las definiciones bsicas de lo que es la estadstica y que no simplemente quede all, en la teora, sino que aprendamos a aprovecharlo en nuestra vida cotidiana. Para tal fin tendremos entre otros el apoyo del SPSS. Este es un software que se utiliza para clculos estadsticos, aunque incluye un sin nmero de utilidades. Actualmente, la estadstica ha adquirido, de manera progresiva, una mayor relevancia en todos los sectores universitarios y, en general, en la sociedad. Es por ello, por lo que se pretende adquirir los conocimientos necesarios para comprender diversas tcnicas estadsticas y el uso de este paquete estadstico.
1. GENERALIDADES SPSS 102 SPSS es un potente sistema de anlisis estadstico y gestin de datos. Ofrece un rpido entorno de modelizacin visual que abarca desde lo ms simple hasta lo ms complejo para crear modelos de manera interactiva y realizar cambios utilizando tcnicas analticas probadas y acreditadas. La interfaz del entorno de ventanas proporciona una relacin con el sistema rpida y cmoda, pero internamente funciona mediante comandos. Para ejecutar SPSS se acceder al botn Inicio y desde all a Programas / SPSS for Windows / SPSS 10.0 para Windows. Aparece la presentacin del programa con el Editor de datos al fondo: A continuacin nos preguntar cmo queremos comenzar: ejecutando el tutorial, introduciendo datos nuevos, abriendo datos de disco, etc. Una vez hecho esto, nos dejar con el Editor de datos. Se pueden abrir varias sesiones de SPSS independientes para poder trabajar con diferentes ficheros de datos.
Existen dos formas de obtener datos en SPSS. La primera es la introduccin directa de los datos en las casillas que nos muestra el Editor de datos. Las columnas nos indican las variables que tenemos, y las filas los casos de las variables. Al introducir un dato en una casilla, se activa la variable de la columna donde nos encontremos y se define automticamente segn el tipo de dato que hayamos introducido. Si queremos definir las variables nosotros mismos, debemos seleccionar la Vista de variables donde podremos especificar su nombre, tipo, tamao y otros atributos.
Diseado por Alejandro Estrada Restrepo

3
La segunda forma de obtener datos es extrayndolos de un archivo de disco. ste puede ser de formato SPSS (*.sav); de formato Excel, Lotus, texto, etc.; o de formato de base de datos como Access, dBase, FoxPro, etc. Si los datos son nuevos o los hemos modificado es conveniente almacenarlos en disco a travs del men Archivo. Una vez tenemos los datos en el Editor de datos, debemos elegir un procedimiento en el men Analizar para poder obtener resultados. El sistema nos permite realizar informes, estadsticos descriptivos, tablas, correlaciones, anlisis de regresin, etc. Asimismo si deseamos un grfico descriptivo de los datos, elegiremos uno de los existentes en el men Grficos. ste puede ser normal o interactivo, en cuyo caso podremos modificar posteriormente las variables usadas y los parmetros del mismo. Ahora se nos solicita la seleccin de las variables que queremos usar en el procedimiento de anlisis o en el grfico. El cuadro de seleccin de variables es similar en todos los procedimientos: nos muestra una lista de todas las variables y una o varias casillas de destino donde debemos introducirlas para que el sistema pueda calcular los estadsticos o valores que precise para la presentacin de resultados. El ltimo paso es el examen de resultados en una nueva ventana llamada Visor. Esta ventana nos muestra dos paneles. El de la izquierda es el conjunto de los titulares de los elementos grficos situados en el panel de la derecha. Su apariencia y funcionamiento es similar al del explorador de Windows. El de la derecha muestra los elementos grficos, que pueden ser textos, tablas o grficos. Los resultados o elementos grficos que vayamos generando no se sustituyen, sino que se van acumulando en el visor donde les podremos dar formato para su posterior impresin, as como para su almacenamiento en disco. En el caso de los grficos interactivos podremos modificarlos directamente, sin necesidad de volver a generarlos de nuevo. En terminos generales en una sesin tipica con SPSS se puede trabajar con tres tipos de ventanas y tener la posibilidad de guardar los contenidas de cada una. El editor de datos, la cual es la primera ventana que usted encuentra, usada para definir y entrar sus datos y para ejecutar los procedimientos estadsticos. Los resultados de los procedimientos estadsticos aparecen en la ventana de resultados. La ventana de sintaxis puede ser usada para tener un registro de las operaciones que usted ejecuta con sus datos, esta ventana se abre automticamente cuando usted da clic en el botn pegar. As, por ejemplo cuando usted selecciona ciertos casos para el anlisis o transforma sus datos o calcula una correlacin, dando clic en el botn pegar, esta almacenara un registro de lo que fue ejecutado (en lenguaje de comandos). Mas all de servir como un registro para sus operaciones, es posible correr comandos desde la ventana sintaxis. Se puede guardar cualquiera de las ventanas. Una vez que tenga la ventana deseada activa, de clic en Save del men File. SPSS automticamente adiciona la extensin al nombre del archivo (.SAV para archivos del editor de datos; .SPO para archivos de resultados y .SPS para archivos de sintaxis) Por otro lado, la interfaz de SPSS incorpora una o varias barras de herramientas segn la ventana en la que nos encontremos. Estas barras contienen las funciones ms usadas en el trabajo usual para facilitar el acceso a ellas.
Si detenemos el puntero del ratn unos segundos sobre una de las herramientas (o botones) nos presentar un pequeo cuadro con una breve descripcin de la utilidad del mismo: Las barras, adems, son personalizables, pudiendo aadir o eliminar los botones que queramos as como moverlos; incluso permite cambiar de sitio la barra o borrarla completamente. A continuacin se realiza una breve descripcin de la barra de herramientas de la ventana de datos del SPSS. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Figura 2 1. El primer icono es: Abrir archivo, muestra la ventana Open File. Segn el tipo de ventana que est activa, se puede utilizar este icono para abrir un archivo de datos, de resultados, de sintaxis o uno de grficas. 2. Guardar archivo: Guarda el archivo de la ventana que est activa. Puede guardar el documento completo o las lneas de texto seleccionadas. 3. Imprimir archivo: Muestra la ventana de Imprimir para el tipo de documento que est en la ventana activa. En el caso de archivos de resultados, sintaxis y datos, puede imprimir el documento completo o un rea seleccionada. 4. Recuperar ventana. Muestra una lista de las ltimas ventanas abiertas (aunque no se hayan abierto en la misma sesin). 5. Deshacer escritura: Como el nombre lo dice deshace los datos incorporados y todo lo que respete a lo anterior. 6. Recorrer grficas. Este icono se utiliza para activar la ventana de grficos. 7. Ir a caso. Este icono se utiliza para desplazarse a un caso en el Editor de datos. 8. Informacin de variables. Muestra una ventana que contiene la lista de variables y la informacin de la variable seleccionada. Este icono tambin se utiliza para posicionar el cursor en dicha variable. 9. Busca: Busca lo deseado en la variable que usted halla seleccionado. 10. Insertar caso. En el Editor de datos, al pinchar en este icono se inserta un caso por encima del caso que contenga la celda activa. Tiene el mismo efecto que la seleccin de Insertar caso del men Datos. 11. Insertar variable. En el Editor de datos, al pinchar en este icono se inserta una variable a la izquierda de la variable que contenga la celda activa. Tiene el mismo efecto que la seleccin de Insertar variable del men Datos. 15. Etiquetas de valores. Conmuta entre los valores actuales y las etiquetas de valores en el Editor de datos. Tiene el mismo efecto que la seleccin de Etiquetas de valores del men til 16. Usar conjuntos. Aqu se puede seleccionar los conjuntos de variables que van a aparecer en las ventanas que se utilizan para realizar los anlisis estadsticos o transformaciones. Los conjuntos de variables que aparecen aqu son los que se crean seleccionando la opcin Definir conjuntos del men Util. Tiene el mismo efecto que la seleccin de Usar conjuntos del men til. Obtencin de datos La matriz que nos presenta el Editor de datos contiene todos las observaciones de las variables que necesitamos para poder realizar el anlisis estadstico. Cada columna representa una variable nica y cada fila un caso individual de cada variable. Para introducir datos basta con pinchar sobre una casilla y teclear el dato. Si donde tecleamos el dato la variable no est definida, SPSS asigna automticamente un
nombre de variable a la columna y la define con sus parmetros por defecto. Para la definicin de variables se debe pulsar la pestaa Vista de variables accederemos a una matriz similar a la de datos, pero en este caso contiene las variables definidas. Cada fila representa una variable y cada columna un parmetro o especificacin de esa variable. stos se asignan por defecto, pero podemos modificarlos a nuestra conveniencia. La lista de parmetros es: Nombre: Debemos introducir el nombre de la variable, de 8 caracteres como mximo, que pueden ser letras, nmeros o el smbolo de subrayado ( _ ). El primer carcter nicamente puede ser una letra, y no se hacen distinciones entre maysculas y minsculas. Tipo: A travs del botn que aparece al lado del tipo se accede a un panel donde seleccionar el tipo de variable: numrica, coma, fecha, moneda, cadena, etc., su anchura y los decimales (que tambin se pueden seleccionar mediante las columnas siguientes). Adems, dentro del tipo cadena debemos distinguir entre la corta Anchura : Nmero de caracteres o dgitos de la variable. Decimales: Nmero de decimales si la variable es de tipo contable (numrico, moneda, etc.). Etiqueta: Dada la imposibilidad de dar un nombre de variable mayor de 8 caracteres, se usan etiquetas para describir la variable de una forma ms clara. Aunque internamente se trabaje con los nombres de las variables, en la presentacin de resultados podremos utilizar las etiquetas. Valores: Permite asignar etiquetas a determinados valores de las variables. Por ejemplo, una variable numrica puede contener valores de los datos que sean: 0 si es mujer y 1 si es hombre, entonces asignamos a los valores 0 y 1 las etiquetas de valor mujer y hombre respectivamente. De esta forma cuando trabajemos con ellos, nos aparecer mujer y hombre en lugar de 0 y 1.
Perdidos: Nos permite definir los valores que se tratarn como perdidos. Hemos de distinguir entre los valores declarados por el sistema (ausencia de dato) y los valores declarados como perdidos por nosotros mismos. Columnas Es la anchura de la columna en la Vista de datos. Alineacin : Posicin del dato en la casilla en la Vista de datos. Medida: Permite especificar el nivel de medida como escala (datos numricos de una escala de intervalo o de razn), ordinal (representan categoras ordenadas) o nominal (representan categoras sin orden alguno). Esta especificacin slo se usa en procedimientos grficos. En general, es importante saber distinguir entre variable categrica y variable de escala. Una variable categrica es aquella que tiene un nmero limitado de valores o categoras distintas. Todas las variables de cadena y las variables numricas con etiquetas de valor definidas, o las variables numricas definidas como nominales u ordinales, se tratan como categricas. El resto se tratarn como de escala.
Introduccin de datos Cuando hayamos acabado de definir las variables pasaremos a la ventana de datos, haciendo clic sobre la pestaa inferior Vista de datos. El aspecto de esta ventana es el de una matriz de datos, es decir, una matriz de doble entrada donde las filas representan casos o individuos y las columnas variables. En nuestra ventana de datos figurarn las columnas correspondientes a las variables definidas. Los datos pueden introducirse en la ventana de datos, bien caso a caso (por filas) o bien variable a variable (por columnas). Si se introducen casos, ser necesario pulsar el tabulador tras escribir cada dato; si se introducen variables, pulsaremos la tecla de retorno <Enter> despus de cada dato. Al trmino del proceso de introduccin de
datos, la ventana de datos mostrar un aspecto similar al que se muestra en la pantalla siguiente.
Si nuestra sesin de trabajo finalizara aqu, deberamos salvar la definicin de variables y los datos introducidos para continuar en otro momento. Incluso aunque vayamos a seguir trabajando, puede ser conveniente salvar lo hecho hasta ahora en un fichero, de tal modo que podamos recuperarlo cuando sea preciso. Para realizar esta operacin, basta elegir en la barra de men la opcin Archivo y posteriormente Guardar o bien Guardar como... En ambos casos se nos pedir un nombre de fichero. Aunque no es imprescindible, conviene mantener para estos archivos la extensin .SAV que por defecto nos propone el programa. En una nueva sesin de trabajo, para recuperar el fichero de datos y variables ser necesario partir de la barra de men y seguir la secuencia de opciones Archivo, Abrir y Datos... Con ello accederamos a una ventana de dilogo, anloga a las que suelen mostrarse en los programas diseados para Windows, donde podremos seleccionar la unidad, la carpeta y el fichero que nos interesa abrir, que ser aquel en el que quedaron almacenados los datos y la correspondiente definicin de variables.
para efectos prcticos y sin desconocer la utilidad que prestan los dems mens del SPSS, se proceder a explicar el men Analizar, puesto que este resulta ser la columna vertebral del anlisis de datos mediante esta herramienta. En este men encontramos entonces: Dentro del men Analizar encontramos todos los procedimientos de anlisis estadstico (exceptuando los grficos) de SPSS. Informes Cubos OLAP (Procedimiento analtico interactivo). Crea una tabla con varias capas que contienen totales, medias y otros estadsticos univariados para variables de resumen continuas segn una o ms variables categricas de agrupacin. En la tabla se crear una nueva capa para cada categora de cada variable de agrupacin. Resmenes de casos Calcula estadsticos de subgrupo para las variables dentro de las categoras de una o ms variables de agrupacin. Se cruzan todos los niveles de las variables de agrupacin. Permite elegir el orden en el que se mostrarn los estadsticos. Tambin se muestran estadsticos de resumen para cada variable a travs de todas las categoras. Los valores de los datos en cada categora pueden mostrarse en una lista o suprimirse. Con grandes conjuntos de datos se pueden listar slo los primeros n casos. Informe de estadsticos en filas Genera informes en los cuales se presentan distintos estadsticos de resumen en filas. Tambin se encuentran disponibles listados de los casos, con o sin estadsticos de resumen. Estadsticos descriptivos Frecuencias Proporciona estadsticos y representaciones grficas tiles para describir o inspeccionar muchos tipos de variables. Los valores pueden organizarse en orden ascendente o descendente, y se pueden ordenar las categoras por sus frecuencias. Se puede suprimir el informe de frecuencias cuando una variable posee muchos valores diferentes, y permite etiquetar los grficos con las frecuencias o con los porcentajes. Descriptivos Muestra estadsticos de resumen para varias variables en una nica tabla y calcula valores tipificados (puntuaciones z). Las variables se pueden ordenar por el tamao de sus medias (en orden ascendente o descendente), alfabticamente o por el orden en el que se seleccionen (por defecto). Se pueden guardar las puntuaciones z, aadindose al Editor de datos, para su posterior utilizacin. Cuando las variables se registran en unidades de medida diferentes (que no tengan nada que ver), una transformacin de puntuacin z pondr las variables en una escala comn para una comparacin visual ms fcil. Explorar Genera estadsticos de resumen y representaciones grficas, bien para todos los casos o bien de forma separada para grupos de casos. Este procedimiento se puede usar para inspeccionar los datos, identificar valores atpicos o extremos, descubrir discontinuidades, obtener descripciones, comprobar supuestos y caracterizar diferencias entre subpoblaciones (grupos de casos), etc. La exploracin de los datos puede ayudar a determinar si son adecuadas las tcnicas de anlisis que se estn empleando.
9
Tablas de contingencia Crea tablas de clasificacin doble y mltiple, y adems proporciona una serie de pruebas y medidas de asociacin para las tablas de doble clasificacin. La estructura de la tabla y el hecho de que las categoras estn ordenadas o no determinan las pruebas o medidas que se utilizan. Los estadsticos de tablas de contingencia y las medidas de asociacin slo se calculan para las tablas de doble clasificacin. Si especifica una fila, una columna y un factor de capa (variable de control), se crear un panel de medidas y estadsticos asociados para cada valor del factor de capa (o una combinacin de valores para dos o ms variables de control). Tablas personalizadas Tablas bsicas Genera tablas que muestran estadsticos de clasificacin cruzada y de subgrupo. Las variables de resumen seleccionadas se resumen en las casillas definidas por las variables de subgrupo. Para todas las variables resumidas se emplean los mismos estadsticos (la media por defecto). Si no existen variables de resumen, se muestran los recuentos. Los nombres de las variables de resumen se muestran a lo largo de la parte izquierda de la tabla. Se pueden definir casillas para mostrar subgrupos de casos empleando las combinaciones: Hacia abajo de la pgina (como filas distintas). A travs de la pgina (como columnas distintas). La combinacin de Hacia abajo y A travs genera una presentacin en forma de tabla de contingencia. Repartidas en Tablas distintas. Las variables de esta lista subdividen la tabla en capas o en grupos de capas, de manera que slo puede verse una capa de la tabla cada vez.. Una vez en el Visor, para ver las otras capas se deben pivotar. Anidar significa que se muestran las categoras de una variable bajo cada una de las categoras de la variable anterior. La apilacin muestra las categoras de cada variable como un bloque; se puede entender como la extraccin de tablas diferentes y su unin en la misma presentacin. Tablas generales Genera tablas con estadsticos de clasificacin cruzada y de subgrupo. Se pueden generar tablas que muestren diferentes estadsticos para distintas variables, variables de respuestas mltiples, anidacin y apilacin mixta o totales complejos. En la mayora de las circunstancias es necesario seleccionar una variable de fila. Tambin se puede seleccionar una o ms variables para definir columnas o capas. Por ejemplo, para generar una tabla de contingencia simple debemos seleccionar una variable para definir las filas y otra para definir las columnas. Si tiene una variable de capa, tambin es necesario tener una variable de fila y una de columna.. Cada variable seleccionada se debe especificar si es de agrupacin para definir casillas o si es una variable de resumen. Tambin se pueden especificar diferentes estadsticos para cada variable. Si seleccionamos ms de una variable para una dimensin dada, deberemos especificar si deben estar apiladas o anidadas en la dimensin.. La mayora de las tablas que muestran los mismos estadsticos de resumen para cada variable se pueden obtener ms fcilmente utilizando el procedimiento Tablas bsicas o de respuestas mltiples. Se pueden mostrar los estadsticos (Las etiquetas de los estadsticos aparecen) en la parte superior (columnas), en el lateral (filas) o en capas separadas. Para cada variable seleccionada, se puede especificar si es de agrupacin o de resumen. Los estadsticos asociados a una variable que define casillas son los recuentos y porcentajes. La primera variable de resumen que se especifique definir la dimensin de resumen. Las palabras Dimensin resumen aparecern sobre la lista de variables para esa dimensin, por lo que no se podrn resumir variables en otra dimensin.. Los estadsticos seleccionados en la edicin de estadsticos se aplican slo a la variable seleccionada. La primera vez que se editen los estadsticos de una variable, se definir la dimensin de los estadsticos. Insertar total inserta una variable
10
de total despus de la variable seleccionada. No se puede obtener un total de otro total o de una variable que tiene un total anidado debajo de ella. Respuestas mltiples muestra una lista de los conjuntos de respuestas mltiples definidos y permite definir otros. Tablas de respuestas mltiples Crea tablas de frecuencia y de contingencia bsicas en las que una o ms variables es un conjunto de respuestas mltiples (si no, sera conveniente utilizar Tablas bsicas).. Si no seleccionamos la opcin Anidar para una dimensin, se producirn tablas separadas para cada variable pero conectadas fsicamente (concatenadas). Las restantes opciones son similares a las descritas anteriormente. Tablas de frecuencias Genera tablas especiales que contienen varias variables con los mismos valores. Por defecto, las variables forman columnas y las categoras filas (todas las variables de Frecuencias para deben tener las mismas categoras). Cada casilla muestra el nmero de casos en esa categora. Permite variables de subgrupo. Mediante Subgrupos se puede dividir la tabla en columnas dentro de cada tabla o en tablas diferentes (capas). Al dividirla se mostrarn todas las variables para cada subgrupo. Si hay diversas variables en una de las listas de la seccin Subgrupos, se puede elegir entre anidarlas o apilarlas (se crean las tablas por separado pero se unen en la presentacin). Comparar medias Medias Calcula medias de subgrupo y estadsticos univariados relacionados para variables dependientes dentro de las categoras de una o ms variables independientes. Pueden obtenerse el anlisis de varianza de un factor, la eta y pruebas de linealidad. Prueba T para una muestra Contrasta si la media de una sola variable difiere de una constante especificada. Prueba T para muestras independientes Compara las medias de dos grupos de casos. Los sujetos deben asignarse aleatoriamente a dos grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros factores. Cuando esto no es posible (por ejemplo comparando una variable entre hombres y mujeres ya que el sexo de una persona no se asigna aleatoriamente), debemos asegurarnos de que las diferencias en otros factores no enmascaren o resalten una diferencia significativa entre las medias (por ejemplo los estudios respecto al sexo). Prueba T para muestras relacionadas Compara las medias de dos variables de un solo grupo. Calcula las diferencias entre los valores de las dos variables de cada caso y contrasta si la media difiere de 0. ANOVA de un factor Genera un anlisis de varianza de un factor para una variable dependiente cuantitativa respecto a una nica variable de factor (la variable independiente). El anlisis de varianza se utiliza para contrastar la hiptesis de que varias medias son iguales. Esta tcnica es una extensin de la prueba t para dos muestras. Adems de determinar que existen diferencias entre las medias, es posible que se desee saber qu medias difieren. Existen dos tipos de contrastes para comparar medias: los contrastes a priori y las pruebas post hoc. Los contrastes a priori se plantean antes de ejecutar el experimento y las pruebas post hoc se realizan despus de haber llevado a cabo el experimento. Tambin se pueden contrastar las tendencias existentes a travs de las categoras.
11
Modelo lineal general Univariante Proporciona un anlisis de regresin y un anlisis de varianza para una variable dependiente mediante uno o ms factores o variables. Las variables de factor dividen la poblacin en grupos. Con este procedimiento se pueden contrastar hiptesis nulas sobre los efectos de otras variables en las medias de varias agrupaciones de una nica variable dependiente. Se pueden investigar las interacciones entre los factores as como los efectos de los factores individuales, algunos de los cuales pueden ser aleatorios. Adems, se pueden incluir los efectos de las covariables y las interacciones de covariables con los factores. Para el anlisis de regresin, las variables independientes (predictoras) se especifican como covariables. Se pueden contrastar tanto los modelos equilibrados como los no equilibrados. Se considera que un diseo est equilibrado si cada casilla del modelo contiene el mismo nmero de casos. Adems de contrastar hiptesis se generan estimaciones de los parmetros. Tambin se encuentran disponibles los contrastes de hiptesis de uso ms habitual. Adems, si una prueba F global ha mostrado cierta significacin, pueden emplearse las pruebas post hoc para evaluar las diferencias entre las medias especficas. Las medias marginales estimadas ofrecen estimaciones de valores de las medias pronosticados para las casillas del modelo; los grficos de perfil (grficos de interacciones) de estas medias permiten observar fcilmente algunas de estas relaciones. Multivariante Proporciona un anlisis de regresin y un anlisis de varianza para variables dependientes mltiples por una o ms covariables o variables de factor. Las variables de factor dividen la poblacin en grupos. Con este procedimiento es posible contrastar hiptesis nulas sobre los efectos de las variables de factor sobre las medias de varias agrupaciones de una distribucin conjunta de variables dependientes. En un modelo multivariado, las sumas de cuadrados debidas a los efectos del modelo y las sumas de cuadrados error se encuentran en forma de matriz en lugar de en la forma escalar del anlisis univariado. Estas matrices se denominan matrices SCPC (sumas de cuadrados y productos cruzados). Las pruebas de comparaciones mltiples post hoc se realizan por separado para cada variable dependiente. Tambin se hallan disponibles: una matriz SCPC residual, que es una matriz cuadrada de las sumas de cuadrados y los productos cruzados de los residuos; una matriz de covarianza residual, que es la matriz SCPC residual dividida por los grados de libertad de los residuos; y la matriz de correlaciones residual, que es la forma tipificada de la matriz de covarianza residual. El resto es similar al procedimiento anterior. Medidas repetidas Analiza grupos de variables dependientes relacionadas que representan diferentes medidas del mismo atributo. Permite definir uno o varios factores intrasujetos (no confundir con las variables existentes), donde cada factor constituye un nivel dentro del factor precedente. Si los sujetos se comparan en ms de una medida cada vez, hemos de seleccionar Medida para definirlas. El nombre de las medidas no existe como un nombre de variable en el propio archivo de datos sino que se define aqu. Correlaciones Bivariadas Calcula el coeficiente de correlacin de Pearson, la rho de Spearman y la tau-b de Kendall con sus niveles de significacin. Las correlaciones miden cmo estn relacionadas las variables o los rdenes de los rangos. Antes de calcular un coeficiente de correlacin, se deben inspeccionar los datos para detectar valores atpicos (que pueden producir resultados equvocos) y evidencias de una relacin lineal. Las correlaciones son medidas de asociacin lineal. Dos variables pueden estar perfectamente relacionadas, pero si la relacin no es lineal, el coeficiente de
12
correlacin no es un estadstico adecuado para medir su asociacin. Parciales Calcula los coeficientes de correlacin parcial, los cuales describen la relacin lineal existente entre dos variables mientras se controlan los efectos de una o ms variables adicionales. Regresin Lineal Estima los coeficientes de la ecuacin lineal, con una o ms variables independientes, que mejor prediga el valor de la variable dependiente. Logstica binaria Es til cuando se desea predecir la presencia o ausencia de una caracterstica o resultado segn los valores de un conjunto de variables predictoras. Es similar a un modelo de regresin lineal pero est adaptado para modelos en los que la variable dependiente es dicotmica. Los coeficientes pueden utilizarse para estimar la razn de las ventajas (odds ratio) de cada variable independiente del modelo. La regresin logstica se puede aplicar a un rango ms amplio de situaciones de investigacin que el anlisis discriminante. Se pueden estimar modelos utilizando la entrada en bloque de las variables o cualquiera de los siguientes mtodos por pasos: Condicional hacia adelante. LR hacia adelante. Wald hacia adelante. Condicional hacia atrs. LR hacia atrs. Wald hacia atrs. Logstica multinomial Resulta til si se desea clasificar a los sujetos segn los valores de un conjunto de variables predictoras. Este tipo de regresin es similar a la regresin logstica, pero ms general, ya que la variable dependiente no est restringida a dos categoras. Se ajusta un modelo logit multinomial para el modelo factorial completo o para un modelo especificado por el usuario. La estimacin de los parmetros se realiza a travs de un algoritmo iterativo de mxima verosimilitud. Escalamiento ptimo Cuantifica los datos categricos mediante la asignacin de valores numricos a las categoras, obtenindose una ecuacin de regresin lineal ptima para las variables transformadas. El anlisis de regresin lineal ordinario implica minimizar las diferencias de la suma de los cuadrados entre una variable de respuesta (la dependiente) y una combinacin ponderada de las variables predictoras (las independientes). Las variables son normalmente cuantitativas, con los datos categricos (nominales) recodificados como variables binarias o de contraste. Como resultado, las variables categricas sirven para separar grupos de casos y la tcnica estima conjuntos separados de parmetros para cada grupo. Los coeficientes estimados reflejan cmo los cambios en los predictores afectan a la respuesta. El pronstico de la respuesta es posible para cualquier combinacin de los valores predictores. Una aproximacin alternativa incluye la regresin de la respuesta respecto a los propios valores predictores categricos. Como consecuencia, se estima un coeficiente para cada variable. Sin embargo, para las variables categricas, los valores categricos son arbitrarios. La codificacin de las categoras de diferentes maneras proporciona diferentes coeficientes, dificultando las comparaciones entre los anlisis de las mismas variables. CATREG (regresin categrica mediante escalamiento ptimo) ampla la aproximacin tpica mediante un escalamiento de las variables nominales, ordinales y numricas simultneamente. El procedimiento cuantifica las variables categricas de manera que las cuantificaciones reflejen las caractersticas de las categoras originales. Adems, trata a las variables categricas cuantificadas como si fueran variables numricas. La utilizacin de transformaciones no lineales permite a las variables ser analizadas en
13
varios niveles para encontrar el modelo que ms se ajusta. Reduccin de datos Anlisis factorial Intenta identificar variables subyacentes, o factores, que expliquen la configuracin de las correlaciones dentro de un conjunto de variables observadas. Se suele utilizar en la reduccin de los datos para identificar un pequeo nmero de factores que explique la mayora de la varianza observada en un nmero mayor de variables manifiestas. Tambin puede utilizarse para generar hiptesis relacionadas con los mecanismos causales o para inspeccionar las variables para anlisis subsiguientes (por ejemplo, para identificar la colinealidad antes de realizar un anlisis de regresin lineal). Este procedimiento dispone de 7 mtodos de extraccin factorial; 5 mtodos de rotacin, entre ellos el oblimin directo y el promax para rotaciones no ortogonales; y 3 mtodos para calcular las puntuaciones factoriales, que pueden guardarse como variables para anlisis adicionales. Anlisis de correspondencias Describe las relaciones existentes entre dos variables nominales, recogidas en una tabla de correspondencias, sobre un espacio de pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las categoras de cada variable. Para cada variable, las distancias sobre un grfico entre los puntos de categoras reflejan las relaciones entre las categoras, con las categoras similares representadas prximas unas a otras. La proyeccin de los puntos de una variable sobre el vector desde el origen hasta un punto de categora de la otra variable describe la relacin entre ambas variables. El anlisis de las tablas de contingencia a menudo incluye examinar los perfiles de fila y de columna, as como contrastar la independencia a travs del estadstico de chicuadrado. Sin embargo, el nmero de perfiles puede ser bastante grande y la prueba de chi-cuadrado no revelar la estructura de la dependencia. El procedimiento Tablas de contingencia ofrece varias medidas y pruebas de asociacin pero no puede representar grficamente ninguna relacin entre las variables. El anlisis factorial es una tcnica tpica para describir las relaciones existentes entre variables en un espacio de pocas dimensiones. Sin embargo, requiere datos de intervalo y el nmero de observaciones debe ser cinco veces el nmero de variables. Por su parte, el anlisis de correspondencias asume que las variables son nominales y permite describir las relaciones entre las categoras de cada variable, as como la relacin entre las variables. Adems, el anlisis de correspondencias se puede utilizar para analizar cualquier tabla de medidas de correspondencia que sean positivas. Escalamiento ptimo La combinacin del nivel de medida y el nmero de conjunto seleccionado determina este procedimiento mediante mnimos cuadrados alternantes que realiza. Nivel de medida. Permite especificar el nivel correspondiente a las variables utilizadas en el anlisis: Todas las variables son nominales mltiples. Todas las variables tienen cuantificaciones de categoras que pueden diferir para cada dimensin. Alguna variable no es nominal mltiple. Una o ms variables se escalan a un nivel diferente del nominal mltiple. Otros niveles de escala posibles son: nominal simple, ordinal y numrica discreta. Nmero de conjuntos de variables. Permite especificar cuntos grupos de variables se van a comparar con otros grupos de variables: Un conjunto. Los datos contienen un grupo de variables. Mltiples conjuntos. Los datos contienen ms de un grupo de variables. Si se selecciona esta opcin, se elegir Correlacin cannica no-lineal (OVERALS). Anlisis seleccionado. Las opciones para Nivel de medida y Nmero de conjuntos de
14
variables deciden el anlisis segn las combinaciones. Anlisis de homogeneidad (HOMALS). Seleccionando Todas las variables son nominales mltiples y Un conjunto: Anlisis de componentes principales categricos (CATPCA). Seleccionando Alguna variable no es nominal mltiple y Un conjunto. Anlisis de correlacin cannica no lineal (OVERALS). Seleccionando Mltiples conjuntos. Pruebas no paramtricas Chi-cuadrado Tabula una variable en categoras y calcula un estadstico de chicuadrado. Esta prueba de bondad de ajuste compara las frecuencias observadas y esperadas en cada categora para contrastar si todas las categoras contienen la misma proporcin de valores o si cada categora contiene una proporcin de valores especificada por el usuario. Binomial Compara las frecuencias observadas de las dos categoras de una variable dicotmica con las frecuencias esperadas en una distribucin binomial con un parmetro de probabilidad especificado. Por defecto, el parmetro de probabilidad para ambos grupos es 0,5. Para cambiar las probabilidades, puede introducirse una proporcin de prueba para el primer grupo. La probabilidad del segundo grupo ser 1 menos la probabilidad especificada para el primer grupo. Rachas Contrasta si es aleatorio el orden de aparicin de dos valores de una variable. Una racha es una secuencia de observaciones similares. Una muestra con un nmero excesivamente grande o pequeo de rachas sugiere que la muestra no es aleatoria. K-S de 1 muestra La prueba de Kolmogorov-Smirnov para una muestra compara la funcin de distribucin acumulada observada de una variable con una distribucin terica determinada, que puede ser la normal, la uniforme, la de Poisson o la exponencial. La Z de Kolmogorov-Smirnov se calcula a partir de la diferencia mayor (en valor absoluto) entre las funciones de distribucin acumuladas terica y observada. Esta prueba de bondad de ajuste contrasta si las observaciones podran razonablemente proceder de la distribucin especificada. 2 muestras independientes Compara dos grupos de casos existentes en una variable. K muestras independientes Compara dos o ms grupos de casos respecto a una variable. 2 muestras relacionadas Compara las distribuciones de dos variables. K muestras relacionadas Compara las distribuciones de dos o ms variables. Series temporales Suavizado exponencial Suaviza componentes irregulares de datos de series temporales, para ello hace uso de una variedad de modelos que incorporan diferentes supuestos acerca de la tendencia y la estacionalidad. Seleccionando un modelo estacional y definiendo la periodicidad mediante Definir fechas, se puede seleccionar una variable que represente los factores estacionales. Los modelos difieren en los componentes estacionales y de tendencia. Se dispone de los modelos Simple, Holt, Winters y Personalizado.
15
Supervivencia Tablas de mortalidad Existen muchas situaciones en las se desea examinar la distribucin de un periodo entre dos eventos, como la duracin del empleo (tiempo transcurrido entre el contrato y el abandono de la empresa). Sin embargo, este tipo de datos suele incluir algunos casos para los que no se registra el segundo evento (censurados); por ejemplo, la gente que todava trabaja en la empresa al final del estudio. Las razones para que no se verifique el segundo evento pueden ser muy variadas: en algunos casos, el evento simplemente no tiene lugar antes de que finalice el estudio; en otros, el investigador puede haber perdido el seguimiento de su estado en algn momento anterior a que finalice el estudio; y existen adems casos que no pueden continuar por razones ajenas al estudio (como el caso en que un empleado caiga enfermo y se acoja a una baja laboral). Estos casos se conocen globalmente como casos censurados y hacen que el uso de tcnicas tradicionales como las pruebas t o la regresin lineal sea inapropiado para este tipo de estudio. Existe una tcnica estadstica til para este tipo de datos llamada tabla de mortalidad de seguimiento. La idea bsica de la tabla de mortalidad es subdividir el periodo de observacin en intervalos de tiempo ms pequeos. En cada intervalo, se utiliza toda la gente que se ha observado como mnimo durante ese periodo de tiempo para calcular la probabilidad de que un evento terminal tenga lugar dentro de ese intervalo. Las probabilidades estimadas para cada intervalo se utilizan para estimar la probabilidad global de que el evento tenga lugar en diferentes puntos temporales. Kaplan-Meier Es un mtodo de estimacin de modelos hasta el evento en presencia de casos censurados. Se basa en la estimacin de las probabilidades condicionales en cada punto temporal cuando tiene lugar un evento y en tomar el lmite del producto de esas probabilidades para estimar la tasa de supervivencia en cada punto temporal. Regresin de Cox Del mismo modo que los anteriores, la Regresin de Cox es un mtodo para crear modelos para datos de tiempos de espera hasta un evento con casos censurados presentes. Sin embargo, la regresin de Cox permite incluir en los modelos variables predictoras (covariables). Por ejemplo, permite construir un modelo de la duracin en el empleo como funcin del nivel educativo y de la categora laboral. Gestiona los casos censurados correctamente y proporciona las estimaciones de los coeficientes para cada una de las covariables, permitiendo evaluar el impacto de mltiples covariables en el mismo modelo. Adems, es posible utilizar este mtodo para examinar el efecto de covariables continuas. Cox con covariable dep. del tiempo Existen ciertas situaciones en las que interesa calcular un modelo de regresin de Cox, pero no se cumple el supuesto de tasas de impacto proporcionales. Es decir, que las tasas de impacto cambian con el tiempo: los valores de una (o de varias) de las covariables son diferentes en los distintos puntos del tiempo. En esos casos, es necesario utilizar un modelo de regresin de Cox extendido, que permita especificar covariables dependientes del tiempo (T_COV_). Con el fin de analizar dicho modelo, se debe definir primero una covariable dependiente del tiempo. Para facilitar esta tarea contamos con una variable del sistema, llamada T_, que representa el tiempo. Se utiliza para definir covariables dependientes del tiempo empleando dos mtodos generales: Para contrastar el supuesto de tasas de impacto proporcionales con respecto a una covariable particular, o para estimar un modelo de regresin de Cox extendido que permita impactos no proporcionales, se define la covariable dependiente del tiempo como una funcin de la variable de tiempo T_ y la covariable en cuestin. Algunas variables pueden tener valores distintos en periodos diferentes del tiempo, pero no estn sistemticamente relacionadas con el tiempo. En tales casos es
16
necesario definir una covariable dependiente del tiempo segmentada, lo cual puede llevarse a cabo a partir de un conjunto de medidas usando las expresiones lgicas (1:verdadero, 0:falso). Para las covariables dependientes del tiempo segmentadas, los casos en los que falte cualquiera de los valores quedarn eliminados del anlisis. Por tanto, todos los casos deben tener valores para todos los puntos del tiempo medidos en la covariable, incluso para los puntos del tiempo posteriores a la eliminacin del caso del conjunto bajo riesgo (ya sea por el evento o por la censura). Respuestas mltiples Definir conjuntos Agrupa variables elementales en conjuntos de categoras mltiples y de dicotomas mltiples, para los que se pueden obtener tablas de frecuencias y tablas de contingencia. Se pueden definir hasta 20 conjuntos de respuestas mltiples. Cada conjunto debe tener un nombre exclusivo. Las variables elementales se pueden codificar como dicotomas o categoras: Dicotomas. En Valor contado debe introducirse un entero. Cada variable que tenga al menos una aparicin del valor contado se convierte en una categora del conjunto de dicotomas mltiples. Categoras. Crear un conjunto de categoras mltiples con el mismo rango de valores que las variables que lo componen. Deben introducirse dos enteros como valores mximo y mnimo del rango para las categoras del conjunto de categoras mltiples. El procedimiento suma cada valor entero distinto en el rango inclusivo para todas las variables que lo componen. Las categoras vacas no se tabulan. A cada conjunto de respuestas mltiples se le debe asignar un nombre exclusivo de hasta 7 caracteres. El procedimiento coloca delante del nombre asignado un signo dlar ($).. El nombre del conjunto de respuestas mltiples slo se encuentra disponible para su uso en los procedimientos de respuestas mltiples. Frecuencias Produce tablas de frecuencias para conjuntos de respuestas mltiples. Es necesario definir previamente uno o ms conjuntos de respuestas mltiples. Para los conjuntos de dicotomas mltiples, los nombres de categoras que se muestran en los resultados proceden de etiquetas de variable definidas para variables elementales del grupo. Para los conjuntos de categoras mltiples, las etiquetas de categora proceden de las etiquetas de valor de la primera variable del grupo. Si las categoras perdidas para la primera variable estn presentes para otras variables del grupo, debe definirse una etiqueta de valor para las categoras perdidas. Los casos con Valores perdidos se excluyen en base a tabla por tabla. Un caso se considera perdido para un conjunto de dicotomas (o categoras mltiples) slo si ninguno de sus componentes contiene el valor (o tiene valores vlidos en el rango). Se pueden excluir los casos con valores perdidos en cualquier variable de la tabulacin del conjunto de dicotomas, o categoras, o ambas. Tablas de contingencia Presenta, en forma de tabla de contingencia, conjuntos de respuestas mltiples, variables elementales o una combinacin. Tambin permite obtener porcentajes de casilla basados en casos o respuestas, modificar la gestin de los valores perdidos u obtener tablas de contingencia emparejadas. Es necesario definir previamente uno o ms conjuntos de respuestas mltiples. Los nombres en los resultados se muestran de la misma forma que en el procedimiento anterior. Las etiquetas de categora por columnas se muestran en tres lneas, con un mximo de 8 caracteres por lnea. Para evitar la divisin de palabras, se pueden invertir los elementos de las filas y las columnas o volver a definir las etiquetas.
17
Por otro lado, el men Grficos permite realizar una gran cantidad de grficos orientados al anlisis de los datos. La primera opcin, Galera, no realiza un grfico en s, sino que nos traslada directamente a un tema de la ayuda que nos presenta una galera de grficos. La segunda opcin es la de grficos Interactivos. Con esta opcin se generan grficos que podrn ser modificados posteriormente, en cuanto a variables y elementos grficos, de forma mucho ms efectiva que los grficos normales. Sin embargo slo son convenientes cuando se trabaje con archivos de datos pequeos o subconjuntos de otros archivos mayores ya que los requerimientos de recursos son enormes. Las restantes opciones de este men son una lista de todos los grficos posibles (no interactivos). Posteriormente se podrn modificar, pero slo a nivel de formato y de una forma ms precaria.
Dentro de este men, encontramos la siguiente galera de grficos: Barras, Lneas, reas, Sectores, Mximos-mnimos, Pareto, Control, Diagramas de caja, Barras de error, Dispersin, Histograma, P-P, Q-Q, Secuencia, Curvas ROC, Serie temporal: Autocorrelaciones, Serie temporal: Correlaciones cruzadas, Serie temporal: Anlisis espectral. Una vez seleccionado uno de los tipos, pasamos a otra pantalla de ayuda que nos muestra los subtipos existentes. De cada subtipo nos presenta un ejemplo de lo que se puede hacer y de cmo hacerlo. Para la creacin de un grfico se nos muestra, generalmente, un cuadro de dilogo inicial de seleccin del grfico deseado. Esto es debido a que la mayora de tipos de grfico estn disponibles en varios subtipos y configuraciones. Ejemplo: Una vez elegido el grfico en cuestin, pasamos al cuadro de dilogo usual que aparece cuando realizamos un anlisis.
18
2. GENERALIDADES ESTADSTICA Se puede definir la estadstica de varias formas, podemos comenzar por una definicin de diccionario, el cual la define como "La ciencia que se ocupa de la coleccin, clasificacin, anlisis e interpretacin de hechos o datos numricos. En pocas palabras la Estadstica es la ciencia de los datos Existiendo igualmente diversas definiciones que se pueden encontrar en los libros de estadstica, de los cuales podemos traer a colacin 2 de ellas. La primera nos dice que "es un campo del estudio relacionado con la recopilacin, organizacin y resumen de los datos, adems de la obtencin de inferencias acerca de un conjunto de datos cuando solo se observa una parte de ellos" Wayne W. Daniel. Y la segunda nos la define como "un conjunto de mtodos y teoras desarrolladas para recolectar, describir, analizar e interpretar fenmenos y poder tomar decisiones racionales, los cuales estn sujetos a la incertidumbre, ya que la informacin de la cual se deriva la conclusin es incompleta" Abel Daz Cadavid et al. En este orden de ideas, la estadstica suele aplicarse a dos tipos de problemas: 1. Resumir, describir y explorar datos 2. Utilizar datos de muestra para inferir la naturaleza del conjunto de datos del que se escogi la muestra Es as como la rama de la estadstica que se dedica a la organizacin, sntesis y descripcin de conjuntos de datos es la estadstica descriptiva. Hay ocasiones en que el fenmeno de inters se caracteriza por un conjunto de datos cuya obtencin es o bien fsicamente imposible o requerira un gasto excesivo de dinero o de tiempo. En tales situaciones se muestrea el conjunto de datos y se utiliza la informacin de muestra para inferir la naturaleza del conjunto. De esta forma, la rama de la estadstica que utilizamos para resolver este problema es la estadstica inferencial. Es decir es la que nos permite inferir a partir de una muestra, algo acerca de una poblacin. LA INVESTIGACIN ESTADSTICA La estadstica es un conjunto de mtodos usados para obtener conocimientos. Realmente es parte integrante del mtodo general del conocimiento, establecido como mtodo cientfico. Se conocen 4 etapas en el proceso de solucin de un problema cientfico: Observacin, hiptesis, prediccin y verificacin. La estadstica trabaja especialmente con la primera y cuarta etapa. La prediccin va ligada a la lgica y conocimiento del fenmeno que se esta trabajando. Toda investigacin estadstica deber utilizar los siguientes pasos: Paso 1. Formulacin del Problema: El propsito de una investigacin es determinar el tipo de estudio que debe realizarse. En sntesis la especificacin del problema conllevar a trazar pautas y objetivos en el estudio.
19
Paso 2. Diseo de la Investigacin: Es necesario conocer si la investigacin es o no controlada. El control puede hacerse por experimentacin directa, donde el investigador controla y manipula los resultados que afectan las variables de inters. Un buen diseo debe acoger la mxima informacin y el mnimo error. Paso 3. Muestreo: Es la parte de la investigacin que se relaciona con la forma de obtener los datos de modo que sean aleatorios (provenientes del azar), significativos y confiables. Paso 4. Presentacin y Anlisis de los Datos: Una vez se tenga toda la informacin esta se condensa por medio de tablas, grficas, figuras, de modo que pueda ser publicada y entendida. Paso 5. Inferencia y Toma de Decisiones: Este es el paso ms importante. La inferencia estadstica se ocupa de la forma de tomar conclusiones o generalizaciones sobre una poblacin que ha sido examinada con base en una muestra extrada de ella.
Los anteriores pasos dan origen a diferentes ramas de la estadstica. Los mtodos estadsticos estudian estas ramas con las nombres de estadstica descriptiva, diseo de experimentos, muestreo probabilstico, inferencia estadstica y la teora de decisiones. CONCEPTOS BSICOS Bioestadstica: Cuando los datos que se estn analizando se obtienen de las ciencias biolgicas y de la medicina, se utiliza el trmino bioestadstica para diferenciar a esta aplicacin particular de herramientas y conceptos estadsticos. Poblacin: Se refiere al agregado o totalidad de unidades individuales acerca de las cuales se desea tener informacin. El mayor grupo de elementos por los cuales se tienen un cierto inters en un momento dado. Si una poblacin de valores consta de un nmero fijo de estos, se dice que la poblacin es finita. Por otra parte, si una poblacin consta de una sucesin sin fin de valores, dicha poblacin es infinita. Muestra: Es el subconjunto de datos seleccionados de una poblacin. Muestreo: Es el proceso de obtencin de datos de una poblacin o de varias realizaciones de un experimento. Variable: Son aquellas caractersticas o propiedades existentes en los elementos de la muestra o la poblacin. Parmetro: Son todas aquellas medidas que describen numricamente la caracterstica de una poblacin. Tambin se les denomina valor verdadero, ya que una caracterstica poblacional tendr un solo parmetro (media, varianza, etc). Sin embargo una poblacin puede tener varias caractersticas y, por tanto, varios parmetros. Estimador o estadgrafo: La descripcin numrica de una caracterstica correspondiente a los elementos de una muestra, se denomina estadgrafo. De una poblacin se pueden obtener M nmero de muestras posibles y en cada uno de ellas se puede cuantificar la caracterstica, obtenindose por lo general, valores diferentes para cada muestra, a pesar de ser utilizado el mismo estadgrafo o medida. Unidades Individuales: Las llamaremos unidades elementales o unidades de anlisis. Son aquellos elementos o unidades sobre los cuales se concentra el estudio, quienes suministran la informacin que luego va a ser analizada a fin de obtener conclusiones. Son aquellas que conforman la poblacin y/o la muestra.
20
Unidad de muestreo: Subconjunto mnimo en el cual se puede subdividir el universo para efectuar el proceso de toma de muestra. Es cada una de las unidades que conforman el marco de muestreo. Puede ser igual a la unidad de anlisis o estan integradas por dos o ms unidades de anlisis en cuyo recibe el nombre de conglomerado. Unidad de medida: Son las unidades en las cuales se intenta medir la variable Dato: Valor que se obtiene a partir de una unidad de anlisis. Medir: Es comparar con un patrn. Siendo el patrn una serie de caractersticas, cualidades que tienen los objetos o las diversas magnitudes asociadas con una escala numrica. Valor: Son los diversos atributos o diversas magnitudes de la medicin que caracterizan al sujeto observado. Encuesta: Es el proceso de obtencin de datos cuando no se tiene control sobre los agentes que afectan las caractersticas de la poblacin. Experimento Aleatorio: Es la informacin obtenida mediante un estudio al azar. Experimento Estadstico: Es la obtencin de la informacin acerca de una caracterstica de inters. VARIABLES ESTADISTICAS
Se llaman variables estadsticas aquellas propiedades o caractersticas de las unidades de anlisis cuya variacin se debe al azar. Las variables estadsticas deben tener las siguientes caractersticas o condiciones: Exhaustividad: Comprende todas las alternativas o respuestas frente a una situacin dada. Un solo criterio: Se debe relacionar estrictamente a la formulacin con la variable Discriminante: Todas las posibles alternativas de respuesta identifican claramente el comportamiento del fenmeno que se estudia. Naturaleza de las Variables Las variables pueden dividirse en variables cuantitativas y cualitativas. Los datos cuantitativos son aquellos que representan la cantidad de algo, medida en una escala numrica, por ejemplo, nmero de hijos, edad, peso, talla. Los datos cualitativos o categricos son aquellos que solo pueden clasificarse, estos no tienen una interpretacin cuantitativa, caractersticas tales como el color de los ojos, color del cabello, tipo de sangre, comportamiento psicolgico, no pueden medirse numricamente, sino tratadas descriptiva o cualitativamente. Estas caractersticas o propiedades reciben el nombre de atributos. Los atributos deben combinarse en forma de frecuencias de tal modo que puedan ser analizados estadsticamente. En muchas ocasiones los atributos pueden reemplazarse por valores numricos. Por ejemplo, en una mquina, condiciones ptimas de funcionamiento, condiciones leves de funcionamiento y falta de funcionamiento, pueden codificarse con los nmeros 1, 2 y 3, donde dichos nmeros representan el rango de funcionamiento y no magnitudes fsicas. Si lo que se desea es hacer comparaciones entre caractersticas, es necesario llevar las frecuencias a porcentajes.
21
Ejemplo: Los siguientes datos representan los requisitos del tipo de sangre de 200 cientficos. TIPO Frecuencia Porcentaje A B 80 20 Pasando a porcentajes tenemos: 45% 40% 10% O 90 AB 10 5% TOTAL 200 100.0%
Obsrvese que el tipo A es 4 veces ms frecuente que el tipo B. NOTA: No debe presentarse la tabla de porcentajes a no ser que est acompaada de los datos originales. Pues esto llevara a interpretaciones inverosmiles. Clasificacin de las Variables Segn Naturaleza Las variables cuantitativas se dividen en DISCRETAS y CONTINUAS. As, si la observacin de las caractersticas de inters exige la accin de medir, esta caracterstica es una variable continua, y el resultado de la medicin ser un nmero real. Ejemplo de variables continuas: estatura, peso, cantidad de liquido en un beaker, temperatura, tiempo. De otra forma si la observacin de la caracterstica de inters exige la accin de contar, esta caracterstica es una variable discreta, y el resultado del conteo es un nmero entero. Ejemplo de variables discretas: nmero de hijos por familia, nmero de accidentes por hora, nmero de pacientes que ingresan por da a un hospital, nmero de aos. Los datos pueden clasificarse en Univariados, Bivariados Multivariados. Los univariados son aquellos que se refieren a una sola variable. En algunos estudios es deseable observar dos propiedades o caractersticas diferentes en una misma unidad de anlisis, tales como el peso y la estatura en personas adultas, cada observacin consta de un par de nmeros y se dice que son datos bivariados. Simultneamente, la observacin de tres o ms propiedades en cada unidad de anlisis con el fin de estudiarlas conjuntamente, origina datos multivariados. Escalas de Medicin Las variables estadsticas pertenecen a una de las cuatro escalas siguientes de medida: Nominal, ordinal, de intervalo de razn. Escala Nominal: Es aquella en la cual los nmeros no representan magnitudes, sino categoras. Igualmente podramos decir, que son datos cualitativos con categoras que no pueden ordenarse de forma significativa. Si consideramos el sexo, este tiene dos categoras atributos: hombre mujer, si rotulamos 1 para hombre y 2 para mujer, entonces estamos aplicando la escala nominal. Escala Ordinal: Es aquella que tiene el orden de los nmeros, no as sus magnitudes. Igualmente se puede decir, son datos cualitativos, los cuales tienen un claro ordenamiento de los grupos del ms alto al ms bajo. Por ejemplo, la preferencia de 4 candidatos puede ordenarse de 1 a 4, en donde: 1 representara
22
el ms preferido y 4 el menos favorecido; grados de desnutricin, tipos de quemaduras. Escala de Intervalos: Los valores numricos asociados con esta escala son cuantitativos y por lo tanto permiten el uso de las operaciones aritmticas fundamentales. En esta escala se tiene en cuenta tanto la diferencia entre sus medidas como en su ordenacin. Exige un punto de referencia fijo (cero arbitrario) y una unidad de distancia para medir las diferencias. Debe entenderse que el cero arbitrario en ningn momento indica ausencia del atributo. Ejemplo: temperatura en grados centgrados, cociente de inteligencia, ndice apgar. Escala de Razn: Se aplica cuando son importantes el orden, la distancia y la razn entre dos medidas. Se utiliza un cero real (absoluto), siendo esta la nica diferencia con la escala anterior, este cero indica ausencia del atributo. As la caracterstica operativa de este nivel es la de que las razones establecidas con los valores de una variable guardan una correspondencia con las razones existentes entre las cantidades de la variable medida. Debe existir la unidad de medida como centmetros, metros, aos, das de estancia. DISTRIBUCIN DE FRECUENCIAS
Representacin de Datos
Los datos numricos provenientes de un experimento o encuesta, aparecen inicialmente en el orden en que fueron obtenidos. En un principio, disponemos de un extenso listado de datos que en si mismo ofrecen muy escasa informacin acerca de las caractersticas de inters que queremos conocer a travs de ellos. Ya sea que los datos representen una muestra o toda la poblacin, es necesario organizarlos, resumirlos y presentarlos en una forma apropiada para su anlisis e interpretacin. Existen bsicamente dos formas de presentar describir datos: mediante grficos y mediante tablas. La estadstica descriptiva se ocupa de todo aquello relacionado con el procesamiento de los datos originales para poner de manifiesto sus caractersticas esenciales, el propsito de llegar a conclusiones es una etapa posterior. Representacin Tabular de un Conjunto de Datos
La materia prima de toda investigacin estadstica es el conjunto de datos u observaciones que constituyen una muestra o poblacin completa. Este conjunto o serie de datos debe organizarse en alguna forma comprensible, de modo que pueda hacerse uso de ellos. La representacin ms usual es la tabular, o sea la tabla de frecuencias. Una tabla de frecuencias es un cuadro con ttulo y leyenda explicativa en el cual aparecen los datos en forma organizada y bien discriminada, incluyendo totales, frecuencias, porcentajes. Ejemplo: Se desea tener informacin sobre la presin sistlica por individuo en una regin de Colombia, se tomo una muestra de 40 personas obtenindose los siguientes resultados.
23
98, 120, 200, 122, 176, 123, 135, 102, 119, 110, 135, 124, 135, 128, 98, 135, 128, 122, 130, 136, 123, 124, 120, 135, 127, 120, 98, 111, 136, 128, 128, 185, 188, 120, 130, 135, 135, 138, 135, 102. No obstante que la muestra es relativamente pequea, este conjunto de datos as presentado, no ofrece una informacin clara al investigador. La siguiente tabla muestra estos mismos datos en forma ordenada, y se llama tabla de frecuencias , porque en ella aparecen las frecuencias con las cuales las personas presentaron una determinada presin sistlica. PRESIN SISTOLICA POR INDIVIDUOS EN UNA REGIN DE COLOMBIA Presin sistlica por individuo 98 102 110 111 119 120 122 123 124 127 128 130 135 136 138 176 185 188 200 Frecuencia Absoluta (ni) 3 2 1 1 1 4 2 2 2 1 4 2 8 2 1 1 1 1 1 Frecuencia Absoluta Acumulada (Ni) 3 5 6 7 8 12 14 16 18 19 23 25 33 35 36 37 38 39 40 Frecuencia Relativa (fi) 0.075 0.05 0.025 0.025 0.025 0.10 0.05 0.05 0.05 0.025 0.10 0.05 0.20 0.05 0.025 0.025 0.025 0.025 0.025 Frecuencia Relativa Acumulada (Fi) Fi * 100 7.5 12.5 15.0 17.5 20.0 30.0 35.0 40.0 45.0 47.5 57.5 62.5 82.5 87.5 90.0 92.5 95.0 97.5 100.0
Explicacin a la tabla anterior: Cada dato se presenta por Xi, as: , X19=200 X1=98 La frecuencia absoluta ni es el nmero de veces que se repite cada dato, as n2=2, indica que el dato 102 se repite 2 veces, con ni, i=1...19. La suma de frecuencias absolutas ni es igual al total de datos, esto es, datos diferentes
n = 40 = n, en general si se tienen K
i =1 i
n = n.
i =1 i
24
La frecuencia absoluta acumulada, Ni, es la suma de las i frecuencias absolutas anteriores, esto es, Ni =
n
j =1
, por ejemplo, N3=
n
j =1
=n1+n2+n3=3+2+1=6
La frecuencia relativa fi representa la proporcin de veces que ocurre el dato i-esimo con respecto al total, esto es, fi = ni/n*100 (usualmente se da en porcentajes). Por ejemplo f5 = n5/40*100 = 1/40*100=2.5%. Lo anterior significa que X5=119 representa un 2.5% de datos de la muestra. La frecuencia relativa acumulada Fi es la suma de las i frecuencias relativas anteriores, esto es, Fi =
F .
j =1 j
Por ejemplo F4 = F3 + F4 = 17.5, lo cual significa que los cuatro Ntese que
datos menores constituyen el 17.5% de la muestra. multiplicamos por 100% la cuarta columna,
F =
j =1 j
(si
F = 100
j =1 j
Representacin Grfica de un Conjunto de Datos
Los grficos tienen por finalidad dar una informacin general de un conjunto de datos. Se busca con ellos que el lector se forme una idea rpida y global del comportamiento de la caracterstica en estudio, ya sea en la muestra como en la poblacin. Un grfico no intenta mostrar informacin detallada, sino hechos sobresalientes de un conjunto de datos. Entre los grficos estadsticos ms comnes, mencionaremos los grficos de barras simples y compuestos, los grficos de sectores (tortas), los histogramas, los polgonos de frecuencias, los polgonos de frecuencias acumuladas u ojivas, los grficos de lneas, los grficos de barras dirigidos (pirmides), y los grficos de dispersin. Grfico de Barras Se usa para descripciones de conjunto de datos cualitativos, los cuales indican la frecuencia o frecuencia relativa correspondiente a cada categora, siendo la altura de la barra proporcional a la frecuencia o frecuencia relativa de la categora. Estas pueden ser simples o compuestas. Las simples son aquellas que muestran el comportamiento de una sola variable, mientras que las compuestas son aquellas que muestran el comportamiento de 2 o ms variables.
25
Distribucin Distribucin porcentual porcentual por por grupos grupos de de edad edad en en el el municipio municipio del Retiro Antioquia, 1998 del Retiro - Antioquia, 1998
Porcentaje 60 50 40 30 20 8,8 10 0 51,9
19,1 12,6 7,5
0-4
'5 - 14
15 - 44 Grupos de Edad
45 - 69
60 y Ms
Distribucin Distribucin de de lesiones lesiones en en las las manos manos segn segn sexo sexo en en un un estudio estudio sobre sobre salud salud ocupacional ocupacional
Porcentaje 100 78,1 80 60 60 40 40 21,8 20 0 No S
FEMENINO Sexo
MASCULINO
26
LUGAR DE OCURRENCIA DE LA DEFUNCION POR SEXO. MEDELLIN, 19871987-1996

70 60 50 40 30 20 10 0 H o s p ital o cln ic a Casa O tro lu g a r S in info rm a ci n
P orc e ntaje
S E XO
M u je r H o m b re
L u g ar d e la d efun c in
Grfico de Sectores (Torta) Se utilizan igualmente para variables de naturaleza cualitativa, y consiste en dividir un crculo completo (pastel) en tajadas, donde cada tajada corresponde a una categora. El ngulo central de cada rebanada es proporcional a la frecuencia relativa de esa categora. Permitiendo comparar parte con parte y partes con el total.
Localizacin Localizacin geogrfica geogrfica de de las las personas personas del del Municipio Municipio del del Retiro. Retiro. Antioquia, Antioquia, 1998 1998
Rural 59,4%
Urbana 40,6%
27
Grfico de Barras Horizontal Dirigido Es aquel que utiliza barras horizontales en lugar de verticales, esta dirigido porque el lado izquierdo del eje se usa para dibujar un conjunto de datos y el derecho para dibujar el otro.
DISTRIBUCION DISTRIBUCION PORCENTUAL PORCENTUAL DE DE LAS LAS LESIONES LESIONES OCULARES POR GRUPOS DE EDAD SEGUN OCULARES POR GRUPOS DE EDAD SEGUN SEXO. SEXO.
GRUPOS DE EDAD
HOMBRES HOMBRES
>50 >50 30 - 50 30 - 50 <30 <30 100 80 60 35 91 45 9 20
3 22
MUJERES MUJERES
82 55 15 22
40
20
20
40
60
80
100
GRAVES GRAVES
NO NOGRAVES GRAVES
Pirmide de Poblacin Este grfico es muy similar al de barras horizontal dirigido, solo que en este, en el lado derecho estarn las mujeres en grupos de edad quinquenales y en el lado izquierdo los hombres con igual composicin de edad.
Piramide Piramide poblacional poblacional por por edad edad y y sexo. sexo. Medelln, 1996 Medelln, 1996
3,7 70 y Ms 2,06 65 a 69 2,9 60 a 64 3,15 55 a 59 3,97 50 a 54 4,65 45 a 49 6,28 40 a 44 8,01 35 a 39 9,67 30 a 34 10,42 25 a 29 9,69 20 a 24 8,82 15 a 19 9,17 10 a 14 9,1 5a9 8,42 0a4 12 10 8 6 4 2 0 2 2,8 1,78 2,45 2,82 3,68 4,51 6,06 7,46 9,38 9,95 8,97 8,71 10,62 10,79 10 4 6 8 10 12 14
Mujeres
Hombres
Cronologa Cronologa de de la la atencin atencin de de salud salud en en Medelln Medelln 1986 1986 - 1996 1996
28
Histograma de Frecuencias Es un conjunto de rectngulos contiguos cuya base son los intervalos de clase sobre el eje horizontal y alturas iguales a las frecuencias absolutas o relativas asociadas a cada clase y sobre el eje vertical. El histograma es en esencia una grfica de barras en las que las categoras son clases. El histograma no nos dice como estn distribuidos los datos dentro de los intervalos, adems las apariencias de simetra deben ser aceptadas con cuidado. Este se aplica para variables de naturaleza cuantitativa y esta dada en intervalos de clase. Peso (en onzas) de los tumores malignos extirpados del abdomen de de las personas encuestadas. El Retiro, Antioquia. 1998
Polgono de Frecuencias Se aplica cuando la variable objeto de estudio es cuantitativa y esta dada en intervalos de clase. Se construye graficando las respectivas marcas de clase de cada intervalo. El polgono de frecuencias presenta una imagen ms real de los datos por cuanto los valores individuales en cada intervalo son gradualmente ms frecuentes a medida que se acercan al punto medio o marca de clase. Es usual "dibujarse" este sobre el histograma de frecuencias.
29
Peso (en onzas) de los tumores malignos extirpados del abdomen de de las personas encuestadas. El Retiro, Antioquia. 1998
Polgono de Frecuencias Acumuladas (Ojiva) Ac como su nombre lo indica lo que se grafica son las frecuencias acumuladas. Cuando los datos son continuos, la grfica tiene una forma tpica y ms o menos definida llamada comnmente Curva u Ojiva. Cuando los datos son discretos, la grfica tiene una forma escalonada y los saltos ocurren en los puntos donde la caracterstica asume sus respectivos valores. Distribucin acumulada del peso (en onzas) de los tumores malignos malignos extirpados del abdomen de las personas encuestadas. El Retiro, Antioquia. 1998
30
Grfica de Lneas Se utiliza para variables de naturaleza cuantitativa, y cuando estas son analizadas en funcin del tiempo y se pretende mostrar las variaciones de esta en el tiempo.
Nacimientos Nacimientos vivos. vivos. Medelln Medelln 1986 1986 - 1996 1996
37 36 35 34 33 32 31 30 1986 1987 1988 1989 1990 1991 Aos Nacimientos vivos
Cronologa Cronologa de de la la atencin atencin en en salud salud en en Medelln Medelln 1986 1986 -- 1996 1996
Miles
1992
1993
1994
1995
1996
Grfico de dispersin o Nube de puntos Utilizado para relacionar dos variables de naturaleza cuantitativa. Su uso es adecuado cuando se trata de establecer si existe asociacin entre dos variables tendiente a establecer un modelo de regresin que explique la relacin funcional de una variable que se llamara dependiente en funcin de otra que ser la independiente.
INGRESO EN FUNCIN DE LOS AOS DE ANTIGEDAD. ODONTLOGOS DE LA CIUDAD DE MEDELLN. 1999

1000
800
Ingresos en diez miles
600
400
200
0 -10 0 10 20 30 40
Aos de antiguedad
31
MEDIDAS DESCRIPTIVAS DE UNA MUESTRA Medidas de Tendencia Central
Son medidas que proporcionan informacin acerca de ciertos promedios o valores centrales de nuestros datos. Las ms usadas son: Media aritmtica, Media geomtrica, Media armnica, La mediana y La moda. Realmente estas dos ltimas medidas, en el sentido estricto de la estadstica son medidas de posicin. a). Media aritmtica: Es la suma de todos los datos dividida entre el total de ellos, esto es, si X1, X2,..., Xn son los datos, la media aritmtica, denotada X , esta dado por X =
Xi
i =1
Cuando hay datos repetidos, la media aritmtica puede calcularse as: X =
Xini
i =1
donde ni es la frecuencia absoluta del dato Xi, muchos la llaman media aritmtica ponderada. La media aritmtica tambin es llamada Promedio Aritmtico Simple, Valor Medio o simplemente Media. Ejemplo: Calcule la Media del conjunto de n = 5 determinaciones de muestra: 4, 6, 1, 2, 3; la aplicacin de la frmula X nos da:
X=
Xi
i =1
Ahora si hubiesen datos repetidos el desarrollo de frmula seria como sigue: Distribucin del tiempo de efecto de una droga en 20 pacientes Xi 15 20 25 30 Total ni 7 4 6 3 20 Xini 105 80 150 90 425
4 + 6 +1+ 2 + 3 = 3.2 5
X=
Xini
i =1
105 + 80 + 150 + 90 = 21.25 Min. 20
Interpretacin: En promedio el tiempo que tarda en hacer efecto la droga suministrada es de 21.25 minutos.
32
Ventajas: Fcil comprensin Rapidez de clculo Presenta estabilidad a las fluctuaciones al azar Desventajas: Dependiendo de la naturaleza de los datos y de la muestra puede ser poco confiable Es afectada por la presencia de valores extremos (ya sea pequeos o grandes), en tal situacin debe utilizarse otro tipo de promedio. b). Media Geomtrica: Se obtiene multiplicando todos los datos y luego se extrae la raz n-esima a tal producto, esto es, X1, X2, ..., Xn son los datos y n es el tamao de la muestra, entonces la media geomtrica, que denotaremos X g, esta dada por X g=
n
X 1, X 2,..., Xn , esta frmula es fcil de calcular cuando
n 3, n
N, si n 4 se debe usar la siguiente frmula: Se toma el logaritmo en Base 10 de cada uno de los datos Se suman los logaritmos de los datos dados en el paso anterior y se divide entre el total de los datos Se extrae el antilogaritmo a la expresin anterior, el resultado ser la media geomtrica
Simblicamente la frmula ser:
n LogXi X g= Antilog i =1 n
Ejemplo: Considrese los nmeros 5, 6, 9, 10, 15, 40, hallaremos la media aritmtica y la media geomtrica.
X =
Xi
i =1
5 + 6 + 9 + 10 + 15 + 40 = 14.16 6
n LogXi = 10.83 , as: X g= Antilog i =1 n

Log 5 = 0.6989 Log 10 = 1 Log 6 = 0.7781 Log 15 = 1.1760 Log 9 = 0.9542 Log 40 = 1.6020
33
0.6989 + 0.7781 + 0.9542 + 1 + 1.1760 + 1.6020 X g= Antilog = 10.83 6

Cabe recordar, que se deben sumar todos los logaritmos y se divide por el nmero de datos, para posteriormente extraer el antilogaritmo a dicho resultado. Nota: Si n 3 y alguno de los datos es cero X g = 0 Si n 4 y algn dato es negativo, no se puede hallar X g (Solucin imaginaria) La media geomtrica es muy til ya que esta no se encuentra influenciada por valores extremos, es esta la que debe usar cuando estos valores se detectan dentro de un conjunto de datos. Para efectos de calculo de esta medida a partir de cualquier programa estadstico y del Excel, su interpretacin es idntica a la media aritmtica. c). Media armnica: Es el recproco de la Media aritmtica o en otras palabras, el recproco de los trminos de la media aritmtica. Su frmula es: X armnica =
Xi
i =1
n ( Xi)1
Se usa generalmente cuando se van a promediar relaciones que son inversamente proporcionales, como lo es el tiempo con relacin a la velocidad. La magnitud de la media armnica es menor que la media aritmtica y geomtrica, de gran utilidad cuando la variable esta dada en forma de tasa. d). Mediana: Es el valor tal que al menos el 50% de los valores estn por encima de l y el otro 50% de los valores estn por debajo de este. Ocupa una posicin central en la serie cuando los datos estn ordenados. Si el nmero de datos es impar la mediana es el dato del centro. Si por el contrario el nmero de datos es par la mediana puede ser cualquier valor intermedio central. La mediana se denota con Me. Posicin de la Mediana:
n +1 2
Ejemplo: Dada una serie de datos, calcular la mediana 3, 2, 7, 4, 9, 15, 15, 14, 13, 12, 4, 5, 7, 9, 7, 11, 8, 9, 6, 5, 10 Posicin de la mediana:
n +1 21 + 1 = = 11 2 2
Luego de obtener la posicin de la mediana, el paso a seguir es ordenar los datos en orden ascendente y, la mediana ser el dato que ocupe la posicin nmero 11: 2, 3, 4, 4, 5, 5, 6, 7, 7, 7, 8, 9, 9, 9, 10, 11, 12, 13, 14, 15, 15
34
Dato 11: Me = 8 Para el clculo de la mediana con conjuntos pares de datos, trabajaremos con el ejemplo anterior, suprimiendo uno de los nmeros 15, hallar la mediana. Posicin de la mediana: Me =
7+8 = 7.5 2
n +1 20 + 1 = = 10.5 2 2
Interpretacin:
Supongamos que los datos anteriores son edades de un grupo de personas, la mediana se interpretara entonces de la siguiente manera: El 50% de las personas tienen edades inferiores o iguales a 7.5 aos, el otro 50% presentan edades superiores a esta.
Caractersticas de la Mediana: Es menos aplicada que el promedio Se requiere para su clculo ordenar los datos En series de datos poco simtricas con valores atpicos, esta es la medida ideal La mediana es realmente una medida de posicin Ventajas: No se deja influenciar por valores extremos Fcil de calcular Desventajas: Se aplica generalmente en datos agrupados e). Moda: Es el dato que presenta la frecuencia absoluta ms alta o mayor, se denota por Mo. Realmente al igual que la mediana es ms una medida de posicin. Si la frecuencia de los datos es unitaria se dice que no existe moda. Si existen dos datos que tienen las frecuencias ms altas, se dice que el conjunto de datos es Bimodal.
Ventajas: Es independiente de los valores extremos Es el dato ms descriptivo de la serie Desventajas: Puede no existir Medidas de Posicin (Datos sin agrupar)
Son valores que dividen la distribucin ordenada en cualquier nmero de partes. Veremos entonces Los Cuartiles, Deciles y Percentiles. a). Cuartiles: Son aquellos que dividen la distribucin ordenada en cuatro (4) partes iguales.
35
Primer Cuartil: Es el valor en el cual o por debajo del cual se encuentra el 25% de todos los valores de la serie. Se denotar con Q1. Posicin Q1 =
N +1 4
Segundo Cuartil: Es el valor en el cual o por debajo del cual se encuentra el 50% de los datos de la serie. Ocupa una posicin central, es igual a la mediana. Se denotar con Q2. Entonces, Q2 = Me. Posicin Q2 =
N +1 2
Tercer Cuartil: Es el valor en el cual o por debajo del cual se encuentra el 75% de todos los valores de la serie. Se denotar con Q3. Posicin Q3 =
3( N + 1) 4
Ejemplo: Si hacemos una observacin del tiempo transcurrido entre el contacto de un enfermo contagioso y la aparicin de la enfermedad, tenemos que los resultados son: 5, 5, 6, 6, 7, 8, 8, 8, 9, 10, 10, 11, 11, 12, 12, 13, 14, 15, 16, 17, 17, 18, 18, 20 das. A partir de estos datos hallaremos el Primer (Q1), Segundo (Q2) y Tercer (Q3) Cuartil. Primer cuartil (Q1): Posicin Q1 =
Para hallar el primer cuartil, debemos promediar los datos de los posiciones 6 y 7, as: Q1 =
24 + 1 = 6.25 4
Interpretacin: El 25% de las personas se contagian en un tiempo inferior o igual a los 8 das. Segundo cuartil (Q2): Posicin Q2 =
8+8 =8 2
Para hallar el segundo cuartil, debemos promediar los datos de los posiciones 12 y 13, as: Q2 = Me =
24 + 1 = 12.5 2
Interpretacin: El 50% de las personas en contacto con los enfermos, se contagian a lo ms en 11 das, el otro 50% estn por encima de este valor.
11 + 11 = 11 2
36
Tercer cuartil (Q3): Posicin Q3 =
Para hallar el tercer cuartil, debemos promediar los datos de los posiciones 18 y 19, as: Q3 =
3(24 + 1) = 18.75 4
Interpretacin: El 75% de las personas en contacto con los enfermos, adquirieron la enfermedad en a lo ms 15.5 das, el otro 25% se encuentran por encima de este valor. b). Deciles: Dividen la distribucin ordenada en 10 partes iguales. Por ejemplo, D1= Primer decil, es el valor en el cual o por debajo del cual se encuentra el 10% de todos los valores de la serie.
15 + 16 = 15.5 2
Posiciones de los deciles: D1 =
N +1 10 3( N + 1) 10
.......................... D9 =
D2 =
N +1 5
D3 =
9( N + 1) 10
Donde D1 es el primer decil y D9 es el noveno decil. Siguiendo con el ejemplo anterior, hallaremos los D1 y D9. D1 : Posicin =
24 + 1 = 2.5 10
Ahora, deberemos de promediar las posiciones 2 y 3, as:
5+6 = 5.5 2
Interpretacin: El 10% de las personas en contacto con los enfermos, se contagiaron en un periodo inferior o igual a 5.5 das. D9: Posicin =
9(24 + 1) = 22.5 10
as:
Ahora, deberemos de promediar los posiciones 22 y 23, c).
18 + 18 = 18 2
Percentiles: Dividen la distribucin ordenada en 100 partes iguales, as: Percentil uno (P1) Posicin P1 =
N +1 100
37
Posicin P99 =
99( N + 1) 100
Medidas de Dispersin (Datos sin agrupar)
La variabilidad de un conjunto de datos es tan importante como la tendencia a concentrarse en un valor particular. Los valores centrales por si solos, no describen adecuadamente un conjunto de datos. Son necesarias otras medidas para poder obtener informacin sobre la variabilidad o dispersin de los datos, esto es, medidas que indiquen que tan esparcidos o distanciados estn los datos con referencia a un valor particular. Estas medidas son: a). Rango: Diferencia existente entre el valor mximo y mnimo de la muestra. Tiene la gran desventaja de que solo toma en cuenta los valores extremos, olvidando los valores centrales de la serie de datos. Este se denotar con la letra R. Con el siguiente ejemplo se mostrar la importancia relativa del rango y como una sola medida de tendencia central y otra de posicin no dan informacin alguna (o si la dan es equivocada), al considerarlas como nicas fuentes de anlisis.
Los registros diarios de temperaturas en grados centgrados en las ciudades A y B durante la misma semana fueron. X A = 18 Me = 18 Ciudad A: 16, 16, 18, 17, 22, 19, 18 X B = 18 Me = 18 Ciudad B: 16, 12, 15, 18, 21, 25, 19 Obsrvese que en ambas ciudades los promedios de temperatura y las medianas son iguales, lo cual nos puede llevar a pensar errneamente, que existe gran similitud en la temperatura en ambas ciudades. Debe tenerse en cuenta que las medidas de tendencia central y las de posicin no nos dice nada sobre la variabilidad de los datos, los cuales en el ejemplo siguiente presentan tal caracterstica. Hallemos el rango para nuestros datos: RA= 22 - 16 = 6 RB= 25 - 12 = 13 Por lo tanto, podemos observar como el rango de temperatura en las ciudades es muy diferente, pues vemos como en la Ciudad B la temperatura es ms del doble que en la Ciudad A, existiendo entonces una gran variabilidad. b). Rango Intercuartil: Denotado por Q, esta dado por Q = Q3 - Q1, donde Q3 es el tercer cuartil y Q1 el primer cuartil. Da una idea de la variabilidad del 50% central, pero olvida los valores extremos. Rango Semi-intercuartil Desviacin Central: Se denota por Qd y esta dado por Qd =
c).
Q 3 Q1 , (es la mitad del rango intercuartilico) 2
No toma en consideracin todos los valores de la distribucin, ya que puede haber valores inferiores a Q1 o superiores a Q3, que estn muy dispersos.
38
Ejemplo: Los siguientes datos corresponden a una muestra de 40 familias sobre el nmero de hijos en una regin de Colombia. Nmero de hijos por familia 1 2 3 4 5 6 7 8 9 10 11 Se hallaran R, Q, Qd R = 11 - 1 = 10 Interpretacin: La diferencia entre el nmero mximo y mnimo de hijos en las familias es de 10 hijos. Q = Q3 - Q1 Q1 = Frecuencia 5 5 4 7 3 4 4 2 4 0 2
N +1 40 + 1 41 = = = 10.25 4 4 4 2+3 = 2.5 2
As se deben promediar las posiciones 10 y 11,
Ahora, Q3 - Q1 = 7 - 2.5 = 4.5 Interpretacin: Qd = La variabilidad en el 50% central de los datos es de 4.5 hijos.
3( N + 1) = 30.75 4 7+7 Q3 = =7 2
Q3 =
Q 3 Q1 4.5 = = 2.25 2 2
Interpretacin: Ms o menos la mitad de las familias tienen una desviacin con respecto al 50% central de 2.25 hijos
39
d).
Desviacin Media: Para que una medida sea indicativa de la variabilidad debe tenerse en cuenta todos los datos. La distancia de cada dato Xi con respecto a un valor (medida de tendencia central), se llama Desviacin error. Si tomamos como medida central la media aritmtica y sumamos los resultados obtenidos al hallar la distancia de cada dato con respecto a la media aritmtica la suma da cero. Esto es,
i =1
(Xi- X ) = 0, luego esto no representa una medida de dispersin.
Sin embargo si consideramos la suma de la desviacin de los datos con respecto a la media aritmtica en valor absoluto tenemos:
Desviacin Media (DM) =
Xi X
i =1
Ejemplo: Hallar la Desviacin media de los siguientes nmeros: 10, 12, 2, 9, 15, 6, 7, 8, 12, 9 La media de estos datos ser X = 9
DM =
Xi X
i =1
((10 9) + (12 3) + (2 9) + (9 9) + (15 9) + (6 9) + (7 9) + (8 9) + (12 9) + (9 9))

= 2.6; se debe tener en cuenta que son valores absolutos e). Varianza: Considera la posicin de cada observacin en relacin con la media de la muestra.
10
La varianza muestral esta dada por: f).
S2 =
( Xi X )
i =1
n 1
Desviacin Estndar tpica: Es la raz cuadrada de la varianza, esto es:
S=
( Xi X )
i =1
n 1
La desviacin tpica no es fcil de interpretar individualmente. Es muy significativo para comparar conjuntos de datos que tengan las mismas unidades de medida. La desviacin estndar tiene la ventaja de considerar todos los datos en su clculo. Se utiliza cuando en la serie de observaciones la medida central elegida es la media aritmtica.
40
g).
Coeficiente de Variacin: Mide la variabilidad de un conjunto de datos. Es utilizado bsicamente para comparaciones de muestras. No tiene unidades, esta dado por: CV =
S *100 (Se da en porcentaje) X
Coeficientes
Los coeficientes que veremos de Asimetra y Curtosis, se refieren a la forma geomtrica de la curva de frecuencias. Estos coeficientes se compararn con los de la distribucin normal, considerada la distribucin ms importante en la estadstica y cuya grfica es llamada la Campana de Gauss.
Coeficiente de Asimetra: Mide las desviaciones de nuestro conjunto de datos en sentido horizontal con respecto a la normal, esto es, nos dice si la distribucin de nuestros datos es asimtrica a la derecha, a la izquierda, o en el mejor de los casos simtrica.
El Coeficiente de Asimetra denotado por g1, esta dado por:
g1 =
( Xi X )
i =1
nS 3
tras desarrollar la frmula, el resultado de g1, nos indicar: Si g1 > 0, la curva es asimtrica a la derecha Si g1 < 0, la curva es asimtrica a la izquierda Si g1 =0, la curva es simtrica o normal Otra forma alternativa de hallar el coeficiente de asimetra se debe a Pearson, quien estableci que dicho coeficiente, puede hallarse utilizando la siguiente frmula: Cp =
3( X Me ) S
41
Este coeficiente tiene la ventaja de utilizar la mediana, la cual es resistente a la presencia de valores extremos. De all podemos decir que, una curva con asimetra entre -0.37 y +0.37 puede considerarse simtrica. Si dicho coeficiente es menor que 1 mayor que 1, la asimetra ser pronunciada. Para el ejemplo que se ha venido desarrollando, sobre las horas-obrero para realizar una tarea en especfico, tenemos: Cp =
3( X Me ) 3(117.8 117.5) = = 0.059 S 15.01
Interpretacin: Como CP se encuentra entre -0.37 y 0.37 existe simetra o normalidad en los datos Coeficiente de Curtosis: Este al igual que el coeficiente de asimetra, se refiere a la forma geomtrica de la curva de frecuencias. Mide las frecuencias en sentido vertical con respecto a la curva normal, esto es, nos dice si la curva es ms "puntiaguda" plana que la normal (grado de apuntamiento)
El coeficiente de curtosis se denota por g2 y esta dado por:
g2 =
( Xi X )
i =1
tras desarrollar la frmula, el resultado de g2, nos indicar: Si g2 < 3, la curva es platicurtica (Aplanada) Si g2 > 3, la curva es leptocurtica (Delgada) Si g2 = 3, la curva es mesocurtica (Normal) Una forma alternativa de hallar el coeficiente de curtosis, esta dado por: K=
nS 4
Q , donde 2(D 9 D1)
Q = Es el rango intercuartilico D9 = Es el noveno decil, y D1 = Es el primer decil El resultado obtenido con K, se comparar con 0.26, valor de la distribucin normal.
42
0.26 -
Si K < 0.26, la curva es platicurtica (Aplanada) Si K > 0.26, la curva es leptocurtica (Delgada) Si K = 0.26, la curva es mesocurtica (Normal)
Para el ejemplo que se ha venido desarrollando, sobre las horas-obrero para realizar una tarea en especfico, tenemos: K=
Q 23 = = 0.29 2(D 9 D1) 2(138 98.25)
Interpretacin: Como K > 0.26, esto es, 0.29 > 0.26, entonces la curva es leptocurtica (delgada). Notas a Tener Presente Sobre la Estadstica Descriptiva 1. Si una variable es de naturaleza cuantitativa, la representacin grfica ms apropiada para observar su comportamiento es el Histograma de Frecuencias 2. Cuando una variable es de naturaleza cuantitativa medida a nivel de razn, el indicador de tendencia central ms apropiado es la Media Aritmtica 3. Siempre las estadsticas de resumen deben expresarse en sus respectivas unidades de medida 4. La media aritmtica debe encontrase en el rango de variacin de los datos de la variable 5. Los cuartiles, deciles y percentiles, deben estar en el rango de distribucin de la variable 6. La nica estadstica de resumen que no lleva unidad de medida es el Coeficiente de Variacin 7. La Desviacin Estndar o Tpica siempre ser un nmero no negativo
43
9 9 .7 % 95%
- 3 - 2
+ 3
+ 2
En el intervalo se encuentra el 68.26% de los datos. En el intervalo 2 se encuentra el 95% de los datos. En 3 se encuentra el 99.72% Luego de realizar el abordaje por las generalidades de la estadstica descriptiva, se proceder a partir de una base de datos a ejemplificar la obtencin de estas medidas con la ayuda del SPSS, as como la generacin de tablas y grficos a partir de esta herramienta. Para ello se tomar una base de datos sobre factores de riesgo en personas hipertensas, investigacin realizada por la Facultad de Enfermera de la Universidad de Antioquia. Antes de obtener las estadsticas descriptivas propiamente dichas, es aconsejable realizar una exploracin de los datos, con el fin de poder ir detectando basura en los datos, datos ilgicos, atpicos o los datos faltantes dentro de las bases de datos, ademas de poder determinar si las variables cuantitativas siguen o no un comportamiento normal. Para realizar esto, se procede a explorar los datos en el men Analizar Estadsticas descriptivas Explorar..., con lo cual aparece el siguiente cuadro de dialogo:
44
En el cuadro de variable dependiente se debe de colocar la variable numrica, y si es necesario en la variable factor se puede colocar una variable cualitativa categrica para poder determinar el comportamiento de la variable dependiente de acuerdo a las categoras de la variable cualitativa. Luego, se debe de dar clic en el botn estadsticas, para determinar que medidas de resumen desea; y en el botn grficos se puede seleccionar el grfico con test de normalidad para determinar si la variable cuantitativa sigue un comportamiento normal, en su conjunto o por cada categora de la variable cualitativa. Una vez que pulse continuar y Aceptar, se mostraran en la ventana de resultados las estadsticas de resumen, las pruebas y los grficos de normalidad. Si no encuentran inconsistencias en los datos se puede proceder a realizar las estadsticas descriptivas de las variables. Para ello, se debe de ir a Analizar Estadsticas descriptivas Frecuencias..., en el cuadro que aparece:
45
Puede seleccionar la o las variables cuantitativas a ser resumidas, una vez que las halla pasado del cuadro de la izquierda al de la derecha, pulse en el botn estadsticas y en el cuadro que emerge seleccione las estadsticas de resumen que desee obtener, por ultimo en el botn grficos, puede seleccionar entre un grfico de barras simples, pastel o histograma segn la variable. Recuerde que si desea tener un registro de todas las operaciones que realice, para posteriormente no repetir los procesos puede Pegar los comandos en la ventana de sintaxis. Una vez hecho esto y de que halla pulsado aceptar, se abre la ventana de resultados con una salida como la siguiente:
46
Si se quisiera editar esta informacin, se pudiera hacer de forma muy simple, para ello pulse doble clic en el cuadro (ventana de resultados), con lo cual se activara el cuadro para poder ser pivotado (editado). Ahora, la diferencia entre esta orden (frecuencias...) y la orden descriptivas..., radica fundamentalmente en que la segunda no genera una tabla de frecuencias, adems de no generar algunas medidas de resumen como la mediana. Si adems de la tabla de frecuencias, se deseara crear un grfico para representar los datos, el procedimiento es como sigue: en el men grficos se debe seleccionar el tipo de grfico deseado, para efectos de ejemplificar se realizar un grfico de sectores. Luego de seleccionar en el men grficos la opcin Pie (sectores), aparece el siguiente cuadro de dialogo. En el debe seleccionar Resmenes para grupos de casos y dar clic en definir. Con lo cual emerge el cuadro de dialogo siguiente: En este debe definir como desea que se consoliden los daros si en valores absolutos o en porcentajes, posteriormente se debe pasar del lateral izquierdo la variable al cajn de la derecha rotulado con Definir sectores por:, para este caso se paso la variable sexo, luego dar clic en Aceptar y el grfico aparecer en la ventana de resultados.
47
Si se quisiera editar (pivotar) el grfico, se da doble clic en el (en la ventana de resultados), con lo cual se abre una ventana nueva llamada editor de grficos. All se podrn cambiar los colores, los textos, las lneas, dependiendo del tipo de grficos colocar efectos de tercera dimensin, entre otros. Para ello se cuenta con una barra de herramientas que facilita todas estas operaciones.
donde, 1. 2. 3. 4. 5. 6. Trama de relleno Color Tipo de marca o vieta Estilo de la lnea Estilo de la barra Estilo del rotulo de la barra 7. Estilo de la interpolacin 8. Texto 9. Rotacin 3-D 10. Invertir ejes 11. Sacar porcin 12. Romper lneas de valores perdidos 13. Opciones del grfico
3. REGRESIN Y CORRELACIN La existencia de algn grado de asociacin entre las variables nos dirn que estn correlacionadas. Se considerara una relacin funcional entre las variables X e Y, suponiendo que X toma valores asignados o controlados por el investigador e Y depende de X a traves de la relacin Y = F(x). Regresin Lineal Simple: El anlisis se regresin suele realizarse con la intencin de predecir el comportamiento de algn fenmeno. Se parte de una variable independiente (X), para predecir una variable dependiente (Y). Dichas variables en el anlisis de regresin y correlacin son cuantitativas.
48
La pregunta que surge entonces es como podemos establecer este tipo de dependencia?. Dado un valor X, es posible hallar el valor correspondiente de Y, mediante una ecuacin definida por Y = F(x), si la funcin es de la forma Y = + x , se trata de una regresin lineal. En la practica se cuenta como primer indicio para saber si existe alguna relacin lineal entre las variables es el anlisis del diagrama de dispersin o nube de puntos. Este consiste en una grfica donde se relacionan las puntuaciones de una muestra en dos variables, o dicho de otra forma, se obtiene graficando los pares (Xi, Yi) en los ejes cartesianos.
200
180
Tensin Arterial Sistlica
160
140
120
100 40 50 60 70 80 90 100
Peso en Kgs
Ntese que los valores de la presin sistlica aumentan a medida que aumenta el peso de las personas. La idea central de este tipo de grficos es que los diferentes puntos tiendan a colocarse sobre la lnea diagonal. Esta informacin as colocada permite pensar que las dos variables estn correlacionadas linealmente. Despus de observar la nube de puntos, se debe hallar la ecuacin de la recta que mejor se ajuste a los puntos o datos, O sea, que la que mejor represente la relacin existente entre las variables. Para hallar la ecuacin de la recta se utiliza el mtodo de los mnimos cuadrados. Debemos entonces asumir que la relacin entre X, Y, no es una relacin lineal perfecta ya que Y es aleatoria, cuyos valores reales son impredecibles. Las formas que pueden tomar este grfico son las siguientes:
49
b>0
b<0
Si b es > 0, o sea positivo, nos indica que hay una relacin entre las variables y que esta es positiva o directa; si por el contrario b es < 0, nos indica que la relacin es negativa o inversa; pero si b es igual a 0, nos indica que las dos variables estn incorrelacionadas, o sea que no existe asociacin entre X e Y.
b=0
0 X
El valor de Y puede expresarse como Y = + x + ei , donde y son parmetros desconocidos y ei es el error que se comete al querer expresar el valor de Y mediante una relacin lineal con X (error aleatorio). Esta ecuacin es el modelo poblacional, pero para que este modelo sea adecuado desde el punto de vista estadstico es necesario que se cumpla con las siguientes asunciones: a. Y es una variable aleatoria cuyo valor depende de X, y los valores de X estn controlados por el investigador b. Los errores son independientes y tienen una distribucin normal. El modelo de regresin lineal simple cuenta con los siguientes parmetros: a. El parmetro que representa el intercepto sobre el eje vertical, o sea, es el valor medio de Y cuando X vale 0. este valor no tiene interpretacin prctica sino en regresiones donde X puede tomar el valor 0 o valores cercanos a 0 b. El parmetro es la pendiente de la recta de regresin, y expresa en cuanto aumenta o disminuye Y por cada unidad de cambio en X El modelo muestral conocido como ecuacin de regresin muestral o ecuacin de
x = + regresin ajustada queda entonces y

Formulas para hallar y .
n n n n XiYi Xi Yi i =1 i =1 i =1
n X i
i =1
n Xi i =1
Estimador de la pendiente
50
Yi Xi
i =1 i =1
x = y
Estimador del intercepto
Correlacin Simple: Estudia la asociacin entre variable cuantitativas con el fin de dar medida de esta asociacin sin distinguir entre variables dependientes e independientes. Si solo participan dos variables la correlacin ser simple, si participan mas de 2 ser mltiple. Para medir la correlacin se utilizan varios coeficientes, utilizaremos el coeficiente de correlacin de pearson r (lease ro). Este coeficiente siempre esta entre 1 y 1, esto es, -1 r 1. si r > 0 y 1, diremos que la correlacin es positiva; si r es < 0 la correlacin es negativa; si r = 0 las variables estn incorrelacionadas. Formula para hallar r.
n n n n XiYi Xi Yi i =1 i =1 i =1 2 2 n n 2 n X 2 Yi Xi n Yi i i =1 i =1 1/ 2
r=
El coeficiente de correlacin no tiene una interpretacin mas directa en la regresin, pero su cuadrado r2, llamado el coeficiente de determinacin indica la variacin en Y debido a su relacin con X. En otras palabras, en cuanto explica X la variabilidad en Y porcentualmente. Por lo tanto r2 varia entre 0 y 1 entre 0 y 100%. Esta medida es importante para determinar la precisin en un modelo de regresin. Para el calculo de estos estimadores por medio del spss, se debe de seguir los siguientes pasos: 1. En analizar, dar clic en Regresin y all seleccionar Lineal
51
2. En el cuadro que aparece, colocar en dependiente, la variable dependiente (Y) y en independientes, colocar la variable independiente (X).
3. Posteriormente de clic en el botn estadsticas. En este se podr ajustar el modelo, obtener los coeficientes de regresin estimados, sus respectivos intervalos de confianza y el coeficiente de durbin-watson, este ltimo permite evaluar uno de los supuestos del modelo de regresin, el cual es que los errores sean incorrelacionados.
4. Una vez que se haya terminado el proceso de seleccionar las opciones adecuadas, de clic en aceptar, aparecer en la ventana de resultados la siguiente informacin:
52
b Model Summary
Model 1
R R Square ,561a ,315
Std. Error of the Estimate 16,20
Durbin-W atson 2,198
a. Predictors: (Constant), Peso en Kgs b. Dependent Variable: Tensin Arterial Sistlica
b ANOVA
Model 1
Regression Residual Total
Sum of Squares 7978,987 17329,881 25308,868
df 1 66 67
Mean Square 7978,987 262,574
F 30,388
Sig. ,000a
a. Predictors: (Constant), Peso en Kgs b. Dependent Variable: Tensin Arterial Sistlica
Coefficientsa Standardi zed Coefficien ts Beta ,561
Model 1
(Constant) Peso en Kgs
Unstandardized Coefficients B Std. Error 76,397 11,712 ,905 ,164
t 6,523 5,512
Sig. ,000 ,000
95% Confidence Interval for B Lower Bound Upper Bound 53,014 99,781 ,577 1,233
a. Dependent Variable: Tensin Arterial Sistlica
a Residuals Statistics
Predicted Value Residual Std. Predicted Value Std. Residual
Minimum 121,65 -36,99 -1,686 -2,283
Maximum 165,09 44,77 2,295 2,763
Mean 140,04 1,59E-14 ,000 ,000
Std. Deviation 10,91 16,08 1,000 ,993
N 68 68 68 68
a. Dependent Variable: Tensin Arterial Sistlica
Interpretacin: Al observar el resumen del modelo de regresin, se tiene que la presin arterial sistlica y el peso estn correlacionados, o sea existe asociacin entre las dos variables. Pero al obtener el coeficiente de determinacin (r2), se encuentra que el peso explica en muy poco la variabilidad existente en la presin arterial sistlica, puesto que el peso explica solo en un 31.5% la variabilidad existente en la presin arterial sistlica, el resto es explicado por otros factores (multicausalidad).
53
Para explicar la real relacin de la presin y el peso, se evalua la prueba de hiptesis para , en la cual las hiptesis constitutivas son: Ho: X e Y no estn relacionadas linealmente 1 = 0 Ha: X e Y estn relacionadas linealmente 1 0 Esta valoracin se logra a partir del anlisis de varianza. Para el ejemplo en cuestin, se observa que el valor P para 1 es 0.000, lo cual indica que el peso y la presin sistlica estn relacionadas linealmente. As mismo al observar el coeficiente de durbin-watson se puede determinar si los errores son correlacionados o no, si estos son correlacionados el modelo no es adecuado. Para dicho anlisis se toman valores de 2 cercanos a 2 para poder decidir. As, si durbin es 2 cercano indica que no hay evidencias significativas para afirmar que los errores son correlacionados. Las hiptesis para este coeficiente son: Ho: Los errores son independientes (No correlacionados) Ha: Los errores son dependientes (correlacionados) Para el ejemplo en cuestin, al ser el coeficiente de durbin de 2.198, cercano a 2, no existen evidencias significativas para rechazar Ho. Por ultimo al analizar los coeficientes , se observa como el valor P para 1 (Peso) es estadsticamente significativo, P=0.0000, lo cual indica que existen evidencias estadsticamente significas que el coeficiente 1 es diferente de 0, esto se corrobora al obtener los intervalos de confianza, los cuales no pasan por el cero. en caso que este supuesto no se cumpla, esto indica que el modelo no es el mas apropiado para expresar el comportamiento de la variable dependiente. presin sistlica a partir del peso es: y = 76.397 + 0.905 x , donde: 0 (76.397), indica que el valor medio de la presin es 76.397 cuando el peso es cero. Lo cual es ilgico, como se menciono en un apartado anterior de este capitulo, puesto que la variable peso no puede tomar valores de 0. 1 (0.905), indica que el valor estimado del coeficiente de regresin es 0.905, y se tiene una confianza del 95% de que ese valor se encuentra entre 0.577 y 1.233. este valor de la pendiente, indica adems que por cada kilogramo que aumente el peso de la persona, la presin sistlica aumentar en un 0.905. El modelo de regresin que surge entonces para predecir el comportamiento de la
54
4. MANEJO DEL SPSS En todo proceso investigativo resulta necesario realizar algunas operaciones con los datos, tales como seleccionar un conjunto especifico de datos, calcular valores a partir de otras variables, recodificar o reagrupar la informacin, ordenar y resumir la informacin. Este apartado se centrar en estos aspectos con el fin de poder manejar con mayor profundidad la herramienta SPSS. El primer paso es poder abrir bases de datos realizadas en otros programas como Excel, Dbase, entre otros. Para ello, se procede a ir al Men File Open Data. Posteriormente se abre el cuadro de dialogo Abrir, all podr seleccionar la carpeta (directorio) donde se encuentra el archivo en el cuadro combinado Buscar en:, en la opcin Tipo de archivos podr seleccionar el tipo de formato que tiene el archivo que desea abrir, por ultimo de clic en abrir. En algunas ocasiones cuando SPSS abre el archivo crea una variable nueva llamada d_r, esta variable puede ser borrara por el visor de variables.
Una vez abierta la base de datos, podr guardarla en la carpeta que usted desee, recuerde que para los nombres de las variables de spss, estas no podrn ser de mas de ocho caracteres, y debern ser en minsculas. Transformacin de los datos: Una vez introducidos los datos, podemos hacer ciertas transformaciones de los mismos con la finalidad de crear nuevas variables o recodificar valores para variables ya definidas. Revisaremos aqu las vas para la recodificacin y para la creacin de nuevas variables, en clculos realizados a partir de los mismos.
55
Para Calcular variables a partir de otras, proceda a realizar los siguientes pasos: 1. Elija Calcular del men Transformar
2. En el cuadro que aparece, de el nombre de la nueva variable a calcular en el lateral izquierdo (Target variable), puede ser el nombre de una nueva variable o el de una ya existente, si desea puede colocarle etiqueta y definirle tipo de datos en el botn Type & Label. En el recuadro de la derecha debe de colocar las variables y las constantes necesarias para calcular la nueva variable. Para construir la expresin en el recuadro de la derecha puede pegar las funciones de la lista de funciones y rellenar los parmetros, adems tenga presente que las constantes de texto o cadena deben estar entre comillas , y que para nuevas variables de cadena tambin deber seleccionar el tipo y la etiqueta para especificar el tipo de datos. As para calcular por ejemplo el ndice de masa corporal, en el lado izquierdo se nombrara la nueva variable como IMC, y en el panel derecho la expresin quedara as: (peso/(talla*talla)) Recodificacin de valores. Los valores de daos se pueden modificar mediante recodificacin. Esto es particularmente til para agrupar o combinar categoras. Se pueden recodificar los valores de variables existentes o crear nuevas variables basndose en los valores recodificados de variables existentes. Recodificar en la misma variable: Este proceso reasigna los valores de variables existentes o agrupa rangos de valores existentes en nuevos valores. Para recodificar los valores de una variable,
56
elija el men Into same variables del comando Recode del men Transform. Seleccione la(s) variable(s) que desea recodificar. Si se seleccionan mltiples variables, debern ser del mismo tipo (numricas o de cadena); pulse en valores antiguos o nuevos y especifique como recodificar los valores, en este cuadro de dialogo se pueden definir los valores que se van a recodificar. Todas las especificaciones de valores deben pertenecer al mismo tipo de datos que las variables seleccionadas en el cuadro de dialogo principal.
Valor antiguo: El valor o valores que se van a recodificar. Se pueden recodificar valores individuales, rangos de valores y valores perdidos. Valor nuevo: El valor individual en el que se recodifica cada valor antiguo o rango de valores. Se puede introducir un valor o asignar el valor perdido por el sistema. AntiguoNuevo: la lista de valores que se van a utilizar para recodificar la variable o variables. Se pueden aadir, modificar y borrar especificaciones de la lista Recodificar en distintas variables: Este proceso reasigna los valores de variables existentes o agrupa rangos de valores existentes en nuevos valores para una nueva variable. Para recodificar los valores de una variable, elija el men Into different variables del comando Recode del men Transform. Seleccione la(s) variable(s) que desea recodificar. Si se seleccionan mltiples variables, debern ser del mismo tipo (numricas o de cadena); introduzca el nombre de una nueva variable de los resultados para cada nueva variable (Output variable) y pulse en Cambiar; pulse en valores antiguos o nuevos y especifique como recodificar los valores, en este cuadro de dialogo se pueden definir los valores que se van a recodificar.
57
Una forma alternativa para reagrupar los valores de una variable es mediante la opcin de Categorize del men Transform. Esta forma de recategorizar es automticamente realizada por el SPSS, a partir del nmero de categoras definidos por el investigador. Para ello, del cuadro de la izquierda pase la variable para el de la derecha y en el cuadro Nmero de categoras (number categories) colocar el numero de categoras deseado. En trminos generales este tipo de categorizacin se obtiene a partir de los cuartiles, deciles o mediana. Seleccionar casos. Este proporciona varios mtodos para seleccionar un subgrupo de casos basados en los criterios que incluyen variables y expresiones complejas. Tambin se puede seleccionar una muestra aleatoria de casos. Los criterios usados para definir un subgrupo pueden incluir: Valores y rangos de variables, rangos de fechas, Numero de casos (filas), expresiones aritmticas, expresiones lgicas y funciones.
58
Para seleccionar los casos vaya al Men Datos Seleccionar casos..., seleccione uno de los mtodos de seleccin de casos y especifique los criterios para la seleccin de los mismos.
Puede filtrar o eliminar casos que no renen los criterios de seleccin. Los casos filtrado permanecen en el archivo de datos pero se excluyen del anlisis. SPSS crea una variable de filtro, filter_$, para indicar el estado del filtro. Los casos seleccionados tienen un valor de 1; los casos filtrados tienen un valor de 0. los casos filtrados tambin estn indicados con una barra transversal sobre el nmero de la fila en el editor de datos. Para desactivar el filtrado e incluir todos los casos en el anlisis seleccione todos los casos. Para seleccionar los casos por un criterio en especifico, por ejemplo para seleccionar el sexo femenino, debe seleccionar la opcin If condition is satisfied (si se satisface la condicin), y dar clic en el botn If. En el cuadro que aparece, del cuadro de la izquierda pasar la variable y colocar cual es el criterio, si el criterio es cadena o carcter, este debe de ir encomillado, si es numrico no; as para seleccionar a las mujeres en el cuadro de la derecha debe de aparecer algo similar a esto Sexo=Femenino, pero si las categoras estuviesen numricas y femenino fuera el uno, el criterio cambiaria a Sexo=1. la mayora de las expresiones condicionales utilizan uno o mas de los seis operadores relacionales (<, >, <=, >=, =, ) del teclado de la calculadora. Estas expresiones condicionales pueden incluir nombres de variables, constantes, operadores aritmticos, funciones numricas y otros variables lgicas y operadores relacionales. Si en vez de filtrar los datos, escoge eliminarlos, los registros que no cumplan la condicin se borraran, y si despus de haberlos eliminado, guarda los cambios en el archivo de datos de trabajo (con el mismo nombre), entonces no podr recuperar los casos eliminados.
59
Seleccionar casos: Muestra aleatoria. Este cuadro de dialogo le permite seleccionar una muestra aleatoria basndose en un porcentaje aproximado o en un nmero exacto de casos.
Aproximadamente: SPSS genera una muestra aleatoria con el porcentaje aproximado de casos especificado. Este porcentaje realmente resulta aproximado, y en algunos casos solo se acerca al porcentaje especificado. Exactamente: Un nmero de casos especificado por el usuario.
60
5. INFERENCIA ESTADSTICA La inferencia estadstica es el procedimiento por medio del cul, se llega a conclusiones acerca de las caractersticas de una poblacin mediante los resultados que se obtienen a partir de una muestra extrada de esa poblacin. La inferencia estadstica es entonces un proceso que nos permite emitir juicios probabilsticos sobre una poblacin cuando solo disponemos de la informacin parcial contenida en una muestra. La inferencia estadstica tiene metodologas confiables que permiten analizar si la muestra tiene las mismas caractersticas de la poblacin. Si esto ocurre podemos estimar por medio de una medida muestral (estadstico) un parmetro infiriendo sus resultados a la poblacin. Los procedimientos de inferencia estadstica permiten inferir respecto a las poblaciones muestreadas (siempre y cuando se hayan utilizado los mtodos de muestreo correctos). Slo cuando la poblacin objetivo (N) y la poblacin muestreada (n) son las mismas, se pueden utilizar los procedimientos de inferencia estadstica para llegar a conclusiones acerca de la poblacin objetivo (N). La inferencia estadstica se divide en dos problemas fundamentales: Estimacin de parmetros y pruebas de hiptesis estadsticas. A la vez, la teora de la estimacin se subdivide en estimacin puntual y estimacin por intervalos de confianza. ESTIMACIN DE PARAMETROS El problema de especificar el valor de un parmetro es un problema de estimacin puntual (hallar un nmero o un punto sobre la recta real). El problema de especificar la precisin de una estimacin es un problema de estimacin de intervalos de confianza. El problema de decidir si se acepta o se rechaza un valor dado del parmetro es un problema de pruebas de hiptesis. ESTIMACIN PUNTUAL
Es la escogencia de un estimador que proporcione un valor tan cerca como sea posible al valor esperado del parmetro. La situacin ideal seria disponer de un estadstico tal que su valor, para todas las muestras, fuese igual al valor del parmetro. Dicho estadstico no existe. Por lo tanto, la bsqueda de estadsticos debe orientarse hacia aquellos que proporcionen valores razonablemente cercanos al valor real del parmetro. Una estimacin puntual es una regla o frmula que nos dice como calcular una estimacin numrica con base en las determinaciones contenidas en una muestra. El nmero que resulta del clculo es una estimacin puntual. La estimacin puntual es la que se utiliz en la estadstica descriptiva, cuando calculamos las medidas (tendencia central, posicin y variacin).
61
Los parmetros que se estiman ms frecuentemente: P buen buen buen buen estimado es estimador es estimador es estimador es
S S
(media muestral) (varianza muestral) (desviacin muestral) (proporcin muestral)
ESTIMACIN POR INTERVALOS DE CONFIANZA
Un estimador de intervalo es una regla, casi siempre expresada como una frmula, que nos permite calcular dos puntos a partir de los datos de la muestra. El objetivo es formar un intervalo que contenga a el parmetro con un grado de confianza elevado. Una estimacin por intervalos de confianza consta de dos valores numricos que definen un intervalo que con un grado de confianza, se considera incluye el parmetro que se est estimando (,,P) Este coeficiente de confianza para un intervalo es la probabilidad (antes del muestreo) de que el intervalo aleatorio contenga el parmetro estimado. Es as como, si un intervalo de confianza tiene un coeficiente de confianza igual a 0.95, decimos que es un intervalo de confianza del 95%. Si el coeficiente de confianza es 0.99, decimos que el intervalo de confianza es del 99%. La confianza alta o probabilidad alta se escribe como 1 - y se denomina coeficiente, grado o nivel de confianza del intervalo. se denomina como grado de significacin. Las probabilidades o confianzas 1 - ms utilizadas son: 0.90 = 90% 0.95 = 95% 0.99 = 99% Una confianza del 95%, por ejemplo, significa que de cada 100 intervalos construidos a partir de 100 muestras diferentes, encontramos que 95 de ellos contienen el parmetro y los otros no lo contienen. En la prctica, no se tiene ms que una muestra, y el intervalo de confianza construido a partir de esa muestra contiene el valor del parmetro o no lo contiene. Como no es posible conocer cual alternativa es la correcta, se asume o se confa en que el intervalo se encuentra entre aquellos 95 que contienen el valor real del parmetro cada vez que se construyan 100 en las mismas condiciones. Teorema Central del Lmite La esencia del teorema central del lmite radica en que la X tiene una distribucin aproximadamente normal si el tamao de la muestra es grande. Sea X una variable aleatoria de una poblacin cualquiera con media y varianza 2 y sea X la media de la muestra de tamao n extrada de esa poblacin. Entonces la variable aleatoria Z =
n * ( X ) / tiene una distribucin que se aproxima a la normal estandarizada
cuando n tiende a infinito.
62
Se supone que la aproximacin es suficientemente buena cuando n 30. distribucin normal se le llama a veces distribucin Z. Intervalos de confianza para la media de una poblacin () a). Poblacin normal con varianza 2 desconocida
A la
La estimacin de la media poblacional por intervalos de confianza consiste en el clculo de dos lmites aleatorios a y b, tales que el evento a < < b tenga una probabilidad alta de ocurrencia. Para hallar a y b se debe razonar de la forma siguiente: si la poblacin es normal, la media muestral X tambin se distribuye como una normal. Normalmente el valor puntual X = (Media muestral es igual a media poblacional), pero no siempre el valor es exacto debido a errores en el muestreo o porque la poblacin y muestra tienen algunas diferencias. Por lo tanto hayamos con un grado de confianza de que (media real) est en un intervalo dado. Clculo del intervalo de confianza: X Z/2
Esta frmula cuenta con cuatro variables. Los valores de la X y n se obtienen a partir de la muestra. en algunas investigaciones es posible que se conozca el valor de . Nos queda por calcular el valor de Z/2. Este valor se obtiene de la tabla de la distribucin normal conociendo el valor de 1 - . Los valores de la curva normal estandarizada (Z) para cada grado de confianza son los siguientes: 1- Z 0.90 = 90% 1.645 0.95 = 95% 1.96 0.99 = 99% 2.58 Un intervalo dado me dice que se tiene un 100(1 - ) de confianza de que la media de la poblacin est entre (a y b) valores de la variable. b). Muestras grandes, cualquier poblacin y varianza 2 desconocida para cualquier poblacin normal o no normal sabemos por el teorema central del
n * ( X ) / tiene una distribucin aproximadamente lmite, que la variable Z = normal y la aproximacin es mejor a medida que crece n. En estadstica se considera que n es grande, para asumir normalidad, cuando n 30. Adems se presenta un problema adicional, y es el de que desconocemos el valor de , pero se puede estimar mediante S cuando la muestra es grande, ya que S es un estimador consistente para .
Es as como el clculo del intervalo de confianza sera:
S X Z/2 . n
63
c). Muestras pequeas, poblacin normal y varianza 2 desconocida hay ocasiones en que las restricciones de tiempo o costo pueden restringir el nmero de observaciones de muestra que se pueden obtener para estimar . En el caso de muestras pequeas n < 30, surgen dos problemas. El primero consiste en que el teorema central del lmite solo se aplica a muestras grandes, no se puede suponer que la distribucin de muestreo de X es aproximadamente normal; el segundo problema radica en que la desviacin estndar de la muestra S podra no ser una aproximacin satisfactoria a la desviacin estndar de la poblacin si el tamao de la muestra es pequeo. Para lo anteriormente planteado se pueden aplicar tcnicas de estimacin basadas en muestras pequeas si podemos suponer que la poblacin de la cual de seleccion la muestra tiene una distribucin normal aproximada. De esta forma para muestras
n * ( X ) / S no sigue una distribucin normal sino una pequeas el cociente T = distribucin t de student. As, la forma general de un intervalo de confianza de muestra pequea para con base en la distribucin t de student ser como sigue: S X t/2 ; donde la distribucin de t se basa en (n - 1) grados de libertad. n
Intervalos de confianza para la diferencia de medias (1-2) Un problema frecuente en estadstica es el de comparar dos muestras independientes obtenidas de la misma poblacin o de poblaciones diferentes. Por ejemplo dos procedimientos de produccin para la misma clase de articulo. De esta forma el intervalo del (1-)100% de confianza para la diferencia de medias 1 - 2 de las dos poblaciones ser: ( X 1- X 2) Z/2 *
12 / n1 + 22 / n2
2 2
En este punto debemos considerar varios casos dependiendo del conocimiento que tengamos de las varianzas 1 y 2 y de los tamaos muestrales n1 y n2. a). Varianzas desconocidas y n1 y n2 grandes
El intervalo ( X 1- X 2) Z/2 *
2 2
12 / n1 + 22 / n2 , es aplicable nicamente cuando se
conocen 1 y 2 lo cual ocurre en muy raras ocasiones. Si las varianzas poblaciones son desconocidas pero los tamaos muestrales son grandes (n1 30 y n2 30), podemos reemplazar 1 por S1 y 2 por apreciablemente la confiabilidad del intervalo.
2 2 2 2 S2 en el intervalo sin afectar
Si un intervalo de confianza contiene el cero, se puede concluir que las medias de las dos poblaciones son iguales. Si el intervalo es negativo, la media de la poblacin B es superior a la dieta de la poblacin A. Si el intervalo es positivo, la media de la poblacin A es superior a la media de la poblacin B.
64
b). Varianzas iguales pero desconocidas y n1 y n2 pequeas Este es el caso ms comn en las situaciones practicas. Con base en lo anterior tenemos que un intervalo para muestras pequeas debe calcularse a partir de la distribucin t de student, as: ( X 1- X 2) t1-/2 * Sp
1 / n1 + 1 / n2 ; donde Sp es igual a 2.
Aunque las varianzas sean diferentes, si las poblaciones son normales y n1 = n2, el intervalo anterior nos proporciona un resultado muy satisfactorio. De aqu que en el diseo de los experimentos debe tratarse, en lo posible, de tomar muestras de igual tamao. c). Varianzas desiguales desconocidas y muestras pequeas Cuando las muestras son pequeas y 1 2 , no existen intervalos exactos para estimar las diferencias de medias. En este caso se usan mtodos aproximados conocidos como "problema de Behrens-Fisher"y una de las soluciones ms seguidas es la sugerida por Smith y Satterthwaite, que consiste en calcular el intervalo de la siguiente forma:
2 2
( X 1- X 2) t1-/2 *
2 S12 / n1 + S 2 / n2 ; en donde el nmero de grados de libertad de la
variable t esta dado por:
g.l. =
(S
(S
2 1
2 1
2 / n1 + S 2 / n2
2 S2 / n1 / n2 + n1 1 n2 1
) (
2
En trminos generales la decisin que se tome con las pruebas de hiptesis debe ser la misma a la que se llegue con los intervalos de confianza. As, si en la diferencia de medias el intervalo de confianza es positivo en ambos limites, quiere decir que no pasa por cero, se puede decir que hay diferencias estadsticamente significativas y dicha diferencias son a favor de la poblacin 1, o sea que el promedio de la poblacin 1 es significativamente mayor que el de la poblacin 2; si por el contrario ambos limites son negativos y mayores de cero, existen diferencias estadsticamente significativas y dichas diferencias son a favor de la poblacin 2, o sea que el promedio de la poblacin 2 es significativamente mayor que el de la poblacin 1. si el intervalo contiene el cero se puede decir que no existen diferencias estadsticamente significativas, esto es, los promedios son iguales. Intervalos de confianza para la diferencia de medias en muestras pareadas En algunas ocasiones, la naturaleza del experimento producen muestras que resultan dependientes y en otros casos es necesario disear los experimentos de tal manera que las muestras sean dependientes. Por ejemplo, la reaccin de un sujeto antes y despus de ser sometido a un tratamiento. Aqu una muestra seria el antes y la otra el despus. Estas muestras son dependientes ya que es el mismo sujeto el que suministra cada par de datos. Para analizar la diferencia entre las medias de las dos poblaciones, cuando las muestras son dependientes, se calculan las diferencias di entre las observaciones pareadas y se asume que estas diferencias constituyen una muestra
65
de una poblacin aproximadamente normal. Entonces, el intervalo de (1-)100% para la diferencias de medias es: Para muestras grandes Para muestras pequeas
d Z/2
Sd n
d t1-/2
Sd n
donde t1-/2 se basa en (n - 1) grados de libertad; y d es la desviacin de diferencias de la poblacin Representamos con d1, d2, ..., dn las diferencias entre las observaciones por pares en una muestra aleatoria de n pares coincidentes, d = media de las n diferencias de muestra y Sd = desviacin estndar de las n diferencias de muestra. Si se desconoce d (como suele suceder), utilice Sd para aproximar d. Ejemplos: Ejemplo 1: Supngase que un investigador, interesado en obtener una estimacin de la edad promedio en cierta poblacin, toma una muestra de 10 individuos, indaga sobre la edad en aos de cada uno y calcula la media muestra X = 22 aos. Supngase que se sabe que la variable de inters presenta una distribucin aproximadamente normal con una varianza de 45. Calcular el intervalo para , con un grado de confianza del 95%. n= 10 media= 22 aos X Z1-/2 * 2= 45 Z/2=1.96
El intervalo es:
S 6.71 = 22 1.96 * = (17.84 ; 26.16) n 10
Es decir: 17.84 < < 26.16 Con una confianza del 95%, la edad promedio de las personas en la poblacin se encuentra entre 17.84 y 26.16 aos. Ejemplo 2: En un estudio de flujo de pacientes a travs de la oficina de grupos generales, se encontr que en promedio, una muestra de 35 personas llegaban 17.2 minutos tarde a las citas. Una investigacin previa haba demostrado que la desviacin estndar era de 8 minutos aproximadamente. Cual es el intervalo del 90% para la cantidad del tiempo promedio verdadera de llegadas tarde a las citas? n= 35 media= 17.2 minutos X Z1-/2 * = 8 minutos Z1-/2=1.64
El intervalo es:
S = 17.2 1.64 * n
8 = 35
(15 ; 19.4)
66
Es decir: 15 < < 19.4 Podemos decir con una confianza del 90% que la cantidad promedio de tiempo verdadera de llegada tarde a las citas en la poblacin esta entre 15 y 19.4 minutos. Intervalos de confianza para una proporcin P Se considerar ahora un mtodo para estimar la proporcin binomial P de xitos; es decir, la proporcin de elementos de una poblacin que tienen cierta caracterstica. Se originan de una poblacin bicategrica, dicotmica, binomial. Un candidato lgico como estimador puntual de la proporcin de la poblacin P es la proporcin de la muestra P =
que tiene la caracterstica de inters (es decir X es el nmero de xitos); n = tamao de muestra. Ac consideraremos muestras grandes (n 100)
X , donde X = nmero de observaciones de una muestra de tamao n
P *Q ; donde P es la proporcin en la muestra de n observaciones con la caracterstica de inters, Q = 1- P .

El intervalo es = P Z/2 Nota: Cuando n < 100, debe utilizarse la distribucin Binomial Ejemplo: Se tomo una muestra de 120 interruptores elctricos de un lote que fue despachado a un almacn de ventas al menudeo y se encontraron 10 defectuosos. Hallar un intervalo de confianza del 90% para estimar la proporcin de interruptores defectuosos en la fabricacin de estos aparatos.
P=
X = n
10 = 0.083 120
Z1-/2 = 1.64
Ahora el intervalo es: 0.041 < P < 0.124
0.083 1.64
0.083 * 0.917 = 0.083 1.64 (0.02518) 120
La proporcin de interruptores defectuosos en los lotes fabricados se encuentra entre un 4.1% y 12.4% con un 90% de confianza. Intervalos de confianza para la diferencia de proporciones P1-P2 Aqu se tratara el caso en que se quiera estimar la diferencia entre dos poblaciones binomiales. Por ejemplo se podra estar interesado en comparar la proporcin P1 de
67
artculos defectuosos producidos por la maquina 1 con la proporcin P2 de artculos defectuosos producidos por la maquina 2. Para estimar la diferencia (P1 - P2), donde P1 y P2 son parmetros binomiales; es decir, las probabilidades de xito en los experimentos binomiales independientes, consideraremos la siguiente frmula: (P -
P 2)
+ Z/2
p1q1 p2 q2 ; + n1 n2
donde
P 1 - P 2 son las proporciones de
observaciones con la caracterstica de inters en las muestras. Si un intervalo de confianza contiene el cero, se puede concluir que las proporciones de las dos poblaciones son iguales. Si el intervalo es negativo, la proporcin de la poblacin B es superior a la proporcin de la poblacin A. Si el intervalo es positivo, la proporcin de la poblacin A es superior a la proporcin de la poblacin B. Notas importantes:
El intervalo de confianza para la media () se calcula con el requisito de que la poblacin sea normal y tenga una varianza o desviacin estndar poblacional conocida. En caso de que no se conozca la desviacin poblacional desviacin muestral (x) () se podr utilizar la
Cuando se tiene dudas si la poblacin o variable estudiada siguen una distribucin normal y se tiene una n grande (n 30) podemos suponer que esta sigue una distribucin aproximadamente normal y podemos calcular el intervalo de confianza de la forma: X Z (1 - /2) x. Las poblaciones no normales con n pequea, siguen una distribucin T- de Student PRUEBAS DE HIPTESIS (DOCIMASIA)
Las pruebas de hiptesis, denominada tambin prueba de significacin tiene como objeto principal evaluar suposiciones o afirmaciones acerca de los valores estadsticos de la poblacin, denominados parmetros. La palabra docimar significa probar. Para tomar una decisin se hace ante todo plantear posibilidades acerca de la caracterstica o caractersticas a estudiar en una poblacin determinada. La suposicin puede ser cierta o falsa. Estas suposiciones se llaman hiptesis estadsticas. Las hiptesis estadsticas Ayudan al Investigador a tomar una decisin entorno a una poblacin, examinando una muestra de ella. Tipos de Hiptesis: 1. De Investigacin: Es la conjetura o suposicin que motiva a la investigacin. Puede ser el resultado de la experiencia del investigador a travs de varios aos de observacin.
68
2. Estadsticas: Establecidas de tal forma que puedan ser evaluadas a travs de tcnicas estadsticas apropiadas. Devienen directamente de las de investigacin. Las hiptesis pueden ser formuladas con el fin de rechazarlas de acuerdo con el anlisis estadstico. Esta clase de hiptesis se denomina hiptesis nula y se representa por Ho; estas son aquellas por medio de las cuales se hace una afirmacin sobre un parmetro que se va a constatar con el resultado muestral. Se tiene tambin la hiptesis alternativa representada por Ha; esta es toda aquella hiptesis que difiere de la hiptesis nula, es decir, ofrece una alternativa, afirmando que la hiptesis nula es falsa. Es as como, la teora que queremos apoyar (o detectar si es verdadera) por lo regular se escoge como hiptesis alternativa. Las hiptesis nula y alternativa se establecen de tal manera que sean mutuamente excluyentes y complementarias. Por lo tanto, cuando rechazamos la hiptesis nula estamos aceptando a la vez la hiptesis alternativa como verdadera y lo contrario. Generalmente, pero no siempre, la hiptesis alternativa es la misma hiptesis de investigacin y en el proceso de prueba se espera negar o rechazar la hiptesis nula de modo que se concluya la hiptesis alternativa o de investigacin. La decisin de aceptar o rechazar Ho depende de la informacin muestral. Como esta informacin proviene de un muestreo aleatorio no podemos tener una seguridad del ciento por ciento de que la decisin tomada es la correcta. En otras palabras, podramos equivocarnos, por ejemplo, rechazando Ho cuando en realidad esta es la hiptesis verdadera. Hay cuatro resultados posibles segn la decisin que se tome y el valor que tenga Ho, as: D E C I S I O N E S Si Si Si Si Ho Ho Ho Ho es es es es VERDADERA ACEPTAR RECHAZAR Decisin Correcta Error Tipo I FALSA Error Tipo II Decisin Correcta
verdadera y la aceptamos, tomamos la decisin correcta verdadera y la rechazamos, cometemos un error llamado error de tipo I falsa y la aceptamos, cometemos un error llamado error de tipo II falsa y la rechazamos, tomamos la decisin correcta.
La hiptesis estadstica es un supuesto concerniente a los parmetros o a la forma de distribucin de probabilidad correspondiente a una o ms poblaciones dadas. En otras palabras, se resume diciendo que corresponde a un enunciado acerca del valor estadstico (parmetro) poblacional.
69
Las hiptesis se debe formular en forma correcta o lgica y debe ser enunciada antes de obtener los datos muestrales. Son ejemplos de hiptesis estadsticas: El administrador de un hospital puede suponer que el promedio de das de estancia de los pacientes internados es de 5 das. El promedio de calificacin que tendrn los alumnos en un curso de estadstica ser superior a 4 El 5% de las unidades producidas por una mquina sern defectuosas Las pruebas de hiptesis se pueden dividir en unilaterales y bilaterales. Las unilaterales son aquellas en las cuales las zonas de rechazo o zona critica esta completamente comprendida en uno de los extremos de la distribucin. La prueba es unilateral a la derecha (de la curva); cuando la hiptesis alternativa de lo que se quiere probar hace mencin a valores mayores, superiores, o a situaciones mejores. Si por el contrario, la hiptesis alternativa se refiere a valores menores, inferiores, corresponder a una prueba unilateral a la izquierda. En el caso de que la prueba comprenda reas o zonas de rechazo en ambos extremos de la distribucin, se dice que la prueba es bilateral o sea que la hiptesis alternativa es diferente; por lo tanto se omiten los trminos: superior, mayor, mejor, inferior, menor, etc. 1. Ha, es una hiptesis bilateral o de dos colas. Ho: = o Ha: o
1-
Regin de Rechazo
/2
Regin de Aceptacin
Regin de Rechazo
/2
2. Ha, es una hiptesis unilateral o de una sola cola a la izquierda. Ho: o Ha: < o
1-
Regin de Rechazo
Regin de Aceptacin
3. Ha, es una hiptesis unilateral o de una sola cola a la derecha. Ho: o Ha: > o
1-
Regin de Aceptacin
Regin de Rechazo
Nota: El Smbolo representa el parmetro a estimar, puede ser (,,P)

70
Nivel de Significancia Se entiende por nivel de significancia, la mxima probabilidad de que se especifique, con el fin de hacer mnimo el primer tipo de error. Generalmente, se fija antes de escoger la muestra. El nivel de significancia se simboliza por siendo generalmente del 1%, 5% o 10%, pero se puede usar cualquier nivel, dependiendo del tipo de investigacin que se adelante. Existe la costumbre de trabajar con un nivel del 0.05 o sea del 5%, especialmente cuando el enunciado del problema no lo da. Cuando se trabaja con un nivel del 5%, el resultado es significativo; si se emplea el 1%, el resultado es altamente significativo, y si es del 10%, se considera poco significativo. El valor del nivel de significancia corresponde a un rea bajo la curva de probabilidad o normal, denominada regin critica o zona de rechazo. Se tendrn casos en que la regin critica este situada a la derecha de la curva y se dir que se trata de una prueba unilateral derecha. Si se sita a la izquierda ser una prueba unilateral izquierda. En caso de tener dos regiones criticas, se hablar de una prueba bilateral. En las pruebas unilaterales se tomara el valor total de alfa (); para las pruebas bilaterales alfa se dividir por dos. La regin no sombreada o no cubierta por el nivel de significancia, se denominara zona de aceptacin o de no rechazo. Procedimiento a Seguir en las Pruebas de Hiptesis El procedimiento a seguir dentro de toda prueba de hiptesis es el siguiente: 1. 2. 3. 4. 5. 6. 7. Formular la hiptesis nula y alternativa Seleccionar el nivel de significancia Conocer o estimar la varianza Determinar la tcnica y la prueba estadstica Determinar los valores crticos y sus regiones de rechazo Calcular los datos muestrales, utilizando las frmulas correspondientes Tomar la decisin estadstica.
1. Establecer las hiptesis: Ho: Hiptesis nula Ha: Hiptesis alternativa Ho: o Ha: < o Pruebas unilaterales a la izquierda Ho: = o Ha: o Pruebas bilaterales Ho: o Ha: > o Pruebas unilaterales a la derecha
2. Elegir el riesgo: = % Los niveles de significancia ms utilizados son: = 0.05 5% = 0.01 1% = 0.10 10%
71
3. Se establecen ciertos supuestos: a). La muestra es aleatoria b). La poblacin es normal c). La varianza poblacional es conocida (en la mayora de los casos como no se conoce es estimada) 4. Se formula la respectiva variante estadstica a). Distribucin de medias muestrales b). Distribucin de proporciones muestrales c). Distribucin de diferencias entre dos medias muestrales d). Distribuciones de diferencias entre dos proporciones muestrales 5. Formular los puntos crticos Al trabajar con un nivel de significancia del 5% de prueba bilateral, se tendr: Zs = 1.96 y Zi = -1.96 6. Descripcin de la regin critica: (Bilateral con un = 0.05) y asignar los valores de la variante estadstica, con el fin de obtener el valor de Z Zi 1.96 Zs 1.96 7. Adoptar una decisin, se acepta o se rechaza la hiptesis nula, al nivel de significancia dado. Como referente y sin perdida de generalidad, en salud pblica se acostumbra trabajar con frecuencia a un alfa del 0.05. la decisin en pruebas de hiptesis siempre se toma con relacin al valor de P, si este es menor que el alfa, se Rechaza Ho, si por el contrario P es mayor que el alfa se Acepta Ho. Pruebas de Hiptesis sobre la Media de una Poblacin (): Prueba de hiptesis con muestra grande (n 30) Prueba de los dos extremos Ho: = Ha: estadstico de prueba:
Prueba de un extremo Ho: = Ha: > ( Ha: < ) estadstico de prueba:
Z =
Y - o Y
Y - o S / n
Z =
Y - o Y
Y - o S / n
Regin de rechazo: Regin de rechazo: Z > Z/2 Z > Z ( o sea Z < -Z) Nota: o es el smbolo para el valor numrico particular especificado para en la hiptesis nula.
72
Prueba de hiptesis con muestra pequea (n < 30) Prueba de los dos extremos Ho: = Ha:
Prueba de un extremo Ho: = Ha: > ( Ha: < )
estadstico de prueba:
t = Regin de rechazo: t > t ( o sea t < -t)
Y - o S / n
Regin de rechazo: t > t/2
Nota: la distribucin t se basa en (n - 1) grados de libertad. La distribucin de frecuencia relativa de la poblacin de la que se seleccion la muestra es aproximadamente normal. Pruebas de Hiptesis sobre la Diferencia de Medias de dos Poblaciones (1 - 2). Muestras independientes Prueba de hiptesis con muestra grande (1 - 2) Prueba de los dos extremos Ho: (1 - 2) = Do Ha: (1 - 2) Do
Prueba de un extremo Ho: (1 - 2) = Do Ha: (1 - 2) > Do ( Ha: (1 - 2) < Do)
(Y1 - Y2) - Do (Y1-Y2)

Z = Regin de rechazo: Z > Z ( o sea Z < -Z)
(Y1 - Y2) - Do
S 12 S + n1 n
2 2 2
Regin de rechazo: Z > Z/2
Nota: Do es el smbolo para el valor numrico en particular especificado para (1 - 2) en la hiptesis nula. En muchas aplicaciones prcticas queremos hacer la hiptesis de que no hay diferencias entre las medias de la poblacin; en tales casos, Do = 0
73
En trminos generales la decisin que se tome con las pruebas de hiptesis debe ser la misma a la que se llegue con los intervalos de confianza. As, si en la diferencia de medias el intervalo de confianza es positivo en ambos limites, quiere decir que no pasa por cero, se puede decir que hay diferencias estadsticamente significativas y dicha diferencias son a favor de la poblacin 1, o sea que el promedio de la poblacin 1 es significativamente mayor que el de la poblacin 2; si por el contrario ambos limites son negativos y mayores de cero, existen diferencias estadsticamente significativas y dichas diferencias son a favor de la poblacin 2, o sea que el promedio de la poblacin 2 es significativamente mayor que el de la poblacin 1. si el intervalo contiene el cero se puede decir que no existen diferencias estadsticamente significativas, esto es, los promedios son iguales. Prueba de hiptesis con muestra pequea (1 - 2) Prueba de los dos extremos Ho: (1 - 2) = Do Ha: (1 - 2) Do
Estadstico de prueba:
(Y1 - Y2) - Do
Z = Regin de rechazo: t > t ( o sea t < -t)
1 2 1 Sp n + n 2 1
Regin de rechazo: t > t/2
Donde: S p =
(n1 1)S12 + (n2 1)S22 ;

n1 + n2 2
y la distribucin t se basa en
n1 + n2 - 2
Prueba de hiptesis sobre la diferencia de medias de dos poblaciones (1 2): Pares coincidentes Prueba de un extremo Ho: (1 - 2) = Do Ha: (1 - 2) > Do ( Ha: (1 - 2) < Do) Prueba de los dos extremos Ho: (1 - 2) = Do Ha: (1 - 2) Do
74
Z =
d / n
d - Do d - Do
Sd / n
Donde d y Sd representan la media y la desviacin estndar de la muestra de diferencias. Regin de rechazo: Regin de rechazo: Z > Z/2 Z > Z ( o sea Z < -Z) Nota: Do es nuestro smbolo para el valor numrico en particular especificado para (1 - 2) en Ho. En muchas aplicaciones prcticas queremos postular la hiptesis de que no hay diferencia entre las medias de poblacin; en tales casos, Do = 0 Prueba con muestra pequea (1 - 2): Pares coincidentes Prueba de los dos extremos Ho: (1 - 2) = Do Ha: (1 - 2) Do
t =
d / n
d - Do d - Do
Sd / n
Donde d y Sd representan la media y la desviacin estndar de la muestra de diferencias. Regin de rechazo: Regin de rechazo: t > t/2 t > t ( o sea t < -t) Donde la distribucin t se basa en (n-1) grados de libertad Nota: Do es nuestro smbolo para el valor numrico en particular especificado para (1 - 2) en Ho. En muchas aplicaciones prcticas queremos postular la hiptesis de que no hay diferencia entre las medias de poblacin; en tales casos, Do = 0
75
Pruebas de Hiptesis de la Proporcin de una Poblacin Prueba de hiptesis con muestra grande acerca de una proporcin de poblacin Prueba de los dos extremos Ho: p = po Ha: p po
Prueba de un extremo Ho: p = po Ha: p > po ( Ha: p < po)
^ p
Z = Donde qo = 1 - po Regin de rechazo: Z > Z ( o sea Z < -Z)
- po po qo / n
Pruebas de Hiptesis de la diferencia entre las Proporciones de dos Poblaciones Prueba de hiptesis con muestra grande relativas a (p1 - p2): independientes Prueba de los dos extremos Ho: (p1 - p2) = Do Ha: (p1 - p2) Do Muestras
Prueba de un extremo Ho: (p1 - p2) = Do Ha: (p1 - p2) > Do Ha: (p1 - p2) < Do
^ - p2) ^ - Do (p1
Z = Regin de rechazo: Z > Z ( o sea Z < -Z)
^ ^ (p 1 - p2)
76
Cuando Do 0
1q 1 p q p + 2 2 n1 n2 1 = 1 - p 1 y q 2 = 1 - p 2 donde q
(p1 - p2)
cuando Do = 0
(p1 - p2) p q n + n 2 1
= (y1 + y2) y p
donde el nmero total de xitos en la muestra combinada es
y1 + y2 n1 + n2
los tamaos de las muestras n1 y n2 son suficientemente grandes. En trminos generales la decisin que se tome con las pruebas de hiptesis debe ser la misma a la que se llegue con los intervalos de confianza. As, si en la diferencia de proporciones el intervalo de confianza es positivo en ambos limites, quiere decir que no pasa por cero, se puede decir que hay diferencias estadsticamente significativas y dicha diferencias son a favor de la poblacin 1, o sea que la proporcin de la poblacin 1 es significativamente mayor que la de la poblacin 2; si por el contrario ambos limites son negativos y mayores de cero, existen diferencias estadsticamente significativas y dichas diferencias son a favor de la poblacin 2, o sea que la proporcin de la poblacin 2 es significativamente mayor que la de la poblacin 1. si el intervalo contiene el cero se puede decir que no existen diferencias estadsticamente significativas, esto es, las proporciones son iguales.
77
VALOR P Es la probabilidad de que el estadstico de prueba adopte un valor al menos tan extremo como el valor observado cuando Ho es verdadera. Representa el nivel de significacin ms bajo al cul el valor observado del estadstico de prueba es significativo. En el caso de una prueba de una cola, cuya regin crtica se ubique completamente en la cola derecha de una distribucin normal estndar, el valor p es solamente el rea bajo la curva a la derecha del valor de Z calculado a partir de los datos disponibles. Mientas ms pequeo sea el valor de p, habr menor probabilidad de observar tal valor extremo y el resultado ser ms significativo. Por lo tanto, si p = 0.03 aparece en los resultados, el valor observado del estadstico de prueba es significativo para toda 0.03 y de esta forma ser ciertamente significativo al nivel 0.05 pero no al nivel 0.01. Ejemplo 1. Se plantea la siguiente hiptesis unilateral izquierda: Ho: 25 Ha: < 25 y = 0.05
z = Estadstico de prueba = -1.41, entonces
Valor P = P (Z < -1.41) = 0.0793 Como P > , se acepta Ho. Ejemplo 2. Se plantea la siguiente hiptesis unilateral derecha: Ho: = 70 Ha: > 70 y = 0.05
z = Estadstico de prueba = 2.02, entonces
Valor P = P (Z > 2.02) = 1 - P (Z 2.02) = 1 0.9783 = 0.0217 Como = 0.05 > Valor P, se rechaza Ho. Ejemplo 3: Se plantea la siguiente hiptesis bilateral. Ho: = 8 Ha: 8 = 0.01
y z = Estadstico de prueba = -2.83, entonces Valor P = P(Z > 2.83) = 2P(Z < -2.83) = 0.0046 Como Valor P < , se rechaza Ho.
78
Para el calculo de pruebas de hiptesis e intervalos de confianza con la ayuda del SPSS, se cuentan con algunas restricciones, esto en el sentido que algunos de estos clculos no se pueden realizar con esta herramienta, para ello se proceder a explicar su calculo con otro paquete como es el epidat, recordando que este paquete funciona como una calculadora estadstica, en la cual se deben de llevar los valores ya calculados y no se puede trabajar con las bases de datos en su totalidad, como si sucede con el SPSS. El abordaje que se realizar estar enfocado a los procesos que se puedan obtener en la herramienta SPSS, para ello se trabaja bsicamente con pruebas de hiptesis e intervalos de confianza para dos muestras independientes y dos muestras relacionadas (pareadas), adems de la prueba para una muestra. 1. Prueba para muestras independientes (Independent-sample T-test): Compara las medidas de una variable para dos poblaciones (dos grupos o dos categoras de una variable categrica). Se suministran estadsticos descriptivos para cada grupo, y una prueba de levene para igualdad de varianzas, as como valores t de varianza igual y desigual y un intervalo de confianza del 95% para la diferencia entre las medias Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente a los dos grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento (o falta del tratamiento) y no a otros factores. Antes de realizar la prueba se deben cumplir algunos supuestos como son el de normalidad y el varianzas iguales, para conocer si la variable distribuye normal se debe de seguir el siguiente proceso: Vaya a Analizar Estadsticas descriptivas Explorar, en el cuadro que aparece coloque en Lista de dependientes la variable cuantitativa a la que le desea corroborar el supuesto de normalidad, posteriormente de clic en el botn grficos (plots) y all chulee Grfico con test de normalidad (Normality plots with test), y por ultimo en el apartado de mostrar (display), puede seleccionar grfico (plots), estadsticas (statistics) o ambos (both), preferiblemente seleccionar ambos, y dar clic en Aceptar.
79
Con ello en la ventana de resultados aparecern algunos datos, pero para efectos del supuesto de normalidad nos interesa nicamente el test de normalidad:
Tests of Normality Kolmogorov-Smirnov Statistic df Sig. ,096 70 ,177
a
Edad en aos cumplidos
a. Lilliefors Significance Correction
En el ejemplo se trata de comprobar si la edad sigue un comportamiento normal. Para llegar a esta conclusin se tienen las siguientes hiptesis: Ho: La variable (edad) sigue una distribucin normal Ha: La variable (edad) no sigue una distribucin normal Observen que ac la mejor decisin sera aceptar la hiptesis nula, a diferencia de las otras pruebas de hiptesis. Para tomar la decisin entonces, procedemos a confrontar el Valor de P con el valor del nivel de significancia (), si el primero es menor que el segundo se rechaza Ho, en caso contrario se Acepta. Ara nuestro ejemplo supongamos que el nivel de
80
significancia () es del 5% (0.05), como P = 0.2 es mayor que se acepta Ho, o sea que la edad sigue un comportamiento normal. Al ser la variable normal se puede realizar la prueba de diferencias de medias para poblaciones independientes, en caso que la variable no siga un comportamiento normal se debe proceder a realizar la prueba no paramtrica U de Mann Whitney. Una vez cumplido el supuesto se procede a realizar la prueba para diferencias de promedios. Para ello, seleccionamos Comparar medias (Compare means) del men Analizar, y all dar clic en Prueba para muestras independientes (Independent-sample T-test). En el cuadro que aparece, se debe colocar en Test variables la variable cuantitativa y en Grouping variable, la variable categrica que hace las veces de poblaciones, en otras palabras la variable a la cual le queremos determinar si para cada categora de ella, los promedios de la variable cuantitativa son diferentes. Para el ejemplo, la variable cuantitativa ser la edad y la variable categrica (o las dos poblaciones) ser habito de fumar. Una vez que se pase la variable categrica aparece el nombre de la variable con dos signos de interrogacin, se procede a dar clic al botn Define groups..., para determinar los grupos a trabajar, en el grupo uno se coloca el cdigo que representa a este grupo, y en grupo 2 se coloca el cdigo que represente a este segundo grupo, continuar y Aceptar. Nota: La variable categrica debe de estar definida en el SPSS numrica y debe de contener cdigos, estos son los que se colocan en el cuadro Grouping variables. Adems es de aclarar que si la variable categrica tiene mas de dos categoras, usted puede seleccionar cual de todas las categoras va a ser el grupo 1 y cual ser el grupo 2, para realizar el contraste.
Despus de esto, en la ventana de resultados aparece la siguiente informacin:
81
Independent Samples Test Levene's Test for Equality of Variances
t-test for Equality of Means 95% Confidence Interval of the Difference Lower Upper -2,34 -2,34 4,46 4,46
F Edad en aos cumplidos Equal variances assumed Equal variances not assumed ,810
Sig. ,371
t ,621 ,621
df 68 67,997
Sig. (2-tailed) ,537 ,537
Mean Difference 1,06 1,06
Std. Error Difference 1,70 1,70
En donde, lo primero que se debe de analizar es el test de Levene, este tiene las siguientes hiptesis: Ho: Las varianza son iguales Existe homocedasticidad en las varianzas Ha: Las varianza son diferentes No existe homocedasticidad en las varianzas Recordar que para la decisin se compara el Valor de P con el valor del nivel de significancia , si el primero es menor que el segundo se rechaza Ho, en caso contrario se Acepta Ho. Ac tambin lo ideal es Aceptar Ho, para cumplir con el segundo supuesto que es el de Homocedasticidad de varianzas, pero en caso de no cumplirse, el SPSS nos ofrece la alternativa de analizar los datos cuando las varianzas no son iguales. En el ejemplo en cuestin observamos que el valor P para Levene (Sig.) es de 0.371, como este es mayor que el alfa (), se acepta Ho, por lo tanto las varianzas son iguales. Ahora para determinar si existen diferencias estadsticamente significativas en los promedios de la edad segn habito de fumar, se trabaja con las siguientes hiptesis: Ho: Los promedios de ambas poblaciones son iguales, en otras palabras, los promedios de la edad son iguales segn habito de fumar. Ho: No Existen diferencias estadsticamente significativas que los promedios de la edad son diferentes para el habito de fumar Ha: Los promedios de ambas poblaciones son diferentes, en otras palabras, los promedios de la edad son diferentes segn habito de fumar. Ha: existen diferencias estadsticamente significativas que los promedios de la edad difieren segn el habito de fumar Para el ejemplo como el valor de P es mayor del nivel de significancia (), que haba sido definido del 5% (0.05), se rechaza Ho, esto es, los promedios de la edad son iguales para fumadores y no fumadores. Esta informacin es la misma que se obtiene al mirar los intervalos de confianza, se observa que dicho intervalo pasa por cero, 2.34 4.46. este Valor P observado y los intervalos de confianza, deben de ser los que corresponde a la fila de varianzas iguales del test de Levene.
82
2. Prueba para muestras relacionadas (pareadas): compara las medias de dos variables en un solo grupo. Esta prueba tambin es para pares relacionados o diseos de control de casos. El resultado incluye estadsticos descriptivos de las variables que se van a contrastar, la correlacin entre ellas, estadsticos descriptivos de las diferencias emparejadas, la prueba t y un intervalo de confianza Ac se parte del mismo supuesto de normalidad, si este no se cumple se debe proceder a realizar la prueba no paramtrica de wilcoxon. Una vez que se corroboro el supuesto de normalidad para las variables, se selecciona el comando Comparar medias (Compare means) en el men Analizar, y all dar clic en PairedSample T-test. All se deben seleccionar las dos variables cuantitativas (antes y despus) a evaluar, y pasarlas al lado derecho, para dar clic en el botn Aceptar.

Paired Samples Test Paired Differences 95% Confidence Interval of the Std. Difference Std. Error Lower Upper Deviation Mean 33,1336 8,5550 -2,1754 34,5221
Mean Pair 1 ANTES DESPUES 16,1733
t 1,891
df 14
Sig. (2-tailed) ,080
En esta prueba ya no hay test de Levene para corroborar Homocedasticidad, se evala por medio del Valor de P si existen diferencias estadsticamente significativas entre los promedios de antes y despus, para ello entonces las hiptesis son: Ho: El promedio del primer momento es igual al promedio del segundo momento Ho: No existen diferencias estadsticamente significativas entre los promedios del antes y del despus Ha: El promedio del primer momento es diferente al promedio del segundo momento
83
Ha: Existen diferencias estadsticamente significativas entre los promedios del antes y del despus Para el ejemplo tratado, se desea mirar si existen diferencias en los promedios de ferritina de sujetos en dos momentos. Como P es mayor que (0.080), se acepta Ho, esto es, los promedios de ferritina no son diferentes significativamente en los dos momentos, o dicho de otra forma, no existen evidencias estadsticamente significativas que nos lleven a decir que los promedios de ferritina en los sujetos son diferentes. Observe que esta decisin se corrobora con el hecho que los intervalos de confianza pasan por cero (-2.1754 34.5221). 3. Prueba para una muestra: Compara la media de una variable con un valor conocido o referente o hipotetizado. Se muestran estadsticos descriptivos de las variables que se desean contrastar junto con la prueba t. Un intervalo de confianza del 95% para la diferencia de la media de la variable que se desea contrastar y el valor de contraste hipotetizado. Se parte del mismo supuesto de normalidad. Una vez que se corroboro el supuesto de normalidad para la variable, se selecciona el comando Comparar medias (Compare means) en el men Analizar, y all dar clic en One-Sample T-test. All se debe seleccionar la variable cuantitativa a evaluar y se pasa al lado derecho, en el cuadro Test Value colocar el valor contra el cual se va a contrastar la variable, el valor hipotetizado con el cual se va a comparar (este valor lo define el investigador), por ultimo dar clic en el botn Aceptar.
84
One-Sample Test Test Value = 65 95% Confidence Interval of the Difference Lower Upper -11,45 -8,07
t Edad en aos cumplidos -11,510
df 69
Sig. (2-tailed) ,000
Mean Difference -9,76
En esta prueba ya no hay test de Levene para corroborar Homocedasticidad, se evala por medio del Valor de P si el promedio de la variable difiere estadsticamente del valor de referencia (valor hipotetizado), para ello entonces las hiptesis son: Ho: El promedio de la variable es igual al valor de referencia Ho: No existen diferencias estadsticamente significativas entre el promedio de la variable y el valor de referencia Ha: El promedio de la variable es diferente al valor de referencia Ha: Existen diferencias estadsticamente significativas entre el promedio de la variable y el valor de referencia Para el ejemplo tratado, se desea mirar si existe diferencia en el promedio de la edad con relacin al valor de referencia establecido por el investigador como 65 aos. Como P es menor que el (0.080), se rechaza Ho, esto es, el promedio de la edad es estadsticamente diferente de 65 aos, o dicho de otra forma, existen evidencias estadsticamente significativas que nos lleven a decir que el promedio de la edad es diferente de 65 aos. 4. Prueba para muestras independientes con mas de dos poblaciones o grupos (Anlisis de varianza de un factor): Compara las medidas de una variable para tres o mas poblaciones (tres o mas grupos o tres o mas categoras de una variable categrica). El procedimiento Anova de un factor genera un anlisis de varianza para una variable dependiente cuantitativa por una variable de un solo factor (independiente). La Anova se utiliza para contrastar en la hiptesis de que varias medias son iguales. Esta tcnica es una extensin de la prueba de hiptesis para muestras independientes de 2 poblaciones. Adems de determinar si existen diferencias entre las medias, es posible que desee saber que medias difieren, para ello se cuenta con las pruebas post-hoc, las cuales se ejecutan una vez se ha desarrollado el experimento. Para este tipo de anlisis se debe partir de los mismos supuestos que se han venido trabajado, tanto el supuesto de normalidad como el de varianzas iguales. En caso que los datos de la variable cuantitativa no sigan un comportamiento normal se debe realizar la prueba no paramtrica de Kruskal Wallis. Las hiptesis para este modelo son:
85
Ho: No existen diferencias estadsticamente significativas entre las medias de las K poblaciones o tratamientos Ha: Por lo menos una de las K medias poblacionales es diferente Para la decisin se parte de la misma regla con la cual se ha venido trabajando, esto es, si P es menor que el se rechaza Ho. Como ejemplo se quiere determinar si existen diferencias estadsticamente significativas en el promedio de los ingresos segn deporte practicado (Caminar, gimnasia, otro, sin dato), en la practica no pudiera ser muy relevante observar esta relacin pero para efectos de ejemplificar el proceso resulta conveniente.
Para ello, vaya a Analizar Estadsticas descriptivas Explorar, en el cuadro que aparece coloque en Lista de dependientes la variable cuantitativa a la que le desea corroborar el supuesto de normalidad, posteriormente de clic en el botn grficos (plots) y all chulee Grfico con test de normalidad (Normality plots with test), y por ultimo en el apartado de mostrar (display), puede seleccionar grfico (plots), estadsticas (statistics) o ambos (both), preferiblemente seleccionar ambos, y dar clic en Aceptar.
Con ello en la ventana de resultados aparecern algunos datos, pero para efectos del supuesto de normalidad nos interesa nicamente el test de normalidad. En el ejemplo se trata de comprobar si el peso sigue un comportamiento normal. Para llegar a esta conclusin se tienen las siguientes hiptesis: Ho: La variable (ingresos) sigue una distribucin normal Ha: La variable (ingresos) no sigue una distribucin normal Para tomar la decisin entonces, procedemos a confrontar el Valor de P con el valor del nivel de significancia (), si el primero es menor que el segundo se rechaza Ho, en caso contrario se Acepta. Ara nuestro ejemplo supongamos que el nivel de significancia () es del 5% (0.05), como P = 0.2 es mayor que se acepta Ho, o sea que los ingresos siguen un comportamiento normal. Al ser la variable normal se puede realizar la prueba de Anlisis de varianza de un factor, en caso que la variable no siga un comportamiento normal se debe proceder a realizar la prueba no paramtrica de Kruskal Wallis. Una vez cumplido el supuesto se procede a realizar la prueba para anlisis de varianza. Para ello, seleccionamos Comparar medias (Compare means) del men Analizar, y all dar clic en One-Way Anova (Anova de una va). En el cuadro que aparece, se debe
86
colocar en Dependent list la variable cuantitativa y en Factor la variable categrica que hace las veces de poblaciones, en otras palabras la variable a la cual le queremos determinar si para cada categora de ella, los promedios de la variable cuantitativa son diferentes. Para el ejemplo, la variable cuantitativa ser el ingreso familiar y la variable categrica (o las diferentes poblaciones) ser deporte que practica, por ultimo entrar a las pruebas post-hoc y escoger el mtodo para poder determinar cual o cuales promedios son los diferentes, si llegasen a existir diferencias estadsticamente significativas entre los promedios, luego continuar y Aceptar.

ANOVA Dependent Variable Between Groups Within Groups Total Sum of Squares 52753148809,5 362264976190 415018125000 df 2 53 55 Mean Square 26376574404,762 6835188230,009 F 3,859 Sig. ,027
Ac se puede tomar la decisin contrastando el Valor P con el nivel de significancia (), as, como P es menor que el se rechaza la hiptesis nula, esto es, existen evidencias estadsticamente significativa para determinar que los promedios del ingreso familiar es diferente segn deporte practicado. Una vez que se determino la existencia de las diferencias entre las medias, las pruebas post hoc, pueden determinar las medias que difieren. Las comparaciones mltiples por parejas contrastan las diferencias entre cada pareja de medias y dan lugar a una matriz donde los asteriscos indican las medias de grupo significativamente diferentes a un nivel de de 0.05. Para el ejemplo se selecciona la prueba post hoc de scheffe, la cual nos muestra los siguientes resultados:
87
Multiple Comparisons Dependent Variable Test 95% Confidence Interval Lower Upper Bound Bound -76126,22 93888,13 -176126 -6111,87 -93888,13 76126,22 -211301 11300,52 6111,87 176126 -11300,52 211301
(I) Deporte practicado Caminar Gimnasia Otro
Mean (J) Deporte Differenc practicado e (I-J) Gimnasia 8880,95 Otro -91119,05* Caminar -8880,95 Otro -100000 Caminar 91119,05* Gimnasia 100000,0
Std. Error 33752 33752 33752 44192 33752 44192
Sig. ,966 ,033 ,966 ,087 ,033 ,087
*. The mean difference is significant at the .05 level.
Ac las medidas que tienen asterisco (*), son los grupos en los cuales los promedios de los ingresos presentan diferencias estadsticamente significativas. Se puede observar entonces que existen diferencias en los promedios de ingresos entre los que caminan y los que hacen otro deporte, determinndose adems que dicha diferencia es a favor a las personas que practican otro deporte, pues el intervalo de confianza en ambos extremos es menor que cero (0). 5. Prueba para muestras independientes proporciones (Prueba Chi cuadrado de independencia): Es una tcnica usual en la investigacin del rea de la salud, para determinar la existencia de asociacin entre dos variables a travs de la comparacin de sus proporciones. Por ejemplo, un salubrista puede estar interesado en comparar la eficacia de tres antibiticos en el tratamiento de la cistitis, esto es, el inters se centrara en determinar si la ocurrencia de la curacin tiene algo que ver con el tipo de antibitico prescrito. Ntese que se exige para efectuar la prueba de independencia que las variables en cuestin sean categricas (con nivel de medicin nominal u ordinal). Las hiptesis constitutivas de la prueba Chi-cuadrado de independencia, si X e Y son las variables consideradas, se plantean a continuacin: Ho: Ha: Existe independencia entre X e Y. Existe algn grado de asociacin entre X e Y.
88
Sin prdida de generalidad, se asumir que la variable X tiene 3 categoras y que la variable Y tiene 2, con el fin de hacer ms fcil y asequible la explicacin de la tcnica. La estructura de la tabla se expone a continuacin: Tabla de contingencia mltiple Categora X1 Variable X Categora X2 Categora X3 Total Variable Y Categora Y1 Categora Y2
O11 (E ) 11 O21 (E )
21
O12 (E ) 12
O 22 (E ) 22
Total O1. O2. O3. O
O 31 (E ) 31
O.1
O32 (E ) 32
O.2
En general, Oij representa la frecuencia observada en la interseccin de la fila i con la columna j. En la tabla anterior, los valores entre parntesis representan las frecuencias esperadas, as:
E11 : E12 : E21 : E22 : E31 : E32 :
Frecuencia esperada en la fila 1 con la columna 1, esto es, X1 con la categora Y1. Frecuencia esperada en la fila 1 con la columna 2, esto es, X1 con la categora Y2. Frecuencia esperada en la fila 2 con la columna 1, esto es, X2 con la categora Y1. Frecuencia esperada en la fila 2 con la columna 2, esto es, X2 con la categora Y2. Frecuencia esperada en la fila 3 con la columna 1, esto es,
de la categora de la categora de la categora de la categora de la categora
X3 con la categora Y1. Frecuencia esperada en la fila 3 con la columna 2, esto es, de la categora X3 con la categora Y2
En general, Eij representa la frecuencia esperada en la interseccin de la fila i con la columna j. Para calcular las frecuencias esperadas basta multiplicar los totales de las filas por los totales de las columnas y luego dividir entre el gran total, esto es,
Eij = Frecuencia total observada en la fila i por Frecuencia total observada en la columna j
Gran total (Suma de todas las frecuencias observadas)
Por ejemplo, para la tabla expuesta arriba,
E32 = Frecuencia total observada en
la fila 3 (O3.)
Frecuencia total observada en la columna 2(O.2)
Gran total (Suma de todas las frecuencias observadas)(O)
89
Bajo la hiptesis nula, esto es, si no existe relacin entre X e Y (independencia), se esperara que los valores de las categoras de la variable X se repartiran homogneamente en cada una de las categoras de la variable Y. Por lo tanto, si no existe relacin, bajo la hiptesis nula, las frecuencias observadas en la tabla seran similares a las esperadas bajo la hiptesis nula. Se puede demostrar que el estadstico de prueba, el cual se calcula sumando las diferencias cuadrticas entre las frecuencias observadas y esperadas dividiendo en cada caso por estas ltimas, sigue una distribucin Chi-cuadrado con grados de libertad igual al producto entre el nmero de filas menos uno,(f-1), y el nmero de columnas menos uno, (c-1). Por lo tanto:
= 2 ( f 1 )( c 1 )
i =1 j =1
m n
(Oij Eij )2
Eij
A continuacin se determina el valor terico de la Chi-cuadrado, mediante los valores de los percentiles de la distribucin mencionada, a un determinado por el investigador y con los grados de libertad calculados a partir del nmero de filas y columnas de la tabla mltiple. Si el valor terico ,v es menor que el valor del estadstico Chi-cuadrado
2
calculado, se puede rechazar la hiptesis nula. Los programas estadsticos calculan antes que el valor terico el valor de p el cual se compara con el nivel de significacin establecido antes de hacer la recoleccin de la informacin. En caso de que el valor de p sea menor que el nivel de significacin , se rechazar la hiptesis nula de independencia. La tabla de contingencia. El caso en que ambas variables son bicategricas Cuando las dos variables son de naturaleza cualitativa y bicategricas, se tiene una tabla de contingencia que consta de dos filas y dos columnas. Dicha tabla suele conocerse como tabla de 2 por 2. La estructura de una tabla de contingencia se expone a continuacin: Tabla de contingencia Si Exposicin No Total Enfermedad Si No a b c d a+c b+d Total a+b c+d a+b+c+d
Al aplicar la regla (Nmero de filas -1)(Nmero de columnas -1) para encontrar los grados de libertad, el resultado es un grado de libertad. En sta situacin deben hacerse algunas consideraciones para la eleccin del estadstico de prueba, fundamental para tomar la decisin3:
Se advierte que la expresin del clculo del estadstico de prueba en una tabla de contingencia (las dos variables bicategricas) se conoce como frmula abreviada. No obstante, tambin se podra utilizar la frmula general planteada para el clculo del estadstico de prueba en la tabla de contingencia mltiple y los resultados seran consistentes.
90
Estadstico de prueba no corregido: Usual cuando las frecuencias observadas en cada celda son grandes. Usual cuando todas las frecuencias esperadas son mayores de cinco.
n(ad bc )2 = 2 NO CORREGIDO (a + b )(a + c )(b + d )(c + d )

Estadstico de prueba con correccin de Yates: Esta correccin consiste en sustraer la mitad del nmero total de las observaciones a la cantidad ad-bc y tiene como efecto hacer ms pequeo el valor del estadstico de prueba. Un valor del Chi-cuadrado ms pequeo impedir que se rechace la hiptesis nula con tanta frecuencia como ocurre con el Chi-cuadrado sin corregir. Algunos investigadores como Grizzle (1967), Lancaster(1949), Pearson (1947) y Plackett (1964) cuestionaron esta correccin argumentando que ella conduce a que la prueba sea muy conservadora ya que en la mayora de las situaciones no se puede rechazar la hiptesis nula. Como criterio prctico se recomienda utilizar esta correccin cuando las frecuencias esperadas estn entre 5 y 10.
n(ad bc 0.5n )2 2 = YATES (a + b )(a + c )(b + d )(c + d )

Estadstico de prueba con correccin de Mantel-Haenszel: Es el ms utilizado en la investigacin epidemiolgica. La correccin consiste en restarle 1 al tamao de la muestra. Si las frecuencias de cada celda son grandes, el estadstico Chi-cuadrado sin corregir y con correccin de Mantel-Haenszel son similares.
(n 1)(ad bc )2 = 2 M H (a + b )(a + c )(b + d )(c + d )

Cuando se obtienen una o varias frecuencias esperadas menores que cinco, debe utilizarse la Prueba Exacta de Fisher, de la cual se hablar ms adelante, despus de exponer algunas aplicaciones de sta en la investigacin de tipo epidemiolgica. Prueba Exacta de Fisher Esta tcnica es usual para el anlisis de datos discretos (variables de naturaleza cualitativa con nivel de medicin nominal u ordinal, bicategricas), cuando existe al menos alguna frecuencia esperada en la tabla de contingencia que es menor de 5. Las frecuencias que se obtienen pertenecen a categoras de las variables que son mutuamente excluyentes. Con base en la informacin que se presenta en la tabla de contingencia, se puede determinar si los grupos difieren en la proporcin correspondiente a las clasificaciones.
91
Tabla de contingencia Exposicin Total + -
Enfermedad + a b c d a+c b+d
Total a+b c+d a+b+c+d
Se determina en la anterior tabla, la diferencia entre los Expuestos y No expuestos que hace referencia a la proporcin de los signos + y - atribuidos a ellos. Si la hiptesis nula es verdadera, esto es, H0: OR=1, se puede demostrar que si se condiciona la seleccin de a+c casos y b+d controles con a+b total de expuestos, la probabilidad de observar a casos expuestos y b controles expuestos sigue una distribucin hipergeomtrica esto es:
a + c b + d a b (a + b )! (a + c )! (c + d )! (b + d )! = p= n! a! b! c! d ! n a + b
esto es, la probabilidad exacta de la frecuencia observada, se encuentra dividiendo el producto de los factoriales de los cuatro totales marginales por el factorial de n (a+b+c+d). Para efectos de ejemplificar el anlisis de la chi-cuadrado a partir del SPSS, se debe de proceder de la siguiente forma: 1. Seleccione tablas de contingencia (Crosstab) del men analizar. En el cuadro que aparece seleccione la variable independiente y colquela en las filas (Rows) y la variable dependiente la coloca en las columnas (Columns). Este proceder se aplica de forma general, siempre la variable independiente constituir las filas y la variable dependiente constituir las columnas. 2. En el botn estadsticas puede seleccionar el tipo de estadsticos a obtener. Por defecto la prueba obtiene el estadstico de la chi cuadrado, y si es una tabla de 2 por 2 se puede marcar la opcin riesgos (risk) para obtener el riesgo relativo la razn de disparidades. 3. En el botn Celdas (Cell), se puede seleccionar si se quieren porcentajes o no, y si estos son para las columnas, las filas o ambas. Adems se tiene la posibilidad de obtener los valores observados y los esperados dentro de la tabla de contingencia
92
4. Una vez que se hallan dado estas opciones, se pulsa continuar y Aceptar, el SPSS mostrar el la ventana de resultados lo siguiente:
Tabla de contingencia Sedentarismo * Enfermedad Coronaria Estadsticos Enfermedad Coronaria Si No 15 15 4 36 19 51 Total 30 40 70
Sedentarismo Total
Si No
93
Pruebas de chi-cuadrado Valor 13.870b 11.921 14.259 gl 1 1 1 Sig. asinttica (bilateral) .000 .001 .000 .000 13.672 70 1 .000 .000 Sig. exacta (bilateral) Sig. exacta (unilateral)
Chi-cuadrado de Pearson Correccin por a continuidad Razn de verosimilitud Estadstico exacto de Fisher Asociacin lineal por lineal N de casos vlidos
a. Calculado slo para una tabla de 2x2. b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 8.14.
Estimacin de riesgo Intervalo de confianza al 95% Inferior Superior 2.561 31.624
Valor Razn de las ventajas para Sedentarismo (Si / No) Para la cohorte Enfermedad Coronaria = Si Para la cohorte Enfermedad Coronaria = No N de casos vlidos 9.000
5.000
1.846
13.540
.556 70
.383
.806
Como primer elemento observamos la tabla de contingencia con los valores observados, y la descripcin de la enfermedad coronaria segn sedentarismo. En la tabla siguiente encontramos la medida de asociacin (Chi-cuadrado de pearson), adems nos aparece el estadstico exacto de fisher, el cual tiene su interpretacin cuando se tienen valores esperados menores de 5. en la tabla de ejemplo, observemos que a pesar de existir una celda con valor menor de 5, el valor esperado para ella es superior a 5 por lo tanto, en la tabla de contingencia no hay valores esperados menores de 5, por tal motivo de puede interpretar el estadstico de pearson. Como el Valor de P es menor que se rechaza Ho, esto es, el sedentarismo y la presencia de enfermedad coronaria esta asociadas. Si se quiere mirar la fuerza de la asociacin, por tratarse de una tabla de 2 por 2, el SPSS nos ofrece el riesgo relativo para estudios de seguimiento (cohorte) y la razn de disparidades (casos y controles), en el ejemplo asumamos que este es un estudio de seguimiento, con lo cual tenemos un RR de 5 con un intervalo de confianza entre 1.846 y 13.540 como no pasa por 1 se corrobora el hecho de que esta asociacin es causal.
94
MUESTREO BASICO El objetivo del muestreo es contar con el mayor nmero de unidades, con la mayor cantidad de informacin, pero con el menor costo posible; adems este tiene por objeto seleccionar una parte representativa de la poblacin con el fin de obtener estimadores de los parmetros. Para lograrlo existen varios mtodos y en cada uno de ellos se puede establecer: 1. El grado de precisin en los estimadores 2. Tamao de la muestra 3. Costo y tiempo Dentro de este proceso de seleccin, se considera que en teora, no debe existir sustitucin de unidades, para no falsear el esquema de seleccin; por tanto, a las unidades de las cuales se obtuvo informacin se les considera como dominio de estudio ya que aquellas no investigadas dejaran de pertenecer al grupo de nuestros intereses. Generalmente se considera no sustituir unidades que no hayan podido ser localizadas, pero en la prctica se acepta la aplicacin de algunos mtodos de sustitucin sin que sus resultados sean objetados. Algunos de ellos se presentan a continuacin:
a. Se
hace sustitucin, cuando en un segmento se encuentra, por ejemplo, una vivienda no entrevistada; en este caso, se toma la vivienda siguiente de acuerdo al orden de visita o de seleccin y la informacin se duplica. Este proceso se basa en el supuesto de que, dentro de un mismo segmento, las familias que ocupan viviendas contiguas tienen una alta probabilidad de poseer caractersticas econmicas o sociales similares.
b. Determinar
el nmero de unidades no entrevistadas, ya sea en la muestra, en el segmento, estrato, etc., luego se selecciona una muestra aleatoria dentro de las que han sido encuestadas, equivalente al nmero de las que no respondieron y se duplica la informacin. Tomar una muestra mayor a la establecida, mediante frmula, conocida como tamao optimo. El nmero mayor depende del conocimiento que se tenga sobre las unidades que no tendrn informacin (sobre muestreo). al azar un nmero igual a las unidades que no informaron, de la poblacin que no fue seleccionada en la muestra. CONCEPTOS BSICOS: Poblacin: grupo de elementos que tienen una caracterstica comn susceptible de ser medida, puede ser finita o infinita. Para el estudio estadstico se utilizarn poblaciones infinitas, estas se pueden enumerar por extensin y comprensin. En la muestra se habla de las unidades muestrales que son los elementos que permiten cuantificar la unidad de observacin, y en general son elementos que constituyen la muestra, ejm: familias, viviendas; y las unidades de observacin (unidades de anlisis) son aquellas a las que se les aplica el instrumento de medicin (formularios)
c.
d. Tomar

95
Marco de Muestreo: Lista, mapa , directorio detallado de todos los elementos que forman la poblacin, en los cuales se encuentran claramente especificados las unidades correspondientes. As, el marco es aquella parte de la poblacin que puede ser muestreada, no es necesariamente igual a la poblacin original. Como el marco representa a toda la poblacin, deber ser tan cercano a esta como sea posible. Diseo Muestral: Es el procedimiento de seleccin de una muestra y el mtodo correspondiente de estimacin. Un requisito importante de un buen diseo es que proporcione una medida del error de muestreo en la estimacin, adems de permitir una estimacin del valor de la poblacin. Entre todos los diseos muestrales se prefiere aquel que proporcione la ms alta precisin para un costo dado o el mnimo costo para un nivel dado de precisin. Error de Muestreo: Es la diferencia que puede haber entre el valor poblacional (parmetro) y la estimacin de la misma (estimacin puntual o estadgrafo), obtenida por medio de una muestra aleatoria, observada en una de las tantas muestras posibles de una poblacin dada. La totalidad de estos errores, genera la distribucin de muestreo empleada para estimar el valor poblacional. En muchos casos, el error ser determinado por el investigador; pero este procedimiento requiere adems de la experiencia del investigador, un conocimiento previo sobre el comportamiento de la caracterstica en la poblacin que se estudia, de ah que es mucho ms prctico determinar el error como un porcentaje, en la mayora de los casos no mayor del 10%. El porcentaje podra considerarse en algunos casos como un complemento del nivel de confianza, as que una confianza del 95% dara supuestamente un error del 5%, pero no siempre ser el complemento, ya que este porcentaje podr aumentarse o disminuirse dependiendo del grado de precisin con que se desea hacer la estimacin. Se debe tener presente que entre ms pequeo sea el error, mayor ser el tamao de la muestra y por ende ms representativa; pero, entre ms grande sea el error, menor ser el tamao de la muestra, y por ende menos representativa. Error no de muestreo: Es un error que se origina generalmente por defectos en la medicin. Se debe a instrumentos mal calibrados, errores sistemticos en la obtencin de datos, personal mal entrenado, mala eleccin del marco de muestreo, datos faltantes, procesamiento deficiente de los datos, etc. Este error tambin se llama sesgo, pero dicho trmino tambin tiene adems otras interpretaciones. MUESTRA
La muestra, es en esencia un subgrupo de la poblacin. Se puede entender como un subconjunto de elementos que pertenecen a ese conjunto definido en sus caractersticas al que llamamos poblacin. Pocas veces se puede medir a toda la poblacin, por lo que obtenemos o seleccionamos una muestra y se pretende que este subconjunto sea un reflejo fiel del conjunto de la poblacin. Bsicamente categorizamos a las muestras en dos grandes ramas: las muestras no probabilsticas y las muestras probabilsticas. En estas ltimas todos los elementos de la poblacin tienen la misma probabilidad de ser escogidos. Esto se obtiene
96
definiendo las caractersticas de la poblacin, el tamao de la muestra y a travs de una seleccin aleatoria y/o mecnica de las unidades de anlisis. En las muestras no probabilsticas, la seleccin de los elementos no depende de la probabilidad, sino de causas relacionadas con las caractersticas del investigador o del que hace la muestra. Aqu el procedimiento no es mecnico, ni en base a frmulas de probabilidad, sino que depende del proceso de toma de decisiones de una persona o grupo de personas, y desde luego, las muestras seleccionadas por decisiones subjetivas tienden a estar sesgadas. El elegir entre una muestra probabilstica y no probabilstica, depende de los objetivos del estudio, del esquema de investigacin y de la contribucin que se piensa hace con dicho estudio. Las muestras probabilsticas tienen muchas ventajas, quizs la principal es que puede medirse el tamao de error en nuestras predicciones. Puede decirse incluso que el principal objetivo en el diseo de una muestra probabilstica es el de reducir este error al que se llama error estndar. Las muestras probabilsticas son esenciales en los diseos de investigacin por encuestas donde se pretende generalizar los resultados a una poblacin. La caracterstica de este tipo de muestra, es que todos los elementos de la poblacin tienen al inicio la misma probabilidad de ser elegidos, de esa manera los elementos muestrales tendrn valores muy aproximados a los valores de la poblacin, ya que las mediciones del subconjunto, sern estimaciones muy precisas del conjunto mayor. Esta precisin depende del error de muestreo o estndar. Las muestras no probabilsticas, las cuales llamaremos tambin muestras dirigidas, suponen un procedimiento de seleccin informal y un poco arbitrario. La ventaja de este tipo de muestras es su utilidad para un determinado estudio, que requiere no tanto de una representatividad de elementos de una poblacin, sino de una cuidadosa y controlada eleccin de sujetos con ciertas caractersticas especificadas previamente en el planteamiento del problema. Las muestras representativas deben cumplir las siguientes condiciones: 1. Tamao determinado segn recursos, objetivos de la investigacin y frmulas pertinentes 2. Nivel de confiabilidad mnimo definido por el investigador 3. Error mximo permisible definido por el investigador 4. Seleccin aleatoria de los elementos con una probabilidad conocida Ventajas de la muestra De tipo prctico: ms operativo, ms funcional De factibilidad: las expectativas del investigador son ms fciles de alcanzar Econmico: reduce los costos de la investigacin Desventajas de la muestra Segn su tamao puede no identificar los fenmenos de baja frecuencia No se puede concluir a grupos muy pequeos Existe error en las estimaciones Exigen especialista en el diseo de muestra
97
Razones para muestrear Por lo econmico Por el tiempo Porque la poblacin es infinita Por la naturaleza misma de la variable
Que debe definirse previamente La variable ms relevante del estudio Error mximo permisible Nivel de confiabilidad en las estimaciones Debe saberse previamente si la investigacin apunta a estimar un promedio o una proporcin Debe definirse si se trata de estimar una proporcin, la probabilidad del evento ms relevante Definir previamente si la poblacin es finita o no Hay que definir previamente cual es el diseo muestral a utilizar
Frmulas para hallar tamao de muestra en Estudios Descriptivos Poblaciones infinitas: Cuando el universo es superior a 100.000
Si la investigacin apunta a estimar un promedio el tamao de la muestra ser:
Si la investigacin apunta a estimar una proporcin el tamao de la muestra ser: n=
Z 2 / 2 * 2 n= l2
Z 2 / 2 * ( P * Q) l2
Q=1-P
Poblaciones finitas: Cuando el universo es a 100.000 Si se apunta a estimar un promedio ser:
Z 2 / 2 * 2 n= Z 2 / 2 * 2 l2 + N
98
Si se apunta a estimar una proporcin ser: n=
Z 2 / 2 * ( P * Q) Z 2 / 2 * ( P * Q) l2 + N
En los tems anteriores tenemos que: Z/2 2 P Q N = = = = = = Constante en trminos de una normal tipificada Varianza poblacional Proporcin poblacional; si se desconoce se toma P=0.5 queda el mximo tamao de la muestra 1P tamao de la poblacin Error de estimacin (la tolerancia) o grado de precisin con que se recolectan los datos. Si el objetivo apunta a estimar un promedio el error se da en unidades de la variable; y se apunta a una proporcin las unidades van en porcentaje
En la prctica es muy frecuente que no se conozca la varianza de la caracterstica en la poblacin (2); en tales casos se debe recurrir a censos, a investigaciones similares realizadas con anterioridad o a investigaciones preliminares, denominadas encuestas piloto. Este ltimo procedimiento es el que ms se emplea para determinar el tamao de la muestra partiendo del supuesto de que no existe informacin sobre la poblacin. Muestreo aleatorio simple (M.A.S): Una muestra es aleatoria cuando los elementos que constituyen la poblacin o universo tienen la misma posibilidad de ser seleccionadas. El mtodo de muestreo aleatorio simple es recomendable, en especial, cuando la poblacin no es numerosa y las unidades se concentran en un rea pequea; por otra parte, la caracterstica no debe tener gran variabilidad, porque implicara un tamao muestral muy amplio lo que, a su vez, incrementara costos y tiempo; por ltimo, la poblacin debe facilitar su enumeracin para que permita la aplicacin de ese mtodo. Lo anterior conlleva a fijar tres inconvenientes que presenta el mtodo de muestreo aleatorio simple.
a. Se requiere un listado de unidades de la poblacin, lo cual no es fcil (Marco) b. Si el rea es amplia, es probable que haya necesidad de traslado a lugares lejanos,
para investigar unas pocas unidades, dificultando su aplicacin (costo y tiempo)
c.
No existe garanta de que todas las unidades queden representadas en la muestra, cuando la caracterstica tiene una gran variabilidad.
En resumen, en el muestreo aleatorio simple, todos los elementos tienen la misma probabilidad de ocurrir. La seleccin se hace previa a una enumeracin de los elementos. Para que exista aleatoriedad se usan tablas de nmeros aleatorios,
99
funciones RAND# (Random Generation) de calculadoras, o en un computador mediante una hoja de clculo. Procedimientos con el M.A.S: a) Tomar el marco de muestreo o sea la lista detallada de todos los elementos de la poblacin. Por ejemplo: diagnsticos, historias clnicas, listado de personas, listado de viviendas, etc. b) Enumerar correlativamente cada unidad de muestreo desde 0001 hasta n c) Mediante un mtodo aleatorio se seleccionan los sujetos. d) Hacer las elaboraciones estadsticas pertinentes. El M.A.S puede ser con o sin reemplazo. Muestreo sistemtico: El muestreo sistemtico o en serie, se usa frecuentemente por ser un mtodo simple, sencillo, directo y econmico. Arroja buenos estimativos, cuando la variable esta ordenada, por aos, valor, cantidad, etc. Se puede observar en las unidades seleccionadas, que la variable se distribuye en la muestra casi igual que en el muestreo aleatorio estratificado, asignacin proporcional. Consiste en seleccionar una muestra, tomando las unidades a intervalos regulares. Veamos como es el proceso de seleccin: Supongamos que la poblacin estudiada esta compuesta por 1500 estudiantes, adems el tamao de la muestra es de 176 estudiantes; con esta informacin se podr determinar el intervalo de seleccin o salto de muestreo, simbolizado con la letra K. K=
N ; Reemplazando se tiene: n
K=
1500 = 8.52 9 176
Determinado el salto de muestreo, se debe obtener un nmero aleatorio entre 0 y K, supongamos que entre 0 y 9, se obtuvo el nmero 4, el cual se denomina punto de arranque. Se ha hecho la primera seleccin dentro del intervalo. Una vez establecido el punto de arranque, mediante seleccin aleatoria, se inicia el proceso de seleccin sistemtica, sumndole al punto de arranque el valor de K, dando como resultado 13, correspondiendo a la segunda unidad seleccionada; a esta se le suma nuevamente el valor del salto de muestreo (K), para obtener la tercera unidad y as sucesivamente.
Muestreo estratificado: Se le denomina tambin muestreo aleatorio restringido. Este procedimiento implica una divisin de la poblacin en grupos, denominados estratos, en tal forma que el elemento presenta una caracterstica tan definida que solo le permitir pertenecer a un nico estrato. Por lo tanto, para que la divisin por grupos sea efectiva, los factores de estratificacin debern guardar estrecha relacin con las caractersticas que se investigan y con el objetivo o finalidad del estudio. De esta manera se logra una mayor precisin en los resultados.
100
Cuando la poblacin es demasiado heterognea con respecto a las caractersticas que se desean estudiar, esto poda conducir a una gran variabilidad. Con el objeto de mejorar las estimaciones y disminuir el error que pudiera presentarse, se organizan los denominados estratos, donde los componentes (unidades) de cada estrato son homogneos entre si, y entre estrato y estrato existe heterogeneidad. Este mtodo es ms eficiente que el muestreo aleatorio simple, pese al grado de heterogeneidad y dispersin que puede presentar la caracterstica, con la ventaja de que al formar grupos ms o menos homogneos, las muestras resultantes son ms pequeas y representativas. Es necesario entender que un estrato es una subpoblacin y, como tal, cada uno se constituye como un dominio de estudio. Mediante la seleccin aleatoria, en cada uno de los estratos se conformar la muestra. Dependiendo de la distribucin o escogencia de los tamaos muestrales para cada estrato, podrn obtenerse mediante alguno de estos tres procedimientos: 1. Afijacin igual o asignacin igual: Se da cuando los elementos quedan asignados o repartidos por igual en cada estrato muestral. 2. Afijacin proporcional o asignacin proporcional: Los elementos se distribuyen en los espacios muestrales, en la misma proporcin en que se distribuyen los elementos en la poblacin. 3. Afijacin optima: Cuando el tamao, tanto para la muestra general como para cada uno de los estratos muestrales, dependen del grado de variabilidad de la caracterstica en cada estrato y del costo mnimo para una precisin dada. En resumen se puede decir que la estratificacin logra: a) Una mayor precisin en los estimadores, a pesar de ser menos nmero de unidades seleccionadas en comparacin al muestreo aleatorio simple b) Garantizar la representatividad y una reduccin del error de la muestra, por agrupacin de aquellos elementos que se parecen ms por la caracterstica que se investiga que por pertenecer a la poblacin c) Allegar informacin detallada para cada grupo o estrato especfico, ya que se logra una muestra independientes de los dems estratos d) Dividir la poblacin en grupos o estratos ms o menos homogneos en cuanto a su composicin interna, pero heterogneos si se comparan los estratos entre s. 1. Asignacin igual: Este mtodo implica que los tamaos muestrales en cada estrato sean iguales. n1 = n2 = n3 etc. Despus de determinar el tamao de la muestra, se debe elaborar la estratificacin de la poblacin a analizar. Identificando primeramente la caracterstica que se tendr en cuenta para conformar los grupos o estratos. Para lograr esta estraificacin se procede a dividir la muestra por la cantidad de estratos que se tenga. 2. Aplicacin proporcional o asignacin proporcional: Los elementos que constituyen el tamao de la muestra se distribuyen en los estratos en forma proporcional al tamao de las poblaciones. En otras palabras, el peso relativo dado por el nmero de unidades en cada estrato en relacin al total de elementos de la poblacin, debe ser igual al obtenido en la muestra.
101
En el siguiente cuadro se observa el procedimiento para hallar el tamao de la muestra de los estratos por este mtodo.
ESTRATO E1 E2 E3 . . . Eh TOTAL
POBLACION N1 N2 N3 . . . Nh N
PONDERADOR W1 = N1 / W2 = N2 / W3 = N3 / . . . Wh = Nh / 1.00 N N N
TAMAO MUESTRA C/ESTRATO W1 * n W2 * n W3 * n . . . Wh * n n
Otra forma es mediante una regla de tres simple, as:
N 100 n
de ese estrato, o sea, n * X, y as para cada estrato; asumindose n como la muestra de cada estrato.
n *100 = X, esto se multiplica por la muestra N
NOTA: El procedimiento de seleccin de los elementos muestrales se hace por M.A.S o Sistemtico lineal. En general si la asignacin es proporcional, el tamao de la muestra de cada estrato esta dado por: nh = n*wh 3. En este mtodo, el calculo de la muestra depender en muchos casos del costo total de la investigacin (C), del costo fijo (Co), del costo unitario (Ch); este ltimo podr ser fijo o variable, para cada uno de los estratos, adems del grado de variabilidad (S2). En conjunto, los anteriores factores determinaran con mayor precisin el tamao optimo de la muestra; sin embargo, adems de los factores anteriores, podrn considerarse como factores complementarios, el margen de error y el grado de confianza. En sntesis, el mtodo de asignacin o afijacin optima se reduce a: a) A una optima distribucin del tamao de la muestra entre los diferentes estratos, de tal manera que el error de estimacin sea mnimo para un costo total dado. b) Adems de una optima distribucin, con un costo total mnimo para un costo total preestablecido, en algunos casos, se aplica el grado de variabilidad de cada estrato, combinado con los costos unitarios (fijos y variables) y los tamaos poblacionales de cada estrato. Para el calculo del tamao de la muestra, se usaran las siguientes frmulas, de acuerdo a los factores que se tomen en cuenta para su obtencin. Estas sern:
102
a) En el caso de que tan solo se consideren como factores para el calculo de n, el costo total de la investigacin (C), el costo fijo (Co) y el costo unitario por estrato (Ch), se debe aplicar la siguiente frmula: n=
C CO Ch
en esta frmula no se tienen en cuenta los componentes tan importantes como el grado de variabilidad (varianza) de la caracterstica en cada estrato, tamaos de los estratos, nivel de confianza y nivel de error. b) Otra frmula para determinar el tamao optimo de la muestra, disponiendo de informacin sobre el costo total de la investigacin (C), costo fijo (Co), grado de variabilidad de cada estrato (S2), costos unitarios (Ch) que pueden ser constantes o variables para cada estrato y el tamao poblacional de cada estrato (Nh). Estos factores permiten determinar el tamao n con mayor representatividad, ya que adems de los costos, se tienen en cuenta los tamaos poblacionales de los estratos, y el grado de variabilidad para cada uno de ellos. La frmula entonces sera:
N h Sh (C CO )
n=
Ch N h S h Ch
Muestreo por Conglomerados El muestreo por conglomerados se utiliza cuando o bien, no existe listado de unidades finales o unidades elementales de la poblacin; o las unidades estn demasiado dispersas. Esto nos obliga a sustituir las unidades fsicas o elementales, por grupos de unidades, que llamaremos conglomerados; generalmente son superficies o reas en las que se ha dividido el espacio ocupado por la poblacin. Supongamos que se desean realizar estudios a familias en una ciudad. Cada unidad o familia se constituye en un conglomerado, por tal razn se aplica el muestreo aleatorio monoetpico, es decir, se realiza la investigacin en una sola etapa. Si anteriormente se realiz una seleccin de manzanas y de cada una de estas manzanas, se selecciona otra muestra correspondiente a familias, el mtodo ser bietpico. Obsrvese que hay una modificacin con respecto al anterior mtodo, ya que los elementos no forman parte de los conglomerados, sino que son una muestra o sub-muestra de cada uno de ellos. Si hacemos una seleccin de barrios, luego de manzanas y por ltimo de familias, el mtodo ser trietpico. El muestreo polietpico o multietpico es una generalizacin y consta de ms de tres etapas.
103
Los conglomerados son unidades que contienen unidades o elementos, es de anotar, que en la aplicacin del muestreo por etapas la unidad cambia en cada una de ellas, por lo tanto se requiere de varios marcos o listados, ya que se tienen varias poblaciones. Para efectos de este texto, estudiaremos el muestreo por conglomerados de una y de dos etapas. 1. Una etapa: Si una poblacin se divide en grupos y se toma una muestra, se dice que se ha realizado una muestra por conglomerados en una etapa, en la cual cada grupo sirve como unidad de muestreo. Recordemos que los estratos se dividen en grupos ms o menos homogneos en cuanto a su composicin interna; en cambio, en los conglomerados, se espera que la composicin interna sea lo ms heterognea posible, de tal forma que cada conglomerado represente en lo posible a la poblacin. Es muy comn que estos conglomerados hagan referencias a superficies o reas en que se ha dividido el terreno, por ejemplo, un barrio o una manzana que pueden considerarse como conglomerados; el primero como un grupo de manzanas, el segundo como un grupo de viviendas. Este mtodo permite reemplazar a las unidades ms pequeas (unidades de seleccin) de las poblaciones cuando ellas no pueden ser enumeradas, por unidades ms pequeas que las contienen, hacindolas fcil de listar y de manejar y desde luego resulta menos costoso que los dems mtodos de muestreo. Sin embargo vale la pena sealar que entre ms pequeo sea el conglomerado, ms exacto ser el estimador. 2. Bietpico: Este mtodo puede considerarse como un sub-muestreo y se trata de una modificacin del mtodo de muestreo por conglomerados, ya que la primera muestra esta conformada por unidades que son consideradas como conglomerados, una vez seleccionados estos, se efecta una nueva seleccin o sub-muestreo dentro de cada conglomerado para la segunda etapa. De lo anterior se desprende, que lo caracterstico de este tipo de muestreo es que el proceso de seleccin se hace por etapas sucesivas; en cada una de las etapas la unidad es diferente y las unidades finales (la ltima muestra) son las que nos permiten la realizacin de la encuesta, para la recoleccin de la informacin; las anteriores son unidades de seleccin. Nuevamente vale la pena recordar que , el muestreo aleatorio por conglomerados es aqul en el cual cada unidad de seleccin es una coleccin, conjunto o conglomerado de unidades o elementos. Se dice que es de dos etapas o bietpico, ya que se obtiene primero una muestra aleatoria de conglomerados y luego en una segunda etapa una muestra aleatoria de los elementos de cada conglomerado seleccionado. Muestreo Doble Denominado tambin bifsico porque se efecta en dos fases. Es aplicado de preferencia, cuando no existe informacin auxiliar que permita conocer los tamaos poblacionales de los estratos, ni la identificacin de las unidades; en este caso, primero se realiza una muestra aleatoria simple, generalmente grande, en forma rpida y sencilla para conocer en forma muy general algunas de las caractersticas objeto del estudio; luego se procede a una segunda muestra extrada de la anterior, la que podra considerarse como submuestra, con la cual se hacen las estimaciones.
104
6. ESTADSTICA NO PARAMETRICA En los apartados anteriores se han analizado modelos estadsticos que implican distribuciones continuas con ciertos supuestos bsicos para la aplicacin de estas tcnicas. El principal uso de esos modelos es la estimacin de parmetros desconocidos de la poblacin en estudio, para poder hacer pruebas de validacin o ensayos de significacin y testear as las hiptesis planteadas. Estos supuestos se plantean fundamentalmente sobre el valor que toman los parmetros poblacionales o sobre comparaciones de dos de ellos. Hasta ahora se ha trabajado con magnitudes biolgicas de tipo cuantitativas y continuas. A las magnitudes discretas se las ha tratado como proporciones para poder usar los modelos vistos, y cuando se us el modelo de Gauss (normal) se tuvo que hacer una correccin por continuidad. A esta metodologa de trabajo se la denomina Estadstica Paramtrica, por contraposicin a otra donde lo que interesa es comparar distribuciones en lugar de parmetros. Mientras los supuestos usados en la paramtrica especifican la distribucin original (generalmente la gaussiana), hay otros casos en la prctica donde no se puede hacer esto, donde no se puede especificar la forma de distribucin original. Se requiere entonces otra metodologa de trabajo, una estadstica de distribuciones libres, donde no se necesitan hacer supuestos acerca de la distribucin poblacional, donde se puede comparar distribuciones entre s o verificar supuestos a cerca de la forma de la poblacin. Por ejemplo, verificar el supuesto de normalidad necesario para usar el modelo Student. La solucin para estos casos es el empleo de la Estadstica no paramtrica. Hay ciertas ventajas en su uso, tales como: - trabajar con magnitudes cualitativas, adems de las cuantitativas; - estudiar casos donde no es posible precisar la naturaleza de la distribucin; - dem para los casos donde los supuestos de la forma poblacional son dbiles; - aplicar el mismo modelo a casi todas las distribuciones en lugar a una sola; - es ms fcil de entender para quienes no poseen base matemtica adecuada. Y tambin tiene algunas desventajas como: - clculos usualmente ms engorrosos; - no extraen tanta informacin como los paramtricos si se aplican al mismo caso; - son menos eficientes si las muestras son grandes. Los modelos paramtricos tienen mayor capacidad para detectar diferencias muestrales que los no paramtricos. Es decir, son capaces de ver una diferencia significativa en casos donde los otros no pueden. Como su poder discriminador es mejor, siempre que se pueda, conviene usar modelos paramtricos antes que los no paramtricos, por su mayor sensibilidad para detectar diferencias significativas A menos que las diferencias sean tan grandes que con cualquier modelo pueden detectarse. Pero como los no paramtricos se aplican casi todos los casos, son ms fciles de entender y no tienen tanta complicacin matemtica. El independizarse de la forma de la poblacin llev a estos modelos a otras aplicaciones no clsicas, como en las ciencias de la conducta, marketing, ciencias sociales, etc. En algunas tcnicas, como las pruebas de rango o de orden, se trabaja con puntajes, que no son verdaderamente numricos, lo cual ocasiona deformaciones en los datos si se empleasen tcnicas paramtricas y el valor de las conclusiones de la validacin estadstica quedara menoscabado. Por ejemplo, se pueden asignar rangos
105
por textura, coloracin, sabor, olor (magnitudes organolpticas), clasificar por infeccin con cierto tipo de virus, y otros casos donde no se cumpla el supuesto de homogeneidad de varianzas; ac el modelo de rangos puede ser la salida. Cuando se comparan dos muestras, los modelos paramtricos hacen hincapi en la comparacin de las medias, mientras que los no paramtricos fijan su atencin en comparar medianas. La prueba de rachas de una muestra Esta prueba es para aleatoriedad. En los casos anteriores vistos se trabaj bajo el supuesto de extraccin de muestras aleatorias de la poblacin. De acuerdo con el diseo del experimento se puede lograr, sin embargo, hay casos donde no es tan sencillo hacerlo. Otras veces puede que sea necesario probar la aleatoriedad. Para ello se han venido desarrollando una serie de modelos estadsticos que estudian el orden o secuencia en que las muestras individuales fueron obtenidas, para probar que la muestra es aleatoria. Este modelo se basa en la cantidad de rachas que una muestra exhibe. Por rachas se entiende a una sucesin de smbolos idnticos que pueden estar separados o no por otro tipo de smbolos. Por ejemplo, sea una serie de mediciones de magnitudes dicotmicas identificadas con los smbolos de resultado positivo (+) o negativo (-) a juicio del investigador, de acuerdo con cierto criterio profesional empleado: Resultados: + + - - - + - - - - + + - + N de rachas: 1 2 3 4 5 6 7 La primera racha empieza con una serie de 2 smbolos positivos, la segunda racha con 3 negativos, la tercera con un positivo, y as sucesivamente hasta la sptima racha con un positivo. El nmero de rachas es r = 7. El nmero total de rachas indica si una muestra es o no aleatoria. Si se da un nmero pequeo de rachas puede deberse a una falta de independencia o a una tendencia temporal. Mientras que si por el contrario hay un nmero muy grande de rachas, las fluctuaciones cclicas sistemticas, en un perodo corto de tiempo, pueden causar influencia en los valores asignados por el investigador. Por ejemplo, si se lanza al aire una moneda 30 veces y se obtienen 30 rachas es razonable dudar de esa moneda, son demasiadas. Lo mismo ocurrira si se obtienen nicamente dos rachas, como primero todas caras y luego sellos. El nmero de rachas no depende de la frecuencia de los sucesos. En efecto, dos situaciones bien diferentes pueden tener las mismas frecuencias. Como las del ejemplo anterior de las monedas donde se tiene una frecuencia relativa de , en ambos casos. Sin embargo, en el primer caso sale una cara, luego un sello, y as sucesivamente una y una, mientras que en el segundo primero se dan 15 caras seguidas y luego los 15 sellos finales. Generalmente se conoce la distribucin muestral en muestreos repetidos, lo que permite obtener la probabilidad asociada para poder probar hiptesis. El procedimiento para aplicar este modelo es como sigue: Paso 1. Se calcula el nmero n1 de elementos de una clase identificadas por un smbolo y n2 la cantidad de elementos de la otra. Paso 2. Se ordenan los n = n1 + n2 sucesos en el orden en que ocurrieron. Paso 3. Se cuenta el nmero r de rachas. Paso 4. Se postula una hiptesis nula de trabajo que permita calcular la probabilidad asociada. Paso 5. Se determina la probabilidad que ocurran r rachas, usando Ho, y se compara con el nivel de significacin adoptado para aceptar o rechazar la Ho.
106
Para ilustrar mejor estas ideas, se presentan dos problemas resueltos, uno para muestras pequeas y el otro para las grandes. Caso 1 - Muestras pequeas: en un Laboratorio de investigacin se prueba un antiflamatorio nuevo. Los resultados son aceptables si al segundo da de aplicado al paciente se observa una reduccin del 90% en la inflamacin; se le asigna (+) a ese caso. Se quiere testear la hiptesis que la sucesin de signos positivos y negativos se produce al azar. La sucesin de los 24 casos analizados fue: Sucesin: + - + + + + - + + + - - - - + - - + + + - - - Rachas: 1 2 3 4 5 6 7 8 9 10 Se usa un test dos colas porque no se predice la direccin de la desviacin que supone. El tamao de cada muestra es 12. Usando ambas tablas del apndice se determina la zona de rechazo de la hiptesis nula cuando r es menor o igual a 7 o cuando r es mayor o igual a 19; con esto se define: Zona de aceptacin: 7 < r < 19 y como r = 10 cae dentro de esta zona y no se rechaza (Ho). Se concluye que se deben suponer aleatorias a las muestras tomadas. Caso 2 - Muestras Grandes: en un hospital se forma todas las maanas temprano, una cola de pacientes esperando su turno para la extraccin de sangre. La bioqumica a cargo decide verificar si la colocacin de hombres y mujeres es al azar. Anota el sexo de cada uno de los primeros 50 pacientes que entraron al laboratorio. Los resultados fueron: Sucesos : HH M H M HHH MM H MM H M HH MMM HH MM HH Rachas : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Sucesos : MM H M H M H MM H M HH M HH M H M H M H MM Rachas : 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 Total de rachas: r = 34. El total de hombres y mujeres fue: 25 = n1 = n2 r = 1 + [ ( 2 n1 n2 ) . n ] = 1 + [ 2 (25) 25] / 50 = 26 ( 2 n1 n2 ) ( 2 n1 n2 n ) 2 (25) 25 {[2 (25) 25] 50} (r)2 = .......... = ......-.... = 12,245 y r = 3,5 n2 ( n 1 ) (50)2 (50 1) Z = ( r - r ) / r = (r - 26 ) . 3.5 = ( 34 - 26 ) . 3.5 = 2,29* (0,01 < PN(Z2,29)= 0,011 < 0,05) Se rechaza la hiptesis de que los sexos guardan un orden aleatorio al formar la fila. Se encontr evidencia significativa para rechazarla. Si se calcula la probabilidad gaussiana para Z = 2,29 resulta p = 0,011; esto es, ms cerca del rechazo al 99% que al 95% de nivel de confianza. La prueba de aleatoriedad algunas veces es necesaria para comprobar los supuestos especficos de otros modelos estadsticos. Debera realizarse primero para decidir si el modelo es aplicable porque se verifica su supuesto de aleatoriedad, como en el caso Gauss, Student, Fisher, etc. Para evitar en la prueba de aleatoriedad, lo aconsejable es usar sorteos al azar para la seleccin de muestras.
107
La prueba de rangos de Wilcoxon En la prueba del Signo se utiliza la informacin acerca de la direccin de las diferencias encontradas en la pareja de muestras. Pero no se considera la magnitud relativa de tales diferencias. En cambio, en el modelo de Wilcoxon se toma en cuenta ambas cosas y por eso es ms poderoso que el del Signo. Ac se le da un peso a cada signo, relativo a la magnitud de la diferencia encontrada. Se la denomina tambin: Prueba de rangos sealados y pares encontrados. El investigador debe hacer dos cosas bsicas al examinar una pareja de datos: 1) determinar en la pareja cual es el "mayor" de ambos; 2) ordenar por rango las diferencias halladas. Entonces puede usar este test para validar la hiptesis nula de que no hay diferencias entre los pares debido al tratamiento aplicado. En casos donde la valoracin se hace en forma subjetiva, usando puntajes, tambin se puede aplicar el modelo de Wilcoxon (Psicologa, Sociologa, etc.). En la Bioqumica se la puede emplear cuando se valora el tamao de una reaccin ante una droga, vacuna, coloracin, etc., con algo similar a un puntaje. En Farmacia ocurre otro tanto cuando se valoran con puntos la eficacia de medicamentos, o con escalas las encuestas de opinin en tcnicas de mercadeo, propaganda, etc. Esta prueba tambin puede usarse en una muestra nica donde deseen hacer inferencias acerca de la mediana: aqu al valor supuesto en la hiptesis nula se le resta a cada observacin realizada y se tienen las diferencias buscadas para hacer el test. El supuesto bsico para poder usarlo es: las magnitudes con las que se trabaja provienen de una distribucin simtrica. No importa si cada muestra proviene de una poblacin distinta, lo importante es que ambas deben provenir de poblaciones con distribuciones simtricas. El mtodo puede ser resumido en: Paso 1. Se determina las diferencias Di entre los pares de observaciones realizadas. Paso 2. Sin tomar en cuenta el signo, se ordenan en forma creciente. Las ligas se descartan pues en este modelo no se toman en cuenta los empates nicamente se consideran los rangos de las diferencias encontradas. Paso 3. Se coloca el signo a cada uno de los rangos Ri hallados. Se suman entre s los rangos de las diferencias positivas calculando su total T+, y el de las negativas obteniendo TPaso 4. Se elige la menor de ambas sumas y se la define como el estadgrafo T. Paso 5. Se compara el valor T obteniendo con el valor crtico T para tomar decisiones. La hiptesis nula es que los tratamientos aplicados son equivalentes. Esto es, la suma de los rangos positivos y negativos son aproximadamente iguales. Habr diferencias de ambos signos pero con valoraciones que se equiparan. En cambio, si las sumas de rangos son muy diferentes, se puede deducir que el efecto del factor analizado no es despreciable ni producto del azar. En este modelo puede haber dos tipos de situaciones. La primera ocurre cuando no se aprecia diferencia entre la pareja analizada ( Di = 0 ) y se deja de lado en los clculos, al igual que en el caso del modelo anterior. La segunda ocurre cuando se produce un empate en el valor de las diferencias ( Di = Dj = = Dk ). O sea, la diferencia de rangos no es nula sino que tiene el mismo mdulo que otra diferencia. Es posible hallar
108
1, 2, 3, , k empates. En este caso, la solucin es promediar el valor de los rangos empatados hallados Ei y asignrselo a cada uno de los empates. Esto es, a cada empate se le da un valor Ei = ( R1 + R2 + + Rk ) / k.. Los siguientes ejemplos ilustran el uso de este modelo: Caso 1) Muestras pequeas: una determinacin clnica se realiz en 8 pacientes que concurrieron al laboratorio usando el mtodo A; se repiti la medicin pero usando otra marca de espectrofotmetro (mtodo B). Los resultados obtenidos fueron los del cuadro siguiente. Averiguar si es lo mismo usar uno u otro espectro. La menor de las sumas de rangos sealados es T = 4. Como no hay diferencias nulas encontradas, resulta N = n = 8, de la Tabla de wilcoxon se obtiene el valor T = 4. Como este estadgrafo no es menor que el valor crtico, se rechaza la hiptesis nula de igualdad entre ambos espectros con un nivel significacin de 0,05 para un ensayo de dos colas. Este mismo problema se puede resolver con el modelo del signo. Para ello, se calcula un valor de x = 2 y de la tabla respectiva se obtiene una posibilidad asociada Bx = 2p = 2 (0,145) = 0,029 para una prueba de dos colas. Ac no se puede rechazar la hiptesis nula (Ho) x = 2 para un valor de = 0,05. A primera vista se tienen entonces dos resultados diferentes usando estos dos modelos. Es importante destacar que no son contradictorios entre s. El modelo del Signo tiene menor sensibilidad y no puede detectar diferencia alguna entre ambos mtodos clnicos. No puede discriminar la pequea diferencia que implica cambiar el espectrofotmetro en la tcnica realizada. En cambio, el modelo de Wilcoxon, ms sensible, ya detecta diferencias entre ambos. Si bien en el lmite, pero suficiente para tener una prueba cientfica. Esto no es extrao pues este modelo, adems de emplear la informacin del signo, agrega ms informacin con los rangos. Es una especie de moderacin o prorrateo de los signos: no todos pesan igual a la hora de contarlos.
109
Modelo U de Mann-Whitney Este modelo U sirve para testear si dos muestras independientes han sido tomadas de la misma poblacin. Se tiene, por lo menos, una magnitud ordinal de la misma. Este es el modelo no-paramtrico ms poderoso para comparar dos muestras cuando no son apareadas. Es para el caso donde se tiene dudas acerca de la verificacin de los supuestos que piden el modelo Student, o cuando las medidas son ordinales. La hiptesis de trabajo (Ho), siempre es que ambas muestras provienen de la misma poblacin. El procedimiento a seguir para usar este mtodo es como sigue: Paso 1. Se ordenan todos los datos, de menor a mayor, de ambas muestras y en un solo conjunto, cuidando de identificar a cada uno con su muestra respectiva. Paso 2. Se determina la muestra de referencia. Conviene que sea la de menor tamao, caso contrario la muestra de control, placebo o blanco. Paso 3. Comenzando con el menor valor, se cuenta el nmero de muestras que preceden al primero de la muestra control (Ul); luego se busca el segundo de la muestra control y se cuenta el nmero de muestras precedente del otro grupo (U2); despus se ubica al tercer valor y se procede en forma anloga para determinar (U3), y as sucesivamente hasta recorrer toda la muestra de control o referencia. En caso de empate, se le asigna medio punto a cada uno. Paso 4. Se obtiene el estadgrafo U = U1 + U2 + U3 + . Paso 5. Se procede a comparar este valor contra el valor crtico de tablas. Hay dos tipos de tablas para el modelo U. Para muestras pequeas (ninguna de las muestras es mayor que 9), y arroja el valor de la probabilidad del estadgrafo U calculado en el Paso 4. Para tamao mediano de las muestras (entre 9 y 20 cada una), y da un valor crtico U que se debe comparar con el obtenido experimentalmente. Para n > 20 se usa la aproximacin con la funcin de Gauss.
110
BIBLIOGRAFA SIDNEY Siegel. Estadstica no paramtrica aplicada a las ciencias de la conducta. Ed. Trillas, Mxico, 344 p.1992. LONDOO F. Juan Luis. Yuluka. U de A.1995. Metodologa de la Investigacin Epidemiolgica. Editorial
BETH DawsOn- Saunders, Trapp Robert G. Bioestadstica Mdica. Editorial el Manual Moderno, S.A de C.V. 1993.Mxico, D.F. 380 p. NORMAN, R. Geoffrey, Streitner David. Divisin Iberoamericana.1996. Bioestadstica. Mosby Doyma Libros S.A.
WAYNE W. Daniel. Bioestadstica: Base para el anlisis de las Ciencias de la Salud. 1990. Mendenhall, William. Probabilidad y estadstica para ingeniera y ciencias. Prentice may, 1997. cuarta edicin. Martnez Bencardino. Ciro. Estadstica y muestreo. Bogot, Eco ediciones, 1999. Daz cadavid. Abel. Gutirrez Arias, Armando. libres, 1995. Estadstica general. Medelln, Alas
111

SPSS Fundamentos de Estadistica

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

SPSS Fundamentos de Estadistica

Încărcat de

Drepturi de autor:

Formate disponibile

FUNDAMENTOS DEL ANLISIS ESTADSTICO DE DATOS CON LA AYUDA DEL SPSS1 (Statistical Package for the Social Sciences)

UNIVERSIDAD DE ANTIOQUIA ESCUELA DE NUTRICIN Y DIETTICA MEDELLN, 2002

Diseado por Alejandro Estrada Restrepo

Diseado por Alejandro Estrada Restrepo

, por ejemplo, N3=

Representacin Grfica de un Conjunto de Datos

19,1 12,6 7,5

LUGAR DE OCURRENCIA DE LA DEFUNCION POR SEXO. MEDELLIN, 19871987-1996

INGRESO EN FUNCIN DE LOS AOS DE ANTIGEDAD. ODONTLOGOS DE LA CIUDAD DE MEDELLN. 1999

Ingresos en diez miles

MEDIDAS DESCRIPTIVAS DE UNA MUESTRA Medidas de Tendencia Central

Cuando hay datos repetidos, la media aritmtica puede calcularse as: X =

105 + 80 + 150 + 90 = 21.25 Min. 20

X 1, X 2,..., Xn , esta frmula es fcil de calcular cuando

Simblicamente la frmula ser:

n LogXi = 10.83 , as: X g= Antilog i =1 n

0.6989 + 0.7781 + 0.9542 + 1 + 1.1760 + 1.6020 X g= Antilog = 10.83 6

Tercer cuartil (Q3): Posicin Q3 =

Posiciones de los deciles: D1 =

Ahora, deberemos de promediar las posiciones 2 y 3, as:

Ahora, deberemos de promediar los posiciones 22 y 23, c).

Medidas de Dispersin (Datos sin agrupar)

Q 3 Q1 , (es la mitad del rango intercuartilico) 2

N +1 40 + 1 41 = = = 10.25 4 4 4 2+3 = 2.5 2

As se deben promediar las posiciones 10 y 11,

(Xi- X ) = 0, luego esto no representa una medida de dispersin.

Desviacin Media (DM) =

((10 9) + (12 3) + (2 9) + (9 9) + (15 9) + (6 9) + (7 9) + (8 9) + (12 9) + (9 9))

La varianza muestral esta dada por: f).

Desviacin Estndar tpica: Es la raz cuadrada de la varianza, esto es:

S *100 (Se da en porcentaje) X

El Coeficiente de Asimetra denotado por g1, esta dado por:

3( X Me ) 3(117.8 117.5) = = 0.059 S 15.01

El coeficiente de curtosis se denota por g2 y esta dado por:

Q , donde 2(D 9 D1)

Q 23 = = 0.29 2(D 9 D1) 2(138 98.25)

Tensin Arterial Sistlica

x = + regresin ajustada queda entonces y

Estimador del intercepto

R R Square ,561a ,315

Std. Error of the Estimate 16,20

Durbin-W atson 2,198

a. Predictors: (Constant), Peso en Kgs b. Dependent Variable: Tensin Arterial Sistlica

Regression Residual Total

Sum of Squares 7978,987 17329,881 25308,868

Mean Square 7978,987 262,574

a. Predictors: (Constant), Peso en Kgs b. Dependent Variable: Tensin Arterial Sistlica

Coefficientsa Standardi zed Coefficien ts Beta ,561

(Constant) Peso en Kgs

Unstandardized Coefficients B Std. Error 76,397 11,712 ,905 ,164

Sig. ,000 ,000

a. Dependent Variable: Tensin Arterial Sistlica

Predicted Value Residual Std. Predicted Value Std. Residual

Minimum 121,65 -36,99 -1,686 -2,283

Maximum 165,09 44,77 2,295 2,763

Mean 140,04 1,59E-14 ,000 ,000

Std. Deviation 10,91 16,08 1,000 ,993

a. Dependent Variable: Tensin Arterial Sistlica

(media muestral) (varianza muestral) (desviacin muestral) (proporcin muestral)

ESTIMACIN POR INTERVALOS DE CONFIANZA

n * ( X ) / tiene una distribucin que se aproxima a la normal estandarizada

cuando n tiende a infinito.

12 / n1 + 22 / n2 , es aplicable nicamente cuando se

2 S12 / n1 + S 2 / n2 ; en donde el nmero de grados de libertad de la