Sunteți pe pagina 1din 10

Universidad Nacional de Itapa

Facultad de Ciencias y Tecnologa


Ingeniera Ambiental

El test chi cuadrado ( ) es un procedimiento estadstico que, entre otros usos,


constituye una herramienta til para evaluar si dos variables se encuentran asociadas o si son
independientes. Como prueba estadstica, trabaja con variables categricas. Son variables
categricas aquellas que permiten clasificar los casos medidos en categoras de lmites bien
definidos, excluyentes unas de otras. Ejemplo:

VARIABLES CATEGORAS
Genero Hombre /mujer
Nivel Socio - econmico Alto/medio/alto
Rendimiento Acadmico Excelente/Bueno/regular/deficiente
Color de ojos Verdes/caf/azul/negro
Nacionalidad Paraguayo/extranjero

Algunas interrogantes que se pueden resolver recurriendo al Chi cuadrado


Estn relacionados los hbitos de lectura con el sexo
Estn relacionadas las calificaciones obtenidas con el nmero de faltas.
Es independiente la opinin sobre la poltica exterior de la poltica partidista
Es independiente el sexo de una persona de sus preferencias en colores
El estado nutricional est asociado con el desempeo acadmico
El precio est asociado con la calidad de un producto electrodomstico
Estn relacionadas las enfermedades del corazn con el tabaquismo

Para saber si dos o ms variables se encuentran asociadas o si son independientes a


travs de la prueba del Chi cuadrado, se debe calcular el estadstico Chi cuadrado y el
valor critico.
Para hallar el valor crtico, primeramente es importante introducir dos conceptos:
a) El nivel de significacin
b) Los grados de libertad

1
Universidad Nacional de Itapa
Facultad de Ciencias y Tecnologa
Ingeniera Ambiental

Nivel de significancia

En estadstica, un resultado se denomina estadsticamente significativo cuando no es


probable que haya sido debido al azar.

Este nivel de significacin se refiere a la probabilidad de que los resultados observados


se deban solamente al azar. Si responden ms bien al azar, no podramos decir que, en el caso
de chi cuadrado, existe una asociacin estadsticamente significativamente significativa
entre los factores estudiados.

El valor del nivel de significancia es fijado arbitrariamente por el investigador


usualmente el 5% o 10%, estos niveles se consideran aceptables en las diferentes ciencias.
Cuando se decide trabajar con el 5% o sea 0.05, estamos concediendo que solo en un 5% de
las veces el resultado obtenido podr deberse al azar, dicho de otra manera se tiene una
confianza del 95% al sealar que el resultado es significativo y no debido al azar. El margen
de error que nos damos en nuestra conclusin no es mayor que un 5%.

Grados de libertad: GL (gl) = k 1

En estadstica, los grados de libertad son el nmero de piezas independientes


de datos usados en clculos. El nmero de grados de libertad es usado para medir qu tan
exacta es la muestra de la poblacin usada en la investigacin para representar a la poblacin
por entero. Mientras ms grados de libertad, ms seguros podemos estar de que la poblacin
por entero ha sido muestreada correctamente.

PARA QU UTILIZAMOS UNA PRUEBA DE CHI CUADRADO

Para determinar si la muestra se ajusta o no se ajusta a una distribucin terica


Para saber si la poblacin son homognea o no
Para determinar la dependencia e independencia de la(s) variable(s) a analizar

2
Universidad Nacional de Itapa
Facultad de Ciencias y Tecnologa
Ingeniera Ambiental

Tabla de contingencia:

El objeto de las tablas de contingencia es extraer informacin del cruce entre dos o
ms variables de tipo categrico o cualitativo, ya sean stas de tipos nominal u ordinal.
Se trabajara con una tabla de valores observados como con una de valores esperados

A) PRUEBA DE LA BONDAD DE AJUSTE

Estas pruebas permiten verificar que la poblacin de la cual proviene una muestra
tiene una distribucin especificada o supuesta.

Para realizar el contraste de Bondad de Ajuste debemos calcular las frecuencias


esperadas de cada suceso bajo la hiptesis de uniformidad entre los valores, si la muestra
fuera aleatoria toda la poblacin tendra la misma probabilidad de seleccin.

Se utiliza para la comparacin de la distribucin de una muestra con alguna


distribucin terica que se supone describe a la poblacin de la cual se extrajo
()2
2 =

Si 2 < 2 proviene de una muestra uniforme

Si 2 > 2 proviene de una muestra no uniforme

3
Universidad Nacional de Itapa
Facultad de Ciencias y Tecnologa
Ingeniera Ambiental

Ejemplo (ejercicio 1)

Un estanciero posee cuatro zonas de cultivo, y afirma a sus colaboradores que las zonas
tienen el mismo potencial de produccin.
Ante la duda de los colaboradores sobre el potencial de sus zonas el dueo hace el siguiente
procedimiento: se extrae una muestra de los archivos de la estancia de 40 cosechas realizadas
y encuentra que el nmero de produccin en toneladas por zona son: zona 1 = 6; zona 2 = 12;
zona 3 = 14 y Zona 4 = 8. En vista de esos resultados se realiza una prueba de bondad de
ajuste.

Para hallar el valor crtico se debe tener en cuenta el grado de libertad y el nivel de
significancia

Grados de libertad: K -1 = 4 1 = 3 donde k = al nmero de variables

Nivel de significancia = 0,05

Para hallar valor de significacin (valor crtico) existen dos opciones 2

a) Usar una tabla que todos los libros de estadsticas traen en su apndice.

b) Usar una calculadora o computadora para determinar este valor con la funcin
PRUEBA.CHI.INV

4
Universidad Nacional de Itapa
Facultad de Ciencias y Tecnologa
Ingeniera Ambiental

Para hallar el valor critico, se abre Excel y en la funcin f(x), buscamos en estadsticas

Luego buscar la funcin PRUEBA.CHI.INV Y completar los datos

Completar el nivel de confianza y los grados de libertad

5
Universidad Nacional de Itapa
Facultad de Ciencias y Tecnologa
Ingeniera Ambiental

Y nos da el valor de 7,81


Ahora debemos elaborar la tabla de contingencia con los valores observados y los esperados
(total de poblacin dividido cantidad de evento) (en este caso 40/4 = 10)

A B C D
Valores observados 6 12 14 8
Valores esperados 10 10 10 10

Ahora debemos hallar el valor de 2 teniendo en cuenta la siguiente frmula


()2
2 = esta frmula hay que introducir en la computadora o hacerlo con calculadora,

este valor nos da 4.


Por tanto podemos decir con un 95% de confianza que, la produccin es uniforme en las
cuatro zonas de la estancia ya que 2 < 2
4 < 7.81..

6
Universidad Nacional de Itapa
Facultad de Ciencias y Tecnologa
Ingeniera Ambiental

B) PRUEBA DE HOMOGENEIDAD

Esta prueba se realiza, si el investigador est interesado en determinar si los datos


correspondientes a dos o ms muestras aleatorias provienen de la misma poblacin, o que las
poblaciones sean homogneas.
Esta prueba es muy til para comparar diversas muestras y extraer conclusiones sobre la
igualdad en las distribuciones poblacionales de cada una de ellas.

2 > 2 no existe homogeneidad o sea las distribuciones no son homogneas

2 < 2 existe homogeneidad o sea las distribuciones son homogneas

Del mismo modo que la Prueba de Bondad de Ajuste, en este caso debemos comparar las
frecuencias observadas en cada una de las muestras y para cada categora con las frecuencias
bajo el supuesto de homogeneidad en las poblaciones.

Ejemplo: (ejercicio 2)
Estamos interesados en estudiar la fiabilidad de cierto componente de frmacos con
relacin al distribuidor que nos lo suministra. Para realizar esto, tomamos una muestra de 100
componentes de cada uno de los 3 distribuidores que nos proveen el producto comprobando el
nmero de defectuosos en cada lote. La tabla de abajo muestra el nmero de defectuosos por
cada distribuidor.
defectuosos correctos
distribuidor 1 6 94 100
distribuidor 2 24 76 100
distribuidor 3 9 91 100
39 261 300

Debemos realizar un contraste de homogeneidad para concluir si entre los distribuidores


existen diferencias de fiabilidad referente al mismo componente, para ello debemos
determinar el nivel de significacin, los grados de libertad y la tabla de contingencia con los
valores observados y esperados.

7
Universidad Nacional de Itapa
Facultad de Ciencias y Tecnologa
Ingeniera Ambiental

1) El valor para el nivel de significacin 0.05 y grados de libertad en este caso


2) (filas -1)(columnas -1) = (3-1)(2-1) = 2, este nivel se halla en el computador al igual que el
ejemplo anterior en este caso es igual a 5,99..

3) Para hallar el valor estadstico X2 tenemos que realizar la tabla de contingencia de los
valores esperados teniendo en cuenta que son homogneos, para ello realizamos la

siguiente operacin Tabla de los valores esperados, estas frecuencias son bajo

homogeneidad, en este caso

defectuosos Correctos
distribuidor 1 13 87 100
39 100
distribuidor 2 13 87 100 261 100
300
distribuidor 3 13 87 100 300
39 261 300

Buscando el valor de 2 = 16.4456233 y el valor crtico o de significacin 2 = 5.99146455

16.4456233 > 5.99146455

Como el estadstico Chi-cuadrado es mayor que el valor para el nivel de significacin del
5%, por tanto se puede concluir que no existe homogeneidad, y que hay diferencias entre los
tres distribuidores.

C) PRUEBA DE INDEPENDENCIA

En este caso se trata de determinar si dos cualidades o variables referidas a


individuos de una poblacin estn relacionadas. Se diferencia de los contrastes anteriores en
que en este caso nos interesa ver la relacin existente entre dos variables de una misma
poblacin, no queremos contrastar la distribucin terica de una variable (prueba de bondad
de ajuste) ni en comparar la distribucin de una nica variable en dos poblaciones (prueba de
homogeneidad)

8
Universidad Nacional de Itapa
Facultad de Ciencias y Tecnologa
Ingeniera Ambiental

Se usa para analizar la frecuencia de dos variables con categoras mltiples para
determinar si las dos variables son independientes o no.

Para calcular el valor del Chi cuadrado es preciso construir una tabla de
contingencia, que es la que muestra el resultado de clasificar el total de casos considerando
simultneamente dos variables categricas.

Una vez que se tenga la tabla de contingencia de los valores observados se debe
realizar la tabla de contingencia de los valores esperados, se halla el estadstico Chi cuadrado
y el nivel de significacin para luego compararlos.

1) Usando el enfoque clsico: para ello debemos realizar en el cual se comparan el valor
critico y el estadstico chi cuadrado
Si el estadstico chi cuadrado es mayor que el valor critico, podemos decir que existe
asociacin estadsticamente o sea que las variables son dependientes una de otra.
2 > 2
Si el estadstico chi cuadrado es menor que el valor critico, podemos decir que no
existe asociacin estadsticamente o sea que las variables son independientes una de
otra.
2 < 2

Ejemplo: (ejercicio 3)
Determinar si existe dependencia entre la prctica de algn deporte de un sujeto y su estado
de nimo, para ello se seleccion una muestra aleatoria simple 100 jvenes, con los siguientes
resultados. Tomar el nivel de significacin (5%)

Sin depresin Con depresin


Deportista 38 9 47
No deportista 31 22 53
69 31 100 Suma de filas

Frecuencia Suma de
Suma total
de valores columnas
observados 9
Universidad Nacional de Itapa
Facultad de Ciencias y Tecnologa
Ingeniera Ambiental

1) Debemos primero calcular las frecuencias esperadas bajo el supuesto de


independencia. La tabla de frecuencias esperadas sera:

sin con
depresin depresin
31 47
Deportista 32.43 14.57 47
69 47 100
No deportista 36.57 16.43 53
100
69 31 100

69 53 31 53
Valores esperados
100 100

2) Calcular el valor de significacin en el computador, nivel = 0.05 y los grados de


libertad = ( 1)( 1) = (2 1)(2 1) =
1
Calculamos el valor del nivel de significacin o valor crtico como en los dos casos
anteriores y nos da 2 = 3.84145915
()2
3) Ahora calculamos el estadstico chi cuadrado con la formula 2 = que

nos da en este caso 2 = 5.82271962. 5.82271962 > 3.84145915

Por tanto como el valor de estadstico (2) es superior al valor crtico (2 ) concluimos que
existe relacin entre la depresin y los hbitos deportistas del individuo o sea ambas
variables son dependientes.

10

S-ar putea să vă placă și