Sunteți pe pagina 1din 13

VALORES PERDIDOS

Son los valores que los encuestados no contestan


Un investigador dese averiguar sobre los hábitos de fumar tabaco para lo cual utiliza
las siguientes variables

Variable Afirmación
V1 Fumar perjudica la salud
V2 No debe permitirse fumar en lugares públicos
V3 A los poderes públicos solo les interesa recaudar impuestos con el tabaco
V4 Debe aumentarse los impuestos sobre el tabaco
V5 Debe informarse más sobre los efectos del tabaco
C1 Edad (años)
C2 Género (1=hombre; 2=mujeres)
C3 Hábito (1= fumador ; 2= no fumador

Con los valores perdidos de la variable V4 se procede a crear 2 variables; V4a ubicando
aleatoriamente los valores perdidos y la variable V4b ubicando en base a un patrón
fumadores o sistemáticos.
Formas para reconocer si una variable contiene valores perdidos aleatorios o si la
variable contiene valores perdidos sistemáticos (patrón).
1. Utilizando la media aritmética
La variable que tenga mayor media aritmética contiene valores perdidos
sistemáticamente o generados en base a un patrón. Por otro lado la que tiene menor
media aritmética contiene valores perdidos aleatoriamente.
Estadísticos descriptivos
Desviación
N Mínimo Máximo Media estándar
v4a 24 1 5 2,92 1,530
v4b 23 1 5 3,43 1,376
N válido (por lista) 19

 La variable v4b contiene valores perdidos generados sistemáticamente….por lo


tanto la variable v4b no debo utilizarle en mi investigación
 La variable v4a por tener la media aritmética menor se dice que los datos
perdidos generados aleatoriamente, por lo tanto la variable v4a debo utilizar
para mi investigación y debo sustituir los valores perdidos.
2da Forma utilizando la prueba T
En nuestro ejemplo como son los fumadores quienes no han querido contestar
principalmente a la pregunta sobre si debe aumentar los impuestos es probable que
los casos con valores perdidos principalmente fumadores estén más en desacuerdo
con que por ejemplo no se pueda fumar en lugares públicos que los casos sin valores
perdidos. (pág.16)
Prueba de muestras independientes
Prueba de
Levene de
igualdad de
varianzas prueba t para la igualdad de medias
95% de intervalo
de confianza de
Sig. Diferenci Diferenci la diferencia
(bilateral a de a de error Inferio Superio
F Sig. t gl ) medias estándar r r
v2 Se 7,00 ,01 1,05 28 ,299 ,167 ,157 -,156 ,489
perdido=0 asumen 0 3 8
presente= varianza
1 s iguales
No se 2,14 23,00 ,043 ,167 ,078 ,006 ,327
asumen 5 0
varianza
s iguales

Prueba de Hipótesis para la significancia bilateral


Ho µ4a=µ4b
Ho µ4a≠µ4b

Regla de decisión
1. Si el valor de la significancia es mayor que 5% =0,05
Entonces se acepta la hipótesis nula, se rechaza la hipótesis alterna esto quiere decir
que las medias aritméticas comparadas son iguales por lo tanto la variable de
agrupación no va a influir en la investigación, le mantenemos a la base de datos y
corresponde a valores perdido generados aleatoriamente
2. Si el valor de la significancia es menor que 5% =0,05
Entonces se acepta la hipótesis alterna, se rechaza la hipótesis nula esto quiere decir
que las medias aritméticas comparadas no son iguales por lo tanto la variable de
agrupación no va a influir en la investigación, no le mantenemos a la base de datos y
corresponde a valores perdido generados sistemáticamente o en base a un patrón en
nuestro caso fumadores.
Para la variable de v4a
1. El valor de la significancia bilateral es igual a 0,299 que es mayor que el 5%.
Entonces se acepta la hipótesis nula, se rechaza la hipótesis alterna esto quiere
decir que las medias aritméticas comparadas son iguales por lo tanto la variable
de agrupación no va a influir en la investigación, le mantenemos a la base de
datos y corresponde a valores perdido generados aleatoriamente
2. Cálculo del valor T
𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑚𝑒𝑑𝑖𝑎𝑠 0,167
𝑡= = = 1,0634
𝐸𝑟𝑟𝑜𝑟 𝑇í𝑝𝑖𝑐𝑜 𝑑𝑒 𝑙𝑎𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠 0,157
3. Intervalo de confianza

{489; -0,156}

El cero está dentro del intervalo? Si, entonces los valores de la variable v4a han sido
generados aleatoriamente.

Para la variable v4b


Prueba de muestras independientes
Prueba de
Levene de
igualdad de
varianzas prueba t para la igualdad de medias
95% de intervalo
Diferencia Diferencia de confianza de
Sig. de de error la diferencia
F Sig. t gl (bilateral) medias estándar Inferior Superior
v2 Se asumen ,078 ,783 - 24 ,008 -1,304 ,450 -2,232 -,377
varianzas 2,902
iguales
No se - 2,265 ,145 -1,304 ,596 -3,600 ,991
asumen 2,190
varianzas
iguales

1. Regla de decisión

Valor de la significancia es igual a 0,08 menor que el 5%

Entonces se acepta la hipótesis alterna, se rechaza la hipótesis nula esto quiere decir
que las medias aritméticas comparadas no son iguales por lo tanto la variable de
agrupación no va a influir en la investigación, no le mantenemos a la base de datos y
2. Cálculo del valor T
𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑚𝑒𝑑𝑖𝑎𝑠 −1,304
𝑡= = = −2,898
𝐸𝑟𝑟𝑜𝑟 𝑇í𝑝𝑖𝑐𝑜 𝑑𝑒 𝑙𝑎𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠 0,450

3. Intervalo de confianza

{-0,377; -2,232}

¿El cero está dentro del intervalo? No, entonces los valores de la variable v4b han sido
generados Sistemáticamente o en base a un patrón en este caso fumadores

TERCER PROCEDIMIENTO. CORRELACION


Correlaciones
v4a perdido=0 v4b perdido=0 v2 perdido=0
presente=1 presente=1 presente=1
v4a perdido=0 presente=1 Correlación de Pearson 1 ,118 ,196
Sig. (bilateral) ,534 ,299
N 30 30 30
v4b perdido=0 presente=1 Correlación de Pearson ,118 1 -,711**
Sig. (bilateral) ,534 ,000
N 30 30 30
v2 perdido=0 presente=1 Correlación de Pearson ,196 -,711** 1
Sig. (bilateral) ,299 ,000
N 30 30 30
**. La correlación es significativa en el nivel 0,01 (bilateral).

Menor correlación generada aleatoriamente -0,711


Mayor correlación generada sistemáticamente 0,192

Tratamiento de valores perdidos

Procedimientos para completar los datos ausentes en nuestro caso en la variable v4b en la cual
los valores perdidos han sido generados aleatoriamente.

1. Procedimiento: Por lista y por parejas


Medias por lista
Número de
casos v4a v1 v2 v3 v5 c1
20 3,25 4,60 4,25 3,65 4,55 22,15

Los valores que están ausentes se llena con el valor de la tabla de medias
Por parejas

Medias por par


v4a v1 v2 v3 v5 c1
v4a 2,92 4,63 4,25 3,79 4,50 22,33
v1 2,92 4,67 4,15 3,80 4,43 22,07
v2 3,25 4,65 4,15 3,69 4,46 21,88
v3 2,92 4,67 4,15 3,80 4,43 22,07
v5 2,92 4,67 4,15 3,80 4,43 22,07
c1 2,92 4,67 4,15 3,80 4,43 22,07
c2 2,92 4,67 4,15 3,80 4,43 22,07
c3 2,92 4,67 4,15 3,80 4,43 22,07
Media de variable cuantitativa cuando está presente otra variable.

En la columna v4a se reemplaza por el número que más se repite (2,92)

En la columna v1 se reemplaza por el número que más se repite (4,67)

En la columna v2 se reemplaza por el número que más se repite (4,15)

En la columna v3 se reemplaza por el número que más se repite (3,80)

En la columna v4 se reemplaza por el número que más se repite (4,43)

Utilizando la regresión lineal múltiple para la variable v4a


Coeficientesa
Coeficientes
Coeficientes no estandarizados estandarizados
Modelo B Error estándar Beta t Sig.
1 (Constante) βo=-,016 3,670 -,004 ,997
v1 β1=,137 ,255 ,091 ,539 ,596
v3 β2=-,372 ,234 -,304 -1,591 ,128
v5 β3=,926 ,377 ,472 2,457 ,024
edad β4=-,021 ,142 -,025 -,145 ,886
a. Variable dependiente: v4a

Se acpeta b, en la tabla
Modelo general
V4a= βo
Modelo particular

Para encontrar el valor a ser empleado en la línea en la variable v4a

-0,06+(0,137*v1)+(-0,372*v3)+(0,926*v5)+(0,021*EDAD)

Deber 8:- repetir con 20 datos

Deber 9: youtube ver en el spss

S-ar putea să vă placă și