Documente Academic
Documente Profesional
Documente Cultură
TEMA:
DATOS AUSENTES Y VALORES PERDIDOS
INTEGRANTES:
CHUQUIMARCA VIVIANA.
IDROVO NATALI
SANGURIMA LISSETH
DOCENTE:
MATERIA:
ESTADÍSTICA IV
CUENCA-ECUADOR
Contenido
1. INTRODUCCIÓN ..................................................................................................................... 3
2. VALORES PERDIDOS Y DATOS ATÍPICOS ................................................................................ 4
Valores Perdidos ....................................................................................................................... 4
Tipos de Valores Perdidos ......................................................................................................... 4
Causas de los valores perdidos. ................................................................................................ 4
Diagnóstico de aleatoriedad en el proceso de pérdida de observaciones. .............................. 5
Tratamiento de los Valores Perdidos. ....................................................................................... 5
Aplicación de los Valores Perdidos............................................................................................ 7
Valores Perdidos Diagnostico .................................................................................................... 7
3. CONCLUSIONES ................................................................................................................... 13
Bibliografía .................................................................................................................................. 13
2
1. INTRODUCCIÓN
En nuestra investigación buscamos realizar un análisis sobre los valores perdidos y los
datos atípicos que aparecen frecuentemente en una base de datos. El objetivo es ver que
tratamiento se les debe dar para corregir esas faltas y poder realizar un correcto análisis
estadístico.
Schafer y Graham (2002) indicaron que las razones para la ausencia de datos pueden ser
diversas: fallos en los instrumentos de medida, sujetos que no asisten a la entrevista o no
contestan a determinadas preguntas, o responden con la opción no sabe incorporada en el
cuestionario. Por esta y otras razones, los datos perdidos son ubicuos en la investigación.
Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que disminuyen
el tamaño de las muestras y en consecuencia la potencia de las pruebas de contraste de
hipótesis. Los datos faltantes no aleatorios ocasionan, además, disminución de la
representatividad de la muestra.
3
2. VALORES PERDIDOS Y DATOS ATÍPICOS
Valores Perdidos
Definición: El proceso de datos ausentes es cualquier evento sistemático
externo al encuestado (tales como errores en la introducción de los datos o
problemas de su recolección) que da lugar a la ausencia de datos.
Se considera que los datos perdidos son MCAR cuando la probabilidad de qué
un sujeto presente un valor ausente en una variable no depende ni de la propia
variable ni de ninguna otra variable recogida.
4
Diagnóstico de aleatoriedad en el proceso de pérdida de observaciones.
1. Valorar los datos ausentes para la única variable Y al formar dos
grupos de observaciones con datos ausentes para y y aquellos con
valores válidos de Y. ( Se realiza una prueba para determinar si existen
diferencias significativas y si se encuentra indicaría que existe un
proceso de perdida de datos no aleatorio).
2. Una segunda aproximación consistiría en utilizar las correlaciones
dicotomizadas para evaluar la correlación de los datos ausentes en
cualquier par de valores. Las correlaciones indican el grado de
asociación entre los valores perdidos sobre cada par de variables. Bajas
Correlaciones implican aleatoriedad en el par de variables.
a. Si la aleatoriedad es indicativa para todos los pares de
variables, entonces el investigador puede suponer que los datos
ausentes pueden clasificarse como MCAR.
b. Si existen correlaciones significativas etre algunos pares de
variables, entonces el investigador puede tener que suponer que
los datos son solo MAR.
c. Finamente se puede realizar un test conjunto de aleatoriedad
que determine si los datos ausentes pueden como MCAR. Se
estudia el patrón de datos ausentes sobre todas las variables y
las compara con el patrón esperado para el proceso de datos
ausentes. Si no se encuentra diferencias significativas los datos
ausentes pueden ser clasificados como MCAR, caso contrario
se tienen que hacer aproximaciones.
5
excluye el caso para evitar cualquier aumento artificial en el poder
explicativo del análisis.
Método de imputación: Es un proceso de estimación de valores
ausentes, el objetivo es emplear relaciones conocidas que puedan
identificarse en los valores validos de la muestra para ayudar a la
estimación de valores ausentes.
Los métodos de imputación consisten en estimar los valores ausentes
en base a los valores válidos de otras variables y/o casos de la muestra.
La estimación se puede hacer a partir de la información del conjunto
completo de variables o bien de algunas variables especialmente
seleccionadas. Usualmente los métodos de imputación se utilizan con
variables métricas (de intervalo o de razón), y deben aplicarse con gran
precaución porque pueden introducir relaciones inexistentes en los
datos reales.
Principales procedimientos:
6
o Imputación por regresión. Este método consiste en estimar los
valores ausentes en base a su relación con otros variables
mediante Análisis de Regresión.
Inconvenientes:
Estadísticos univariados
SectorActividad 100 0 ,0
7
a. Número de casos fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).
Un factor para aliviar algunos de los altos niveles de datos ausentes para ciertas
variables es la eliminación de los casos del análisis. Pero nuestro caso no
existen niveles altos de % de datos ausentes por lo tanto tomo otros método.
Podemos ver que los 100 casos originales ninguno sobrepasaba más de 90%
de error en sus variables por lo tanto no han sido excluidas del análisis. Con
las variables trabajadas se ha puesto intencionalmente datos ausentes para
realizar el análisis de ausencia de datos.
ual s
t . -1,0 ,4
gl . 17,0 17,6
t -,2 . ,8
gl 11,3 . 16,9
t 1,8 -1,0 .
gl 12,8 11,0 .
s no presente 73 77 88
no perdido 8 12 0
8
Media(Perdidos) 1490,00 73,50 .
Para cada variable cuantitativa, los pares de grupos están formados por variables indicador (presente, perdido).
a. Las variables indicador con menos del 5% de los valores perdidos no se muestran.
Fuente:Base de datos SPSS
Correlaciones de EMa,b
diomesual es oPymes
Ingresopromediomesual 1
Visitadeclientes ,464 1
9
Covarianzas de EMa,b
omesual s edioPymes
Ingresopromediomesual 5922132,205
ual s
Ingresopromediomesual 1
Visitadeclientes ,455 1
omesual s edioPymes
Ingresopromediomesual 5789145,961
mesual dioPymes
Ingresopromediomesual 6182168,967
10
Ingresoprom EdadPromedi Visitadeclient
ediomesual oPymes es
Ingresopromediomesual 1
EdadPromedioPymes -,088 1
ediomesual oPymes es
diomesual oPymes es
Covarianzas de regresión
mesual oPymes
Ingresopromediomesual 6042173,968
Correlaciones de regresión
11
Ingresoprom EdadPromedi Visitadeclient
ediomesual oPymes es
Ingresopromediomesual 1
EdadPromedioPymes ,019 1
12
3. CONCLUSIONES
La presencia de valores perdidos (información ausente o faltante) es un problema común
a cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos
ausentes puede tener repercusiones graves que van desde la perdida de potencia del
estudio hasta la aparición de sesgos inaceptables. La eliminación de sujetos con
características especiales limita la representatividad o validez externa de los resultados
del estudio.
Bibliografía
El teorema del límite central: las medias de muestras grandes y aleatorias son
aproximadamente normales. (2017). Obtenido de Minnitab:
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/data-concepts/about-the-central-limit-theorem/
13