Datos Ausentes y Perdidos

UNIVERSIDAD DE CUENCA
FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS.

ESCUELA DE ECONOMÍA
TEMA:
DATOS AUSENTES Y VALORES PERDIDOS
INTEGRANTES:
CHUQUIMARCA VIVIANA.
IDROVO NATALI
SANGURIMA LISSETH
DOCENTE:
ECO. FABIÁN CORDERO
MATERIA:
ESTADÍSTICA IV
CUENCA-ECUADOR
Contenido
1. INTRODUCCIÓN ..................................................................................................................... 3
2. VALORES PERDIDOS Y DATOS ATÍPICOS ................................................................................ 4
Valores Perdidos ....................................................................................................................... 4
Tipos de Valores Perdidos ......................................................................................................... 4
Causas de los valores perdidos. ................................................................................................ 4
Diagnóstico de aleatoriedad en el proceso de pérdida de observaciones. .............................. 5
Tratamiento de los Valores Perdidos. ....................................................................................... 5
Aplicación de los Valores Perdidos............................................................................................ 7
Valores Perdidos Diagnostico .................................................................................................... 7
3. CONCLUSIONES ................................................................................................................... 13
Bibliografía .................................................................................................................................. 13
2
1. INTRODUCCIÓN
En nuestra investigación buscamos realizar un análisis sobre los valores perdidos y los
datos atípicos que aparecen frecuentemente en una base de datos. El objetivo es ver que
tratamiento se les debe dar para corregir esas faltas y poder realizar un correcto análisis
estadístico.
La presencia de valores perdidos (información ausente o faltante) es un problema común

en cualquier investigación, y no puede ser ignorado en el análisis de datos, pues puede
ser de grave repercusión en la pérdida de potencia del análisis, hasta en la aparición de
sesgos inaceptables. La eliminación de entes con este problema limita la representatividad
o validez externa de los resultados del estudio, a pesar de que es algo prácticamente
inevitable en las investigaciones (Uriel y Aldás 2013).
Schafer y Graham (2002) indicaron que las razones para la ausencia de datos pueden ser
diversas: fallos en los instrumentos de medida, sujetos que no asisten a la entrevista o no
contestan a determinadas preguntas, o responden con la opción no sabe incorporada en el
cuestionario. Por esta y otras razones, los datos perdidos son ubicuos en la investigación.
Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que disminuyen
el tamaño de las muestras y en consecuencia la potencia de las pruebas de contraste de
hipótesis. Los datos faltantes no aleatorios ocasionan, además, disminución de la
representatividad de la muestra.
3
2. VALORES PERDIDOS Y DATOS ATÍPICOS
Valores Perdidos
Definición: El proceso de datos ausentes es cualquier evento sistemático
externo al encuestado (tales como errores en la introducción de los datos o
problemas de su recolección) que da lugar a la ausencia de datos.
El impacto de los datos ausentes es perjudicial no sólo por sus potenciales

sesgos sino también por su efecto en el tamaño de la muestra disponible para
el análisis. (Hair, 2000)
Tipos de Valores Perdidos

Rubín (1976) clasifica los datos perdidos en tres tipos: datos perdidos
completamente al azar MCAR , datos perdidos al azar MAR y datos perdidos
no debidos a azar NMAR.
Se considera que los datos perdidos son MCAR cuando la probabilidad de qué
un sujeto presente un valor ausente en una variable no depende ni de la propia
variable ni de ninguna otra variable recogida.
En cambio, los datos perdidos se consideran MAR cuando la probabilidad de

no observar un dato depende de otras variables pero no de los valores de la
variable con valores perdidos.
Finalmente, los datos perdidos se consideran de tipo NMAR cuando la

probabilidad de que un sujeto presente un valor faltante depende de dicha
variable con valores perdidos. (Valencia, s.f.)
Causas de los valores perdidos.

Procesos sistemáticos externos a los sujetos, problemas en la recogida
de datos.
Reacciones de los sujetos, principalmente el reusarse a responder
generando:
o Datos ausentes ingnorables, que son sistemáticos y cuya
presencia está justificada o explicada ( proceso generador es
aleatorio)
o Otros tipos de datos ausentes, son no sistemáticos y se dan por
falta de respuesta a determinadas preguntas ( variables)
4
Diagnóstico de aleatoriedad en el proceso de pérdida de observaciones.
1. Valorar los datos ausentes para la única variable Y al formar dos
grupos de observaciones con datos ausentes para y y aquellos con
valores válidos de Y. ( Se realiza una prueba para determinar si existen
diferencias significativas y si se encuentra indicaría que existe un
proceso de perdida de datos no aleatorio).
2. Una segunda aproximación consistiría en utilizar las correlaciones
dicotomizadas para evaluar la correlación de los datos ausentes en
cualquier par de valores. Las correlaciones indican el grado de
asociación entre los valores perdidos sobre cada par de variables. Bajas
Correlaciones implican aleatoriedad en el par de variables.
a. Si la aleatoriedad es indicativa para todos los pares de
variables, entonces el investigador puede suponer que los datos
ausentes pueden clasificarse como MCAR.
b. Si existen correlaciones significativas etre algunos pares de
variables, entonces el investigador puede tener que suponer que
los datos son solo MAR.
c. Finamente se puede realizar un test conjunto de aleatoriedad
que determine si los datos ausentes pueden como MCAR. Se
estudia el patrón de datos ausentes sobre todas las variables y
las compara con el patrón esperado para el proceso de datos
ausentes. Si no se encuentra diferencias significativas los datos
ausentes pueden ser clasificados como MCAR, caso contrario
se tienen que hacer aproximaciones.
Tratamiento de los Valores Perdidos.

Utilizar solo aquella observación con datos completos: Se incluye
las observaciones solo con datos completos. Esta aproximación deberá
solo usarse cuando los datos ausentes son MCAR porque si no lo es
incluye datos no aleatorios y los resultados serían sesgados.
Supresión de casos y o variables: Otra solución es suprimir el caso o
la variable que peor se comporta respecto a los datos ausentes. El
investigador determina el nivel especificado para proceder a la
eliminación de la variable. Cuando los datos son no aleatorios se puede
trabajar eficientemente, por lo general en las variables dependientes se
5
excluye el caso para evitar cualquier aumento artificial en el poder
explicativo del análisis.
Método de imputación: Es un proceso de estimación de valores
ausentes, el objetivo es emplear relaciones conocidas que puedan
identificarse en los valores validos de la muestra para ayudar a la
estimación de valores ausentes.
Los métodos de imputación consisten en estimar los valores ausentes
en base a los valores válidos de otras variables y/o casos de la muestra.
La estimación se puede hacer a partir de la información del conjunto
completo de variables o bien de algunas variables especialmente
seleccionadas. Usualmente los métodos de imputación se utilizan con
variables métricas (de intervalo o de razón), y deben aplicarse con gran
precaución porque pueden introducir relaciones inexistentes en los
datos reales.
Principales procedimientos:
o Sustitución por la Media. Consiste en sustituir el valor ausente

por la Media de los valores válidos. Este procedimiento plantea
inconvenientes como:
 Dificulta la estimación de la Varianza
 Distorsiona la verdadera distribución de la variable,
 Distorsiona la correlación entre variables dado que añade

valores constantes.
o Sustitución por constante. Consiste en sustituir los valores

ausentes por constantes cuyo valor viene determinado por
razones teóricas o relacionadas con la investigación previa.
Presenta los mismos inconvenientes que la sustitución por la
Media, y solo debe ser utilizado si hay razones para suponer
que es más adecuado que el método de la media.
6
o Imputación por regresión. Este método consiste en estimar los
valores ausentes en base a su relación con otros variables
mediante Análisis de Regresión.
Inconvenientes:
 Incrementa artificialmente las relaciones entre variables.
 Hace que se subestime la Varianza de las distribuciones.
 Asume que las variables con datos ausentes tienen relación

de alta magnitud con las otras variables.
Aplicación de los Valores Perdidos

Un investigador desea saber acerca de las Pymes de Cuenca cual es su: nivel
de ingresos promedio, número de clientes que los visitan al mes y su edad
promedio de operaciones de acuerdo a sus actividad sectorial que pertenece
cada empresa, junto a estas preguntas se hicieron otra como número de
trabajadores tanto mujeres como hombres remunerados de acuerdo a la pyme
donde laboran.
Valores Perdidos Diagnostico

El siguiente paso es examinar las pautas de datos ausentes y determinar si los
datos ausentes se distribuyen aleatoriamente a través de los casos y de las
variables. El primer test para evaluar la aleatoriedad es comparar las
observaciones con o sin datos ausentes para cada variable en función de las
otras variables con una prueba T para ver si existen diferencias significativas.
Estadísticos univariados
N Media Desviación típ. Perdidos No de extremosa
Recuento Porcentaje Bajos Altos
Ingresopromediomesual 81 2423,16 2406,064 19 19,0 0 0
EdadPromedioPymes 89 20,79 81,421 11 11,0 0 4
Visitadeclientes 88 416,88 435,175 12 12,0 0 3
SectorActividad 100 0 ,0
7
a. Número de casos fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).
Fuente:Base de datos SPSS
Realizado por: Grupo de Trabajo
Un factor para aliviar algunos de los altos niveles de datos ausentes para ciertas
variables es la eliminación de los casos del análisis. Pero nuestro caso no
existen niveles altos de % de datos ausentes por lo tanto tomo otros método.
Podemos ver que los 100 casos originales ninguno sobrepasaba más de 90%
de error en sus variables por lo tanto no han sido excluidas del análisis. Con
las variables trabajadas se ha puesto intencionalmente datos ausentes para
realizar el análisis de ausencia de datos.
Evaluación de la aleatoriedad de los datos ausentes a través de

comparaciones de grupos de observaciones con datos ausentes frente a
datos válidos.
Pruebas T con varianzas separadas
Ingresopromediomes EdadPromedioPyme Visitadeclientes
ual s
t . -1,0 ,4
gl . 17,0 17,6
P(bilateral) . ,331 ,679

Ingresoprome
no presente 81 71 73
diomesual
no perdido 0 18 15
Media(Presentes) 2423,16 12,20 427,42
Media(Perdidos) . 54,67 365,53
t -,2 . ,8
gl 11,3 . 16,9
P(bilateral) ,867 . ,463

EdadPromedio
no presente 71 89 77
Pymes
no perdido 10 0 11
Media(Presentes) 2405,06 20,79 426,84
Media(Perdidos) 2551,70 . 347,09
t 1,8 -1,0 .
gl 12,8 11,0 .
Visitadecliente P(bilateral) ,089 ,360 .
s no presente 73 77 88
no perdido 8 12 0
Media(Presentes) 2525,42 12,57 416,88
8
Media(Perdidos) 1490,00 73,50 .
Para cada variable cuantitativa, los pares de grupos están formados por variables indicador (presente, perdido).
a. Las variables indicador con menos del 5% de los valores perdidos no se muestran.
La siguiente tabla contiene los resultados aplicando el test con la prueba T,

aquí nos muestra si existe diferencias significativas entre los distintos pares de
variables.
El segundo test de aleatoriedad implica el uso de correlaciones entre variables

dicotómicas. La varíales dicotómicas se forman al reemplazar los valores
validos por y los datos ausentes por cero. Las correlaciones resultantes entre
las variables dicotómicas indican la medida en que los datos ausentes están
relacionados entre pares de variables. Una correlación baja indica una baja
asociación entre los procesos de ausencia de datos para están dos variables.
Evaluación de la aleatoriedad de los datos ausentes a través de correlaciones

de una variable dicotomizada y el test multivalente para la ausencia
completamente aleatoria (MCAR).
Correlaciones de EMa,b
Ingresoprome Visitadeclient EdadPromedi
diomesual es oPymes
Ingresopromediomesual 1
Visitadeclientes ,464 1
EdadPromedioPymes -,070 -,207 1
a. Prueba MCAR de Little: Chi-cuadrado = 23,037, GL = 8, Sig. = ,003
b. El algoritmo EM no ha logrado converger en 25 iteraciones.
9
Covarianzas de EMa,b
Ingresopromedi Visitadecliente EdadProm
omesual s edioPymes
Ingresopromediomesual 5922132,205
Visitadeclientes 497682,524 194211,916
EdadPromedioPymes -13778,289 -7409,519 6612,464
a. Prueba MCAR de Little: Chi-cuadrado = 23,037, GL = 8, Sig. = ,003
b. El algoritmo EM no ha logrado converger en 25 iteraciones.

Correlaciones según pareja
Ingresopro Visitadecli EdadProm
mediomes entes edioPyme
ual s
Visitadeclientes ,455 1
EdadPromedioPymes -,092 -,147 1

Covarianzas según pareja
Ingresopromedi Visitadecliente EdadProm
omesual s edioPymes
Visitadeclientes 467768,123 189376,892
EdadPromedioPymes -2231,097 -715,818 6629,306

Covarianzas según lista
Ingresopromedio EdadProme Visitadeclientes
mesual dioPymes
EdadPromedioPymes -2248,042 105,633
Visitadeclientes 528827,638 -613,616 183709,208

Correlaciones según lista
10
Ingresoprom EdadPromedi Visitadeclient
ediomesual oPymes es
EdadPromedioPymes -,088 1
Visitadeclientes ,496 -,139 1

Resumen de las medias estimadas
Todos los valores 2423,16 20,79 416,88
EM 2385,71 21,09 402,17
Regresión 2401,55 20,02 417,03

Resumen de las desviaciones típicas estimadas
Ingresoprome EdadPromedi Visitadeclient
diomesual oPymes es
Todos los valores 2406,064 81,421 435,175
EM 2433,543 81,317 440,695
Regresión 2458,083 76,882 424,518

Covarianzas de regresión
Ingresopromedio EdadPromedi Visitadeclientes
mesual oPymes
EdadPromedioPymes 3601,647 5910,848
Visitadeclientes 440184,123 -3254,422 180215,473
a. Se añade a cada estimación el residuo de un caso elegido aleatoriamente.

Fuente: Base de datos SPSS
Correlaciones de regresión
11
EdadPromedioPymes ,019 1
Visitadeclientes ,422 -,100 1
a. Se añade a cada estimación el residuo de un caso elegido aleatoriamente.

12
3. CONCLUSIONES
La presencia de valores perdidos (información ausente o faltante) es un problema común
a cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos
ausentes puede tener repercusiones graves que van desde la perdida de potencia del
estudio hasta la aparición de sesgos inaceptables. La eliminación de sujetos con
características especiales limita la representatividad o validez externa de los resultados
del estudio.
Bibliografía
El teorema del límite central: las medias de muestras grandes y aleatorias son
aproximadamente normales. (2017). Obtenido de Minnitab:
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/data-concepts/about-the-central-limit-theorem/
Hair, A. T. (2000). Análisis Multivariante. Madrid: András Otero.
Valencia, U. d. (s.f.). Datos Perdidos. Obtenido de

https://www.uv.es/webgid/Descriptiva/index.html
13

Datos Ausentes y Perdidos

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Datos Ausentes y Perdidos

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSIDAD DE CUENCA

FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS.

ECO. FABIÁN CORDERO

La presencia de valores perdidos (información ausente o faltante) es un problema común

El impacto de los datos ausentes es perjudicial no sólo por sus potenciales

Tipos de Valores Perdidos

En cambio, los datos perdidos se consideran MAR cuando la probabilidad de

Finalmente, los datos perdidos se consideran de tipo NMAR cuando la

Causas de los valores perdidos.

Tratamiento de los Valores Perdidos.

o Sustitución por la Media. Consiste en sustituir el valor ausente

 Dificulta la estimación de la Varianza

 Distorsiona la verdadera distribución de la variable,

 Distorsiona la correlación entre variables dado que añade

o Sustitución por constante. Consiste en sustituir los valores

 Incrementa artificialmente las relaciones entre variables.

 Hace que se subestime la Varianza de las distribuciones.

 Asume que las variables con datos ausentes tienen relación

Aplicación de los Valores Perdidos

Valores Perdidos Diagnostico

N Media Desviación típ. Perdidos No de extremosa

Recuento Porcentaje Bajos Altos

Ingresopromediomesual 81 2423,16 2406,064 19 19,0 0 0

EdadPromedioPymes 89 20,79 81,421 11 11,0 0 4

Visitadeclientes 88 416,88 435,175 12 12,0 0 3

Fuente:Base de datos SPSS

Realizado por: Grupo de Trabajo

Evaluación de la aleatoriedad de los datos ausentes a través de

Ingresopromediomes EdadPromedioPyme Visitadeclientes

P(bilateral) . ,331 ,679

Media(Presentes) 2423,16 12,20 427,42

Media(Perdidos) . 54,67 365,53

P(bilateral) ,867 . ,463

Media(Presentes) 2405,06 20,79 426,84

Media(Perdidos) 2551,70 . 347,09

Visitadecliente P(bilateral) ,089 ,360 .

Media(Presentes) 2525,42 12,57 416,88

Realizado por: Grupo de Trabajo

La siguiente tabla contiene los resultados aplicando el test con la prueba T,

El segundo test de aleatoriedad implica el uso de correlaciones entre variables

Evaluación de la aleatoriedad de los datos ausentes a través de correlaciones

Ingresoprome Visitadeclient EdadPromedi

EdadPromedioPymes -,070 -,207 1

a. Prueba MCAR de Little: Chi-cuadrado = 23,037, GL = 8, Sig. = ,003

b. El algoritmo EM no ha logrado converger en 25 iteraciones.

Fuente:Base de datos SPSS

Realizado por: Grupo de Trabajo

Ingresopromedi Visitadecliente EdadProm

Visitadeclientes 497682,524 194211,916

EdadPromedioPymes -13778,289 -7409,519 6612,464

a. Prueba MCAR de Little: Chi-cuadrado = 23,037, GL = 8, Sig. = ,003

b. El algoritmo EM no ha logrado converger en 25 iteraciones.

Correlaciones según pareja

Ingresopro Visitadecli EdadProm

mediomes entes edioPyme

EdadPromedioPymes -,092 -,147 1

Covarianzas según pareja

Ingresopromedi Visitadecliente EdadProm

Visitadeclientes 467768,123 189376,892

EdadPromedioPymes -2231,097 -715,818 6629,306

Covarianzas según lista

Ingresopromedio EdadProme Visitadeclientes

EdadPromedioPymes -2248,042 105,633

Visitadeclientes 528827,638 -613,616 183709,208