Sunteți pe pagina 1din 13

UNIVERSIDAD DE CUENCA

FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS.


ESCUELA DE ECONOMÍA

TEMA:
DATOS AUSENTES Y VALORES PERDIDOS

INTEGRANTES:
CHUQUIMARCA VIVIANA.
IDROVO NATALI
SANGURIMA LISSETH

DOCENTE:

ECO. FABIÁN CORDERO

MATERIA:

ESTADÍSTICA IV

CUENCA-ECUADOR
Contenido
1. INTRODUCCIÓN ..................................................................................................................... 3
2. VALORES PERDIDOS Y DATOS ATÍPICOS ................................................................................ 4
Valores Perdidos ....................................................................................................................... 4
Tipos de Valores Perdidos ......................................................................................................... 4
Causas de los valores perdidos. ................................................................................................ 4
Diagnóstico de aleatoriedad en el proceso de pérdida de observaciones. .............................. 5
Tratamiento de los Valores Perdidos. ....................................................................................... 5
Aplicación de los Valores Perdidos............................................................................................ 7
Valores Perdidos Diagnostico .................................................................................................... 7
3. CONCLUSIONES ................................................................................................................... 13
Bibliografía .................................................................................................................................. 13

2
1. INTRODUCCIÓN

En nuestra investigación buscamos realizar un análisis sobre los valores perdidos y los
datos atípicos que aparecen frecuentemente en una base de datos. El objetivo es ver que
tratamiento se les debe dar para corregir esas faltas y poder realizar un correcto análisis
estadístico.

La presencia de valores perdidos (información ausente o faltante) es un problema común


en cualquier investigación, y no puede ser ignorado en el análisis de datos, pues puede
ser de grave repercusión en la pérdida de potencia del análisis, hasta en la aparición de
sesgos inaceptables. La eliminación de entes con este problema limita la representatividad
o validez externa de los resultados del estudio, a pesar de que es algo prácticamente
inevitable en las investigaciones (Uriel y Aldás 2013).

Schafer y Graham (2002) indicaron que las razones para la ausencia de datos pueden ser
diversas: fallos en los instrumentos de medida, sujetos que no asisten a la entrevista o no
contestan a determinadas preguntas, o responden con la opción no sabe incorporada en el
cuestionario. Por esta y otras razones, los datos perdidos son ubicuos en la investigación.

Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que disminuyen
el tamaño de las muestras y en consecuencia la potencia de las pruebas de contraste de
hipótesis. Los datos faltantes no aleatorios ocasionan, además, disminución de la
representatividad de la muestra.

3
2. VALORES PERDIDOS Y DATOS ATÍPICOS

Valores Perdidos
Definición: El proceso de datos ausentes es cualquier evento sistemático
externo al encuestado (tales como errores en la introducción de los datos o
problemas de su recolección) que da lugar a la ausencia de datos.

El impacto de los datos ausentes es perjudicial no sólo por sus potenciales


sesgos sino también por su efecto en el tamaño de la muestra disponible para
el análisis. (Hair, 2000)

Tipos de Valores Perdidos


Rubín (1976) clasifica los datos perdidos en tres tipos: datos perdidos
completamente al azar MCAR , datos perdidos al azar MAR y datos perdidos
no debidos a azar NMAR.

Se considera que los datos perdidos son MCAR cuando la probabilidad de qué
un sujeto presente un valor ausente en una variable no depende ni de la propia
variable ni de ninguna otra variable recogida.

En cambio, los datos perdidos se consideran MAR cuando la probabilidad de


no observar un dato depende de otras variables pero no de los valores de la
variable con valores perdidos.

Finalmente, los datos perdidos se consideran de tipo NMAR cuando la


probabilidad de que un sujeto presente un valor faltante depende de dicha
variable con valores perdidos. (Valencia, s.f.)

Causas de los valores perdidos.


Procesos sistemáticos externos a los sujetos, problemas en la recogida
de datos.
Reacciones de los sujetos, principalmente el reusarse a responder
generando:
o Datos ausentes ingnorables, que son sistemáticos y cuya
presencia está justificada o explicada ( proceso generador es
aleatorio)
o Otros tipos de datos ausentes, son no sistemáticos y se dan por
falta de respuesta a determinadas preguntas ( variables)

4
Diagnóstico de aleatoriedad en el proceso de pérdida de observaciones.
1. Valorar los datos ausentes para la única variable Y al formar dos
grupos de observaciones con datos ausentes para y y aquellos con
valores válidos de Y. ( Se realiza una prueba para determinar si existen
diferencias significativas y si se encuentra indicaría que existe un
proceso de perdida de datos no aleatorio).
2. Una segunda aproximación consistiría en utilizar las correlaciones
dicotomizadas para evaluar la correlación de los datos ausentes en
cualquier par de valores. Las correlaciones indican el grado de
asociación entre los valores perdidos sobre cada par de variables. Bajas
Correlaciones implican aleatoriedad en el par de variables.
a. Si la aleatoriedad es indicativa para todos los pares de
variables, entonces el investigador puede suponer que los datos
ausentes pueden clasificarse como MCAR.
b. Si existen correlaciones significativas etre algunos pares de
variables, entonces el investigador puede tener que suponer que
los datos son solo MAR.
c. Finamente se puede realizar un test conjunto de aleatoriedad
que determine si los datos ausentes pueden como MCAR. Se
estudia el patrón de datos ausentes sobre todas las variables y
las compara con el patrón esperado para el proceso de datos
ausentes. Si no se encuentra diferencias significativas los datos
ausentes pueden ser clasificados como MCAR, caso contrario
se tienen que hacer aproximaciones.

Tratamiento de los Valores Perdidos.


Utilizar solo aquella observación con datos completos: Se incluye
las observaciones solo con datos completos. Esta aproximación deberá
solo usarse cuando los datos ausentes son MCAR porque si no lo es
incluye datos no aleatorios y los resultados serían sesgados.
Supresión de casos y o variables: Otra solución es suprimir el caso o
la variable que peor se comporta respecto a los datos ausentes. El
investigador determina el nivel especificado para proceder a la
eliminación de la variable. Cuando los datos son no aleatorios se puede
trabajar eficientemente, por lo general en las variables dependientes se

5
excluye el caso para evitar cualquier aumento artificial en el poder
explicativo del análisis.
Método de imputación: Es un proceso de estimación de valores
ausentes, el objetivo es emplear relaciones conocidas que puedan
identificarse en los valores validos de la muestra para ayudar a la
estimación de valores ausentes.
Los métodos de imputación consisten en estimar los valores ausentes
en base a los valores válidos de otras variables y/o casos de la muestra.
La estimación se puede hacer a partir de la información del conjunto
completo de variables o bien de algunas variables especialmente
seleccionadas. Usualmente los métodos de imputación se utilizan con
variables métricas (de intervalo o de razón), y deben aplicarse con gran
precaución porque pueden introducir relaciones inexistentes en los
datos reales.
Principales procedimientos:

o Sustitución por la Media. Consiste en sustituir el valor ausente


por la Media de los valores válidos. Este procedimiento plantea
inconvenientes como:

 Dificulta la estimación de la Varianza

 Distorsiona la verdadera distribución de la variable,

 Distorsiona la correlación entre variables dado que añade


valores constantes.

o Sustitución por constante. Consiste en sustituir los valores


ausentes por constantes cuyo valor viene determinado por
razones teóricas o relacionadas con la investigación previa.
Presenta los mismos inconvenientes que la sustitución por la
Media, y solo debe ser utilizado si hay razones para suponer
que es más adecuado que el método de la media.

6
o Imputación por regresión. Este método consiste en estimar los
valores ausentes en base a su relación con otros variables
mediante Análisis de Regresión.

Inconvenientes:

 Incrementa artificialmente las relaciones entre variables.

 Hace que se subestime la Varianza de las distribuciones.

 Asume que las variables con datos ausentes tienen relación


de alta magnitud con las otras variables.

Aplicación de los Valores Perdidos


Un investigador desea saber acerca de las Pymes de Cuenca cual es su: nivel
de ingresos promedio, número de clientes que los visitan al mes y su edad
promedio de operaciones de acuerdo a sus actividad sectorial que pertenece
cada empresa, junto a estas preguntas se hicieron otra como número de
trabajadores tanto mujeres como hombres remunerados de acuerdo a la pyme
donde laboran.

Valores Perdidos Diagnostico


El siguiente paso es examinar las pautas de datos ausentes y determinar si los
datos ausentes se distribuyen aleatoriamente a través de los casos y de las
variables. El primer test para evaluar la aleatoriedad es comparar las
observaciones con o sin datos ausentes para cada variable en función de las
otras variables con una prueba T para ver si existen diferencias significativas.

Estadísticos univariados

N Media Desviación típ. Perdidos No de extremosa

Recuento Porcentaje Bajos Altos

Ingresopromediomesual 81 2423,16 2406,064 19 19,0 0 0

EdadPromedioPymes 89 20,79 81,421 11 11,0 0 4

Visitadeclientes 88 416,88 435,175 12 12,0 0 3

SectorActividad 100 0 ,0

7
a. Número de casos fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).

Fuente:Base de datos SPSS

Realizado por: Grupo de Trabajo

Un factor para aliviar algunos de los altos niveles de datos ausentes para ciertas
variables es la eliminación de los casos del análisis. Pero nuestro caso no
existen niveles altos de % de datos ausentes por lo tanto tomo otros método.
Podemos ver que los 100 casos originales ninguno sobrepasaba más de 90%
de error en sus variables por lo tanto no han sido excluidas del análisis. Con
las variables trabajadas se ha puesto intencionalmente datos ausentes para
realizar el análisis de ausencia de datos.

Evaluación de la aleatoriedad de los datos ausentes a través de


comparaciones de grupos de observaciones con datos ausentes frente a
datos válidos.
Pruebas T con varianzas separadas

Ingresopromediomes EdadPromedioPyme Visitadeclientes

ual s

t . -1,0 ,4

gl . 17,0 17,6

P(bilateral) . ,331 ,679


Ingresoprome
no presente 81 71 73
diomesual
no perdido 0 18 15

Media(Presentes) 2423,16 12,20 427,42

Media(Perdidos) . 54,67 365,53

t -,2 . ,8

gl 11,3 . 16,9

P(bilateral) ,867 . ,463


EdadPromedio
no presente 71 89 77
Pymes
no perdido 10 0 11

Media(Presentes) 2405,06 20,79 426,84

Media(Perdidos) 2551,70 . 347,09

t 1,8 -1,0 .

gl 12,8 11,0 .

Visitadecliente P(bilateral) ,089 ,360 .

s no presente 73 77 88

no perdido 8 12 0

Media(Presentes) 2525,42 12,57 416,88

8
Media(Perdidos) 1490,00 73,50 .

Para cada variable cuantitativa, los pares de grupos están formados por variables indicador (presente, perdido).

a. Las variables indicador con menos del 5% de los valores perdidos no se muestran.
Fuente:Base de datos SPSS

Realizado por: Grupo de Trabajo

La siguiente tabla contiene los resultados aplicando el test con la prueba T,


aquí nos muestra si existe diferencias significativas entre los distintos pares de
variables.

El segundo test de aleatoriedad implica el uso de correlaciones entre variables


dicotómicas. La varíales dicotómicas se forman al reemplazar los valores
validos por y los datos ausentes por cero. Las correlaciones resultantes entre
las variables dicotómicas indican la medida en que los datos ausentes están
relacionados entre pares de variables. Una correlación baja indica una baja
asociación entre los procesos de ausencia de datos para están dos variables.

Evaluación de la aleatoriedad de los datos ausentes a través de correlaciones


de una variable dicotomizada y el test multivalente para la ausencia
completamente aleatoria (MCAR).

Correlaciones de EMa,b

Ingresoprome Visitadeclient EdadPromedi

diomesual es oPymes

Ingresopromediomesual 1

Visitadeclientes ,464 1

EdadPromedioPymes -,070 -,207 1

a. Prueba MCAR de Little: Chi-cuadrado = 23,037, GL = 8, Sig. = ,003

b. El algoritmo EM no ha logrado converger en 25 iteraciones.

Fuente:Base de datos SPSS

Realizado por: Grupo de Trabajo

9
Covarianzas de EMa,b

Ingresopromedi Visitadecliente EdadProm

omesual s edioPymes

Ingresopromediomesual 5922132,205

Visitadeclientes 497682,524 194211,916

EdadPromedioPymes -13778,289 -7409,519 6612,464

a. Prueba MCAR de Little: Chi-cuadrado = 23,037, GL = 8, Sig. = ,003

b. El algoritmo EM no ha logrado converger en 25 iteraciones.


Fuente:Base de datos SPSS
Realizado por: Grupo de Trabajo

Correlaciones según pareja

Ingresopro Visitadecli EdadProm

mediomes entes edioPyme

ual s

Ingresopromediomesual 1

Visitadeclientes ,455 1

EdadPromedioPymes -,092 -,147 1


Fuente:Base de datos SPSS
Realizado por: Grupo de Trabajo

Covarianzas según pareja

Ingresopromedi Visitadecliente EdadProm

omesual s edioPymes

Ingresopromediomesual 5789145,961

Visitadeclientes 467768,123 189376,892

EdadPromedioPymes -2231,097 -715,818 6629,306


Fuente:Base de datos SPSS
Realizado por: Grupo de Trabajo

Covarianzas según lista

Ingresopromedio EdadProme Visitadeclientes

mesual dioPymes

Ingresopromediomesual 6182168,967

EdadPromedioPymes -2248,042 105,633

Visitadeclientes 528827,638 -613,616 183709,208


Fuente:Base de datos SPSS
Realizado por: Grupo de Trabajo

Correlaciones según lista

10
Ingresoprom EdadPromedi Visitadeclient

ediomesual oPymes es

Ingresopromediomesual 1

EdadPromedioPymes -,088 1

Visitadeclientes ,496 -,139 1


Fuente:Base de datos SPSS
Realizado por: Grupo de Trabajo

Resumen de las medias estimadas

Ingresoprom EdadPromedi Visitadeclient

ediomesual oPymes es

Todos los valores 2423,16 20,79 416,88

EM 2385,71 21,09 402,17

Regresión 2401,55 20,02 417,03


Fuente:Base de datos SPSS
Realizado por: Grupo de Trabajo

Resumen de las desviaciones típicas estimadas

Ingresoprome EdadPromedi Visitadeclient

diomesual oPymes es

Todos los valores 2406,064 81,421 435,175

EM 2433,543 81,317 440,695

Regresión 2458,083 76,882 424,518


Fuente:Base de datos SPSS
Realizado por: Grupo de Trabajo

Covarianzas de regresión

Ingresopromedio EdadPromedi Visitadeclientes

mesual oPymes

Ingresopromediomesual 6042173,968

EdadPromedioPymes 3601,647 5910,848

Visitadeclientes 440184,123 -3254,422 180215,473

a. Se añade a cada estimación el residuo de un caso elegido aleatoriamente.


Fuente: Base de datos SPSS
Realizado por: Grupo de Trabajo

Correlaciones de regresión

11
Ingresoprom EdadPromedi Visitadeclient

ediomesual oPymes es

Ingresopromediomesual 1

EdadPromedioPymes ,019 1

Visitadeclientes ,422 -,100 1

a. Se añade a cada estimación el residuo de un caso elegido aleatoriamente.


Fuente:Base de datos SPSS
Realizado por: Grupo de Trabajo

12
3. CONCLUSIONES
La presencia de valores perdidos (información ausente o faltante) es un problema común
a cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos
ausentes puede tener repercusiones graves que van desde la perdida de potencia del
estudio hasta la aparición de sesgos inaceptables. La eliminación de sujetos con
características especiales limita la representatividad o validez externa de los resultados
del estudio.

Bibliografía
El teorema del límite central: las medias de muestras grandes y aleatorias son
aproximadamente normales. (2017). Obtenido de Minnitab:
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/data-concepts/about-the-central-limit-theorem/

Hair, A. T. (2000). Análisis Multivariante. Madrid: András Otero.

Valencia, U. d. (s.f.). Datos Perdidos. Obtenido de


https://www.uv.es/webgid/Descriptiva/index.html

13

S-ar putea să vă placă și