Sunteți pe pagina 1din 5

Esquema/resumen facilitado por el equipo docente

TEMA VIII.- EXPLOTACIÓN DE DATOS SECUNDARIOS


(cap. 17)

INTRODUCCIÓN
Los datos secundarios son aquellos que no han sido obtenidos y
elaborados por el propio investigador, sino que le son facilitados por otras
fuentes (no confundir con fuentes secundarias).
Una investigación con datos secundarios no supone menor calidad
ni menor valor. La decisión de usar datos primarios o secundarios
dependerá de varios factores, pero a priori, no existe preferencia por
ninguno de ellos.

1. EL ANÁLISIS CON DATOS SECUNDARIOS “CLÁSICO”


1.1 LOS DATOS SECUNDARIOS HASTA LOS AÑOS 90
En un principio, prácticamente toda la investigación social se hacía
con datos secundarios. El desarrollo de las ciencias sociales posibilitó la
obtención de datos primarios, pero los secundarios siguen siendo una
parte importante e inevitable del trabajo de investigación (nótese que
como mínimo, toda investigación comienza con una revisión de los datos
existentes).
Muchos investigadores incluyen nuevos análisis de datos
producidos por otros, con el fin de encontrar nuevos patrones o relaciones
hasta ahora no conocidos.
En definitiva, los datos secundarios puedes ser el objetivo central
de una investigación o una parte de la fase preparatoria de un trabajo con
datos propios. Hasta los años 90, el acceso y uso a las bases de datos
existentes era escaso y resultaba una labor compleja y muy cara que no
daba opción a hacer análisis complejos.
1.2. REVOLUCIÓN DIGITAL: SALTO CUALITATIVO/CUANTITATIVO
EN INFORMACIÓN DISPONIBLE
A partir de los años 80 asistimos a una revolución digital, con un doble
contenido: la bajada de precios de ordenadores y demás; la difusión de la
información que permite internet.
Las nuevas formas de difundir los datos (su colocación en depósitos
abiertos que pueden ser descargados por otros investigadores y
reutilizados en nuevos estudios) ha afectado a la cantidad y también al
tipo de datos disponibles.

1
Finalmente es fundamental el movimiento open data, vinculado a la
promoción en democracias modernas, de transparencia y rendición de
cuentas del sector públicoà disponibilidad de datos sobre la realidad
social facilitados por los gobiernos que antes no se difundían.
1.3 POTENCIALIDADES Y VENTAJAS DEL USO DE DATOS
SECUNDARIOS
El uso de datos secundarios presenta ventajas obvias en TIEMPO y
DINERO.
Una forma de comparar determinados estudios con resultados de datos
anteriores.
Fundamentales para la comparativa entre países.
1.4. CAUTELAS ANTE EL USOP DE DAOS SECUNDARIOS
Efecto perverso de la facilidad de acceso à la inmediatez puede originar
el uso de datos de manera poco meditada, que no son completamente
adecuados al propósito de la investigación à necesidad de preguntarse
por el proceso de creación de los datos cuando se van a reutilizar. Para
ello, se necesita realizar una CLARA REFLEXIÓN DE LOS OBJETIVOS
DE SU INVESTIGACIÓN Y LA DEFINICIÓN DE LOS MISMOS, LAS
HIPÓTESIS Y LAS PREGUNTAS MÁS ESPECÍFICAS DERIVADAS DE
ELLAS à Los datos han de ser “los mejores disponibles”, pero también
“suficientemente buenos”.
Proceso de revisión de los datos secundarios:
a) ¿Quién ha generado los datos? à cuando provienen de fuentes
oficiales suelen informar de los procedimientos de obtención de datos.
También suele pasar en el caso de investigadores. No es lo habitual
cuando son empresas privadas o grupos de interés con una agenda
particular.
b) Con qué propósito se crearon los datos utilizados à el objetivo
específico para el que se crearon.
c) Las definiciones à cuestiones de validez.
d) Las medidas à tanto el proceso práctico de identificación de sujetos
cuya información se va a medir, como la captura de la información. à
cuestiones de fiabilidad.
e) Comparatividad à uso para estudios comparativos longitudinales y
espaciales. Hay que comprobar que diferentes instituciones en
diferentes momentos, usan similares definiciones, o procedimientos de
muestreo, o usan cuestionarios similares, por ejemploà hay que
atender por tanto a las notas metodológicas.

2
1.5. CONOCIMIENTOS PRÁCTICOS PARA CONSEGUIR DATOS
SECUNDARIOS
- LA CUESTION DEL FORMATO: los datos disponibles online pueden
presentarse en diferentes formatos (ver estrategias propuestas para poder
reutilizarlos, pág498 y 499).
- LA “LIMPIEZA” DE LOS DATOS: conjunto de operaciones “difíciles” de
describir. Existen puntos clave según Chiasson et al. (2014):
* separación de campos;
* revisión de unidades;
* inconsistencias;
* valores mal escritos;
* espacios en blanco;
* tratamiento de valores ausentes (missing):
* corrección de valores fuera del rango;
* combinaciones de variables;
* expresiones regulares.
Al aplicar estos procedimientos se encontrarán valores solubles y no
solubles (no se pueden corregir). En este caso se cambia el valor por un
código de error y se excluirá del análisis. Es necesario dejar registrado el
proceso de limpieza y conservar tanto los archivos originales como los
valores erróneos.
2. LOS GRANDES DATOS: OPORTUNIDADES Y RETOS
Desde los años 2000 se ha extendido y popularizado el concepto big data,
para referirse a las grandes bases de datos que se están generando,
gracias a las nuevas tecnologías.

Las big data, dado su tamaño y sus características, plantean nuevas


posibilidades para el avance del conocimiento, y para nuevos retos
tecnológicos y epistemológicos.

Características diferenciales de las big data (según Kitchin, 2014):


• Gran volumen de datos
• Gran velocidad de producción, con datos nuevos casi a tiempo
real
• Gran variedad de datos, estructurados y no estructurados, y
muchas veces, con referencia espacial y temporal
• Exhaustivos
• Alta resolución
• De naturaleza relacional

3
• Flexibles.
Si bien los big data pueden muchas veces ser analizadas con técnicas
similares a otros datos, la tecnología desarrolla nuevas técnicas enfocadas a
aprovechar su potencial. à técnicas de inteligencia artificial conocidas como
machine learning (aprendizaje automático o aprendizaje de máquinas).
Entre las aplicaciones de estas técnicas está: la minería de datos (búsqueda
de nuevos datos) bien por asociación, agrupación, identificación de
desviaciones, o descubrimientos de tendencias.
Otra herramienta de análisis es la visualización (permite descubrir patrones y
relaciones ocultos en los datos). Ejemplo: la creación de cuadros de mandos
(dashboards).
La riqueza y complejidad de estos datos, y la nueva tecnología disponible,
también permiten innovar en técnicas de predicción y simulación.
Algunos autores, consideran que la big data plantea una crisis de la
sociología empírica.
2.2. APLICACIONES DE LOS GRANDES DATOS EN INVESTIGACIÓN
SOCIAL
Por sus características, el uso afecta de forma más obvia a las
investigaciones con vocación aplicada. Ejemplos son los usos comerciales
(comportamiento de los clientes) y el marketing político.
Los gobiernos y estados (son generadores y usuarios). Resulta curioso,
por ejemplo, su uso en la vigilancia de las comunicaciones (el más oscuro por
y polémico por su dudosa legalidad, especialmente utilizado para evitar
delitos, especialmente de terrorismo.
2.3. LIMITACIONES Y DUDAS
Pese a lo positivo, hay que atender a potenciales errores. Por ejemplo,
prescindir de algunos requisitos que tradicionalmente se han exigido a todos los
estudios cuantitativos à “arrogancia de los grandes datos”.
è Riesgo de “over-fitting”, à problemas de fiabilidad; à problemas de
transparencia y replicabilidad.

è Para Kitchin, son varios los errores:

o creer que es posible capturar todos los datos relevantes de un


determinado campo y comprenderlo en su totalidad;
o creer que los datos son en sí mismos objetivos y están libres de
sesgos y que pueden interpretarse con neutralidad;
o pensar que su significado puede ser interpretado sin necesidad de
conocimientos contextuales o específicos del campo de estudio.
o Pensar que los patrones y relaciones entre los datos son
necesariamente valiosos o informativos.
4
o Caer en el exceso de ajuste à exceso de aprendizaje.
è Propuestas para solucionar los peligros:
o Búsqueda de eventos extremos;
o Utilización de umbrales de significación mucho más altos que los
tradicionales;
o División aleatoria de los datos en múltiples submuestras,
comprobando si se mantienen las averiguaciones.
è Hay que evitar que la disponibilidad de datos determine la agenda del
investigador y aplicar los pasos descritos en el punto 1.4.

2.4. CONOCIMIENTOS PRÁCTICOS: PROGRAMAS, TÉCNICAS, CURSOS


Según Lazer, el reto pasa por la colaboración entre científicos sociales y de la
computación. El objetivo, lograr científicos sociales alfabetizados en
computación.
3. FUENTES DE DATOS SECUNDARIOS DISPONIBLES

3.1. Estadísticas institucionales (oficiales) españolas:


- El INE;
- Institutos de Estadística de las Comunidades Autónomas;
- Ministerios y otras entidades.
3.2. Estadísticas institucionales extranjeras e internacionales
3.3. Bases de datos de Encuestas.
3.4. Otras bases de datos académicas no centradas en encuestas.

S-ar putea să vă placă și