La Investigacion 09009

Big data en la ciencia social y psicológica:
cuestiones teóricas y metodológicas

 Autores
 Autores y afiliaciones
 Autor de correo electrónico Lin Qiu
 Sarah Hian May Chan
 David Chan
Abstracto
Los grandes datos presentan oportunidades sin precedentes para comprender el comportamiento humano a gran
escala. Se ha utilizado cada vez más en la investigación social y psicológica para revelar las diferencias
individuales y la dinámica de grupo. Existen algunos desafíos teóricos y metodológicos en la investigación de big
data que requieren atención. En este documento, destacamos cuatro cuestiones, a saber, los enfoques impulsados
por datos frente a los basados en la teoría, la validez de la medición, el análisis longitudinal de múltiples niveles
y la integración de datos. Representan problemas comunes que los científicos sociales a menudo enfrentan al usar
big data. Presentamos ejemplos de estos problemas y proponemos posibles soluciones.
Palabras clave
Big Data Ciencias sociales computacionales Psicología Ciencias sociales

Redes sociales Metodología
Introducción
Ha pasado casi una década desde que se propugnó el campo de las ciencias sociales
computacionales en un artículo publicado en Science [ 18 ]. Se han logrado avances notables
en las ciencias sociales y psicológicas a través del análisis de big data desde entonces. Por
ejemplo, Kern et al. [ 15 ] reveló patrones de lenguaje relacionados con la edad mediante el
estudio de 20 millones de actualizaciones de estado de Facebook. Youyou et al. [ 36 ] estudió
millones de Me gusta en Facebook y mostró que los Me gusta son más predictivos de los rasgos
de personalidad y los resultados de la vida que las mediciones de autoinforme. Con un
crecimiento asombroso de datos digitales cada año y una estimación de 35 billones de
gigabytes de huellas digitales en 2020 [ 13], los grandes datos brindan oportunidades sin
precedentes para estudiar el comportamiento humano. Sin embargo, es necesario abordar
una serie de desafíos teóricos y metodológicos antes de poder realizar descubrimientos
innovadores en la próxima década. A continuación, discutimos cuatro temas y presentamos
posibles soluciones.
Enfoques basados en datos versus basados en teorías

Tradicionalmente, los investigadores en investigación social y psicológica dan sentido a los
datos empíricos utilizando enfoques basados en la teoría para explicar los fenómenos (es
decir, cómo ocurren las cosas) en lugar de simplemente describirlos (es decir, lo que ha
sucedido). El enfoque basado en la teoría aumenta nuestra comprensión de las relaciones
causales en los procesos psicológicos y los mecanismos subyacentes de los fenómenos
sociales. Sin embargo, con la aparición de la investigación de big data donde los informáticos
a menudo usan métodos basados en datos como el aprendizaje automático, los científicos
sociales han comenzado a adoptar enfoques ascendentes basados en datos que favorecen la
predicción sobre la explicación [ 35 ]. Por ejemplo, Schwartz et al. [ 31] propuso un enfoque
de análisis de lenguaje diferencial (DLA) de vocabulario abierto para predecir la personalidad
de las actualizaciones de estado de Faceboook. Este enfoque fue utilizado por Liu et al. [ 22 ]
para predecir la personalidad de los usuarios de Twitter e identificar las características en las
imágenes de perfil de Twitter que predicen la personalidad. Kosinski et al. [ 16 ] y Youyou et
al. [ 36 ] desarrollaron modelos predictivos de rasgos de personalidad utilizando me gusta de
Facebook.Estos estudios se basaron en algoritmos de aprendizaje automático para elegir
variables en sus modelos para mejorar la precisión de la predicción.
Si bien los estudios anteriores demuestran que los medios sociales pueden usarse para
predecir con precisión atributos psicológicos como la personalidad, su uso de enfoques
basados en datos puede resultar en un ajuste excesivo del modelo de predicción al conjunto
de datos existente (p. Ej., Actualizaciones de estado de Facebook) en nuevos conjuntos de
datos (p. ej., tweets). Por ejemplo, Ginsberg et al. [ 10 ] utilizó el aprendizaje automático para
elegir 45 términos de búsqueda de Google de 50 millones de consultas, y desarrolló un modelo
de predicción que puede predecir con precisión las pandemias de gripe más rápido que la
agencia oficial de prevención y control de la enfermedad. Sin embargo, los investigadores
descubrieron más tarde que el modelo olvidó completamente la influenza no estacional, lo
que sugiere que pronosticó la estacionalidad en lugar de la tendencia actual de la gripe
[ 19].] El fracaso del uso de big data en este caso ejemplar enfatiza la importancia de usar
teorías para guiar el diseño de la investigación. Si los predictores se eligieran en función de la
relevancia teórica, la estacionalidad se habría incluido en el modelo porque es bien sabido que
la estacionalidad está fuertemente asociada con las pandemias de gripe.
La práctica de incluir variables teóricamente relevantes como predictores ha sido bien

establecida en la investigación de las ciencias sociales y no debe ser reemplazada o
comprometida por enfoques basados en datos ascendentes. En cambio, la heterogeneidad en
Big Data permite a los investigadores incluir variables teóricamente más relevantes, como el
tiempo, la ubicación o la densidad de población, en comparación con los estudios de
laboratorio tradicionales. Por ejemplo, cuando se usan los datos de las redes sociales para
predecir las diferencias individuales, es importante controlar variables como la ubicación
porque se ha encontrado que muchas características psicológicas están agrupadas
geográficamente [ 30]Aunque la construcción de modelos con variables de relevancia teórica
puede dar como resultado una precisión de predicción menor que las desarrolladas usando el
aprendizaje automático, puede proporcionar una explicación significativa de los fenómenos
de interés y evitar el sobreajuste del modelo.
Validez de medición
Los métodos tradicionales de las ciencias sociales, como las encuestas y los experimentos de
laboratorio, permiten a los investigadores diseñar cuidadosamente sus estudios y determinar
cómo medir las variables de interés. Sin embargo, en la ciencia de los grandes datos, los
investigadores a menudo necesitan trabajar con datos de segunda mano recopilados por otros,
como servicios de redes sociales o empresas de telefonía móvil. Hay tres problemas que
pueden introducir errores de medición.
Primero, los grandes datos generalmente contienen una gran cantidad de ruido. Los
investigadores deben examinar cuidadosamente los datos y tomar varios pasos para eliminar
dicho ruido. Por ejemplo, los conjuntos de datos de redes sociales a menudo contienen
cuentas no individuales, como spammers o agencias de noticias. Al estudiar los estilos de
lenguaje de las personas, los investigadores deben eliminar estas cuentas no individuales
porque generan mucho más contenido que los usuarios promedio y pueden sesgar los
resultados de manera significativa. Los investigadores pueden usar programas de software
como el detector de correo no deseado para identificar estas cuentas, o utilizar métodos
estadísticos tradicionales para encontrar perfiles. Después de eliminar estas cuentas,
cualquier texto que no haya sido escrito por el usuario (p. Ej., Retweets, URL, marcas de
tiempo y anuncios) debe eliminarse porque no refleja el estilo de idioma del usuario.
En segundo lugar, las herramientas de software utilizadas para procesar los datos pueden
introducir errores de medición. Por ejemplo, la consulta lingüística y el conteo de palabras
(LIWC) es una herramienta de software ampliamente utilizada para medir los procesos
psicológicos a partir de la escritura de muestras contando las frecuencias de las palabras en
categorías predefinidas (por ejemplo, afecto positivo; [ 32 ]). Las categorías de LIWC se
desarrollaron en base a escalas de medición psicológica y han sido validadas por jueces
independientes [ 25 ]. Sin embargo, LIWC aún puede generar una evaluación inexacta que da
como resultado una interpretación incorrecta de los datos. Por ejemplo, debido a que la
palabra "grande" pertenece a la categoría de afecto positivo, LIWC categorizará "una gran
cantidad de lluvia" como expresión de emoción positiva. Tov et al. [ 33] mostró que la
codificación de LIWC de la emoción positiva no predecía de manera confiable la emoción
positiva autorreportada en dos estudios diarios. La inconsistencia entre la codificación
generada por la máquina y la medición autorreportada podría deberse a los resultados
propensos a errores producidos por el software.
En tercer lugar, los investigadores en los estudios de big data necesitan usar proxies para sus
variables de interés. Sin embargo, debido a la falta de verdad en el terreno, no está claro con
qué precisión estos proxies representan sus variables correspondientes. Por ejemplo, las
expresiones emocionales en las redes sociales a menudo se consideran como indicadores de
los estados emocionales reales de los usuarios en la vida diaria (por ejemplo, [ 11 ]). Sin
embargo, la investigación ha demostrado que las expresiones emocionales en línea de los
usuarios podrían verse influidas por sus preocupaciones sobre la gestión de impresiones y la
estructura de las redes sociales [ 20 ]. Expresan selectivamente más positivo en relación con
las emociones negativas y presentan un mejor bienestar emocional en Facebook que en la vida
real [ 26].] Por lo tanto, las expresiones emocionales de los usuarios en línea pueden no ser
una medida confiable de la frecuencia y la valencia de sus estados emocionales reales. Se
necesitan estudios empíricos para establecer la validez del uso de expresiones emocionales en
línea como una medida de estados emocionales fuera de línea. Por ejemplo, se puede llevar a
cabo un estudio diario para que los participantes informen sus experiencias emocionales
todos los días y comparar sus auto informes con sus actualizaciones de estado de Facebook
para estimar en qué medida las actualizaciones de estado de Facebook reflejan experiencias
emocionales reales.
Los tres problemas mencionados inevitablemente producen errores de medición en la

investigación de big data. Presentan importantes desafíos metodológicos y teóricos. Cuando
los hallazgos de los grandes datos son inconsistentes con las teorías existentes, los
investigadores no pueden estar seguros de si se debe a errores de medición o problemas
inherentes a las teorías. Por ejemplo, cuando Liu et al. [ 21 ] descubrieron que las expresiones
emocionales positivas en línea no se relacionaban con la satisfacción con la vida, es difícil
argumentar contra las teorías anteriores sobre la conexión entre la satisfacción vital y la
emoción positiva porque la inconsistencia podría deberse a errores de medición.
Una forma de abordar el problema del error de medición es llevar a cabo estudios de
laboratorio adicionales para validar los resultados del big data. Por ejemplo, Doré et al. [ 8 ]
analizaron los tweets después del tiroteo de Sandy Hook Elementary School, y encontraron
que la distancia espacial y temporal se asociaron positivamente con la ira, pero se asociaron
negativamente con la tristeza. Explicaron las asociaciones utilizando la teoría del nivel
conceptual y realizaron un estudio de laboratorio de seguimiento donde se manipuló el
pensamiento abstracto (frente al concreto) y se mostró que cambiaba las respuestas
emocionales en las direcciones correspondientes. Nai et al. [ 23] descubrieron que las
personas en áreas más racialmente diversas usaban más idiomas prosociales en sus
tweets. Validaron los hallazgos al mostrar evidencia de respaldo de estudios de encuestas de
seguimiento donde se encontró que las personas en vecindarios con mayor diversidad racial
tenían más probabilidades de ofrecer ayuda después de un desastre y reportaron haber
ayudado a un extraño en el último mes. Estos estudios proporcionan casos ejemplares de
cómo complementar la investigación de big data con métodos de investigación tradicionales.
Los estudios futuros también pueden usar modelos basados en agentes (ABM; [ 14 ]) para
validar el fenómeno observado en big data. ABM permite a los investigadores especificar un
modelo teórico en una simulación por computadora y probar si la simulación puede generar
el fenómeno observado en Big Data. Por ejemplo, Gao et al. [ 9] desarrolló un modelo basado
en agentes que muestra cómo los estilos de comunicación interpersonal de las personas y su
aceptación de la influencia social pueden dar como resultado diferentes patrones de difusión
de opinión. Este modelo se puede usar para generar resultados simulados que coincidan con
distribuciones geográficas de preferencias políticas o acciones de marca que se encuentran en
big data. La combinación de patrones simulados y empíricos puede proporcionar una
explicación lógica de cómo los procesos psicológicos a nivel micro y la comunicación
interpersonal conducen a fenómenos sociales a nivel macro.
Análisis longitudinal de niveles múltiples

Los grandes datos comparten una estructura similar con los datos tradicionales en la
investigación social y psicológica, que es una en la que los datos son a menudo longitudinales
y jerárquicos porque reflejan la naturaleza temporal y multinivel del fenómeno sustantivo en
estudio [ 1 , 2 , 4 , 5 , 6 ] Esto proporciona grandes oportunidades para estudiar la interacción
entre individuos, organizaciones y entornos. Sin embargo, la investigación actual de big data
se centra principalmente en estudios transversales a nivel individual. Por ejemplo, los
estudios han utilizado big data para examinar cómo las orientaciones temporales de los
individuos están asociadas con su personalidad y bienestar [ 24].] y cómo la orientación
política afecta el bienestar subjetivo [ 34 ]. Un número limitado de estudios realizó análisis
longitudinales para examinar el cambio de los procesos psicológicos. Por ejemplo, Golder y
Macy [ 11 ] revelaron ritmos de humor diurnos y estacionales a nivel individual utilizando
millones de tweets en 84 países. Liu et al. [ 21 ] mostró que las expresiones emocionales
negativas en Facebook en los últimos 9-10 meses (pero no más allá) predijeron la satisfacción
con la vida.
El uso de big data debe maximizarse para explicar y probar las interacciones entre niveles y
las diferencias interindividuales en los cambios intraindividuales a lo largo del tiempo
[ 1 , 3 , 5 ].Por ejemplo, los grandes datos sobre empleados son jerárquicos porque cada
empleado pertenece a un equipo dentro de una empresa. Para comprender cómo el estado de
ánimo de los empleados afecta el rendimiento de su empresa, se podría realizar un análisis
longitudinal de varios niveles. Además, podría haber cambios a lo largo del tiempo en una
construcción intrínsecamente de varios niveles, como el ajuste persona-grupo, que es una
construcción compuesta que implica dos niveles [ 3 ]. Más importante aún, las diferentes
facetas de los cambios a lo largo del tiempo explicados por Chan [ 1] debe ser conceptualizado
y evaluado.Por ejemplo, cualquier cambio observado a lo largo del tiempo debe
descomponerse en fluctuaciones aleatorias frente a cambios sistemáticos en la variable
focal. Cuando existe un cambio sistemático en el tiempo, la trayectoria de una variable puede
tener correlaciones variables en el tiempo y la trayectoria puede afectar o verse afectada por
las trayectorias de otras variables, de modo que necesitamos modelos multivariados que
especifiquen y prueben relaciones que relacionen cambios en diferentes variables focales
. Finalmente, puede haber diferencias entre grupos en una o más de las diversas facetas de los
cambios a lo largo del tiempo, y se pueden observar grupos como grupos de género y cultura
o agrupamientos no observados (o latentes) distinguibles por características distintas de los
cambios a lo largo del tiempo . Comprender las complejidades anteriores y las diversas facetas
del cambio a lo largo del tiempo, en términos de consideraciones conceptuales y
metodológicas, es necesario hacer inferencias sustantivas adecuadas a partir de la evaluación
longitudinal de los cambios. Los investigadores de Big Data pueden usar modelos avanzados
de estadísticas como el modelado de ecuaciones estructurales y el modelo de crecimiento
latente para abordar las complejidades involucradas en una variedad de estos cambios y
descubrir la dinámica de los procesos sociales y psicológicos.
Integración de datos
Aunque los estudios de big data existentes a menudo examinan grandes volúmenes de datos,
pocos estudios han obtenido y analizado los datos completos (por ejemplo, todos los datos en
Facebook o Twitter). Los investigadores deberían tratar de analizar la mayor cantidad posible
de datos, ya que las conclusiones basadas en un subconjunto o un tipo particular de datos
pueden ser diferentes de las obtenidas a partir de los datos completos [ 7 ]. La obtención y el
procesamiento de los datos completos implican tres desafíos.
En primer lugar, debido a la privacidad y las preocupaciones de propiedad, las organizaciones

o empresas rara vez comparten sus datos sin procesar, incluso si pueden ser anónimos. Los
investigadores a menudo necesitan depender de un subconjunto de datos de una sola fuente
de datos. Esto limita en gran medida la validez ecológica de los resultados. Una posible
solución es utilizar un enfoque de dividir y vencer propuesto por Cheung y Jak [ 7] Por
ejemplo, los investigadores pueden especificar el procedimiento de análisis de datos (por
ejemplo, regresión, pruebas de confiabilidad, análisis de factores y análisis multinivel) y
solicitar a miles de bancos que ejecuten el procedimiento en sus propios registros de
consumidores. Cada banco puede entonces compartir los resultados de su análisis (p. Ej.,
Coeficientes de regresión, matrices de covarianza de muestreo), y los investigadores pueden
usar modelos metaanalíticos para combinar los resultados y estimar el tamaño del efecto a
nivel individual. Este enfoque de dividir y vencer permite a los investigadores realizar análisis
de datos de diferentes fuentes sin acceder a los datos sin procesar. Protege la privacidad de la
información y, por lo tanto, reduce los obstáculos en el intercambio de datos.
En segundo lugar, es importante combinar datos de múltiples plataformas, porque los

individuos a menudo usan múltiples plataformas y muestran diferentes comportamientos en
cada plataforma. Por ejemplo, una persona puede indicar "en una relación" en Facebook, pero
guardar silencio sobre su estado de relación en Instagram. La combinación de datos de
Facebook e Instagram permitirá a los investigadores completar la información que falta y
validar de forma cruzada las aportaciones de los usuarios. Sin embargo, los estudios existentes
se basan principalmente en una única fuente de datos, como Facebook o Twitter, debido a la
dificultad de emparejar usuarios de diferentes plataformas. Esto hace que los hallazgos sean
menos generalizables porque cada plataforma tiene sus propias características únicas. Por
ejemplo, los mecanismos de autocompletado en Facebook y Google pueden funcionar de
manera diferente y conducir a diferentes frecuencias de entradas de usuario [ 17] Hodas y
Lerman [ 12 ] demostraron que las diferencias en la posición de los mensajes en Twitter y
Digg dieron lugar a comportamientos diferentes del usuario. Qiu et al. [ 28 ] Reclutaron
participantes que usaron Facebook y Renren (una plataforma similar a Facebook en China),
y encontraron que sus comportamientos de intercambio difieren debido a las normas
culturales relacionadas con la plataforma. Estos estudios enfatizan la importancia de usar
datos de múltiples fuentes para validar de forma cruzada los hallazgos y evitar la
generalización excesiva.
Tercero, los grandes datos incluyen una variedad de información, incluyendo contenido
generado por el usuario (p. Ej., Tweets, fotos y videos) y 'sombra digital' (por ejemplo,
registros de compras, historial de navegación web e información de ubicación recopilada por
teléfonos celulares). Cada tipo de datos contiene señales de comportamiento únicas. Por
ejemplo, los textos indican estilos lingüísticos, las fotos contienen expresiones faciales y los
videos revelan gestos y movimientos corporales. Estas señales de comportamiento reflejan
diferentes aspectos de las características psicológicas. Por ejemplo, comparar expresiones de
personalidad en tweets [ 27 ] y selfies [ 29]], la extraversión no se vio reflejada por señales en
los selfies, sino por la frecuencia de las emociones positivas y las palabras relacionadas con
las relaciones sociales en los tweets. Por el contrario, la escrupulosidad fue indicada por la
ausencia de información de ubicación privada en selfies, pero no está relacionada con ninguna
señal en tweets. Por lo tanto, para tener una visión holística del comportamiento humano, los
estudios deben combinar múltiples tipos de datos. Wojcik et al. [ 34] analizaron textos de
tweets y registros de oratoria, y también fotos de perfiles de LinkedIn y directorios gráficos
públicos, para revelar una conexión estable entre la orientación política y el bienestar
subjetivo. El uso de múltiples tipos de datos permite a los investigadores examinar patrones
de comportamiento desde diferentes ángulos y aumentar la fiabilidad de sus hallazgos. Sin
embargo, también plantea importantes desafíos técnicos, porque los investigadores necesitan
utilizar una amplia gama de herramientas y técnicas de software en la recopilación y el
procesamiento de datos.
Conclusión
Los grandes datos presentan oportunidades sin precedentes para comprender el
comportamiento humano a gran escala. Pueden revelar patrones de comportamiento humano
que son difíciles de observar en estudios de laboratorio, y proporcionan una validez ecológica
que a menudo carece de investigación tradicional. En este artículo, destacamos cuatro
cuestiones en la práctica actual de la investigación de big data, a saber, los enfoques
impulsados por datos frente a los basados en la teoría, la validez de la medición, el análisis
longitudinal de múltiples niveles y la integración de datos. Representan problemas comunes
que los científicos sociales a menudo enfrentan al usar big data. Los ejemplos de estudios han
demostrado proporcionar posibles soluciones a estos problemas. Ayudan a los investigadores
a evitar sesgos, mejorar la validez y maximizar el uso de big data.

La Investigacion 09009

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

La Investigacion 09009

Încărcat de

Drepturi de autor:

Formate disponibile

Big data en la ciencia social y psicológica:

cuestiones teóricas y metodológicas

Big Data Ciencias sociales computacionales Psicología Ciencias sociales

Enfoques basados en datos versus basados en teorías

La práctica de incluir variables teóricamente relevantes como predictores ha sido bien

Los tres problemas mencionados inevitablemente producen errores de medición en la

Análisis longitudinal de niveles múltiples

En primer lugar, debido a la privacidad y las preocupaciones de propiedad, las organizaciones

En segundo lugar, es importante combinar datos de múltiples plataformas, porque los

S-ar putea să vă placă și