Documente Academic
Documente Profesional
Documente Cultură
Palabras clave
Introducción
Ha pasado casi una década desde que se propugnó el campo de las ciencias sociales
computacionales en un artículo publicado en Science [ 18 ]. Se han logrado avances notables
en las ciencias sociales y psicológicas a través del análisis de big data desde entonces. Por
ejemplo, Kern et al. [ 15 ] reveló patrones de lenguaje relacionados con la edad mediante el
estudio de 20 millones de actualizaciones de estado de Facebook. Youyou et al. [ 36 ] estudió
millones de Me gusta en Facebook y mostró que los Me gusta son más predictivos de los rasgos
de personalidad y los resultados de la vida que las mediciones de autoinforme. Con un
crecimiento asombroso de datos digitales cada año y una estimación de 35 billones de
gigabytes de huellas digitales en 2020 [ 13], los grandes datos brindan oportunidades sin
precedentes para estudiar el comportamiento humano. Sin embargo, es necesario abordar
una serie de desafíos teóricos y metodológicos antes de poder realizar descubrimientos
innovadores en la próxima década. A continuación, discutimos cuatro temas y presentamos
posibles soluciones.
Si bien los estudios anteriores demuestran que los medios sociales pueden usarse para
predecir con precisión atributos psicológicos como la personalidad, su uso de enfoques
basados en datos puede resultar en un ajuste excesivo del modelo de predicción al conjunto
de datos existente (p. Ej., Actualizaciones de estado de Facebook) en nuevos conjuntos de
datos (p. ej., tweets). Por ejemplo, Ginsberg et al. [ 10 ] utilizó el aprendizaje automático para
elegir 45 términos de búsqueda de Google de 50 millones de consultas, y desarrolló un modelo
de predicción que puede predecir con precisión las pandemias de gripe más rápido que la
agencia oficial de prevención y control de la enfermedad. Sin embargo, los investigadores
descubrieron más tarde que el modelo olvidó completamente la influenza no estacional, lo
que sugiere que pronosticó la estacionalidad en lugar de la tendencia actual de la gripe
[ 19].] El fracaso del uso de big data en este caso ejemplar enfatiza la importancia de usar
teorías para guiar el diseño de la investigación. Si los predictores se eligieran en función de la
relevancia teórica, la estacionalidad se habría incluido en el modelo porque es bien sabido que
la estacionalidad está fuertemente asociada con las pandemias de gripe.
Validez de medición
Los métodos tradicionales de las ciencias sociales, como las encuestas y los experimentos de
laboratorio, permiten a los investigadores diseñar cuidadosamente sus estudios y determinar
cómo medir las variables de interés. Sin embargo, en la ciencia de los grandes datos, los
investigadores a menudo necesitan trabajar con datos de segunda mano recopilados por otros,
como servicios de redes sociales o empresas de telefonía móvil. Hay tres problemas que
pueden introducir errores de medición.
Primero, los grandes datos generalmente contienen una gran cantidad de ruido. Los
investigadores deben examinar cuidadosamente los datos y tomar varios pasos para eliminar
dicho ruido. Por ejemplo, los conjuntos de datos de redes sociales a menudo contienen
cuentas no individuales, como spammers o agencias de noticias. Al estudiar los estilos de
lenguaje de las personas, los investigadores deben eliminar estas cuentas no individuales
porque generan mucho más contenido que los usuarios promedio y pueden sesgar los
resultados de manera significativa. Los investigadores pueden usar programas de software
como el detector de correo no deseado para identificar estas cuentas, o utilizar métodos
estadísticos tradicionales para encontrar perfiles. Después de eliminar estas cuentas,
cualquier texto que no haya sido escrito por el usuario (p. Ej., Retweets, URL, marcas de
tiempo y anuncios) debe eliminarse porque no refleja el estilo de idioma del usuario.
En segundo lugar, las herramientas de software utilizadas para procesar los datos pueden
introducir errores de medición. Por ejemplo, la consulta lingüística y el conteo de palabras
(LIWC) es una herramienta de software ampliamente utilizada para medir los procesos
psicológicos a partir de la escritura de muestras contando las frecuencias de las palabras en
categorías predefinidas (por ejemplo, afecto positivo; [ 32 ]). Las categorías de LIWC se
desarrollaron en base a escalas de medición psicológica y han sido validadas por jueces
independientes [ 25 ]. Sin embargo, LIWC aún puede generar una evaluación inexacta que da
como resultado una interpretación incorrecta de los datos. Por ejemplo, debido a que la
palabra "grande" pertenece a la categoría de afecto positivo, LIWC categorizará "una gran
cantidad de lluvia" como expresión de emoción positiva. Tov et al. [ 33] mostró que la
codificación de LIWC de la emoción positiva no predecía de manera confiable la emoción
positiva autorreportada en dos estudios diarios. La inconsistencia entre la codificación
generada por la máquina y la medición autorreportada podría deberse a los resultados
propensos a errores producidos por el software.
En tercer lugar, los investigadores en los estudios de big data necesitan usar proxies para sus
variables de interés. Sin embargo, debido a la falta de verdad en el terreno, no está claro con
qué precisión estos proxies representan sus variables correspondientes. Por ejemplo, las
expresiones emocionales en las redes sociales a menudo se consideran como indicadores de
los estados emocionales reales de los usuarios en la vida diaria (por ejemplo, [ 11 ]). Sin
embargo, la investigación ha demostrado que las expresiones emocionales en línea de los
usuarios podrían verse influidas por sus preocupaciones sobre la gestión de impresiones y la
estructura de las redes sociales [ 20 ]. Expresan selectivamente más positivo en relación con
las emociones negativas y presentan un mejor bienestar emocional en Facebook que en la vida
real [ 26].] Por lo tanto, las expresiones emocionales de los usuarios en línea pueden no ser
una medida confiable de la frecuencia y la valencia de sus estados emocionales reales. Se
necesitan estudios empíricos para establecer la validez del uso de expresiones emocionales en
línea como una medida de estados emocionales fuera de línea. Por ejemplo, se puede llevar a
cabo un estudio diario para que los participantes informen sus experiencias emocionales
todos los días y comparar sus auto informes con sus actualizaciones de estado de Facebook
para estimar en qué medida las actualizaciones de estado de Facebook reflejan experiencias
emocionales reales.
Una forma de abordar el problema del error de medición es llevar a cabo estudios de
laboratorio adicionales para validar los resultados del big data. Por ejemplo, Doré et al. [ 8 ]
analizaron los tweets después del tiroteo de Sandy Hook Elementary School, y encontraron
que la distancia espacial y temporal se asociaron positivamente con la ira, pero se asociaron
negativamente con la tristeza. Explicaron las asociaciones utilizando la teoría del nivel
conceptual y realizaron un estudio de laboratorio de seguimiento donde se manipuló el
pensamiento abstracto (frente al concreto) y se mostró que cambiaba las respuestas
emocionales en las direcciones correspondientes. Nai et al. [ 23] descubrieron que las
personas en áreas más racialmente diversas usaban más idiomas prosociales en sus
tweets. Validaron los hallazgos al mostrar evidencia de respaldo de estudios de encuestas de
seguimiento donde se encontró que las personas en vecindarios con mayor diversidad racial
tenían más probabilidades de ofrecer ayuda después de un desastre y reportaron haber
ayudado a un extraño en el último mes. Estos estudios proporcionan casos ejemplares de
cómo complementar la investigación de big data con métodos de investigación tradicionales.
Los estudios futuros también pueden usar modelos basados en agentes (ABM; [ 14 ]) para
validar el fenómeno observado en big data. ABM permite a los investigadores especificar un
modelo teórico en una simulación por computadora y probar si la simulación puede generar
el fenómeno observado en Big Data. Por ejemplo, Gao et al. [ 9] desarrolló un modelo basado
en agentes que muestra cómo los estilos de comunicación interpersonal de las personas y su
aceptación de la influencia social pueden dar como resultado diferentes patrones de difusión
de opinión. Este modelo se puede usar para generar resultados simulados que coincidan con
distribuciones geográficas de preferencias políticas o acciones de marca que se encuentran en
big data. La combinación de patrones simulados y empíricos puede proporcionar una
explicación lógica de cómo los procesos psicológicos a nivel micro y la comunicación
interpersonal conducen a fenómenos sociales a nivel macro.
El uso de big data debe maximizarse para explicar y probar las interacciones entre niveles y
las diferencias interindividuales en los cambios intraindividuales a lo largo del tiempo
[ 1 , 3 , 5 ].Por ejemplo, los grandes datos sobre empleados son jerárquicos porque cada
empleado pertenece a un equipo dentro de una empresa. Para comprender cómo el estado de
ánimo de los empleados afecta el rendimiento de su empresa, se podría realizar un análisis
longitudinal de varios niveles. Además, podría haber cambios a lo largo del tiempo en una
construcción intrínsecamente de varios niveles, como el ajuste persona-grupo, que es una
construcción compuesta que implica dos niveles [ 3 ]. Más importante aún, las diferentes
facetas de los cambios a lo largo del tiempo explicados por Chan [ 1] debe ser conceptualizado
y evaluado.Por ejemplo, cualquier cambio observado a lo largo del tiempo debe
descomponerse en fluctuaciones aleatorias frente a cambios sistemáticos en la variable
focal. Cuando existe un cambio sistemático en el tiempo, la trayectoria de una variable puede
tener correlaciones variables en el tiempo y la trayectoria puede afectar o verse afectada por
las trayectorias de otras variables, de modo que necesitamos modelos multivariados que
especifiquen y prueben relaciones que relacionen cambios en diferentes variables focales
. Finalmente, puede haber diferencias entre grupos en una o más de las diversas facetas de los
cambios a lo largo del tiempo, y se pueden observar grupos como grupos de género y cultura
o agrupamientos no observados (o latentes) distinguibles por características distintas de los
cambios a lo largo del tiempo . Comprender las complejidades anteriores y las diversas facetas
del cambio a lo largo del tiempo, en términos de consideraciones conceptuales y
metodológicas, es necesario hacer inferencias sustantivas adecuadas a partir de la evaluación
longitudinal de los cambios. Los investigadores de Big Data pueden usar modelos avanzados
de estadísticas como el modelado de ecuaciones estructurales y el modelo de crecimiento
latente para abordar las complejidades involucradas en una variedad de estos cambios y
descubrir la dinámica de los procesos sociales y psicológicos.
Integración de datos
Aunque los estudios de big data existentes a menudo examinan grandes volúmenes de datos,
pocos estudios han obtenido y analizado los datos completos (por ejemplo, todos los datos en
Facebook o Twitter). Los investigadores deberían tratar de analizar la mayor cantidad posible
de datos, ya que las conclusiones basadas en un subconjunto o un tipo particular de datos
pueden ser diferentes de las obtenidas a partir de los datos completos [ 7 ]. La obtención y el
procesamiento de los datos completos implican tres desafíos.
Tercero, los grandes datos incluyen una variedad de información, incluyendo contenido
generado por el usuario (p. Ej., Tweets, fotos y videos) y 'sombra digital' (por ejemplo,
registros de compras, historial de navegación web e información de ubicación recopilada por
teléfonos celulares). Cada tipo de datos contiene señales de comportamiento únicas. Por
ejemplo, los textos indican estilos lingüísticos, las fotos contienen expresiones faciales y los
videos revelan gestos y movimientos corporales. Estas señales de comportamiento reflejan
diferentes aspectos de las características psicológicas. Por ejemplo, comparar expresiones de
personalidad en tweets [ 27 ] y selfies [ 29]], la extraversión no se vio reflejada por señales en
los selfies, sino por la frecuencia de las emociones positivas y las palabras relacionadas con
las relaciones sociales en los tweets. Por el contrario, la escrupulosidad fue indicada por la
ausencia de información de ubicación privada en selfies, pero no está relacionada con ninguna
señal en tweets. Por lo tanto, para tener una visión holística del comportamiento humano, los
estudios deben combinar múltiples tipos de datos. Wojcik et al. [ 34] analizaron textos de
tweets y registros de oratoria, y también fotos de perfiles de LinkedIn y directorios gráficos
públicos, para revelar una conexión estable entre la orientación política y el bienestar
subjetivo. El uso de múltiples tipos de datos permite a los investigadores examinar patrones
de comportamiento desde diferentes ángulos y aumentar la fiabilidad de sus hallazgos. Sin
embargo, también plantea importantes desafíos técnicos, porque los investigadores necesitan
utilizar una amplia gama de herramientas y técnicas de software en la recopilación y el
procesamiento de datos.
Conclusión
Los grandes datos presentan oportunidades sin precedentes para comprender el
comportamiento humano a gran escala. Pueden revelar patrones de comportamiento humano
que son difíciles de observar en estudios de laboratorio, y proporcionan una validez ecológica
que a menudo carece de investigación tradicional. En este artículo, destacamos cuatro
cuestiones en la práctica actual de la investigación de big data, a saber, los enfoques
impulsados por datos frente a los basados en la teoría, la validez de la medición, el análisis
longitudinal de múltiples niveles y la integración de datos. Representan problemas comunes
que los científicos sociales a menudo enfrentan al usar big data. Los ejemplos de estudios han
demostrado proporcionar posibles soluciones a estos problemas. Ayudan a los investigadores
a evitar sesgos, mejorar la validez y maximizar el uso de big data.