Documente Academic
Documente Profesional
Documente Cultură
Todo lo que se puede medir y contar, decimos que se puede cuantificar. El concepto “datos
cuantitativos” hace referencia precisamente a eso, a la información tangible, la que es
obtenida mediante algún método de investigación. La manera de cuantificar los datos
obtenidos en nuestro estudio nos dará la pauta de hacia qué rumbo dirigirse, de ahí la
importancia de su correcto análisis para poder demostrar si estamos en lo correcto o no, en
la hipótesis planteada.
¿QUE PROCEDIMIENTO SE SIGUE PARA ANALIZAR CUANTITATIVAMENTE LOS
DATOS?
Por lo general, los análisis de datos cualitativos requieren más tiempo para procesar y
ordenar los datos que para su recolección. Asímismo, el análisis
cualitatitivo tradicionalmente es un proceso lento, en especial comparándolos con los
análisis de datos cuantitativos.
Las técnicas de análisis de datos cualitativos, por lo tanto, los abordan como objeto de
análisis. Encontramos distintas técnicas para analizar palabras o frases, una labor que
comienza en realidad con la recolección, pues para ello se utilizan técnicas como la listas
libres, las comparacinoes pareadas o, por ejemplo, la clasificación en pilas.
Se trata de una actividad compleja, cuyo fin último es dotar a los datos de sentido. Para
ello, se utilizan procedimientos variados muy diversos, que raramente son estadísticos. No
en vano, la analítica de datos cualitativos se considera más un arte que una técnica.
Su elección dependerá de nuestro objetivo, así como de las tareas y operaciones más
adecuados. El proceso generalde este tipo de análisis comienza por una recopilación
selectiva de los datos, seguida de una reducción pra su identificación, clasificación, síntesis
y agrupamiento.
Una vez que la información haya sido recolectada y ordenada, la codificaremos para poder
empezar a llegar a conclusiones una vez integremos la información. Si el proceso de
codificación agrupa las transcripciones en categorías, temas o conceptos con el objetivo de
relacionarlos con el fin de la consulta o investigación, la codificación los dotará de sentido.
Finalmente, se analizan los datos para alcanzar conclusiones que también deben
verificarse.
Estos pasos generales de tipo procedimiental se llevan a cabo bien de forma manual o
recurriendo a programas de software que nos ofrecen distintas herramientas muy
ventajosas, si bien en uno y otro caso los principios del proceso analítico son iguales.
En el caso de las soluciones más avanzadas, idóneas para la gestión de datos masivos, las
metodologías de análisis de datos cualitativos variarán en unas y otras. Podemos disponer
de funcionalidades relacionadas con la búsqueda, organización, categorización y análisis
cualitativo en datos estructurados y desestructurados.
Desde textos o imágenes, por ejemplo, hasta objetos, vídeos o audio, con los que se trabaja
hasta hallar patrones que ofrezcan respuestas a las cuestiones planteadas. Una tarea
encomendada, como es bien sabido, a los expertos en análisis de datos cualitativos y
cuantitativos para así poder tomar mejores decisiones.
SPSS:
El SPSS es el software estadístico más utilizado a nivel mundial por ser una herramienta
para la experimentación, investigación y toma de decisiones. Su versatilidad permite que
se utilice como:
Minesight
Data mining
Como data mining, también conocida como minería de datos, se describen los
procedimientos algorítmicos para la evaluación de datos aplicados a bloques de datos con
un tamaño y una complejidad determinados. Su función es la de extraer la información
oculta en grandes volúmenes de datos, especialmente en las masas de información
conocidas como big data, y además reconocer tendencias, relaciones y patrones ocultos
en ellas. Para que este proceso se pueda llevar a cabo se recurre a las data mining tools.
RapidMiner
RapidMiner, antes conocida como YALE, siglas de “Yet Another Learning Environment”, es
un data mining software muy conocido. De acuerdo con una encuesta de
KDnuggets realizada en el año 2014, esta tool se constituía como la herramienta de data
mining más usada. Destaca por permitir el acceso gratuito y por su fácil manejo dado que
no requiere un conocimiento elaborado en programación, sin olvidar la gran selección de
operadores que ofrece. Especialmente son las startups las que recurren a ella.
RapidMiner está escrita en Java y contiene más de 500 operadores con diferentes enfoques
para mostrar las conexiones en los datos: hay opciones para data mining, text mining o web
mining, pero también análisis de sentimiento o minería de opinión. Asimismo, el programa
puede importar tablas Excel, archivos SPSS y masas de datos de diferentes bases de datos
e integra los programas de data mining WEKA y R. Todo ello pone de relieve el carácter
polivalente de este software.
RapidMiner participa en todos y cada uno de los pasos del proceso de data mining,
interviniendo también en la visualización de los resultados. La herramienta está formada
por tres grandes módulos: RapidMiner Studio, RapidMinder Server y RapidMiner Radoop,
cada uno encargado de una técnica diferente de minería de datos. Asimismo, RapidMiner
prepara los datos antes del análisis y los optimiza para su rápido procesamiento. Para cada
uno de estos tres módulos hay una versión gratuita y diferentes opciones de pago.
El punto fuerte de RapidMiner, si se compara con el resto de software de data mining, reside
en los análisis predictivos, es decir, en la previsión de desarrollos futuros basándose en
los datos recopilados.
WEKA
de funciones de aprendizaje automático y secunda tareas tan relevantes del data mining
como el análisis de clústeres, de correlación o de regresión, así como la clasificación de
datos, punto fuerte este último del data mining software al usar redes de neuronas
artificiales, árboles de decisión y algoritmos ID3 o C4.5. No obstante, este programa no es
tan potente en aspectos como el análisis de clústeres, en el que solo se ofrecen los
procedimientos más importantes.
Otra desventaja es que este software presenta problemas de procesamiento cuando hay
que tratar grandes cantidades de datos, dado que intenta cargar el programa de data mining
completo en la memoria de trabajo. WEKA ofrece para ello como solución una línea de
comandos sencilla (CTL) que aligera el tráfico de un gran volumen de datos.
Orange
El software de data mining Orange existe desde hace más de 20 años como proyecto de la
Universidad de Liubliana. El núcleo del software se escribió en C++, aunque poco después
se amplió el programa al lenguaje de programación Python que solo se usa como lenguaje
de entrada. Las operaciones más complejas, sin embargo, se llevan a cabo en C++. Orange
es un software muy extenso que demuestra todo lo que se puede conseguir con Python, ya
que ofrece aplicaciones de gran utilidad para el análisis de datos y de texto así como
características de aprendizaje automático.
Además, en el ámbito del data mining trabaja con operadores para la clasificación, regresión
y clustering e integra una programación visual. De hecho, es muy llamativo que los usuarios
destaquen lo entretenido que es usar esta herramienta en comparación con otras: tanto si
se empieza con la minería de datos o se es más experto, a todos los usuarios les fascina
Orange. Esto se debe a que, por un lado, ofrece un sistema de visualización de
datosatractivo para trabajar y, por otro, alcanza esta visualización con rapidez y facilidad.
El programa prepara los datos de forma visual, convirtiendo la comprensión de gráficas así
como el procesamiento de análisis de datos en tareas muy sencillas, lo que a su vez facilita
a los usuarios tomar decisiones rápidamente en el ámbito profesional.
Otra ventaja para los menos versados: existe un sinnúmero de tutoriales sobre la
herramienta. Una particularidad de Orange es que, además, va aprendiendo las
preferencias de sus usuarios y se comporta en función de ellas, lo que simplifica
enormemente el proceso de data mining para el usuario.
KNIME
Entre todas las funciones destaca el análisis de datos integrativo. En este ámbito KNIME
es uno de los programas más avanzados, puesto que permite la integración de numerosos
procedimientos de aprendizaje automático y de data mining. Además, presenta una
Escuela profesional de ingeniería de Minas-UNSAAC
KNIME se usa en la investigación farmacéutica desde 2006 y supone una herramienta muy
importante también en el sector financiero, sin olvidar su uso frecuente en el campo de la
inteligencia empresarial (BI). Asimismo, esta herramienta es también muy interesante para
quienes apenas acaban de iniciarse con el data mining pues, aunque posee un amplio
abanico de funciones, se requiere poco tiempo para aprender a manejarla. Por último,
apuntar que KNIME existe en su versión gratuita y de pago.
SAS
SAS (Statistical Analysis System) es un producto de SAS Institute, una de las mayores
empresas privadas de software en todo el mundo. SAS constituye la data mining tool
principal en el análisis en el sector de los negocios y, de hecho, se considera como el
programa más adecuado para grandes empresas, aunque también sea el software con un
coste económico mayor de todos los aquí descritos.
La mayoría de los programas son fáciles de ejecutar pues lo único que hay que hacer es
solicitar los análisis requeridos seleccionando las opciones apropiadas.
En esta etapa, inmediata a la ejecución del programa, se inicia el análisis. Cabe señalar
que si hemos llevado a cabo la investigación reflexionando paso a paso, la fase analítica es
relativamente sencilla, porque:
6) recolectamos los datos. Sabemos qué deseamos hacer, es decir, tenemos claridad.
Escuela profesional de ingeniería de Minas-UNSAAC
Variables de la investigación Son las propiedades medidas y que forman parte de las
hipótesis o que se pretenden describir.
Cuando una variable de la investigación está integrada por diversas variables de la matriz
o ítems, suele llamarse variable compuesta y su puntuación total es el resultado de
adicionar los valores de los reactivos que la conforman. Tal vez el caso más claro es la
escala de Likert, en la que se suman las puntuaciones de cada ítem y se logra la calificación
final. A veces la adición es una sumatoria, otras ocasiones es multiplicativa, un promedio o
de otras formas, según se haya desarrollado el instrumento. Al ejecutar el programa y
durante la fase exploratoria, se toman en cuenta todas las variables de la investigación e
ítems y se considera a las variables compuestas, entonces se indica en el programa cómo
están constituidas, mediante algunas instrucciones (en cada programa son distintas en
cuanto al nombre, pero su función es similar).
c) El interés analítico del investigador (que depende del planteamiento del problema)
Por ejemplo, los análisis que se aplican a una variable nominal son distintos a los de una
variable por intervalos. Se sugiere repasar los niveles de medición vistos en el capítulo
anterior. El investigador busca, en primer término, describir sus datos y posteriormente
efectuar análisis estadísticos para relacionar sus variables. Es decir, realiza análisis de
estadística descriptiva para cada una de las variables de la matriz (ítems o indicadores) y
luego para cada una de las variables del estudio, finalmente aplica cálculos estadísticos
para probar sus hipótesis. Los tipos o métodos de análisis cuantitativo o estadístico son
variados y se comentarán a continuación; pero cabe señalar que el análisis no es
indiscriminado, sino que cada método tiene su razón de ser y un propósito específico; por
ello, no deben hacerse más análisis de los necesarios. La estadística no es un fin en sí
misma, sino una herramienta para evaluar los datos.
pastel). SPSS, Minitab y SAS producen tales gráficas, o bien, los datos pueden exportarse
a otros programas o paquetes que las generan (de cualquier tipo, a colores, utilizando
efectos de movimiento y en tercera dimensión, como por ejemplo: Power Point).
Ejemplos de gráficas para presentar distribuciones
Escuela profesional de ingeniería de Minas-UNSAAC
LA MEDIANA
La mediana es el valor que divide en dos partes iguales, al conjunto de observaciones
ordenadas respecto de sus magnitudes, de tal manera que el número de datos por encima
de la mediana sea igual al número de datos por debajo de la misma. Se designa por las
letras Me. Tal como sucede con la media, el método de determinación depende de si los
datos son agrupados o no.
Si el número n es impar
Si n es par
Escuela profesional de ingeniería de Minas-UNSAAC
LA MODA
La moda es la medida de posición que indica la magnitud del valor que se presenta con
más frecuencia en una serie de datos; es pues, el valor de la variable que más se repite en
un conjunto de datos. De las medidas de posición la moda es la que se determina con
mayor facilidad, ya que se puede obtener por una simple observación de los datos en
estudio, puesto que es el dato que se observa con mayor frecuencia. Se designa con las
letras Mo.
¿Cuáles son las medidas de la variabilidad?
Las medidas de la variabilidad indican la dispersión de los datos en la escala de medición
de la variable considerada y responden a la pregunta: ¿dónde están diseminadas las
puntuaciones o los valores obtenidos? Las medidas de tendencia central son valores en
una distribución y las medidas de la variabilidad son intervalos que designan distancias o
un número de unidades en la escala de medición.
Rango o recorrido.
Es la medida de dispersión más sencilla y se define como la diferencia entre el valor más
alto menos el valor más pequeño y se designa por R. Es decir, R = Xmax-Xmin para datos
no agrupados. Si los datos están agrupados en K clases el rango será la diferencia entre el
límite superior de la K-esima clase menos el límite inferior de la primera clase. El rango nos
dará una primera idea sobre la dispersión de los datos ya que si su valor es pequeño nos
indicará una gran concentración de los datos, y si por el contrario su valor es grande nos
puede indicar una gran variabilidad o dispersión de los datos.
La desviación estándar
La desviación estándar o característica es el promedio de desviación de las puntuaciones
con respecto a la media (Jarman, 2013 y Levin, 2003). Esta medida se expresa en las
unidades originales de medición de la distribución. Se interpreta en relación con la media.
Cuanto mayor sea la dispersión de los datos alrededor de la media, mayor será la
desviación estándar. Se simboliza como: s o la sigma minúscula, o bien mediante la
abreviatura DE
Varianza
Una manera de resolver el problema de los signos de las desviaciones respecto de la media
aritmética es elevándolos al cuadrado y luego sumar todos los resultados obtenidos. Esta
suma se puede considerar como una medida de la dispersión total de los valores. Aquellos
que estén más alejados de la media aritmética tendrán un aporte mayor a esta suma de
cuadrados. Su mayor utilidad se presenta en la estadística inductiva y se puede interpretar
como una medida de variación promedio (o el promedio de la suma de los cuadrados). Se
obtiene dividiendo la variación total entre el número de unidades o medidas. Se designa por
la letra S
Escuela profesional de ingeniería de Minas-UNSAAC
La curtosis
También conocida como medida de apuntamiento es una medida estadística, que
determina el grado de concentración que presentan los valores de una variable alrededor
de la zona central de la distribución de frecuencias.
Escuela profesional de ingeniería de Minas-UNSAAC
Puntuaciones z
Las puntuaciones z son transformaciones que se pueden hacer a los valores o las
puntuaciones obtenidas, con el propósito de analizar su distancia respecto a la media, en
unidades de desviación estándar. Una puntuación z nos indica la dirección y el grado en
que un valor individual obtenido se aleja de la media, en una escala de unidades de
desviación estándar.
Validez
Vimos en el capítulo anterior que la evidencia sobre la validez del contenido se obtiene
mediante las opiniones de expertos y al asegurarse de que las dimensiones medidas por el
instrumento sean representativas del universo o dominio de dimensiones de las variables
de interés (a veces mediante un muestreo aleatorio simple). La evidencia de la validez de
criterio se produce al correlacionar las puntuaciones de los participantes, obtenidas por
medio del instrumento, con sus valores logrados en el criterio. Recordemos que una
correlación implica asociar puntuaciones obtenidas por la muestra en dos o más variables.
La evidencia de la validez de constructo se obtiene mediante el análisis de factores. Tal
método nos indica cuántas dimensiones integran a una variable y qué ítems conforman
cada dimensión. Los reactivos que no pertenezcan a una dimensión, quiere decir que están
“aislados” y no miden lo mismo que los demás ítems, por tanto, deben eliminarse. Es un
método que tradicionalmente se ha considerado complejo, por los cálculos estadísticos
implicados, pero que es relativamente sencillo de interpretar y como los cálculos hoy en día
los realiza la computadora, está al alcance de cualquier persona que se inicie dentro de la
investigación.
¿Hasta aquí llegamos?
Cuando el estudio tiene una finalidad puramente exploratoria o descriptiva, debemos
interrogarnos: ¿podemos establecer relaciones entre variables? En caso de una respuesta
positiva, es factible seguir con la estadística inferencial; pero si dudamos o el alcance se
limitó a explorar y describir, el trabajo de análisis concluye y debemos comenzar a preparar
el reporte de la investigación.
A las estadísticas de la población se les conoce como parámetros. Éstos no son calculados,
porque no se recolectan datos de toda la población, pero pueden ser inferidos de los
estadígrafos, de ahí el nombre de estadística inferencial.
Análisis paramétricos
Para realizar análisis paramétricos debe partirse de los siguientes supuestos:
1. La distribución poblacional de la variable dependiente es normal: el universo tiene
una distribución normal.
2. El nivel de medición de las variables es por intervalos o razón.
3. Cuando dos o más poblaciones son estudiadas, tienen una varianza homogénea:
las poblaciones en cuestión poseen una dispersión similar en sus distribuciones.
¿Cuáles son los métodos o las pruebas estadísticas paramétricas más utilizados?
Existen diversas pruebas paramétricas, pero las más utilizadas son:
• Coeficiente de correlación de Pearson y regresión lineal.
• Prueba t.
• Prueba de contraste de la diferencia de proporciones.
• Análisis de varianza unidireccional (ANOVA en un sentido).
• Análisis de varianza factorial (ANOVA).
• Análisis de covarianza (ANCOVA).
¿Qué es la prueba t?
Es una prueba estadística para evaluar si dos grupos difieren entre sí de manera
significativa respecto a sus medias en una variable. Se simboliza: t.
grupos.Si el valor F es significativo implica que los grupos difieren entre sí en sus
promedios (Zhang, 2013; The SAGE Glossary of the Social and Behavioral
Sciences, 2009h;, Klugkist, 2008; Field, 2006a y 2006b; y Norpoth, 2003). Entonces
se acepta la hipótesis de investigación y se rechaza la nula.26 A continuación se
presenta un ejemplo de un estudio en el que el análisis apropiado es el de varianza.