Documente Academic
Documente Profesional
Documente Cultură
Todo lo que se puede medir y contar, decimos que se puede cuantificar. El concepto “datos
cuantitativos” hace referencia precisamente a eso, a la información tangible, la que es
obtenida mediante algún método de investigación. La manera de cuantificar los datos
obtenidos en nuestro estudio nos dará la pauta de hacia qué rumbo dirigirse, de ahí la
importancia de su correcto análisis para poder demostrar si estamos en lo correcto o no, en
la hipótesis planteada.
QUE PROCEDIMIENTO SE SIGUE PARA ANALIZAR CUANTITATIVAMENTE LOS
DATOS
Por lo general, los análisis de datos cualitativos requieren más tiempo para procesar y ordenar
los datos que para su recolección. Asímismo, el análisis cualitatitivo tradicionalmente es un
proceso lento, en especial comparándolos con los análisis de datos cuantitativos.
Las técnicas de análisis de datos cualitativos, por lo tanto, los abordan como objeto de
análisis. Encontramos distintas técnicas para analizar palabras o frases, una labor que
comienza en realidad con la recolección, pues para ello se utilizan técnicas como la listas
libres, las comparacinoes pareadas o, por ejemplo, la clasificación en pilas.
Se trata de una actividad compleja, cuyo fin último es dotar a los datos de sentido. Para ello,
se utilizan procedimientos variados muy diversos, que raramente son estadísticos. No en
vano, la analítica de datos cualitativos se considera más un arte que una técnica.
Su elección dependerá de nuestro objetivo, así como de las tareas y operaciones más
adecuados. El proceso generalde este tipo de análisis comienza por una recopilación
selectiva de los datos, seguida de una reducción pra su identificación, clasificación, síntesis y
agrupamiento.
Una vez que la información haya sido recolectada y ordenada, la codificaremos para poder
empezar a llegar a conclusiones una vez integremos la información. Si el proceso de
codificación agrupa las transcripciones en categorías, temas o conceptos con el objetivo de
relacionarlos con el fin de la consulta o investigación, la codificación los dotará de sentido.
Finalmente, se analizan los datos para alcanzar conclusiones que también deben verificarse.
Estos pasos generales de tipo procedimiental se llevan a cabo bien de forma manual o
recurriendo a programas de software que nos ofrecen distintas herramientas muy
ventajosas, si bien en uno y otro caso los principios del proceso analítico son iguales.
En el caso de las soluciones más avanzadas, idóneas para la gestión de datos masivos, las
metodologías de análisis de datos cualitativos variarán en unas y otras. Podemos disponer de
funcionalidades relacionadas con la búsqueda, organización, categorización y análisis
cualitativo en datos estructurados y desestructurados.
Desde textos o imágenes, por ejemplo, hasta objetos, vídeos o audio, con los que se trabaja
hasta hallar patrones que ofrezcan respuestas a las cuestiones planteadas. Una tarea
encomendada, como es bien sabido, a los expertos en análisis de datos cualitativos y
cuantitativos para así poder tomar mejores decisiones.
SPSS:
El SPSS es el software estadístico más utilizado a nivel mundial por ser una herramienta para
la experimentación, investigación y toma de decisiones. Su versatilidad permite que se utilice
como:
Minesight
data mining
Como data mining, también conocida como minería de datos, se describen los procedimientos
algorítmicos para la evaluación de datos aplicados a bloques de datos con un tamaño y una
complejidad determinados. Su función es la de extraer la información oculta en grandes
volúmenes de datos, especialmente en las masas de información conocidas como big data, y
además reconocer tendencias, relaciones y patrones ocultos en ellas. Para que este proceso
se pueda llevar a cabo se recurre a las data mining tools.
RapidMiner
RapidMiner, antes conocida como YALE, siglas de “Yet Another Learning Environment”, es un
data mining software muy conocido. De acuerdo con una encuesta de KDnuggets realizada en
el año 2014, esta tool se constituía como la herramienta de data mining más usada. Destaca
por permitir el acceso gratuito y por su fácil manejo dado que no requiere un conocimiento
elaborado en programación, sin olvidar la gran selección de operadores que ofrece.
Especialmente son las startups las que recurren a ella.
RapidMiner está escrita en Java y contiene más de 500 operadores con diferentes enfoques
para mostrar las conexiones en los datos: hay opciones para data mining, text mining o web
mining, pero también análisis de sentimiento o minería de opinión. Asimismo, el programa
puede importar tablas Excel, archivos SPSS y masas de datos de diferentes bases de datos e
integra los programas de data mining WEKA y R. Todo ello pone de relieve el carácter
polivalente de este software.
RapidMiner participa en todos y cada uno de los pasos del proceso de data mining,
interviniendo también en la visualización de los resultados. La herramienta está formada
por tres grandes módulos: RapidMiner Studio, RapidMinder Server y RapidMiner Radoop,
cada uno encargado de una técnica diferente de minería de datos. Asimismo, RapidMiner
prepara los datos antes del análisis y los optimiza para su rápido procesamiento. Para cada
uno de estos tres módulos hay una versión gratuita y diferentes opciones de pago.
El punto fuerte de RapidMiner, si se compara con el resto de software de data mining, reside
en los análisis predictivos, es decir, en la previsión de desarrollos futuros basándose en los
datos recopilados.
WEKA
WEKA (Waikato Environment for Knowledge Analysis) es un software de código abierto
desarrollado por la Universidad de Waikato en la primera mitad de los años noventa. Basada
en Java y compatible con Windows, macOS y Linux, la interfaz gráfica de usuario facilita el
acceso a este software que también ofrece conexión a bases de datos SQL, siendo capaz de
procesar en ellas los datos solicitados. Asimismo, presenta un sinnúmero de funciones de
aprendizaje automático y secunda tareas tan relevantes del data mining como el análisis de
clústeres, de correlación o de regresión, así como la clasificación de datos, punto fuerte este
último del data mining software al usar redes de neuronas artificiales, árboles de decisión y
algoritmos ID3 o C4.5. No obstante, este programa no es tan potente en aspectos como el
análisis de clústeres, en el que solo se ofrecen los procedimientos más importantes.
Otra desventaja es que este software presenta problemas de procesamiento cuando hay que
tratar grandes cantidades de datos, dado que intenta cargar el programa de data mining
Escuela profesional de ingeniería de Minas-UNSAAC
completo en la memoria de trabajo. WEKA ofrece para ello como solución una línea de
comandos sencilla (CTL) que aligera el tráfico de un gran volumen de datos.
Orange
El software de data mining Orange existe desde hace más de 20 años como proyecto de la
Universidad de Liubliana. El núcleo del software se escribió en C++, aunque poco después se
amplió el programa al lenguaje de programación Python que solo se usa como lenguaje de
entrada. Las operaciones más complejas, sin embargo, se llevan a cabo en C++. Orange es
un software muy extenso que demuestra todo lo que se puede conseguir con Python, ya que
ofrece aplicaciones de gran utilidad para el análisis de datos y de texto así como
características de aprendizaje automático.
Además, en el ámbito del data mining trabaja con operadores para la clasificación, regresión y
clustering e integra una programación visual. De hecho, es muy llamativo que los usuarios
destaquen lo entretenido que es usar esta herramienta en comparación con otras: tanto si se
empieza con la minería de datos o se es más experto, a todos los usuarios les fascina Orange.
Esto se debe a que, por un lado, ofrece un sistema de visualización de datosatractivo para
trabajar y, por otro, alcanza esta visualización con rapidez y facilidad. El programa prepara
los datos de forma visual, convirtiendo la comprensión de gráficas así como el procesamiento
de análisis de datos en tareas muy sencillas, lo que a su vez facilita a los usuarios tomar
decisiones rápidamente en el ámbito profesional.
Otra ventaja para los menos versados: existe un sinnúmero de tutoriales sobre la herramienta.
Una particularidad de Orange es que, además, va aprendiendo las preferencias de sus
usuarios y se comporta en función de ellas, lo que simplifica enormemente el proceso de data
mining para el usuario.
KNIME
El software KNIME (Konstanz Information Miner), desarrollado por la universidad de
Constanza, se puso a disposición de los usuarios como software de código abierto pese a
crearse desde el principio con objetivos comerciales. Escrito en Java y preparado con Eclipse,
en la actualidad KNIME se considera una herramienta de gran popularidad entre la comunidad
internacional de programadores y, si se compara con otros programas de data mining, destaca
por una amplia gama de funciones: con más de 1000 módulos y paquetes de aplicaciones
preparados, esta herramienta permite descubrir estructuras ocultas de datos. Además, se
pueden ampliar sus módulos con otras soluciones adicionales de pago.
Entre todas las funciones destaca el análisis de datos integrativo. En este ámbito KNIME es
uno de los programas más avanzados, puesto que permite la integración de numerosos
procedimientos de aprendizaje automático y de data mining. Además, presenta una eficiencia
notable en el tratamiento previo de los datos así como en su extracción, transformación y
carga. Debido a su segmentación en módulos, sirve principalmente como software de data
mining orientado al flujo de datos.
KNIME se usa en la investigación farmacéutica desde 2006 y supone una herramienta muy
importante también en el sector financiero, sin olvidar su uso frecuente en el campo de la
inteligencia empresarial (BI). Asimismo, esta herramienta es también muy interesante para
quienes apenas acaban de iniciarse con el data mining pues, aunque posee un amplio
abanico de funciones, se requiere poco tiempo para aprender a manejarla. Por último, apuntar
que KNIME existe en su versión gratuita y de pago.
Escuela profesional de ingeniería de Minas-UNSAAC
SAS
SAS (Statistical Analysis System) es un producto de SAS Institute, una de las mayores
empresas privadas de software en todo el mundo. SAS constituye la data mining tool
principal en el análisis en el sector de los negocios y, de hecho, se considera como el
programa más adecuado para grandes empresas, aunque también sea el software con un
coste económico mayor de todos los aquí descritos.
La mayoría de los programas son fáciles de ejecutar pues lo único que hay que hacer es
solicitar los análisis requeridos seleccionando las opciones apropiadas
En esta etapa, inmediata a la ejecución del programa, se inicia el análisis. Cabe señalar que
si hemos llevado a cabo la investigación reflexionando paso a paso, la fase analítica es
relativamente sencilla, porque:
6) recolectamos los datos. Sabemos qué deseamos hacer, es decir, tenemos claridad.
Variables de la investigación Son las propiedades medidas y que forman parte de las
hipótesis o que se pretenden describir.
Cuando una variable de la investigación está integrada por diversas variables de la matriz o
ítems, suele llamarse variable compuesta y su puntuación total es el resultado de adicionar
los valores de los reactivos que la conforman. Tal vez el caso más claro es la escala de
Likert, en la que se suman las puntuaciones de cada ítem y se logra la calificación final. A
Escuela profesional de ingeniería de Minas-UNSAAC
c) El interés analítico del investigador (que depende del planteamiento del problema)
Por ejemplo, los análisis que se aplican a una variable nominal son distintos a los de una
variable por intervalos. Se sugiere repasar los niveles de medición vistos en el capítulo
anterior. El investigador busca, en primer término, describir sus datos y posteriormente
efectuar análisis estadísticos para relacionar sus variables. Es decir, realiza análisis de
estadística descriptiva para cada una de las variables de la matriz (ítems o indicadores) y
luego para cada una de las variables del estudio, finalmente aplica cálculos estadísticos para
probar sus hipótesis. Los tipos o métodos de análisis cuantitativo o estadístico son variados
y se comentarán a continuación; pero cabe señalar que el análisis no es indiscriminado, sino
que cada método tiene su razón de ser y un propósito específico; por ello, no deben hacerse
más análisis de los necesarios. La estadística no es un fin en sí misma, sino una herramienta
para evaluar los datos.
Las medidas de tendencia central son puntos en una distribución obtenida, los valores medios o
centrales de ésta, y nos ayudan a ubicarla dentro de la escala de medición de la variable analizada.
Las principales medidas de tendencia central son tres: moda, mediana y media.
MEDIA
La media aritmética de una serie de n valores de una variable X1, X2, X3; X4,.........Xn, es el
cociente de dividir la sumatoria de todos los valores que toma la variable Xi, entre el número total
de ellos.
Escuela profesional de ingeniería de Minas-UNSAAC
LA MEDIANA
La mediana es el valor que divide en dos partes iguales, al conjunto de observaciones ordenadas
respecto de sus magnitudes, de tal manera que el número de datos por encima de la mediana sea
igual al número de datos por debajo de la misma. Se designa por las letras Me. Tal como sucede
con la media, el método de determinación depende de si los datos son agrupados o no.
Si el número n es impar
Si n es par
LA MODA
La moda es la medida de posición que indica la magnitud del valor que se presenta con más
frecuencia en una serie de datos; es pues, el valor de la variable que más se repite en un conjunto
de datos. De las medidas de posición la moda es la que se determina con mayor facilidad, ya que
se puede obtener por una simple observación de los datos en estudio, puesto que es el dato que
se observa con mayor frecuencia. Se designa con las letras Mo.
RANGO O RECORRIDO.
Escuela profesional de ingeniería de Minas-UNSAAC
Es la medida de dispersión mas sencilla y se define como la diferencia entre el valor mas alto
menos el valor mas pequeño y se designa por R. Es decir, R = Xmax-Xmin para datos no agrupados.
Si los datos están agrupados en K clases el rango será la diferencia entre el limite superior de la K-
esima clase menos el limite inferior de la primera clase. El rango nos dará una primera idea sobre
las dispersión de los datos ya que si su valor es pequeño nos indicará una gran concentración de
los datos, y si por el contrario su valor es grande nos puede indicar una gran variabilidad o
dispersión de los datos.
La desviación estándar
VARIANZA
Una manera de resolver el problema de los signos de las desviaciones respecto de la media
aritmética es elevándolos al cuadrado y luego sumar todos los resultados obtenidos. Esta suma se
puede considerar como una medida de la dispersión total de los valores. Aquellos que estén mas
alejados de la media aritmética tendrán un aporte mayor a esta suma de cuadrados. Su mayor
utilidad se presenta en la estadística inductiva y se puede interpretar como una medida de
variación promedio (o el promedio de la suma de los cuadrados). Se obtiene dividiendo la
variación total entre el numero de unidades o medidas. Se designa por la letra S
La asimetría
es una estadística necesaria para conocer cuánto se parece nuestra distribución a una distribución
teórica llamada curva normal (la cual se representa también en la figura 10.9) y constituye un
indicador del lado de la curva donde se agrupan las frecuencias. Si es cero (asimetría = 0), la curva
o distribución es simétrica. Cuando es positiva, quiere decir que hay más valores agrupados hacia
Escuela profesional de ingeniería de Minas-UNSAAC
la izquierda de la curva (por debajo de la media). Cuando es negativa, significa que los valores
tienden a agruparse hacia la derecha de la curva (por encima de la media)
La curtosis
También conocida como medida de apuntamiento es una medida estadística,
que determina el grado de concentración que presentan los valores de una
variable alrededor de la zona central de la distribución de frecuencias.
Escuela profesional de ingeniería de Minas-UNSAAC
Puntuaciones z
Las puntuaciones z son transformaciones que se pueden hacer a los valores o las puntuaciones
obtenidas, con el propósito de analizar su distancia respecto a la media, en unidades de desviación
estándar. Una puntuación z nos indica la dirección y el grado en que un valor individual obtenido
se aleja de la media, en una escala de unidades de desviación estándar.