Documente Academic
Documente Profesional
Documente Cultură
datos relacionales
En este escenario, la pregunta comercial de Dualcore es: ¿Qué productos les gusta
comprar a nuestros clientes? Para responder a esta pregunta, el primer pensamiento
podría ser mirar los datos de la transacción, que deberían indicar lo que los clientes
realmente compran y les gusta comprar, ¿verdad?
Esto es probablemente algo que puede hacer en su entorno RDBMS habitual, pero un
beneficio de Apache Hadoop es que puede hacerlo a mayor escala a un costo menor,
en el mismo sistema que también puede usar para muchos otros tipos de análisis.
Lo que demuestra este ejercicio es cómo hacer exactamente lo mismo que ya sabe
hacer, pero en CDH. La integración perfecta es importante al evaluar cualquier
infraestructura nueva. Por lo tanto, es importante poder hacer lo que normalmente
hace, y no interrumpir los informes de BI o las cargas de trabajo regulares sobre el
conjunto de datos que planea migrar.
Para analizar los datos de la transacción en la nueva plataforma, necesitamos
incorporarlos al Sistema de archivos distribuidos de Hadoop (HDFS). Necesitamos
encontrar una herramienta que transfiera fácilmente los datos estructurados de un
RDBMS a HDFS, mientras conserva la estructura. Eso nos permite consultar los datos,
pero no interferir o interrumpir ninguna carga de trabajo regular en ellos.
Apache Sqoop, que forma parte de CDH, es esa herramienta. Lo bueno de Sqoop es
que podemos cargar automáticamente nuestros datos relacionales de MySQL en HDFS,
al tiempo que conservamos la estructura. Con algunos parámetros de configuración
adicionales, podemos dar un paso más y cargar estos datos relacionales directamente
en un formulario listo para ser consultado por Apache Impala, la base de datos
analítica MPP incluida con CDH y otras cargas de trabajo.
Referencia del modelo de datos
sqoop import-all-tables \
--connect jdbc:mysql://localhost:3306/retail_db \
--username=retail_dba \
--password=cloudera \
--compression-codec=snappy \
--as-parquetfile \
--warehouse-dir=/user/hive/warehouse \
--hive-import