Sunteți pe pagina 1din 135

INNOVACIONES TECNOLGICAS

Estrategias empresariales en:


Cloud Computing
y Big Data

EGADE Business School (campus


BBVA, La Moraleja)
Madrid, 2 de octubre, 2013

Prof. Luis Joyanes Aguilar 1


ESTADO DEL ARTE DE
CLOUD COMPUTING

COMPUTACIN
EN LA NUBE
La nueva era de la
computacin
Prof. Luis Joyanes Aguilar

2
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 3
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 4
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
CONTENIDO
1. INNOVACIONES TECNOLGICAS
2. CLOUD COMPUTING
3. BIG DATA y BUSINESS ANALYTICS
4. ESTRATEGIAS EMPRESARIALES PARA
CLOUD COMPUTING y BIG DATA
5. CONCLUSIONES Y FUTURO

ANEXO. Libros y documentacin de


referencia, Referencias Web
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 5
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
III. BIG DATA
Una introduccin gerencial
y para empresas

Prof. Luis Joyanes Aguilar

6
EGADE Business School

BIG DATA
El universo digital de
datos
Prof. Luis Joyanes Aguilar

7
LA ERA DEL PETABYTE (1.000 TB),
Wired , julio 2008 (www.wired.com)
Sensores en todas partes, almacenamiento infinito
y Nubes (clouds) de procesadores
Nuestra capacidad para capturar, almacenar y comprender
cantidades masivas de datos est cambiando la ciencia,
medicina, negocios y tecnologa. A medida que aumenta
nuestra coleccin de hechos y figuras, crece la oportunidad
de encontrar respuestas a preguntas fundamentales.

Because in the era of big data,


more isnt just more. More is
different
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 8
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LA ERA DEL PETABYTE -2- . Wired ,
julio 2008 (www.wired.com)
1TB (250.000 canciones)

20 TB (fotos uploaded a Facebook


cada mes)
120 TB (todos los datos e imgenes recogidos por el telescopio
espacial Hubble) ; 460 TB (todos los datos del tiempo climtico en
EEU compilados por el National Climatic Data Center); 530 TB
(Todos los vdeos de YouTube); 600 TB (base de datos de
genealoga, incluye todos los censos de EEUU 1790-2000)

1 PB (datos procesados por los


servidores de Google cada 75 minutos)
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 9
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Tabla de unidades de almacenamiento
(The Economist, febrero 2010): data, data everywhere
www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 10
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
El Universo Digital EMC / IDC

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 11
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
El Universo Digital EMC / IDC

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 12
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EL UNIVERSO DIGITAL DE DATOS, 2013
EMC Corporation PUBLIC en diciembre de 2013, su
estudio anual sobre el Universo Digital de IDC,
patrocinado por EMC: Big Data, Bigger Digital
Shadows, and Biggest Growth in the Far East. El
estudio arroj que, a
pesar de la expansin sin
precedentes del Universo Digital debido a el
Big Data que se generan a diario por
personas y mquinas, IDC estima que solo
0,5% de los datos mundiales se analizan.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 13
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EL UNIVERSO DIGITAL DE DATOS, 2013
La proliferacin a nivel mundial de dispositivos, como PC y
telfonos inteligentes, aument el acceso a Internet
dentro de los mercados emergentes, y el incremento de
datos generados por mquinas, como cmaras de
vigilancia o contadores inteligentes, ha contribuido a la
duplicacin del Universo Digital en los
ltimos dos aos solamente, hasta alcanzar
un tamao descomunal de 2,8 ZB. IDC
proyecta que, para el 2020, el Universo Digital
alcanzar 40 ZB, cifra que supera las
proyecciones anteriores por 14%.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 14
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EL UNIVERSO DIGITAL DE DATOS, 2013
En trminos de volumen, 40 ZB de datos son
equivalentes a lo siguiente:
Existen 700.500.000.000.000.000.000 granos de arena en todas las
playas del mundo (o setecientos trillones quinientos mil billones). Esto
significa que 40 ZB equivalen a 57 veces la cantidad de
granos de arena de todas las playas del mundo. Si
pudiramos guardar los 40 ZB en los discos Blue-ray de la actualidad,
el peso de dichos discos (sin fundas ni estuches) sera equivalente a
424 portaaviones Nimitz. En 2020, 40 ZB sern 5.247 GB por persona
a nivel mundial.
Referencia: America Economia:
http://tecno.americaeconomia.com/noticias/el-gran-
universo-digital-la-data-crece-mas-rapido-de-lo-que-
podemos-protegerla
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 15
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
El universo digital de datos, IDC 2013

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pina 16
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
El universo digital de datos, 2013

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 17
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA (Datos abiertos)

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 18
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA (Datos abiertos)
Las administraciones pblicas [de
cualquier organismo nacional e
internacional] generan gran cantidad de
informacin en formatos propios de difcil
acceso para la mayora de los ciudadanos.
Bases de datos, listas, estudios, informes,
estadsticas, etc. son datos abiertos (open
data) en formatos propios que son de
difcil acceso para la mayora de los
ciudadanos.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 19
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA (Datos abiertos)
Evidentemente estos datos se almacenan
normalmente en centros de datos propios
de las administraciones que a su vez se
almacenan y gestionan en nubes pblicas o
privadas
Qu necesitan los profesionales o las
empresas para sacar rentabilidad a esos
datos pblicos? Evidentemente la
colaboracin de las entidades pblicas para
liberar cada da ms informacin y crear
ms oportunidades de negocio
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 20
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Qu son datos abiertos?
Los Datos Abiertos constituyen una iniciativa
de transparencia y Gobierno Abierto que
consiste en la liberacin de conjuntos de
datos que son de inters pblico. Los Datos Abiertos
son puestos a disposicin de la sociedad, se promueve su libre acceso y
reutilizacin, exceptuando aquellos datos que por razones de seguridad y
privacidad previstas en la normativas vigentes no puedan ser publicados;
La mayor parte de los datos generados o mantenidos por el
estado son pblicos. Sin embargo, no slo el estado puede abrir
sus datos: empresas, organizaciones y comunidades de
informacin que producen o mantienen datos pueden ponerlos a
disposicin, siempre en formatos abiertos y bajo licencias libres.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 21
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA (Datos abiertos)
La administracin de Estados Unidos
inici la iniciativa Open Data y en
paralelo la Unin Europea ha ido
adoptando tambin la iniciativa.

En Espaa los primeros gobiernos han


sido los Gobiernos Autonmicos de El
Principado de Asturias y el Pas
Vasco.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 22
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA (Datos abiertos)
La iniciativa del Gobierno Vasco se ha
plasmado en la puesta en funcionamiento
de Open Data Euskadi que pretende crear
un sitio web donde la informacin
reutilizable (contenidos abiertos) estn al
alcance de cualquier ciudadano.
Un estudio de la UE(2010) estima que el
mercado de informacin pblica podra
generar riqueza por valor de 27.000
millones de euros.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 23
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA EN LATAM
Colombia
Portal de Datos Abiertos del gobierno
http://datosabiertoscolombia.cloudapp.ne
t/frm/buscador/frmBuscador.aspx
Per
Portal de Datos Abiertos de la Municipalidad de
Lima
Portal de Datos Abiertos:
http://www.datosperu.org/

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 24
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
INICIATIVAS PIONERAS
INTERNACIONALES EN OPEN DATA
En Espaa adems de los gobiernos autonmicos
de Asturias, Pas Vasco y Catalua, la fundacin CTIC
ligada al consorcio W3C (www.fundacionctic.org).
http://datos.gob.es/datos/?q=node/232
En Estados Unidos data.gov, en Gran
Bretaa data.gov.uk
En Google (abril 2011, del nmero 1) la revista de
negocios. //thinkquarterly.co.uk. El nmero 1 dedicado
a OPEN DATA.
En la Unin Europea (Iniciativa OPEN DATA):
http://open-data.europa.eu/es
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 25
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EGADE Business School

III
BIG DATA Y ANALTICA
DE DATOS.
Nuevas bases de datos
NoSQL, In-Memory

Prof. Luis Joyanes Aguilar


26
Arquitectura de Big Data

Prof. Luis Joyanes Aguilar

27
Harvard Business Review, octubre 2012

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 28
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Foreign Affairs, mayo 2013

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 29
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Revista BBVA, innovation edge, junio 2013

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 30
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LA AVALANCHA DE DATOS
Segn Eric Schmidt, presidente ejecutivo de Google, entre el
origen de la tierra y el 2003 se crearon cinco exabytes de
informacin. Hoy en da creamos la misma cifra cada dos
das2. Las previsiones aseguran que en esta dcada
crearemos alrededor de 35 zettabytes (40 ZB, informe de
diciembre de 2012)
Segn la consultora IDC, cifran en 1,8 Zettabytes la
informacin generada en 2011. Si tratramos de almacenar
esa informacin en iPads (del modelo de 32GB)
necesitaramos 57.500 millones; puestos unos al lado de
otro formaramos una lnea que dara 3 veces la vuelta al
mundo y, si tratramos de apilarlos, la montaa resultante
sera 25 veces ms alta que el monte Fuji.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 31
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LA AVALANCHA DE DATOS
Twitter: (redes sociales)
90 millones de tuits (tweets) por da que representa 8
Terabytes.
Boeing: (industria)
Vuelo transocenico de un jumbo puede generar 640
Terabytes.
Wal-Mart: (comercio)
1 milln de transacciones por hora que se estima que
alimenta una base de datos de 2.5 petabytes.
Google procesa al da 20 PB de informacin
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 32
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 33
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 34
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BIG DATA, bbva edge, junio 2013
Fuentes:
SAS | Big Data: www.sas.com/big-data.
IBM | Big Data at the Speed of Business
McKinsey Global Institute | Big Data: The next
frontier for innovation, competition, and
productivity, junio 2011.
Fuente:
Intel | What Happens in an Internet Minute?
www.intel.com/content/www/us/en/communic
ations/internet-minute-infographic.html
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 35
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EXPANSIN, de Wall Street Journal, 1 de
abril 2013
01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas
estn buscando la mejor forma de aprovechar el exceso
de informacin.
La informacin abunda y las empresas estn buscando la
mejor forma de aprovecharla. Los expertos ya bautizaron
este fenmeno como big data. La definicin es amorfa,
pero normalmente significa lo siguiente: las empresas
tienen acceso a mucha ms informacin que antes, que
proviene de muchas ms fuentes y la obtienen casi al
momento en que se genera.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 36
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EXPANSIN, de Wall Street Journal, 1 de
abril 2013
El concepto de big data a menudo se relaciona con las empresas que
ya operan en el mundo de la informacin, como Google, Facebook y
Amazon. Pero compaas en mltiples industrias estn
colocando los datos en el corazn de sus operaciones. Estn
recolectando cantidades enormes de informacin, a menudo
combinando indicadores tradicionales como las ventas, con
comentarios de redes sociales e informacin de ubicacin que
viene de los dispositivos mviles. Las empresas escudrian esta
informacin para mejorar sus productos, recortar gastos y mantener
la fidelidad de sus clientes.
Las firmas de logstica, por ejemplo, instalan sensores en sus
camiones para detectar formas de acelerar las entregas. Los
fabricantes revisan miles de publicaciones en foros de Internet para
determinar si a los clientes les gusta una nueva caracterstica. Los
gerentes de personal estudian cmo los candidatos a un empleo
responden preguntas para ver si encajan bien con la compaa.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 37
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EXPANSIN, de Wall Street Journal, 1 de
abril 2013
An quedan numerosos obstculos en el camino.
Algunos son tcnicos, pero en la mayora de las
empresas las decisiones se siguen basando en la
opinin de la persona con el salario ms alto y
podra ser difcil convencer a un ejecutivo de que
los datos superan su intuicin.
Los recursos humanos, las operaciones, el
desarrollo de productos o el mrketing son las
diferentes formas a travs de las cuales las
empresas usan el poder de la informacin para
transformar sus negocios.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 38
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EXPANSIN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
UPS
UPS comenz a instalar sensores en sus vehculos de
reparto para conocer su velocidad y ubicacin, si el
cinturn de seguridad del conductor est abrochado... Al
combinar su informacin de GPS y los datos de sensores
sobre rendimiento en ms de 46.000 vehculos, UPS
recort 136 millones de kilmetros de sus rutas.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 39
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EXPANSIN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
InterContinental
La cadena hotelera InterContinental ha recabado
informacin sobre los 71 millones de miembros de
su programa Priority Club, como niveles de
ingresos y preferencias sobre las instalaciones. El
grupo consolid la informacin en un solo
almacn de datos que rene informacin de redes
sociales y procesa bsquedas ms rpido

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 40
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Tabla de unidades de almacenamiento
(The Economist, febrero 2010): data, data everywhere
www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 41
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LA AVALANCHA DE DATOS
Segn Eric Schmidt, presidente ejecutivo de Google, entre el
origen de la tierra y el 2003 se crearon cinco exabytes de
informacin. Hoy en da creamos la misma cifra cada dos
das2. Las previsiones aseguran que en esta dcada
crearemos alrededor de 35 zettabytes (40 ZB, informe de
diciembre de 2012)
Segn la consultora IDC, cifran en 1,8 Zettabytes la
informacin generada en 2011. Si tratramos de almacenar
esa informacin en iPads (del modelo de 32GB)
necesitaramos 57.500 millones; puestos unos al lado de
otro formaramos una lnea que dara 3 veces la vuelta al
mundo y, si tratramos de apilarlos, la montaa resultante
sera 25 veces ms alta que el monte Fuji.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 42
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data McKinsey. Junio 2011
Big data: The next frontier for
innovation, competition, and
productivity.

http://www.mckinsey.com/Insights/MGI/
Research/Technology_and_Innovation/Big
_data_The_next_frontier_for_innovation

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 43
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data McKinsey. Junio 2011
Big data: The next frontier for innovation,
competition, and productivity.
The amount of data in our world has been
exploding. Companies capture trillions of bytes of
information about their customers, suppliers, and
operations, and millions of networked sensors are
being embedded in the physical world in devices
such as mobile phones and automobiles,
sensing, creating, and communicating data.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 44
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data McKinsey. Junio 2011
Multimedia and individuals with smartphones and
on social network sites will continue to fuel
exponential growth. Big datalarge pools of data
that can be captured, communicated, aggregated,
stored, and analyzedis now part of every sector
and function of the global economy. Like other
essential factors of production such as hard
assets and human capital, it is increasingly the
case that much of modern economic activity,
innovation, and growth simply couldnt take place
without data.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 45
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data McKinsey. Junio 2011
The question is what this phenomenon means. Is the
proliferation of data simply evidence of an increasingly
intrusive world? Or can big data play a useful economic
role? While most research into big data thus far has
focused on the question of its volume, our study makes the
case that the business and economic possibilities of big
data and its wider implications are important issues that
business leaders and policy makers must tackle. To inform
the debate, this study examines the potential value that big
data can create for organizations and sectors of the
economy and seeks to illustrate and quantify that value. We
also explore what leaders of organizations and policy
makers need to do to capture it.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 46
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
What do we mean by "big data"?
: McKinsey 2011
Big data refers to datasets whose size is
beyond the ability of typical database software
tools to capture, store, manage, and analyze.
This definition is intentionally subjective and incorporates a
moving definition of how big a dataset needs to be in order to be
considered big datai.e., we dont define big data in terms of
being larger than a certain number of terabytes (thousands of
gigabytes). We assume that, as technology advances over time,
the size of datasets that qualify as big data will also increase. Also
note that the definition can vary by sector, depending on what
kinds of software tools are commonly available and what sizes of
datasets are common in a particular industry. With those caveats,
big data in many sectors today will range from a few dozen
terabytes to multiple petabytes (thousands of terabytes).

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 47
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIN DE BIG DATA: IBM
What is big data?*
Every day, we create 2.5 quintillion bytes of data so
much that 90% of the data in the world today has been
created in the last two years alone. This data comes from
everywhere: sensors used to gather climate information,
posts to social media sites, digital pictures and videos,
purchase transaction records, and cell phone GPS signals
to name a few. This data is big data.
*http://www-
01.ibm.com/software/data/bigdata/

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 48
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 49
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIN DE BIG DATA: IBM

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 50
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIN DE BIG DATA: IBM
Big data spans four dimensions: Volume, Velocity,
Variety, and Veracity.

Volume: Enterprises are awash with ever-growing data


of all types, easily amassing terabyteseven petabytes
of information.
Turn 12 terabytes of Tweets created each day into
improved product sentiment analysis
Convert 350 billion annual meter readings to better
predict power consumption

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 51
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIN DE BIG DATA: IBM
Velocity: Sometimes 2 minutes is too late. For time-
sensitive processes such as catching fraud, big data must
be used as it streams into your enterprise in order to
maximize its value.
Scrutinize 5 million trade events created each day to
identify potential fraud
Analyze 500 million daily call detail records in real-time to
predict customer churn faster

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 52
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIN DE BIG DATA: IBM
Variety: Big data is any type of data - structured and
unstructured data such as text, sensor data, audio, video,
click streams, log files and more. New insights are found
when analyzing these data types together.
Monitor 100s of live video feeds from surveillance
cameras to target points of interest
Exploit the 80% data growth in images, video and
documents to improve customer satisfaction

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 53
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIN DE BIG DATA: IBM
Veracity: 1 in 3 business leaders dont trust the
information they use to make decisions. How can you act
upon information if you dont trust it? Establishing trust in
big data presents a huge challenge as the variety and
number of sources grows.
Big data is more than simply a matter of size; it is an opportunity to
find insights in new and emerging types of data and content, to make
your business more agile, and to answer questions that were
previously considered beyond your reach. Until now, there was no
practical way to harvest this opportunity. Today, IBMs platform for
big data uses state of the art technologies including patented
advanced analytics to open the door to a world of possibilities.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 54
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Modelo 3V de Big Data
VOLUMEN
Terabytes
Records
Transactions
Tables, files
VELOCIDAD VARIEDAD
Batch (por lotes) Estructurado
Near time (casi a tiempo) No estructurado
Real time (tiempo real) Semi-estructurado
Streams (flujos) Todos los dems

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 55
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Fuentes de Big Data
Herramientas para anlisis de datos en grandes
volmenes de datos. Infraestructuras de Big Data
Fuentes de Big Data (Soares 2012):
Web y Social media
Machine-to-Machine (M2M, Internet de
las cosas)
Biometria
Datos de transacciones de grandes datos
(salud, telecomunicaciones)
Datos generados por las personas
(humanos)
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 56
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Store.com
Sunil Soares (2003). Big Data Governance Emerging
Imperative. Boise. MC Press Online. El autor de este
libro mantiene un blog excelente sobre Big Data y
Gobierno de Big Data

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 57
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MxicoDF: Alfaomega (2013)
1. Web y Social Media: Incluye contenido web e informacin
que es obtenida de las medios sociales como Facebook, Twitter,
LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs
de peridicos y televisiones, wikis como MediaWiki, Wikipedia,
marcadores sociales como Del.icio.us, Stumbleupon
agregadores de contenidos como Dig, Meneame En esta
categora los datos se capturan, almacenan o distribuyen
teniendo presente las caractersticas siguientes: Datos de los
flujos de clics, tuits, retuits o entradas en general (feeds) de
Twitter, Tumblr, Entradas (posting) de Facebook y contenidos
web diversos.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 58
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MxicoDF: Alfaomega (2013)
2. Machine-to-Machine (M2M)/ Internet de las
cosas: M2M se refiere a las tecnologas que permiten conectarse a
otros diferentes dispositivos entre s. M2M utiliza dispositivos como
sensores o medidores que capturan algn evento en particular
(humedad, velocidad, temperatura, presin, variables meteorolgicas,
variables qumicas como la salinidad, etc.) los cuales transmiten a
travs de cableadas, inalmbricas y mviles a otras aplicaciones que
traducen estos eventos en informacin significativa. La comunicacin
M2M ha originado el conocido Internet de las cosas o de los objetos.
Entre los dispositivos que se emplean para capturar datos de esta
categora podemos considerar chips o etiquetas RFID, chips NFC,
medidores (de temperaturas, de electricidad, presin). sensores,
dispositivos GPS y ocasionan la generacin de datos mediante la
lectura de los medidores, lecturas de los RFID y NFC, lectura de los
sensores, seales GPS, seales de GIS, etc.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 59
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MxicoDF: Alfaomega (2013)
3.Big Data transaccionales: Grandes datos transaccionales
procedentes de operaciones normales de transacciones de todo
tipo. Incluye registros de facturacin, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos
transaccionales estn disponibles en formatos tanto
semiestructurados como no estructurados. Los datos generados
procedern de registros de llamada de centros de llamada,
departamentos de facturacin, reclamaciones de las personas,
presentacin de documentos

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 60
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MxicoDF: Alfaomega (2013)
4. Biometra: La biometra o reconocimiento biomtrico.
La informacin biomtrica se refiere a la identificacin
automtica de una persona basada en sus caractersticas
anatmicas o trazos personales. Los datos anatmicos se
crean a partir de las caractersticas fsicas de una persona
incluyendo huellas digitales, iris, escaneo de la retina,
reconocimiento facial, gentica, DNA, reconocimiento de
voz, incluso olor corporal etc. Los datos de
comportamiento incluyen anlisis de pulsaciones y
escritura a mano. Los avances tecnolgicos han
incrementado considerablemente los datos biomtricos
disponibles

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 61
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MxicoDF: Alfaomega (2013)
. En el rea de seguridad e inteligencia, los datos
biomtricos han sido informacin importante para las
agencias de investigacin. En el rea de negocios y de
comercio electrnico los datos biomtricos se pueden
combinar con datos procedentes de medios sociales lo
que hace aumentar el volumen de datos contenidos en los
datos biomtricos. Los datos generados por la biometra
se pueden agrupar en dos grandes categoras: Gentica y
Reconocimiento facial.
An Overview of Biometric Recpgnition.
http://biometrics.cse.nsu.edu/info.html

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 62
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MxicoDF: Alfaomega (2013)
5. Datos generados por las personas: Las personas
generan enormes y diversas cantidades de datos como la
informacin que guarda un centro de llamadas telefnicas
(call center) al establecer una llamada telefnica, notas de
voz, correos electrnicos, documentos electrnicos,
estudios y registros mdicos electrnicos, recetas
mdicas, documentos papel, faxes, etc. El problema que
acompaa a los documentos generados por las personas es que
pueden contener informacin sensible de las personas que necesita,
normalmente ser oculta, enmascarada o cifrada de alguna forma para
conservar la privacidad de dichas personas. Estos datos al ser
sensibles necesitan ser protegidos por las leyes nacionales o
supranacionales (como es el caso de la Unin Europea o Mercosur)
relativas a proteccin de datos y privacidad.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 63
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Estructura de Big Data: tipos de datos
Estructurados
No estructurados
No estructurados (texto, datos de vdeo, datos de audio,,,)
Semiestructurados ( a veces se conocen como
multiestructurados. Tienen un formato y flujo lgico de modo
que pueden ser entendidos pero el formato no es amistoso al
usuario(HTML. XML, datos de web logs)
Normalmente, se suelen asociar los datos
estructurados a los tradicionales y los datos no
estructurados a los Big Data
Objetivo principal de los sistemas de gestin de
datos: Integracin de datos estructurados y no
estructurados
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 64
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
ESTADO ACTUAL DE BIG DATA
1. Almacenamiento:
hacen falta nuevas tecnologas de almacenamiento
2. Bases de datos:
las BD relacionales no pueden con todo
3. Procesado:
se requieren nuevos modelos de programacin
4. Obtencin de valor:
los datos no se pueden comer crudos (en bruto)
La informacin no es conocimiento accionable
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 65
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
1. Almacenamiento
Hacen falta nuevas tecnologas de
almacenamiento
RAM vs HHD
Memorias hardware. HHD 100 ms barato que RAM
pero 1000 veces ms lento
Solucin actual:
Solid- state drive (SSD) adems no voltil
Tecnologas in-memory (SAP HANA)
Investigacin:
Storage Class Memory (SCM)

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 66
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
2. Base de datos
Las BD relacionales no pueden con
todo
Base de datos
volumen de la informacin
GBs
PBs Tiempo de ejecucin
Exabytes . Cada da ms populares
Limitadas para almacenamiento de big data
(ACID, SQL, )
ACID: Atomicity, Consistency, Isolation & Durability

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 67
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
2. Bases de datos
In-Memory (en-memoria)
SAP Hana
Oracle Times Ten In-Memory Database
IBM solidDB

NoSQL (Not only SQL)


Relacional
Sistemas RDBMS
Transferencia de datos entre Hadoop y bases de datos
relacionales
Legacy (heredadas, antiguas)

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 68
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
3. Procesado HADOOP
Se requieren nuevos modelos de programacin
para manejarse con estos datos
Solucin: Para conseguir procesar grandes conjuntos de
datos: MapReduce

Pero fue el desarrollo de Hadoop MapReduce,


por parte de Yahoo, el que ha propiciado un ecosistema
de herramientas open source os Google cre el modelo
de programacin MapReduce
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 69
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
4. Obtencin de valor
Los datos no se pueden comer crudos (en bruto)
la informacin no es conocimiento accionable
Para ello tenemos tcnicas de Data Mining
Asociacin
Clasificacin
Clustering
Prediccin
...
La mayora de algoritmos se ejecutan bien
en miles de registros, pero son hoy por hoy
impracticables en miles de millones.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 70
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Bases de datos
In-Memory (en-memoria)
SAP Hana
Oracle Times Ten In-Memory Database
IBM solidDB

Relacionales
Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft
Transferencia de datos entre Hadoop y bases de datos
relacionales
Legacy (jerrquicas, en red primeras relacionales)
NoSQL (Cassandra, Hive, mongoDB,
CouchDB, Hbase)
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 71
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BASES DE DATOS ANALTICAS
Analticas: para permitir a mltiples usuarios contestar
rpidamente preguntas de negocio que requieran de grandes
volmenes de informacin.
Bases de datos de procesamiento
paralelo masivo (MPP)
Bases de datos en memoria
Almacenamiento en columnas
Histricamente estas bases de datos tan especializadas
tenan un costo muy elevado, pero hoy el mercado nos
ofrece varias alternativas que se adaptan al presupuesto de
cada organizacin.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 72
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Bases de datos analticas
Bases de datos diseadas especficamente para ser
utilizadas como motores de Data Warehouse.
Estas bases de datos logran procesar grandes volmenes de
informacin a velocidades asombrosas, gracias a la aplicacin de
diferentes conceptos y tecnologas:
Almacenamiento en columnas en lugar de filas
(registros)
Massively parallel processing (MPP)
In-Memory Analytics

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 73
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 74
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Almacenamiento en columnas, no filas:
FUENTE: datalytics.com

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 75
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Computacin en memoria In-Memory
La computacin en memoria es una
tecnologa que permite el procesamiento de cantidades
masivas de datos en memoria principal para proporcionar
resultados inmediatos del anlisis y de las transacciones.
Los datos a procesar, idealmente son datos en tiempo
real (es decir, datos que estn disponibles para su
procesamiento o anlisis inmediatamente despus
que se han creado).
Existen un amplio conjunto de tecnologas que emplean
bases de datos en memoria. SAP HANA es una de las
ms acreditadas y populares (Oracle, IBM,)

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 76
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BASES DE DATOS RELACIONALES (REPASO)
La mayora de las bases de datos cumplen con las
propiedades ACID (atomicity, consistency,
isolation, durability). Estas propiedades garantizan un
comportamiento de las base de datos relacionales y el mejor de los
argumentos para su utilizacin.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 77
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BASES DE DATOS NoSQL
Las bases de datos no-relacionales son comnmente
llamadas bases de datos NoSQL ya que la gran mayora
de ellas comparte el hecho de no utilizar el lenguaje SQL
para realizar las consultas
Es una definicin controvertida, aunque la definicin ms
aceptada es Not only SQL.
Una de las caractersticas de las bases de datos no
relacionales es que la mayora de ellas no utilizan
esquemas de datos rgidos como las bases de datos
relacionales. Esto hace que estas bases de datos tambin
se les llame Schema-less o Schema-free
(almacenamiento des-estructurado).

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 78
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Taxonoma de Bases de datos NoSQL
Los principales tipos de BBDD de acuerdo con su
implementacin son los siguientes:
Almacenes de Clave-Valor
Almacenes de Familia de Columnas (columnares)
Almacenes de documentos (orientadas a
documentos)
Almacenes de Grafos (orientadas a grafos)
- Cachs de memoria

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 79
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
SOLUCIONES DE BASES DE DATOS NoSQL

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 80
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Integracin con Big Data. FUENTE: datalytics.com

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 81
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Integracin con Big Data. FUENTE: datalytics.com

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 82
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Tecnologas BIG DATA
HADOOP

Prof. Luis Joyanes Aguilar

83
Logo de HADOOP

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 84
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Logo de HADOOP

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 85
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
TECNOLOGAS BIG DATA (HADOOP)
Datos de la consultora IDC de agosto de 2012 prevn que el
mercado del software relacionado con los framework
open source Apache Hadoop y el MapReduce de
Google crecer a un ritmo anual de ms del 60% hasta el
ao 2016.
La popularidad de Hadoop se ha ido incrementando durante
los ltimos meses, a medida que las empresas necesitan
manejar grandes cantidades de datos estructurados y no
estructurados para despus analizarlos y ser capaces de
tomar decisiones lo ms favorables posible para sus negocios.
IDC tambin espera que el mercado de Hadoop-MapReduce evolucione y
que poco a poco comienza a introducirse en los sistemas empresariales.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 86
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop
The Apache Hadoop software library is a
framework that allows for the distributed
processing of large data sets across
clusters of computers using a simple
Programming model
De la pgina de Hadoop

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 87
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
TECNOLOGAS BIG DATA (HADOOP)
Hadoop es un proyecto de software open source que
provee un framework para habilitar el procesamiento
distribuido de grandes conjuntos de datos sobre clusters
construidos con hardware genrico. En esencia, Hadoop
consiste de dos elementos base: un sistema de archivos
distribuido (Hadoop Distributed File System, HDFS) y un
motor de procesamiento de datos que implementa el
modelo Map/Reduce (Hadoop MapReduce). Sin embargo,
conforme ha ido ganando adopcin y madurez, tambin
se han ido creando tecnologas para complementarlo y
ampliar sus escenarios de uso, de tal forma que hoy en
da el nombre Hadoop no se refiere a una sola
herramienta sino a una familia de herramientas alrededor
de HDFS y MapReduce.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 88
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
What Is Apache Hadoop? (Fundacin Apache)
The Apache Hadoop project develops open-source
software for reliable, scalable, distributed computing.
The Apache Hadoop software library is a framework that
allows for the distributed processing of large data sets
across clusters of computers using simple programming
models. It is designed to scale up from single servers to
thousands of machines, each offering local computation
and storage. Rather than rely on hardware to deliver high-
avaiability, the library itself is designed to detect and
handle failures at the application layer, so delivering a
highly-availabile service on top of a cluster of computers,
each of which may be prone to failures.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 89
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Historia de HADOOP
2004-2006
Google publica los papers de GFS y MapReduce
Doug Cutting implementa una version Open Source en
Nutch
2006-2008
Hadoop se separa de Nutch
Se alcanza la escala web en 2008
2008-Hasta ahora
Hadoop se populariza y se comienza a explotar
comercialmente.
Fuente: Hadoop: a brief history. Doug Cutting
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 90
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Historia de Hadoop: Doug Cutting

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 91
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Logo de HADOOP

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 92
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Logo de HADOOP

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 93
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 94
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Fundacin Apache: proyectos open source
The Apache Software Foundation provides support
for the Apache community of open-source software
projects, which provide software products for the
public good
The Apache Software Foundation provides support for the
Apache community of open-source software projects,
which provide software products for the public good

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 95
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
TECNOLOGAS BIG DATA (HADOOP)
Datos de la consultora IDC de agosto de 2012 prevn que el
mercado del software relacionado con los framework
open source Apache Hadoop y el MapReduce de
Google crecer a un ritmo anual de ms del 60% hasta el
ao 2016.
La popularidad de Hadoop se ha ido incrementando durante
los ltimos meses, a medida que las empresas necesitan
manejar grandes cantidades de datos estructurados y no
estructurados para despus analizarlos y ser capaces de
tomar decisiones lo ms favorables posible para sus negocios.
IDC tambin espera que el mercado de Hadoop-MapReduce evolucione y
que poco a poco comienza a introducirse en los sistemas empresariales.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 96
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Componentes HADOOP (Apache)
The project includes these modules:
Hadoop Common: The common utilities that support
the other Hadoop modules.
Hadoop Distributed File System (HDFS): A
distributed file system that provides high-throughput
access to application data.
Hadoop YARN: A framework for job scheduling and
cluster resource management.
Hadoop MapReduce: A YARN-based system for parallel
processing of large data sets.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 97
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop
Apache Hadoop es un framework que permite el
tratamiento distribuido de grandes cantidades de datos
(del orden de peta bytes) y trabajar con miles de
mquinas de forma distribuida. Se inspir en los
documentos sobre MapReduce y Google File System
publicados por Google.
Est desarrollado en Java y se ejecuta dentro de la JVM.
Actualmente est soportado por Google, Yahoo e IBM
entre otros. Tambin existen empresas como Cloudera
(http://www.cloudera.com/) que ofrecen soluciones
empresariales Open Source basadas en Hadoop.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 98
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop
Las caractersticas principales de Hadoop son
Econmico: Est diseado para ejecutarse en equipos de
bajo coste formando clsteres. Estos clsteres pueden
llevarnos a pensar en miles de nodos de procesamiento
disponibles para el procesado de informacin.
Escalable: Si se necesita ms poder de procesamiento o
capacidad de almacenamiento solo hay que aadir ms
nodos al clster de forma sencilla.
Eficiente: Hadoop distribuye los datos y los procesa en
paralelo en los nodos donde los datos se encuentran
localizados.
Confiable: Es capaz de mantener Es capaz de mantener
mltiples copias de los datos y
Luis Joyanes Aguilar
automticamente hacer un re-despliegue de las tareas
EGADE Business School /TEC Monterrey Pgina 99
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop
El diseo de Hadoop se divide en dos partes
principales:
Por un lado est el sistema de ficheros distribuido
Hadoop Distributed File System (HDFS) que
se encarga de almacenar todos los datos repartindolos
entre cada nodo de la red Hadoop.
Por otro lado la implementacin de MapReduce que se
encarga del procesamiento de la informacin de forma
distribuida.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 100
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 101
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 102
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop en la actualidad
Hadoop se puede utilizar en teora para casi cualquier tipo
de trabajo batch, mejor que ha trabajos en tiempo real,
ya que son ms fciles de dividir y ejecutar en paralelo.
Entre lo campos actuales a aplicacin se encuentran:
Anlisis de logs
Anlisis de mercado
Machine learning y data mining
Procesamiento de imgenes
Procesamiento de mensajes XML
Web crawling
Indexacin

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 103
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop en la actualidad
Actualmente Hadoop es un framework muy extendido en
el mbito empresarial, sobre todo en compaas que
manejan grandes volmenes de datos. Entre las que
podemos descarta las siguientes empresas:
Yahoo: La aplicacin Yahoo! Search Webmap est
implementado con Hadoop sobre un clster de mas de
10.000 nodos Linux y la informacin que produce es la
utilizada por el buscador de Yahoo.
Facebook: Tiene ha da de hoy el mayor clster Hadoop
del mundo que almacena hasta 30 peta bytes de
informacin
Amazon A9: Se utiliza para la generar ndices de bsqueda de los
productos ofertados en el portal. Disponen de varios clsteres de entre 1 y
100 nodos
Luis
cada uno.
Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 104
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop en la actualidad
The New York Times: Utiliza Hadoop y EC2 (Amazon
Elastic Compute Cloud) para convertir 4 Tera bytes de
imgenes TIFF en imgenes PNG de 800 K para ser
mostradas en la Web en 36 horas.
Adems existen compaas cuyo negocio es principal es
Hadoop, como Cloudera, que comercializa CDH
(Cloudera's Distribution including Apache Hadoop), que da
soporte en la configuracin y despliegue de clsteres
Hadoop. Adems proporciona servicios de consultora y
formacin en estas tecnologa. Todo el software que
distribuyen es Open Source.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 105
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Distribuciones de Hadoop

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 106
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Proveedores de Big Data
Algunos han desarrollado sus propias distribuciones de
Hadoop (con diferentes niveles de personalizacin:
disponibilidad, rendimiento, replicas ). Una distribucin
muy popular

Otros ejemplos: MapR, Greenplum, Hortonworks,


Hay docenas

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 107
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Empresas que ya utilizan Big Data

. IBM
Intel
HP
Oracle
Teradata
Fujitsu
CSC
Accenture
Dell
Seagate
Capgemini
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 108
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Definicin de Analtica de Big Data
BIG DATA ANALYTICS : (TDWI): 4Q 2011
Big data analytics is where advanced analytic
techniques operate on big data sets. Hence, big
data analytics is really about two thingsbig data
and analyticsplus how the two have teamed up
to create one of the most profound trends in
business intelligence (BI) today.
The definition is easy to understand, but do users actually
use the term? To quantify this question, the survey for
this report asked: Which of the following best
characterizes your familiarity with big data analytics and
how you name it? The survey results show that most
users understand the concept of big data analytics,
whether they have a name for it or not:
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 109
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
ANALTICA DE BIG DATA
Cloudera
EMC Greenplum
IBM
Impetus Technologies
Kognitio
ParAccel
SAP
SAND Technology
SAS
Tableau Software
Teradata
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 110
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPORTUNIDADES Y NUEVAS
PROFESIONES TECNOLGICAS
Y DE COMUNICACIN
DEMANDADAS POR LAS
EMPRESAS

Prof. Luis Joyanes Aguilar

111
OPORTUNIDADES PARA LATINOAMRICA
Despliegue y comercializacin de la red de
alta velocidad y gran ancho de banda LTE
(4G) en la actualidad (Noticia de impacto
en CLOUD COMPUTING y Big Data y gran
ventaja competitiva).

En Europa est comenzando el despliegue y


comercializacin este ao 2013. Colombia,
Panam, Mxico, Dominicana ya iniciaron el
despliegue
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 112
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPORTUNIDADES PARA COLOMBIA Y PER
TURISMO INTELIGENTE (Smart Tourism). Vease
proyecto piloto aprobado en marzo 2013 de la Isla
de Hierro de Canarias apoyndose en despliegues
mviles, cloud computing y big data.
CREACIN Y CONSTRUCCIN DE CENTROS DE
DATOS para dar soporte a infraestructuras, plataformas y
desarrollo de Cloud Computing (COLOMBIA y PER, tieneN
las condiciones de hbitat idneas para construccin de
Data Centers).
PUESTA EN MARCHA DE ESTUDIOS DE CLOUD
COMPUTING , BIG DATA Y ANALYTICS, as como
CERTIFICACIONES INTERNACIONALES correspondientes.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 113
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
NECESIDAD DE FORMACIN PROFESIONAL
AVANZADA EN CLOUD COMPUTING-BIG
DATA
El mercado tiene carencia de especialistas en Cloud
Computing y sobre todo en Big Data. Hay miles de puestos que se
debern cubrir en los prximos cinco aos segn estadsticas fiables de IDC,
Gartner, Forrester, McKinsey
UNA DE LAS PROFESIONES MS DEMANDADAS SER DE
ESPECIALISTAS EN CIENCIAS DE DATOS (Cientficos de
datos) y adems ANALISTAS DE DATOS (formados en
Analytics y tecnologas Big Data Hadoop, InMemory)
Se necesitan certificaciones profesionales en CLOUD
COMPUTING Y BIG DATA TECNOLGICAS Y DE
NEGOCIOS
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 114
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
NUEVAS PROFESIONES EN LA
ECONOMA Y EMPRESA DIGITAL
Algunas de las profesiones o roles ms demandados son:
CTO (Chief Technology Officer)
ASO (App search optimization). Especialista
en app search optimization similar al
SEO pero para apps mviles.
Expertos en usabilidad y experiencia de
usuario (UX)
Profesionales de big data (anlisis de
grandes volmenes de datos)

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 115
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
NUEVAS CARRERAS UNIVERSITARIAS:
maestrias,ingeniera, diplomados
Community Manager, Social Media
Manager y Analista Web y SEO
Ingeniero de Cloud Computing (En Espaa hay
una universidad privada que lo lanza el prximo curso)
Ingeniero de negocios digitales (Digital
Business Intelligence)
Ingeniero de datos (Infraestructuras, Bases de datos
NoSQL, Hadoop, Tecnologas in-memory)
Analtica de datos (Analytics) y Analtica de
Big Data
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 116
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
NUEVAS CARRERAS Y PROFESIONES
Community Manager , Social Media Manager,
SEO, Analistas Web cada da son ms demandadas y.
Sin embargo la profesin del futuro ser:
EL CIENTFICO DE DATOS (Data Scientist). Un
profesional con formacin de Sistemas,
Estadstica, Analtica, Ciencias Fsicas y
Biolgicas que analizar los Big Data para la
toma de decisiones eficientes y obtener
rentabilidad en los negocios.
HBR (Harvard Business Review lo declar la
profesin MS SEXY del siglo XXI)
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 117
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LAS TITULACIONES-PROFESIONES MS
DEMANDADAS en TIC EN PRXIMOS AOS
(HBR, Harvard Business Review) nmero de
octubre de 2012 (Los datos el nuevo petrleo/oro
del siglo XXI):
Ciencia de los datos: Data Science
(Maestra/Doctorado) En Estados
Unidos, Mxico y Europa ya existen
iniciativas.
LA PROFESIN MS SEXY DEL SIGLO XXI : EL
CIENTFICO DE DATOS (Data Scientist)
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 118
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
INNOVACIN VS
ESPECIALIZACIN INTELIGENTE*
La estrategia de especializacin inteligente
(RIS3 en ingls) parte de un principio
bsico: hace falta que haya una masa crtica
de recursos para innovar y un territorio
tiene que concentrar sus recursos en
aquello que genera ventajas competitivas,
actuales o potenciales. Ms an, en tiempos
de crisis y escasez.
*Aranguren, Navarro y Wilson (Instituto Vasco de
Competitividad, Deusto Business School) en La
Vanguardia, 22 de septiembre de 2013, p. 34.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 119
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
INNOVACIN VS
ESPECIALIZACIN INTELIGENTE*
El trmino especializacin inteligente
hace referencia a la necesidad de
concentrar los recursos en determinadas
apuestas. Pero toda estrategia inteligente
requiere, paradjicamente, diversificar:
producir otros productos y para otros
mercados. Esto resulta evidente en estos
momentos, en Espaa, en que la demanda
domstica ha cado como media un 40 por
ciento de los productos tradicionales
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 120
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
INNOVACIN VS
ESPECIALIZACIN INTELIGENTE*
La Unin Europea ha fijado a las regiones que
elaboren una estrategia de especializacin
inteligente como una condicionalidad ex ante
para acceder a los fondos estructurales y de
inversin.
[] Se trata de seguir o establecer nuevas estrategias
regionales de innovacin que nusca pasar de una
aproximacin a la estrategia de carcter tradicional,
basada en el diseo y posterior ejecucin de una plan,
a una aproximacin ms dinmica y viva, que descansa
en procesos participativos y en evaluacin permanente
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 121
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
INNOVACIN VS
ESPECIALIZACIN INTELIGENTE*
Innovaciones tecnolgicas en TIC
Cloud Computing
Big Data
Movilidad
Medios sociales
Internet de las cosas
Ayudarn considerablemente a la potenciacin
de la innovacin y la especializacin
inteligente.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 122
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
MUCHAS GRACIAS Preguntas?
Portal tecnolgico y de conocimiento
www.mhe.es/joyanes
Portal GISSIC El gora de
Latinoamrica: gissic.wordpress.com
Twitter:@luisjoyanes
www.slideshare.net/joyanes
www.facebook.com/joyanesluis
PORTAL NTICS : luisjoyanes.wordpress.com (en
construccin)
CORREO-e: joyanes@gmail.com
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 123
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BIBLIOGRAFA

Prof. Luis Joyanes Aguilar

124
BIBLIOGRAFA BSICA
JOYANES, Luis (2012). Computacin en
la nube. Estrategias de cloud
computing para las empresas. Mxico
DF: Alfaomega; Barcelona: Marcombo
JOYANES, Luis (2013).BIG DATA. El
anlisis de los grandes volmenes de
datos. Mxico DF: Alfaomega; Barcelona:
Marcombo
Coleccin de libros NTiCS (Negocios, Tecnologa, Innovacin,
Conocimiento y Sociedad) dirigida por el profesor Luis
Joyanes y publicada en la editorial Alfaomega de Mxico DF.
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 125
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BIBLIOGRAFA BSICA
JOYANES, Luis. Computacin en "Nube" (Cloud
Computing) y Centros de Datos la nueva revolucin
industrial cmo cambiar el trabajo en
organizaciones y empresas?. Sociedad y Utopa.
UPSA: Madrid. , ISSN 1133-6706, N 36, 2010, pgs.
111-127.
JOYANES, Luis (2009a) La Computacin en
Nube(Cloud Computing) :El nuevo paradigma
tecnolgico para empresas y organizaciones en la
Sociedad del Conocimiento , ICADE, n 76, enero-
marzo 2009, Madrid: Universidad Pontificia Comillas.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 126
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LTIMOS LIBROS DEL prof. LUIS
JOYANES
Ciberseguridad. Retos y desafos para
la defensa nacional en el ciberespacio.
Madrid: IEEE (Instituto Espaol de Estudios
Estratgicos). 2011. Editor y Coordinador.
www.ieee.org
Cuadernos de estrategia, n 149

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 127
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Blogs tecnolgicos
TechCrunch (www.techcrunch.com)
Gizmodo (www.gizmodo.com, www.gizmodo.es)
Boing Boing (www.boingboing.com)
Engadget (www.engadget.com)
The Official Google Blog (googleblog.blospot.com)
OReilly (www.oreillynet.com)
Slahdot (www.slahdot.com)
Microsiervos (www.microsiervos.com)
Xataca (www.xataca.com)
All Things Digital (allthingsd.com)
Mashable (www.mashable.com)
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 128
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LECTURAS RECOMENDADAS
NIST
Cloud Security Alliance
ISACA
BBVA, BANKINTER, Accenture
ENISA
Cio.com, Computing.es, Computerworld
ONTSI. Cloud computing. Retos y
oportunidades.
www.ontsi.red.es/ontsi/sites/default/files/1-
_estudio_cloud_computing_retos_y_oportunidades_vdef.pdf
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 129
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BIBLIOGRAFA
Innovation Edge , revista BBVA, junio 2013
https://www.centrodeinnovacionbbva.com/innova
tion-edge/21-big-data
SOARES, Sunil (2013). Big Data Governance. An
emerging Imperative. Boise, USA: MC Press.
DAVENPORT, Thomas H. y DYCH, Jill. Big Data in Big
Companies. SAS. International Institute for Analytics.
Datalytics. 18D Pentaho Big Data Architecture,
www.datalytics.com (Pentaho)
Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In-
memory Computing with SAP HANA on IBM eX5
Systems. ibm.com/redbooks. Draft Document for
Review December 7, 2012 1:59 pm SG24-8086-00
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 130
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BIBLIOGRAFA
ZIKOPOULOS, Paul C. et al (2012). Understanding Big
Data. Analytics for Enterprise Class Hadoop and Streaming
Data. New York: McGraw-Hill.
www-01.ibm.com/software/data/bigdata/
ZIKOPOULOS, Paul C. et al (2013). Harness the Power
of Big Data. The IBM Big Data Platform. New York:
McGraw-Hill. Descargable libre en IBM.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 131
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 132
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
REFERENCIAS
McKinsey Global Institute . Big data: The
next frontier for innovation, competition, and
productivity. June 2011
James G. Kobielus. The Forrester Wave:
Enterprise Hadoop Solutions, Q1 2012, February
2, 2012.
www-01.ibm.com/software/data/bigdata/
Diego Lz. de Ipia Glz. de Artaza. Bases de Datos No
Relacionales (NoSQL). Facultad de Ingeniera,
Universidad de Deusto. www.morelab.deusto.es
http://paginaspersonales.deusto.es/dipina
Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey Pgina 133
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
REFERENCIAS
Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER
2011. TDWI.org
IBM. http://www-01.ibm.com/software/data/bigdata/

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 134
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LECTURAS RECOMENDADAS (historia
del cloud)
KING, Rachael (2008): How Cloud Computing
is Changing the World? en BusinessWeek, New
York, 4 august, 2008
LEINWAND, Allan (2008): Its 2018: Who
Owns the Cloud? en BusinessWeek, New York, 4
august, 2008
THE ECONOMIST (2008): Let it rise. A
Special report on IT Corporate en The
Economist, London, October 25th 2008.

Luis Joyanes Aguilar


EGADE Business School /TEC Monterrey Pgina 135
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013

S-ar putea să vă placă și