Sunteți pe pagina 1din 19

Repaso seminario

Definición, características, usos, pros contras, herramientas


para su uso de analítica de datos (DA)

El análisis de “gran cantidad de datos” es el proceso que


examina distintos tipos de big data que descubre
correlaciones, patrones y otras informaciones que sean de
utilidad. Con dicha información tiene ventajas sobre
organizaciones en contra y que tiene beneficios para el
negocio por ejemplo marketing.

Su objetivo es analizar los datos para ayudar a las


grandes empresas para que tomen mejores decisiones para
que los usuarios analicen una gran cantidad de datos, así
como otras fuentes de datos que incluyen registros del
servidor web, datos de seguimiento de clics en internet,
informe de actividades sociales, medios de comunicación,
celulares (registro de llamadas) y sus sensores. La mayoría
de sus datos son no estructurados, lo que hace que el big
data sea complejo y que sea necesario su análisis para tener
las informaciones beneficiosas. Otras empresas también
usan datos estructurados que los obtienen de aplicaciones
como ERP o CMR, que son bases de datos relacionadas al
negocio.

Sus desventajas son cuando la información no es


analizada por profesionales y esto puede traer problemas, el
alto volumen de datos ralentiza el análisis.
La seguridad virtual, los ataques cibernéticos se centran en
el big data ya que tiene vulnerabilidad de datos, lo que hace
necesario el uso de herramientas para que el trabajo tenga
éxito. Las desventajas del big data pueden ser minimizadas
por los profesiones pero mientras el uso de big data no
disminuye y crece día a día.

El big data se puede hacer con herramientas de software


de uso común con analíticas avanzadas, por ejemplo como el
análisis predictivo y la minería de datos. Por otro lado, las
fuentes de datos no estructurados son utilizadas para los
análisis de grandes datos que no encajan en los almacenes
de datos comunes.

Big Data
Llamamos big data a un gran volumen de datos con una variedad,
complejidad y velocidad de crecimiento enorme y que además tienen
la característica de no ser estructurados. Eso significa que no son
relacionales, estando además fuera del entorno corporativo.
Es un tipo de tecnología que te permite analizar los datos en
tiempo real y puede provenir de diferentes fuentes y formas, tales
como mensajería instantánea, redes sociales, registros de
grabaciones, imágenes, mensajes de correo electrónico, etc.

Para tener una idea de la importancia del big data, este mercado está
creciendo cada año, alrededor de un 40%. La paradoja reside en el
hecho de que cuanto mayor es la evolución del big data, mayor es la
escasez de profesionales cualificados para satisfacer esa demanda. La
expectativa es que en unos pocos años, haya un crecimiento aún más
significativo para el uso de big data y por lo tanto un aumento en la
demanda mano de obra especializada y de partners tecnológicos
especializados en esta materia.

Bussiness intelligence
Conjunto de estrategias y herramientas enfocadas a
la administración y creación de conocimiento mediante el a
náisis de datos existentes en una organización.

*Abarca la comprensión del funcionamiento actual de


la empresa, y la anticipación de acontecimientos futuros,
con
el objetivo de ofrecer conocimientos para respaldar las deci
siones empresariales.

*Las herramientas de inteligencia se basan en


la utilización de un sistema de información de
inteligencia que se forma con distintos datos extraídos de
la producción, información relacionada con
la empresa y datos del entorno y el contexto.

*Mediante las herramientas y técnicas (extraer, cargar


y transformar), se extraen los datos de distintas
fuentes, se depuran y preparan para luego cargarlos en
un almacén de datos

------Business Intelligence
Un Business Intelligence (BI) es una especie de “cuello de
botella” de los datos recogidos del data warehouse, que
llegan de forma exacta y útil para ayudar a la toma de
decisiones. Business Intelligence transforma los datos
en información útil para analizar no sólo los negocios,
sino también las principales estrategias corporativas.

Los tres conceptos están interconectados y la perspectiva es


que, cada vez más, la mayoría de empresas utilicen el
análisis generado por este tipo de tecnologías para una
visión más analítica de su negocio y así poder tomar las
mejores decisiones para crecer.

-----datawerehouse
Es un gran almacén de datos para consultar

*Es
un repositorio de datos de muy fácil acceso, alimentado de
numerosas fuentes, transformadas en grupos de informaci
ón sobre temas específicos de negocios,
para permitir nuevas consultas, análisis, toma de y decisio
nes.

*Tiene
gran capacidad de almacenamiento, pues los datos pueden
ser de grandes periodos de tiempo.

-Emplea el concepto de Metadatos (datos que describen


otros datos). Por ejemplo, en una biblioteca se usan fichas
que especifican autores, títulos,
casas editoriales y lugares para buscar libros. Así,
los metadatos ayudan a ubicar datos.

-Cumple el principio de arquitectura fundamental que


es separar los sistemas transaccionales de los
informacionales en dos entornos de manera que el análisis
de los datos existentes no intefiera con el procesamiento y
registro de nuevos datos.

--------------->>Un DWH tiene varias


características:<<<<<<

Es una colección de datos orientada a un tema


, integrada, variable en el tiempo y que sea útl para la
toma de decisiones.

Es integrado porque agrupa a todos los


sistemas operacionales en un sistema de
información con formatos y códigos consistentes.

Es variante en el tiempo porque los datos se organizan y


almacenan en jerarquías en el tiempo, lo que permite
análisis comparativos de estados actuales y de períodos
anteriores.

No Volátil.- El almacén de información de un


datawarehouse existe para ser leído, pero no modificado. La
información es por tanto permanente, significando la
actualización del datawarehouse la incorporación de los
últimos valores que tomaron las distintas variables
contenidas en él sin ningún tipo de acción sobre lo que ya
existía.

la actualización (actualizar, borrar y modificar) se hace


regularmente, mientras en el data warehouse sea una sola
actualización esto hace que cuando tengamos que tomar
una decisión con esta información tengamos seguridad de
esta.

Orientado a temas <<<

¿Qué es un data warehouse?

Un data warehouse es un repositorio central de


información que se puede analizar para tomar
decisiones mejor informadas. Los datos fluyen hacia
un data warehouse a partir de sistemas
transaccionales, bases de datos relacionales y otros
orígenes, normalmente a un ritmo regular. Los
analistas empresariales, los científicos de datos y los
responsables de la toma de decisiones obtienen
acceso a los datos mediante herramientas de
inteligencia empresarial (BI), clientes SQL y otras
aplicaciones analíticas.
Para que las empresas se mantengan competitivas,
los datos y el análisis se han vuelto fundamentales.
Las empresas utilizan informes, paneles de control y
herramientas analíticas para extraer información de
los datos, monitorizar el desempeño de la empresa y
respaldar la toma de decisiones. Estos informes,
paneles y herramientas de análisis cuentan con
almacenes de datos que almacenan los datos de
manera eficaz para reducir la entrada y la salida y
suministrar resultados de consultas a gran velocidad
a cientos y miles de usuarios de manera simultánea.
Descargue el documento técnico: Enterprise Data
Warehousing on AWS
Arquitectura de un data warehouse

La arquitectura de un data warehouse está


conformada por tres niveles. El nivel inferior de la
arquitectura es el servidor de la base de datos, donde
los datos se cargan y almacenan. El nivel intermedio
contiene el motor de análisis que se utiliza para
obtener acceso a los datos y para analizarlos. El nivel
superior es el cliente front-end que presenta los
resultados mediante informes, análisis y herramientas
de minería de datos.
¿Cómo funciona un data warehouse?

Un data warehouse funciona organizando datos en un


esquema que describe el diseño y el tipo de los datos,
como entero, campo de datos o cadena. Cuando los
datos se incorporan, se almacenan en varias tablas
descritas por el esquema. Las herramientas de
consulta usan el esquema para determinar a qué
tablas de datos obtendrán acceso y analizarán.
Beneficios de un data warehouse

Los beneficios de un data warehouse son:


 Mejora en la toma de decisiones
 Consolidación de los datos provenientes de varios
orígenes
 Calidad, coherencia y precisión de los datos
 Inteligencia histórica
 Separación del procesamiento de análisis de las
bases de datos transaccionales, lo que mejora el
desempeño de ambos sistemas

Diferencias entre un data warehouse y una base


de datos

Normalmente, un data warehouse está diseñado para


el análisis de datos, que incluye la lectura de grandes
volúmenes de datos para comprender las relaciones y
las tendencias internas. Una base de datos se usa
para registrar y almacenar datos, como la grabación
de detalles de una transacción.

La multiplexación se refiere a la habilidad para transmitir


datos que provienen de diversos pares de aparatos
(transmisores y receptores) denominados canales de baja
velocidad en un medio físico único (denominado canal de
alta velocidad).
Un multiplexor es el dispositivo de multiplexado que
combina las señales de los transmisores y las envía a través
de un canal de alta velocidad.

Un demultiplexor es el dispositivo de multiplexado a través


del cual los receptores se conectan al canal de alta
velocidad.

https://www.youtube.com/watch?v=1B4SiOewm5Q

-sincrónica-
una conexión sincrónica el transmisor y el receptor están
sincronizados con el mismo reloj. El receptor recibe
continuamente (incluso hasta cuando no hay transmisión de
bits) la información a la misma velocidad que el transmisor la
envía. Es por este motivo que el receptor y el transmisor
están sincronizados a la misma velocidad. Además, se
inserta información suplementaria para garantizar que no se
produzcan errores durante la transmisión.

En el transcurso de la transmisión sincrónica, los bits se


envían sucesivamente sin que exista una separación entre
cada carácter, por eso es necesario insertar elementos de
sincronización; esto se denomina sincronización al nivel
de los caracteres.
La principal desventaja de la transmisión sincrónica es el
reconocimiento de los datos en el receptor, ya que puede
haber diferencias entre el reloj del transmisor y el del
receptor. Es por este motivo que la transmisión de datos
debe mantenerse por bastante tiempo para que el receptor
pueda distinguirla. Como resultado de esto, sucede que en
una conexión sincrónica, la velocidad de la transmisión no
puede ser demasiado alta.

-paralelo-

Las conexiones paralelas consisten en transmisiones


simultáneas de N cantidad de bits. Estos bits se envían
simultáneamente a través de diferentes canales N (un canal
puede ser, por ejemplo, un alambre, un cable o cualquier
otro medio físico). La conexión paralela en equipos del tipo
PC generalmente requiere 10 alambres.

Estos canales pueden ser N líneas físicas —en cuyo caso


cada bit se envía en una línea física (razón por la cual un
cable paralelo está compuesto por varios alambres dentro de
un cable cinta) — o una línea física dividida en varios
subcanales, resultante de la división del ancho de banda. En
este caso, cada bit se envía en una frecuencia diferente.

Debido a que los alambres conductores están uno muy cerca


del otro en el cable cinta, puede haber interferencias
(particularmente en altas velocidades) y degradación de la
calidad en la señal...

-SIMPLEX-

Una conexión simple, es una conexión en la que los datos


fluyen en una sola dirección, desde el transmisor hacia el
receptor. Este tipo de conexión es útil si los datos no
necesitan fluir en ambas direcciones (por ejemplo: desde el
equipo hacia la impresora o desde el ratón hacia el equipo.).

Comunicación

La Comunicación es un proceso de intercambio de información, en el que un


emisor transmite a un receptor algo a través de un canal esperando que,
posteriormente, se produzca una respuesta de dicho receptor, en un contexto
determinado.
Así, en el proceso de la comunicación encontramos los siguientes elementos:

– Emisor: es el que emite el mensaje. Ejemplos: un sujeto individual o un grupo


de personas, pero también un mecanismo que nos avisa de que algo falla o un
elemento de la naturaleza que nos alerta de que el tiempo va a cambiar.

– Receptor: es el que recibe el mensaje y lo interpreta. Ejemplos: un sujeto


concreto o un grupo, así como, también, puede serlo un mecanismo que actúa
cuando otro le manda una señal.

– Mensaje: es la información que se quiere transmitir. Ejemplos: puede


encontrarse codificado en uno de los diferentes tipos de código: puede ser un
mensaje hablado, escrito, dibujado, grabado en cd, etc).

– Canal: es el medio a través del cual se transmite el mensaje. Ejemplos: puede


ser un medio artificial, como las cartas o un cd, o uno natural, como el aire.

– Código: Conjunto de signos y reglas que, formando un lenguaje, ayudan a


codificar el mensaje. Podemos encontrar lenguajes simples, como la luz roja
sobre la puerta de un estudio de revelado, o más complejos como los distintos
idiomas del mundo.

– Contexto: Conjunto de circunstancias (lugar, hora, estado anímico de los


interlocutores, etc) que existen en el momento de la Comunicación. Es
importante a la hora de interpretar correctamente el mensaje.

Modelo OSI https://www.youtube.com/watch?v=CnNRdJgeMo8&t=861s

El nivel de aplicación es el destino final de los datos donde se


Aplicación
proporcionan los servicios al usuario.

Se convierten e interpretan los datos que se utilizarán en el nivel de


Presentación
aplicación.

Encargado de ciertos aspectos de la comunicación como el control de los


Sesión
tiempos.

Transporta la información de una manera fiable para que llegue


Transporte
correctamente a su destino.

Nivel encargado de encaminar los datos hacia su destino eligiendo la ruta


Red
más efectiva.

Enlace de datos. Controla el flujo de los mismos, la sincronización y los


Enlace
errores que puedan producirse.
Se encarga de los aspectos físicos de la conexión, tales como el medio de
Físico
transmisión o el hardware.
Modelo de arquitectura del protocolo TCP/IP
El modelo OSI describe las comunicaciones de red ideales con una familia de
protocolos. TCP/IP no se corresponde directamente con este modelo. TCP/IP
combina varias capas OSI en una única capa, o no utiliza determinadas capas.
La tabla siguiente muestra las capas de la implementación de Oracle Solaris de
TCP/IP. La tabla enumera las capas desde la capa superior (aplicación) hasta la
capa inferior (red física).

Capa de red física


La capa de red física especifica las características del hardware que se utilizará para la red. Por
ejemplo, la capa de red física especifica las características físicas del medio de comunicaciones.
La capa física de TCP/IP describe los estándares de hardware como IEEE 802.3, la
especificación del medio de red Ethernet, y RS-232, la especificación para los conectores
estándar.

Capa de vínculo de datos


La capa de vínculo de datos identifica el tipo de protocolo de red del paquete, en este caso
TCP/IP. La capa de vínculo de datos proporciona también control de errores y estructuras.
Algunos ejemplos de protocolos de capa de vínculo de datos son las estructuras Ethernet IEEE
802.2 y Protocolo punto a punto (PPP).

Capa de Internet
La capa de Internet, también conocida como capa de red o capa IP, acepta y transfiere
paquetes para la red. Esta capa incluye el potente Protocolo de Internet (IP), el protocolo de
resolución de direcciones (ARP) y el protocolo de mensajes de control de Internet (ICMP).

Protocolo IP
El protocolo IP y sus protocolos de enrutamiento asociados son posiblemente la
parte más significativa del conjunto TCP/IP. El protocolo IP se encarga de:

 Direcciones IP: Las convenciones de direcciones IP forman parte del


protocolo IP. Cómo diseñar un esquema de direcciones IPv4 introduce las
direcciones IPv4 y Descripción general de las direcciones IPv6 las
direcciones IPv6.
 Comunicaciones de host a host: El protocolo IP determina la ruta que debe
utilizar un paquete, basándose en la dirección IP del sistema receptor.
 Formato de paquetes: el protocolo IP agrupa paquetes en unidades
conocidas como datagramas. Puede ver una descripción completa de los
datagramas en Capa de Internet: preparación de los paquetes para la
entrega.
 Fragmentación: Si un paquete es demasiado grande para su transmisión a
través del medio de red, el protocolo IP del sistema de envío divide el
paquete en fragmentos de menor tamaño. A continuación, el protocolo IP del
sistema receptor reconstruye los fragmentos y crea el paquete original.

Protocolo ARP
El protocolo de resolución de direcciones (ARP) se encuentra conceptualmente entre el
vínculo de datos y las capas de Internet. ARP ayuda al protocolo IP a dirigir los
datagramas al sistema receptor adecuado asignando direcciones Ethernet (de 48 bits de
longitud) a direcciones IP conocidas (de 32 bits de longitud).

Protocolo ICMP
El protocolo de mensajes de control de Internet (ICMP) detecta y registra las
condiciones de error de la red. ICMP registra:

 Paquetes soltados: Paquetes que llegan demasiado rápido para poder procesarse.
 Fallo de conectividad: No se puede alcanzar un sistema de destino.
 Redirección: Redirige un sistema de envío para utilizar otro enrutador.

Capa de transporte
La capa de transporte TCP/IP garantiza que los paquetes lleguen en secuencia y sin
errores, al intercambiar la confirmación de la recepción de los datos y retransmitir los
paquetes perdidos. Este tipo de comunicación se conoce como transmisión de punto a
punto. Los protocolos de capa de transporte de este nivel son el Protocolo de control de
transmisión (TCP), el Protocolo de datagramas de usuario (UDP) y el Protocolo de
transmisión para el control de flujo (SCTP). Los protocolos TCP y SCTP proporcionan
un servicio completo y fiable. UDP proporciona un servicio de datagrama poco fiable.

Protocolo TCP
TCP permite a las aplicaciones comunicarse entre sí como si estuvieran conectadas
físicamente. TCP envía los datos en un formato que se transmite carácter por carácter,
en lugar de transmitirse por paquetes discretos. Esta transmisión consiste en lo
siguiente:

 Punto de partida, que abre la conexión.


 Transmisión completa en orden de bytes.
 Punto de fin, que cierra la conexión.

TCP conecta un encabezado a los datos transmitidos. Este encabezado contiene


múltiples parámetros que ayudan a los procesos del sistema transmisor a conectarse a
sus procesos correspondientes en el sistema receptor.

TCP confirma que un paquete ha alcanzado su destino estableciendo una conexión de


punto a punto entre los hosts de envío y recepción. Por tanto, el protocolo TCP se
considera un protocolo fiable orientado a la conexión.

Protocolo SCTP
SCTP es un protocolo de capa de transporte fiable orientado a la conexión que ofrece
los mismos servicios a las aplicaciones que TCP. Además, SCTP admite conexiones
entre sistema que tienen más de una dirección, o de host múltiple. La conexión SCTP
entre el sistema transmisor y receptor se denomina asociación. Los datos de la
asociación se organizan en bloques. Dado que el protocolo SCTP admite varios hosts,
determinadas aplicaciones, en especial las que se utilizan en el sector de las
telecomunicaciones, necesitan ejecutar SCTP en lugar de TCP.

Protocolo UDP
UDP proporciona un servicio de entrega de datagramas. UDP no verifica las conexiones
entre los hosts transmisores y receptores. Dado que el protocolo UDP elimina los
procesos de establecimiento y verificación de las conexiones, resulta ideal para las
aplicaciones que envían pequeñas cantidades de datos.

Arquitectura de red
Arquitectura de la Red es el diseño de una red de comunicaciones. Es
un marco para la especificación de los componentes físicos de una red
y de su organización funcional y configuración,
sus procedimientos y principios operacionales, así como los formatos
de los datos utilizados en su funcionamiento, todo esto engloba
el proceso de la conexión publica donde tú puedes tener todo el acceso
a la red más grande de las redes en todas la redes del mundo que
enlazan a cada red de redes y de las muchas redes. (Cano, 2002)
Es el conjunto organizado o la estructuración de las capas y
el protocolo usado por ella.
 Definen las reglas que ambos extremos (y dispositivos intermedios)
deben seguir para comunicarse
 Normalmente estas reglas se dividen en tareas a diferentes niveles
 Cada nivel usa un protocolo especializado (protocolo en capas)

CARACTERÍSTICAS DE UNA ARQUITECTURA EN CAPAS


Cada capa tiene una serie de funciones bien definidas
? Servicios
 La capa K sólo se comunica con su capa inferior K-1 a través de los
servicios que ésta ofrece
? Protocolos
 Las capas del mismo nivel manejan las mismas reglas y unidades de
información
 En la comunicación se establece una conexión lógica en cada capa.
? Arquitectura de una red
 El conjunto de capas que la forman
 El conjunto de servicios y protocolos.
TRANSMISSION CONTROL PROTOCOL / INTERNET
PROTOCOL (TCP/IP)
? Conjunto de protocolos usados en Internet
? Jerárquico, compuesto por módulos que ofrecen una funcionalidad
específica

Que es tcp-ip? Son las siglas de protocolo de control


de transmisión/protocolo de internet. Es un sistema de
protocolos que hacen posibles servicios entre ordenadores
que no pertenecen a una misma red.

S-ar putea să vă placă și