Big Data Dummy

CDP: Cloudera Data Platform

Tras la compra de Hortonworks por Cloudera, las versiones de la plataforma de Cloudera CDH 5.15.x y 6.2 y de Hortonworks HDP 3.1 van a ser mantenidas durante los próximos años, hasta el 01/01/2022.

¿Que servicios se mantienen y cuales no en CDP?

El futuro de las plataformas analíticas Big Data

Cloudera y Hortonworks han sido dos de las grandes compañías mundiales en integrar tecnologías Big Data bajo distribuciones de software alrededor de Hadoop que ayudan a la instalación, integración y mantenimiento de todos los componentes. Se han ganado ser los mejores gracias a que confiaron en el código abierto como forma de impulsar los modelos de negocio a gran escala.

Big Data en la nube

El big data y el cloud computing son dos innovaciones tecnológicas que han cambiado los métodos que se utilizan para tratar datos. Estos dos avances tecnológicos se complementan entre si para brindar nuevas oportunidades a las organizaciones de innovar y tener éxito.

Elasticsearch

Elasticsearch es un servidor de búsqueda y analítica distribuido y RESTful basado en Lucene que es capaz de cubrir multitud de casos de uso. Una de las partes fundamentales de Elastic es la centralización de datos de forma indexada.

Kafka Streams

Si estás trabajando con grandes cantidades de datos, posiblemente hayas oído hablar de Kafka, a alto nivel, es un sistema distribuido de mensajería de suscripción-publicación tolerante a fallos diseñado para procesar datos rápidamente y que tiene la capacidad de manejar cientos de miles de mensajes.

El pipeline de datos de Netflix

En Netflix cualquier decisión de negocio o de producto está tomada a partir de ideas obtenidas del análisis de datos. El objetivo del pipeline de datos es obtener, agregar, procesar y mover datos a escala Cloud. Casi todas las aplicaciones en Netflix utilizan el pipeline de datos para la consulta o la escritura de datos.

Microservicios

El término de microservicio normalmente se utiliza para describir un enfoque del desarrollo de software que involucra la descomposición de la funcionalidad de la aplicación en componentes individuales que pueden ser desplegados de manera independiente unos de otros

Bases de datos orientadas a grafos

Este tipo de bases de datos utiliza la topología de un grafo con nodos como vértices y relaciones como aristas y propiedades, utilizada para almacenar y representar datos conectados sin necesidad de utilizar un índice (que es el método tradicional de simular una relación en una base de datos relacional).

Kafka vs Flume vs Spark

Si se necesitan los procesos en tiempo real, optaría por Spark Streaming, si el tiempo no fuera un factor importante entonces utilizaría trabajos Spark.
El consumidor Kafka es muy simple de utilizar pero proporciona poca funcionalidad. Estos consumidores serán sustituidos por los nuevos Kafka Streams que permiten leer, procesar y analizar datos almacenados en Kafka.