CDP: Cloudera Data Platform

Publicado por

Tras la compra de Hortonworks por parte de Cloudera, las versiones de la plataforma del CDH 5.15.x y 6.2 y del HDP 3.1 van a ser mantenidas durante los próximos años, hasta el 01/01/2022.

¿Que servicios se mantienen y cuales no en CDP?

  • Cloudera Manager: es la herramienta para gestionar la nueva plataforma que ha escogido Cloudera en detrimento de Ambari. Esta es una buena noticia porque tiene un conjunto de funcionalidades más completo que su competidor.
  • Impala y Hive-LLAP: en este punto podemos preguntarnos si alguno de los dos va a desaparecer o se combinarán dando lugar a un nuevo producto. La respuesta es que se van a mantener los dos por separado. Comparación de rendimiento
  • El tema de la seguridad siempre genera algún que otro imprevisto, así que con que nos vamos a quedar ¿con Sentry o con Ranger? En este caso Cloudera ha optado por mantener Ranger, que ofrece una visión centralizada de la seguridad de todos los componentes de una distribución Hadoop más completa.
  • Para finales de año se va incluir en el CDP la herramienta de Phoenix que nos proporciona SQL sobre HBase y Metro. (incluidas en la última versión del CDH, 5.16.2 y 6.2.x)

Resumiendo los usuarios que venían utilizando el HDP (Data Platform) se beneficiarán de servicios como Cloudera Manager, Impala, Hue y Kudu, y los que venían de utilizar el CDH (Data Hub) se beneficiarán utilizando Hive LLAP, Hive on Tez, Atlas 2.0, Ranger, Nifi y Knox.

En la nueva plataforma de Cloudera el primer producto en el que se han integrado una serie de herramientas del que tuvimos noticias es Cloudera Data Flow (CDF), una evolución del HDF que incluye NiFi, Edge Flow Manager, Kafka Streams, Flink, etc. Es la plataforma para el tratamiento y análisis de datos en tiempo real para generar acciones automáticas que ofrezcan valor.

  • Edge Data Collection: Apache MiNiFi, Edge Flow Manager
  • Flow Management: ingesta y transformación. Apache NiFi, NiFi Registry
  • Stream Processing: Apache Kafka, Stream Messaging Manager
  • Stream Analytics: Apache Storm, Kafka Streams, Streams Analytics Manager, Flink
  • Servicios comunes: seguridad, gobernanza, single sign-on y schema registry

El segundo producto que ofrece es para cargas de trabajo que no requieran herramientas de tratamiento de datos en tiempo real sino de almacenamiento estructurado y no estructurado llamado Cloudera Data Warehouse (CDW) que contará con:

  • Druid: distribuido bajo licencia de la Apache Software Foundation. Es una base de datos orientada columnas pensada para replicar modelos OLAP. Esta optimizada para el análisis de series temporales y tiene características tan interesantes como: ingestas en tiempo real, escalabilidad horizontal, baja latencia.
  • Hive LLAP (Live Long And Process): optimización de consultas sobre Hive, integrando un demonio que realiza la comunicación con los datanode (hdfs) y un framework de procesamiento basado en DAG.
  • Hive on Tez:  permite realizar el cambio entre tareas de procesamiento de datos mapreduce por un gráfico acíclico dirigido (DAG) de tareas. Actualmente está construido sobre YARN.
  • Impala: consultas con un motor basado en DAG

Y como tercer punto podemos incluir el Data Center de Cloudera que contará con:

  • YARN
  • HBase
  • Kudu
  • Impala
  • Cloudera Search
  • Ozone

Cloudera sigue trabajando para añadir nuevas herramientas y construyendo nuevos productos que integrará en versiones venideras.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s