Big Data Dummy

Big Data en la nube

El big data y el cloud computing son dos innovaciones tecnológicas que han cambiado los métodos que se utilizan para tratar datos. Estos dos avances tecnológicos se complementan entre si para brindar nuevas oportunidades a las organizaciones de innovar y tener éxito.

Elasticsearch

Elasticsearch es un servidor de búsqueda y analítica distribuido y RESTful basado en Lucene que es capaz de cubrir multitud de casos de uso. Una de las partes fundamentales de Elastic es la centralización de datos de forma indexada.

Kafka Streams

Si estás trabajando con grandes cantidades de datos, posiblemente hayas oído hablar de Kafka, a alto nivel, es un sistema distribuido de mensajería de suscripción-publicación tolerante a fallos diseñado para procesar datos rápidamente y que tiene la capacidad de manejar cientos de miles de mensajes.

El pipeline de datos de Netflix

En Netflix cualquier decisión de negocio o de producto está tomada a partir de ideas obtenidas del análisis de datos. El objetivo del pipeline de datos es obtener, agregar, procesar y mover datos a escala Cloud. Casi todas las aplicaciones en Netflix utilizan el pipeline de datos para la consulta o la escritura de datos.

Microservicios

El término de microservicio normalmente se utiliza para describir un enfoque del desarrollo de software que involucra la descomposición de la funcionalidad de la aplicación en componentes individuales que pueden ser desplegados de manera independiente unos de otros

Bases de datos orientadas a grafos

Este tipo de bases de datos utiliza la topología de un grafo con nodos como vértices y relaciones como aristas y propiedades, utilizada para almacenar y representar datos conectados sin necesidad de utilizar un índice (que es el método tradicional de simular una relación en una base de datos relacional).

Kafka vs Flume vs Spark

Si se necesitan los procesos en tiempo real, optaría por Spark Streaming, si el tiempo no fuera un factor importante entonces utilizaría trabajos Spark.
El consumidor Kafka es muy simple de utilizar pero proporciona poca funcionalidad. Estos consumidores serán sustituidos por los nuevos Kafka Streams que permiten leer, procesar y analizar datos almacenados en Kafka.

Regresión logística

La regresión logística es una de las técnicas estadístico‐inferenciales más empleadas en la producción científica contemporánea. Surge en la década de los 60, su generalización dependía de la solución que se diera al problema de la estimación de los coeficientes. El algoritmo de Walker‐Duncan para la obtención de los estimadores de máxima verosimilitud

Regresión lineal

La regresión es sin duda el caballo de batalla de la estadística, existe un gran número de métodos estadísticos que se llaman regresión o fundamentados en la idea principal de la regresión que no es más que la relación lineal entre dos o más variables.

Solr

Solr es un plataforma de búsqueda basado en Lucene, es altamentente fiable, escalable y tolerante a fallos, proporcionando indexación distribuida, replicación, reparto de carga en consultas, conmutación de errores y recuperación automatizada. Solr mejora la búsqueda y la navegabilidad de los sitios de internet más grandes del mundo.