Big Data Dummy

Kafka vs Flume vs Spark

Si se necesitan los procesos en tiempo real, optaría por Spark Streaming, si el tiempo no fuera un factor importante entonces utilizaría trabajos Spark.
El consumidor Kafka es muy simple de utilizar pero proporciona poca funcionalidad. Estos consumidores serán sustituidos por los nuevos Kafka Streams que permiten leer, procesar y analizar datos almacenados en Kafka.

Regresión logística

La regresión logística es una de las técnicas estadístico‐inferenciales más empleadas en la producción científica contemporánea. Surge en la década de los 60, su generalización dependía de la solución que se diera al problema de la estimación de los coeficientes. El algoritmo de Walker‐Duncan para la obtención de los estimadores de máxima verosimilitud

Regresión lineal

La regresión es sin duda el caballo de batalla de la estadística, existe un gran número de métodos estadísticos que se llaman regresión o fundamentados en la idea principal de la regresión que no es más que la relación lineal entre dos o más variables.

Solr

Solr es un plataforma de búsqueda basado en Lucene, es altamentente fiable, escalable y tolerante a fallos, proporcionando indexación distribuida, replicación, reparto de carga en consultas, conmutación de errores y recuperación automatizada. Solr mejora la búsqueda y la navegabilidad de los sitios de internet más grandes del mundo.

Apache Tez

El objetivo con el que nace Tez es el de construir un framework que permita realizar el cambio entre tareas de procesamiento de datos mapreduce por un gráfico acíclico dirigido (DAG) de tareas. Actualmente está construido sobre YARN.