Big Data en la nube

Publicado por

Índice

  1. Introducción
  2. Comienzos del Big Data
  3. Vamos a la nube
  4. En que punto estamos
  5. Cuando se cruzan los caminos

Introducción

Actualmente el mundo es online, y cualquier cosa que hagamos mientras estamos conectados, deja un rastro de datos tras nosotros. Mientras estemos conectados a redes sociales, navegando la web, comprando, investigando, buscando un restaurante, o cualquier cosa que hagamos deja un huella digital que suscita un interés enorme en muchas compañías.

Todos estos datos, cuando son recogidos y analizados, ofrecen información muy útil sobre el uso y el comportamiento de la persona; esto permite a las empresas generar mejores servicios y productos a los consumidores y esto suele repercutir en los ingresos de la compañía.

Cuando esta cantidad tan alta de datos es recogida, hay muchas compañías para las que no es fácil o no es viable almacenarlos en sus propios servidores. En los US por ejemplo la mayoría de las compañías tienen como mínimo 100Tb de datos almacenados. Para estas compañías es más complicado disponer de una infraestructura propia, compuesta por múltiples servidores y además teniendo en cuenta su mantenimiento y la seguridad. Aquí es donde la computación en la nube entra en juego porque permite disponer de almacenamiento de forma asequible y fácil de usar. Actualmente, de las empresas que proporcionan servicios en la nube cabe destacar a Amazon, Google y Microsoft.

Desde que se inicio la combinación de tecnologías Big Data y Cloud Computing se abrió un camino infinito de posibilidades. Varios campos se han visto afectados por esta combinación y están sufriendo muchos cambios. Ha cambiado el proceso de toma de decisiones para las empresas y ha dado una gran ventaja a los analistas, quienes pueden basar sus resultados en datos concretos.

Comienzos del Big Data

El Big data como hoy lo conocemos surgió a principios de los 2000 con el auge de intenet y de la web 2.0 y compañías como Amazon, Google, Facebook, Twitter y Netflix comenzaron con el dominio actual. Actualmente casi cualquier empresa ha sufrido algún tipo de transformación digital, esta transición ha resultado en la generación de cantidades masivas de datos que no se habían anticipado en décadas anteriores.

Las empresas comenzaron a utilizar nuevas tecnologías para el almacenamiento de los datos, donde cabe destacar dos: bases de datos NoSQL, como HBase, porque permiten almacenar muchos datos, con un acceso muy rápido y un crecimiento escalable. El otro fue Hadoop, un framework open source que permite almacenar grandes cantidades de datos y procesarlos distribuidamente de forma muy fácil.

Los dos, NoSQL y Hadoop, se desplegaron en un principio sobre servidores físicos dentro del centro de datos de la organización. Esto se solía hacer sobre hardware commodity, lo que en un principio suponía mantener los costes bajos. Lo que sucedió fue que a medida que el volumen de datos crecía, había que comprar hardware nuevo, que salía barato, pero el coste de comprarlo, mantenerlo y administrarlo cada vez se hacía mas caro. Y los datos crecían de forma exponencial. A parte de los costes, la complejidad de estos sistemas iba creciendo y los problemas para que todo funcionara correctamente iban aumentando lo que hacía más difícil su gestión. ( discos, memoria, red, etc).

Además de NoSQL y Hadoop, otra gama de tecnologías como Kafka, Spark o Splunk ayudaron a impulsar el interés empresarial en el Big Data.

Vamos a la nube

Mientras las tecnologías Big Data iban despegando en el segundo lustro de los 2000s, las tecnologías de computación en la nube estaban naciendo. Después del éxito de Amazon Web Services; Google y Microsoft lanzaron su propia oferta de servicios en la nube. De esta manera comenzó a generarse un interés por parte de los CIOs que nunca antes se había tenido; teniendo beneficios como agilidad en la puesta en producción, facilidad de uso, y lo más importante escalabilidad había que prestar atención.

Como no podía ser de otra manera se presentaron diversos problemas y la migración de los trabajos a la nube obligó en algunos casos ha rediseñar completamente las aplicaciones. Otro de los problemas que se presento fue el de la seguridad de los datos que residían en nubes públicas, sin saber quién puede acceder al dato y no saber exactamente donde se encuentra físicamente almacenado, sobre todo para guardar información confidencial. Otro inconveniente que se presentaba era determinar los recursos que iban a ser necesarios y el coste que iban a suponer para la organización.

Pese a estos problemas, los profesionales fueron capaces de superarlos y cada vez más organizaciones se sumaron a implementar iniciativas en la nube llegando a migrar cargas de trabajo completamente.

¿En que punto nos encontramos?

La mayoría de los líderes tecnológicos de las grandes compañias se encuentran en una encrucijada, creen que la nube es el mejor sitio para lanzar sus procesos analíticos y poder escalarlos, pero muchos de ellos también afirman que la transición a la nube esta siendo más lenta de lo esperado porque se están encontrando con retos complejos como lanzar procesos analíticos de forma distribuida.

Un estudio realizado por Teradata (03.19 EB10112) muestra que los beneficios de ir a la nube están más que claros por los directivos tecnológicos de empresas con beneficios superiores a los $10B: mejorar los tiempos de implantación, facilitar el uso, menor coste de mantenimiento, mayor rapidez de innovación.

  • 83% afirma que la nube pública es el mejor sitio para lanzar analíticas
  • 91% afirman que la analítica debería moverse más rápido a la nube
  • 69% quieren que sus procesos analíticos se lancen en la nube en 2023

Por otra parte, las barreras para adoptar esta tecnología son las siguientes:

  • 50% temas relacionados con la seguridad
  • 49% tecnologías inmaduras, bajo rendimiento
  • 35% temas regulatorios

Cuando se cruzan los caminos

Cuando se habla de una infraestructura elástica, se esta hablando de tener recursos de computación disponibles cuando la carga de trabajo aumente y no infrautilizar los recursos, es decir, no tener nodos inactivos, dicho de otro modo, ser capaces de crecer o decrecer computacionalmente de forma dinámica.

Las organizaciones se han dado cuenta de que las cargas de trabajo de sus sistemas Big Data no son lineales, y cumplen con los requisitos para abrazar una infraestructura elástica. Por ejemplo un retail que tenga oleadas masivas de tráfico durante la campaña del black friday. Los motores de recomendación, o los rastreadores de acciones, probablemente tengan mucha mas carga de trabajo que necesite de más capacidad de computo.

Un aspecto importante cuando se trabaja en la nube son las reglas que se definan para controlar el auto-escalado de los recursos, estas reglas deben operar dentro del contexto empresarial para que no se salga de presupuesto durante los picos de tráfico.

No todos los sistemas Big Data tienen que ser migrados a la nube, entornos como los financieros o gubernamentales que trabajan con datos sensibles, probablemente siempre trabajen on-premise. También en los sistemas que se requiera un alto rendimiento, para mantener los requisitos de velocidad y latencia en orden. Pero para muchos otros sistemas Big Data la nube es la mejor opción para conseguir elasticidad manteniendo el coste.

Como resultado el modelo que se está adoptando es uno híbrido en el que se mantenga on-premise las cargas de trabajo con datos sensibles y migrar el resto a entornos cloud. El futuro es difícil de predecir, pero los proveedores AWS, Azure y Google Cloud tendrán que estar preparados para poder trabajar simultáneamente entre nubes públicas y privadas.

Para un mayor control operacional sobre la nube hacen falta herramientas para monitorizar, adaptar y automatizar el proceso completamente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s