Hybride Hadoop Strategien – Big Data macht den Spagat

Das Thema Big Data hat in den letzten Jahren viele Entscheider massiv getrieben. Cloudera, Hortonworks, MapR & Co. zogen in die Rechenzentren vieler deutscher Unternehmen ein und befüllen die Datalakes der Unternehmen. Parallel dazu werden immer mehr Cloud-Infrastrukturen genutzt, um neue Dienste zur erstellen und so entstehen auch in der Cloud zum Teil Datalakes. Die Frage ist, wie man effektiv und sinnvoll diese hybriden Welten verbinden kann und welche Einsatzszenarien einen Mehrwert und nicht nur mehr Aufwand bringen.

Flexible hybride Welten

Wenn man sich eine klassische Big Data-Landschaft anschaut, dann stellt sich zunächst die Frage, wie man überhaupt ein hybrides Szenario abbilden kann. Schauen wir uns dazu die unterschiedlichen Ausprägungen einmal an.

Flexible Big Data Analytics: Big Data On-Premise – Analystics On-Cloud
Multi-Environment Big Data: Big Data On-Premise und On-Cloud
Cloud-Streaming to Big Data: Streaming und Vorverarbeitung in der Cloud und Big Data On-Premise
Cloud Add-on Big Data: Mehrwertdienste in der Cloud und Big Data On-Premise
Big Cloud: Big Data in der Cloud und Mehrwertdienste On-Premise
Flexible Big Data Analytics: Big Data On-Premise – Analystics On-Cloud

Bei diesem Szenario werden die kritischen Daten in der On-Premise Welt gehalten und nur weniger relevante Daten, wie beispielsweise Maschinendaten in der Cloud verarbeitet. Die wichtigen Informationen bleiben somit in der internen IT und verlassen nicht das Unternehmen. Die analytischen Modelle und Visualisierungen können direkt in der Cloud Plattform prozessiert werden und bieten somit die Vorteile, welche z.B. auch Software as a Service-Angebote mit sich bringen. Tools, Anwendungen und Modelle sind immer aktuell und können generisch von einer breiten Nutzergemeinschaft weiterentwickelt werden.

Multi-Environment Big Data: Big Data On-Premise und On-Cloud

Bei diesem Szenario werden alle Dienste und Daten in einem hybriden Modell verwendet. Besondere Schwierigkeiten macht hier die Ressourcenverwaltung. Beispielsweise kann zwar ein Hadoop-Cluster dynamisch mit Ressourcen aus der Cloud erweitert werden, die Frage stellt sich nur nach der Orchestrierung und der Bereitstellung der Daten. Die Orchestrierung kann man sicherlich über die dynamische Erweiterung des Rechenzentrums durch VPC (Virtual Private Cloud) erlangen und die Daten sind nur dann sinnvoll in der Cloud nutzbar, wenn

die Daten auch zum Teil in der Cloud liegen und somit nah an der Anwendung,
die Datenmenge für die Jobs nicht besonders groß ist,
die Daten schnell zwischen den unterschiedlichen Umgebungen verschoben werden können.

Den letzteren Fall können lokale deutsche Rechenzentrumsbetreiber, wie z.B. e-shelter, Equinix und Co. abbilden, da hier meistens On-Premise und Public Cloud-Umgebung nah bei einander liegen.

Cloud-Streaming to Big Data: Streaming und Vorverarbeitung in der Cloud und Big Data On-Premise

Ein weiteres Szenario bietet das Internet of Things (IoT). Sensoren, Logdateien, Kameras, Telemetriedaten und viele weitere Dinge kommunizieren viele Daten. Dabei ist das Wachstum der unstrukturierten Daten wesentlich größer als es das der strukturierten Daten jemals war. Damit diese Flut an Daten gebändigt werden kann, können Cloud-Plattformen helfen dynamisch Streaming-Plattformen aufzubauen und flexibel mit Ressourcen zu erweitern. Auch eine Vorfilterung der Daten ist bereits in der Cloud möglich. Die fertigen Rohdaten selbst werden dann wiederum in der On-Premise-Landschaft abgelegt.

Cloud Add-on Big Data: Mehrwertdienste in der Cloud und Big Data On-Premise

Wenn man die Hoheit über die Daten behalten möchte, aber dennoch möglichst flexible Anwendungen und Dienste entwickeln und bereitstellen möchte, dann kann man alle diese Aufgaben in die Cloud verlagern. So haben die Entwicklungs-, die BI- und die Leitungsteams vollen Zugriff auf die modernsten Verfahren und Technologien. Ebenso bietet dieses Szenario den Vorteil, dass ETL-Prozesse und die Verbindung zum Datawarehouse-System direkt von der Unternehmens-IT weiterhin betrieben werden kann und neue Kenntnisse nebenbei aufgebaut werden können. Denn gerade Hadoop-Cluster Administratoren sind eine sehr begehrte Ressource am Markt.

Big Cloud: Big Data in der Cloud und Mehrwertdienste On-Premise

Ein weiteres Szenario hält die Daten in der Cloud. Dort kommen die Daten aus den IoT-Geräten sowieso schon an und die Verarbeitung durch viele verfügbare Ressourcen in der Cloud wird dadurch vereinfacht. Die Mehrwertdienste können in diesem Fall auf flexiblen Infrastrukturen in der On-Premise Landschaft entwickelt und getestet werden. So kann beispielsweise ein Data Scientist mit einem kleinen Datenauszug lokal im R Studio mit der Entwicklung beginnen. Nach einer ersten Sichtung und Analyse der Daten können dann die Modelle aus dem Bereich der künstlichen Intelligenz auf spezialisierter Hardware, wie z.B. ein Cluster von Graphikkarten, mit Hilfe Spark oder Deep Learning-Algorithmen schnell entwickelt und modifiziert werden, bis das fertig trainierte Modell dann auf die Cloud-Umgebung portiert werden kann.

Aussichten am hybriden Hadoop-Himmel

Sinnvoll sind die in diesem Analyst View aufgezeigten Szenarien je nach Anwendungsbereich und Industrieschwerpunkt. Unternehmen, welche zum Beispiel wenige Streaming-Daten erwarten, benötigen sicherlich kein Szenario für diesen Fall. Zu überdenken sind jedoch alle Szenarien, denn je nach Ausprägung bieten sie eine Spezialisierung und Freiräume für Entwickler, Administratoren, BI-Consultants, externe Dienstleister usw. Je nachdem, wie die Verlagerung der einzelnen Hadoop bzw. Big Data Funktionalitäten aussieht, ergibt sich somit durch eine scheinbar auftretende größere Komplexität in Wirklichkeit ein höherer Grad an Flexibilität und Spezialisierung.