Daten sind unsere Leidenschaft!

Big Data – eine Bestandsaufnahme

Big Data gilt für die nächsten Jahre als einer der Treiber in der IT. Es gibt sogar Stimmen die in Big Data ein ähnliches Potential sehen wie seinerzeit durch den Start des „World Wide Web“. Wo aber steht die Business-Intelligence-Gemeinde im beginnenden Jahr 2013 bezüglich dieses Themas?

Dazu drei Fakten:

  1. Gibt man bei Google als Suchbegriff „Big Data“ an, so bekommt man zurzeit ca. 1,3 Mrd. Treffer. Zum Vergleich: Der Suchbegriff „Barack Obama“ ergibt ungefähr ebenfalls 1,3 Mrd. Treffer. Big Data hat bei Google also dieselbe Repräsentanz wie der amtierende Präsident der Vereinigten Staaten von Amerika!

  2. In Zusammenhang mit Big Data fallen unweigerlich irgendwann die Begriffe Facebook und Hadoop. Sucht man im Hadoop-Wiki nach dem Begriff Facebook so findet man folgendes:Facebook: Currently they have 2 major clusters:
    • A 1100-machine cluster with 8800 cores and about 12 PB raw storage
    • A 300-machine cluster with 2400 cores and about 3 PB raw storage
    • Each (commodity) node has 8 cores and 12 TB of storage
    • Facebook’s Hadoop/Hive system ingests 15 terabytes of new data per day
  3. Unter „Amazon Web Services“ gibt es mittlerweile eine Big Data Lösung, die Hadoop basiert ist


Big Data stellt also keineswegs nur noch eine Nische im Bereich Business Intelligence dar, sondern scheint sich zum neuen Megatrend der IT auszuwachsen!

Wie sieht es dabei auf der Projektseite aus?

„Von den internationalen Unternehmen mit mehr als einer Milliarde Dollar Umsatz arbeiten laut der Studie der Computerwoche derzeit 26 % an Big Data-Projekten. Weitere 34 % befinden sich in der Evaluations- oder Planungsphase. Die restlichen 40 % haben sich bisher noch nicht mit Big Data befasst – oder nach einer Evaluation entschieden, kein Projekt aufzusetzen.“
(Computerwoche, 15. 01.2013)

D.h. also, ca. 60 % der größten Unternehmen der Welt beschäftigen sich aktuell mit Big Data!

Woher kommt aber das Interesse der Unternehmen an diesem Thema?

Zum einen konzentriert sich der Wettbewerb zunehmend auf die Schaffung von individuellen, kundenspezifischen Lösungen, deren Wert nicht nur im Produkt selbst, sondern im gesamten Leistungs-Portfolio liegt, welches um dieses herum angeboten wird. Dazu sind tiefgreifende Kenntnisse der Zielgruppe auf das einzelne Individuum (sprich Käufer) heruntergebrochen notwendig, um maßgeschneiderte Angebote entwickeln zu können.

Diese Datenvielfalt kann nicht mehr vom Unternehmen selbst erhoben, sondern nur durch die  Verknüpfung mit einer Vielzahl an zugekauften Informationen ermittelt werden. Da diese Informationen in der Regel hochgradig unstrukturiert sind, stellt hier Big Data den favorisierten Lösungsweg dar.

„Wenn vorhandene Datenbanklösungen nicht mehr reichen, um Muster im Kundenverhalten, um Verdächtige auf Bahnhöfen zu erkennen und gründlichere Profile zu erstellen, dann setzt man nun auf den Algorithmus an sich. Big-Data-Lösungen wollen darum nicht mehr finden, wonach Menschen gesucht haben. Sie wollen mit automatisierter Analyse jene Muster (Personen, Verhaltensformen, Interessen, Gesinnungen) aufzeigen, an die bislang niemand gedacht hat. Wenn IBM seinen Kunden verspricht, jetzt würden „Fragen beantwortet, die bislang unerreichbar waren“, dann untertreibt die Firma noch.“
(Süddeutsche.de, 02.01.2013)

In einem Big Data System werden vier zentrale Komponenten benötigt. Dabei handelt es sich um:

  • Werkzeuge zur Datenintegration
  • In-Memory-Verarbeitung
  • Werkzeuge zur Verarbeitung hochgradig unstrukturierter Daten
  • Werkzeuge zur Visualisierung

Die Technologien und Prozesse, mit denen dies erreicht werden soll, unterscheiden sich zum Teil fundamental von den bisher etablierten BI-Standards. Wird in einem klassischen BI/DWH-System ein integrativer Ansatz gelebt, d.h. es wird versucht, möglichst viele Daten qualitätsgesichert in einer zentralen SQL-Datenbank zu integrieren und auf diese mit einem festen Portfolio an Werkzeugen zuzugreifen. Dieser Ansatz funktioniert bei Big Data schon allein aufgrund der schieren Menge an zum Großteil unstrukturierten Daten nicht mehr. Vielmehr wird hierbei auf NoSQL Datenbanken gesetzt. Dies hat Konsequenzen für die etablierten BI-Anbieter.

Eine entscheidende Bedeutung kommt hier dem Framework Hadoop zu. Hadoop wurde von der Apache Sotware Foundation entwickelt und ist ein freies Java Framework. Zentraler Bestandteil ist der MapReduce-Algorithmus von Google. Ziel ist es, intensive Rechenprozesse mit großen Datenmengen auf Clustern durchzuführen, die aus relativ preisgünstigen Standardkomponenten bestehen können. Fast jeder namhaft bekannte BI Anbieter (SAP, IBM, Oracle, Microsoft, Teradata, SAS, …) bietet mittlerweile Integrationsmöglichkeiten für Hadoop an.

Die Milliarden Investitionen, die zum einen von den Herstellern und großen Systemhäusern und zum anderen im Rahmen der laufenden Big Data Projekten veranschlagt sind, werden in den nächsten Jahren einen signifikanten Anteil am IT-Gesamtmarkt erreichen. Insofern wird Big Data deutlich mehr als einen Hype darstellen. Europa, und hierbei insbesondere Deutschland, läuft dem amerikanischen Markt hinterher. Während in den USA schon die ersten produktiven Big Data Lösungen breitflächig im Einsatz sind, wird der Markt in Deutschland noch durch datenschutzrechtliche Diskussionen gebremst!

Allerdings kann davon ausgegangen werden, dass nach Überwindung dieser „Startprobleme“ auch hier der Big Data Zug schnell an Fahrt gewinnen wird!

Das könnte Sie auch interessieren

Bleiben Sie informiert:

its-people hilft Ihnen...

Weitere Blogthemen: