FINANZEN UND TECHNIK

Big Data schafft Durchblick in der Datenflut

Die Analyse von großen Informationsmengen birgt viele Chancen, aber auch einige Herausforderungen - Big Brother lauert um die Ecke

Big Data schafft Durchblick in der Datenflut

Unternehmen stehen immer größere Datenmassen zur Verfügung. Nicht nur Menschen erzeugen via Internet stetig neue Daten, auch vernetzt miteinander kommunizierende Maschinen tragen zum kontinuierlichen Anschwellen der Datenflut bei. Die meisten Daten sind allerdings in ihrem Rohzustand nicht verwertbar. Unter dem Stichwort Big Data Analytics wollen Unternehmen den neuen Rohstoff Daten nutzbar machen, in der Hoffnung, Wettbewerbsfähigkeit und Profit zu steigern. Doch dabei sind technologische Herausforderungen zu bewältigen und datenschutzrechtliche Bedenken zu berücksichtigen.Von Franz Công Bùi, Frankfurt Vor uns die Datensintflut: 2012 belief sich das global erzeugte Datenvolumen nach Angaben des Datenspeicherspezialisten EMC auf 2 Zettabyte (ZB), bis 2020 sollen es schon 40 ZB sein – ein ZB hat 21 Nullen (siehe Tabelle). Laut IBM sind 90 % des derzeitigen Datenaufkommens allein in den vergangenen zwei Jahren entstanden und täglich kommen 2,5 Exabyte (EB) an neuen Daten dazu. Maßgeblich gespeist wird der Datenstrom von der stetig wachsenden Internetnutzung der Menschen und vernetzt kommunizierender Geräte wie Smartphones, Überwachungskameras oder Autos im “Internet der Dinge”.Mit dem Ansteigen der Datenfluten wächst der Wunsch, diese Daten auch nutzbar zu machen. Laut EMC sind zurzeit 80 % der Datenbestände auf herkömmlichem Wege nicht nutzbringend auszuwerten, man spricht von “toten Daten”. Unter dem Stichwort “Big Data” soll diesen Datenfriedhöfen wieder Leben eingehaucht werden: mit entscheidungsrelevanten Erkenntnissen aus vielfältigen, für sich genommen oft sinnfreien und verschieden strukturierten Informationen mit Hilfe sogenannter Business-Analytics-Methoden wollen Unternehmen sowohl die Innovations- und Wettbewerbsfähigkeit als auch ihren Profit steigern.Die massenhafte Auswertung von Daten ist nicht neu. Viele Branchen wie der Einzelhandel oder die Kreditkartenindustrie erfassen schon lange riesige Datensätze. Diese konnten, insofern sie strukturiert und sortiert waren, mit Hilfe von Business Intelligence und Data Mining ausgewertet werden. Allerdings ist dieser Ansatz eher rückwärtsgewandt und dient vornehmlich einer historischen Betrachtung. Business Analytics und speziell Big Data Analytics sind Weiterentwicklungen, bei denen es in erster Linie um die Prognose anstehender Entwicklungen geht. “Business Intelligence ist der Blick in den Rückspiegel, Analytics der Blick nach vorne in die Zukunft”, sagt Wolf Lichtenstein, Geschäftsführer der SAS Institute GmbH, eigenen Angaben zufolge Marktführer bei Business Analytics Software. ParadigmenwechselErmöglicht wird dies durch Algorithmen, die weitgehend autonom und automatisiert signifikante Zusammenhänge in großen Datenmengen entdecken und daraus Prognosen ableiten (“Predictive Analytics”). Dem liegt ein technologischer Paradigmenwechsel zugrunde, der nicht nur die Analyse eines viel größeren Datenbestands erlaubt, sondern auch Typen von Daten einbezieht, die vormals wegen ihrer mangelnden Strukturiertheit als nicht analysierbar eingestuft wurden. Dazu gehören Webseiteninhalte, Bilder, Video- und Audiodateien, Suchmaschineneingaben oder Statusmeldungen in sozialen Netzwerken. Hinzu kommen über RFID-Funketiketten und per GPS auch Informationen, die von den in Alltagsgeräten integrierten Kameras und Sensoren ohne menschliches Zutun erfasst und an die Hersteller zurückgemeldet werden. All diesen Informationen ist gemein, dass sie in bisher ungekanntem Umfang entstehen, sich ständig verändern und gleichzeitig via Internet in enorm beschleunigten Datenströmen für Analysen fast uneingeschränkt verfügbar sind.Nach Einschätzung von TNS Infratest sind jedoch nur 15 % dieser Daten so strukturiert, dass sie sich mit klassischen Statistik-Algorithmen und herkömmlicher Software auswerten lassen. Doch dank jüngerer technologischer Entwicklungen – Fortschritten in der Sensorentechnologie, schnelleren Prozessoren, besserer Software, neuen Dateitypen, billigerer Datenspeicherung sowie der sogenannten In-Memory- und Grid-Computing-Verfahren -, die zwar das Datenwachstum befeuern, aber die Auswertung der Datenvielfalt erst ermöglichen, existieren nun die Mittel, um auch unstrukturierte Daten in Echtzeit so aufzubereiten, dass sie in Zahlen umgewandelt und so mathematisch nutzbar werden.Das Volumen des Big-Data-Marktes hat sich nach Angaben der Beratung Deloitte in den vergangenen drei Jahren von knapp 100 Mill. auf mehr als 1,3 Mrd. Dollar vervielfacht. Gartner prognostiziert, dass die weltweiten Ausgaben für Big Data bei Unternehmenssoftware im Jahr 2016 knapp 6,5 Mrd. Dollar erreichen werden (siehe Grafik “Investitionen”). Der Rechenzentrumsanbieter Interxion und die Marktforscher Vanson Bourne kommen in der vor wenigen Tagen veröffentlichten Studie “Big Data – Jenseits des Hypes” zu dem Ergebnis, dass Big Data für 78 % der deutschen Unternehmen in den kommenden drei Jahren ein wichtiges Thema sein wird.Bis dahin sind indes noch einige Herausforderungen zu bewältigen (siehe Grafik unten links). Zwar ist das Sammeln und Speichern von Daten vergleichsweise simpel, aber etwas Verwertbares daraus zu gewinnen und einen Return on Investment zu erwirtschaften ist nicht trivial.”Viele Firmen haben im Augenblick zwar große Datenmengen, kommen aber nicht an die Inhalte ran”, sagt SAS-Geschäftsführer Lichtenstein. Softwareunternehmen wie SAS mit ihrem “Visual Analytics Explorer” positionieren sich als Anbieter von Big-Data-Lösungen. Das US-Unternehmen mit Deutschlandzentrale in Heidelberg setzt auf “neuartige Architekturen von digitalen Speichern und komplexe mathematische Analyseverfahren riesiger Datenmengen”. Der Softwarekonzern SAP hat 2010 sein Echtzeit-Datenbanksystem Hana (High Performance Analytic Appliance) vorgestellt und damit im vergangenen Jahr 392 (2011: 160) Mill. Euro erlöst. Das ist nur ein Bruchteil der SAP-Gesamtumsätze von 16,2 Mrd. Euro, doch bereits 2013 sollen die Hana-Erlöse auf 650 Mill. bis 700 Mill. Euro steigen. Supercomputer WatsonIBM setzt im Business-Analytics-Segment neben vielen klassischen Software-Werkzeugen unter anderem auf neue Technologien wie Watson, einen Supercomputer aus dem Bereich der künstlichen Intelligenz, der immense, nicht unmittelbar zusammenhängende Datenmassen aufarbeiten, das gesprochene Wort verstehen und Fragen mit einer beinahe menschlichen Intuition beantworten kann. Prominenz erreichte Watson, als er 2011 gegen zwei Menschen in der Quizsendung “Jeopardy” eine Rekordsumme gewann.Laut Thomas L. Hager, Geschäftsbereichsleiter Banken bei IBM Deutschland, geht es bei Watson um ein möglichst menschliches Maschinen-Interface. Dabei würde Watson auch wahrgenommene Gefühle wie beispielsweise eine erregte Stimme für seine Predictive-Analytics-Verfahren berücksichtigen. Seit etwas mehr als einem Jahr läuft ein Watson-Pilotprojekt bei der Citigroup zur Berechnung von Risiken, Portfolios und Kundendaten. Dabei werden unter anderem Marktdaten mit individuellen Informationen zum jeweiligen Kunden verknüpft, um ihm dann – ähnlich wie bei der Empfehlungsfunktion des Online-Händlers Amazon – etwa anzuzeigen, welche Finanzprodukte Kunden mit einem ähnlichen Risikoprofil gewählt haben. IBM geht davon aus, dass der Umsatz des eigenen Business-Analytics-Geschäftsbereichs bis 2015 auf 16 Mrd. Dollar anwachsen wird, wobei Hager den Watson-Anteil daran nicht näher beziffert. Geplant ist, dass “das Watson-Thema in der zweiten Jahreshälfte voraussichtlich in ein bestellbares Produkt münden wird”. Derzeit handele es sich noch um individuelle Pilotprojekte. Regulierung als TreiberIn der Finanzwirtschaft sind typische Einsatzbereiche für Big-Data-Technologien unter anderem Risk Management, Credit Assessment und Consumer Marketing. Daneben lassen Banken und Kreditkartenfirmen aber auch große Datenmassen durchforsten, um Betrügern auf die Spur zu kommen. Hierbei spielt der Faktor Zeit eine wesentliche Rolle, weswegen Echtzeit-Analysen eine so hohe Bedeutung haben.Laut der im vergangenen Jahr vom Lehrstuhl für Wirtschaftsinformatik und Electronic Government der Universität Potsdam in Zusammenarbeit mit SAS veröffentlichten Studie “Wettbewerbsfaktor Analytics” sind die Anforderungen des Kapitalmarkts und zunehmende staatliche Regulierung weitere Entwicklungstreiber für Big Data in der Finanzbranche; auch bei der Überwachung der Einhaltung gesetzlicher Anforderungen setzt man auf die analytische Nutzung von Big Data.”Die Auswirkungen der Finanzkrise in Kombination mit staatlichen Regularien und verschärftem Wettbewerb treiben Investitionen in Analytics. Daher ist die Bankenbranche in Deutschland heute im Hinblick auf die Implementierung solcher Lösungen vergleichsweise weit fortgeschritten”, sagt Lichtenstein. Studienleiter Prof. Norbert Gronau ergänzt, dass Banken mehr als andere Branchen bereits Fachabteilungen für Analytics eingesetzt und beispielsweise transaktionale Daten gut im Griff hätten. Doch die Nutzung und Analyse von anonymisierten Website-Daten sei vielfach noch ausbaufähig.Ein großes Hindernis für den Big-Data-Einsatz ist der Mangel an Fachkräften, denn hier wird eine Mischung aus Informationstechnologie, Softwareentwicklung, Mathematik und angewandter Statistik benötigt. Entsprechend ausgebildete Mitarbeiter sind rar. Ein weiteres Problem besteht in der oftmals mangelnden Datenqualität, auch als “Garbage in, Garbage out” bekannt. Experten zufolge sind Big-Data-Ansätze ohne eine erhöhte Datenqualität zum Scheitern verurteilt, denn wenn fehlerhafte, inkonsistente oder doppelt vorhandene Ausgangsdaten vorliegen, kommt man mitunter zu mathematisch scheinbar logischen Ergebnissen, die letztlich aber dennoch falsch sein können.Hinzu kommt, dass das reine Datensammeln für sich noch keinen Wert hat, wie Lichtenstein betont: “Unternehmen haben sich in den vergangenen anderthalb Jahren darauf konzentriert, die Datenmengen sinnhaft strukturiert abzulegen. Aber nur weil man eine Bibliothek hat, hat das auf die Bildung noch keine unmittelbare Auswirkung.” Von Big Data zu Big BrotherNicht zu vernachlässigen ist auch das Thema Datenschutz, besonders in Europa und speziell in Deutschland. Personalisierte Datensammlungen und -auswertungen werden zu Recht sehr kritisch betrachtet. Je größer die Menge der Daten und je umfassender die Möglichkeiten zur Analyse, desto größer ist die Gefahr des Missbrauchs. Gerade wo große Datenmengen zentralisiert gesammelt werden, ist ein unbefugter Zugriff oft verheerend. Ohnehin stößt die Ballung von allzu viel Datenmacht in der Hand einzelner Anbieter auf Vorbehalte. Bundesverbraucherministerin Aigner erklärte letztens, eine massenhafte Auswertung dürfe es nur bei effektiv anonymisierten Daten geben. Die in Europa geltenden und entstehenden Bestimmungen zum Datenschutz können Unternehmen langfristig aber teuer kommen.Letztlich ist die entscheidende Voraussetzung für den erfolgreichen Einsatz von Big-Data-Technologien, dass Unternehmen vor der Auswertung von Daten die richtigen Fragen stellen. Große Datenvolumina und hohe Datenqualität allein bringen wenig, wenn der Blickwinkel nicht stimmt. “Supermarktketten verfügen über unglaubliche Datenmengen, und doch haben sie nicht bemerkt, dass sie Pferdefleisch an Menschen verkloppen”, hat es der britische Werbeguru und Großagenturgründer John Hegarty jüngst auf den Punkt gebracht.