Von Big Data zu Knowledge Discovery

Content als Erfolgsfaktor

Autor: Alexander Siebert, Gründer und Geschäftsführer von Retresco

Der Big-Data-Hype erreichte 2013 einen neuen Höhepunkt – und die Strukturierung von Daten und Ideen für gewinnbringende Anwendungen bestimmten die Diskussion. Dabei ist die digitale Wirtschaft einen Schritt weiter: Google und Facebook sind Vorreiter, wenn es um semantische Verfahren geht. Unternehmen können die gleichen Technologien einsetzen, um aus Content Wert zu schöpfen und Wettbewerbsvorteile zu sichern.

Neben der nationalen Tagespresse widmeten sich auch zahlreiche Fachmedien und Konferenzen dem Thema. International wurde die „Big Data Week“ ausgerufen; global fanden zeitgleich 200 Meetups, Konferenzen, Vorträge und Hackathons statt. Alle beschäftigten sich mit den verschiedenen Fragestellungen rund um große Datenmengen. Die Parameter Volume, Variety, Velocity und Complexity bestimmten die Agenda. Man diskutierte über:

  • Cloud vs. lokale Einbindung
  • Verarbeitung unterschiedlicher Datentypen wie Texte, Bilder oder Videos
  • Geschwindigkeit der Datenanhäufung, nämlich doppeltes Datenvolumen alle zwei Jahre
  • Zunehmende Komplexität der Daten

Letzterer Aspekt wurde auch unter dem Stichwort Big Data Cap [1] zusammengefasst. Gemeint ist, dass laut BITKOM [2] lediglich 15 Prozent der Datenmenge in Unternehmen strukturiert vorliegen. EMC2 weitete seine Studie auf das gesamte Internet aus: Hier sind es nur drei Prozent, die überhaupt verschlagwortet sind.

Knowledge Discovery: Mehrheit der Unternehmen nicht in der Lage, Nutzen zu generieren

Dabei sind strukturierte Daten die grundlegende Voraussetzung für den technologiegetriebenen Wissensgewinn in Unternehmen. Strukturierte Daten sind maschinenlesbare und somit verwertbare Informationen. Viele statistische Daten sind beispielsweise aufgrund der geringen Komplexität und klaren Bedeutung an sich strukturiert. Dagegen liegen unzählige vom Nutzer generierte Inhalte, natürlichsprachige Texte wie Kundenkommentare und Produktbewertungen sowie sämtliche redaktionellen Beiträge unstrukturiert vor und sind damit für Maschinen nur bedingt lesbar. Gerade hier liegt aber das große Potenzial.

Entsprechend gewann der Einsatz semantischer Verfahren 2013 weiter an Bedeutung. Semantische Verfahren sammeln Daten, analysieren sie, bereiten sie semantisch auf und stellen sie mit Weltwissen in Verbindung. Auf dieser Basis lassen sich Anwendungen entwickeln, die geschäftskritische Prozesse automatisieren und Entscheidungsgrundlagen bilden (Bild 1).

art1_1

Bild 1: Semantische Verfahren machen aus unstrukturierten Daten businessrelevante Anwendungen

Doch die Umsetzung dieser Technologien wird nur zögerlich vollzogen: Zwar wurden im Jahr 2012 weltweit 4,5 Milliarden Euro in Big-Data-Projekte investiert. Doch trotz dieser Summe sind viele Unternehmen kaum in der Lage, ihre Daten nachhaltig und wertschöpfend zu verarbeiten. Laut einem Forecast von Gartner Inc. werden 85 Prozent der Fortune 500 noch bis 2015 nicht fähig sein, Daten für die Erzielung von Wettbewerbsvorteilen zu nutzen [3].

Umso dringender muss der theoretisch skizzierte, erwartete Nutzen aus den Datenmengen bewiesen werden. Projekte zur Erschließung kontextueller Zusammenhänge aus Daten sowie die Entwicklung nutzerrelevanter Applikationen gewinnen bei Entscheidern deshalb an Priorität. Knowledge Discovery wird das Buzzword 2014.

Automatisierung als Wachstumstreiber

Dabei wird in unterschiedlichen Umfeldern bereits auf technologische Verfahren gesetzt, die geschäftskritische Prozesse automatisieren. In der Compliance analysiert Software Kreditkartendatenströme nach Unregelmäßigkeiten und hilft, Verstöße aufzudecken. Im Risikomanagement wird auf Basis der gleichen Logik der wahrscheinliche Ausfall von Maschinen berechnet. Und im Medienumfeld helfen Technologien, Angebote zu personalisieren oder die Content-Ausspielung auf Webseiten zu automatisieren. Erst im Oktober 2013 gab N24.de bekannt, dass semantische Verfahren die Erstellung und Ausspielung bestimmter Inhaltselemente automatisieren, was unter anderem dazu beitrug die Seitenbesuche um 38 Prozent nach oben zu treiben (Bild 2).

Einen Schritt weiter gehen prädiktive Technologien. Trenderkennung durch Tonalitätsanalysen helfen, kritische Themen frühzeitig zu erkennen. Dies findet bereits jetzt im E-Commerce Anwendung. Social Media, Kundenmeinungen auf der Webseite und Anrufe im Call Center werden in kürzester Zeit nach kritischen Themen durchforstet. Mittels einer Schnittstelle werden diese Informationen in Echtzeit an das Unternehmen zurückgespielt. Customer Service, Produktmanagement, Sortimentsplanung, Marketing – alle Fachabteilung können direkt reagieren.

Daten stützen Entscheidungen mittlerweile nicht nur, sie führen Entscheidungen herbei und sind für gesamte Geschäftsprozesse relevant. Das Unternehmen wird zum Data Driven Enterprise und Daten zum entscheidenden Faktor für die Wahrung der Marktposition.

art1_2.pngBild 2: Automatisierung relevanter Geschäftsprozesse: N24.de steigert durch Automatisierung User Engagement

Digitale Player als Treiber von Enterprise-Lösungen

Die enge Verzahnung von Daten und Geschäftsmodellen bringt neue Herausforderungen. Daten im Unternehmensumfeld müssen durch die Weiterentwicklung automatisierter Anwendungen konkret brauchbar gemacht werden. Wege müssen gefunden werden, um Daten zweckunabhängig aufzubereiten. Das ist Voraussetzung, um Informationen in quasi-Echtzeit, oder zumindest in geschäftsrelevanter Zeit, zur Verfügung zu stellen.

Um diese Ziele zu erreichen, ist ein neuer Ansatz erforderlich. Die gedankliche Schere zwischen Enterprise Anwendungen und Customer-/Social-Media-Applikationen ist jedoch noch groß. Fakt ist: Die Technologien zur Aufbereitung von Daten sind die gleichen. Setzen viele Unternehmen noch auf (zumeist teure) proprietäre Lösungen, haben sich bei digitalen Vorreitern agile und effektive Open-Source-Verfahren durchgesetzt. Eine Bewegung, von der Unternehmen durchaus lernen können.

Google und Facebook als Wegweiser für das Enterprise-Umfeld

Mittels Knowledge Graph und Social Graph zeigen Google und Facebook wie semantische Verfahren unstrukturierte Datenmengen wertschöpfend verarbeiten. Sie dienen als Impulsgeber für Open-Source-basierte Enterprise-Anwendungen – beispielweise für den automatisierten Dialog mit Nutzern. Seit September 2013 setzt Google einen Algorithmus namens Hummingbird ein. Dieser soll besser in der Lage sein, komplexe Suchanfragen zu beantworten.

Die eigentliche Revolution: Die Conversational Search ermöglicht die Suche als „Unterhaltung mit der Suchmaschine“. User tippen ihre Suchanfrage ein und Google spielt das Ergebnis in einem Dialogfeld aus. Beispielsweise „Wie viele Einwohner hat Berlin?“. Statt auf Links zu Wikipedia zu verweisen, liefert Google in einem Dialogfeld die Antwort selbst: 3,502 Millionen (2012). Auch der Kontext des Suchenden fließt – insofern freigegeben – in die Suchanfrage ein. Sprich: Ort, Device oder in Google+ hinterlegte Interessen. Fragen nach dem heutigen Wetter liefert Google in einer Grafik (Bild 3)

art1_3

Bild 3: Dialog mit der Maschine: Die Conversational Search von Google

Im Englischen ist die Suche bereits noch weiter: Sie kann vergleichen (die Suche „Butter vs. Olive Oil“ liefert die Ernährungswerte der beiden) und kann über die Speak-Your-Search-Funktion mit Usern in einen längeren gesprochenen Dialog treten. Zuvor erzeugten Google und Facebook den Buzz mit semantischen Graphen. Um Nutzern den Zugang zu interessanten Verbindungen, Orten und Dingen zu erleichtern, erneuerte Facebook seine Suche um den Social Graph. Basis ist ein semantisches Netz der Daten, das zwischen Begriffen, deren Eigenschaften und Bedeutungen Verbindungen herstellt. „Wo ist das beste Restaurant in Berlin“ oder „Welche Freunde von Freunden wohnen in Berlin und mögen Fußball?“ kann das soziale Netzwerk nun beantworten.

Knowledge Graph im Unternehmen

Für businessrelevante Anwendungen braucht es aber nicht Hummingbird. Semantische Technologien automatisieren den Dialog mit Nutzern effektiv. Sämtliche Dokumente, Informationen und Texte werden in einem zentralen Content Pool abgelegt und strukturiert. Das ist die Basis für eine dialogfähige Benutzeroberfläche. Was heute im Web eingesetzt wird, kann künftig im Unternehmen und auch sprachgesteuert funktionieren. Ob nun für den Dialog mit Kunden oder als Support für Mitarbeiter, in jedem Fall reduziert sich der Aufwand, den Unternehmen für Beantwortung von Anfragen benötigen.

Ebenso werden Mitarbeiter in Zukunft automatisch auf dem Laufenden gehalten. Technologien scannen die gesamte Organisation über Abteilungs- und Ländergrenzen hinweg nach Neuigkeiten und Informationen und bereiten diese themenbezogen auf. In Kombination mit Personalisierungs-Technologien können Unternehmen einen News-Feed für Mitarbeiter entwickeln, der sie über relevante Themen auf dem Laufenden hält. Ob neuste Präsentationen zum eigenen Arbeitsgebiet, Kundenabschlüsse oder Informationsbroschüren, jeder Mitarbeiter behält stets die Informationshoheit über sein Gebiet.

Einen Schritt weiter gedacht lassen sich so ganze Enterprise-Portale steuern. Die Ausspielung von relevanten Informationen abgestimmt auf Thema, Lokation und Aufgabengebiet kann Unternehmen einen Wissensvorsprung bieten. Im Bereich der Wettbewerbsbeobachtung beispielsweise oder im Vertrieb. Der Sales-Mitarbeiter, der neuste Produktinfos, Gesetzesänderungen sowie relevante Marktzahlen passgenau zum nächsten Kundentermin und vor allem automatisiert auf sein iPad bekommt, ist keine Zukunftsvision.

Literaturnachweise
[1] EMC2: Neue Studie zum digitalen Universum entdeckt Big Data Gap (11.12.2012).
[2] BITKOM Bundesverband Informationswirtschaft, Telekommunikation und neue Medien e. V.: „Big Data im Praxiseinsatz – Szenarien, Beispiele, Effekte“ (2012).
[3] Douglas Laney, Frank Buytendijk: „Information 2020: Big Data and Beyond“ (Gartner Inc., 24.07.2013).

www.retresco.de

Alexander Siebert ist Gründer, Geschäftsführer und kreativer Ideengeber von Retresco. Retresco ist Experte für die Automatisierung Content-getriebener Geschäftsmodelle. Das Unternehmen entwickelt Lösungen, die Produktionsprozesse optimieren, das User Engagement sowie die Relevanz in Suchmaschinen erhöhen und die Umsätze von Kunden steigern. Auf Basis semantischer Verfahren und modernster Technologien automatisiert Retresco die effektive Verwertung von Inhalten entlang der gesamten Wertschöpfungskette.