Stefan Geißler, Geschäftsführer Deutschland, Expert System Deutschland GmbH
Content ist nicht mehr „King“, Content ist längst „Kaiser“ geworden. Inhalte bestimmen mehr und mehr Geschäftsprozesse, gewinnen an Wertigkeit und sorgen – gerade im Service – für Alleinstellungsmerkmale. Für Unternehmen ist es jedoch entscheidend, diese Inhalte passgenau analysieren zu können. Dabei gibt es derzeit hochfliegende Erwartungen, was den ausschließlichen Einsatz von maschinellen Lernverfahren (Machine Based Learning) angeht. Allerdings: Das ist nicht der Königsweg – Lernverfahren und linguistisches Wissen sollten vielmehr sinnvoll zusammen eingesetzt werden.
Dazu ein Beispiel: Der B2B E-Commerce Konjunkturindex untersucht Vor- und Nachteile der Vertriebsunterstützung im B2B mittels Social Media. Ergebnis: Bereits 75 Prozent der befragten Unternehmen nutzen Facebook, YouTube, Twitter & Co. für ihr Vertriebsmarketing. Neben einer erhöhten Sichtbarkeit erhoffen sie sich dadurch mehr Neukunden, eine direktere Kundenkommunikation sowie eine stärkere Kundenbindung. Ebenso das stärkere Einbeziehen von Kunden in Vertriebskampagnen. Und das, obwohl vierzig Prozent der befragten Unternehmen derzeit schätzen, dass ihre B2B-Kunden eher selten Social Media nutzen.
Rein maschinelles Lernen – kein Patentrezept
Das bedeutet also, dass Unternehmen mittlerweile einen starken Nutzwert allein aus ihren Social Media-Aktivitäten ziehen. Doch allein die Präsenz reicht natürlich nicht, vielmehr steht und fällt der Erfolg mit der semantischen Analyse dieses Contents. Und nicht nur das: Betrachtet man noch das OSINT (Open Source Intelligence)-Prinzip, also das Vorhandensein von Wettbewerber-Inhalten, die ebenfalls jedem zur Verfügung stehen, wächst das Volumen der Inhalte erheblich.
Sich allein auf einen maschinenbasierten Prozess zu verlassen, ist dabei alles andere als zielführend. Um das zu verstehen, reicht ein simples Rechenexempel. Man nehme einen einfachen und sehr häufig vorkommenden Anwendungsfall einer Dokumenten-Datenbank von sowohl internen als auch externen unstrukturierten Informationen, in die die gesamte Bandbreite an Content einfließen soll: automatisches E-Mail-Management, strategische Forschung und Innovation und z. B. operatives Risikomanagement. Der erste Schritt wäre dann, diese Rohdaten nach Dokumenten und Informationen zu klassifizieren: basierend auf einer individuell entwickelten Taxonomie, die für die Geschäftsprozesse des Unternehmens typisch ist. Der Grund für diesen Aufwand: Ein Bankhaus beispielsweise hat hier andere Klassifikationsparameter als ein Handelsunternehmen. Nimmt man dann weiter an, dass diese Taxonomie etwa 200 Knoten – eine realistische Zahl – hat, dann ergibt sich daraus folgendes Bild:
- Maschinelles Lernen setzt auf das „Black-Box“-Prinzip. Die Leistungsfähigkeit eines derartigen Systems basiert also rein auf dem Volumen an Trainings-Dokumenten, mit denen man diese Box füttert. Mit dieser Methode ist die maximal mögliche Qualität begrenzt und bedingt durch die Datenqualität der Trainingsdaten. Ebenso ist es mitunter schwer nachzuvollziehen, warum das System genauer geworden ist oder ob es sich überhaupt weiter verbessern kann.
- Für das Training eines solchen Systems mit 200 Kategorien ist das manuelle Tagging von mindestens einigen tausend Dokumenten notwendig, unter Umständen von mehreren zehntausend.
- Für maschinelles Lernen ist es ebenfalls erforderlich, dass für jeweils jeden Knoten der Taxonomie eine Vielzahl von Dokumenten identifiziert werden muss. Ein mitunter komplexes, aber auf jeden Fall zeitintensives Vorhaben. Lässt man sich darauf nicht ein, braucht das System zumindest eine grundlegende Liste von Keywords.
- Die Rechenzeit ist bei einer solchen Herangehensweise nicht unerheblich. Stellt dann ein Unternehmen in der laufenden Analyse einen Fehler fest, kann es sein – und das ist bekanntlich nicht selten der Fall – dass das Gesamtprojekt noch einmal beginnen muss. Von Anfang an.
- Ähnlich verhält es sich, wenn das lernende System um eine Taxonomie verringert beziehungsweise erweitert werden muss. Auch hier muss der laufende Prozess gestoppt werden.
Aus diesen Argumenten geht hervor, dass nicht allein aus Zeit- und Kostengründen dieses Vorgehen alles andere als optimal ist.
Semantische Analyse – wirkungsvolle Ergänzung
Wesentlich besser fahren Unternehmen und Organisationen deshalb, wenn sie sich für eine kombinierte Herangehensweise entscheiden. Und zwar sowohl aus maschinellem Lernen, aber auch aus einem regelbasierten Ansatz und der Methodik der semantischen Analyse eines natürlichen Sprachverständnisses. Dies aus Gründen der Investitionsrentabilität, der „Total Cost of Ownership“ und letztlich aus Gründen der Qualität.
Für Unternehmen, die eventuell aus Gründen der vermeintlichen Kosten davor zurückschrecken, sei gesagt: Erstens sind maschinell basierte Methoden nur auf den ersten, oberflächlichen Blick kostengünstiger. Aus den bereits erwähnten Gründen des mitunter mühseligen Fortschritts des Lernprozesses ist dieses Argument schnell hinfällig. Darüber hinaus aber – und das ist entscheidend – lässt sich eine kombinierte Herangehensweise vielfach auch als Service einsetzen.
Im Großen und Ganzen ist es also entscheidend, maschinelles Lernen mit menschlichem Know-how anzureichern. Die Wissensbasis wird genauer, es fällt einem Unternehmen einfacher zu entscheiden, was wirklich wichtig ist und was nicht. Ein bedeutender Faktor, gerade hinsichtlich der Tatsache, welch große Mengen an unstrukturierten Daten heute im Umlauf sind und wie viele dies bereits in mittelfristiger Zukunft noch sein werden. Hier ist es von entscheidender Bedeutung, unstrukturierte Texte zusammenhangbasiert zu erfassen. Stichwort- und statistikbasierte maschinelle Technologien können das explizit nicht, weil sie Sprache einfach nicht begreifen – eine Kombinatorik aber eben doch.
Kombinierte Verfahren – die Praxis
Ein kombinierendes System nutzt die ING Direct als Tochter der ING. Um den Zugang zu ihrem Online-Content zu vereinfachen und auch die Prozesse in ihren Call Centern zu optimieren, setzt die Internet-Bank für ihre Webseite auf eine semantische Suchmaschine. Auf diese Weise wird auch semantisches Verständnis erzielt: Die Suche erkennt Kundenanfragen, weiß um sprachliche Besonderheiten und erkennt auch beispielsweise Abkürzungen. Ergebnis: Die Kunden der Bank finden sehr schnell den gewünschten Content, die Zahl der Call-Center-Anfragen sank um 46 Prozent.
Content-Analyse als Kombination von maschinellen und semantischen Verfahren
Ein völlig anderes Beispiel: Inserm, das nationale französische Institut für Gesundheits- und medizinische Forschung, muss seinen Rekrutierungsprozess mit bis zu fünf externen Stellen koordinieren. Und um diese, alles andere als trivialen Lebensläufe valide zu analysieren, die darin vorhandene Expertise abzuprüfen und die Kandidaten auf ihre Tauglichkeit zu checken, verlässt man sich ebenfalls auf eine kombinierte Lösung. Denn im Zusammenhang mit der Vielschichtigkeit des Bewerbungsverfahrens ist es nicht zielführend, den komplexen Lebenslauf eines Wissenschaftlers allein dem Computer zur Analyse zu überlassen.
Fazit
Maschinell basierende Analysen sind wichtig. Und dass man ihnen eine große Bedeutung zumisst, ist ebenso in Ordnung. Im Zeitalter der digitalen Transformation sind gerade unstrukturierten Daten für Unternehmen entscheidend. Es wäre allerdings grob fahrlässig, die Auswertung dieser Daten allein den Maschinen zu überlassen. Wertigkeit, kontextuale Analyse, lokale oder regionale Eigenheiten, Slang, Abkürzungen – es kommt auch immer auf das Verständnis an. Und hier nur auf einen Hype zu setzen, ist nicht zielführend. Man kann dies mit dem selbstfahrenden Auto vergleichen. Vom ersten Versuch bis zur Tauglichkeit im Straßenverkehr ist es hier ebenso noch ein weiter Schritt. Darüber hinaus ist es zweifelhaft, ob die wunderbare Komplexität gerade von Sprache und ihre dynamische, andauernde Fortentwicklung sich von Maschinen jemals in aller Gänze erfassen lässt. Bis dahin gilt jedenfalls: Kombination ist der bessere Weg.
Expert System ist ein führender Anbieter multilingualer Technologien für Cognitive Computing zur effizienten Analyse von Textinhalten sowie unstrukturierten und strukturierten Daten. Das Unternehmen mit Hauptsitz in Modena, Italien, hat zahlreiche Niederlassungen in Europa sowie in den USA und Kanada.