Deep Learning – der Generalschlüssel für Dokumentanalysen?

     Dr. Uwe Crenze_interface projects GmbH

    Autor Dr. Uwe Crenze ist geschäftsführender Gesellschafter der interface:business Unternehmensgruppe

    Komplexe Entscheidungsprozesse auf der Basis fundierter Daten nachhaltiger zu gestalten: Dies ist der große Gewinn bei der Digitalisierung von Geschäftsprozessen – von der Personalverwaltung, Warenwirtschaft und Produktion bis hin zur Kundenbetreuung. Voraussetzung für diesen Nutzen ist jedoch, dass auf den Entscheidungsebenen die relevanten Daten vorliegen und im Kontext des Entscheidungsprozesses analysiert werden können.

    Nur wenige Informationsaspekte konnten bisher aus unstrukturierten Datenobjekten automatisch ableitet werden, da die fachlichen Zusammenhänge in den Daten bzw. Dokumenten (E-Mails, Textdokumenten, Wikis, etc.) verborgen und damit klassischen Analysemethoden nicht zugänglich sind. In Unternehmen befinden sich ca. 80 Prozent der relevanten Information in unstrukturierten Datenobjekten. Im Gegensatz zu Datawarehouse-/BI-Methoden müssen diese unstrukturierten Inhalte zunächst aus verschiedensten heterogenen Datenquellen extrahiert werden, bevor sie analysiert und visualisiert werden können.

    Nicht zuletzt durch immer kürzere Produktzyklen sind in den Unternehmen abteilungs- und systemübergreifende Analysen für die Erschließung von Zusammenhängen gefragt, zum Beispiel für die Erkennung von Wechselwirkungen zwischen Inhalten im Helpdesk (Ticket-System), Qualitätsdokumenten, Verträgen und Handlungsanweisungen. Erschwerend kommt hinzu, dass es zu wenig Datenanalyse-Experten gibt, die solche Analysen vornehmen könnten. Letztlich geht es um die Erschließung des in Dark Data [1] verborgenen Wissens.

    Automatische Gewinnung von Informationen nicht immer „einfach“

    Die Kunst eines modernen Informationsmanagements liegt im organischen Verbinden von bekannten Fakten mit automatisch ermittelten Informationsaspekten. Dabei liegt die Herausforderung insbesondere in der Etablierung einer wirtschaftlichen und nachhaltigen Lösung. Dahinter steckt der Spagat zwischen dem Erstellen und Verwenden eines kuratierten Informations- und Begriffsmodells und dessen Zusammenwirken mit automatisch gewonnenen Entitäten, sonstigen Begriffen und den Zusammenhängen zwischen ihnen.

    Solange die automatische Gewinnung von Informationsaspekten durch deterministische Regeln widerspruchsfrei erfolgt, ist dies relativ einfach beherrschbar. Finden hingegen Methoden des maschinellen Lernens Anwendung, bedarf es Strategien, welche die Fehler solcher Methoden kompensieren oder tolerierbar machen. Neben der Qualität der gelernten Aspekte spielt der Ressourcenbedarf der eingesetzten Verfahren eine entscheidende Rolle. Es lässt sich heute noch nicht in jedem Fall eine wirtschaftliche Lösung mit praxistauglichen Ergebnissen finden.

    Maschinelle Lernverfahren – auf dem neuesten Stand der Technik

    Komplexe Lernverfahren benötigen eine leistungsfähige Hardware. Die entsprechenden Algorithmen erfordern massiv parallele Operationen. Da hierfür die Anzahl der Kerne in heutigen CPUs noch nicht ausreichen, werden zunehmend Grafikkarten eingesetzt, die mehrere tausend Gleitkommaoperation gleichzeitig ausführen können.

    Dass dies unabdingbar ist, lässt sich an einem kleinen Zahlenbeispiel verdeutlichen. In einem mittelständischen Unternehmen sollen 100 Millionen Dokumente analysiert werden. Das ist eine typische Größenordnung für Unternehmen oder Behörden mit mehreren tausend Mitarbeitern. Wenn man für diese Analysen nur eine Sekunde pro Dokument benötigt, würde man bei einer sequenziellen Abarbeitung über drei Jahre Analysezeit benötigen. An diesem Beispiel sieht man schnell, dass es unerlässlich ist, effektive Methoden einzusetzen und auf dem neuesten Stand der Technik zurückzugreifen.

    Neuronale Netze – moderne Lösungen für semantische Analysen

    Einen großen Durchbruch versprechen seit einigen Jahren Verfahren auf der Grundlage spezieller neuronaler Netze, deren Anwendung oft unter dem Begriff Deep Learning zusammengefasst werden.

    Mit Deep Learning wurden große Fortschritte beim automatischen Übersetzen, bei Bildanalysen und bei semantischen Analysen von Texten erzielt. Im Fall der semantischen Analyse von Dokumenten gibt es schon seit vielen Jahren Ansätze für den Einsatz neuronaler Netze. Insbesondere durch Veröffentlichungen von Google [2], hat dieser Anwendungsfall seit 2013 einen deutlichen Schub erfahren. Durch eine geschickte Kombination bereits lang bekannter Verfahren, konnte Google ein Toolkit für Textanalysen bereitstellen (Word2Vec [3]), mit dem sich auf moderner Hardware sehr performant semantische Relation zwischen Wörtern ermitteln lassen (siehe Bild 1).

    Doch bei aller Euphorie sollte man nicht vergessen, dass semantische Analysen vielfältig sind und nicht ein Toolkit alle Zwecke abdecken kann. So haben Dokumentanalysen zum Teil völlig unterschiedliche Zielstellungen, wie:

    • Extraktion von Eigenschaften (Metadaten) für die Verschlagwortung und für die Bereitstellung von Filterkriterien für die Suche
    • Klassifikation von Dokumenten nach bestimmten Kategorien
    • Finden semantischer Beziehungen zwischen Begriffen, Themen und verschiedenen Dokumenten
    • Automatischer Aufbau eines unternehmensspezifischen Thesaurus
    • Statistiken über verschiedenste Eigenschaften der Dokumentinhalte
    • Automatisches Übersetzen

    und anderes mehr.

    Deep Learning

    Bild 1: Deep Learning als moderne Form semantischer Analysen

    Deep Learning ist eine moderne Form semantischer Analysen. Zur Aufbereitung digitaler Dokumente gehören seit je her Analysen (oder neudeutsch „Analytics“). Neben der Untersuchung der Dokumentinhalte und ihrer sonstigen Eigenschaften zählt dazu auch die Analyse der Verwendung der Dokumente (Zugriffshäufigkeiten etc.). Texte werden mit verschiedensten Verfahren analysiert und bedeutungstragende Begriffe (Personennamen, E-Mail-Adressen, Produktbezeichnungen, Auftragsnummern etc.) extrahiert. Neben neuronalen Netzen werden hierfür auch klassische statische und regelbasierte Verfahren eingesetzt.

    Die Ergebnisse semantischer Analysen werden in einem Knowledge Graphen gespeichert. Er bildet die Wissensbasis für Assistenten und alle anderen Formen der Benutzerführung. Hieran wird deutlich, dass Analytics nicht auf die Visualisierung (Charts) statistischer Daten reduziert werden kann.

    Analytische Funktionen – angepasst an Anwendungsszenarien

    All diese neuen Möglichkeiten, die Deep Learning eröffnet, müssen nahtlos in einfach benutzbare Anwendungen integriert werden. Die verschiedenen Anwendungsszenarien erfordern dementsprechend unterschiedliche semantische Funktionen:

    Discovery & Monitoring: Um bei fortlaufenden Recherchen nicht immer die gleichen Tätigkeiten ausführen zu müssen, bietet es sich an, über hinterlegte Anfragen wiederkehrende Recherchen automatisch ablaufen zu lassen und die Rechercheergebnisse in einem Dashboard bzw. Cockpit oder in Reports automatisch zur Verfügung zu stellen (z.B. finde alles oder finde neues zum Thema XYZ). Die vorangegangenen Analysen stellen die relevanten Metadaten und Kategorien für solche Abfragen bereit.

    Exploration: Um sich einen großen und eher unbekannten Informationsbestand zu erschließen, wird eine Navigation anhand hierarchischer Strukturen benötigt. Filterketten (Facetten) und Visualisierungen der Strukturen, z.B. in Hyperbolischen Bäumen, sind dabei sehr hilfreich. Solche Strukturen sind schwer automatisch zu gewinnen, aber mittels Klassifikation lassen sich Dokumente in vorgegebene Strukturen automatisch einordnen.

    Ad-hoc-Suche: Die häufigste Form der Recherche ist die spontane Suche nach vermeintlich vorhanden Informationen. Suchprozesse lassen sich sehr gut durch Analyseergebnisse mit Hilfe von Assistenten und Empfehlungsmechanismen (Recommendations) steuern.

    Methodische Aspekte beim Erwerb von Strukturwissen

    Bisher gebräuchliche Vokabular-basierte Computerlinguistik-Methoden sind oft blind gegenüber neuen Aspekten in den analysierten Inhalten. Hingegen können Synonyme, verwandte Konzepte und begriffliche Analogien sehr gut mit Hilfe neuronaler Netze automatisch gelernt werden und für die Benutzerführung und Vorschlagsassistenten eingesetzt werden.

    Die Aufgabe besteht darin, automatisch gelernte Bergriffe und Zusammenhänge mit bekanntem Strukturwissen in Einklang zu bringen. Automatische Verfahren müssen auf unternehmensspezifischen Aspekten aufsetzen. Hierfür gibt es kein Patentrezept, aber ein grundsätzliches Herangehen. Im Mittelpunkt stehen Organisationsstruktur, Geschäftsprozesse, Themen und natürlich Personen im eigenen Unternehmen oder bei Geschäftspartnern. Erste Basisbeziehungen sind bereits in Datenstrukturen enthalten. Sie werden bei der Einbindung der Systeme auf ein systemübergreifendes Informationsmodell abgebildet. Die Organisationsstruktur lässt sich ebenfalls aus Verzeichnisdiensten oder ähnlichem ableiten. Lediglich wenige Grundkonzepte, die strukturübergreifend wirken und sich nicht aus vorhandenen Datenquellen gewinnen lassen, müssen in einem Informationsmodell explizit hinterlegt werden, sprich redaktionell gepflegt werden.

    Begriffe im Kontext „verstehen“

    Die Anwendung der durch Deep Learning erzeugten Wortmodelle lässt sich am besten an einem Beispiel verdeutlichen. Gibt ein Nutzer bei der Suche nach Informationen „Tor“ ein, kann man von diesem einzelnen Suchterm allein noch keine Rückschlüsse ziehen auf das, was der Nutzer mit Tor meint. Bei diesem Begriff kann ein konkretes Tor in einem Fußballspiel, ein Garagentor oder eine Sehenswürdigkeit gemeint sein. Analysiert man vor der Suche alle zur Verfügung stehenden Informationen (im vorliegenden Beispiel handelt es sich Zeitungsartikel), kann man diese unterschiedlichen Begriffsbedeutungen automatisch lernen und die in den vorhandenen Informationen tatsächlich enthaltenen Begriffe zum Thema dem Suchenden als Vorschlag für die Verfeinerung seiner Suche anbieten.

    Im Bild sind Begriffe mit unterschiedlichem Kontext verschiedenfarbig eingefärbt: blau – andere Flexionen von Tor, rot – Begriffe für Tor im Sinne von Tür/Eingang, grün – Tor im Kontext von Fußball (siehe Bild 2). Da es sehr viele Begriffe zu Tor im Kontext von Fußball gibt, hat sich noch ein lila Cluster gebildet, mit Sekundärbegriffen aus dem Kontext Fußball, die nur indirekt etwas mit dem Tor an sich zu tun haben.

    tor_20_cloud2purple-big_lemma-cbow

    Bild 2: Semantischer Kontext des Suchterms „Tor“

    tor_25_cloud_lemma-cbow

    Bild 3: Sekundarbegriffe aus dem Kontext „Fußball“

    Ist genau dieser lila Kontext von Interesse, wird man durch einen Klick auf einen der Begriffe zu einer erweiterten Wortwolke (Bild 3) geführt, die noch mehr Begriffe zu möglichen Informationen rund um den Fußball bietet. Der Suchende wird so trotz eines für eine zielgerichtete Suche unzulänglichen Suchbegriffs automatisch zu den in verschiedenen Kontexten vorhandenen Informationen gelenkt. Dieser Anwendungsfall von Deep Learning ist sehr einfach in eine Suche integrierbar und liefert einen hohen Nutzen, da alle notwendigen Kontextbeschreibungen automatisch erlernt werden.

    Fazit

    Deep Learning auf der Basis neuronaler Netze besitzt ein hohes Potential für die Analyse digitaler Inhalte. In Kombination mit anderen Analyseverfahren und dank der Leistungsfähigkeit heutiger Hardware lassen sich zunehmend wirtschaftliche Lösungen für die Unterstützung von Geschäftsprozessen realisieren.

    www.interface-business.de

    Dr. Uwe Crenze ist seit 1993 geschäftsführender Gesellschafter der in Dresden ansässigen interface:business Unternehmensgruppe. Die interface projects GmbH ist mit intergator ein führender deutscher Anbieter von Enterprise Search-Lösungen. intergator ist eine intelligente, systemübergreifende Suchmaschine, Wissensmanagement- und Analytics-Plattform. Die Suchlösung bietet eine effiziente Erschließung aller relevanten Informationen aus Millionen von Datensätzen.

    Quellen

    [1]              Vom Beratungsunternehmen Gartner geprägter Begriff für unbekannte und deshalb ungenutzte Informationen in einem Unternehmen.

    [2]              T. Mikolov, K. Chen, G. Corrado and J. Dean. Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781, 2013

    [3]              https://en.wikipedia.org/wiki/Word2vec