Der Hype um die Künstliche Intelligenz ist wieder einmal voll entfacht. Richten wir den Fokus auf einen Teilaspekt der KI, der Anwendung des Maschinellen Lernens im Informationsmanagement. Das Maschinelle Lernen unterscheidet sich vom klassischen Programmieren dadurch, dass Lösungen nicht durch einen ausprogrammierten Algorithmus gefunden werden, sondern dass in Daten Muster erkannt – sprich gelernt werden. Die erlernten Mustererkennungsstrategien werden in einem Modell repräsentiert, welches anschließend für die Erkennung solcher Muster in neuen Daten verwendet wird. In jüngster Zeit hat insbesondere die Simulation kognitiver Prozesse mittels Neuronaler Netze die Tür zu neuen Anwendungsfällen für diese „Wissens-Modelle“ aufgestoßen.
Dr. Uwe Crenze, geschäftsführender Gesellschafter der interface:business Unternehmensgruppe
Search & Analytics – der Weg aus dem Content-Chaos
In der Kombination einer Datenquellen-übergreifenden Suchlösung mit auf große Datenmengen ausgelegten Analysemethoden liegt ein großes Potenzial für eine qualitativ neue Ausrichtung im Informationsmanagement. Durch die Anbindung aller relevanten Systeme an eine unternehmensweite Suche, werden die in ihnen gespeicherten Informationen über einen einzigen Zugangspunkt für die Nutzer zugreifbar. Diese Vorgehensweise liefert einen enormen Zeit- und Qualitätsgewinn in der Bearbeitung wissensintensiver Geschäftsprozesse. Ein solcher Information-Hub (oder Single Point of Information Access) ist gleichzeitig die Basis für eine systemübergreifende Analyse der Daten und Informationen. Aus diesem Grund wird gern in einem Zug von Search & Analytics gesprochen.
Häufig wird Analytics auf die Visualisierung von Analyseergebnissen in Form von Charts reduziert. Allerdings ist die vorausgehende Analyse der eigentlich entscheidende Punkt. Denn im Rahmen solcher Analysen werden aus unstrukturierten Informationen Metadaten (Entitäten) und inhaltliche Zusammenhänge extrahiert, Informationen nach Thema und Dokumentkategorie klassifiziert und statistische Auffälligkeiten über all diese Aspekte hinweg ermittelt.
Durch diese Analysen werden Texte mit mathematischen Verfahren auswertbar, ähnlich dem Vorgehen bei der Analyse von strukturierten Datenbankinhalten. Diese Fähigkeit der auswertenden Systeme erweist sich zunehmend als entscheidend, da bei dem rasanten Zuwachs an nicht in Datenbanken vorliegenden Daten Analyseverfahren immer wichtiger werden. So gehen, nach einer Studie der AIIM aus dem Jahr 2016 [1], 53 Prozent der Befragten davon aus, dass Content Analytics der einzige Weg ist, um das Content-Chaos unter Kontrolle zu bekommen.
Maschinelles Lernen – mit Fehlern rechnen
Eine der wichtigsten Methoden für diese Inhaltsanalysen ist Maschinelles Lernen. Doch Maschinellem Lernen zu vertrauen bedeutet, Mut zur Lücke zu haben. Da es unzählige Kombinationen von Datenmustern gibt, kann ein Lernverfahren keine hundertprozentige Lösung liefern. Es ist verfahrensbedingt mit einer Fehlerquote von fünf bis 40 Prozent zu rechnen. Dabei nehmen mehrere Faktoren Einfluss auf deren Höhe:
- Datenqualität – für das Lernziel ungeeignete und unsinnige Daten verschlechtern das Lernergebnis enorm. Hier gilt der Fakt: „Garbage in, garbage out!“
- Repräsentative und qualitativ hochwertige Trainingsdaten, die z.B. eine zu erlernende Klasse von Dokumenten möglichst vollständig beschreiben und gut genug von anderen Klassen abgrenzen, sichern ein möglichst valides Lernergebnis.
- Geschickte Kombination unterschiedlicher Verfahren – unter Einbeziehung von Heuristiken, basierend auf einer umfassenden methodischen Erfahrung in der Umsetzung von Textanalysen. Hierzu gehört die Auswahl der zielführenden linguistischen Vorverarbeitung der Texte, Entscheidungen über die Einbeziehung von Phrasen, Entitäten und semantischen Konzepten, die Einstellung geeigneter Parameter aus der Kenntnis des Verhaltens der Algorithmen, die Bestimmung und Bereitstellung der notwendigen Hardwareressourcen und schließlich ausreichend Erfahrung in der Bewertung der Ergebnisse.
Diese genannten Punkte zeigen überzeugend auf, dass Maschinelles Lernen allein für viele Aufgabenstellungen nicht ausreichend ist.
Zuverlässige Lernprozesse auf Basis von Begriffssystemen
Das angestrebte Ziel für den Einsatz von KI-Methoden im Informationsmanagement (und semantischen Verfahren im Allgemeinen) liegt in der Bereitstellung eines smarten Assistenten für eine wissensbasierte Unterstützung der Nutzer bei der Suche nach Informationen. Die Grundlage dafür bildet eine vorausgehende semantische Erschließung aller Informationen – oft auch als Verschlagwortung bezeichnet. Hierzu gehören die Erkennung von Personen und Namen von Organisationen sowie die Identifikation von Themen und Konzepten. Es geht also um die Erkennung und Einordnung aller Fachbegriffe, die in den jeweiligen Geschäftsprozessen relevant sind.
Die Herausforderung bei solchen Verfahren besteht in deren Abstimmung auf die konkreten Kontexte in einer Organisation. Erst dann kann die Bedeutung eines Wortes korrekt ermittelt werden. Kommt z.B. in einem Dokument der Begriff „Protokoll“ vor, kann damit eine Mitschrift einer Besprechung gemeint sein oder die Kommunikation zwischen zwei technischen Systemen. Der Begriff „Protokoll“ muss also hinsichtlich des Kontextes, in den er eingebettet ist, analysiert und dem semantischen Konzept „Schriftstück“ oder „Kommunikationsprotokoll“ zugeordnet werden. Dieser Vorgang ist entscheidend für die Qualität der semantischen Annotation. Alle weiteren Verfahren hängen schließlich von der Qualität der Inhaltserschließung ab.
Eine KI-Lösung geht grundsätzlich genauso vor, wie ein Mensch. Der Mensch erfasst die Bedeutung eines Begriffs ebenfalls durch seinen Kontext, der durch andere Begriffe im Text gebildet wird. Ein Mensch kann das aufgrund erlernter Erfahrung. Die Maschine benötigt für den Lernprozess ebenfalls Hintergrundwissen. Dieses Hintergrundwissen muss in Form von unternehmens- oder branchenspezifischen Begriffssystemen, verschlagworteten Beispieldokumenten oder mit Hilfe globaler Begriffssysteme (wie z.B. der Wikipedia) „gefüttert“ werden. Mit auf diesem Fundament trainierten Modellen können schließlich die Informationen analysiert werden.
Technische Lösungen mit breitem Anwendungsspektrum
Die auf Maschinellem Lernen basierenden technischen Lösungen sind sehr breit gefächert:
Zum einen dient Klassifikation dazu, Informationen (bzw. Dokumente) automatisch in einen Ordnungsrahmen einzubringen. Am bekanntesten ist Klassifikation im Zusammenhang mit der Erkennung von Spam-E-Mails. Weitere Beispiele sind der elektronische Posteingang, bei dem digitale bzw. gescannte Dokumente einer Abteilung zur Bearbeitung zugeordnet werden, die Bestimmung von Dokumentkategorien (Vertrag, Protokoll etc.) oder die Erkennung von Objekten auf Bildern. Ein Spezialfall ist dabei die Erkennung von Gesichtern, was u.a. bei der Ordnung einer Fotosammlung sehr praktisch ist. Natürlich wirkt sich die Klassifikation auch auf die Verbesserung der Suche aus. Ein Suchergebnis kann so einfach nach Kategorien und Themen separiert werden.
Zum anderen sind Empfehlungen ein wichtiges Instrument für die Unterstützung des Suchprozesses. Bei der Sucheingabe werden u.a. aus den ersten Buchstaben eines eingegebenen Suchbegriffes Vorschläge zur Vervollständigung des Suchbegriffes gemacht oder alternative Suchbegriffe oder Themen-Konzepte vorgeschlagen. Auch können durch die Analyse des Suchergebnisses Vorschläge für die Benutzung relevanter Filter zum Einschränken des Suchergebnisses gemacht werden oder Hinweise zu mutmaßlich wichtigen Treffern gegeben werden, unabhängig von ihrer Stelle im Suchergebnis.
Eine sinnvolle Erweiterung stellt zudem die Personalisierung von Empfehlungen dar. Hierfür werden bereits in der Vergangenheit ausgewählte Dokumente und der Nutzerkontext (z.B. Abteilung, Verantwortlichkeiten etc.) bei den Analysen mit herangezogen. Auch können Suchtreffer anderer Teammitglieder potenziell interessant sein. So bekommt beispielsweise ein Nutzer bei der Eingabe von „d“ „deep learning“ vorgeschlagen, weil ein Teammitglied schon nach „deep learning“ gesucht hat.
Als weitere technische Anwendung hat die Semantische Suche ein anderes Hauptziel: Texte finden, in denen der Suchbegriff gar nicht vorkommt. Hierfür müssen dem Suchbegriff alternative Begriffe im Text oder Konzepte zugeordnet werden. Das Finden semantisch ähnlicher Dokumente dagegen entspricht einer Suche durch die Vorgabe bzw. die Auswahl eines Beispieldokuments (Query by Example). Die Herausforderung besteht hier darin, auf den Aspekt Einfluss zu nehmen, der sich dabei durchsetzen soll (inhaltlicher Aspekt, Dokumenttyp etc.).
Ein gibt zahlreiche weitere Anwendungsgebiete für auf Neuronalen Netzen basiertes Maschinelles Lernen, u.a. im Bereich des Übersetzens von Texten oder der Erkennung von Sprache (Voice-to-Text). Trotz sehr großer Fortschritte auf diesen Gebieten wird es noch geraume Zeit dauern, bis eine Spracheingabe universell verwendbar und der Texteingabe ebenbürtig ist.
Unterstützung von Geschäftsprozessen
Die oben skizzierten technischen Lösungen müssen letztendlich in Geschäftsprozesse integriert werden, um Nutzen stiften zu können. Beispiele solcher Anwendungsfelder sind:
- Virtuelle Projektakten, in denen alle Informationen zu einem Projekt aus unterschiedlichen Systemen auf der Basis analysierter Gemeinsamkeiten zusammengefasst werden
- Skill-Management/Expertenfinder – die Vermittlung von Erfahrungsträgern und Themenverantwortlichen aus der Suche heraus, da oft neben Inhalten auch die dazugehörigen Ansprechpartner gesucht werden
- Monitoring von Compliance und Governance-Aspekten im Rahmen des Risikomanagements
Dies sind nur wenige Beispiele, wie Maschinelles Lernen in Form intelligenter Applikationen Geschäftsprozesse unterstützen kann. Als Alternative zu komplizierten und monolithischen Applikationen können auf dem Fundament semantischer und weitestgehend selbstoptimierender Fachanwendungen beachtliche Effektivitätssteigerungen im Informationsmanagement erzielt werden.
Fazit
Die technische Unterstützung des Informationsmanagements durch Maschinelles Lernen hat in letzter Zeit einen großen Aufschwung erfahren, der sich verstetigen wird. Der Schlüssel zum Erfolg liegt in der Kombination einer systemübergreifenden Suche mit Hintergrundwissen in Form eines Unternehmensvokabulars und modernen Verfahren der Textanalyse auf der Basis Neuronaler Netze.
Komponenten eines semantischen Informationssystems
Dr. Uwe Crenze ist seit 1993 geschäftsführender Gesellschafter der in Dresden ansässigen interface:business Unternehmensgruppe. Zu ihr gehört die interface projects GmbH, die mit intergator ein führender deutscher Anbieter von Enterprise Search-Lösungen ist. intergator ist eine intelligente, systemübergreifende Suchmaschine, Wissensmanagement- und Analytics-Plattform.
Quelle
[1] AIIM Trendscape: Content Analytics, http://info.aiim.org/content-analytics-trendscape, 2016