Quantensprung ins Intelligente Inputmanagement

 

Die smarte Kombination moderner KI-Technologien für kognitive Klassifikation und Extraktion erschließt völlig neue Sphären der Automatisierung.

 

Text: Dr. Darko Obradovic, Produktmanager KI-Technologien bei Insiders Technologies

 

Kognitive Klassifikatoren im Input Management setzen auf Deep Learning – und bringen so die Automatisierung von Geschäftsprozessen auf ein neues Level. Durch die intelligente Kombination unterschiedlicher KI-Verfahren und Technologien entstehen neue Lösungen, die ebenso vielfältig sind wie die Probleme, die sie lösen.

Unabhängig vom eigentlichen Kommunikationskanal erreichen ein Unternehmen heute Informationen in den unterschiedlichsten Formaten und Formen: unter anderem als Text, Bilder, Tabellen oder Formulare. Oft genug werden diese Formate noch bunt gemischt und letztendlich ist dies auch zielführend, denn eine Information lässt sich in einem bestimmten Format anders und besser ausdrücken als in anderen. Über die unterschiedlichsten Kanäle wie Papierpost, E-Mail, Apps oder Upload-Center erreichen Unternehmen fast aller Branchen zudem täglich unzählige unstrukturierte Dokumente wie beispielsweise Adressänderungen, Ausweiskopien, Anfragen, Mängelberichte mit Fotos, Urkunden und viele andere mehr.

Neuer Ansatz verbessert Qualität der Klassifikation

Die Zusammenführung der Kanäle an sich stellt dabei kein Problem dar: Nach dem Scannen der Papierpost liegt die gesamte Kommunikation in digitaler Form vor. Eine deutlich größere Herausforderung ist die Klassifikation der eingehenden, zunächst unstrukturierten Dokumente mittels geeigneter Erkennungssoftware und die Extraktion der für die Bearbeitung des Geschäftsvorfalls notwendigen Informationen. Die Qualität der maschinellen Klassifikation und Extraktion ist eine entscheidende Stellgröße im Input Management und Basis für einen effizienten Verarbeitungsprozess, da sie den Aufwand für eine manuelle Nachbearbeitung bestimmt und hohe Fehlerraten zu entsprechend vielen und teuren Folgefehlern in späteren Prozessen führen.

“Der neue hybride Klassifikator vereint die kognitiven Fähigkeiten wie Erkennen von Bildern, Lesen, Sehen von Strukturen und Layouts.”

Die Vielfalt an Formen und Formaten stellt für die maschinelle Klassifikation und Extraktion naturgemäß eine erhebliche Herausforderung dar. Seit Jahrzehnten arbeiten die meisten allgemeinen Klassifikatoren vorrangig auf Textbasis und insbesondere moderne, selbstlernende Verfahren können beachtliche Erfolge nachweisen. Allerdings besteht auch hier erhebliches Optimierungspotential bei bestimmten Inhalten. So ist die Textqualität für OCR bei freihändig mit dem Smartphone abfotografierten Dokumenten oft unzureichend, die OCR von Ausweiskopien ergibt nur kurze Textfragmente und manche Dokumente bestehen nur aus Bildern. Ein neuer Ansatz für einen hybriden kognitiven Klassifikator verspricht hier Abhilfe und bietet auch bei solchen Dokumenten hohe Erkennungsraten.

Kognitive Klassifikation orientiert sich menschlichen Fähigkeiten

Der hybride kognitive Klassifikator orientiert sich an der Vielfalt der menschlichen Fähigkeiten bei der Klassifikation von Dokumenten. Ein Mensch erkennt, ohne auch nur eine Zeile Text zu lesen, mit einem Blick, dass es sich bei einem Dokument um eine Arbeitsunfähigkeitsbescheinigung in der typischen gelb-roten Formularform oder um einen Personalausweis handelt. Intuitiv wird ein Mitarbeiter ein Schriftstück mit einem Foto von einem kaputten Produkt thematisch als Reklamation klassifizieren und so den Text – in einen bestimmten Kontext gesetzt – leichter verstehen können. Analog kombiniert auch der hybride kognitive Klassifikator eine Vielzahl von Fähigkeiten, abgebildet in unterschiedlichen Klassifizierungsverfahren für Bilder, Formulare oder Texte. Zudem können sie mit spezifischem Domänenwissen über den jeweiligen Anwendungsfall angereichert werden.

In den frühen Ansätzen der kombinierten textuellen und visuellen Klassifikation wurden zunächst Bild und Text getrennt voneinander interpretiert und dann basierend auf den Einzelergebnissen eine Klassifizierungsentscheidung getroffen. Die Ergebnisse waren bereits vielversprechend, aber das Verfahren machte sich die Zusammenhänge in den Informationen nicht zunutze.

Überzeugende Qualität dank Deep Learning

Der neue, von Insiders Technologies entwickelte hybride kognitive Klassifikator analysiert ein Dokument in einem Schritt als Ganzes und nutzt zusätzlich dabei spezifisches Domänenwissen aus dem jeweiligen Anwendungsgebiet. Der neue hybride Ansatz vereint dabei die kognitiven Fähigkeiten wie Erkennen von Bildern, Lesen, Sehen von Strukturen und Layouts. Bei Formularen nutzt er beispielsweise optische Indikatoren wie Linien, Raster oder Kästchen. Über typische visuelle Merkmale lassen sich Ausweisdokumente und Urkunden zweifelsfrei erkennen. Bildklassifikatoren können die Objekte von Fotographien treffsicher erkennen und voneinander unterscheiden.

Der hybride kognitive Klassifikator integriert also verschiedene Verfahren und führt die jeweiligen Stärken in einem gemeinsamen Deep-Learning-Algorithmus zusammen. Gerade aus dieser Kombination ergeben sich deutliche Leistungsverbesserungen: Wird beispielsweise über die Bildklassifikation sicher erkannt, dass es sich um ein abfotografiertes Formular handelt, fällt der textbasierte Klassifikationsteil leichter, weil bereits gelernt wurde, welche Daten dann in den einzelnen Formularfeldern zu erwarten sind. Die semantische Interpretation eines Textes fällt leichter, wenn das begleitende Bild treffsicher einem bestimmten Thema zuzuordnen ist – wie im oben genannten Beispiel mit den Fotos in Reklamationen im Kundenservice.

Gemeinsames Training der kognitiven Fähigkeiten

Dieser hybride neue Ansatz ist allen bisherigen Ansätzen deutlich überlegen und erreicht die derzeit höchste Erkennungsqualität. Besonders bemerkenswert ist, dass reale Kundenszenarien zeigen, dass der kognitive Klassifikator von Insiders Technologies auch spezialisierte Bildklassifikatoren schlägt. Der Grund hierfür liegt im gemeinsamen Training der kognitiven Fähigkeiten. Trainiert man einen Bildklassifikator alleine, so muss er im Training versuchen, auch alle für ihn nicht unterscheidbaren Textdokumente zu lernen, wodurch sich seine Leistung auf den gut geeigneten visuellen Dokumenttypen verschlechtert. Beim Training des kognitiven Klassifikators wird in diesen Fällen sofort erkannt, dass ein Dokumenttyp nur über den Text erkennbar ist. Diese Aufgabe wird dann alleine der textbasierten Fähigkeit überlassen, und dadurch werden die visuellen Fähigkeiten in diesem Fall gar nicht erst belastet.

Bei den meisten Textdokumenten ist der kognitive Klassifikator auch gegenüber spezialisierten Textklassifikatoren dank seiner zusätzlichen Fähigkeit der visuellen Mustererkennung überlegen, z.B. durch das Erkennen von eher unscheinbaren Linien auf Formularen oder dem typischen Layout der Textblöcke auf einem Geschäftsbrief. Im Ergebnis ist mit dem kognitiven Klassifikator in vielen Anwendungsgebieten nahezu eine Halbierung des manuellen Korrekturaufwandes und eine Verdoppelung der Produktivität möglich.

Innovation durch Kombination von KI-Technologien

Was sich hier im Input Management mit dem hybriden kognitiven Klassifikator herauskristallisiert hat, gilt insgesamt für die gesamte Künstliche Intelligenz: Die Zukunft der KI ist Vielfalt. Überall auf der Welt entstehen derzeit neue, innovative Verfahren, die in der Zukunft sehr viel stärker miteinander kombiniert werden, um immer komplexere Problemstellungen lösen zu können. Aktuelle Konzepte sind hier das Multimodale Lernen und Multi-Task Learning. Gerade die Fähigkeit, verschiedene kognitive Verfahren und Lösungsansätze zu kombinieren, zeichnet den Menschen als universellen Problemlöser aus. Wie in der natürlichen Intelligenz sorgt die Vielfalt der Ansätze auch in der Künstlichen Intelligenz dafür, die Nachteile einzelner Verfahren durch intelligente Kombination ausgleichen zu können.

Softwaretechnisch ist die Grundlage dafür eine konsequente Plattform-Strategie, wie Insiders Technologies dies mit der Cognitive Process Automation Platform vorgestellt hat. Motor der hier auf einer einzigen Plattform bereitgestellten Services sind bewährte KI-Verfahren und neue Deep-Learning-Technologien wie Convolutional, Recurrent und Graph Neural Networks, Transformer Models, Active Learning, Natural Language Processing, Multi-Layer Perception oder Support Vector Machines. Auf dieser Basis bietet die Plattform neben Out-of-the-Box-Lösungen für spezielle Use Cases auch die Werkzeuge, um spezifische KI-basierte Automatisierungsservices im Low-Code-Verfahren – sprich durch Konfiguration statt Programmierung – zu konzipieren, umzusetzen und zu testen.

Résumé

An welche Geschäftsprozesse man auch denkt – die allermeisten werden durch irgendeine Art von Dateninput oder Eingangsdokument angetrieben, welche maschinell verstanden werden müssen, um den Prozess zu automatisieren. Mit der smarten Kombination moderner KI-Technologien für kognitive Klassifikation und Extraktion kann intelligentes Input Management in völlig neue Sphären der Automatisierung vordringen. Ergänzt um Conversational Intelligence lässt sich auch die dazugehörige Kommunikation unterstützen und automatisieren. Hier sind in den nächsten Jahren spannende Fortschritte und Erfolge zu erwarten. Freuen wir uns darauf!

www.insiders-technologies.de   Insiders Technologies ist technologisch führender und marktetablierter Anbieter von Software zur Cognitive Process Automation. Mehr als 3.000 Kunden aus allen Branchen vertrauen bei der Optimierung ihrer dokumentzentrierten Geschäftsprozesse auf die Lösungen des Produkthauses aus Kaiserslautern. Als erfolgreichstes Spin-Off des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) hat es sich Insiders zur Aufgabe gemacht, modernste KI in echten Kundennutzen zu überführen.