Autor – Florian Laumer, Lead Consultant bei Computacenter
RPA und KI werden immer öfter im gleichen Kontext erwähnt: Beide Technologien werden als Wunderwaffe angepriesen, um Unternehmensprozesse bzw. einzelne Tasks zu optimieren. Bei RPA geht es in erster Linie darum, Geschwindigkeit, Qualität und Mitarbeiterzufriedenheit zu optimieren. Das Problem mit der KI ist – kurz gesprochen -, dass sie kompliziert und schnelllebig ist. In letzter Zeit wurden enorme Fortschritte bei der Verarbeitung von Sprache, maschinellem Lernen oder Bilderkennung gemacht.
Anschaulich wird der Zusammenhang zwischen RPA und KI anhand der Darstellung von einigen konkreten Anwendungsfällen. Um einen Aspekt gleich vorweg zu nehmen: RPA Prozesse werden immer nur so intelligent sein, wie diese vom Menschen „erschaffen“ werden. Grundlage sind der bestehende – und meistens auch für RPA anzupassende – Prozess und das entsprechende „Wissen“. Die Automatisierung einzelner Tasks ist die erste RPA-Hürde und der Einsatz von KI kann dabei eine durchaus stark unterstützende Technologie darstellen.
Wie sieht RPA konkret aus – und wozu wird KI benötigt?
Robotic Process Automation hat, wie jede andere Technologie, ihre Grenzen. Für den richtigen Prozess oder Task eingesetzt, mag ein Software-Roboter zwar wesentlich produktiver sein als ein menschlicher Mitarbeiter, jedoch fehlen ihm komplett dessen kognitive Fähigkeiten. So ist es für einen Menschen sehr leicht, VDI-Clients zu bedienen, eine Handschrift zu erkennen, eine Rechnung oder Bewerbung anhand bestimmter Merkmale wie etwa durch Schlagworte oder über ein bestimmtes Format dem entsprechenden Unternehmensbereich zuzuordnen oder weitere Bewertungen vorzunehmen.
In einer gereiften IT, vor allem in Großunternehmen, lauern daher einige Fallstricke, die das vermeintlich einfache RPA-Automatisierungsprojekt schnell zu einem Hürdenlauf machen können. Die entscheidende Frage stellt sich demnach folgendermaßen: Wie können KI und Maschine Learning bei der Realisierung von Robotic-Process-Automation-Projekten unterstützen?
Use Case 1 – KI für Virtuelle Umgebungen
In vielen Unternehmen sind virtuelle Umgebungen mittlerweile ein integraler Bestandteil der IT-Landschaft. Das Arbeiten mit virtualisierten PCs bietet nicht nur eine höhere Sicherheit, sondern auch betriebswirtschaftliche Vorteile. Da der vom Mitarbeiter genutzte PC nur noch als Ein- und Ausgabegerät dient, die durch eine Anwendung verursachte Rechenlast nur auf einem zentralen Server anfällt, kann auf kostengünstige Endgeräte zurückgegriffen werden. Je nach eingesetztem Virtualisierungsprodukt lässt sich zum Beispiel auch das Kopieren von Dateien unterbinden. Dies stellt eine zusätzliche Hürde für den Missbrauch unternehmenskritischer Daten dar.
So viele Vorteile diese Technologie in dieser Hinsicht auch bieten mag, die Prozessautomation mittels RPA kann sie auf der anderen Seite erheblich erschweren. Der Grund hierfür ist, dass der Virtualisierungsdienst nur Screenshots der GUI an den Client überträgt. Für einen Mitarbeiter macht dies kaum einen Unterschied in der Bedienung der Anwendungen. Im Gegensatz zu den Software-Robotern: Da diese auf die Identifier eines Anzeigeelements angewiesen sind, um eine Oberfläche zu bedienen, kann diese Vorgehensweise hier nicht angewendet werden. Aber die am Markt verfügbaren RPA-Systeme nutzen in der Regel die eindeutigen Control-Identifier einer Applikation oder einer Webseite. Bei einer Virtualisierungsumgebung, bei der lediglich Bildinformationen vorliegen, fehlt diese grundlegende Identifizierungsmöglichkeit.
Um nun virtuelle „Mitarbeiter“ zu befähigen, auch komplexere Aufgaben ver-richten zu können, ist es erforderlich, diese mit einem Mindestmaß an Intelligenz auszustatten. Diese nächste Stufe der Automatisierung wird auch als Intelligent Process Automation (IPA) bezeichnet. Hierfür wird Robotic Process Automation mit Machine-Learning-Technologie kombiniert. Diese Symbiose ertüchtigt einen Software-Roboter beispielsweise mittels Image-Processing, eine virtuelle Umgebung zu bedienen.
Für die Automatisierung innerhalb virtueller Umgebungen bietet beispielsweise der RPA-Anbieter UiPath verschiedene Lösungsansätze: Neben den Recordertypen für Web- und Desktopapplikationen wird zusätzlich ein Aufzeichnungsmodus für Citrix-Umgebungen zur Verfügung gestellt. Der Nativ-Citrix-Recorder ist äquivalent zum Desktop-Recorder und bietet einen nahezu identischen Funktionsumfang. Für die Aufzeichnung von Prozessen in anderen virtualisierten Umgebungen wie VNC, klassischen virtuellen Maschinen oder auch SAP kann auf den Image-Recorder zurückgegriffen werden. Dank Bildanalysealgorithmen und OCR-Technologie funktioniert somit die Prozessautomatisierung in virtuellen Umgebungen mit einigen wenigen Einschränkungen fast genauso gut wie in einer physischen Umgebung. Die Identifikation der zu bedienenden Elemente erfolgt je nach Verfahren entweder über die Bildschirmposition oder über den zuvor ausgewählten Bildausschnitt. Eine Entnahme von Textinformationen mittels sogenannter Screen Scraping Module ist ebenfalls möglich.
Diese Technik ist nicht nur für den Umgang mit virtuellen Umgebungen relevant, sondern ebenso ein wichtiger Bestandteil von Datenmigrations- und Integrationsszenarien. Es erlaubt modernen Anwendungen, mit alten Anwendungen zu kommunizieren, die über keine API verfügen, und ist die Ergänzung zur Dateneingabeseite der Automatisierung.
Neben einer einfachen Möglichkeit zum Auslesen von angezeigten Informationen sind auch effiziente Oberflächenautomatisierungswerkzeuge für virtuelle Umgebungen extrem wichtig. Hierfür stellt zum Beispiel UiPath eine Funktion mit dem Namen „Computer Vision“ zur Verfügung. Dies ermöglicht es den Software-Robotern, den Bildschirm zu „sehen“ und alle Elemente visuell zu identifizieren, anstatt sich auf ihre versteckten Eigenschaften, IDs und anderen Metadaten zu verlassen. Um dies zu ermöglichen, kommen eine Reihe von Technologien wie AI, OCR und Text-Fuzzy-Matching zum Einsatz. Diese enthalten grundlegende UI-Automationsaktivitäten für Maus- und Tastaturbefehle.
Auch wenn die „Computer Vision“ Engine primär für den Einsatz in VDI-Umgebungen entwickelt wurde, ist sie nicht darauf beschränkt. Die Technik erkennt Elemente auch in Fällen, in denen herkömmliche Methoden der Benutzeroberflächenautomatisierung an ihre Grenzen stoßen, darunter SAP, Flash, Silverlight oder Mainframe Systeme. Im Zusammenspiel mit den integrierten AI-Komponenten lässt sich dadurch eine sehr hohe Genauigkeit erzielen.
Der Hauptunterschied zwischen den „Computer-Vision“-Aktivitäten und ihren klassischen Pendants besteht in der Verwendung eines neuronalen Netzwerks. Sämtliche Aktivitäten innerhalb der Computer Vision Activities Pack funktionieren nur innerhalb eines Computer Vision-Screen Scopes. Dieser stellt die erforderliche Verbindung zum Server mit dem neuronalen Netzwerk her. Um eine Aktion wie etwa einen Doppelklick zum Öffnen einer bestimmten Datei oder Anwendung auszuführen, ist es erforderlich die entsprechende Aktivität innerhalb des Computer Vision-Screen Scopes zu platzieren. Die Selektion des Zielelements erfolgt zweistufig. Zunächst wird die Umgebung, zum Beispiel eine Citrix-Session, ausgewählt, in welcher die Aktion ausgeführt werden soll. Der hier erstellte Screenshot wird dann an die Neural-Network-API übermittelt und dort ausgewertet. Im Ergebnis lassen sich die einzelnen UI-Elemente, wie Verknüpfungen oder Menüs, auswählen und bedienen wie in einer nativen Umgebung.
Ein weiterer großer Vorteil ist es, wenn die Systeme aktualisiert, gepatcht oder anderweitig angepasst werden. Generell lag damit jede erstelle Automatisierung brach und der RPA Prozess lief auf eine Exception. Diese zu erkennen und zu beheben ist zeitaufwendig und teuer und wird durch aktuell ausgereifte KI verhindert.
Use Case 2 – KI und OCR
Die Idee des papierlosen Büros ist nach wie vor ein ferner Traum – und wird es auch bleiben. Ebenso haben sich Filesysteme nicht in Luft aufgelöst, seit es SharePoint gibt. Ein weiterer einfacher, aber häufig gefragter Use Case ist demnach das Verarbeiten von eingescannten Dokumenten wie etwa Rechnungen mittels OCR. Zwar sind OCR-Technologien schon sehr lange am Markt verfügbar, werden heute jedoch mit KI in Verbindung gebracht und beherrschen gleich mehrere Fähigkeiten: Erkennung von benannten Entitäten, Sentiment Analyse, intelligente optische Zeichenerkennung, natürliches Sprachverständnis, Übersetzungen und maschinelles Lernen.
Von Seiten der öffentlichen Verwaltung erhält RPA gerade großes Interesse, beispielsweise wenn es darum geht, Fördermittelbescheide für E-Autos zu genehmigen und deren Zuschüsse auszuzahlen. Denn die sehr repetitiven und fehleranfälligen Tätigkeiten wie das Kopieren einer Aktennummer von einem Legacy-System in ein anderes können mit RPA sehr gut optimiert werden. Außerdem, ist in einem Bundesland die Anzahl der Förderanfragen von 7200 auf 28800 im Jahr angestiegen.
Mittels Optical Character Recognition (OCR) lassen sich die digitalisierten Dokumente in ein für Roboter verarbeitbares Format wandeln. Die RPA-Komponente kann dann wiederum dazu eingesetzt werden, die Rechnungsinformationen in ein anderes System, wie zum Beispiel SAP, zu übertragen, um einen Buchungsvorgang durchzuführen. Rechnungen enthalten zwar in der Regel ähnliche Informationen, sind aber meist unterschiedlich aufgebaut. Mittels eines trainierten Modells, welches Informationen über bereits bearbeitete Rechnungen enthält, lassen sich so die erforderlichen Informationen auslesen.
Machine Learning wird in diesem Kontext ebenfalls für das Erkennen von Anomalien eingesetzt. Regelmäßig wiederkehrende Buchungen, welche einem bestimmten Muster entsprechen, können durch das System komplett autonom bearbeitet werden. Weicht eine Rechnung in bestimmten Kriterien von dem gelernten Schema ab, wird diese durch das RPA-System zur Kontrolle an einen Mitarbeiter delegiert. Diese Form der Zusammenarbeit wird auch als „Human-Handover“ bezeichnet. Deklariert der Mitarbeiter die Rechnung als rechtmäßig, können Buchungen dieses Typs bei Bedarf in der Zukunft ebenfalls vollautomatisch bearbeitet werden.
Prinzipiell funktionieren die integrierten OCR-Engines sehr gut, jedoch ist es zu empfehlen, immer eine Einzelfallbetrachtung mit entsprechenden Tests durchzuführen. Vor allem cloudbasierte OCR-Technologien sind in der Performance den lokalen Installationen noch hinterher. Die Extraktion von Textinformationen direkt aus einem PDF stellt in der Regel keine besondere Herausforderung dar. Anders sieht es beispielsweise beim Einlesen gescannter Dokumente aus. Hierbei kommt es sehr stark auf Faktoren wie Auflösung, Kontrastverhältnis, Schriftart und Farbe an, und ob es sich um ein handschriftlich oder maschinell erstelltes Dokument handelt.
Use Case 3 – NLP und Cognitive Activities
Ein weiteres denkbares Einsatzszenario ist die Bearbeitung von Tickets oder die Analyse von Bewertungen in Webportalen. Viele Unternehmen setzen Ticket-Systeme zur Nachhaltung von Anforderungen oder Problemen ein. Im Retail-Umfeld werden Systeme dieser Art häufig auch für Reklamationen oder das Beschwerdemanagement verwendet. In der Regel enthalten Tickets jedoch unstrukturierte Textinformationen. Damit ein Software-Roboter eine Kundenreklamation der verantwortlichen Abteilung zuordnen kann, muss er den Inhalt des Tickets zunächst „verstehen“- und dazu kann Natural Language Processing (NLP) eingesetzt werden. Bei NLP handelt es sich um einen Teilbereich des Machine Learning, welcher sich damit beschäftigt natürliche Sprache zu erfassen und mithilfe von Regeln und Algorithmen zu verarbeiten. Diese Disziplin vereint verschiedene Methoden der Sprachwissenschaften und kombiniert diese mit den Erkenntnissen moderner Informatik, um eine maschinenbasierte Verarbeitung von unstrukturierten Texten zu ermöglichen.
Eine grundlegende Voraussetzung für ein funktionierendes Zusammenspiel zwischen AI-Services und Robotic Process Automation ist die einfache Integrationsmöglichkeit. Um eine möglichst einfache Integration kognitiver Funktionen in einen RPA-Flow zu ermöglichen, stellt beispielsweise UiPath ein Cognitive Activitiy Pack bereit. Dieses unterstützt bei der Verwendung die Cognitive-APIs von Google, Stanford, IBM und Microsoft. Auf diesem Weg lassen sich Texte beispielsweise einfach übersetzen oder analysieren.
Sämtliche Aktivitäten setzen einen API-Key voraus, der vom jeweiligen Anbieter der Services zu beziehen ist und anschließend in den Eigenschaften des Elements konfiguriert werden muss. Je nach Aktivität ist es erforderlich, weitere Konfigurationsparameter, wie etwa die Ausgangssprache und die gewünschte Zielsprache, festzulegen. Der zu übersetzende oder zu analysierende Text kann beispielsweise einer E-Mail, einem PDF oder einer einfachen Textdatei entstammen. Ein denkbares Einsatzszenario für diesen Service könnte die automatisierte Übersetzung von Kunden-E-Mails sein. Statt des Mitarbeiters, welcher den E-Mail-Text in einen Übersetzungsdienst kopiert, könnte dies im Vorfeld automatisiert durch einen Roboter erfolgen. Der Mitarbeiter spart sich diesen Arbeitsschritt und erhält eine neue Nachricht mit dem Originaltext sowie der Übersetzung. Auch wenn das maschinelle Übersetzen von Texten eine Menge Zeit sparen kann, eignet es sich nicht zwangsläufig für jedes Szenario. Die Ergebnisqualität ist stark von Faktoren wie Ausganssprache und Zielsprache abhängig. Eine Übersetzung vom Spanischen ins Italienische funktioniert besser als eine Übersetzung vom Chinesischen ins Italienische. Zudem handelt es sich um Cloud-Dienste, was die Menge der in Frage kommenden Einsatzgebiete für die meisten Unternehmen nochmal deutlich reduzieren sollte.
Use Case 4 –
Die selbstlernenden KI-Roboter
Folgendes Statement hört man immer wieder: „Jeder Prozess, der automatisiert werden kann, soll auch automatisiert werden.“ Doch – ganz konkret gefragt: Wo soll die Umsetzung dieser Forderung konkret beginnen? Die Hauptaufgabe, die sich daran anschließt, ist die Identifizierung und Analyse der zu automatisierenden Prozesse bzw. Tasks und das Festlegen der Reihenfolge, in der sie durchgeführt werden sollen. Sind alle Kriterien für eine Automatisierung gegeben, erfolgt anschließend die Entscheidung der zum Einsatz kommenden attended und unattended Robots und deren Kombination mit der menschlichen Interaktion
Normalerweise ist das Centre of Excellence (CoE) in Kombination mit den Fachleuten für die einzelnen Geschäftseinheiten bei diesem Prozess federführend. Ein Center of Excellence (CoE) ist im Wesentlichen der Weg, um RPA und dessen Automatisierung tief und effektiv in die Organisation zu verwurzeln und das gesammelte Wissen und die Ressourcen über zukünftige Bereitstellungen hinweg weiterzuverteilen.
In diesem Zusammenhang steigt der Wert von Processmining-Anbieter wie Celonis und anderen Anbietern zunehmend. Ziel der Prozessverbesserungsteams ist es, Prozessabläufe nicht nur analog (z.B. durch Workshops und Interviews) zu identifizieren, Engpässe zu erkennen, oder auch Ausnahmen zu bewerten. Der Zweck ist es, den optimalen Weg durch den Prozess zur Maximierung der Effizienz und Qualität zu erreichen.
RPA-Anbieter wie UiPath arbeiten hier daran, die Ausgabe der Celonis-Aktivität von einer Prozessabbildung mittels eines XAML-Skript, in ein RPA XAML-Skript umzuwandeln, das zu einem Roboter wird. Also die Entwicklung von „selbstbauenden“ Roboter. Natürlich sind diese Robots innerhalb des ROC (Robotics Operation Centers) in der erstellen Governance noch abzunehmen und freizugeben. Ein ROC ist eine auf RPA ausgerichtete Unternehmenseinheit, dass sich um den Betrieb, Wartung, Security und der Governance von RPA-Roboter und der Automatisierung neuer Prozesse kümmert.

Ziel ist es also, dass das System überwacht, was der menschliche Benutzer tut und auf diese Weise den optimalen Weg identifiziert. So werden wiederholende Aktivitäten erkannt und erstellt dann wie weiter oben erläutert automatisch einen Roboter. Dies ist das ultimative Endspiel, wenn es um die Benutzerfreundlichkeit dieser Art von Technologie geht.
Ebenfalls ein weiterer großer Schwerpunkt ergibt sich dadurch, das dazugehörige Identitymanagement und die Authentifizierung über die Zugangsdaten des Robots an den jeweiligen Systemen. Anbieter wie CyberArk bieten hierzu durchgängige Lösungen für Privileged Access Security Wenn Sie also die Roboter mit dem UiPath Orchestrator verwalten, können Sie standardmäßig den Roboter mit den Windows-Anmeldedaten (Benutzername und Passwort) des Benutzers bereitstellen, den er zur Verbindung mit der Maschine verwendet. Doch um dem noch einen draufzusetzen und es zu ermöglichen, diese von einem Anmeldespeicher eines Drittanbieters zu erhalten, können Sie sie diese auch im CyberArk „Enterprise Password Vault“ speichern, um eine erhöhte und privilegierte Zugangsdatenverwaltung zu erhalten.
Darüber hinaus gibt es einen weiteren Aspekt des Prozessgeschehens: das Verständnis, was passiert, wenn sich (unvermeidlich) Prozesse oder Geschäftsregeln ändern sowie Technologien gepatcht oder ersetzt werden. In diesem Fall sehen sich RPA-Anbieter und Processminer die Prozesse an, um jede Zunahme von Ausnahmen zu erfassen. Und dann wird die Automatisierungsplattform den Roboter neu konfigurieren, um die neuen Anforderungen des Prozesses (automatisch) zu implementieren. Das sind selbstheilende Roboter, die jedoch noch etwas weit entfernt sind.
Fazit
Ein Großteil der Unternehmen plant Robotic Process Automation einzusetzen oder verwendet diese Technologie bereits erfolgreich, um Unternehmensprozesse effizienter zu machen. Jedoch hat auch Robotic Process Automation, so wie nahezu jede Technologie, ihre Grenzen. Für den richtigen Prozess eingesetzt, mag ein Software-Roboter zwar wesentlich produktiver sein als ein menschlicher Mitarbeiter, jedoch fehlen kognitive Fähigkeiten gänzlich.
Diese Hürde lässt sich durch die Symbiose von Robotic Process Automation und Machine Learning nehmen. Der hierfür geprägte Begriff lautet Intelligent Process Automation oder kurz IPA. Diese Technologiekombination ertüchtigt die Roboter zur Bedienung von Systemen in virtuellen Umgebungen oder auch zur Verarbeitung nicht maschinenlesbarer Daten durch den Einsatz von OCR und NLP. Die hierfür benötigte Grundinfrastruktur und die Möglichkeit, eigene Aktivitäten zu entwickeln, sollte jede RPA-Plattform mitbringen.
Florian Laumer ist seit über 18 Jahren in unterschiedlichen Positionen im Informationsmanagement tätig. Als Lead Consultant bei Computacenter ist er im Bereich Software Productivity Services für die Themen Anwendungsentwicklung, Collaboration, Automation und zugehörige Strategien im Enterprise Umfeld verantwortlich. Im Bereich RPA ist er unter anderem zertifizierter UiPath Architect und Businessanalyst