Recherche – spektakulär stark durch kognitive Verfahren.

 

Autor – Dr. Uwe Crenze, geschäftsführender Gesellschafter und Mitgründer von interface projects

 

 

In den letzten fünf Jahren konnten erhebliche Fortschritte beim Einsatz von maschinellen Lernverfahren, basierend auf künstlichen neuronalen Netzen, verzeichnet werden. Im Bereich der Text- und Multimedia-Analyse wird in diesem Zusammenhang typischerweise von kognitiven Verfahren gesprochen. Hierzu zählen insbesondere Verfahren zur Klassifikation, Verschlagwortung, Erkennung relevanter Entitäten und zur Unterstützung einer semantisch-assoziativen Suche (kognitive Suche). Insbesondere systematische Rechercheprozesse profitieren von kognitiven Verfahren bei der Erschließung unbekannter Dokumente.

Wie in kaum einem anderen Bereich gehört das systematische Recherchieren zur Kernaufgabe der Prüfer in Patentämtern. Die stark ansteigende Anzahl von Patentanmeldungen auf nationaler und internationaler Ebene stellt eine große Herausforderung bei der Bearbeitung der Schutzrechtsverfahren dar. Gleiches gilt für Patentabteilungen in Unternehmen und Forschungseinrichtungen. Erschwerend kommt hinzu, dass bei der Erstellung der Patentschriften gezielt Umschreibungen verwendet werden, welche die Nähe der angemeldeten Innovation zu bereits erteilten Patenten verschleiern und eine Entgegenhaltung zum angemeldeten Patentanspruch verhindern soll. Die durch kognitive Verfahren durchgeführte Analyse der Patentschriften unterstützt die Patentprüfer bei der Aufdeckung solcher Verschleierungen indem besser nach inhaltlich ähnlichen Patentschriften für entsprechende Entgegenhaltungen recherchiert werden kann. Eine andere Herausforderung besteht in der gezielten Zuordnung eines für eine bestimmte Patentklasse erfahrenen Prüfers. Hier unterstützen kognitive Verfahren bei der Klassifikation eingehender Patente.

In diesem Beitrag werden verschiedene kognitive Verfahren vorgestellt, die im Rahmen der Zusammenarbeit zwischen dem Deutschen Patent- und Markenamt (DPMA) und der Firma interface projects GmbH auf der Basis des Produktes intergator entwickelt und am DPMA eingeführt wurden.

Evolution der Text-Indexierung

Für ein effizientes Text-Information-Retrieval wurden zahlreiche Verfahren entwickelt. Weit verbreitet sind insbesondere sogenannte Vector-Space-Modelle (VSM), die nahezu jede Text-Suchmaschine verwendet. Die Dimension der Vektoren wird durch die Anzahl unterschiedlicher Terme in dem zu durchsuchenden Korpus bestimmt. Ein Vektor repräsentiert ein Dokument im Korpus. Vektor-Space-Modelle werden deshalb verwendet, weil die Ähnlichkeit von Dokumenten leicht durch den Cosinus zwischen den Dokument-Vektoren bestimmt werden kann.

Die Nachteile von Term-VSM liegen in der hohen Dimensionalität des Vektorraums mit sehr schwach besetzen Vektoren. Verfahrensbedingt geben diese Vektoren zudem keinerlei Information über die semantische Ähnlichkeit von Dokumenten. Erfolgt eine Suchanfrage mit einem Begriff, der in den gesuchten Dokumenten nicht enthalten ist, erhält man keine Treffer. Mithilfe einer breiten Palette von weiteren Methoden des Natural Language Processing (NLP) können viele linguistische und semantische Aufgabenstellungen grundlegend, aber meist nicht befriedigend gelöst werden. Hinterlegte Wörterbücher und sonstige Begriffssysteme einschließlich aufwendig erstellter Ontologien können von den Nutzern in der Regel weder bereitgestellt, geschweige denn aktuell gehalten werden.

Mit den Arbeiten von Mikolov bei Google und später bei Facebook wurden die grundlegenden VSM unter Anwendung künstlicher neuronaler Netze auf eine neue Stufe gehoben. Das unter Word2Vec [1] 2013 bekannt gewordene Verfahren für Distributed Word Embeddings verwendet neuronale Netze zum Lernen von Zusammenhängen zwischen Wörtern. Ein Vektor repräsentiert dabei ein Wort in einem Vektorraum mit wenigen hundert Dimensionen. Räumliche benachbarte Vektoren beschreiben Wörter mit einem ähnlichen Kontext. Daraus ergeben sich vielfältige Anwendungsgebiete, wie die automatische Ermittlung von sinnverwandten Suchbegriffen, die Suche in fremdsprachigen Dokumenten bis hin zur Klassifikation von Dokumenten.

 

 

 

 

 

Bild 1: Verwandte Begriffe zu „Regler“

Bild 1 visualisiert den semantischen Kontext zum Begriff „Regler“ in Form einer 2D-Projektion eines aus ca. 300.000 Patenten trainierten 300-dimensionalen Word-Embedding-Vektorraums.

Die Besonderheit dieser Word-Embedding-Vektoren liegt darin, dass ein Wort über die gelernten Kontexte, in denen es auftritt, beschrieben wird. Darüber hinaus sind Word-Embedding-Verfahren robust gegenüber unbekannten Begriffen in Dokumenten, die nicht in das Modell-Training einbezogen waren. Auf diese Weise werden auch falsch geschriebene Wörter durch ihren Kontext richtig eingeordnet. Word Embeddings liefern somit eine optimale Strategie für eine semantisch-assoziativ unscharfe Suche. Letztendlich bildet die Gesamtheit der gelernten Word-Embedding-Vektoren ein Sprachmodell. Aus großen Korpora (wie zum Beispiel Wikipedia, Zeitungs- und Nachrichtenarchiven u. ä.) lassen sich allgemeine Sprachmodelle vortrainieren und im Zusammenhang mit völlig anderen Textbeständen nutzen. Auch lassen sich Word-Vektoren von einem Sprachmodell in ein anderes transformieren, um Suchen in fremdsprachigen Dokumentenbeständen zu ermöglichen.

Interessanter Weise werden beim Trainieren der Word-Embedding-Vektoren linguistische Beziehungen zwischen in einem bestimmten Zusammenhang stehenden Begriffen mitgelernt. Über Vektoroperationen lassen sich somit gezielt semantische Relationen ermitteln und für Frage-Antwort- oder Empfehlungssysteme einsetzen.

Das maschinelle Lernen von Word Embeddings ist vom Grundsatz her unüberwacht. Das heißt, es müssen keine manuell kategorisierten Dokumente bereitgestellt werden. Mittels spezieller Erweiterungen (wie zum Beispiel bei fastText [2]) lassen sich auch klassenspezifische Modelle trainieren, die im Anschluss von einem entsprechenden Klassifikator  verwendet werden.

Ein umfassender Überblick über das Lernen von Word Embeddings mit Hilfe neuronaler Netze wird in [3] gegeben.

Status quo: Textbedeutungen müssen erschlossen werden

Die Patentrecherche ist ein wesentlicher Bestandteil des Patenterteilungsverfahrens. Im Rahmen der Patentprüfung ermittelt der Prüfer eine Liste von relevanten Patentschriften oder Nichtpatentliteratur zum Stand der Technik einer Patentanmeldung – den sogenannten Entgegenhaltungen – und entscheidet anhand des Rechercheergebnisses, ob die Grundvoraussetzung der Neuheit und der erfinderischen Tätigkeit gegeben sind.

Die Patentrecherche mit dem DPMA-hauseigenen Deutschen Patentinformationssystem (DEPATIS) basiert bis dato auf der Suche nach Schlagwörtern (Keywords) und bibliographischen Daten von Patentschriften. Die Suchtechnologie basiert auf einer Booleschen Suche, Suchbegriffe werden exakt oder trunkiert eingegeben und verwandte Begriffe müssen aus händisch gepflegten Wortlisten übernommen werden. Die Suche nach bibliographischen Daten, wie zum Beispiel Namen von Erfindern oder zitierten Schriften, liefert Dokumente in denen exakt diese bibliographischen Daten vorkommen.

In der Praxis ist dafür die Bildung von komplexen und langen Suchanfragen notwendig, weil die Kombination von Begriffen und Synonymen explizit angegeben werden muss. Die Suche soll eine Liste von Dokumenten liefern, die in einer angemessenen Zeit vom Prüfer gesichtet und bewertet werden muss. Das schnelle Anwachsen der Anzahl publizierter Patentschriften verschlechtert die Lage des Prüfers noch mehr, da die zu analysierenden Listen länger werden. Die Formulierung solcher Suchanfragen ist sehr zeitaufwändig, fehlerträchtig und erfordert langjährige Erfahrung auf dem Prüfgebiet. Da Anmeldungen oft allgemein formuliert werden, um den Wirkungsgrad des Patentes zu erhöhen („Kleinfahrzeug“ anstatt „Fahrrad“), der Anmeldegegenstand durch die Verwendung abseits vom Stand der Technik liegender Begriffe, Umschreibungen („im Kreis bewegen“ anstatt „rotieren“) oder Wortneuschöpfungen („Müllentsorgungsdrohne“) meist verschleiert ist, muss der Prüfer den Text erschließen. Die Bedeutung des Textes muss intellektuell erfasst werden und Schlagwörter und Synonyme als Suchbegriffe müssen manuell gebildet werden um die relevanten Entgegenhaltungen zu finden.

Neue Perspektive: Kognitive Suche findet Text-Ähnlichkeiten

 

 

 

 

 

Bild 2: Kognitive Suche in Patenten

Die kognitive, auf semantischer Textähnlichkeit beruhende Suche reduziert den manuellen Aufwand und ermöglicht eine einfache, effiziente und effektive Recherche. Denn eine kognitive Suche ist in der Lage, inhaltlich ähnliche Dokumente zu einer Patentanmeldung zu finden. Es ist sowohl möglich relevante Abschnitte einer Anmeldung für die Suche auszuwählen, als auch in Kombination mit anderen relevanten Druckschriften zu suchen. Bei der Suche werden Synonyme oder sinnverwandte Begriffe gefunden, die in weiteren Recherchen verwendet werden können. Die intellektuelle Ermittlung von Synonymen für die Formulierung der Suchanfrage bzw. Erstellung und Pflege von Synonym-Listen ist nicht mehr erforderlich. Die Bewertung der Suchergebnisse wird durch Hervorheben von Begriffen, die eine semantische Nähe zur Eingabe aufweisen erleichtert.

Das Neuartige an dieser semantischen Suchtechnologie ist die Identifizierung von Patentliteratur mit ähnlicher Bedeutung. Ein ähnliches Dokument kann auch dann von der Suchmaschine als relevant angesehen werden, wenn die Begriffe der Sucheingabe nicht darin vorkommen. Diese Funktionalität ist für die Patentrecherche besonders wichtig, da für die Neuartigkeit eines Patentes die Idee entscheidend ist und nicht die Begriffe, die verwendet werden.

Die Idee der Word Embeddings ist neben einzelnen Begriffen auch auf größere Textabschnitte anwendbar. Diese sogenannten Sentence Embeddings bilden die Bedeutung von Phrasen, Sätzen oder ganzen Dokumenten auf Vektoren ab. Es hat sich gezeigt, dass für die kognitive Suche Embeddings, die mit dem Sent2Vec-Algorithmus [4] erlernt wurden, die besten Ergebnisse liefern. Einzelne Wörter und ganze Dokumente werden in demselben Vektorraum projiziert und können mit einfachen räumlichen Entfernungsmetriken in Verbindung gesetzt werden. Mit diesem universellen Ansatz eröffnen sich vielfältige, neue Möglichkeiten, ohne aufwendige linguistische (und damit sprachabhängige) Verfahren anwenden zu müssen.

Herausforderung: Klassifikationsschemata werden laufend angepasst

Die Patentklassifikation dient dem einheitlichen Klassifizieren von Patentdokumenten nach technischen Gebieten. Durch die ordnungsgemäße und feingranulare Einordnung von Patentdokumenten in eine hierarchische Klassifikationsstruktur wird dem Patentprüfer der Zugriff auf die darin enthaltenen technischen und rechtlichen Information erleichtert. Es existieren verschiedene Klassifikationsschemata wie zum Beispiel die internationale Patentklassifikation (IPC). Mit dem ständig wachsenden Stand der Technik wird auch die Patentklassifikation fortlaufend erweitert. Die IPC [5] mit dem Revisionsstand 2018.01 enthält über 74.000 IPC-Symbole.

Verglichen mit anderen Klassifikationsproblemen, gibt es hier besondere Herausforderungen:

  1. Der Wortschatz der Patentliteratur ist auf Grund seiner technischen Natur sehr umfangreich und mehrdeutig
  2. Potentiell sind sehr viele Kategorien zu unterscheiden. Diese sind hierarchisch angeordnet, so dass sie thematisch überlappen und sich in tieferen Ebenen nur noch durch spezifische Teilaspekte unterscheiden.
  3. Durch Änderungen im Schema müssen Dokumente umklassifiziert werden.
  4. Die unterschiedliche Relevanz von Themengebieten im Stand der Technik spiegelt sich in der IPC-Hierarchie wider. Die Patentschriften sind daher ungleich über die Kategorien verteilt. So gibt es Kategorien, denen nur ein Patent zugeteilt ist, während andere tausende Patente umfassen.

Fazit & Ausblick

Kognitive Verfahren liefern mächtige, neue Instrumente, um die Recherchen effektiver und effizienter zu gestalten.

Naturgemäß geht bei unscharfen, assoziativen Verfahren die Exaktheit verloren. Im Suchszenario führt dies zum Beispiel dazu, dass eine Suche nach „Fahrrad“ auch Dokumente zu „Kleinfahrzeugen“ oder „Motorrädern“ als relevant erkennt. Je nach Anwendung kann dieser Effekt gewollt oder ungewollt sein. Im hochdimensionalen Raum sind viele syntaktische und semantische Aspekte kodiert. Eine Treffermenge ist immer nur eine Reduktion, bei der Eigenschaften verloren gehen. Eine eindimensionale Liste der Suchtreffer ist daher nicht ausreichend, um die vielfältigen Ähnlichkeitsaspekte wiederzugeben, vor allem in großen Suchräumen. Alternative Darstellungsformen in Verbindung mit interaktiven Navigationskonzepten im Suchraum können dem Nutzer helfen, seine Intention auszudrücken. Darin liegt ein Schwerpunkt künftiger Entwicklungen. Eine vollständige Übersicht und Evaluation der hier vorgestellten Verfahren wird in [6] dargestellt.

www.intergator.de

Die in Dresden ansässige interface projects GmbH ist mit dem eigenen Produkt intergator einer der führenden deutschen Anbieter von Enterprise Search- und Wissensmanagementlösungen ist. Mit Hilfe einer Vielzahl von Konnektoren zu Informationssystemen und integrierten kognitiven Verfahren werden von interface:projects für Kunden aus einem großen Spektrum an Branchen maßgeschneiderte Recherchelösungen realisiert.

 

Referenzen

[1]             Mikolov, T.; Chen, K.; Corrado, G.; Dean, J.: Efficient Estimation of Word Representations in Vector Space, 2013, https://arxiv.org/abs/1301.3781v3

[2]             Joulin, A.; Grave, E.; Bojanowski, P.; Mikolov, T.: Bag of Tricks for Efficient Text Classification, 2016, https://arxiv.org/abs/1607.01759v3

3[]             Korger, C.: Clustering of Distributed Word Representations and its Applicability for Enterprise Search, Diploma Thesis, Dresden University of Technology, 2016

[4]             Pagliardini, M.; Gupta, P.; Jaggi, M.: Unsupervised Learning of Sentence Embeddings using Compositional n-Gram Features, 2017, https://arxiv.org/abs/1703.02507v2

[5]             : Internationale Patentklassifikation, Handbuch zur IPC Ausgabe 2018. Deutsches Patent- und Markenamt, München, 2018.

[6]             Reinke, M.; Kischkel, A.; Jahns, V.; Crenze, U.; Beltcheva, O.: Einsatz kognitiver Verfahren am Deutschen Patent- und Markenamt, BTW 2019, Lecture Notes in Informatics (LNI), Gesellschaft für Informatik, Bonn, 2018