Semantische Systeme für Markt- & Trendanalyse

Alexander Lörch,geschäftsführender Gesellschafter und Bianca Matzkeit, Technische Redakteurin bei der CID GmbH

Wettbewerbsanalyse, Suchtechnologie, Crawling-Technologie, Text Mining, Semantic Analysis, Machine Learning

Der Erfolg eines Unternehmens hängt heute entscheidend davon ab, dass alle zur Verfügung stehenden Informationen aufmerksam und kontinuierlich erhoben werden. Sie müssen zugänglich gemacht werden, sobald sie vorliegen – nur dann können sie für das Unternehmen gewinnbringend genutzt werden. Doch in heterogenen Datenbeständen sollte eine Suchlösung exakt zu den Informationen führen, welche eine qualitative und quantitative Relevanz für das Unternehmen aufweisen und die unterschiedlich strukturierten Datenmengen derart aufbereiten, dass man mit ihnen effizient weiterarbeiten kann – eine Herausforderung, der semantische Systeme heute erfolgreich begegnen.

Den Informationsreichtum vor Augen

Wie ist der Markt derzeit beschaffen und wie wird er sich entwickeln? Welche Strategien verfolgt die Konkurrenz und wie kann ich darauf reagieren? Nur wer die richtigen Fragen stellt, kann einen Informationsvorsprung herausholen. Qualifizierte Antworten finden sich in zahlreichen Informationsquellen, auf die per Internet heute schneller denn je zugegriffen werden kann. Doch wird dafür immer weniger klar, auf welche Information es sich zu fokussieren lohnt.

Ein Blick in die Dimensionen des Fünf-Kräfte-Modells von Porter (vgl. Porter, 1997, S. 26) macht deutlich, welcher Informationsreichtum durch digitale Informationskanäle heute gegeben ist. So lassen sich durchaus Rückschlüsse über Entwicklungen, Strategien und Aktivitäten von Wettbewerbern aus Informationen ziehen, die sich beispielsweise auf Webseiten mit Produkt- und Leistungsbeschreibungen finden – aber auch digital verfügbare Geschäftsberichte, Tagungsprotokolle oder Artikel aus der Wirtschafts-, Fach- oder Lokalpresse können wertvolle Hinweise liefern. Ebenso geben Patentanmeldungen, Forschungsberichte oder Studien Aufschluss darüber, ob potenzielle neue Konkurrenten in den Markt drängen oder ob sich gar Substitutionsprodukte und -dienste abzeichnen. Webseiten von Zulieferern können auf politische, wirtschaftliche, gesellschaftliche Umstände aufmerksam machen, die auf mögliche Änderungen in der Zuliefererkette hindeuten. Nicht zuletzt erweisen sich Verkaufszahlen, Umfrageergebnisse sowie Meinungen in Blogs oder Diskussionen in Foren von Abnehmern als wichtige Bezugsquelle, um Nutzungsbedürfnisse des Kunden zu ermitteln.

Die Informationsflut im Griff

Informationen über das eigene Unternehmen, über Konkurrenten oder die Branche lassen sich in heterogenen Informationsquellen (SharePoint, Intranet, Internet, Social Media) aufspüren. Sie alle müssen fortwährend überblickt werden, um handlungs- und entscheidungsfähig zu bleiben. Doch reicht eine Person allein nicht aus, um alle relevanten Informationen in Gänze zusammenzutragen. Denn Informationen sind dynamisch; sie unterliegen unregelmäßigen Veränderungen und haben daher keinen nachhaltigen Aussagewert. Deshalb müssen sie kontinuierlich erschlossen werden.

Erschwerend kommt hinzu, dass eine zusätzliche Analyse und Interpretation unumgänglich ist, um aus vielen Einzelinformationen ein Gesamtbild zu erhalten. Denn sonst gehen allzu leicht „Datensplitter verloren – und damit die Vorteile, die sich nur aus der Kombination dieser Datensplitter ergeben“ (Porter, 1997, S. 109). Doch um eine ganzheitliche Betrachtung möglichst aller Informationen zu gewährleisten, müssen riesige Mengen an strukturierten und unstrukturierten Datentypen (Texte, Grafiken, Statistiken) automatisiert verarbeitet werden mit dem Ziel, alle relevanten Informationen in kürzester Zeit zu finden und sie so aufzubereiten, dass sie umstandslos für weitere Handlungsprozesse wie etwa Strategieformulierungen verwendet werden können.

Ein strategisches Informationssystem ist daher dringend erforderlich, um die rasant ansteigende Menge an eingehenden Informationen wirtschaftlich nutzbar zu machen. „Neue Technologien zur semantischen Textanalyse, zur inhaltlichen Zusammenfassung von Suchergebnissen und zur Erzeugung dynamischer Filterangebote werden diesen Ansprüchen gerecht“ (Stumpfegger/Schachner, 2012, S. 35). Semantische Technologien sind daher als wichtiger Baustein im Informationsmanagement-Prozess anzusehen. Doch unterscheiden sich semantische Systeme untereinander derzeit noch erheblich, weshalb zur besseren Veranschaulichung Produkt-Funktionalitäten der semantischen Suchlösung CORPUS® sowie des Informationsexplorators und Analysecockpits Topic Analyst® der Firma CID stellvertretend herangezogen werden.

Das Informationspotenzial zutage fördern

Eine Verbindung von Technologien zu Text Mining, Semantic Analysis und Machine Learning mit innovativer Informationsvisualisierung geht dabei in mehreren, sich einander bedingenden Schritten vor:

Informationen sammeln

Über Schnittstellen und mit intelligenter Crawling-Technologie werden Dokumente sowohl aus dem Internet als auch dem Intranet kontinuierlich und automatisiert abgegriffen und bereits vor Bereitstellung inhaltlich erfasst. Die Crawler können darüber hinaus Themen und Trends in den Inhalten, die neu hinzugekommen sind, sofort aufzeigen und ermöglichen eine Bewertung der Bedeutsamkeit für das Unternehmen.
Auf diese Weise werden relevante Inhalte zur Verfügung gestellt und eine umfassende, qualitätsgesicherte Informationsbasis aufgebaut. Der Anwender muss nicht mehr Ergebnislisten mit Millionen von unsortierten Suchergebnissen und zahlreichen Fehltreffern nach der gewünschten Information absuchen, da die automatisierte semantische Überprüfung der Dokumente kombiniert mit unterschiedlichen Ranking-Verfahren die Bereitstellung sinnvoll strukturierter Suchergebnisse garantiert. Der Import unternehmensexterner Informationen in interne Systeme erlaubt darüber hinaus, dass alle Informationen konsolidiert in einer Anwendung zur Verfügung stehen und bei gleichbleibend hoher Qualität recherchiert werden können (Bild 1).

Bild 1: Semantische Suche – integriert in SharePoint (links) und mit Topic Analyst® von CID (rechts)

Informationen analysieren

Während klassische Suchmaschinen Webseiten nur oberflächlich absuchen und auf die eingegebene Zeichenfolge des Suchbegriffs beschränkt bleiben, werden bei semantischen Systemen Informationen und Dokumente sprachlich analysiert und ihr Inhalt infolge semantischer Analysen erfasst. Dies ist unter anderem hilfreich, um auf Webseiten aller Art, beispielsweise auch in sozialen Netzwerken, erforschen zu können, was und vor allem wie die angestrebte Zielgruppe über die eigene Marke und über konkrete Mitbewerber kommuniziert.
Gerade die sozial-medialen Dialoge in Blogs oder Foren, in denen Nutzer untereinander Erfahrungen und Probleme austauschen, sind eine perfekte Ergänzung zu Serviceberichten und -tickets. Sie liefern wertvolle Anhaltspunkte, um Substitutionsprodukte sowie negative Kaufstimmung frühzeitig zu erkennen, bevor sich dies in Verkaufszahlen niederschlägt. Um sicherzustellen, dass konkrete Entitäten wie etwa bestimmte Personen, Firmen, Produkte und branchenspezifische Inhalte auch bei Synonymie und Mehrfachbedeutung eindeutig identifiziert werden, liegen im Falle der CID-Software sowohl eine umfassende und semantisch aufgeladene Knowledge Base als auch hinterlegte Thesauri, Taxonomien und Ontologien zugrunde (Bild 2).

Bild 2: Erkennung von Begriffen bei Synonymie und Mehrfachbedeutung

Informationen interpretieren

Durch maschinelle Lernverfahren und Algorithmen werden Beziehungen und Zusammenhänge zwischen Teilinformationen und auch Dokumenten systematisch aufgedeckt. Die Verknüpfung von Informationen und Dokumenten über semantische Netze trägt im Fall von CORPUS® sowohl zur hierarchischen Strukturierung von Begriffen als auch zur Bildung semantischer Konzepte bei, sodass Einzelaspekte zu logischen Themenblöcken (Bild 3) zusammengefasst oder gar Trends abgeleitet werden können.

Bild 3: Dynamische Erkennung von verwandten Inhalten (links) und thematisch ähnlichen Dokumenten (rechts)

Ferner ist die Generierung neuer, thematischer Aspekte damit ebenso möglich wie die Synthese von Sachverhalten, die sich nicht nur in Texten, sondern auch in Zahlenwerten finden lassen. Empfehlungssysteme sind dafür ein Beispiel.
Aus der Kombination statistischer Berechnungen wie Kauf- oder Navigationshistorien, verbunden mit Sprach- und Bedeutungsanalysen, ermitteln sie nicht nur, wie oft ein Produkt gekauft wurde, sondern identifizieren auch Eigenschaften des Produkts und vergleichen diese mit anderen. So machen sie auf bestimmte Produkte oder Services mit ähnlichen Eigenschaften aufmerksam, die in der unüberschaubaren Menge an Daten gar nicht erst bemerkt worden wären.

Informationen visualisieren

Statt Suchergebnisse in endlos langen Listen auszugeben, lassen sich aufgrund wiederkehrender Muster Tausende von Informationseinheiten für unterschiedliche visuell-analytische Darstellungsverfahren (Bild 5) verwertbar und interaktiv zugänglich machen. Riesige Informationsmengen können dadurch aus verschiedenen Perspektiven betrachtet werden. Sollen beispielsweise Wachstumszahlen im Vergleich zu Wettbewerbern in der Branche deutlich gemacht werden, eignen sich Balkendiagramme ideal. Signifikante Auffälligkeiten in der Berichterstattung über Wettbewerber dagegen können auf den ersten Blick aus einer Word Cloud abgelesen werden.

Bild 5: Alle Informationen im Blick

Neben einer optimalen Orientierung innerhalb großer Datenbestände ist auch der schnelle und zielgerichtete Zugriff auf die benötigten Informationen und Dokumente entscheidend. Die Interaktivität von Darstellungen ist ebendeshalb ein weiterer bedeutender Aspekt des Topic Analyst®. Ein einziger Klick auf Einzelaspekte oder Themenbereiche mittels facettierten Browsens genügt, um systematisch und fokussiert zu gewünschten Inhalten zu navigieren. Gemäß dem persönlichen Informationsbedarf kann der Anwender Informationen mithilfe von dynamischen Filteroptionen nachvollziehbar eingrenzen und direkt auf die Darstellung der Suchergebnisse einwirken – um sie in einem letzten Schritt in eigene Datensysteme zu integrieren und für weitere Analysen umstandslos zu nutzen.

Fazit

Der erfolgreiche Einsatz softwaregestützter semantischer Suchlösungen ermöglicht einen schnellen Überblick über potenziell auffindbare Informationen innerhalb und außerhalb eines Unternehmens. Der Nutzen dieser intelligenten Suchtechnologie liegt maßgeblich in der hohen Qualität der Suche durch zugrundeliegende Analysefunktionen sowie der Interpretation und Auswertung von Informationen. Informationen so aufzubereiten, dass man mit ihnen effizient weiterarbeiten kann, umfasst demnach nicht nur die wirklich einfache und schnelle Suche, sondern auch schnelleres Fokussieren auf relevante Informationen – um im Ergebnis eine fundierte Entscheidungsgrundlage durch neue Erkenntnisse und einen besseren Überblick zu erhalten.

So hat auch eine Studie, die von der CID GmbH zusammen mit einem Schweizer Forschungsteam vom Institut für Wirtschaftsinformatik der Universität St. Gallen durchgeführt wurde, Folgendes ergeben: Semantische Suchlösungen haben „signifikante Stärken in allen Anwendungsbereichen, in denen große Datenmengen effizient ausgewertet und intelligent aufbereitet werden müssen. Der Sucherfolg hängt maßgeblich davon ab, ob die Suchlösung lediglich nach dem einen eingegebenen Schlagwort sucht, oder ob sie mit einem adäquaten semantischen Netz nach inhaltlich passenden Informationen fischt. Je feinmaschiger dieses gestrickt ist, umso fehlerresistenter und effizienter ist der Suchprozess.“ (von Koenigsmarck/Schleich, 2012, S. 37)

Literatur:

Porter, Michael E. (1997): Wettbewerbsstrategie (Competitive Strategy). Methoden zur Analyse von Branchen und Konkurrenten. – Frankfurt/Main, New York: Campus Verlag.

Stumpfegger, Alexander; Schachner, Werner (2012): Wissen intelligent suchen und schneller nutzen. Mit Semantik und Textanalyse in der Suche Wissensproduktivität steigern. – Bentele, Markus et al. (Hrsg.) KnowTech 2012 – Neue Horizonte für das Unternehmenswissen. Social Media, Collaboration, Mobility. – Berlin: GITO Verlag, S. 33-40.

von Koenigsmarck, Otfried; Schleich, Martin (2012): Den Wert des Wissens wahren: Suchlösungen im Fokus der Forschung. wissensmanagement – Das Magazin für Führungskräfte 2012 (6), S. 36-37.