Identifikation von Zusammenhängen & Mustern im Web

Autoren –
Prof. Dr.-Ing. habil. Ulrike Lucke, Lehrstuhl für Komplexe Multimediale Anwendungsarchitekturen am Institut für Informatik der Universität Potsdam
und
Dipl.-Inf. Eldar Sultanow promoviert am Lehrstuhl für Wirtschaftsinformatik der Universität Potsdam und ist CIO der XQS Service GmbH

Das Volumen von ereignisbezogenen Informationen wächst in Webumgebungen stark an – und erschwert das Erkennen von Zusammenhängen, Ursache-Wirkungs-Verhältnissen und die Antizipation weiterer Ereignisse. Denn nicht selten gehen die wirklich relevanten Informationen in den riesigen Datenvolumen unter. So hat eine Studie unter Managern zu ihrer Wahrnehmung von Einflüssen auf das Geschäftsumfeld gezeigt, dass eine deutliche Kluft zwischen dem Bedarf an und dem tatsächlichem Vorhandensein von Transparenz über Einflussfaktoren (zum Beispiel politische, rechtliche und wirtschaftliche) besteht [1, 2].

Für die Gewinnung von bedarfsgenauen und verwertbaren Inhalten wird ein immenser Aufwand betrieben – und gleichzeitig stellt sich die Frage nach einer geeigneten Methode für die Erkennung von Zusammenhängen und Mustern. Als Lösungsansatz wird in diesem Artikel das Problem zunächst klar strukturiert und aufgeschlüsselt. Anschließend wird ein softwaretechnisches Konzept für die unterschiedlichen Anwendungsbereiche vorgestellt.

Auswertung umfangreicher Daten ist problematisch

Die einzelnen Problembereiche der zunehmenden Informationsflut stellt Bild 1 in schematischer und strukturierter Form dar. Kritische Bereiche finden sich vorwiegend bei der Analyse der Daten, in dem es naturgemäß um die Erkenntnis und Bewertung geht, die aus den vorhandenen Informationen abgeleitet werden kann.

Bild 1: Strukturierung der Problembereiche steigender Informationsflut

Aus einer praktischen Anwendungsperspektive heraus wirken sich die geschilderten Probleme beispielsweise anhand folgender Szenarien aus:
• ein immer schwieriger werdender Nachvollzug von Kriminalität im Internet
• kaum erkennbare Einflüsse von Marktakteuren auf die Geschäftsumwelt eines Unternehmens (managementseitige Beobachtung wird schwieriger)
• ungenutzte Potenziale in virtuellen Lernumgebungen, innerhalb dieser Synergien von Mitgliedern mit kompatiblen Interessen ungenutzt bleiben und sinnvolle Lerngruppen nicht gebildet werden

Die ausgewählten Beispiele werden nachfolgend exemplarisch beleuchtet.

Nachvollzug sich anbahnender Kriminalität im Web
Die EU beabsichtigt mit der Direktive 2011/93/EU [3] ausdrücklich, das Internet für Kinder und Minderjährige zu einem sichereren Ort zu machen. Aus technischer Sicht konzentriert sich die Debatte jedoch nur darauf, ob schädliche Webseiten blockiert oder komplett gelöscht werden sollen. Diese Frage ist jedoch irrelevant für interaktive Webumgebungen wie virtuelle Welten, Browser-Spiele oder Online-Anwendungen, sondern allein zielführend bei klassischen, inhaltsorientierten Webseiten mit Text, Bildern, Audio und Video.

Doch gerade interaktive Webumgebungen erfreuen sich zunehmender Beliebtheit aufgrund ihrer Möglichkeiten, soziale/emotionale Verbindungen aufzubauen, mit anderen Benutzern zu kommunizieren, gemeinsame Spielerlebnisse zu schaffen und Freundschaften zu pflegen. Damit erschließt sich ein Raum, der z.B. für Pädokriminalität gezielt ausgenutzt wird [4]. Diese Herausforderung muss durch das hier vorgestellte Modell bewältigt werden. Ähnliches gilt für Delikte aus anderen Bereichen, z.B. Wirtschaftskriminalität oder Terrorismus.

Den Fortschritt von Big Data- und Analysetechnologien zur präventiven Strafverfolgung beschreibt und vergleicht Rozenfeld [5] mit der Fiktion aus dem Film „Minority Report“. Derartige Strafverfolgungsvorhersagesysteme sind mittlerweile ausgereift, denn sie ermitteln potenzielle Straftäter einschließlich dem wahrscheinlichen Ort und Zeitpunkt eines Verbrechens, indem sie Muster („Fingerabdrücke“) in Daten erkennen, die von Mobilgeräten, Überwachungskameras und biometrischen Sensoren generiert werden. Die Hürden liegen demnach nicht mehr nur auf technischer, sondern mittlerweile auf rechtlicher Seite: Staatsanwälte könnten im Verdachtsfall einen Hausarrest oder eine einstweilige Verfügung beantragen – und dies auf der bloßen Grundlage von prädiktiven Analysen.

Wahrnehmung durch Unternehmen von Einflüssen auf ihre Geschäftsumwelt
Die Wahrnehmung von Einflüssen auf die Geschäftsumwelt einer Organisation bestimmt resultativ die wettbewerbsstrategischen Handlungen des Managements [6]. In der Informationsflut wachsen Dateninseln innerhalb einzelner Abteilungen, zu denen nicht jeder im Unternehmen einen schnellen und einfachen Zugang hat. Bedingt durch das fehlende Bewusstsein über die Existenz vorhandener Informationen werden diese nicht miteinander in Beziehung gesetzt. Dadurch bleiben Muster verborgen, die für entscheidungsrelevante Ereignisse und Einflüsse auf das Unternehmen sind.

Nicht allein die unerkannten Zusammenhänge zwischen vorhandenen Informationen stellen ein Wahrnehmungsproblem dar, sondern auch das begrenzte Vermögen, aus (neuen) automatisierten Informationen, die ihren Ursprung in Webumgebungen haben, solche zu extrahieren, die für das Management entscheidend sind. Relevante externe Informationsquellen umfassen beispielsweise RSS-Feeds, Wirtschaftsmeldungen, Informationsdienste von Regierungen, öffentliche Wissensdatenbanken, Verzeichnisse mit Unternehmen und Kompetenzen und soziale Netzwerke.

Synergienutzung in virtuellen Lernumgebungen
Nicht nur größere Organisationen unterliegen dem Phänomen, dass trotz steigender Zahl ihrer Mitglieder (Wissensträger) und zunehmender Daten/Artefakte (Informationsobjekte) das Wissen nicht in gleichem Maße zunimmt [7]. Erst die Transparenz über Wissensträger und -suchende sowie ein schneller, effizienter Zugang zu bedarfsgenauen Informationen ermöglicht die interne Synergienutzung und schafft die optimale Entscheidungs- und Handlungsgrundlage. Dasselbe gilt für virtuelle Lernumgebungen, die in besonderem Maß von ungleich verteiltem Wissen und dem Ziel einer Kompetenzvermittlung geprägt sind.

Das innerhalb von Lernumgebungen (v.a. in formalen Lernsettings) häufig fehlende Bewusstsein über die inhaltlichen Interessen und fachlichen sowie methodischen Kompetenzen anderer führt dazu, dass sich effiziente Lerngruppen nicht bilden können und Wissen mühsam parallel erarbeitet wird. Frustration, Misserfolg und Drop-Outs sind oft beobachtete Folgen gerade in Online-Lernumgebungen [8, 9]. Die erzielten Lern- und Projektergebnisse sind dann ungenügend, gemessen an dem Leistungspotenzial, welches durch die synergetische Kombinationsmöglichkeit aufeinander aufbauenden oder sich ergänzenden Wissens gegeben wäre.

Einzelne Lösungsansätze sind bereits vorhanden

Für die eingangs genannten Problembereiche existieren bereits technische und architektonische Lösungsansätze, auf denen ein systematisches Konzept aufzubauen hat (siehe Tabelle). Diese Konzepte können einzelnen Problembereichen zugeordnet werden:

Die Informationsvisualisierung bezeichnet den kognitiven Zugang zu Datenmengen mittels deren computergestützter, visueller Repräsentation [10, 11].
Business Intelligence (BI) ist eine Methode, die die visuelle Datenexploration und Suche nach verborgenen Mustern in großen Beständen von Daten ermöglicht sowie deren unternehmensweite Abfrage, Kombination, Analyse und Interpretation. Ziel ist, Informationen zu gewinnen, die bezogen auf definierte Unternehmensziele relevant für operative und strategische Entscheidungen sind [16]. Decision Intelligence ist die Verkopplung von Wissensmanagement mit BI zur Umwandlung der (aus unternehmensinternen und -externen Daten gewonnenen) Informationen in handlungsgerichtetes Wissen, das strategischen Managemententscheidungen dient [17]. Collaborative Intelligence ergänzt das stark werkzeugorientierte BI-Konzept um den Aspekt der verteilten Zusammenarbeit.
Das Data-, Information- und Web-Mining sind BI-Methoden zur automatischen Extraktion von Informationen aus ihren Quellen. Dafür müssen die vorhandenen Daten bzw. Dokumente maschinell interpretierbar bzw. verarbeitbar sein [19].
Real World Awareness (RWA) ist ein, ursprünglich im Kontext des Lieferkettenmanagements entstandener, Ansatz zur Transparenzschaffung, mit dem Informationen von Menschen sowie Systemen in Echtzeit wahrgenommen werden, um Handlungsbedarfe zu erkennen und im Bedarfsfalle schnell, effektiv reagieren zu können [20, 21].

Problembereich Lösungskonzept Rückschlüsse für die Architektur
Ereignisse und ihre Zusammenhänge visualisieren Information Visualization Modellbasiertes Verfahren zur Darstellung von Ereignissen und ihren Zusammenhängen
([10], [11], [12])
Informationen innerhalb ihrer Großmengen bewerten Data Mining,
Information Mining,
Web Mining Extraktionsfilter mit Verfahren zur Inhaltsbewertung nach Relevanz
([13], [14], [15])
Zusammenhänge zwischen Ereignissen verschiedener Informationsquellen erkennen Business Intelligence,
Decision Intelligence,
Collaborative Intelligence,
Document Management Algorithmen zur Erkennung semantischer Beziehungen und Zeit-Orts-Clustering
([16], [17], [18], [19])
In Echtzeit relevante Ereignisse filtern und Zusammenhänge erkennen Real World Awareness Mobilfähigkeit, Streaming-Fähigkeit
[6], [20], [21], [22]
Tabelle: Zuordnung vorhandener Ansätze zu den Problembereichen

Systematisches Konzept formalisiert und visualisiert Informationen

Das systematische Lösungskonzept für die geschilderten Herausforderungen baut auf den genannten Ansätzen auf. Weil Informations- und Wissensflüsse/-umwandlungen eine tragende Rolle spielen, dient als Modellierungsmethode die von Gronau [23] entwickelte Knowledge Modeling and Description Language (KMDL), welche diese formalisiert erfassen, beschreiben und analysieren kann.

Das grundsätzliche Vorgehen kann dabei wie folgt beschrieben werden: Die Fähigkeit, Ereignisse aus der Realwelt in Echtzeit zu erfassen, erfordert eine mobilfähige und Streaming-fähige Kommunikationsarchitektur [22]. Innerhalb großer Informationsvolumina bewerten Extraktionsfilter solche Informationen und Ereignisse nach vorgegebenen Relevanzkriterien. Dabei müssen diese Ereignisse gemäß dem RWA-Konzept in Bezug zu Zeit und Ort stehen und werden mittels Erkennungsalgorithmen semantisch verlinkt und nach Zeit und Ort clusterisiert. Schließlich werden die Informationen, Ereignisse und ihre Beziehungen zueinander mittels geeigneter Modelle visualisiert.

Bild 2: Ereignisvisualisierung auf einer Weltkarte und Clusterisierung nach Zeit und Ort

Das Beispiel verdeutlicht das geschilderte Prinzip der hier vorgestellten, auf KMDL basierenden, Transparenzmethode (siehe Bild 2). Auf der Weltkarte werden die Orte hervorgehoben, an denen Ereignisse stattfinden und die für den Benutzer (Beobachter) im Hinblick auf seine Transparenzziele relevant sind. Bei dieser Visualisierung könnte es sich im Falle einer Beobachtung von verdächtigen Ereignissen beispielsweise um den Austausch von Informationen handeln, deren Inhalt Schlüsselwörter aus einer Blacklist enthält. Weitere Beispiele für eine solche Darstellungsart wären die Kommunikation und Wissensflüsse in verdächtige Gebiete oder Transaktionen mit auffälligem Muster wie der Aufkauf von Großmengen bestimmter Produkte (etwa Arzneimittel, Rüstungsgerät), die nicht wieder auf dem Markt auftauchen. Im Falle wirtschaftsrelevanter Ereignisse visualisiert die Weltansicht Investitionen, Übernahmen, Abspaltungen, mobil erfasstes Konsumverhalten und behördliche Meldungen über Änderungen von (z.B. handelsrechtlichen) Rahmenbedingungen, die die Geschäftsumwelt einer beobachtenden Organisation betreffen.

Im Falle virtueller Lernumgebungen könnte das Beispiel Orte anzeigen, an denen ein Transfer von fachlichem Wissen stattfindet, das zu den Lernzielen des Beobachters kompatibel ist. So bezieht sich Bild 2 konkret auf ein Seminarereignis in Potsdam, bei dem Personen Wissen zum Thema „virtuelle Welten“ und „3D“ austauschen. Das Diagramm im Vordergrund hebt dabei relevante Wissensereignisse rot hervor. Hier handelt es sich um bestimmte Wissensflüsse und die Kommunikation von für den Beobachter relevanten Inhalten einschließlich der an dieser Kommunikation beteiligten Personen. Zusätzlich werden die Ereignisse horizontal nach Zeit und vertikal nach Ort clusterisiert. Die Orte sind in aufeinander gestapelten so genannten Swimlanes gegliedert und enthalten die Personen, die sich zu einem bestimmten Zeitpunkt an dem jeweiligen Ort befanden. Die Zeitstempel sind entlang der unteren horizontalen Achse des Diagramms angeordnet.

Die Details mit der Hervorhebung der entsprechenden Schlüsselwörter des über KMDL formalisierten Wissensereignisses werden darüber hinaus in einer weiteren Ansicht angezeigt. Sichtbar werden hier auch die stattgefundenen Wissensflüsse, die den entsprechenden Keywords zugeordnet sind (siehe Bild 3).

Bild 3: Hervorhebung von Wissensflüssen mit relevanten Lehrinhalten

Fazit

Die zunehmende Nutzung des World Wide Web mit der immer größer werdenden Informationsflut und mobilen Vernetzung hat die hier vorgestellte Architektur zur Erkennung relevanter Ereignisse und Beziehungen innerhalb großer, unstrukturierter Informationsmengen motiviert. Es konnten diverse Problembereiche – beispielhaft vorgestellt wurden die Kriminalität im Web, die Einflusswahrnehmung auf die Geschäftsumwelt eines Unternehmens durch das Management und die Synergiebildung in virtuellen Lernumgebungen – identifiziert werden, welche sich durch einen zweckgerichteten Einsatz der beschriebenen Architektur adressieren lassen.

Weil mit dem Fortschritt von Transparenzmethoden und ihren Technologien die Gegenmethoden zur Verschleierung von Informationen, Zusammenhängen und Ereignissen entwickelt und ausgebaut werden, ist mit diesem Artikel das adressierte Thema längst nicht abgeschlossen. Auch mit Aspekten von Privatsphäre und Datenschutz, denen eine wachsende Bedeutung zukommt, muss sich eingehend auseinander gesetzt werden.

Literaturangaben
[1] Sultanow, E. & Sonnenborn H.-P. (2013). Entscheidungsrelevanz und Personengebundenheit als diffizile Wissenseigenschaft: Eine empirische Studie zu acht Faktoren. IM Information Management & Consulting. 28(2), S. 76-83.
[2] Sultanow, E., Brockmann, C., Cox, S. & Gronau, N. (2014). The Need for Managerial Awareness of Influences in Emerging Economies. AMCIS 2014: 20th Americas Conference on Information Systems, Savannah, Georgia, USA.
[3] Directive 2011/93/EU of the European Parliament and of the Council of 13 December 2011 on combating the sexual abuse and sexual exploitation of children and child pornography, and replacing Council Framework Decision 2004/68/ JHA. Official Journal of the European Union, L 335/1, 17.12.2011.
[4] Lucke, U. (2013). Technical approaches for the detection of criminal activities in online environments. Oranienburger Schriften, 7(Sonderausgabe), S. 71-82.
[5] Rozenfeld, M. (2014). The Future of Crime Prevention: Big data can stop criminals in their tracks. IEEE The Institute, September 2014, S. 8.
[6] Sultanow, E., Cox, S., Brockmann, C., & Gronau, N. (2015). Real World Awareness via the Knowledge Modeling and Description Language. In M. Khosrow-Pour (Ed.), Encyclopedia of Information Science and Technology, Third Edition (pp. 5224-5234). Hershey, PA: Information Science Reference. doi:10.4018/978-1-4666-5888-2.ch516
[7] Feldman, S. (2004). The high cost of not finding information. KMWorld, 13(3). Abgerufen von http://www.kmworld.com/Articles/Editorial/Features/The-high-cost-of-not-finding-information-9534.aspx
[8] Jun, J. (2005). Understanding E-dropout?. International Journal on E-Learning, 4(2), 229-240. Norfolk, VA: AACE.
[9] Rostaminezhad, M. A., Mozayani, N, Norozi, D., & Iziy, M. (2013): Factors Related to E-learner Dropout: Case Study of IUST Elearning Center. Procedia – Social and Behavioral Sciences 83 (2013) 522-527.
[10] Robertson, G. G., Card, S. K., & Mackinlay, J. D. (1989). The Cognitive Coprocessor Architecture for Interactive User Interfaces. In J. L. Sibert (Hrsg.), Proceedings of the 2nd annual ACM SIGGRAPH symposium on User interface software and technology (S. 10-18). New York, NY: ACM Press.
[11] Card, S. K., Mackinlay, J. D., & Shneiderman, B. (1999). Readings in Information Visualization: Using Vision to Think. San Francisco, CA: Morgan Kaufmann.
[12] Tufte, E. R. (2007). The Visual Display of Quantitative Information (2. Auflage). Cheshire, CT: Graphics Press.
[13] Zhang, Q., Segall, R. S., & Cao, M. (2011). Visual Analytics and Interactive Technologies: Data, Text and Web Mining Applications. Hershey, PA: Information Science Reference.
[14] Xu, G., Zhang, Y., & Li, L. (2011). Web Mining and Social Networking: Techniques and Applications. New York, NY: Springer.
[15] Runkler, T. A. (2000). Information Mining: Methoden, Algorithmen und Anwendungen intelligenter Datenanalyse. Wiesbaden, Deutschland: Vieweg+Teubner.
[16] Gehra, B. (2005). Früherkennung mit Business-Intelligence-Technologien: Anwendung und Wirtschaftlichkeit der Nutzung operativer Datenbestände. Wiesbaden, Deutsch-land: Deutscher Universitäts-Verlag.
[17] Hannig, U. (2002). Knowledge Management + Business Intelligence = Decision Intelli-gence. In U. Hannig (Hrsg.), Knowledge Management und Business Intelligence (S. 3-25). Berlin, Deutschland: Springer.
[18] Grothe, M. (2003). Collaborative Intelligence verbindet Business Intelligence und Wissensmanagement. Zeitschrift für Controlling & Management, 47(2), 101-106.
[19] Lucke, U. (2006). An Algebra for Multidimensional Documents as Abstraction Mechanism for Cross Media Publishing. Proc. 2nd Int. Conf. on Automated Production of Cross Media Content for Multi-channel Distribution (Axmedis), New York, USA : ACM.
[20] Heinrich, C. E. (2005). RFID and Beyond: Growing Your Business Through Real World Awareness. Indianapolis, IN: John Wiley & Sons.
[21] Heinrich, C. E. (2006). Real World Awareness (RWA) – Nutzen von RFID und anderen RWA-Technologien. In: D. Karagiannis & B. Rieger (Hrsg.), Herausforderungen in der Wirtschaftsinformatik (S. 157-161). Berlin, Deutschland: Springer.
[22] Sultanow, E. (2013). Wissen zugänglich machen mithilfe von Mobiltechnik. iX, 26(11), S. 122-126.
[23] Gronau, N. (2012). Modeling and Analyzing knowledge intensive business processes with KMDL: Comprehensive insights into theory and practice. Berlin, Deutschland: Gito.

http://wi.uni-potsdam.de

Dipl.-Inf. Eldar Sultanow promoviert am Lehrstuhl für Wirtschaftsinformatik der Universität Potsdam und ist CIO der XQS Service GmbH. Er studierte Softwaresystemtechnik am Hasso-Plattner-Institut und Informatik an der Universität Potsdam. Er ist Autor von Fachbüchern, Tagungsbänden, internationalen Journalen und leitet den Arbeitskreis „Software-Engineering“ der Forschungsvereinigung Software e.V.

http://cs.uni-potsdam.de/mm/

Prof. Dr.-Ing. habil. Ulrike Lucke hat den Lehrstuhl für Komplexe Multimediale Anwendungsarchitekturen am Institut für Informatik der Universität Potsdam inne. Darüber hinaus ist sie als Chief Information Officer (CIO) verantwortlich für IT-Strategie und E-Learning. Neben anderen Positionen ist sie Mitglied des Präsidiums der Gesellschaft für Informatik, Mitglied des Vorstands der Konrad-Zuse-Gesellschaft sowie Mitglied im Beraterkreis Technik & Entwicklung des Vorstands der HIS GmbH.