Content Analytics & Big Data

Autor – Patrick Benoit, Regional Director EMEA Central, Datawatch Corporation

Big Data bestimmt zunehmend den Alltag und entscheidet über Erfolg und Misserfolg von Unternehmen aus nahezu allen Branchen. Die Datenmenge, die Datenvielfalt und die Geschwindigkeit der Bereitstellung nehmen ständig zu. Dies gilt nicht nur für strukturierte, sondern auch für unstrukturierte Daten in Content Management-Systemen. Content Analytics-Projekte scheitern jedoch häufig nicht an der Datenmenge, sondern an der Einbindung unterschiedlichster Datenformate aus internen und externen Datenquellen. Denn die Daten sind oft verteilt auf die verschiedensten unternehmensweiten Systeme, Datawarehouses und Laufwerke. Gleichzeitig liegen viele wertvolle Informationen in unstrukturierter oder semi-strukturierter Form vor.

Die noch relativ junge Disziplin Content Analytics hat es sich zur Aufgabe gemacht, den Content so zu erschließen und aufzubereiten, dass er für Analysen als Teil von Big Data zur Verfügung steht und im Anschluss daran mit Hilfe von Visual Data Discovery analysiert werden kann.

Unstrukturierte Daten sind das Problem

Die Hauptproblematik besteht darin, dass Business Intelligence (BI)- und Analyse-Werkzeuge unstrukturierte Daten und Texte nicht direkt verarbeiten können. Hinzu kommt als weiteres Handicap die Abhängigkeit von der IT-Abteilung, sobald bestehende Reports geändert oder neue Reports eingeführt werden sollen. Dies zeigte auch eine Studie der AIIM (Association for Information and Image Management) mit dem Titel „Big Data and Content Analytics: measuring the ROI“ aus dem vergangenen Jahr. Nach den größten Hürden für BI und Content-Analyse befragt, wurde der fehlende Zugang zu semi- und unstrukturierten Datenquellen von 35 Prozent der Studienteilnehmer als zweitgrößtes Problem genannt. Am häufigsten wurde das völlige Fehlen standardisierter Analysetools beklagt (40 Prozent).

Hürden für BI und Content-Analyse
Hürden für BI und Content-Analyse

Viele Unternehmen versuchen, die wertvollen Informationen aus den unstrukturierten Daten mit Anwendungen für die Syntaxanalyse zu erschließen. Damit erzeugen sie zusätzliche Metadaten, die dann mit Tabellen verknüpft werden können. In der einfachsten Form können so beispielsweise Kundennamen extrahiert werden, um die interne Korrespondenz mit den CRM-Daten zu verbinden. Eine neue Generation von Analysetools bietet darüber hinaus die Möglichkeit, auch numerische Werte aus beliebigen Dateien zu extrahieren und sie in eine Tabellenform für weitere Auswertungen zu überführen. Dies ist beispielsweise für die Auswertung von digitalen Rechnungsarchiven und anderen Finanzdokumenten sehr hilfreich. So nutzt beispielsweise der Finanzdienstleister BNP Paribas Securities Services die Werkzeuge von Datawatch, um Berichte und andere Dokumente, die im eingesetzten EMC Documentum hinterlegt sind, für Analysen zu erschließen.

Wie groß hier der Nachholbedarf in den Unternehmen ist, zeigte die AIIM-Studie ebenfalls sehr deutlich. Den Wunsch zusätzliche Dateitypen, von PDF und PowerPoint über HTML-Dateien, Server Logs und E-Mails bis hin zu Maschinendaten und Social Media auszuwerten, äußerten abhängig vom Dateityp jeweils zwischen 40 und 50 Prozent der Befragten.

Integration der unterschiedlichen Dateitypen
Integration der unterschiedlichen Dateitypen

Datenauswertung: Unternehmen setzen klare Prioritäten

AIIM fragte in der Studie auch danach, welche Auswertungen die Unternehmen auf der Grundlage semi- oder unstrukturierter Daten ausführen oder ausführen würden. Es zeigte sich, dass bei den meisten Unternehmen die Verbesserung der Datenqualität und die Erzeugung von Metadaten im Vordergrund standen. Am häufigsten steht die Analyse von Helpdesk-Logfiles und von CRM-Berichten im Fokus. Die Auswertung von Service- und Mängelberichten, Schadensersatzforderungen, Zeugenaussagen und von Kommentarfeldern aus Formularen steht ebenfalls weit oben auf der Prioritätenliste.

Weitere Ziele waren die Automatisierung von Compliance-Anforderungen und von Sicherheitsscreenings des Contents, wozu auch die Aufdeckung von Betrugsversuchen zählt. Trendanalysen, prädiktive Modellierung und Datenvisualisierung stehen als nächstes auf der Wunschliste, gefolgt von der Kundenkommunikation und Social Media Monitoring. Die Analyse von Kundenstimmungen stand erstaunlicherweise nicht im Fokus der Befragten.

Prioritäten bei der Datenauswertung
Prioritäten bei der Datenauswertung

Auch Druckströme, Fallunterlagen im Bereich Versicherungen oder Gesundheitswesen sowie professionelle Gutachten würden viele Unternehmen ebenfalls gerne auswerten. Hier ist die Handschriftenerkennung ein oft noch unüberwindbares Hindernis. Je häufiger jedoch Tablets und Laptops für Notizen genutzt werden, umso einfacher werden auch diese Informationen zugänglich.

Eines der naheliegenden Anwendungsgebiete für Big Data-Analysen ist der Marketingbereich. Öffentlich zugängliche Social Media-Aktivitäten liefern Marketingmanagern beides, Informationen über positive Kundeneinschätzungen von Marke und Produkten, aber auch negative Stimmungen und potenzielle „Shit Stroms“. Mehr als ein Viertel der von der AIIM befragten Unternehmen gibt zu, hier zu wenig zu tun. Lediglich 10 Prozent haben ein automatisiertes Monitoring implementiert.

Überführung aller Dokumenttypen in strukturierte Daten

Bei modernen Lösungen für das Datenmanagement und für die Datenanalyse spielt es keine Rolle, ob die Ausgangsdaten unstrukturiert, semistrukturiert oder hoch strukturiert vorliegen. Es lassen sich beliebige Dokumententypen und Dateiformate, darunter PDF, Text, Rechnungen, ERP-Reports oder Berichtslisten aus Großrechnern, verarbeiten. Unstrukturierte und semistrukturierte Daten aus dem Datawarehouse und aus BI-, ERP-, ECM- und CRM-Systemen lassen sich mit Informationen aus Print-, PDF-, Archiv-, Text- und Rechnungs-Dokumenten sowie mit HTML-, XML-, EDI-, CSV-Daten in Beziehung setzen und für Reporting-Aufgaben in strukturierte Daten umwandeln. Die zeitaufwändige manuelle Erfassung oder Umformatierung entfällt. Dabei ist es wichtig, dass sich nahezu alle Datenformate ohne Programmier- oder Datenbankkenntnisse und ohne Zugriff auf Systemschnittstellen auslesen und für die visuelle Analyse weiterverarbeiten lassen.

Aus welchem Dateispeicher die Daten kommen, wird dadurch unerheblich. Dies können sowohl Archivsysteme wie ein IBM Content Manager OnDemand (CMOD) oder aber etablierte ECM-Systeme wie EMC Documentum oder Perceptive sein. Wichtig dabei ist aber der Compliance-Aspekt: Die Daten müssen von jeder Datenhierarchieebene aus zu dem jeweiligen ursprünglichen Report und zu der jeweiligen Quelle zurückverfolgt werden können. Nur so sind alle Daten sicher und jederzeit nachprüfbar.

Datenbanken: Basis der Analyse-Infrastruktur

Sollen die aufbereiteten Daten weiter genutzt werden, können sie einfach in relationale Datenbanken oder auch in Hadoop importiert werden. Da Hadoop per se semistrukturierte Daten nur schwer verarbeiten kann, erweitern Unternehmen damit ihre Big Data-Infrastruktur, da sie zusätzliche Informationsquellen in Hadoop auswertbar machen. Natürlich lassen sie sich auch mit einer Visual Data Discovery-Lösung aufbereiten. Diese verfügen über Bibliotheken von interaktiven Visualisierungen, von Heatmaps über Treemaps bis hin zu grafischen Zeitreihendarstellungen.

Die effektive und reaktionsschnelle Auswertung aller verfügbaren Daten ermöglicht zügige und fundierte Geschäftsentscheidungen. Die IT darf dabei kein Engpass sein. Self Service-Lösungen wirken als „Enabler“ für die Fachabteilungen. Alle Mitarbeiter können selbständig auf Daten zugreifen, sie extrahieren, analysieren, bearbeiten und entscheiden, wie sie die Daten nach den Erfordernissen ihres Fachgebiets effektiv nutzen.

Fazit

Mit Datenanalyse-Werkzeugen wie beispielsweise Datawatch können Geschäftsanwender Informationen aus nahezu allen Datenquellen und in nahezu allen Formaten ohne Programmier- oder Datenbankkenntnisse und ohne Zugriff auf Systemschnittstellen neu bewerten, organisieren oder integrieren. Weil bisher nicht zugängliche Datenquellen erschlossen werden, entsteht eine ganzheitliche Sicht auf die Problemstellungen oder Chancen eines Unternehmens. Das Ergebnis sind Erkenntnisse, die zu einer Verbesserung der Geschäftsentscheidungen, schlankeren Prozessen und zu mehr Produktivität verhelfen.

Quelle:
AIIM Studie: „Big Data and Content Analytics: measuring the ROI“, 2013. http://www.datawatch.com/literature/aiim-market-intelligence-big-data-and-content-analytics-measuring-the-roi/

www.datawatch.de

Patrick Benoit ist Regional Director EMEA Central bei Datawatch. Die Datawatch Corporation (NASDAQ-CM: DWCH) bietet Softwarelösungen für Datenvisualisierung und Datenmanagement. Mit Data Discovery stellen Unternehmen Daten in leicht verständlichen, interaktiven Visualisierungen dar und erkennen unmittelbar Zusammenhänge – selbst in großen und komplexen Datenbeständen sowie Big-Data-Umgebungen.