Multimedia-Datenfluten – alles unter Kontrolle?

Claus Blank ist Sales Manager Deutschland, Österreich & Schweiz bei ZyLAB

Immer mehr Geschäftsprozesse erfordern den Einsatz von Voice Over IP, Unified Messaging und Online Meetings, produzieren Smartphone-Daten oder auch Aufzeichnungen von Video- oder Sprachüberwachungen. Dadurch steigt die Wahrscheinlichkeit, dass sich kritische Informationen in solchen Multimediadaten verbergen. Hinzu kommt, dass im Rahmen des angestrebten papierlosen Geschäftsverkehrs ein hoher Anteil an gescannten Dokumenten oder Image-Dateien die Papierdokumente verdrängt. Mit diesen und anderen „exotischen“ Datenformaten müssen sich Unternehmen also zukünftig auseinandersetzen.

Alle diese unterschiedlichen Datentypen müssen im Unternehmen gemeinsam verwaltet werden. Das setzt voraus, dass man eingehende unstrukturierte Informationen zunächst strukturiert, erfasst, verarbeitet und analysiert. Dazu gehört auch, dass ein System z.B. Multimedia-Dateien erkennt, automatisiert mit Metadaten versieht und sie dann – je nach Dateityp – mit der passenden Engine (Audio, Bild oder OCR) verarbeitet. So aufbereitet lassen sich die Daten bei Bedarf effizient durchsuchen.

Szenarien für die Suche in Multimedia-Daten

Je nach Datentyp bieten sich hierfür unterschiedliche Suchverfahren und -tools an, wie z.B. die phonetische Suche, die bei Sprachdaten die Identifizierung von bestimmten Wörtern und Suchbegriffen übernimmt. Multinational agierende Unternehmen profitieren zudem davon, wenn hier gleich mehrere Sprachen unterstützt werden. Für die Suche in Image-Dateien ist es wiederum hilfreich, wenn entsprechende Tools für eine rasche Umwandlung in durchsuchbare Inhalte sorgen und beim Tagging mit umfangreichen Taxonomien gearbeitet wird. Und eine OCR-Engine sollte unabhängig von der Scanrichtung arbeiten und auch auf dem Kopf stehende Scans durchsuchen können. Dann lassen sich auch sämtliche potenziell relevanten Informationen finden – selbst wenn sie beispielsweise in einem französischsprachigen Bitmap-Dokument vorliegen, das um 90 Grad gedreht eingescannt, dann gezippt, an eine E-Mail angehängt und anschließend in eine weitere E-Mail eingebettet wurde.

Aber wie sehen die Suchszenarien aus, in denen eine Multimedia-Unterstützung notwendig wird? Denkbar sind viele – allein im Bereich Wissenschaft und Forschung bieten sich viele Anwendungen an – doch kritisch wird es, wenn es um Korruptionsfälle, Betrug und Rechtsstreitigkeiten geht. Hier kann die gezielte Suche nach und Aufdeckung von Informationen Grundlage für eine lückenlose Beweiskette sein. Kann man die nicht erbringen, stehen häufig viel Geld und der gute Ruf auf dem Spiel. Ähnlich relevant ist eine ausgefeilte Suchfunktionalität mit Multimedia-Unterstützung im Bereich der Strafverfolgung, von forensischen Untersuchungen und bei der Arbeit von Nachrichtendiensten. So kann es beispielsweise erforderlich sein, dass aus einer Menge mitgeschnittener Telefongespräche nur jene herauszufiltern sind, die mit einer bestimmten Telefonnummer zusammenhängen. In diesen identifizierten Gesprächen soll anschließend nach bestimmten Schlüsselwörtern gesucht werden. Im Trefferfall lassen sich dann die entsprechenden Abschnitte abspielen und z.B. auf Nuancen im Tonfall untersuchen.

Oder es geht um die Auswertung von Bilddateien, die vielleicht nach folgenden Kriterien gefiltert werden sollen: Gesucht sind alle Bilder im Querformat, auf denen ein Erwachsener und ein rotes Auto im Vordergrund zu sehen sind, und die von einer Kamera des Typs Canon EOS 5D aufgenommen wurden. Die daraus resultierende Trefferliste kann man anschließend gegebenenfalls noch weiter auf einen Aufnahmeort und einen bestimmten Zeitrahmen einschränken. Die solchermaßen reduzierte Datenmenge steht dann zur manuellen weiteren Überprüfung bereit. In jedem Fall bedeutet dies für ein Ermittlungsteam eine erhebliche Arbeitserleichterung.

Die Vorteile der Multimedia-Unterstützung machen sich auch bei der Suche in gescannten Dokumenten bemerkbar: So kann es in einem Unternehmen beispielsweise erforderlich sein, sämtliche gescannten Verträge, Leistungsbeschreibungen und Konstruktionspläne zu finden, die bestimmte Lieferantennamen, Seriennummern oder Abmessungen enthalten. Diese können dann schnell quergeprüft werden hinsichtlich ausgehandelter Konditionen und durchgeführtem Entwurf.

Datenschutz für Audiodateien – international unterschiedlich

In der Regel möchte kein Unternehmen sich dem Risiko von rechtlicher Angreifbarkeit oder Sicherheitslücken aussetzen. Vernachlässigt werden bei entsprechenden Prüf- und Sicherheitsmaßnahmen aber häufig die Audiodateien. Und das, obwohl ihre Anzahl in Unternehmen ständig zunimmt. Audiodateien entstehen auf traditionellen Festnetz-Systemen, VOIP, Handys und speziellen Plattformen wie Skype oder MSN Live.

In den USA ist die Aufzeichnung bestimmter Gespräche gesetzlich vorgeschrieben, im europäischen Raum allerdings durch Datenschutzbestimmungen eng eingeschränkt. Es gilt prinzipiell die „Vertraulichkeit des gesprochenen Wortes“. Oft ist aber auch hier das Aufzeichnen von Telefonaten wichtig bzw. zwingend erforderlich – egal ob zur Qualitätskontrolle im Call-Center, als Beweis bei einem Notruf, als Service bei einem Sicherheitsdienst, als Gespräch mit einem Informanten bei Redaktionen oder als Auftragsnachweis im Wertpapiergeschäft bei Finanzdienstleistern. Hierfür ist in der Regel die Zustimmung der Gesprächsteilnehmer einzuholen. Hinzu kommen besondere Regelungen für die Aufzeichnung von Gesprächen im Rahmen des Telefonbankings: Wertpapierdienstleistungsunternehmen wie eine Bank sind nach § 34 des Gesetzes über den Wertpapierhandel (WpHG) verpflichtet, Aufzeichnungen über die erbrachten Wertpapierdienstleistungen und Wertpapiernebendienstleistungen zu erstellen.

Suchmethoden für Audiodateien im Vergleich

Auf jeden Fall können Gesprächsmitschnitte wichtige Informationen enthalten, die für den Ausgang eines Rechtsstreits möglicherweise ausschlaggebend sind. Daher ist es wichtig, diese Audiodateien effizient durchsuchen zu können. Es gibt grundsätzlich drei unterschiedliche Arten, ein sogenanntes “Audio-Discovery”, also die gezielte Suche und Offenlegung bestimmter Informationen in Audiodateien, durchzuführen.

Naheliegend erscheint zunächst der Ansatz, die Aufnahmen durch Mitarbeiter abhören zu lassen. Das bindet aber extrem Ressourcen und ist wenig effizient. Dennoch: Ein Vorteil dieses Verfahrens der „alten Schule“ ist, dass der Zuhörer subtile Nuancen und Tonfälle mitbekommt und das Gehörte gleich interpretieren und beurteilten kann. Dem gegenüber stehen einige offensichtliche Nachteile: Es kann immer nur ein Gespräch untersucht werden. Außerdem haben Menschen eine begrenzte Aufnahme- und Aufmerksamkeitsspanne, was das erinnerungsfähige Datenvolumen und die Anzahl der zu suchenden Begriffe beschränkt. Dazu kommt die einzukalkulierende Fehleranfälligkeit: Es können wichtige Dinge übersehen bzw. überhört werden. Insgesamt bedeutet das, dass die Überprüfung von Audiodateien durch individuelles Abhören extrem teuer und nur in den allerkritischsten Fällen empfehlenswert ist.

Eine Alternative ist, die Audioaufnahmen in Text umzuwandeln. Die Technologie zur Konvertierung vom gesprochenen Wort in Text – in der Fachsprache als “Large Vocabulary Continuous Speech Recognition (LVCSR)” bezeichnet – verarbeitet Sprachaufzeichnungen mit Hilfe eines umfangreichen Wörterbuchs. Basis für eine gute Erkennungsrate ist ein ausgefeiltes Sprachmodell, das wiederum hohe Anforderungen an die Verarbeitung stellt. Ist allerdings ein bestimmtes Wort oder ein Name nicht im verwendeten Wörterbuch enthalten, wird es nie gefunden. Zwar können bei dieser Technologie die erzeugten Audiotranskriptionen sehr schnell durchsucht werden. Trotzdem beansprucht die LVCSR-basierte Umwandlung von Audio in durchsuchbaren Text viel Prozessorleistung und lässt sich häufig nur zwei bis drei Mal schneller als in Echtzeit durchführen. Aus diesen Gründen hat der „Sprache-zu-Text“-Ansatz in den letzten Jahren eher enttäuschende Ergebnisse erzielt.

Aufgrund der geschilderten Nachteile der beiden ersten Methoden stellt die dritte Variante – die phonetische Suche – die interessantere Alternative dar. Dafür werden Audioaufnahmen zunächst in eine eher phonetische Darstellung als in geschriebene Wörter transformiert. Entsprechend sind auch die Suchanfragen in Phonem-Sequenzen (klangbasiert) umzuwandeln, damit sie mit den erkannten Sprach-/Klangaufzeichnungen verglichen werden können. Diese Vergleiche werden ermöglicht durch eine „Fuzzy-Technologie“ (unscharfe Suche), besser beschrieben als ein Prozess der „wahr/nicht wahr“-Eliminierung, wenn Daten – in diesem Fall Klänge – ungenau sind.

Phonetische Suche – zuverlässig und rechtssicher

So bleibt die phonetische Suche als beste Lösung für die Suche in großen Mengen von Audio- und Videodateien, die ja in der Regel auch Sound enthalten. Insbesondere dann, wenn viele Akteure an dem zu durchsuchenden Gespräch beteiligt sind. Die phonetische Suche bietet zudem den Vorteil, auch die Art und Weise interpretieren zu können, wie Wörter betont werden. Daher ist sie nicht nur darauf begrenzt, nach Begriffen in einem Wörterbuch zu suchen, sondern kann auch Suchanfragen nach persönlichen, Firmen- oder Markennamen durchführen. Eine auf phonetischer Erkennung basierende Suche ist zudem bis zu 80.000 Mal schneller als die Echtzeitsuche. So lassen sich mit nur einem Kern eines gängigen Intel-Prozessors acht Stunden Aufnahmematerial in weniger als einer Sekunde analysieren. Auch die Vorbereitung der zu durchsuchenden Inhalte ist schneller erledigt. Ein weiterer Pluspunkt für ein phonetisches Verfahren bedeutet zudem die Möglichkeit, eine Schwelle zur Begrenzung der Suchergebnisse einzubauen.

Im Kampf gegen Marktmissbrauch, Insiderhandel und Marktmanipulationen ist z.B. in den USA die Federal Security Agency (FSA) dazu übergegangen, zur Aufzeichnung von Kundenbestellungen und anderen telefonisch durchgeführten Transaktionen zu verpflichten. Diese Aufnahmen müssen für entsprechende Behörden im Bedarfsfall leicht zugänglich sein. Die FRCP-Regulierungen in den USA lassen außerdem zu, dass gegnerische Parteien im Rahmen der Informationsoffenlegung auch „Sound Recordings“ für die Beweissammlung anfordern können. Auch im Einflussbereich der US-Regulierungen Sarbanes-Oxley und SEC werden Audiodateien als Beweismittel immer häufiger.

Fazit

Durch die beschriebenen Vorteile der phonetischen Suche ist diese optimal geeignet für die Überprüfung von Audiodateien. Mithilfe der Lösungen, zum Beispiel ZyLAB Audio Search Bundle, lassen sich relevante Audioclips aus Multimedia-Dateien sowie aus verbreiteten Kommunikations-Tools wie Festnetz, VOIP oder Handy rasch identifizieren. Gleiches gilt für spezielle Plattformen wie Skype oder MSN Live. Durch die intuitive Bedienbarkeit der Software können auch technologisch nicht versierte Benutzer im Rahmen von Rechtsstreitigkeiten, forensischen Untersuchungen oder strafrechtlichen Ermittlungen Audiodateien durchsuchen und analysieren.