ABOUT NORCOM
Intelligentes Nachrichtenmanagement / Duplikaterkennung
Die Aufgabe
In einem Redaktionssystem strömen täglich riesige Mengen von Nachrichtenmeldungen aus verschiedensten Agenturen ein. Oft ist es unklar, wie die Meldungen entstanden sind und aus welchen Quellen die Informationen darin ursprünglich stammen. Die Kenntnis der Quellen ist aber Voraussetzung für die Prüfung auf Echtheit der Informationen und der Erkennung von Falschmeldungen. Die Recherche wird dabei durch die Vielzahl naher Duplikate erschwert, Suchen nach Inhalten liefern oft zu viele, redundante Treffer. Erstellt wurde eine Lösung, die alle zu einer Meldung ähnlichen Meldungen identifiziert, Duplikate und nahe Duplikate filtriert und daraus eine Meldungsgeschichte in Form eines Stammbaums erstellt.
Die Herausforderung
Die Suche nach ähnlichen Meldungen erfordert ein Vergleich mit jeder anderen Meldung. Dabei stößt man bereits bei einer relativ kleinen Anzahl an Meldungen an die Grenzen heutiger Rechenkapazitäten.​
​
Unsere Lösung
Zunächst wurde ein Algorithmus trainiert, der neue Meldungen erkennt und diesen automatisiert Nachrichtenkategorien (Sport, Wirtschaft, etc) auf Basis der Meldungsinhalte zuweist. Der so verkleinerte Suchraum ist allerdings immer noch zu groß, um mit Standard-Methoden effizient ähnliche Meldungen zu finden. Zum Einsatz kam daher ein Hashing-Trick, der jeder Meldung einen numerischen Hash zuordnet, und zwar so, dass ähnlichen Meldungen ähnliche Hashes zugewiesen werden. Durch Ablage der Hashes in einer Look-Up-Tabelle können nun alle zu einer Meldung ähnlichen Meldungen einfach abgerufen und anhand der darin enthaltenen Daten eine Meldungshistorie erstellt werden.​
​
Der Kundennutzen
Dank Deduplizierung können sich Redakteure auf die wesentlichen Nachrichten fokussieren. Die Anordnung entlang eines Meldungsstammbaums unterstützt bei der Recherche zur Entstehung der darin enthaltenen Informationen.
Projekt-
steckbrief
Unsere Rolle
-
Unterstützung des Kunden durch Data Scientists und Data Engineers
Unsere Tätigkeiten
-
Automatisierung der Aufbereitung und Indizierung von Dokumenten
-
Etablieren von Analyse- und Machine Learning Pipelines zur Klassifizierung der Dokumente
-
Extraktion von Information aus den unstrukturierten Dokumenteninhalten
Technologien & Methoden
-
Applikationen: Eagle
-
Daten/-banken: Elastic, Hbase
-
Sprachen / Frameworks: Python (Anaconda Stack), Hadoop, Spark
-
Methoden: Natural Language Processing, Information Extraction, Machine Learning, Locality Sensitive Hashing