Suchen

Neuronale Netze zur strukturierten Aufbereitung von Daten Selbstlernende Erkennungssoftware hebt ECM und EIM auf neues Niveau

| Autor: Elke Witmer-Goßner

In den Datenbeständen deutscher Unternehmen schlummert eine Menge Informationen. Vor allem Archivsysteme, die seit vielen Jahren von unterschiedlichen Anwendungen wie Enterprise Content Management (ECM) oder dessen Fortführung Enterprise Information Management (EIM) bedient werden, enthalten Daten, deren Informationsgehalt nicht ansatzweise nutzbringend eingesetzt wird.

Durch die Kombination neuronaler Netze und verteilter Softwarearchitekturen entsteht die nächste Generation ECM-/EIM-Software.
Durch die Kombination neuronaler Netze und verteilter Softwarearchitekturen entsteht die nächste Generation ECM-/EIM-Software.
(Bild: gemeinfrei© Gerd Altmann / Pixabay )

Das liegt in erster Linie daran, dass klassische Archiv- oder auch ECM-Systeme Dokumentinformationen nur auf Kopfebene erfassen. Detaillierte Inhalte sind im Normalfall nicht abrufbar oder nur durch ungenaue, teure und aufwändige Prozeduren wie beispielsweise einer Volltextindizierung zu finden. Ganz zu schweigen von einer strukturierten Aufbereitung dieser Informationen zur weiterführenden Verarbeitung. Eine technische Lösung, das künftig zu ändern, liefert das IT-Unternehmen Deepshore aus Hamburg.

Die Hamburger Software-Ingenieure haben auf Basis von Open-Source-Projekten und Google-Technologien eine Software entwickelt, die in der Lage ist, auch unstrukturierte Bildformate wie beispielsweise TIFF oder BMP zunächst in les- und analysierbare Daten umzuwandeln und damit Inhalte zu erkennen. Diese Informationen können dann mittels eines neuronalen Netzes automatisch analysiert und klassifiziert werden.

Je nach Anforderung ist es möglich, auf diese Weise gewonnene Erkenntnisse auch so zu speichern, dass nicht auf die gewohnte Compliance-Fähigkeit klassischer ECM-Systeme verzichtet werden muss. Diesen Teil der Lösung ergänzt Deepshore mit seinem verteilten Cloud-Archiv auf Basis von Blockchain-Technologie. Deepshore arbeitet als Innovation Hub des ebenfalls in Hamburg ansässigen ECM-Spezialisten nextevolution und hat das verteilte Cloud-Archiv 2019 im Rahmen einer Forschungskooperation mit dem Handelskonzern Metro entwickelt.

Das Prinzip Neuronaler Netze.
Das Prinzip Neuronaler Netze.
(Bild: © Andreas Otto, sense:ability Berlin)

Einer der großen Vorteile gegenüber herkömmlichen technischen Ansätzen in diesem Bereich ist die infrastrukturelle Flexibilität der Lösung. Durch die eingesetzte Container-Technologie kann Software vollständig als Service in einer Cloud, im eigenen Rechenzentrum oder auch hybrid als Mischung aus beidem, betrieben werden. Aufwändige Installationen werden dadurch überflüssig und bei richtiger Konfiguration kann mit steigender Last der Ausbau eines Systems nahezu vollautomatisch skaliert werden.

Nach der Entwicklung kann das neuronale Netz nun mit Echtdaten trainiert werden. Deepshore verspricht sich durch das neue System im trainierten Zustand wesentlich bessere Erkennungsraten im Vergleich zu bisherigen Lösungen – wie etwa einer klassischen Optical Character Recognition (OCR), einer automatisierten Texterkennung in Bildern – in Kombination mit vordefinierten Suchmustern auf Basis von Regular Expressions (Sprachelemente für reguläre Ausdrücke). Darüber hinaus werden in Zukunft die gesamten Betriebskosten der Dokumentenerkennung und Klassifizierung signifikant geringer sein.

Über den Autor

 Elke Witmer-Goßner

Elke Witmer-Goßner

Redakteurin, CloudComputing-Insider.de