Automatische Erkennung des Dateinamens

20.12.2018

Als vorweihnachtliches Geschenk, haben wir heute ein besonders Feature für Sie freigeschaltet. Laden Sie künftig Dokumente in die digitale Kundenakte und Professional works erkennt anhand des Dateinamens die Gesellschaft, Sparte und den Dokumententyp.

Bitte beachten Sie, dass die Erkennung auf Basis des Dokumentennamens erfolgt. Der Inhalt der Dokumente wird nicht berücksichtigt. Je präziser Sie Ihre Dokumente benennen, umso genauer ist die Trefferwahrscheinlichkeit. Wichtig: Sofern Teile des Dokumentennamens nicht erkannt werden, werden Ihnen die fünf wahrscheinlichsten Ergebnisse angezeigt.

Wie funktioniert diese Form der künstlichen Intelligenz?

  • Der selbstlernende Algorithmus ordnet die Dokumente anhand einer Häufigkeitsanalyse zu. Dafür wurden über eine Millionen vorhandener Dateinamen nebst ihrer Zuordnung analysiert und als Trainingsmenge für zukünftige Vorhersagen verwendet.  
  • Dazu wurden die Dateinamen an bestimmten Zeichen in einzelne Worte zerlegt, um eine Aussage über die Zuordnung zu treffen. Nicht relevante Wörter wurden verworfen, um die Ergebnisse der Vorhersage zu verbessern. Anschließend wurden die prognostizierten Zuordnungen mit den tatsächlichen verglichen. Durch diesen Abgleich konnte die prozentuale Genauigkeit errechnet werden. Erst ab einer Übereinstimmung von über 70% Prozent wurde das System als reif genug betrachtet, um es online zu stellen.
  • Um Wortabwandlungen zu korrigieren, wurde ein genetischer Algorithmus mit drei Generationen angewendet, um die Worte zu normalisieren.
  • Mit einem abgeschwächten Porter-Stemmer Algorithmus wurden die Wörter auf ihre zugrunde liegenden Wortstämme reduziert.
  • Durch menschliche Korrekturen werden die bestehenden Resultate der Häufigkeitsanalyse konkretisiert und das System zunehmend verbessert. Das System lernt also durch Ihren Input beständig dazu.