Skip to main content
FHEDEEN
Request information material

Bachelor Flyer Master Flyer

Contact

Sekretariat Angewandte Informatik
Tel.: 0361 / 6700-5510 sekretariat-ai@fh-erfurt.de

Besucheranschrift:

Fachhochschule Erfurt
Fakultät Gebäudetechnik und Informatik
Fachrichtung Angewandte Informatik
Altonaer Straße 25
99085 Erfurt

Konzeption und Entwicklung eines KI-gestützten Systems zur Dokumentenklassifizierung und -prüfung von Dateiuploads

Konzeptioneller Überblick über die Inferenz-Pipeline

Im Zuge der digitalen Antragserfassung in der Onlineantragstellung (OAS) müssen zahlreiche Benutzerangaben mit Dokumenten wie z. B. Angeboten, Rechnungen sowie Personaldokumenten belegt und anschließend manuell von Sachbearbeitern geprüft werden. Im Rahmen dieser Masterarbeit werden zunächst einige Grundlagen von etablierten Microservice-Prinzipien sowie KI-Systemen erläutert. Anschließend wird der aktuelle Stand zum Thema der sogenannten Document-Intelligence untersucht, um diesen Prüfprozess unterstützend zu automatisieren. In Bezug darauf werden bestehende Gesamtlösungen sowie geeignete KI-Modelle für die Dokumentenklassifizierung sowie das Dokumenten-Parsing und NER-Labelling betrachtet.

Für die KI-Modelle wird zunächst eine Trainings-Pipeline beschrieben sowie entwickelt, mit deren Hilfe diese mit einem - im Rahmen dieser Arbeit gelabelten - Datensatz trainiert und einheitlich evaluiert werden können. Zudem wird eine Inferenz-Pipeline als Microservice-Architektur konzipiert und implementiert, mit welcher die betrachteten Modelle als Gesamtsystem zusammen betrieben werden können. Zusätzlich umfasst die Arbeit den Entwurf einer Bildvorverarbeitungs-Pipeline, das Konzipieren von Baselines zur Prüfung, ob KI für die Dokumentenprüfung notwendig ist, sowie die Auswahl einer geeigneten OCR-Software.

Zur Auswertung des Systems werden die Modelle mithilfe von Kreuzvalidierung und k-Fold in mehreren Folds auf dem Datensatz trainiert, um anschließend das Modell des besten Folds mit den anderen Modellen zu vergleichen und das beste Modell je Aufgabenstellung zu ermitteln. In der abschließenden Evaluation erfolgt die Prüfung, welche Kombination der KI-Modelle am geeignetsten für das finale System ist sowie die Prüfung, ob eine Machine-Learning-Lösung für die Problematik der Dokumentenprüfung gerechtfertigt ist.

In the course of digital entry of applications in the context of the Online Application System (OAS) numerous user details must be documented with documents such as offers, invoices and personnel documents and then manually checked by administrative employees. This thesis first explains some of the basics of well established microservice principles and AI systems. It then examines the current state of document intelligence to automate this verification process in a supportive manner. In relation to this, existing overall solutions and suitable AI models for document classification, document parsing, and NER-labelling are considered.

First, a training pipeline is described and developed for the AI models, with the help of which they can be trained and uniformly evaluated with a dataset which is labelled as part of this thesis. In addition, an inference pipeline is designed and implemented as a microservice architecture. With this architecture different models under consideration can be chained and operated together as an overall system. This thesis also includes the design of an image preprocessing pipeline, creation of baselines to check if AI is required to successfully fulfill the task of document validation and the selection of suitable OCR-software.

To evaluate the system, the models are trained in several folds on the dataset using cross-validation and k-fold to then compare the model of the best fold with the other models and determine the optimal model for each task. The final evaluation checks which combination of AI models is most suitable for the final system and whether a machine learning solution is justified for the document validation problem.

Back