Im Zuge der digitalen Antragserfassung in der Onlineantragstellung (OAS) müssen zahlreiche Benutzerangaben mit Dokumenten wie z. B. Angeboten, Rechnungen sowie Personaldokumenten belegt und anschließend manuell von Sachbearbeitern geprüft werden. Im Rahmen dieser Masterarbeit werden zunächst einige Grundlagen von etablierten Microservice-Prinzipien sowie KI-Systemen erläutert. Anschließend wird der aktuelle Stand zum Thema der sogenannten Document-Intelligence untersucht, um diesen Prüfprozess unterstützend zu automatisieren. In Bezug darauf werden bestehende Gesamtlösungen sowie geeignete KI-Modelle für die Dokumentenklassifizierung sowie das Dokumenten-Parsing und NER-Labelling betrachtet.
Für die KI-Modelle wird zunächst eine Trainings-Pipeline beschrieben sowie entwickelt, mit deren Hilfe diese mit einem - im Rahmen dieser Arbeit gelabelten - Datensatz trainiert und einheitlich evaluiert werden können. Zudem wird eine Inferenz-Pipeline als Microservice-Architektur konzipiert und implementiert, mit welcher die betrachteten Modelle als Gesamtsystem zusammen betrieben werden können. Zusätzlich umfasst die Arbeit den Entwurf einer Bildvorverarbeitungs-Pipeline, das Konzipieren von Baselines zur Prüfung, ob KI für die Dokumentenprüfung notwendig ist, sowie die Auswahl einer geeigneten OCR-Software.
Zur Auswertung des Systems werden die Modelle mithilfe von Kreuzvalidierung und k-Fold in mehreren Folds auf dem Datensatz trainiert, um anschließend das Modell des besten Folds mit den anderen Modellen zu vergleichen und das beste Modell je Aufgabenstellung zu ermitteln. In der abschließenden Evaluation erfolgt die Prüfung, welche Kombination der KI-Modelle am geeignetsten für das finale System ist sowie die Prüfung, ob eine Machine-Learning-Lösung für die Problematik der Dokumentenprüfung gerechtfertigt ist.