Skip to main content
FHEDEEN
Infomaterial anfordern

Bachelor Flyer Master Flyer

Kontakt

Sekretariat Angewandte Informatik
Tel.: 0361 / 6700-5510 sekretariat-ai@fh-erfurt.de

Besucheranschrift:

Fachhochschule Erfurt
Fakultät Gebäudetechnik und Informatik
Fachrichtung Angewandte Informatik
Altonaer Straße 25
99085 Erfurt

Efficient MLOps Pipeline for On-Premise Deployment and Monitoring of Large Language Models in Resource-Constrained Environments

Function calling flow from user query to structured API invocation and result interpretation

Große Sprachmodelle (LLMs) wie Llama 3.2 haben AI-Anwendungen revolutioniert, doch ihre Bereitstellung in ressourcen-beschränkten, datenschutzsensiblen Umgebungen bleibt aufgrund hoher Rechenanforderungen und der Abhängigkeit von Cloud-Infrastruktur herausfordernd. Diese Arbeit untersucht die Machbarkeit der On-Premise-Bereitstellung des quantisierten Llama 3.2-3B-Modells, mit Schwerpunkt auf effiziente Ressourcennutzung, robuste Überwachung und automatisierte Workflows durch Machine Learning Operations (MLOps). Unter Anwendung einer iterativen Methodik beginnt die Studie mit einer Machbarkeitsbewertung unter Verwendung von Ollama für lokale Inference und Unsloth für parameter-effizientes Fine-Tuning auf Consumer-Grade-Hardware (z. B. GTX 1050 Ti mit 4 GB VRAM). Nachfolgende Verbesserungen umfassen Containerisierung via Docker, Orchestrierung mit MicroK8s Kubernetes, Experiment-Tracking mit MLflow und Workflow-Automatisierung durch Argo Workflows und GitLab CI/CD. Ein benutzerdefiniertes Dataset wird entwickelt, um das Modell für strukturiertes Function Calling zu fine-tunen, integriert in eine Flask-basierte Web-Oberfläche für intuitive Benutzerinteraktionen.

Observability wird durch Prometheus, Grafana und Jaeger für Echtzeit-Metriken und Tracing erreicht. Die Ergebnisse demonstrieren erfolgreiches Fine-Tuning in unter 55 Minuten mit 3,5 GB VRAM-Nutzung, Inference-Latenz von 2–6 Sekunden und stabile Operation in datenschutzschützenden Settings. Allerdings begrenzen Single-GPU-Einschränkungen die Skalierbarkeit und Multi-Tasking. Beiträge umfassen einen modularen MLOps-Blueprint, der LLM-Forschung und Produktion verbindet und Reproduzierbarkeit, Datensouveränität und Edge-Deployment-Herausforderungen adressiert. Einschränkungen heben den Bedarf an Hardware-Skalierung und automatisierter Benchmarking hervor, während zukünftige Arbeit Multi-GPU-Erweiterungen und verbesserte UI/UX für breitere Anwendbarkeit vorschlägt.

Large language models (LLMs) like Llama 3.2 have revolutionized AI applications, yet their deployment in resource-constrained, privacy-sensitive environments remains challenging due to high computational demands and reliance on cloud infrastructure. This thesis investigates the feasibility of on-premise deployment of the quantized Llama 3.2-3B model, emphasizing efficient resource utilization, robust monitoring, and automated workflows through machine learning operations (MLOps). Adopting an iterative methodology, the study begins with a feasibility assessment using Ollama for local inference and Unsloth for parameter-efficient fine-tuning on consumer-grade hardware (e.g., GTX 1050 Ti with 4 GB VRAM). Subsequent enhancements incorporate containerization via Docker, orchestration with MicroK8s Kubernetes, experiment tracking using MLflow, and workflow automation through Argo Workflows and GitLab CI/CD. A custom dataset is developed to fine-tune the model for structured function calling, integrated into a Flask-based web interface for intuitive user interactions. Observability is achieved via Prometheus, Grafana, and Jaeger for real-time metrics and tracing. Results demonstrate successful fine-tuning in under 55 minutes with 3.5 GB VRAM usage, inference latency of 2–6 seconds, and stable operation in privacy-preserving settings. However, single-GPU constraints limit scalability and multi-tasking. Contributions include a modular MLOps blueprint that bridges LLM research and production, addressing reproducibility, data sovereignty, and edge deployment challenges. Limitations highlight the need for hardware scaling and automated benchmarking, while future work suggests multi-GPU extensions and enhanced UI/UX for broader applicability.

Zurück