Große Sprachmodelle (LLMs) wie Llama 3.2 haben AI-Anwendungen revolutioniert, doch ihre Bereitstellung in ressourcen-beschränkten, datenschutzsensiblen Umgebungen bleibt aufgrund hoher Rechenanforderungen und der Abhängigkeit von Cloud-Infrastruktur herausfordernd. Diese Arbeit untersucht die Machbarkeit der On-Premise-Bereitstellung des quantisierten Llama 3.2-3B-Modells, mit Schwerpunkt auf effiziente Ressourcennutzung, robuste Überwachung und automatisierte Workflows durch Machine Learning Operations (MLOps). Unter Anwendung einer iterativen Methodik beginnt die Studie mit einer Machbarkeitsbewertung unter Verwendung von Ollama für lokale Inference und Unsloth für parameter-effizientes Fine-Tuning auf Consumer-Grade-Hardware (z. B. GTX 1050 Ti mit 4 GB VRAM). Nachfolgende Verbesserungen umfassen Containerisierung via Docker, Orchestrierung mit MicroK8s Kubernetes, Experiment-Tracking mit MLflow und Workflow-Automatisierung durch Argo Workflows und GitLab CI/CD. Ein benutzerdefiniertes Dataset wird entwickelt, um das Modell für strukturiertes Function Calling zu fine-tunen, integriert in eine Flask-basierte Web-Oberfläche für intuitive Benutzerinteraktionen.
Observability wird durch Prometheus, Grafana und Jaeger für Echtzeit-Metriken und Tracing erreicht. Die Ergebnisse demonstrieren erfolgreiches Fine-Tuning in unter 55 Minuten mit 3,5 GB VRAM-Nutzung, Inference-Latenz von 2–6 Sekunden und stabile Operation in datenschutzschützenden Settings. Allerdings begrenzen Single-GPU-Einschränkungen die Skalierbarkeit und Multi-Tasking. Beiträge umfassen einen modularen MLOps-Blueprint, der LLM-Forschung und Produktion verbindet und Reproduzierbarkeit, Datensouveränität und Edge-Deployment-Herausforderungen adressiert. Einschränkungen heben den Bedarf an Hardware-Skalierung und automatisierter Benchmarking hervor, während zukünftige Arbeit Multi-GPU-Erweiterungen und verbesserte UI/UX für breitere Anwendbarkeit vorschlägt.

