Zum Inhalt springen
DevOpsDataSec.ai — From code to compliance
Referenzen
Expertise
Academy
Blog
SucheBeratung
  1. Startseite/
  2. Leistungen/
  3. AI & LLM Engineering
DevOpsDataSec.ai — From code to compliance

Spezialisierter Open Source Consulting Partner aus Deutschland. DevOps, Data Engineering, Security & Compliance — BSI C5, NIS2, DORA-konform.

Made in Germany · EU-Compliant
SUSERHUbuntuCNCFLFPG
Leistungen
DevOps & PlatformData EngineeringCloud & KubernetesSecurity & ComplianceOpen Source SupportAI & LLM Engineering (EU)US Cloud SupportSchulungen & EnablementManaged Services
Lösungen
Open Source StackFinanzwirtschaftGesundheitswesenKRITIS & EnergieÖffentlicher SektorNIS2 ComplianceSouveräne Cloud
Unternehmen
Über unsReferenzenTechnologie-ExpertiseAcademyBlogKarriereKontakt
Standorte
🇩🇪 Berlin (Hauptsitz)🇷🇴 Cluj-Napoca🇨🇭 Zürich🇪🇸 Barcelona
Kontakt
sales@devopsdatasec.ai
Korbmacherstraße 7
31171 Nordstemmen
Büro Berlin: Friedrichstraße 68, 10117 Berlin
Beratung anfragen
Branchen & Referenzen
Bundesbehörden · Großbanken · Versicherungen · KRITIS-Betreiber · Gesundheitswesen · Energieversorger · Öffentlicher Sektor · Finanzdienstleister
From code to compliance
© 2026 Stesan Finanzmanagement GmbH — DevOpsDataSec.ai·From code to compliance
KontaktSucheImpressumDatenschutzCookiesSitemap
✦ AI & LLM Engineering

Souveräne KI-Infrastruktur in Europa

End-to-end AI Engineering: LLM Hosting, Fine-Tuning, RAG-Pipelines, LLMOps, AI Security & EU AI Act Compliance — auf souveräner GPU-Infrastruktur in Deutschland. 80% günstiger als OpenAI, 100% DSGVO-konform.

Beratung anfragen Referenzen
Llama 3MistralMixtralRAGFine-TuningEU AI ActLLMOps
Self-hosted LLMs

Llama 3 70B, Mistral Large, Mixtral 8x7B auf dedizierter GPU-Infrastruktur (NVIDIA A100/H100) in Frankfurt und Nürnberg. vLLM Inference Server mit Quantisierung (GPTQ/AWQ) für optimale Performance.

RAG Engineering

End-to-end RAG-Pipelines: Chunking-Strategien, Embedding-Modelle (multilingual-e5-large), Vector DBs (Weaviate, pgvector, Qdrant), Retrieval-Evaluation mit RAGAS-Framework.

Fine-Tuning as a Service

LoRA, QLoRA und PEFT auf unternehmensspezifische Daten. Domänen-Adaption für Compliance, Legal, Medical. Evaluation-Pipeline für Quality Gates vor Production.

LLMOps & Model Lifecycle

MLflow für Experiment Tracking, A/B Testing für Modellversionen, Prompt Management, Drift Detection, Kosten-Monitoring pro Inference-Request.

AI Security & Guardrails

Prompt Injection Prevention, Output Filtering, PII Detection, Data Leakage Prevention. Guardrails AI und NeMo Guardrails für produktive Absicherung.

EU AI Act Compliance

Risikoklassifizierung, Dokumentationspflichten, Audit-Trail, Bias-Audits, Transparenzanforderungen. Ab August 2026 verpflichtend — wir machen Sie jetzt ready.

Open Source AI Stack

LLM Inference
vLLM · Ollama · TGI · NVIDIA Triton · GPTQ · AWQ Quantisierung
RAG & Vector
Weaviate · pgvector · Qdrant · LangChain · LlamaIndex · Haystack
Fine-Tuning & Training
LoRA · QLoRA · PEFT · Hugging Face Transformers · DeepSpeed · Axolotl
LLMOps & Evaluation
MLflow · RAGAS · DeepEval · Weights & Biases · Prompt Management
AI Security
Guardrails AI · NeMo Guardrails · Presidio (PII) · Rebuff · LLM Guard
Data & Annotation
Label Studio · Argilla · DVC · Great Expectations · Apache Airflow

Warum Self-Hosted statt OpenAI / Azure AI?

✅ 80% Kostenersparnis
Pay per GPU-Stunde statt per Token. Bei >100k Requests/Tag amortisiert sich Self-Hosting innerhalb von 8 Wochen.
✅ 100% Datenresidenz
Kein Byte verlässt Ihr Rechenzentrum. Kein CLOUD Act. Kein Data Processing Agreement mit US-Firmen nötig.
✅ Kein Vendor Lock-in
Modellwechsel in Stunden statt Monaten. Llama → Mistral → eigenes Fine-Tuned Modell — ohne API-Änderung.
✅ EU AI Act Ready
Volle Kontrolle über Audit-Trail, Bias-Dokumentation, Transparenzanforderungen. Keine Blackbox.
✅ Air-gapped möglich
Deployment ohne Internet-Zugang für VS-NfD und BSI C5 Tier 3+.
✅ Custom Fine-Tuning
LoRA/QLoRA auf eigene Daten — unmöglich bei OpenAI API. Domänenspezifische Modelle für Ihre Use Cases.

Referenzen: AI & LLMs in Europa

LLM HostingTop-20 Bank (EU)
LLM-Hosting für Großbank: Llama 3 on-premise in Frankfurt

Open Source LLM (Meta Llama 3 70B) auf eigener GPU-Infrastruktur in Frankfurt gehostet — 80% Kosteneinsparung vs. OpenAI API, DSGVO-konform.

Herausforderung

Eine europäische Großbank wollte generative KI in internen Prozessen einsetzen, konnte aber aus regulatorischen Gründen keine US-Cloud-APIs (OpenAI, Anthropic) nutzen. Sensible Finanzdaten durften Deutschland nicht verlassen. Die bestehende Lösung über Azure OpenAI Service war trotz EU-Datacenter durch den CLOUD Act gefährdet.

Lösung

(1) GPU-Cluster auf souveräner Infrastruktur (IONOS GPU Cloud, Frankfurt) mit NVIDIA A100/H100. (2) Deployment von Meta Llama 3 70B über vLLM Inference Server mit Quantisierung (GPTQ 4-bit). (3) RAG-Pipeline mit Weaviate Vector-DB für interne Wissensbasis. (4) API-Gateway mit Rate Limiting, Audit Logging und Prompt Filtering. (5) Fine-Tuning auf bankspezifische Compliance-Sprache mit LoRA.

80%
Kosteneinsparung
100%
DE-Datenresidenz
500+
Interne Nutzer

„Wir können jetzt KI in Compliance-Prozessen einsetzen, ohne regulatorische Risiken. Die Kosten sind ein Bruchteil von OpenAI — und die Daten verlassen nie unser Rechenzentrum."

— Chief Data Officer, EU-Großbank

Llama 3 70BvLLMWeaviateIONOS GPUKubernetesPrometheus
LLM HostingVersicherungskonzern
Sovereign AI: Mistral Large für Versicherungs-Claims

Europäisches LLM (Mistral Large) für automatisierte Schadenbearbeitung — 60% schnellere Claims-Verarbeitung, 100% EU-gehostet.

Herausforderung

Ein deutscher Versicherungskonzern bearbeitete jährlich 2 Millionen Schadenmeldungen. Die manuelle Prüfung dauerte durchschnittlich 5 Tage. Ein KI-gestütztes System sollte die Erstbewertung automatisieren — aber kein US-Modell durfte personenbezogene Gesundheitsdaten verarbeiten.

Lösung

(1) Mistral Large (EU-entwickeltes LLM) auf dedizierten GPU-Nodes in Nürnberg. (2) Structured Output Pipeline für standardisierte Claims-Bewertung. (3) Integration mit SAP Claims Management über REST API. (4) Human-in-the-Loop für Fälle über €10.000 Schadenhöhe. (5) Continuous Evaluation Pipeline für Modell-Drift-Detection.

60%
Schnellere Claims
€2.4M
Jährliche Einsparung
100%
EU-hosted

„Mistral ist für uns der Beweis, dass europäische KI funktioniert. Wir brauchen weder OpenAI noch US-Cloud — und unsere Kunden vertrauen uns ihre Daten an."

— CTO, Versicherungskonzern

Mistral LargeKubernetesSAP IntegrationPostgreSQLPrometheusGrafana
LLM HostingBundesbehörde
Open Source KI für Bundesbehörde: Sichere Dokumentenanalyse

Mixtral 8x7B für automatisierte Analyse von 50.000 Dokumenten/Monat — BSI C5-konform, Zero US-Cloud-Dependency.

Herausforderung

Eine Bundesbehörde mit 8.000 Mitarbeitenden musste monatlich über 50.000 eingehende Dokumente klassifizieren und zusammenfassen. Bisheriger Prozess: vollständig manuell, 25 Vollzeit-Mitarbeiter. KI-Einsatz wurde vom BSI nur genehmigt, wenn kein US-Cloud-Dienst beteiligt war.

Lösung

(1) Mixtral 8x7B (Mixture-of-Experts) auf BSI C5-zertifizierter Infrastruktur. (2) Document Pipeline: OCR → Chunking → Classification → Summary. (3) Keycloak-Integration für Zugriffskontrolle (VS-NfD Klassifizierung). (4) Audit-Trail für jede KI-Entscheidung mit Explainability-Report. (5) Air-gapped Deployment ohne Internet-Zugang.

75%
Zeitersparnis
50k
Docs/Monat
BSI C5
Konform

„Das BSI hat unser Air-gapped LLM-Deployment als Referenzarchitektur für Bundesbehörden empfohlen. Open Source KI ist der einzige Weg für den öffentlichen Sektor."

— IT-Direktor, Bundesbehörde

Mixtral 8x7BvLLMTesseract OCRKeycloakWeaviateIONOS
RAG EngineeringTop-10 Wirtschaftskanzlei (DE)
RAG-Wissenssystem für Wirtschaftskanzlei: 200.000 Dokumente durchsuchbar

Enterprise RAG-System mit Llama 3 und pgvector — 200.000 juristische Dokumente semantisch durchsuchbar, 70% schnellere Recherche, vollständig on-premise.

Herausforderung

Eine der größten deutschen Wirtschaftskanzleien mit 600 Anwälten hatte 200.000+ juristische Dokumente (Verträge, Urteile, Gutachten) in verschiedenen Systemen verteilt. Die Recherche dauerte durchschnittlich 45 Minuten pro Anfrage. Mandantendaten durften unter keinen Umständen an externe KI-Dienste übermittelt werden.

Lösung

(1) Document Ingestion Pipeline: PDF/Word → OCR → Chunking mit Overlap-Strategie (512 Tokens, 64 Token Overlap). (2) Embedding-Modell: multilingual-e5-large, self-hosted. (3) Vector Store: pgvector in PostgreSQL für einfache Ops. (4) LLM: Llama 3 70B für Answer Generation mit Source Attribution. (5) Evaluation Pipeline: RAGAS-Framework für Faithfulness, Answer Relevancy, Context Precision. (6) Keycloak-RBAC: Mandanten-Isolation auf Dokument-Ebene.

70%
Schnellere Recherche
200k
Dokumente indexiert
98.5%
Faithfulness Score

„Unsere Anwälte finden jetzt in Minuten, wofür sie früher Stunden brauchten. Und kein Mandantengeheimnis verlässt unsere Server — das war die absolute Voraussetzung."

— Chief Digital Officer, Wirtschaftskanzlei

Llama 3 70BpgvectorPostgreSQLvLLMKeycloakRAGASLangChainKubernetes

Bereit für souveräne, sichere Infrastruktur?

Business-first Consulting: klare Deliverables, Open Source Stack, deutsche Datenresidenz.

Erstgespräch anfragen sales@devopsdatasec.ai