
Plateforme Kubernetes multi-cloud Azure & Google pour inférence LLM avec Run en 24/7
En 2023, Mistral AI nous a confié la conception et l’infogérance de leur plateforme K8s multi-cloud dédiée à l’inférence de leurs solutions d’IA LLM (“Le Chat”, API).
Nous avons optimisé la conteneurisation des applications et leur packaging via Helm. Le déploiement sur les clusters se faisant en Gitops avec Flux.
Les clusters Kubernetes sont déployés sur Azure AKS et Google GKE avec Terraform / Terragrunt. Pour garantir de hautes performances, ils intègrent des optimisations liées à l’IA :
- pour le stockage et le déploiement de grands modèles
- sur les drivers pour support des derniers GPUs Nvidia
- sur l’autoscaling de nodes avec GPUs, etc
La plateforme contient également des BDDs capables de gérer de forts pics de charge. Elle est opérée avec des technologies modernes de supervision et des dashboards spécifiques aux métiers de l’IA.
Depuis fin 2023, nous assurons le MCO et le Run 24/7 de l’ensemble de cette plateforme d’inférence.
Environnement : Microsoft Azure, Google Cloud Platform
Technologies : Kubernetes (Azure AKS, Google GKE), Docker, Helm, Flux, Bases de données, Plateforme de supervision et de métrologie moderne