Open Kubernetes Data Platform par le TOSIT

Publié le 2 octobre 2025

OKDP du TOSIT : la plateforme open source pour moderniser la gestion des données

# Qu’est-ce qu’OKDP ?

OKDP signifie Open Kubernetes Data Platform. Il s’agit d’une plateforme open source, native pour le cloud et conçue autour de Kubernetes, destinée à la gestion, au traitement, à l’analyse et à l’exposition des données. Portée par l’Association TOSIT (The Open Source I Trust), OKDP vise à offrir une alternative moderne, modulable et communautaire aux solutions propriétaires comme Snowflake, Databricks ou Cloudera.

Cette solution s’adresse principalement aux data scientists, ingénieurs de données, et plus largement aux organisations souhaitant valoriser leurs données tout en gardant le contrôle sur leur infrastructure et leurs coûts.

# Origine et objectifs

OKDP est né de la volonté de la Direction Générale des Finances Publiques (DGFiP), en collaboration avec d’autres acteurs publics et privés (BPCE, Société Générale, Orange, etc.), tous membres du TOSIT - , de proposer une solution open source, sécurisée et hautement disponible, adaptée aux architectures cloud natives et aux besoins de la Modern Data Stack.

Contrairement à TDP (Trunk Data Platform), autre solution également portée par le TOSIT et qui s’appuie sur une architecture centralisée de type Hadoop, l’OKDP est conçu pour des architectures décentralisées (Data Mesh, Data Fabric, Lakehouse) et pour des usages avancés comme le machine learning, le MLOps ou l’analyse interactive.

L’objectif est de réunir sous une même bannière des outils et frameworks open source (Apache Spark, Trino, Superset, MLFlow, Kubeflow, Apache Iceberg, Polaris Catalog, etc.) afin de permettre aux utilisateurs de construire une plateforme sur mesure, adaptée à leurs besoins spécifiques, tout en bénéficiant d’une communauté active et d’une roadmap transparente.

Fonctionnalités clés

Les fonctionnalités clés de OKDP sont les suivantes :

 Modularité : Chaque composant (Spark, Trino, JupyterHub, etc.) peut être déployé indépendamment, permettant une personnalisation fine de la plateforme.
 Cloud Native : OKDP est conçu pour s’intégrer à toute infrastructure Kubernetes (vanilla, Rancher, AKS, EKS, GKE, etc.), offrant ainsi une grande flexibilité de déploiement.
 Interopérabilité : La plateforme supporte des formats de tables ouverts comme Apache Iceberg et des métastores comme Apache Hive ou Polaris Catalog, facilitant l’intégration avec des outils existants.
 Automatisation : Des pipelines GitHub Actions et des méthodes déclaratives (Flux CD) sont proposés pour automatiser les déploiements et les mises à jour.
 Sécurité et haute disponibilité : OKDP est pensé pour la production, avec des mécanismes d’authentification (OIDC), d’observabilité (Prometheus, Grafana) et de multitenancy.

Public cible et cas d’usage

L’OKDP s’adresse en priorité aux data scientists et ingénieurs de données, mais vise aussi à élargir son audience aux data analysts et aux métiers.

Les cas d’usage incluent :
 La collecte, le stockage et le traitement de données à grande échelle.
 L’analyse avancée et la visualisation (via Superset, JupyterLab).
 Le machine learning et le MLOps (intégration de Kubeflow, MLFlow).
 L’exposition de données via des API REST ou des interfaces utilisateur.

Roadmap et évolutions

En 2025, les priorités incluent :
 L’intégration d’Apache Iceberg et de Polaris Catalog.
 L’ajout de Kubeflow et MLFlow pour le MLOps.
 Le développement d’une API REST et d’un front-end unifié.
 La mise à disposition d’une sandbox pour faciliter l’adoption.

Pourquoi choisir l’OKDP ?

Plusieurs arguments viennent en faveur de l’usage d’OKDP :

 Contrôle et autonomie : Pas de dépendance à un éditeur propriétaire, liberté de choisir ses composants et son rythme d’évolution.
 Coût maîtrisé : Pas de licence, réduction des coûts d’infrastructure et de support.
 Communauté active : Portée par des acteurs publics et privés, avec des contributions ouvertes à tous.

Quelques mots sur le TOSIT ?

Le TOSIT acroynyme de "The Open Source I Trust" (en français : "L’Open Source en qui j’ai confiance") est une association française créée en 2017 dont l’objectif principal est de promouvoir l’adoption de solutions open source au sein des grandes organisations, qu’elles soient publiques ou privées. Ses membres sont composés d’administrations et entreprises souhaitant moderniser leurs infrastructures tout en gardant le contrôle sur leurs données, parmi lesquelles des grands noms comme la DGFiP (Direction Générale des Finances Publiques), Orange, EDF, la SNCF, la BPCE, la Société Générale.

Pour en savoir plus et adhérer : - Site de l’Association TOSIT https://tosit.fr

Sources et références

Pour aller plus loin et pour avoir les sources qui ont permis d’écrire cet article :
Site officiel OKDP - https://okdp.io/
Présentation OKDP par les BlueHats https://code.gouv.fr/fr/bluehats/okdp/
Les nouveautés d’OKDP – BlueHats 2025 - https://code.gouv.fr/fr/bluehats/okdp-2025/
LeMagIT : OKDP, le TOSIT fait la jonction entre Hadoop et la Modern Data Stack