Michel-Marie MAUDET, Directeur des opérations pour Linagora et contributeur OpenLLM.
La communauté OpenLLM France 🇫🇷 créée en juin 2023 fédère à ce jour, un écosystème de près de plus 450 entités (laboratoires publics de recherche, fournisseurs potentiels de données, acteurs technologiques spécialisés, fournisseurs de cas d'usage...).
L'ambition de cette communauté est de construire des communs numériques d’IA générative réellement Open Source et maitrisés de bout en bout. La notion d’Open Source est à différencier du terme « Open Weights ». Pour respecter la définition de l’Open Source Initiative, il faut que les modèles soient entraînés à partir de jeux de données « blanches » d’apprentissage c’est-à-dire collectés de manière éthique, responsable, équitable et que ces datasets soient publiés sous licence libre permettant l’audit complet et l’évaluation.
OpenLLM France 🇫🇷 collabore dès à présent avec les comités Alliance et LangIA afin de mettre à disposition bases de données valorisant de patrimoine français, francophone et européen dans l’entraînement d’IA génératives. La communauté est déjà démontré sa capacité « à faire » avec le modèle CLAIRE sorti en octobre 2023 avec la publication de l’intégralité des jeux de données (https://github.com/OpenLLM-France/Claire-datasets) qui ont servi à son entrainement.
La communauté vient de lancer en janvier 2024 le pré entraînement « from scratch » un nouvau modèle (200 000 heures sur la machine Jean JAY planifiées entre janvier et avril 2024) dont l'objectif est de produire un premier LLM « français » performant sur la base de données blanches récoltées en fin d’année 2023.
Témoignage sur l'avancement de nos travaux et des stratégies qui peuvent être déployées pour disposer de LLM multimodaux Open Source et souverains.
Ressources :
La diffusion en direct et la captation d'AlpOSS 2024 ont été entièrement réalisées avec des logiciels libres : Zorin OS (régie), OBS Studio (réalisation), Peertube (direct et replay). L'ensemble des vidéos sont publiées sous licence libre (CC-BY-SA 4.0).