Kyutai entre dans la cour des grands avec Moshi : une IA vocale bluffante de naturel

Le laboratoire français Kyutai, soutenu par Xavier Niel, Rodolphe Saadé et Eric Schmidt, vient de présenter Moshi, son premier assistant vocal conversationnel, et le moins qu’on puisse dire, c’est que la démonstration impressionne. À la croisée de ChatGPT, Siri et d’un double numérique presque humain, Moshi entend changer la donne dans le domaine de l’interaction homme-machine, et le tout… depuis la France.

Moshi : une IA qui parle (presque) comme un humain

Conçu pour permettre des conversations fluides en temps réel, Moshi ne suit pas la méthode classique des assistants vocaux actuels (transformation voix → texte → traitement → réponse vocale). Au contraire, il fonctionne de manière native sur le flux audio, rendant les échanges quasiment instantanés, avec une latence inférieure à 200 millisecondes.

Moshi sait reconnaître et reproduire plus de 70 émotions, chuchoter, crier, plaisanter, adopter des accents variés ou changer de ton selon le contexte. Cette expressivité ouvre la porte à des cas d’usage très avancés : compagnons vocaux immersifs, coaching, jeux vidéo, éducation ou accessibilité.

Une prouesse technologique tricolore

Moshi repose sur plusieurs innovations clés développées par les équipes de Kyutai :

  • Helium, un modèle de langage de 7 milliards de paramètres, optimisé pour la voix.
  • Mimi, un codec audio neuronal qui gère deux flux en parallèle (celui de l’utilisateur et celui de l’IA), permettant à Moshi de réfléchir et parler simultanément.
  • Une version allégée capable de fonctionner localement, sur un MacBook par exemple, sans avoir besoin d’une connexion internet permanente.

Kyutai affirme que la technologie est suffisamment mature pour tenir une conversation continue sans coupure, ni hésitation perceptible. Une démonstration publique en juin 2025 a permis de constater que l’IA peut répondre avec un naturel troublant, même à des questions complexes ou dans des dialogues improvisés.

Une ambition européenne assumée

Avec un financement initial de 300 millions d’euros et une volonté affirmée d’open source, Kyutai souhaite devenir une alternative sérieuse aux géants américains de l’IA vocale. Le modèle Moshi a été publié sous licence Creative Commons BY 4.0, permettant aux chercheurs et développeurs de le tester, l’améliorer ou le réutiliser librement.

En misant sur la transparence, la recherche ouverte et une éthique du développement responsable, Kyutai se positionne comme le fer de lance d’une IA européenne plus souveraine, plus contrôlée, mais tout aussi innovante.

Vers une adoption grand public ?

Reste à voir comment Moshi sera intégré à des applications concrètes. Kyutai pourrait collaborer avec des industriels français ou européens pour intégrer Moshi à des objets connectés, des appareils mobiles, ou encore des services d’assistance vocale dans les transports ou le médical.

Dans un contexte où la régulation de l’IA devient un enjeu mondial, voir émerger une technologie aussi avancée en dehors de la Silicon Valley est un signal fort : la France et l’Europe entendent bien jouer leur rôle dans l’avenir de l’IA.

carle
carle