IA open source Chine : choisir Qwen, DeepSeek ou GLM‑5

En février 2026, DeepSeek pousse son contexte à 1 million de tokens et annonce environ 70% de coûts d’inférence en moins. Quelques jours plus tôt, Zhipu lance GLM‑5 (MoE 744B, 200K tokens), entraîné sur puces Huawei Ascend, sans GPU NVIDIA. Alibaba, avec Qwen, continue de diffuser des modèles open‑weight sous licence Apache 2.0 à grande échelle.

Le signal est clair. La compétition en IA open source ne se joue plus seulement sur les benchmarks, mais sur le ratio coût/performance, l’accès au long contexte et l’indépendance matérielle. Cette bascule redessine les arbitrages produit, data et infra.

Vous repartirez avec une lecture opérationnelle des forces et limites de Qwen, DeepSeek et GLM‑5, et des implications concrètes pour vos déploiements IA en 2026.

Schéma comparatif des modèles IA open source chinois (DeepSeek, Qwen, GLM-5)

Un basculement : de la “course aux benchmarks” au ratio coût/perf

Pourquoi l’open source se joue désormais à l’inférence (pas au training)

L’IA open source Chine change de terrain. Le levier n’est plus seulement “qui est le plus fort”, mais “qui est le moins cher à faire tourner à grande échelle”. DeepSeek revendique des coûts opérationnels en baisse de 60 à 80% sur sa famille V3, et une réduction d’environ 70% des coûts d’inférence via sa Dynamically Sparse Attention sur V3.2. Pour une direction marketing ou produit, ce n’est pas un détail technique. C’est la différence entre un copilote déployé sur 200 agents support et un POC qui reste cantonné à dix utilisateurs.

Prenez un cas banal : tri d’emails entrants. Vous ingérez quelques milliers de tokens, vous ressortez un classement, un résumé, une action. Sur ce type de micro-tâche, des sources comme Macaron estiment un ordre de grandeur où GPT-5.2 tourne autour de ~$0.004 par requête, contre ~$0.0004 avec GLM‑5, et DeepSeek V3 dans la même zone. Sur un million d’emails mensuels, l’écart devient une ligne budgétaire, pas une curiosité.

Le second effet est organisationnel. Quand l’inférence coûte moins, vous acceptez plus de redondance, plus d’observabilité, plus de “garde-fous” automatiques. Vous pouvez faire tourner un modèle de contrôle, relancer une génération, ou ajouter un filtre de conformité sans exploser votre coût unitaire.

Long contexte = avantage produit, mais pas gratuit

Le long contexte devient un avantage produit visible. DeepSeek V3.2 annonce 1M tokens. GLM‑5 vise 200K. Qwen 3 monte aussi vers 1M en modes expérimentaux. Sur le papier, cela ouvre des workflows que les équipes ont trop souvent simplifiés : ingestion d’un corpus de contrats pour une revue, audit d’un historique de tickets, copilote “mémoire longue” sur un référentiel interne sans chunking agressif.

Dans la pratique, le long contexte n’est pas un “buffet à volonté”. Plus vous chargez, plus vous payez en latence, en variabilité, et en complexité de contrôle qualité. Une équipe growth peut vouloir analyser 18 mois de campagnes et de créas en une passe. Si le modèle met 40 secondes, le produit est inutilisable. Si la sortie est longue, les coûts d’output peuvent annuler le bénéfice, comme on le verra avec GLM‑5.

Le point décisif est le compromis. Le long contexte sert surtout à réduire l’ingénierie autour du modèle. Moins de pipelines de découpe, moins de RAG fragile, moins d’arbitrages à la main. Mais il vous force à instrumenter. Vous devez mesurer la dérive de qualité quand le prompt grossit, et tester la fiabilité “agentique” quand le modèle doit exécuter des étapes, pas seulement répondre.

Illustration du long contexte (200K à 1M tokens) et de ses impacts sur latence et coûts

DeepSeek V3.2 : l’efficacité d’inférence comme arme stratégique

Dynamically Sparse Attention : comment DeepSeek “achète” du ROI

DeepSeek V3.2 vend un message simple : même niveau de capacité perçue, mais moins cher à servir. La pièce maîtresse est son mécanisme de Dynamically Sparse Attention, présenté comme capable de réduire d’environ 70% les coûts d’inférence par rapport à des modèles antérieurs. Ce gain se traduit directement dans des produits à volumétrie : support client, modération, génération d’assets marketing, extraction structurée de données.

Un exemple concret. Vous déployez un assistant pour qualifier des leads B2B. Chaque lead déclenche une lecture de page, une synthèse, un scoring, puis une recommandation de next best action. Si le coût unitaire est élevé, vous échantillonnez. Vous ne traitez que 20% des leads. Si le coût chute, vous généralisez. Vous pouvez aussi ajouter une seconde passe de vérification (consistance des champs, détection de hallucinations) sans devoir “vendre” un budget supplémentaire.

Côté infra, l’efficacité d’attention change vos contraintes. Le dimensionnement des serveurs devient plus prévisible. Le batching devient plus agressif. Le seuil de rentabilité entre API et on-prem se déplace. Pour une entreprise européenne, cela compte aussi pour la souveraineté : vous pouvez garder la donnée chez vous si le coût matériel reste raisonnable, au lieu de dépendre d’un fournisseur fermé.

Cette dynamique explique pourquoi la comparaison DeepSeek vs Qwen vs GLM‑5 ne peut pas se limiter à un tableau de scores. Le modèle qui réduit le coût de chaque token “gagne” souvent l’usage réel, même s’il perd un peu en élégance sur des prompts complexes.

Performance : parité utile, supériorité ciblée

DeepSeek V3.2 est crédité, via sources secondaires, d’un dépassement de GPT‑5 sur certains benchmarks mathématiques de type “Math Olympiad”, et d’une parité globale avec GPT‑5.2 et Claude 4.5 Sonnet sur des domaines clés. Pour un décideur, le message utile est plus modeste : la performance n’est plus un verrou évident. Vous pouvez obtenir une qualité “suffisante” pour des tâches business critiques sans payer le premium des modèles occidentaux haut de gamme.

La limite est opérationnelle. Verdent signale que DeepSeek peut trébucher sur l’exécution, la vitesse et la fiabilité en builds full-stack par rapport à Claude. Cela recoupe un point terrain : un modèle peut être excellent en réponse isolée et moins solide en chaîne d’actions, avec outils, états, et erreurs à gérer.

La réponse n’est pas de “croire” ou de “rejeter”. C’est de tester sur vos parcours réels. Faites passer au modèle un ticket support avec pièces jointes, un historique, des contraintes de ton, et un output structuré. Mesurez le taux de complétion, pas seulement la qualité d’une phrase. La parité sur benchmark devient alors un indicateur secondaire. La stabilité en production devient la métrique principale.

Diagramme d’architecture d’inférence avec mécanisme d’attention clairsemée (sparse attention)

GLM‑5 (Zhipu) : souveraineté matérielle + MoE, mais une économie ambiguë

Architecture MoE 744B et attention optimisée : densité technique au service des coûts

GLM‑5 affiche une architecture MoE massive : 744B paramètres, 256 experts, 8 activés par token. L’intérêt n’est pas le gigantisme. C’est la promesse d’une capacité élevée avec un coût d’activation plus proche d’un modèle plus petit. Zhipu ajoute une Multi-head Latent Attention qui réduirait la surcharge mémoire de 33% par rapport à une attention multi-tête standard. Sur le papier, cela aide à servir des contextes longs sans exploser la facture mémoire.

Pour un produit, cela peut se traduire par des assistants plus “riches” à même budget. Un copilote juridique peut lire un dossier épais, garder les références, et produire des extraits. Un assistant interne peut absorber des pages de documentation, puis répondre avec citations. Le MoE vise précisément ce type de polyvalence.

Mais un détail doit rester en tête : GLM‑5 est annoncé à 17–19 tokens/seconde, quand certains concurrents montent plus haut. À usage égal, la vitesse conditionne l’adoption. Un modèle légèrement meilleur mais plus lent perd face à un modèle “instantané” sur des équipes commerciales ou support.

Le signal géopolitique : entraîné sur Huawei Ascend, sans NVIDIA

GLM‑5 a été entraîné exclusivement sur puces Huawei Ascend, sans GPU NVIDIA. Le fait technique devient un fait géopolitique. La Chine construit une chaîne de valeur IA capable de fonctionner malgré des restrictions. Ce “decoupling” n’est pas un slogan. C’est une assurance de continuité.

Pour les entreprises hors de Chine, l’impact est indirect mais réel. Si un acteur prouve qu’il peut entraîner et servir à grande échelle sans NVIDIA, il réduit un goulot d’étranglement mondial. Il crée aussi un second écosystème logiciel, avec ses bibliothèques, ses optimisations, ses compatibilités.

Le risque est le lock-in. Si votre stack dépend d’optimisations spécifiques Ascend, vous échangez une dépendance contre une autre. La maturité et la fiabilité long terme restent moins documentées que sur CUDA. Pour un DSI, la question n’est pas idéologique. Elle est contractuelle et opérationnelle : disponibilité, outillage, observabilité, capacité à recruter des profils capables d’opérer cette infra.

Le paradoxe prix : entrée compétitive, sortie très chère

GLM‑5 est tarifé autour de $0.30 par million de tokens en entrée. C’est compétitif. Le problème est la sortie : ~$2.55 par million de tokens, soit environ 8,8x plus cher que DeepSeek R1 Distill Qwen 32B, annoncé à ~$0.29/M en entrée et en sortie. Ce n’est pas un détail. C’est un mécanisme qui pousse certains usages hors du modèle.

Si votre cas d’usage est “lecture lourde, réponse courte”, GLM‑5 reste logique. Exemple : classifier des documents, extraire des champs, renvoyer un JSON. Si votre cas d’usage est “lecture lourde, réponse longue”, la facture explose. Exemple : générer une note d’analyse de 1 500 mots à partir de 200 pages. Le long contexte perd son avantage si chaque token de sortie coûte un premium.

La hausse de tarifs de 30 à 100% par rapport aux générations antérieures brouille la narration “Chine moins chère”. Cela peut refléter des coûts d’infra, une stratégie premium, ou une monétisation pour financer l’indépendance matérielle. Tant que l’explication n’est pas claire, vous devez intégrer ce risque dans votre modèle économique.

Tableau comparatif des coûts entrée/sortie (tokens) pour GLM-5 vs DeepSeek vs Qwen

Qwen (Alibaba) : l’open-weight “industrial grade” et l’effet plateforme

Licence et gamme : pourquoi Qwen est un accélérateur d’adoption

Qwen se distingue moins par un coup d’éclat que par une stratégie industrielle. La série Qwen 2.5 couvre de 0.5B à 72B paramètres, avec des variantes spécialisées comme Qwen-2.5-Omni (multimodal 7B) et Qwen-2.5-VL (vision-langage). Pour une organisation, cette largeur simplifie l’architecture : un petit modèle embarqué pour du tri, un modèle moyen pour du rédactionnel, un modèle plus gros pour des tâches complexes.

La licence est l’autre accélérateur. Les variantes Qwen 2.5+ sous Apache 2.0 permettent usage et modification sans frictions majeures. Vous pouvez fine-tuner, packager, redistribuer dans un produit, et contractualiser plus facilement. Dans une comparaison DeepSeek vs Qwen vs GLM‑5, cette dimension juridique pèse autant que la qualité brute.

Un exemple concret côté marketing ops : vous pouvez entraîner un Qwen moyen sur votre charte éditoriale, l’exécuter sur votre infra, et l’intégrer à vos outils internes sans dépendre d’un endpoint externe. L’effort se déplace du “choix du modèle” vers la mise en production et le monitoring.

Qwen 3 : parité sur benchmarks et long contexte “à la carte”

Qwen 3, lancé en 2025, pousse des variantes jusqu’à 110B et propose des modes de service type “Turbo”. Le positionnement est clair : offrir une parité sur des benchmarks comme MMLU, tout en gardant des profils de coût et de vitesse modulables. Le long contexte, jusqu’à 1M tokens en expérimental, s’inscrit dans la même logique : une option activable quand le produit en a besoin.

La force d’Alibaba est l’effet plateforme. Un modèle correct + une distribution cloud + un écosystème dev robuste battent souvent un modèle excellent mais isolé. Les équipes veulent des SDK stables, de la facturation simple, des quotas, des logs, des garde-fous. Le modèle devient une brique d’une offre.

Pour vous, cela signifie une chose : Qwen est souvent le chemin le plus court vers un déploiement “industrial grade”, surtout si vous avez plusieurs cas d’usage hétérogènes. La performance absolue importe moins que la capacité à standardiser.

Limite à traiter : “Chinese-first” et qualité en anglais

Verdent évoque un biais possible “Chinese-first”. L’impact n’est pas binaire. Il se voit dans les nuances : ton, idiomes, précision terminologique, et cohérence sur des textes longs en anglais. Pour un acteur EMEA ou US, un léger déficit peut dégrader des pages produit, des emails sales, ou des réponses support. Pas au point de tout casser, mais assez pour créer une perception de marque moins premium.

La bonne approche est empirique. Construisez un jeu de tests interne bilingue. Prenez vos 50 emails support les plus fréquents, vos 20 pages les plus stratégiques, vos 10 objections commerciales typiques. Évaluez la qualité sur la langue, le ton, et la conformité. Fixez des seuils clairs : taux de réécriture humaine, taux d’erreurs factuelles, et temps moyen de validation.

Si Qwen passe ces seuils, la licence Apache 2.0 et la gamme de modèles deviennent un avantage durable. Si ce n’est pas le cas, vous pouvez garder Qwen pour les tâches structurées et réserver un modèle plus “anglais-native” aux sorties sensibles. Cette segmentation est souvent plus rentable que chercher un modèle unique pour tout.

Schéma de décision : segmentation des cas d’usage entre Qwen, DeepSeek et GLM-5

Conclusion : comment trancher en 2026

La Chine ne “gagne” pas l’IA open source en empilant des points de benchmarks, elle la fait basculer vers un avantage plus durable : l’efficacité d’inférence, le long contexte et une chaîne matérielle de plus en plus autonome. Ce mouvement installe un paysage fragmenté, où les décisions ne se prennent plus modèle contre modèle, mais écosystème contre écosystème, avec des contraintes de coûts, de licence et de souveraineté.

Prenez une semaine pour tester deux workloads réels sur DeepSeek, Qwen et GLM‑5, mesurez coût total, latence et qualité, puis figez votre trajectoire d’intégration.

Mesurez le coût total (entrée + sortie) par tâche, pas seulement le prix affiché.
Testez la latence et la stabilité sur des parcours réels (outils, états, erreurs).
Vérifiez la licence (ex. Apache 2.0) et les contraintes de redistribution.
Évaluez les dépendances matérielles et le risque de lock-in.