DeepSeek lance le modèle expérimental DeepSeek-V3.2-Exp avec des améliorations significatives en efficacité

La société chinoise DeepSeek, spécialisée dans le développement de l'intelligence artificielle et basée à Hangzhou, a annoncé le lancement du nouveau modèle expérimental DeepSeek-V3.2-Exp, qu'elle décrit comme "plus efficace en formation et meilleur dans le traitement des textes longs" par rapport aux versions précédentes de ses modèles linguistiques.
La société a expliqué dans un post sur le forum des développeurs "Hugging Face" que cette version représente "une étape de transition vers l'architecture de nouvelle génération", en référence à son projet à venir qui devrait être l'un des lancements les plus marquants depuis l'apparition des modèles V3 et R1, qui ont reçu un large écho dans la Silicon Valley et chez les investisseurs mondiaux au début de cette année.
Selon l'annonce, le modèle utilise un nouveau mécanisme appelé DeepSeek Sparse Attention, que la société a déclaré "réduit les coûts de calcul et améliore les performances du modèle dans certaines applications". DeepSeek a également annoncé via son compte sur la plateforme "X" lundi une réduction des prix des interfaces de programmation d'applications (API) de plus de 50%.
Bien que les prévisions indiquent que la nouvelle architecture pourrait ne pas avoir un impact aussi important sur les marchés que les versions précédentes, son succès pourrait mettre des entreprises concurrentes locales comme Qwen, affiliée à "Alibaba", et des entreprises américaines comme OpenAI, sous une pression croissante, surtout si DeepSeek parvient à offrir "des capacités élevées à un coût beaucoup plus bas" par rapport aux concurrents dans le domaine du développement et de la formation des modèles.