DeepSeek bringt das experimentelle Modell DeepSeek-V3.2-Exp mit erheblichen Effizienzverbesserungen auf den Markt

Das chinesische Unternehmen DeepSeek, das auf die Entwicklung von künstlicher Intelligenz spezialisiert ist und seinen Sitz in Hangzhou hat, hat das neue experimentelle Modell DeepSeek-V3.2-Exp vorgestellt, das es als "effizienter im Training und besser in der Verarbeitung langer Texte" im Vergleich zu früheren Versionen seiner Sprachmodelle bezeichnete.
Das Unternehmen erklärte in einem Beitrag im Entwicklerforum "Hugging Face", dass diese Version "einen Übergang zu einer Architektur der nächsten Generation" darstellt, in Anspielung auf ihr kommendes Projekt, das voraussichtlich eines der herausragendsten Produkte seit dem Erscheinen der Modelle V3 und R1 sein wird, die zu Beginn dieses Jahres in Silicon Valley und bei globalen Investoren auf großes Interesse stießen.
Laut der Ankündigung verwendet das Modell einen neuen Mechanismus, den es DeepSeek Sparse Attention nennt, von dem das Unternehmen angibt, dass er "die Rechenkosten senkt und die Leistung des Modells in bestimmten Anwendungen verbessert". Außerdem kündigte DeepSeek am Montag über ihren Account auf der Plattform "X" eine Preissenkung der API-Schnittstellen um mehr als 50 % an.
Obwohl die Erwartungen darauf hindeuten, dass die neue Architektur möglicherweise nicht so großen Einfluss auf die Märkte haben wird wie die vorherigen Versionen, könnte ihr Erfolg lokale Wettbewerber wie Qwen von "Alibaba" und amerikanische Unternehmen wie OpenAI unter zunehmenden Druck setzen, insbesondere wenn es DeepSeek gelingt, "hohe Kapazitäten zu deutlich geringeren Kosten" im Vergleich zu den Wettbewerbern im Bereich der Entwicklung und des Trainings von Modellen anzubieten.