DeepSeek lanza el modelo experimental DeepSeek-V3.2-Exp con grandes mejoras en eficiencia

La empresa china DeepSeek, especializada en el desarrollo de inteligencia artificial y con sede en Hangzhou, ha anunciado el lanzamiento del nuevo modelo experimental DeepSeek-V3.2-Exp, que ha descrito como "más eficiente en el entrenamiento y mejor en el procesamiento de textos largos" en comparación con las versiones anteriores de sus modelos de lenguaje.
La empresa explicó a través de una publicación en el foro de desarrolladores "Hugging Face" que esta versión representa "un paso de transición hacia la arquitectura de la próxima generación", en referencia a su próximo proyecto que se espera sea uno de los lanzamientos más destacados desde la aparición de los modelos V3 y R1, que han tenido una amplia recepción en Silicon Valley y entre los inversores globales a principios de este año.
Según el anuncio, el modelo utiliza un nuevo mecanismo llamado DeepSeek Sparse Attention, que la empresa afirma que "reduce los costos de computación y mejora el rendimiento del modelo en algunas aplicaciones". Además, DeepSeek anunció a través de su cuenta en la plataforma "X" el lunes que ha reducido los precios de las interfaces de programación de aplicaciones (API) en más del 50%.
Aunque las expectativas indican que la nueva arquitectura puede no tener un impacto tan grande en los mercados como lo tuvieron las versiones anteriores, su éxito podría poner a empresas competidoras locales como Qwen, afiliada a "Alibaba", y a empresas estadounidenses como OpenAI, bajo una presión creciente, especialmente si DeepSeek logra ofrecer "altas capacidades a un costo mucho menor" en comparación con los competidores en el desarrollo y entrenamiento de modelos.