大陆AI新创公司深度求索(DeepSeek)V4预览版本近日上线并开源,首度采用华为AI晶片,分为Pro与Flash两版本。央视旗下新媒体《玉渊谭天》26日指,该版本距上次更新约5个月,在全球大模型快速迭代背景下,其「静默」一度被视为落后,但此次与华为升腾晶片体系深度适配,显示软硬体协同研发生态正逐步形成。
文章写道,DeepSeek新版本距V3.2已近5个月,在海外模型平均约91天迭代一版的节奏下,其更新节奏引发讨论。期间外界对V4传闻不断,但DeepSeek未作回应,使资讯多来自外媒与匿名消息。沉默的DeepSeek,让人很不习惯,因其2025年初的横空出世、用更少的算力实现更优的性能、打破美西方营造的「算力焦虑」。
文章提到,2月26日,事情迎来转折。路透援引知情人士称,DeepSeek在V4发布前未向辉达(NVIDIA)及AMD提供早期访问权限,而是让华为提前数周进行软体适配优化,并形容此举「breaking from standard industry practice」,即打破行业惯例,并指这种做法在过往中外大模型开发中均较为少见。
文章指出,「此次DeepSeek与华为升腾国产晶片体系深度适配,并不令人意外。」DeepSeek早于V3.1版本即采用UE8M0 FP8 Scale参数精度,面向大陆下代国产晶片设计。而软体主动适配硬体特性,本质上是在为国产晶片「量体裁衣」,因软体需对算子、通信与并行策略进行调整,以适配不同晶片架构。
文章进一步称,大陆国家发展改革委去年12月曾表示,大陆国产晶片在多场景加速适配,「超节点」等技术推动算力提升。
北京邮电大学人机互动与认知工程实验室主任刘伟表示,模型与晶片的结合是AI竞争的重要方向,未来的AI发展,不仅在于算法的好坏,同样也要看整个生态是否具有韧性。他并指出,辉达CUDA生态长期占据主导地位。
文章提到,在此背景下,大陆大模型与晶片体系面临兼容既有生态或重构软体栈的选择。大陆大模型要想实现真正的自主,就必须形成软硬体一体化的协同能力。
文章称,DeepSeek-V4在适配升腾晶片后实现高吞吐、低延迟推理部署,这是技术上的新探索,也是我们在软硬体协同领域的一种进步讯号,智谱GLM-5亦完成与7家大陆国产晶片平台的适配测试。在大模型训练中,也出现了「纯国产」的实践样本,部分企业已在大陆国产算力集群上完成模型训练。
大陆科技与战略风云学会副会长陈经分析,部分大模型已基于国产算力体系进行训练,显示软硬体协同生态正在形成。不过文章同时提到,当前晶片制程与单卡性能仍有限,需依赖系统设计与集群架构补足。

本文转自:TNT时报
