当前人工智能领域突破频现,甄别真正重要的进展与偶然事件愈发困难。然而,近期一项发展尤为值得关注,即中国推出的大型语言模型DeepSeek-V3。其重要意义不仅体现在技术层面,也体现在贸易层面。
经过数日使用,我认为DeepSeek是近年来我接触过的数十个大型语言模型中的佼佼者。其响应迅速、操作便捷,且提供免费版本。尽管在处理复杂问题时略逊于美国顶尖模型,但其整体表现已跻身第一梯队。这与其他人(包括测试人员)的观点不谋而合。
DeepSeek还有几个独特之处。首先,它出自一家对冲基金而非科技公司(尽管这种分类可能需要重新界定);其次,据报道,其训练成本极低,据估算仅550万美元,不含非计算成本,此类评估指标通常都会剔除其他成本。
尤为引人注目的是,DeepSeek并未使用最先进的半导体芯片。拜登政府出于国家安全考虑,严格限制高端芯片对华出口,旨在延缓中国在人工智能等领域的发展。由于无法获得最新的芯片,DeepSeek不得不另辟蹊径,并寻找更便宜的方式来训练其模型。
如今举世皆知,只需花费相对较少的资金就可以训练出非常高质量的人工智能系统。可以想象,外国的亿万富翁可能会启动类似的项目,尽管人才储备是制约因素,
无论如何,寻找更经济的AI开发方式本就是大势所趋。但美国政策的利弊值得深思:这些政策虽成功阻碍了中国在人工智能系统中部署尖端芯片的能力,获得了相应的国家安全利益,却也加速了不依赖尖端芯片的高效AI系统的发展。
政策是否利大于弊,仍有待观察。不仅在狭义层面上,关于DeepSeek的动机、定价策略、未来计划仍存诸多未解或无解之谜。从更宏观的角度看,对政策的利弊评估也充满不确定性。
正如奥地利经济学家路德维希·米塞斯(Ludwig Mises)所言:政府干预往往会产生重要和意外的连锁反应。评估政策效果时,不仅需要考虑其直接影响,还需权衡其次级和三级效应。
芯片限制政策的一个连锁反应是,可能促使中国通过其他国家的第三方获取高端芯片,或租用使用先进芯片的非中国A系统。这意味着中国企业至少在某些应用场景下无需直接购买芯片。尽管美国正加强对该领域的管控,但其能否真正实现对全球市场的微观管理?我对此愈发持怀疑态度。