DeepSeek的新AI模型似乎是迄今为止最好的“开放式”挑战者之一

一家中国实验室创建了迄今为止看起来最强大的“开放式”AI模型之一。

该模型DeepSeek V3是由AI公司DeepSeek开发的,并于周三发布,按照一份允许开发人员下载并修改大多数应用的宽松许可证。

DeepSeek V3可以处理各种基于文本的工作负载和任务,如编码、翻译以及根据描述性提示撰写文章和电子邮件。

根据DeepSeek的内部基准测试,DeepSeek V3胜过可下载的“开放式”模型和只能通过API访问的“封闭”AI模型。在Codeforces上举办的一些编程竞赛中,DeepSeek超过了其他模型,包括Meta的Llama 3.1 405B、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5 72B。

DeepSeek V3在Aider Polyglot上也压倒其他竞争对手,Aider Polyglot是一个用于测量模型能否成功编写整合到现有代码中的新代码的测试。

DeepSeek-V3!

每秒60个标记(比V2快3倍!)
兼容API
完全开源模型和论文
671B MoE参数
37B激活参数
经过1480亿高质量的标记训练

在几乎所有基准测试中都能击败Llama 3.1 405b https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf

— Chubby♨️ (@kimmonismus) 2024年12月26日

DeepSeek声称DeepSeek V3是基于1480万亿标记的数据集进行训练的。在数据科学中,标记用于表示原始数据的位 —— 100万个标记约等于75万个单词。

DeepSeek(中国人工智能公司)轻松发布了一个新的前沿级LLM开放权重版本,该版本是在一个有趣的预算范围内(2048台GPU,2个月,600万美元)训练的。

作为参考,这种能力级别应该需要近16000台GPU的集群,那些… https://t.co/EW7q2pQ94B

— Andrej Karpathy (@karpathy) 2024年12月26日

参数数量通常(但并不总是)与技能相关;参数更多的模型往往会胜过参数较少的模型。但大型模型也需要更强大的硬件才能运行。深度学习V3的未经优化版本将需要一组高端GPU才能以合理的速度回答问题。

虽然这个模型不是最实用的模型,但在某些方面却是一个成就。DeepSeek能够在仅约两个月的时间内使用一组Nvidia H800 GPU的数据中心对该模型进行训练 ——最近,中国公司被美国商务部禁止采购这些GPU。该公司还声称仅花费550万美元就训练了DeepSeek V3,这比OpenAI的GPT-4等模型的开发成本只是一小部分。

缺点是该模型的政治观点有点...死板。例如,询问DeepSeek V3有关天安门广场的问题,它将不会回答。

图片来源:Anychat

由于DeepSeek是一家中国公司,受到中国互联网监管机构的基准测试,以确保其模型的响应“体现核心社会主义价值观”。许多中国人工智能系统不愿回答可能引起监管机构不满的话题,比如对习近平政权的揣测。

DeepSeek是一个耐人寻味的组织,于去年11月推出了DeepSeek-R1,这是对OpenAI的o1“推理”模型的回应。它得到了中国量化对冲基金高飞资本管理的支持,该基金使用人工智能来指导其交易决策。

高飞为自己的模型训练构建了服务器集群,最近的一个为10000台Nvidia A100 GPU,耗资10亿元日元(约合1.38亿美元)。高飞由计算机科学硕士梁文峰创立,旨在通过其DeepSeek组织实现“超智能”人工智能。

在今年早些时候的一次采访中,文峰将OpenAI等封闭源的人工智能描述为“临时”的壕沟。他指出:“这并没有阻止其他人迎头赶上。”

的确。


TechCrunch提供面向AI的新闻简报!在这里注册,每周三在收件箱中收到。