图片来源:企业官网
中国的大模型之战已从融资战、营销战打到了价格战,大大小小的公司在发布各自大模型产品时,都要跟OpenAI的ChatGPT比一比跑分或者价格。但有一家公司不一样,它选择跳过市面上各个喧嚣的战场,直接向底层发起突破。
5月22日,AI创业公司彩云科技发布了全新通用模型结构DCFormer,将直接挑战现在几乎所有大模型通用的Transformer架构。根据官方给出的相关论文实验证明,在三千亿级训练数据和70亿级模型参数量下,DCFormer效率是Transformer的两倍。 Transformer模型有其隐忧
Transformer模型是一种采用注意力机制的深度学习模型,最早在2017年由Google Brain的一个团队推出,对整个AI学界和业界尤其是自然语言处理领域产生巨大影响,而其相关论文《Attention Is All You Need》已经成为今天大语言模型蓬勃发展的起源与名篇。简单来说,如果没有《Attention Is All You Need》提出的Transformer模型,就没有如今这个如火如荼的AI大模型时代。
然而,Transformer模型开源发布7年以来,随着业界各种模型的规模越来越大,算力对性能的限制成为一个越来越亟待解决的问题,而这一限制直接表现就是模型训练的昂贵,上周OpenAI刚刚发布的GPT-4o,一次推理的成本仍然要人民币4元,这也是现在大模型价格战之所以引入注目的背景原因。虽然现在还有各大科技巨头和风投机构的支持,但这无法持久。
要解决或者缓解这个问题,无外乎几个办法:芯片进步,改进模型,或者解决地球的能源问题。比如,OpenAI的CEO Sam Altman在几个方向都分别下注,除了OpenAI在不断训练自己的模型算法,据媒体报道,他还与软银的孙正义讨论芯片项目,并且投资核聚变—— Sam Altman不久前说,未来的人工智能需要能源方面的突破,因为AI消耗的电力将远远超过人们的预期。
在芯片领域,尽管有许多挑战者,微软、谷歌这样的巨头也在自己设计芯片,但英伟达仍然保持遥遥领先。在当地时间5月22日发布的新一季财报中,英伟达营收增长262%至260亿美元再创新高,并且连续第20个季度超出分析师预期,盘后股价大涨。
而能源领域,目前看起来若要取得真正进展,还需要基础研究的突破,不是光砸钱就能很快取得成果的。
因此,创业公司还能在模型算法改进方面找到潜在发展机会。Transformer推出7年以来,虽然一直有无数的AI研究者对其进行改进和修补,但算力智能转化率的提升仍然不够明显。 DCFormer或许是一次机会
而根据彩云科技的官方介绍,其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果,即算力智能转化率提升了1.7~2倍。这一提升幅度,超过自2017年Transformer诞生至今,被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和(同时应用这两项改进的Transformer架构也叫Transformer++,如Meta的开源大模型Llama)。
图片来源:彩云科技官方
此外,根据彩云科技计算实验,随着模型规模的增大,DCFormer的提升越来越大(上图下的蓝线和绿线),而Transformer++的提升越来越小(上图下的黑线)。
图片来源:彩云科技官方