AI创世纪｜Transformer是大模型基石，但一家创业公司却想挑战它

显示全部楼层 · 2024-5-23 20:53:21|发表时间：2024-5-23 20:53:21

图片来源：企业官网
中国的大模型之战已从融资战、营销战打到了价格战，大大小小的公司在发布各自大模型产品时，都要跟OpenAI的ChatGPT比一比跑分或者价格。但有一家公司不一样，它选择跳过市面上各个喧嚣的战场，直接向底层发起突破。
5月22日，AI创业公司彩云科技发布了全新通用模型结构DCFormer，将直接挑战现在几乎所有大模型通用的Transformer架构。根据官方给出的相关论文实验证明，在三千亿级训练数据和70亿级模型参数量下，DCFormer效率是Transformer的两倍。
Transformer模型有其隐忧
Transformer模型是一种采用注意力机制的深度学习模型，最早在2017年由Google Brain的一个团队推出，对整个AI学界和业界尤其是自然语言处理领域产生巨大影响，而其相关论文《Attention Is All You Need》已经成为今天大语言模型蓬勃发展的起源与名篇。简单来说，如果没有《Attention Is All You Need》提出的Transformer模型，就没有如今这个如火如荼的AI大模型时代。
然而，Transformer模型开源发布7年以来，随着业界各种模型的规模越来越大，算力对性能的限制成为一个越来越亟待解决的问题，而这一限制直接表现就是模型训练的昂贵，上周OpenAI刚刚发布的GPT-4o，一次推理的成本仍然要人民币4元，这也是现在大模型价格战之所以引入注目的背景原因。虽然现在还有各大科技巨头和风投机构的支持，但这无法持久。
要解决或者缓解这个问题，无外乎几个办法：芯片进步，改进模型，或者解决地球的能源问题。比如，OpenAI的CEO Sam Altman在几个方向都分别下注，除了OpenAI在不断训练自己的模型算法，据媒体报道，他还与软银的孙正义讨论芯片项目，并且投资核聚变—— Sam Altman不久前说，未来的人工智能需要能源方面的突破，因为AI消耗的电力将远远超过人们的预期。
在芯片领域，尽管有许多挑战者，微软、谷歌这样的巨头也在自己设计芯片，但英伟达仍然保持遥遥领先。在当地时间5月22日发布的新一季财报中，英伟达营收增长262%至260亿美元再创新高，并且连续第20个季度超出分析师预期，盘后股价大涨。
而能源领域，目前看起来若要取得真正进展，还需要基础研究的突破，不是光砸钱就能很快取得成果的。
因此，创业公司还能在模型算法改进方面找到潜在发展机会。Transformer推出7年以来，虽然一直有无数的AI研究者对其进行改进和修补，但算力智能转化率的提升仍然不够明显。
DCFormer或许是一次机会
而根据彩云科技的官方介绍，其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果，即算力智能转化率提升了1.7~2倍。这一提升幅度，超过自2017年Transformer诞生至今，被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和（同时应用这两项改进的Transformer架构也叫Transformer++，如Meta的开源大模型Llama）。
图片来源：彩云科技官方
此外，根据彩云科技计算实验，随着模型规模的增大，DCFormer的提升越来越大（上图下的蓝线和绿线），而Transformer++的提升越来越小（上图下的黑线）。
图片来源：彩云科技官方

彩云科技推出DCFormer的论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》将在国际机器学习领域的顶级会议，第41届国际机器学习大会ICML 2024正式发表。据一位评委透露，今年录用论文的平均分为4.25-6.33，而彩云科技团队的论文获得了平均7分的高分。
彩云科技CEO袁行远用了一个烧牛肉的场景来比喻模型训练：食材就是数据，火候就是算力，而模型就是你的锅，换成高压锅以后，煮熟牛肉的时间会变短（节省成本），同样的时间下，做出的牛肉会更软（效果提升），为了得到更好的烹饪效果，不能只靠增加火力和更换食材，锅也很重要，好的模型，可以极大地节省成本，提高效果，这就是模型的意义。
“不管是GPT还是豆包、kimi，如果应用了我们的DCFormer，以上所有基于transformer的模型的成本还能再降一半。”袁行远对包括蓝鲸新闻在内的媒体表示，他希望有更多的模型厂商来试一试DCFormer，“过去我们不太被资本和媒体所知。但如果我们这样的工作还是无法被看见，我觉得无论对我们还是业界都是一种遗憾。”
后续，彩云科技将在自己已有的AI产品“彩云天气”、“彩云小梦”上陆续应用DCFormer模型。以彩云天气为例，其在未来2小时内的天气预测已经十分精准，但随着模型效率的提升，彩云天气有希望在未来3小时到12小时时间段内，实现与2小时预测一样的准确率。
“为什么我们要做这件事呢？因为我们比较中二。”痴迷于《三体》和各种科幻奇幻作品的袁行远兴奋地说。他对DCFormer模型足够自信，仿佛看见了AGI实现的那天。