设为首页
收藏本站
开启辅助访问
切换到宽版
快捷导航
登录
立即注册
快速发布信息
搜索
搜索
首页
Portal
社区
BBS
签到
本版
文章
帖子
用户
果果一线
»
社区
›
IT
›
实时快报
›
专访万兴科技董事长吴太兵:文本大模型理解人类,文生视 ...
返回列表
发新帖
专访万兴科技董事长吴太兵:文本大模型理解人类,文生视频大模型理解世界
[复制链接]
59
|
0
|
2024-5-14 23:21:24
|
发表时间:2024-5-14 23:21:24
|
显示全部楼层
|
阅读模式
21世纪经济报道记者 林典驰 深圳报道
在近期热播综艺《歌手2024》中,网上发布的片头中“海平面的潮起潮落”等多个场景便是由文生大模型“天幕”生成。
2月,Sora大模型横空出世,将大模型领域最热话题又重新拉回到视频模型上,国内诸如万兴科技、生数科技等公司均发布了各自具备文生视频能力的大模型,一场大模型的竞速正在徐徐拉开。
有别于文本大模型的“百模大战”,视频大模型由于其本身算力成本极高,算法难度复杂,所需数据规模数倍于图文大模型,因而国内目前宣布具备文生视频能力的大模型厂商并不多,至今难以大规模落地。
另一方面,视频流量占消费互联网总流量的82%,创作者寄希望于文生视频功能出现,视频大模型发展潜力巨大。
4月底,万兴“天幕”音视频多媒体大模型宣布正式公测,具备近百项音视频原子能力,一键生成时长支持60秒+。
近期,在“2024长江独角兽峰会”上,21世纪经济报道记者专访了万兴科技(300624.SZ)董事长吴太兵。
尽管大模型已在万兴科技旗下创意软件中规模化应用,但“天幕”生成效果离吴太兵预想中仍有差距。
他坦言,万兴“天幕”不追求一夜之间的突破,而是采取应用驱动的策略,针对实际用户场景进行能力强化和数据准备。在AIGC时代,万兴更多像电力系统中的终端设备制造商角色,专注于矩阵化的数字创意软件终端应用开发,而非单纯的大模型提供商。
万兴科技董事长吴太兵 受访者供图
视频大模型理解世界在互联网世界中,视频占总流量超过八成。巨大的流量市场也催生了创作需求,数据显示,全球视频创作者规模已达到3.05亿,视频类内容触达到用户群体则高达43亿。
为创作一段真实世界的视频,动效师和剪辑师可能需要耗费数天的时间,只为复杂细节和模拟物理世界建模。
而随着AI技术的爆发性增长,视频大模型可以通过AI自动化生成高质量的视频内容,大大缩短制作周期和成本。
不仅于此,吴太兵表示,中长期来看,视频大模型不仅能够模拟真实物理世界,还应拥有丰富想象力,成为对真实世界的映射。例如,当前游戏场景都是预先生成的,想象空间和体验感有限,未来视频大模型若能助力相关画面实时动态生成,将显著提高玩家的游戏体验。
事实上,在供给侧,能够提供高质量支持的音视频大模型仍相对不足,这是因为视频大模型落地并不简单。
吴太兵向记者表示,如果说文本大模型只需要理解人类,那么视频大模型需要处理和还原视觉与听觉等信息,理解并构建一个接近真实的世界,这一任务的难度远超文本处理。
并且,大模型面临数据集缺失、视频内容结构及层级复杂、算力成本高等严峻挑战。
“粗略估算,训练一天的视频数据量相当于互联网一个月的文本大模型的数据量,‘天幕’按照特定场景组织数据训练,一定程度缓解数据‘焦虑’。”吴太兵称。
在吴太兵看来,各家视频大模型在技术方向上并没有本质区别,关键是看企业愿意投入多少资本和人力,购买多少版权数据。
百模大战商业模式推演在通往AGI的道路上,除了需要多模态大模型,业界亟需探索更好的商业模式,2024年这一步伐明显加快。
当前,百模“激战正酣”,大厂和创业公司在大模型领域厮杀。其中既有做通用大模型如百度的文心、阿里的通义、腾讯的混元,也有面向行业、场景的垂直大模型如万兴的“天幕”、云天励飞的天书在金融、教育、工业等多个领域“智能涌现”。
据Gartner研究预测,到2030年,90%的数字内容都将是AI生成,这场AI竞速谁也不想落下牌桌。
“AIGC对创业公司来说喜忧参半,喜的是有崭新的赛道出现,忧的是这是一个需要大量资本投入的赛道。”吴太兵认为,巨头更多集中在通用大模型,模式和定位相对稳定;相比而言,万兴具备快速调整策略的灵活性,但又比创业公司更有积淀。
随着AI技术不断发展,国内相继出现妙鸭相机、Kimi等现象级爆款,也有专注B端软件基础上,用AI工具增强原有解决方案,又或是AI Agent(AI 智能体)的崛起。
吴太兵认为,大模型B端和C端并不是完全割裂,这跟营销渠道建设的优先级有关,好比家用电脑和办公室电脑实际上并没多大区别,更多是大模型所服务的用户和用途有差异。万兴主要用户是C端,同时也有很多企业付费,更愿意用个人用途和商业用途区分。
对于万兴的定位,吴太兵有自己的一番思考。他表示,如果将AIGC类比为电力系统,万兴科技更多像电力系统中的终端设备制造商的角色,专注于矩阵化的数字创意软件终端应用开发,而非单纯的大模型提供商。万兴希望做AIGC时代的“美的”,选择创作者的细分市场,开发矩阵化的数字创意软件应用。
具体到文生视频大模型,由于运算和推理的成本过高,至今难以大规模落地,视频模型的技术迭代需要烧钱,落地应用后,用户的使用也会带来巨额的计算成本。
吴太兵表示,大模型的商业模式还没有完全打通,付费意愿也是需要考量的问题。Sora大模型尚未公测,业界也是猜测其推理成本很高,万兴“天幕”当前处于分批公测状态,一次性放开还不太现实,成本太高。
对于百模大战的终局,吴太兵判断,文本大模型集中度高,进入门槛较低,同质性较强,随着参与的机构数量增多,时间逐渐延长,在算力和数据等成本压力下最后一定会角逐出几家寡头。但对于音视频大模型而言,由于细分领域更多,诸如动漫、写实等风格,每个方向数据集都会有较大的差异,多元化的可能更多一些。
回复
使用道具
举报
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
俊鹏
31
主题
57
帖子
57
积分
注册会员
注册会员, 积分 57, 距离下一级还需 143 积分
注册会员, 积分 57, 距离下一级还需 143 积分
积分
57
收听TA
发消息
回复楼主
返回列表
科技报道
实时快报
业界报道
大佬快评
热门排行
1
9月19日人民币对新加坡元中间价报5.4776元,上调75.0个基点
2
“最惨撞车魂游”《艾诺提亚:失落之歌》Steam褒贬不一:风景优美 手感稀碎
3
推主总结《AC影》的"罪":弥助配着嘻哈殴打日本村民
4
小米新品即将来袭:博主爆料小米15系列新机正在筹备中
5
姚振华被恢复执行6.5亿
6
9月19日人民币对阿联酋迪拉姆中间价报0.5174元,下调8.8个基点
7
悬空寺出《黑神话:悟空》造型雪糕 已售100份
8
搭上AI东风 T-Mobile(TMUS.US)预计2027年EBITDA将增至390亿美元