彩云科技CEO谈中国AI大模型:不止OpenAI一条路

近期,随着AI领域在“尺度定律”遭遇瓶颈,全球范围内AI技术的竞争焦点已逐渐从AI模型转向AI代理模型的应用层面。在这样一个背景下,多国科技公司纷纷布局,竞相推出各类创新产品。

11月15日,美国OpenAI公司发布了ChatGPT桌面版的新功能,支持理解、读写VS Code、Xcode等工具以开发应用。与此同时,OpenAI还计划推出代号“Operator”的新AI代理应用,该应用可模仿人类操作,执行编写代码、预订酒店、机票等任务。

值得注意的是,谷歌AI大模型Gemini的移动版也已于近日登陆苹果App Store应用商店。此外,DeepL也推出了实时文本翻译产品DeepL Voice,目前公司估值已超20亿美元。

在国内,AI代理模型的发展也呈现出迅猛势头。彩云科技,作为快手创始人宿华最青睐的创业公司之一,于11月13日发布了业内首个基于DCFormer架构的通用大模型“云锦天章”。该模型可实现在虚构世界观的基础上,赋予小说人物编程、数学等基础能力,拥有长文扩写、缩写等能力,并已开始向C端和部分中小企业端提供服务。

彩云科技发布的这款14B(140亿)参数模型,是目前非Transformer架构的最新产品。同时,基于DCFormer架构,公司还发布了旗下AI RPG平台产品“彩云小梦”。

彩云科技CEO袁行远表示,“云锦天章是世界最强的小说续写通用模型。”他认为,利用新的模型结构优化,仅用1%的资源就能达到千亿模型的效果,并在此基础上叠加后处理工作流,才有可能真正实现GPT-5。

袁行远强调,中国并非做不出ChatGPT,只是需要时间迎头赶上。他认为,中国200多个大模型公司中,只有彩云科技一家采用非Transformer架构,并证明了其在通用人工智能领域的潜力。

彩云科技成立于2014年,是一家专注于研发消费级AI应用产品的公司。经过多年发展,彩云科技已孵化出彩云天气、彩云小译、彩云小梦等三款面向C端用户的AI产品,产品间接覆盖人数超过6亿人,并通过实施付费订阅等商业模式,实现了AI技术的商业化落地。

袁行远认为,100万DAU(每日活跃用户)、收入数亿元、ROI为正,是AI应用的“死亡线”。他表示,这既是一个及格线,也是生死存亡线。如果能够达到这个标准,那么公司就能够活下来,并持续维持大模型的研发。

彩云科技团队在2017年就开始从事NLP和大模型方面的工作,是国内最早做LLM(大型语言模型)的公司之一。近期,他们提出的基于可动态组合的多头注意力(DCMHA)的DCFormer框架,成功替换了Transformer核心组件多头注意力模块(MHA),并提升了模型表达能力。

袁行远表示,Transformer架构距离“理想模型架构”还有很大的提升空间,除了堆算力、堆数据的“大力出奇迹”路线,模型架构创新同样大有可为。他认为,在大模型领域,利用效率更高的模型架构,小公司也可以在与世界顶级AI企业的对抗中取得优势。

袁行远强调,没有效率的提升,AI就是镜花水月。他认为,DCFormer所代表的模型结构优化之路,至少能发展10倍成长,未来AI真的有可能取代刘慈欣的《三体》写作质量。

展望未来,袁行远已下定决心,将不遗余力地持续加大对DCFormer的研究与投入力度。他表示,DCFormer有望成为GPT-5未来发展的路线选择。

发表回复