GPT4.5来了!【AI大模型专家交流纪要】

1、GPT4.5或许已经隐性发布

海外部分用户灰度到了GPT 4.5的版本账号,询问ChatGPT的版本号会回复其是GPT-4.5-turbo,也有疑似内部图片传出GPT4.5的定价。虽然目前还未确定,但根据之前媒体推测的GPT 4.5年底发布,结合Gemini给OpenAI带来的竞争(虽然Pro版本仍然与GPT-4V有一定差距),我们认为OpenAI在现在发布也存在合理性。

2、GPT4.5仍然强调多模态能力

从GPT4.5的图片看出,该版本进一步加强了多模态能力,声音、视觉、视频和3D能力都包含在内,结合5月份OpenAI发布的Shap-E模型,3D生成有望成为新融合的模态功能。

3、产业调研得知,游戏等非严肃设计领域有望收益

3D生成算法在2023年取得阶段性突破,例如Luma.ai已经在Discord上上线,虽然效果仍然有提升空间,但已经有非严肃场景的游戏3D建模领域在尝试使用3D生成模型,通过文字与图片prompt生成3D模型,我们认为现阶段或许是非严肃的设计领域提质增效的机会。
【AI大模型专家交流纪要】

核心观点

对于多模态大模型的发展,算法和数据同样重要,未来趋势可能是前置特征融合的统一网络结构,同时提高数据集的质量和数量。

在商业模型方面,多模态大模型在电商领域已取得成功,未来可能在更多领域如城市治理、住居业务等发挥作用,尤其在C端社交娱乐类应用中有前景,未来模型成本有望降低,提高模型性价比是关键。GPT4的高价主要由于模型推理成本高,而降低成本的方法包括模型外的优化和算法层面的创新,同时在应用层面选择合适的模型和进行工程化调优。

基本内容

两种架构:

目前大家关注到了很多多模态模型,纵观现在多模态的架构,主要可以分为两种。第一种是一种伪多模态的形式,这种形式主要还是把以往的视觉模型或各种各样的模型进行拼凑,然后通过一个基于大模型的专家系统控制。最近新出的智谱和贾佳亚的这类框架,目标都是在前半段进行视觉信息和语言信息的融合,以致更丰富理解语义信息。这种形式很容易推出和迭代,但本质上还是一种串流程的方式。

最近的另一种形式是多模态原生,目前谷歌的Gemini就是这样的一种形式,gpt-4由于模型具体训练方式未公开尚不确定。这种多模态原生的模式直接将通过图片理解信息,跳过了图文转换之间的环节。这一形式有效避免了伪多模态形式在前置融合中丢失信息的问题,使得更多的信息量用以模型理解,从而产生更好的效果。目前这一新理念正不断推动更多新的框架产生。

应用场景:

多模态的第一种常见的应用场景是自动驾驶,例如近几年发展迅速的BEV感知框架,即通过将来自多个摄像头的图像从透视视图转换到鸟瞰视图进行感知的形式。基于Transformer架构的提出和技术验证,各厂商在这一领域进行了很多尝试,也测试了多模态大模型在自动驾驶技术领域的支持作用,目前大家整体表示看好。

第二种应用场景是机器人具身智能这个方面,机器人具身只能未来发展一定需要视觉、语言、文字的多种融合,以往前置融合无法产生优异的结果,未来机器人模仿人类行为以及机器人按照指令自行运转都需要多模态大模型实现语音和视觉的良好融合。未来在这一方向以及配套的端侧设备也会有所发展应用。

第三种应用场景是电商媒体和营销。以往的形式主要是智能客服根据客户的反馈识别并回复设定的信息,这种形式往往过于死板,也往往局限于单一图片、文字间的交互,无法像真人一样进行交谈。在未来随着多模态大模型的发展,未来AI可以直接通过图片视频状态提取信息,获得更高的精度,也可以产生多种形式的回复和应答,有更好地体验感。通过对多模态大模型的微调,可以将下游B端的应用更加拓展化、细化和具体化。

还有诸如商业模式等也会在多模态大模型的影响下迭代变革,以往各种模式都主要用单一文本,在未来大家也会尝试向着视频、图片、音频融合方向发展。未来大部分领域都会收到多模态的影响和冲击。未来有可能不会被多模态影响到的主要是一些低语义理解场景。这种场景往往没有负责的语义形式需要解读,而是一种低维度或者是单维度的信息判断与理解。例如传统的工业质检场景,判断识别的是螺丝还是螺母,以及产品外观质量如何,有没有划痕这类,纯视觉场景仍然有一定的应用。

Q&A

Q:数据问题,Google的大量多模态数据没有让大模型提升太多?

两个维度,第一维度是多模态的能力,测试分两方面,一个是多模态能力,是全面碾压gpt-4,一个是语义理解能力,同样的测试条件下,语言能力比gpt-4差。训练逻辑不同,gemini所有数据都是以多模态维度训练的,在原生训练网络结构的时候就是以多模态方式训练的,gpt-4turbo训练的时候是单独的视觉模块和语义模块想联合(猜测是后融合)。多模态能力比gpt4好,语言能力和gpt4相当,在fiveshot情况下语义能力不如gpt4。

Q:过去参数增长很多倍,未来参数的规模会下降,如何提升模型能力?

gpt3.5是1750亿,gpt4号称是1.8万亿(没证实)。原来是稠密(每次提问整个网络都要过一遍)的网络结构和稀疏的框架(并不是全部过一遍,moe的架构)。整体模型参数量有1.8万亿,每次推理的参数量可能只要千亿级别,或更小。发现gpt4是moe架构后,大家都这样发展(参数规模不是推理的参数规模)。最近大家在提的bom视觉leverage model框架,以前效果不够好是因为信息在前侧丢失了,所以要做好框架让前侧的信息能被获取。我模型参数还会继续增长,模型参数的摩尔定理(以十倍百倍规模增长)。主要是AI边界的问题,改框架,堆参数等等,随着ai参数提升,对应的硬件,软件都会发展。新加坡留洋的一个团队就是专门做流水线加速等方面,这也是产业链的一环

Q:Google号称原生多模态,不管稠密或稀疏,参数规模在变大,推理的成本会很高,怎么办?

Google现在来看是相对稠密的模型,不是moe架构。模型先训大,再做量化,之前的一个实验把百亿级别的模型70B量化,在精度上有损失,但比直接用小模型精度好,在单卡3090上速度提升两倍以上,精度下降可控。所以一个方法是,先把模型训大,再量化,效果会有少量的精度下降,但推理效果会有大幅度提升

Q:国内多模态哪家做得好,传统四小龙有机会吗?    

智谱和minimax。智谱有东西出来。minimax团队有多模态基因,三维都有,文本,图像,语音,今年语音类前段时间推出音频生成,用起来不错。百川在等开源。阿里也推出大模型应用,最近新出论文,从论文角度看,离产品化还很远。还有一些新的公司聚焦在特点领域做多模态。最近有个不错场景,出海。原来的四小龙机会不大。

Q:openai已经开,版权数据外出给大模型公司的商业模型是否长期有效,国内是否会沿用此商业模型?

日本等国对版权数据被大模型使用有豁免权力。国内,数据版权给大模型使用不会像常规数据这么严(道听途说),我认为这是正确的,因为要利用数据让模型有更好的能力,提高模型效果。听说在探索数据宽松的政策,在探索过程中。

Q:如何看待国内多模态大模型和海外的差距?后续迭代对算力的需求?

多模态的差距没有语音模型的大。之前对gpt-4做了一些定性对比,一些案例问答的细节上回答的更好,但这无法代表整体精度水平。以前从大语音模型角度语音模型出来并达到一定的基准,所用的时间和国外gpt4相差一年以上,像gemini这样的模型,时间距离在一年左右。gemini基于Google的cpu,未来多模态的训练要扩充多大gpu的算力?这块没有信息。但是算力增长还是存在的,但是无法精确回答

Q:影响多模态大模型的核心能力是数据还是算法?除了广告营销出海的情景,从商业落地的角度来说,多模态大模型的价值在哪些垂类领域比较有有前景?

两个都重要。算法方向上,趋势是从以前特征融合的后置方式转变为前置特征融合,智谱代表了国内追求大模型的最前沿,从GLM到VLM的改变表明算法框架在向前置特征融合方向演进。现在融合仍不够彻底,网络结构仍然区分视觉和语义,未来趋势可能是统一的网络结构,同时理解视觉和语义,形成终极方向。数据维度的增长是未来的趋势,多模态数据的高质量数据仍然有限,数据集的维护和增长是关键。高质量的数据在多模态任务中至关重要。对于多模态任务,数据集的质量和数量决定了模型性能,特别是高质量的视觉语言、音频语言等有监督数据的需求仍未得到满足。在应用场景方面,电商是多模态技术应用最繁荣的领域,特别是在电商跨境领域,多模态技术在广告推广、样本增效等方面发挥着重要作用,尤其在国内电商生态中呈现繁荣的景象。

Q:除了电商广告营销之外,其他比较有前景的场景?比如城市的治理?

新基建在城市治理、住居业务中的应用趋势是将语言模型和多模态模型应用于B端和G端,包括央国企。然而,实际应用场景相对较少,之前有过一套系统,两年没人使用,所以对于G端和大B端的应用场景我并不看好。B端可能在政务服务等方面可能还有一些应用,但对多模态的要求不高。相比之下,C端的社交娱乐类应用,如AI社交APP,有更好的多模态应用场景。在聊天场景中,涉及文字、语音和图片等多模态信息的识别是刚需,而一些泛娱乐类社交软件在这方面表现不错,如Minimax和星野等。星野等应用在二次元类社交软件中有良好的用户趋势,对多模态的诉求较高,这可能是一个比较有前景的方向。    

Q:从OpenAI的定价来看,GPT是非常贵。是因为模型本身的推理成本贵,还是其他原因?感觉价格不会下降,谷歌pro如果定价出来,有可能也像GPT4一样贵。从模型开发商的角度来讲,有办法降低成本吗?是模型的设计还是别的一些因素?

GPT4的成本主要取决于模型推理的复杂性和参数的复杂性,以及对应的算力需求。由于成本高,价格也相对较贵。Gemini Pro对标的是GPT3.5,而Gemini Ultra对标的是GPT4。然而,Gemini Pro的效果可能不如GPT3.5。在模型外进行优化的方法包括对简单问题进行判别,避免不必要的大模型处理;利用知识库进行匹配,理解意图来减少搜索的复杂性。此外,可以采用不同模型的层级,根据问题的复杂性选择适当的模型。从应用层面进行工程化的调优,如在最初的决策阶段使用大模型,对于简单问题降低成本。同时,通过迁移大模型到小模型进行蒸馏,实现加速,是另一种降低成本的方式。目前多模态在电商领域表现较为繁荣,尤其在社交娱乐类应用中有广泛的应用场景。例如,星野这类AI应用在语音、图像、文本等多模态信息处理上具有较高的需求,这是一个较为成功的应用方向。总体而言,未来模型的成本还有望进一步降低,通过模型外的优化和算法层面的创新,提高性价比。在多模态应用场景下,如电商和社交娱乐,多模态信息处理将成为一个发展趋势。

发表回复