首个!专注于视听媒体内容生产的AI大模型带来交互新变革
当下大模型席卷全球千行百业,AI大语言模型代表了通用人工智能领域的最新发展。其在语义理解、对话生成和知识获取等方面取得了显著突破,在人机交互、智能助手和内容生成等应用场景中也展示出令人惊艳的表现。对于视听行业,大语言模型既带来了发展机遇,也带来了建设思考。
11月25日,爱奇艺首席技术官刘文峰在2023虎嗅F&M创新节以“AI驱动创意的范式跃迁”为主题,带来了爱奇艺的思考。他表示,影视行业可以被视为最适合大模型落地的行业之一。生成式AI的两大核心能力——“理解”能力和“创作”能力,已经可以让我们看到提质增效的清晰路径。
11月20日,以“开蔚然新篇,创无限可能”为主题的2023“世界电视日”中国电视大会在北京香格里拉饭店举行。中央广播电视总台超高清视音频制播呈现国家重点实验室副主任、“百城千屏”项目推进办公室副主任赵贵华受邀在本次大会上发表以《央视听媒体大模型》为题的演讲。
赵贵华谈到,中央广播电视总台联合上海人工智能实验室在7月20日正式发布了“央视听媒体大模型”(CMG Media GPT),这是首个专注于视听媒体内容生产的AI大模型(以下简称“央视听大模型”)。
据介绍,为应对大模型发展对高质量、大规模、安全可信语料数据资源的需求,保障大模型科研攻关及相关产业生态发展,总台还与上海人工智能实验室等10家单位联合发起了大模型语料数据联盟,为大模型发展提供高质量、大规模、安全可信语料数据资源,保障大模型科研攻关及相关产业生态发展。到目前为止,央视听大模型经过数据训练和模型微调,已经能够提供以下实际节目应用:
一是节目创作方面,可根据关键词和内容提示创作文稿,并将文稿生成节目台本(镜头本),提示具体拍摄内容和查找媒资素材,在此基础上根据台本(镜头本)自动后期编辑,可按照用户需要的时长合成节目成片。
二是短视频生成方面,根据输入文案自动生成标题、匹配素材、字幕、模板、解说、背景音乐并生成短视频(支持横版竖版)。
三是节目编辑/剪辑方面,总台有大量节目是重播节目,而重播时长往往与原节目时长差异很大,尤其是体育节目,在原有节目的基础上根据节目时长要求进行精编或缩编,保留节目精彩部分。
四是超写实AI数字人方面,根据用户提供的视频可快速生成具备高度真实感的AI数字人或主播,建立智能化多模态算法与数字人驱动的接口,形成数字人感知与理解模式的仿真交互,通过大模型对数字人进行语音、表情和动作驱动,可实现脸、唇、音、体等智能化的全维表达。
五是AIGC动画方面,通过文生图和文生动画,确定二维图像到三维模型的映射关系,为三维动画模型建模、二维动画摄像机定位创造基础,改善动画主体、镜头运动造成的生成内容变形,增加AIGC对于空间、角度、遮挡、变形的判断力,使得生成内容更趋平滑稳定。
六是AI换脸方面,近年受明星频繁“塌房”事件影响,大批影视剧被雪藏,AI换脸成为影视制作行业的普遍需求,引入超分算法+高频动态渲染+4D数据技术,推出成熟可商用的AI换脸解决方案。
央视听大模型集合了中央广播电视总台的海量视听数据与上海AI实验室的原创先进算法、大模型训练基础设施优势。基于上海AI实验室的书生通用大模型体系,央视听大模型将拓展视听媒体的创意空间、提高创作效率并带来交互方式的变革。
“当我们谈论大模型时,不\应只关注对话聊天功能,更应看到它在提高生产效率方面的作用。”上海AI实验室主任助理乔宇表示,上海AI实验室将与学术界、产业界紧密合作,共同推动大模型落地应用,使之成为推动生产力变革的技术基础设施和社会发展的重要基石。
中央广播电视总台超高清视音频制播呈现国家重点实验室负责人表示:“总台积极推进‘思想+艺术+技术’的融合创新,本次联合上海AI实验室发布‘央视听媒体大模型’,就是要使用总台视音频媒体大数据在实验室原创的通用大模型上进行训练,探索在确保媒体真实性和安全性的基础上,运用生成式人工智能,提升视听媒体制作的质量和效率。”
媒体编创:在“聊天”中工作
以大模型的多模态理解、交互和生成能力为基础,媒体工作者将来有望在“聊天”中完成工作。
目前,央视听大模型具备了强大的视频理解能力和视听媒体问答能力,AI相当于拥有了感知真实世界的“眼睛”和“耳朵”。同时,央视听大模型可根据提供的视频创作文字——从主持词到新闻稿件,甚至诗歌。媒体编辑可在大模型的协助下,一键为视频生成风格各异的解说词,当前生成内容已覆盖美食、文化和科技等多个领域。
央视听大模型可通过逐步呈现的视觉元素,理解并分析视频。用户通过与AI聊天对话的形式,深挖视频蕴含信息,进一步完善输出的内容。当它“看”到央视节目《中国诗词大会》中“看图猜诗词”环节视频,便可理解视频内容并生成出李白的《望庐山瀑布》。
央视听大模型同样了解新近的科技进展。当“看”到我国空间站模型的相关视频,即能生成视频镜头脚本及旁白。
央视听大模型丰富生动的表达,还得益于背后的书生·浦语大模型强大的语言能力和宽广的知识体系以及书生·多模态大模型强大的开放世界理解和内容生成能力。除了为媒体编创赋能,上海AI实验室还通过全链条开源(https://github.com/InternLM/InternLM)推动书生·浦语在更广泛的场景落地应用。
央视听大模型还为用户提供了强大的交互式图像、视频编辑与创作能力,使得新的内容生产方式变成可能。用户仅需使用简单的光标和文字指令,即可快速修改或编辑图像,实现“指哪改哪,画随口出”。在下图的示意中,使用光标点击选中右边的鹦鹉,在对话框输入“小仓鼠”,轻点鼠标即可将鹦鹉替换成小仓鼠的图像。
上海AI实验室科研团队介绍,央视听大模型具备的视觉理解能力,源于跨模态互动技术的最新突破——大模型将图像/视频视为另一种“语言”,并将视觉与语言对齐,从而降低人工智能视觉任务的门槛。基于对多模态数据的建模,央视听大模型可感知图像的风格与纹理笔触,通过将用户输入的文本指令与图像对齐,实现按照用户需求生成画面及风格一致的其他内容。借助强大的对话能力和易用的互动模式,央视听大模型将推动人机互动达到新高度。
内容创作:一键生成节目内容、数字人主播
具备超强理解能力的同时,央视听大模型还拥有通用的生成能力,即通过文本直接生成视频,视频质量可达到高清视频标准(2K和24FPS)。在生成内容的可控性、流畅性以及生成细节等方面达到国际领先水平。
值得关注的是,央视听大模型支持故事一致性和镜头连贯性生成,在生成有故事情节长视频的同时,还保证故事转场的流畅性。未来,该项技术有望广泛应用于动画及电视等视频内容的制作中。
用央视听大模型生成流畅、高清、带有故事情节的视频除了视频内容,央视听大模型还具备快速生成“数字人主播”的能力。使用较短的真人采集视频即可生成对应的数字人。AI生成的数字人主播以“真人”形象呈现,不仅能根据既定文案和背景场景快速生成播报视频,还可自动学习真人的语言及动作习惯,做到形象更逼真,表情更自然。
支持快速生成形象逼真、表情自然的数字人主播通过央视听大模型的生成技术,不仅可实现主播“分身”,更能简化视频播报的创作过程。用户在视频创作素材库选择视频模板,输入文案,便可一键生成知识分享、品牌宣传、短视频带货、培训宣讲、热点资讯等各类数字人视频。大模型中还提供AI文案编写功能,用户输入粗略想法即可快速生成播报文案,并合成数字人视频。
目前,“数字人直播”支持中英文等多语种播报,同时兼容国内多地区方言播报,随着语言版本的不断扩充,用户可以轻松创作更多跨语种的国际化内容。此外,基于全球首个城市级NeRF实景三维大模型书生·天际,央视听大模型还提供了场景渲染的能力,可进行高精度实景三维建模,建模范围具有无限可扩展性;同时提供对城市场景的编辑能力,包括移除、新建、旋转城市建筑,对场景进行光照、季节等风格变换。该技术有望广泛应用于影视制作,降低建模及渲染成本,提高制作效率。
此外,谈及总台对于视听技术方面的布局,赵贵华作出了三点总结。
首先是聚焦5G+4K/8K+AI发展,全面推进超高清AI制播平台关键技术突破和创新;
其次是聚焦全媒体超高清制播呈现,全力提升央视听媒体大模型的研发实际效果;
三是聚焦媒体重点应用场景,积极推进AIGC在媒体领域的示范应用。
总台将加快推进央视听大模型落地应用,为媒体提供更加高效的智能创作工具,优化内容创作,聚焦媒体领域重点示范应用场景,联动产业链上下游,充分发挥在超高清视音频研究和应用优势,构建生成式人工智能的良好生态。
大模型技术的未来发展趋势
大语言模型技术已经开始从不同维度介入视听行业领域,甚至渗透到我们生活的方方面面,带来跨时代的改变。因此,我们也要对它未来的发展趋势,带来的机遇、挑战和可能产生的问题做出思考。
OpenAI CEO 山姆·阿尔特曼认为,AI的大模型技术将成为继移动互联网之后最大的技术平台。而以聊天机器人为界面,加上图像、音乐、文本等多模态模型的发展,将诞生许多新一代的大型企业。在此背景下,我们现在能够看到的ChatGPT等应用只是冰山一角,隐藏在背后的是更加丰富的应用场景。当大量科学研究和技术研发都将能够通过AI来加速推进,算力(芯片)必将成为产生算法突破的基石。产业竞争不断升级,那么不可避免地,大资本也将成为影响算力竞争的基础。大模型的实现有赖于海量数据的获得和积累,计算机的算力,甚至包括芯片的竞争,都可能成为未来行业,甚至是全世界技术竞争的核心问题。
伴随着技术、硬件、软件和算力的提升,云端竞争的时代已经到来。我们的实体行业都不可避免被卷入云端的竞争当中,内容的汇聚,芯片层、框架层、模型层、应用层等各个环节都被卷入。未来的用户对于云端的需求也会更加聚焦在智能服务当中。怎么样能立于不败之地?我们的模型是不是善于计算、利于计算,并且能够表现出来足够的智能化水平,这些都是未来的竞争当中我们需要面对的问题。除了应用层面以外,当然还包括监管层面的一些问题。这些都是我们对大语言模型未来发展前景提出的一些追问。