人工智能热度飙升,对未来教育有哪些影响?听听两会代表委员怎么说!

随着科技的飞速发展,人工智能正日益成为推动社会进步的重要力量,其在教育领域的应用与融合更是引发了广泛关注。
在2024年全国两会的热烈讨论中,人工智能成为代表委员们关注的焦点。
· 关于人工智能,代表委员们都提了什么建议?
· 新时代下的少年儿童要如何应对人工智能带来的机遇与挑战?
今天我们一起来看!

01关于人工智能,代表委员们都提了哪些建议?

本次两会期间,多位代表委员围绕人工智能在教育领域的应用提出了建设性意见和建议。

看点一:民进中央带来了《关于积极推动人工智能赋能教育变革的提案》,建议积极推动生成式人工智能与教育深度融合,走出一条创新驱动、科技向善、持续健康的发展路径。

看点二:在全国人大代表、小米集团创始人雷军看来,未来各行各业对掌握人工智能基本技能的人力需求正急剧增长,加强人工智能领域人才培养,将成为我国产业持续升级的关键因素。

他建议将人工智能纳入教育培养体系,一方面从义务教育阶段普及人工智能素养教育,九年义务教育阶段设置人工智能通识课程,同时将相关内容纳入中小学社会实践活动。

看点三:全国人大代表、重庆市九龙坡区谢家湾教育集团党委书记、总校长刘希娅认为“提升科学运用人工智能的意识和能力,改进学生学习方式,是教育数字化转型的必然要求。

看点四:全国人大代表、内蒙古呼伦贝尔市海拉尔第二中学教师胡海娟建议,逐步建设和完善科学合理的科学教育管理体系和评价标准,将教师科技培训纳入学校评价机制。将小学、初中、高中科技特长生取得相应国家级、省级成绩纳入升学体制,将科学教育纳入教师职称和各级教育系统教师评优体系。

人工智能带来了哪些挑战?

人大代表的提议并非空穴来风,人工智能的突然到来,已经让各个行业都面临着众多问题与巨大的挑战:

比如说人工智能可以在什么产业落地,进化成更好的工具?少年儿童会关心未来的学习方向与专业,是否有所变革?以及生成式AI创作的内容,到底该受什么法律法规保护?

所有的问题不仅仅是成年人需要思考的,也需要让当下的儿童有所感知。面对人工智能带来的未知的挑战,我们务必要做到:

1. 增强儿童数字素养:让孩子杜绝电子产品已经不可能了,这个时代更需要的是培养儿童对人工智能和相关技术的基本理解,让他们了解这些技术如何工作以及它们在日常生活中的应用,这样才能利用人工智能辅助自己获取更好的学习体验。

2. 培养孩子安全意识教育:网络不是法外之地,教育儿童如何安全地使用互联网和人工智能技术,包括隐私保护教育、识别网络欺凌和避免网络诈骗,都是每位父母和老师都需要重视的教育。

3. 创意与创新鼓励:鼓励儿童通过编程、机器学习项目等活动,利用人工智能进行创意和创新的尝试,发挥他们的想象力和解决问题的能力。

4.家长与教师的辅助角色:家长和教师应该共同学习人工智能的知识,以便更好地指导儿童使用这些技术,并理解它们可能带来的影响。

通过这些策略,才能让儿童在人工智能飞速发展下应对可能遇到的挑战,为未来的发展奠定坚实的基础。

人工智能环境下要提升孩子哪些能力?

当然了,随着时代的进步,被动应对倒不如主动学习

在未来的人工智能环境中,少儿教育的重点应当是培养孩子们适应和利用这一技术变革的能力,为了做到这一点,教育不仅需要注重基础知识的学习,更应侧重于以下几个方面的能力培养:

1. 创新思维能力:在人工智能时代,机器可以处理许多重复性和逻辑性强的任务。因此,创新思维的培养变得尤为重要,它可以帮助孩子们在未来解决那些机器难以应对的复杂问题,这样才能保证不被机器所替代。

2. 问题解决能力:与创新思维相辅相成,问题解决能力的培养能够使孩子们学会如何分析问题、寻找问题的根源,以及设计和实施解决方案,这在与人工智能互动和合作时尤为重要。即使是同样地使用ChatGPT,不同的人提问方式不同也会得到不同的答案,会分析问题、解决问题的人将能利用ChatGPT获得更优质的答案。

3. 数字素养:理解数字世界的运作方式,包括数据的收集、分析和解读,是在人工智能环境中生存和成功的关键。数字素养不仅仅是能够使用技术,更重要的是理解技术背后的原理和逻辑。

4. 伦理和社会责任感:随着人工智能技术的普及,对伦理和社会责任的关注也在增加。培养孩子们的伦理意识和社会责任感,可以帮助他们在未来的人工智能社会中作出负责任的决策。

在强调以上能力的同时,对编程学习的重视成为了自然而然的延伸——编程不仅是实现人工智能的基础技能,更是一种训练逻辑思维、解决问题能力的有效手段。通过编程教育,孩子们不仅可以学会如何控制机器,更重要的是,他们可以学会如何与机器合作,创造出新的解决方案。

因此,编程不仅是孩子们适应未来社会的需要,更是他们在未来人工智能环境中取得成功的关键所在

亚布力重磅话题:AI,到底在颠覆什么?

前不久,Sora横空出世,成为美国OpenAI继ChatGPT之后投向世界的第二枚重磅炸弹。

这样一款人工智能文生视频大模型,让用户只需要对着Sora说出想法和需求,就能生成自己想要的视频,颠覆了传统视频行业从脚本、布景、拍摄录制到后期剪辑的一系列流程。

有人为此兴奋难耐,也有人因此辗转难眠。

关于AI颠覆产业的种种讨论,持续成为人们关注的焦点。

2024年2月21日-23日,亚布力中国企业家论坛第24届年会召开,其中唯一的AI专场——

“创新引领未来—当AI成为助手”科技分论坛的开启恰逢其时。对谈由亚布力论坛数字前沿技术委员会主席、亚信联合创始人田溯宁担任主持人,邀请到钉钉总裁叶军,小米集团人工智能实验室主任王斌,脑虎科技创始人彭雷和图灵机器人创始人俞志晨,一起从企业管理、未来手机、脑机接口、AI教育等前沿领域发起讨论,脑洞大开:

AI可能会向人类发出“灵魂一问”,钢铁侠的贾维斯或成现实?

15年后脑机手术会不会跟近视眼手术一样普及?

APP都消失了,只需提问就能丝滑交互的未来手机会长什么样子?

当AI能够更高效地提供教育,学校会不会消失?

AI已来,数字永生还有多远?
田溯宁:亚布力相信“思想能改变世界”,AI不仅是一种工具,一种力量,更是一种思想。这段时间AI的技术变革持续给我们带来冲击,从科技和整个产业历史上来说,各位如何看待AI?
叶军:我觉得AI类似于电力革命,是一个新时代开启的分界线。 
而我们当下所面临的挑战不仅仅在于电力本身,还有如何创造出各种使用电力的载体,比如灯泡、微波炉、电冰箱等。
这个周期可能会非常长,延续十几、二十年。如果把AI跟各个产业进行结合,每个产业其实都得做一些重构,整理延续周期会非常长,因为各个产业都会轮番进行产业变革。
王斌:确实。我们现在“天天科技革命,日日文艺复兴”,感觉每天都在看到关于科技发展的新变化,也会感到焦虑,但技术趋势我们能做一个整体的判断。
大模型技术出现在六七年前,真正落实到应用的标志就是之前ChatGPT的发布,现在都是在技术上做一些更新迭代,跨越性不如ChatGPT刚出来时候那么大。所以未来一个大的变革再加上一些小变革这个趋势还会不断发展。
但从科学的规律来看,随着大模型数据规模不断增大,技术变化会出现边际效应。比如,人类历史上产生的所有数据可能都被训练完了,没有东西能喂给大模型了。此时可能会迎来一个瓶颈,然后技术突破可能又会诞生新的模型,带来新的攀升。
彭雷:当下新技术的应用渗透速度确实在不断加快,而AI一定是范式变化的东西,好比iPhone时刻。这种浪潮一般10年、12年出现一次,并且会催生一系列大的公司。我觉得AI的下一波也许就是脑机或者碳基跟硅基融合的这一趋势,我们正做一些预演。
田溯宁:工业革命二三百年来,人类物质生活得到极大丰富,人的平均寿命也增加了一倍,未来AI能不能让我们的寿命进一步延长,甚至到120岁、150岁?另外,我们今天看到Sora已经可以把一个人的形象完全复原,这种技术带来了很多可能性,比如生成和储存更具象的记忆。人类所面临的许多痛苦都与情感有关,AI又能怎样丰富生命情感和提升生命质量?
叶军:人类所有学科的发展,最终都是要找到科学原理。比如牛顿看到苹果掉了下来,最终探索到了宏观力学上的经典力学三大定律,这一套定律帮助我们理解更多其他现象甚至做出预测和推演。
当下,大模型的输出其实还存在幻觉,对于大家给出的需求,它产出的结果不一定是正确的。比如最近大家都很关心的Sora也存在类似问题,懂得一些物理学原理,可以生成一些符合人类物理学的视频,但始终会存在一些偏差。要解决这个问题我们可能还需要时间,但可预期的是我们一定能解决。
等到解决之后,我认为人类的数字永生是可以实现的。比如很多年后我已经不在了,但我过去这一生的经历、所见所闻可以训练成一个数字化的我,如果我的孙子有一天突然想跟我聊天,或许扫一下码就能实现。
田溯宁:我能看到这一天吗?我今年60岁。
叶军:我觉得应该可以。
田溯宁:需要我们这些企业家不断去创造。
彭雷:是的,结合我所在的脑机接口这个赛道来看,AI对于生命质量的提升路径也很清晰。比如对于渐冻症跟高位截瘫的患者而言,他们会遇到除了大脑身上其他肌肉不能运动的情况,没有向外表达语言,也没有向外传达运动的能力,其实非常痛苦。目前来看,这些人很多会自我放弃掉生命,觉得没有生存的价值。
我们现在能解决就是让一些绝症跟重症的患者,在后期生存质量好一些,可以向外输出语言,可以控制机械臂拿一杯水,更进一步也许能够控制机械轮椅。
至于什么时候能通过脑机直接把一些知识、记忆、情感传递给另外一个人,我个人觉得是15年以后的事情。
田溯宁:15年已经很值得期待了。
彭雷:以现在科技发达的指数级速度来看,我觉得是可期的。
王斌:刚才讲到一个非常有意思的话题,就是人工智能和脑科学怎么互相促进,我从另外一个角度印证一下。
我在北京参加一些大模型的脑暴会,一个来自清华做脑科学的教授非常积极,他是MIT毕业的,在这个领域非常权威。他对于大模型的出现就非常兴奋,觉得大模型印证了他的一些想法能够反过来推动脑科学发展。
因为人工智能的发展一直有两条线,一种方式是把人脑研究明白然后来模拟人脑,还有一种就是通过计算去做。
第一条路线确实比较难,因为人类目前对自身的理解进展并不快,但是大模型出现之后,这两条线路之间好像架起了一个桥梁,使其有融合的可能性,这是一个比较伟大的一个事情。
第二,我记得自己向ChatGPT提出的第一个问题是帮我证明一下勾股定理,虽然它给到的证明是错误的,可是思路非常清晰,明明是几何题却用了代数的归纳法,超出了我的想象。
当时我就想,大模型出现之后我们的科学发现可能会大大提速。甚至我们开玩笑会说,午休时间就能用大模型工具发明几个物理定理玩玩,我觉得是很有可能的。
这就是我认为大模型或者AI可能给整个社会带来的最大风暴——促进整个基础科学的变革,进而影响全人类的生命体验。
俞志晨:其实在早期做AI的时候,大家对于终局的预测就是两个,一个是物理实体的人形机器人,一个是虚拟形态的机器人,比如AI数字人。以目前的发展来看,未来我们可以期待AI会给人类自身带来一个群体智能的提升,并且三五年以后也许有更大的变化或者带来一个大的变量。
图片AI时代,老板的核心竞争力是什么?
田溯宁:回到更现实的场景下,各位不妨结合自己的公司来谈谈,AI当下究竟在怎样改变我们的生活?
叶军:我结合钉钉来聊一下。
钉钉现在9年了,有两次重大的机遇,一次是2015之后移动化的普及,让我们第一个把办公从PC端搬到了移动端,第二次就是现在,AI+协同办公,让我们看到无数企业和岗位的工作效率得到极大提升。
为什么效率会提升?因为AI帮我们把很多重复性的事情做了,解放了效率。
刚才田老师提到AI能否帮助人类延长寿命,提高生命质量,实际上同样的时间里,我们的效率提升是不是也相当于多活了?
任何一件事情,从交互到思考怎么分解任务、计划任务、执行任务,所涉及的体系都会因为AI的出现发生巨大的变革。
首先,交互方式会在原先纯粹的GUI基础上增加LUI,交互会变得“所想即所得”。微软以前提出“所见即所得”,Word就是这么去做的,而现在我们可以通过智能化+工具实现“所想即所得”,很多事情如果你一想它就完成了,你的生命质量肯定会提升。
其次,AI会让分解任务的过程智能高效。以往我们产生一个任务的时候,会分配给一个团队或者某个人,由此向下一层层分解,形成一张张任务列表。
但有了AI以后,它知道谁适合干什么、哪个系统适合来做什么,我们就可以批量分解和计划任务,不需要一级一级去讨论,计划效率会得到极大提升。
以前我们缺系统,信息化程度不够高,而现在这个时代系统非常多,信息化也充分,以至于很多人甚至不清楚哪些系统可以做什么事情,有了AI以后系统的利用效率也会得到提升。
最后,我们说说AI在执行这一阶段的作用,这其实也是最恐怖的部分。
我们在使用AI的时候,其实很担心它会出现乱操作的情况。对于整个AI的发展来说,我们社会上需要有企业不断去超越,去触碰那个天花板,让我们知道高度在哪里。
但并不是每一家引入AI的企业或者每一个行业的传统企业都需要去做这件事情,我们反而鼓励更多行业小模型、专属模型的出现,它可以帮我们把执行变得非常确定。
毕竟如同我们前面提到的,当下很多大模型还存在“幻觉”,这样的错误如果出现在执行中是不可靠的。
某种程度上讲,像手机、电视机、钉钉这样具有场景、具有数据的体系面前,AI的执行应该是非常确定的,这个确定性会消解掉AI大模型的幻觉。最近一年多我们都在这方面投入实践,感触是空间非常大,大有可为。
田溯宁:我想追问一下,我作为一个公司老板,第一关心销售情况,第二关心人力资源的状态,在AI+钉钉上,我未来了解这两方面情况的时候会有什么变化?
叶军:比如以前我们想看公司人力资源的状况,需要找人拉数据、看报表,设计好老板喜欢看的格式,一旦数据没有还得再去收集准备。
但是在AI这个新的时代,当我们信息基础设施充分的时候,就不再需要让人去呈现数据了,只需要告诉AI你想要看一张什么样的报表,以怎样的方式呈现,你就可以快速得到自己想要的信息。
因此以后要看数据,考验的是老板提问题的能力,可能一个问题没提好,报表界面就完全不同了。
田溯宁:所以对人的考核变得及时化、动态化和形象化了。
叶军:是,但决定还是要老板自己来做。
田溯宁:老板水平很重要。
叶军:对,判断力是老板最核心的竞争力。
田溯宁:这个是金句,判断力是老板的核心竞争力,这跟老板的认知水平息息相关。王斌你觉得几年之后小米的手机加上你的人工智能实验室会生长成什么样?
王斌:从技术和产品结合的角度想可能有三个变化:
第一个,交互方式革新。这个大家可能都想到了,现在的交互方式包括文字、语音和图像,未来多模态加上AI可以让手机能够更好判断使用者所处的环境,相应做出更合理的回复和响应,在交互方式上会更加人性化,或者说更像人。
第二个,新的流量入口。现在我们已经有了比较强大的AI基础能力,能够支撑更多开发者或者生态去开发各种各样的应用,只不过这个流量入口最终是属于手机厂商、APP开发者还是大模型,我们还需要一些时间去判断。
第三个,手机形态的变化。今天我们讲AI其实不只是大模型,甚至大模型也不只包括语言模型,还有文字生成图片或者视频的模型。随着AI 的能力越来越强,以后手机很多硬件的能力可以通过AI来实现。比如我们可能会发现,以后的手机不需要那么高级的镜头,因为镜头很费钱,也很重,用普通摄像头就能拍出大片效果,这件事正在逐渐变成现实。
田溯宁:彭雷你觉得呢?AI和脑机的结合是什么样的图景?
彭雷:我们所做的本质上还是医疗器械,所以在研发过程中有很多AI可以赋能的地方。
比如以前我们植入电机之后可以采集到一个人十几个或者上百个神经元放电信号,解码方式是非连续解码,只能控制机械臂前进后退左右两个自由度。大模型出来之后我们正在跟几个公司一起探索做多模态解码,让视觉、声音和脑电信号叠加,争取输出连续性的、多模态的结果,对机械臂的操控更加自由和精准。   
田溯宁:再请志晨跟我们分享一下你这边AI的新应用,你之前也赋能过很多智能硬件。
俞志晨:我这边比较想分享的其实是AI老师。
我们国家人口众多,以前靠工程师培养了很多大学工程师,培养了很多应试的学生,他们在人工智能大模型的体系下其实面临很大的挑战,这也是行业的共识。所以我觉得人工智能在教育这一块的赋能和结合会是一个很大的话题。
而我们将AI赋能教育分为两个方向,一个是家庭,一个是进校。
人工智能赋能家庭教育目前发展比较快,但我们的校长、老师、教育从业者很多观念非常脱节的,对新技术的理解使用相对落后。
因此我们给教育局开发了一个教育AI大模型,专门面向教育,从助学、助教、助管、助演几个维度去帮助学生、帮助老师和领导去做教学效率提升。
我们目前正在一些试点学校打造“双师”,一个是真正的老师,一个是AI助教。课上由传统的老师授课,AI配合着做记录分析和改进意见,课后AI也可以通过嵌入场景,让教育能够在学校和家庭端打通,提供全方位的助学和反馈。
田溯宁:从个人观念来讲,你觉得今天的AI多大程度上能把老师、教科书或者课程给重构?未来我们还需要这么多老师上课吗?还需要这么多课本吗?还需要考试吗?
俞志晨:我认为比较理想的是八二分这个比例,80%的教育通过AI来实现,20%由老师来进行辅导。
虽然目前AI在我国教育领域的应用率甚至不足10%,但我们也看到新技术出来之后,很多地方敢于去尝试,都在抓紧时间推广试点,也许再过三五年或者更多年后,我们在教育上的优势也会显现。
图片未来的脑机手术,相当于近视手术?
叶军:目前都是我们向AI提出一个问题,然后AI来回答,如果哪天AI主动觉得它可能需要跟我做一次沟通谈心,并主动向我提问的时候,这会是另外一个里程碑。
田溯宁:这不是挺吓人的吗?还是说AI所判断的谈心时刻也是由你定义的?
叶军:我没有定义,它有自主涌现智慧的新阶段,从技术上讲,我认为这个阶段一定会到来。
彭雷:就像钢铁侠的贾维斯一样的,很多时候不需要钢铁侠主动去问,贾维斯会根据自己的判断告诉钢铁侠哪里有危险,主动发起互动甚至提问。
田溯宁:王总怎么看待这个趋势?
王斌:主动智能确实也是大家努力的方向。不过严格来说主动智能这个形式本身早就有了,比如网页弹个推荐广告也算主动,它可能知道你想买这方面的东西。
但是要做到通过深入了解主动向人类发出灵魂一问,这个还需要时间,很多人也在往这个方向努力。
田溯宁:对于脑机接口我也很感兴趣,能给我们简单讲一下这个手术是怎么进行的吗?十年之后我们会看到一群人头戴天线坐在一起开会吗?这样的人比我们更聪明吗?
彭雷:我在美国见了五六个志愿者,他们在美国有一个叫脑机接口pioneer(先锋)的群,这些人都是自愿投身于此,想要率先成为脑机接口的尝试者。而且这些人并不都是患病者,有些就是健康人。包括这次马斯克要招一个受试者接受手术,但英雄帖一发就有1500人报名,其中很多是健康人。
手术过程需要去掉一块颅骨,然后将一个可埋在体内的电子设备植入进去,这个设备在医学上叫IPG。
设备有芯片、有电池,我们可以理解为埋了一个apple watch在脑袋里面,然后它上面有比头发丝还细十几倍的细丝,插入到大脑皮层3毫米左右,连接到神经元,神经元一放电设备就会知道,把信号通过无线传出来。
田溯宁:那会不会用着用着没电了?
彭雷:现在全植入的方式就是一天只能工作8个小时,晚上得放一个无线充电器,吸盘吸在脑袋上,隔着皮肤充电。
田溯宁:我们在座的各位都很有想象力,提到枕头也可以充电。
彭雷:这都是工程问题,以后能够不断解决。
田溯宁:那风险呢?
彭雷:严格意义上讲,脑机接口手术跟SpaceX发射载人飞船的风险其实差不多。对于医生来说,他们觉得开颅的小手术没什么,但我们的恐惧心理很难克服。
我相信随着技术发展,植入体手术的开口会逐步缩减,最后可能是微缝或者微孔,甚至更理想的方式就是变成做近视眼手术一样。
近视眼手术诞生40年,最初每年只能做几千个,人们都很恐慌。但是几十年过去了,大家发现随着技术成熟,半飞秒、全飞秒手术现在15分钟就能做完还没损伤,一年能做四百万例。
脑机其实也是一样,当它的手术难度降到跟激光矫正近视眼差不多,感受很好的时候,大家的接受度自然也会上来。
田溯宁:变革刚刚开始,总会有不同的声音。
但如果AI作为一种强大的推动力,真的能使得人类的生命得以延长,生命质量得以提高,这样的变革就是极富意义的,代表着文明和进步。
当然,很多担忧和质疑的声音也并非没有道理。我看过凯文·凯利的一本书叫《技术的力量》,他提到,每次技术创新都有恶和善的两面,就连石器时代,人类拿着石斧头可以去砍柴,捕捉野猪做食品,也可以做武器杀自己的同类。这个问题一直延续到原子弹发明都始终没变,但我们要相信人类文明进步之路上总是善比恶多。
另外,从历史规律发展来看,不管外部政治经济局势怎样变化,技术如何变革,人们对效率的追求、对平等的追求都是不变的,我们要时刻记住这一点。
无论作为投资者、企业家、创业者还是一个普通参与者,我觉得大家都应该积极去面对和拥抱AI。
换言之,要相信AI,就像我们相信电力给人带来光明,相信互联网一样。

首个AI软件工程师震撼硅谷!手握10块IOI金牌,他们铁了心砸掉程序员饭碗

转自:量子位 | 公众号 QbitAI

一觉醒来,程序员怕是真要失业了。

首个AI软件工程师一亮相,直接引爆整个科技圈。只需一句指令,它可端到端地处理整个开发项目。

在SWE-bench基准测试中,它无需人类帮助,可解决13.86%的问题。

相比之下,GPT-4只能处理1.74%的问题,且都需要人类提示告知处理哪些文件

可以说,它远远超过了此前所有AI大模型。

从零构建网站、自主查找并修复Bug、甚至是训练和微调自己的AI模型通通都不在话下~也可为一些成熟的代码库做贡献。

就是一些不熟悉的技术,给它看一篇博客文章。它也能立马搞定。

比如用ControlNet,生成带有隐藏文字的图像,Devin就是一点就通~

据介绍,它已经成功通过一家AI公司面试,并且在Upwork上完成了实际工作。

而这背后的公司Cognition,虽然是初创公司,但小而精悍

在招人信息中明晃晃写着:我们有10个IOI金牌得主

让同行们直呼:哦莫,疯了吧~

目前Devin尚未公测,不过已经有少部分人拿到了资格,开始实测了一波……

首个AI软件工程师亮相

Devin被介绍为世界首个完全自主的AI软件工程师。

它在长程推理和规划上面下了很大功夫,可以规划和执行需要数千个决策才能完成的复杂软件工程任务。

在这之中,进行到任何一步它都可以回调所有相关的上下文信息,保证整体逻辑性,并方便随时校正错误。

既然是一个端到端AI,软件开发人员常用的工具,比如shell、代码编辑器和浏览器等等,Devin也都配备(沙盒计算环境中),主打一个全方位服务。

最终的Devin,让人类只需要发号施令,其他什么也不用做。

具体来看,其主要能力有以下六个:

1、端到端构建和部署程序

Devin可以帮我们解决的不只有是代码,还包括与之相关的整个工作流。

比如,当我们需要设计一个网页游戏时,Devin不仅能生成网页,还能直接完成服务端的部署,然后直接发布上线,省去了中间的人工操作。

只需要告诉Devin,我们想做一个个人网站,里面运行一个Devin定制版的生命游戏。

然后Devin表示自己会先搭建网站的基本架构,并询问了有没有更具体的需求。

在明确要求之后,Devin给出了这样一份任务清单:

  • 创建React应用,安装UI模块等依赖
  • 用React和UI模组搭建前端环境
  • 部署服务器并确保其在私有IP下运行
  • 通过CDN向首页添加p5.js库
  • 在React中部署并验证游戏的功能和资源是否正确配置

最终完成全部工作之后,一个即点即玩的游戏链接就呈现在了我们面前。

2、自主查找并修复bug

不仅能一气呵成完成开发部署,Devin的debug能力也是一流。

开发者给Devin一个GitHub链接,让它先熟悉项目情况,然后一会儿要准备数据进行测试。

接着,Devin就会按部就班地编写测试用的程序并准备好有关数据,然后运行。

结果,在开发者已经发布的完整项目之中,Devin还真的找到了连开发者自己都没有发现的漏洞。

发现漏洞之后,Devin会回溯报错出现的位置及对应的数据,然后分析原因并给出解决方案。

最终经过调试,程序的bug被成功修复,完美通过了测试。

3、训练和微调自己的AI模型

除了这些一般的程序或项目,作为一个全能型AI助手,Devin还有能力帮助人类训练和微调其他AI。

对于一些常见的模型(比如示例中的Llama),用户只需要在promot中提及模型的名称,Devin就直接知道要训练哪个模型。

而在这个示例中,微调的具体方法(QLoRA)是以GitHub链接的形式输入给Devin的。

接到指令后,Devin还是像处理平常的程序一样边规划边执行,所需环境和依赖,还有模型本体,都会自动下载安装。

这些准备都完成之后,微调工作就会有条不紊地进行,而且其中的状态可以实时监控。

4、修复开源库

Devin的能力不仅在于开发者自己本身的项目,开源社区里的,它也能hold住。

比如我们只需要把GitHub项目的issue链接丢给Devin,它就能立即完成所需的所有配置,并自动收集上下文信息,然后开始解决问题。

当然,开源项目的功能请求(feature request)也没问题,和修问题的流程一样,自己搞好配置,收集上下文,然后就开始编码。

5、成熟的生产库也能做贡献

还没完,业已成熟的生产库,Devin也能给咱秀一把。

官方介绍,sympy Python代数系统中有一个对数计算的错误,就被Devin顺利解决:

配置环境、重现bug,自行编码并修复、测试,再次一气呵成。

6、不熟的技术,现学现卖

最后,遇到自己不会的技能,Devin可以直接现学,并迅速付诸应用。

把你新刷到的技术文章链接直接丢给Devin:

Hi Devin!我在这个博客文章中(附网址)发现,可以生成带有隐藏文本的图像。文中提到了一个脚本,你能配置好它,然后为我真的生成一些图片吗?

Devin接到请求后,首先询问了更为详细的需求,然后开始阅读博客文章,并像平常一样规划出了行动方案。

有了详细的行动方案后,它立刻就在数分钟内进行代码编写和调试。

同样的,在这里遇到bug也不用惊慌,Devin同样有能力直接进行修复。

完成工具的搭建后,Devin也没有劳烦人类自行配置使用,而是一气呵成,最终生成了咱们要的带隐藏文字的图像:

可以说表现相当令人惊艳。

而在具体测试中,Devin取得的成绩同样亮眼。

在评估Devin的表现时,团队没有使用常见的HumanEval,而是用了更具挑战性的SWE-bench。

这个数据集是由GitHub中的实际问题组成的,Devin不借助任何辅助,就取得了13.86%的最高解决率。

而同样在无辅助的条件下,GPT-4的问题解决率为零,此前的最佳水平是1.96%,加入辅助也才4.8%。

公司人均一块IOI金牌

如此炸天的新成果,背后却是一家名不见经传的初创公司。

但这种“名不见经传”背后,实际是一个10人员工的编程天才团队,IOI金牌就有10块…人均一块。

Devin背后公司名为Cognition AI,总部设在纽约和旧金山,定位是一家专注于推理的应用AI实验室。

此前这家公司一直秘密工作,于两个月前正式注册成立。

目前该团队规模仅有10人,但共揽获了10枚IOI金牌,创始成员均曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等从事AI前沿工作。

据悉,Cognition AI由Scott Wu、Steven Hao、WaldenYan创立。

联合创始人兼CEO Scott Wu,根据我们目前搜到的资料,Scott Wu曾就读于哈佛大学,曾是Lunchclub的联合创始人兼CTO。曾连续三年揽获IOI金牌:联合创始人兼CTO Steven Hao,毕业于MIT计算机专业,之前曾在Scale AI、Jane Street、DE Shaw、Quora工作。也曾是IOI金牌得主:联合创始人兼CPO Walden,曾于哈佛大学攻读计算机科学和经济学相关专业,还曾从事MIT PRIMES密码学和机器学习方向的计算机科学研究,还是沃顿商学院高中投资大赛北美地区决赛入围者。

据X推文的转发顺藤摸瓜,还有一位创始成员被扒了出来。

Neal Wu,同样有哈佛大学教育经历,曾在tryramp、GoogleBrain工作过。

整个团队长期目标,意在通过解决推理问题,在广泛的学科领域解锁新的可能性,而“代码仅仅是开始”。

不过对于Devin,目前他们尚未透露是如何实现这一壮举的,包括到底是使用自己的专有模型还是第三方模型。

此外,Cognition AI目前已获得硅谷投资大佬彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资

众所周知,彼得蒂尔以挖掘这种极具突破性的创新项目著称,而且哈佛背景的创业者更是和他渊源紧密。

上一个他早期投资中类似背景,最知名的是扎克伯格和Facebook。

“自动化软件工程与自动驾驶类似”

Devin一亮相,让不少工程师大惊失色:软件工程师…要失业了???

不过也有人依然乐观:终于有AI让我们从繁重的编程任务中解脱出来。

前特斯拉AI总监卡帕西倒是给了一颗定心丸。

自动化软件工程,目前看起来与自动化驾驶类似。

具体体现在发展进程上:首先人类手动编写代码,然后 GitHub Copilot 自动完成几行,再之后ChatGPT 编写代码块,现在就是Devin的出现。

接下来,他认为自动化软件工程会演变成为协调开发人员需要串联的许多工具一起编写代码:终端、浏览器、代码编辑器等。以及人类负责监督,逐渐转向更高级别工作。

结合卡帕西的经历和对自动驾驶的理解,他表达的更多是一种渐进式推进,即会有一段时间的人机共驾,然后在数据和迭代反馈后,才能实现完全无人驾驶。

自动化软件也类似,先低代码,然后零代码,最后完全不需要人写代码。

Perplexity AI CEO给出了个高度的肯定:这应该是任何Agent的第一个演示。

它似乎跨越了人类水平的门槛并且可靠地工作。它还告诉我们通过结合 LLM 和树搜索算法可以实现什么

德扑AI之父、前FAIR(Meta)研究科学家、现已加入OpenAI的Noam Brown转发开麦:

2024年是AI激动人心的一年。

所以,程序员们做好被解放的准备了吗?

太火了!最全AI手机产业链梳理

AI巨头都在抢

最近,在人工智能上,很多人都有大动作:苹果停止了自己持续多年的造车项目,并将探索重点也转向生成式 AI;谷歌在发布原生多模态大模型 Gemini 时宣布,未来大模型会整合至安卓系统中;而高通在 MWC 大会上推出的新一代 AI Hub,已支持超过 75 种主流 AI 模型在端侧的加速。现在,从手机厂商到科技公司,再到芯片公司,英雄所见略同。

我们可以预见,随着技术的进步与行业生态的构建,未来我们还会看到更加智能化的拍照、更快捷的人机交互、更加个性化的内容生成和更高效的任务处理。

使用生成式 AI,过去复杂的工作将会变得更简单。人们可以无需打开专业软件,仅发出口头指令就能让 AI 自动完成复杂的工作,大幅提升工作效率。

部署在端侧的生成式 AI,也可以让智能手机更加了解用户的习惯和所处位置。利用情境信息,数字助手将会更加个性化,带来更令人满意的答案,提供更主动的服务。

更进一步,随着 AI 生成能力逐步进入多模态领域,下一代 AI 渲染工具将能利用文本、语音、图像或视频等各种类型的提示生成 3D 物体和场景,最终创造出全新的沉浸式内容体验。

一句话,AI 手机将会为我们带来一场革命。

市场规模

根据Counterpoint预测,2024年生成式AI智能手机出货量将达到1亿台,到2027年出货达到5.22亿台,2023-2027年CAGR为83%,届时AI手机的渗透率将达到40%

相较于纯自研大模型,三星与有大模型基础能力的Google合作,使用GeminiNano处理端侧任务,GeminiPro进行云端任务处理,使混合AI更好融入到手机,甚至改变手机使用习惯;

未来其他安卓开发者亦有望借助Google的AI基础设施,结合部分自研模型快速落地AI功能。

中国信通院数据显示,2024年1月,国内市场手机出货量3177.8万部,同比增长68.1%。今年AI手机出货量将达6000万部。

AI手机的概念也承接着人工智能技术普惠的使命变得愈发火热。

AI手机产业链剖析及龙头股梳理

AI手机产业链包含零部件、手机散热、手机数据、摄像头、屏幕等环节。零部件公司主要包括凯格精机、福蓉科技、力芯微、思泉新材、歌尔股份等;手机散热公司主要包括中石科技、中英科技、杰美特、福莱新材、道明光学等;手机数据公司主要包括每日互动;摄像头公司主要包括韦尔股份、思特威、奥比中光;屏幕公司主要包括京东方A、TCL科技、维信诺。

福蓉科技:国内领先的消费电子铝制关键零部件及精密深加工件的生产商,苹果等多家知名消费电子企业的主要供应商

福蓉科技创始于2011年4月26日,2019年5月23日在上海证券交易所上市,股票代码603327。公司主营业务为智能手机铝制中框结构件材料、平板电脑外壳材料和笔记本电脑盖板、底板、键盘材料以及穿戴产品、手机卡托、按键、铰链等铝制结构件材料的研发、生产和销售。

公司产品线涵盖铝合金材料等产品;产品广泛应用于消费电子、5G等领域。

欧菲光:光学光电行业龙头,市占率中国第一,指纹识别模组出货量稳居全球前列

欧菲光创始于2001年3月12日,2010年8月3日在深圳证券交易所上市,股票代码002456。公司主营业务为智能手机、智能汽车及新领域业务。

公司产品线涵盖光学影像模组、光学镜头、微电子产品等产品;产品广泛应用于智能手机、智能家居等为代表的消费电子和智能汽车领域。

精研科技:公司可穿戴设备用MIM产品终端客户涵盖了JAWBONE,华为等知名企业

精研科技创始于2004年11月29日,2017年10月19日在深圳证券交易所上市,股票代码300709。公司主营业务为传动、精密塑胶、散热、智能制造服务及电子制造板块业务。

公司产品线涵盖MIM零部件及组件、传动类组件及其他、散热类组件及其他、精密塑胶零部件及组件、终端产品等产品;产品广泛应用于消费电子、汽车、智能家居等领域。

近年来,公司业务结构、营业收入、归母净利润、毛利率与净利率情况如下:

光弘科技:国内EMS(电子制造服务)领先企业,制造能力和服务水平从本土EMS企业中脱颖而出

光弘科技创始于1995年3月24日,2017年12月29日在深圳证券交易所上市,股票代码300735。公司主营业务为消费电子类、网络通讯类、汽车电子类等电子产品的PCBA和成品组装,并提供制程技术研发、工艺设计、采购管理、生产控制、仓储物流等完整服务的电子制造服务(EMS)。

公司产品线涵盖消费电子类、网络通讯类、物联网、汽车电子类、智能穿戴类等产品;产品广泛应用于消费电子、EDR、储能、华为、小米、5G、智能穿戴、物联网等领域。

闻泰科技:公司在全球手机ODM(原始设计制造)行业中处于龙头地位

闻泰科技创始于1993年1月11日,1996年8月28日在上海证券交易所上市,股票代码600745。公司主营业务为从事移动通信、智能终端、半导体、电子元器件和材料等产品相关的技术研发。

公司产品线涵盖移动通信产品、半导体、新型电子元器件、移动互联网设备产品相关的技术研发等产品;产品广泛应用于电子设计、汽车电子、笔电、手机、平板、笔电、AIoT(人工智能物联网)、服务器、汽车电子等领域。

华勤技术:全球智能硬件ODM行业第一,智能手机、笔记本电脑、平板电脑出货量超全球的10%

华勤技术创始于2005年8月29日,在上海证券交易所上市,股票代码603296。公司主营业务为智能硬件产品的研发设计、生产制造和运营服务。

公司产品线涵盖智能手机、笔记本电脑、平板电脑、智能穿戴、AIoT产品等产品;产品广泛应用于消费电子手机及个人家庭数字终端行业市场、笔记本电脑行业市场、数据服务器行业市场、汽车电子行业市场等领域。

以上信息均为公开信息整理,不作为实际操作指导建议,仅供参考!

世界最强AI大模型易主了?昨晚,Claude 3系列模型发布,GPT-4时代终结?

3 月 4 日,被称为 OpenAI 最强竞争对手的大模型公司 Anthropic 宣布推出 Claude3 系列模型,与 Gemini 类似,模型按照大小分为三个:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。Opus 目前在官方发布的测试成绩中全方位超越 GPT-4 与 Gemini Ultra。

世界都在说,全球最强AI模型一夜易主。

用Anthropic的话说,Claude 3系列模型在推理、数学、编码、多语言理解和视觉方面,都树立了新的行业基准!

值得注意的是,这次发布的 Claude 3 系列都支持了图像识别能力,以及 200K 的上下文窗口,特定场景还能提供 1M tokens 的长文本输入能力。Opus 和 Sonnet 现在已经可以在 Claude.ai 官网和现在 159 个国家的 Claude API 中使用。Haiku 很快也将上线。我们可以依据自己的需求选用适合的模型,在在智能水平、处理速度和成本之间,找到最佳平衡。

一、目前最强大模型
Opus,是Claude 3系列中最先进的模型。尤其是,Opus在处理复杂任务时,展现了几乎与人类相媲美的理解和表达能力,是AGI领域的领跑者。另外,在大多数 LLM 评估基准上胜过同行,包括 MMLU、GPQA、GSM8K 等。所有 Claude 3 模型在数据分析和预测、内容创作、代码生成以及用西班牙语、日语和法语等非英语语言交流方面显示出更强的能力。

1、更快的反应速度Claude Haiku 是目前市场上同类 LLM 中性价比最高且响应最快的。它能在短短不到三秒钟内,阅读并理解 arXiv 上一篇包含图表和图形的信息量和数据密集型研究论文(大约 10k Token)。在产品发布之后 Anthropic 将进一步提升它的性能表现

就绝大部分工作而言,Sonnet 的速度是 Claude 2 和 Claude 2.1 的两倍,且能力更高。在需要迅速回应的任务,如快速信息检索或销售自动化方面,它的表现尤其出色。Opus 的速度与 Claude 2 和 2.1 相当,但其智能程度要高得多。

2、强大的视觉能力

Claude 3 模型具有与其他领先模型相媲美的复杂视觉能力。

它们可以处理各种视觉格式,包括照片、图表、图形和技术图纸。

特别是对那些知识库中高达 50% 的内容以 PDF、流程图或演示文稿幻灯片等不同格式存在的客户而言,这将非常有价值。

3、更少幻觉、高准确性以及减少对用户拒绝

以往的Claude模型往往会不必要地拒绝回应,反映了其对上下文的理解有所欠缺。与之前的版本相比,Opus、Sonnet和Haiku在显著减少对可能触碰到系统安全界限的问题的拒绝反应上取得了进展。如下所示,Claude 3模型展现出了对请求的更细致理解,能够更准确地辨识出真正的风险,并在对安全无害的提示上减少了不必要的拒绝。

与 Claude 2.1 相比,Claude Opus 在困难的开放式问题上展示了两倍的准确性提升,并且减少了错误回答的比例。Anthropic的研究者针对模型已知弱点,进行了复杂实际问题的评估。

他们将模型的回应分为正确、错误、不确定三种。其中不确定是指模型表示不知道答案,而非给出错误答案。除了提供更可靠的答案外,Anthropic 宣布还将在 Claude 3 模型中启用引用(citations)功能,使其能够指向参考材料中的确切句子来核实它们的回答。

二、Claude 3 总结及价格介绍Claude 3 Opus

能力最强,在高度复杂的任务上表现出了市场上最好的性能。它能够轻松应对各种开放式提示和未知场景,并以出色的流畅度和人类般的理解能力完成任务。Opus 展示了生成式 AI 所能达到的极限。

Claude 3 Sonnet在能力和速度之间取得了理想的平衡—尤其适用于企业级工作负载。与其他同类产品相比,它在提供强大性能的同时成本更低,并且经过优化,能够在大规模 AI 部署中长时间稳定运行。

Claude 3 Haiku目前最快速、最轻便的模型,能够提供几乎即时的响应能力。它可以极快地解答简单的问题和响应请求。用户将能创建流畅的 AI 体验,仿佛是与真人互动一般。

、Claude 3 模型使用方法方法一:Opus和Sonnet目前已在Anthropic的API中对外开放,开发者可进行注册并立即使用这些模型。Haiku也将在不久的将来推出。在Claude.ai的网站上,Sonnet已经提供了免费试用,而Opus则已经向Claude Pro的订阅用户开放。

方法二:

打开沃卡API网站:https://4.0.wokaai.com,注册后生成自定义key,参考调用OpenAI 模型的方法即可调用Claude 3系列模型。

官方透明计价!

魅族21 PRO开放式AI终端发布,4999元起售

2月29日,星纪魅族集团正式发布魅族21 PRO开放式AI终端。该公司称,魅族21 PRO是面向AI时代全新打造的“明日设备”,该机型拥有星夜黑、耀夜黑、魅族白、冰川蓝、月桂绿五种配色,其中12GB + 256GB版本售价4999元、16GB + 512 GB版本售价5399元、16GB + 1TB版本售价5899元。

对所有大模型平台开放据魅族介绍,魅族21 PRO是魅族踏入全新AI时代的开端。该机型对所有的大模型平台进行开放,是一个“真正的开放式AI终端”,向开发者提供系统权限、API文档,并开放处理器的AI算力,让开发者拥有充分的自由度,从而实现更多创新功能和应用服务的制作。

为了吸引全球大模型团队参与AI生态的建设,魅族将邀请所有有兴趣的团队在开放平台上开发大模型应用。同时,魅族还针对月活跃用户数最高的大模型应用团队特别设立100万人民币的悬赏机制,激发全球大模型团队的创新活力。基于FlymeOS操作系统的AI能力,魅族21 PRO拥有包括AI灵动键、AI辅助输入、AI图库和AI语音在内的AI新功能。

搭载第三代骁龙8处理器魅族21 PRO拥有6.79英寸21:9比例“单手巨幕”和74mm极窄机身设计,正面采用2K+臻彩屏,512PPI的显示精度使得每个像素点都能展现出极致的细节。同时,该机型还配备120Hz LTPO刷新率和2160Hz PWM高频调光护眼技术,并通过SGS低蓝光无频闪护眼认证。

外观方面,魅族 21 PRO 采用双面灵动星弧设计,背板采用创新星垣工艺。全新打造的魅族泰坦玻璃2.0,使得魅族21 PRO的抗跌落能力比上代机型提升200%以上。

魅族21 PRO还承袭了此前备受业界认可的Aicy灵动环设计。性能方面,魅族21 PRO搭载第三代骁龙8处理器、LPDDR5X和UFS4.0旗舰性能“铁三角”。魅族21 PRO还配备4651m㎡超大面积VC液冷散热系统,同时还搭载智能思维引擎OneMind 10.5。

指纹交互体验方面,魅族21 PRO搭载高通最新一代的mTouch Max广域超声波指纹识别技术,解锁面积从 8mm*8mm提升至30mm*20mm,解锁面积比魅族21大出9倍。通过mTouch Max广域超声波指纹识别技术,魅族21 PRO支持一键无感录入。

同时,压感交互功能的加入,让每一次触摸都变得富有层次感和反馈力。此次魅族21 PRO还调校 mEngine Ultra旗舰横向线性马达,配合独立驱动IC。值得一提的是,魅族21 PRO还带来IP68级防尘防水功能。

将实现多项AI功能基于FlymeOS操作系统,魅族21 PRO将实现包括Aicy语音助手、AI图库在内的多项AI功能。用户通过Aicy助手,不仅可以进行通识问答和专业知识咨询,还可以根据自然语言需求生成文本或图片;AI图库支持使用自然语言搜索图片,并通过图片扩展、魔法消除以及有趣的AI写真功能。

接下来,魅族21 PRO还将迎来AI灵动键和AI辅助输入等全新功能。其中,AI灵动键是将AI融入Flyme用户熟悉的mBack设计当中,只需重按mBack就能随时唤醒系统 AI。

AI辅助输入可自主理解对话场景中的上下文。在生成文本时,AI 辅助输入不仅提供单一选择,更能一次性展示多个备选建议,以满足用户的不同需求。除了生成消息回复外,AI辅助输入还可根据用户需求自动进行长文创作。用户只需输入一句话,AI即可生成一篇完整的种草文案或旅行日记。根据规划,AI灵动键和AI辅助输入等功能将在今年上半年陆续推出。

支持Flyme Link手机域后置摄像头方面,魅族21 PRO采用5000万像素广角主摄像头,1300万像素超广角摄像头和1000万像素长焦摄像头组合。其中,广角主摄像头配备 1/1.3英寸OV50H超大感光影像传感器和f/1.9大光圈;超广角摄像头拥有122°的超广角视野;长焦摄像头支持3倍光学变焦、30倍数字变焦和OIS+EIS混合防抖模式。

此外,魅族21 PRO 3200万像素的超清前置摄像头和全新AI人像焕颜算法的结合,让每次自拍都成为一次美丽的绽放。配合硬件配置,魅族21 PRO在软件调教上也带来全新突破。通过智绘影调功能的引入,魅族21 PRO为摄影爱好者带来更多的创作体验,不仅支持多种滤镜效果和创意拍摄模式,还能根据用户的喜好和风格进行个性化设置。音质方面,魅族21 PRO采用第六代大师级“双”· 超线性扬声器。

通信方面,通过无界天线系统2.0和mSmart Net技术的加持,魅族21 PRO将为用户提供畅通无界的通信体验。在充电续航能力上,除了支持80W Super mCharge有线超充体验,魅族21 PRO还支持50W Super Wireless mCharge无线快充和10W无线反向充电功能,以及5050mAh高密度耐久电池。

魅族21 PRO还支持数字钥匙功能、Flyme Auto深度互联和Flyme Link手机域技术,实现从手机到汽车的无感交互。此外,魅族21 PRO与MYVU AR智能眼镜的声音、视频、导航界面皆可无缝接力,让用户轻松畅享无界流转的使用乐趣。

苹果造车这回真“黄了”,转投AI还在盘算啥?

据悉,该项目的众多成员,将被调往人工智能部门,将专注于推动生成式人工智能项目,这已成为苹果日益重要的战略重心。

苹果大约从2014年开始研发汽车,目标是推出拥有类似豪华轿车内饰、具有语音导航功能的全自动电动汽车。

全球金融危机爆发,美国汽车产业遭受重挫,多方接洽乔布斯寻求合作机会,这为苹果造车梦碎埋下了引线。众人还是围观是苹果还是小米谁先造车成功的时候,苹果放弃了坚持十年的造车计划,“泰坦计划”破产,让很多国内的车企大佬唏嘘不已。

苹果突然宣布的这一决定,包括马斯克、雷军、李想、何小鹏、冯擎峰、卢放等车企高管,纷纷表达了震惊。特斯拉首席执行官埃隆·马斯克转发了苹果停止造车的消息,并配上了两个表情:致敬和香烟。

苹果这个时机选择退出,让转型中的汽车行业少了条“鲇鱼”。考虑到汽车开发时间更长、供应链管理更复杂、截然不同的销售和售后服务体系等等,欠缺造车经验的苹果公司就算要在 2025年以前发布Apple Car,非常艰难。秘密研发十年无果,苹果显然已经失去了电动汽车的入局资格。

苹果转投AI对车企来说并非好消息,在智能化决定车企胜负的下半场,苹果在全球的品牌号召力、在人工智能方面的技术储备,有可能会站上食物链顶端。虽然说坚持就是胜利,但是在恰当的时机进行退出,也是一个理性的选择。苹果是唯一一家还没有正式发布大模型产品的厂商,甚至都很少正面提及。苹果在AI方面似乎一直没有采取任何重大举措,在应用突破性技术中落后于其他科技巨头。

去年,ChatGPT点燃生成式AI热潮,几乎每家大型科技公司都在开发AI产品。生成式AI又有什么魅力,苹果又能在这个领域做出什么样的新突破呢?可以期待一下。

快手发表Direct-a-Video,国产AI导演,自定义视频生成

近日,港城大、快手、天大联合发表Direct-a-Video,成功解耦AI生成视频中物体运动和摄像机运动,让视频生成的灵活性和可控性大大增强!

摘要

Direct-a-Video可以让用户独立指定一个或多个对象的运动和/或相机运动,就像导演一样。该系统提出了一种简单而有效的策略,以分离控制对象运动和相机运动。对象运动通过空间交叉注意力调制来控制,相机运动则通过新的时间交叉注意力层来解释定量相机运动参数。该系统可以独立操作,允许单独或组合控制,并且可以推广到开放领域场景。实验结果表明,该方法具有优越性和有效性。

简介

当前的文本到视频合成方法缺乏对用户定义和分离控制摄像机运动和物体运动的支持,这限制了视频运动控制的灵活性。视频中的物体和摄像机都展示了各自的运动,物体运动源于主体的活动,而摄像机运动影响帧之间的过渡。只有当摄像机运动和物体运动都确定时,整个视频运动才变得明确。因此,分离和独立控制摄像机运动和物体运动不仅提供了更多的灵活性,而且减少了视频生成过程中的歧义。然而,这方面的研究目前受到了限制。

Direct-a-Video可以让用户独立指定摄像机移动和一个或多个物体的运动,实现他们想要的运动模式,就像导演一部电影一样。为了实现这一目标,作者提出了一种策略,通过采用两种正交的控制机制来解耦摄像机移动和物体运动控制。在摄像机移动控制方面,作者通过自监督和轻量级训练方法学习帧之间的转换。在物体运动控制方面,作者利用T2V模型的内部先验知识,通过空间交叉注意力调节实现训练免费的方法。总之,这个框架可以让用户独立或同时控制摄像机移动和物体运动,提供了更大的灵活性。

相关工作

可控运动视频生成

视频生成与运动控制的研究已经引起了越来越多的关注。根据输入媒体的类型,可以将这个领域的工作分为三类:图像到视频、视频到视频和文本到视频。

图像到视频的方法主要是将静态图像转换为视频,其中一种常用的运动控制方法是通过关键点拖拽。然而,这种方法由于关键点的局部和稀疏性而存在一定的局限性。

视频到视频的方法主要是进行运动转移,通过学习源视频中的特定动作,并将其应用于目标视频。这些方法高度依赖于源视频中的运动先验,然而这些先验并不总是实际可用的。

文本生成视频的方法重点探讨了如何实现对视频中物体和相机运动的可控性。与现有方法相比,本文提出的方法不需要运动注释,可以实现对多个物体和相机运动方向的控制,具有更高的灵活性和可用性。与其他方法相比,本文的方法更加直观易用,可以有效地实现视频合成。

方法

概述

本文研究了用户指导下的文本到视频生成,包括用户指定的摄像机移动和物体运动。用户需要提供文本提示和物体词汇,以确定摄像机移动的比例和物体运动的起始和结束位置。系统通过插值生成一系列沿着轨迹的物体框来定义物体的时空旅程。最终,模型生成符合用户要求的视频,创造定制化和动态的视觉叙事。

整体流程:训练阶段学习相机运动,推理阶段实现物体运动。训练阶段使用静止相机拍摄的视频样本,并通过增强来模拟相机运动。增强后的视频作为U-Net的输入。相机参数也被编码并注入到可训练的时间交叉注意力层中,以调整相机运动。推理阶段,通过训练好的相机嵌入器和模块,用户可以指定相机参数来控制其运动。同时,我们以无需训练的方式引入物体运动控制:根据用户提示的物体词和相应的框,调整帧级和物体级的空间交叉注意力图,以重新定位物体的空间-时间大小和位置。值得注意的是,推理阶段的调整不涉及额外的优化,因此增加的时间和内存开销可以忽略不计。

摄像机运动控制

我们选择三种类型的相机运动:水平平移、垂直平移和变焦,参数化为c cam三元组作为相机运动的控制信号。这不仅允许定量控制,而且对用户友好,用户可以指定三元组,就像输入文本提示一样简单。

数据构造和增强。由于需要识别和过滤目标运动,从现有视频中提取摄像机运动信息的计算成本很高。本文提出一种使用c cam驱动的相机增强的自监督训练方法,从而绕过了对密集运动标注的需要。

首先,我们正式定义了相机运动参数。在实践中,对于给定的c cam,通过对用固定摄像机捕获的视频的裁剪窗口应用平移和缩放来模拟摄像机运动。这种数据增强利用了现成的数据集,如movishot。

相机嵌入。为了将c cam编码为相机嵌入,我们使用了一个相机嵌入器,其中包括一个傅里叶嵌入器和两个mlp。一个MLP联合编码平移运动,而另一个编码缩放运动。我们根据经验发现,对平移和缩放进行单独编码有助于模型有效区分这两种不同类型的相机移动。

相机模块。我们通过时间层注入相机控制信号。受空间交叉注意力解释文本信息方式的启发,本文引入了新的可训练的时间交叉注意力层,专门用于解释相机信息,称为相机模块,被添加到T2V模型的每个U-Net块中现有的时间自注意力层之后,如图2所示。与文本交叉注意力类似,在此模块中,查询从视觉框架特征F映射,我们分别映射来自平移嵌入e xy和缩放嵌入e z的键和值。通过时间交叉注意力,摄像机运动被注入到视觉特征中,然后作为门控残差添加回来。我们将这个过程表述如下:

为了在学习相机运动的同时保留模型的先验知识,冻结原始权重,只训练新添加的相机嵌入器和相机模块。这些是以摄像机运动c cam和视频字幕c txt为条件的。训练采用扩散噪声-预测损失函数:

物体运动控制

我们选择边界框作为物体运动的控制信号,是因为它在可用性和可访问性方面达到了有利的平衡。边界框比密集条件(例如草图)更有效,因为它们不需要绘图技能,并且它们提供了对象大小的说明,这是稀疏条件(例如关键点)缺乏的特征。

本文选择通过将扩散过程引导到我们想要的结果,来充分利用预训练T2V模型的固有先验。之前的T2I工作已经证明了通过编辑交叉注意力图来控制物体的空间位置的能力。同样,在T2V模型中采用空间交叉注意力调制来制作物体运动。

在交叉注意力层中,查询特征Q来自视觉标记,键K和值特征V从文本标记映射。我们将注意力图QK⊤修改如下:

注意力放大。考虑第k个框中的第n个物体,由边界框B kn包围,由于我们旨在增加该区域内物体存在的概率,我们可以放大B kn区域内相应的物体单词(在提示中为T n)的注意力值。根据DenseDiff的结论,这种放大的规模应该与bkn的面积成反比,即盒子面积越小,注意力增加的幅度越大。由于我们的注意力放大是在盒形区域上进行的,这与对象的自然轮廓不一致,因此将放大限制在早期阶段(对于时间步长t≥τ, τ是放大截止时间步长),因为早期阶段主要专注于生成粗布局。对于t < τ,放松这种控制,使扩散过程能够逐渐细化形状和外观细节。

注意力抑制。为了减轻不相关单词对指定区域的影响,并防止对象特征意外分散到其他区域,抑制了不匹配的查询键标记对的注意力值(起始标记和结束标记除外,否则视频质量会受到影响)。与注意力放大不同,注意力抑制应用于整个采样过程,以防止相互语义干扰,在多目标生成场景中,一个目标的语义可能无意中渗透到另一个目标中。

我们对每一帧中的每个对象进行这种调制,从而可以确定完整的时空对象轨迹。请注意,尽管这种调制在每个帧中独立执行,但生成的视频保持连续,这是由于预训练的时间层保持了时间连续性。

实验

实验设置

实现细节。采用预ModelScopeT2V作为基础模型,集成所提出的可训练相机嵌入器和模块,以促进相机运动学习。

数据集。对于相机运动训练,我们使用movishot的一个子集。尽管训练样本的数量和类别有限,训练后的相机模块仍然能够适应一般场景。对于对象控制评估,收集了200个框-提示对的基准,包括不同的框大小、位置和轨迹,提示主要关注自然动物和物体。

评估指标。(1)为了评估视频生成质量,采用了FID-vid和FVD,参考集是来自MSRVTT的2048个视频,用于相机运动任务,参考集是来自AnimalKingdom的800个视频,用于物体运动任务。(2)为了测量目标框对齐,我们均匀地从每个视频样本中提取8帧,并仅在框区域内计算CLIP图像-文本相似度(CLIP-sim)。(3)为了评估摄像机和物体运动的对齐,引入了流误差。利用VideoFlow,从生成的视频中提取流图。然后将这些流与真实流(来自给定的摄像机运动和对象框)进行比较。在评价摄像机运动时,流误差在整帧上计算;在评价物体运动时,只计算框区域。

基线。包括AnimateDiff(用于相机运动)、Peekaboo(用于物体运动)和VideoComposer(关节控制)。

摄像机运动控制

与AnimateDiff相比,该方法可以支持混合摄像机运动,且更易于使用。与VideoComposer相比,该方法可以更轻松地控制摄像机速度,且不会影响前景物体的运动。该方法在视觉质量和摄像机控制精度方面表现更好。

物体运动控制

与现有的方法相比,该方法可以更好地控制物体的位置和运动,避免了语义混淆和缺失等问题。在定量比较中,该方法在生成质量和物体运动控制方面均优于VideoComposer。

摄像机运动和物体运动的联合控制

本方法支持同时控制摄像机移动和物体运动,通过图5展示了这种能力。给定相同的盒子序列,该方法可以生成具有不同前景-背景运动组合的视频。例如,图5(a)说明静止的盒子并不总是意味着物体静止不动,通过设置不同的摄像机移动,系统可以生成斑马静止不动、向右行走或向左行走的视频。同样,图5(b)表明移动的盒子并不一定意味着物体本身在运动,它可能在原地静止,而摄像机在移动。与现有方法只关注物体不同,该方法使用户能够明确指定摄像机移动和物体运动,提供了定义整体运动模式的灵活性。

消融分析

注意力放大。缺乏注意放大会导致模型失去其定位能力,即物体不会跟随框选框,如图6中的第一行所示。同时,这也会导致CLIP-sim分数下降和流错误增加。

注意力抑制。为了减轻多物体场景中意外的语义混合,特别是当物体具有相似特征时,引入了注意抑制。如果没有抑制,物体A的提示特征也会关注物体B的区域,导致语义重叠。通过启用注意抑制,可以解决这个问题。

相机嵌入设计。将平移(c x,c y)和缩放(c z)运动分别编码到相机控制中,与将它们合并编码的方法进行对比。结果表明,分别编码不同类型的相机运动可以更好地控制相机移动,流错误从0.46增加到1.68。这突显了分别编码不同类型的相机运动的优势。

限制

本方法可以对物体和相机运动进行分离控制,但输入信号之间可能存在冲突,需要合理的用户交互来解决。处理重叠的盒子时,一个物体的语义可能会干扰另一个物体,可以通过自适应自动分割区域来缓解这个问题。目前的数据增强方法限制了系统产生逼真的3D相机运动,未来可以采用更复杂的增强算法来解决这个问题。

总结

Direct-a-Video用于实现对摄像机运动和物体运动的独立和用户导向的控制。该方法通过集成自监督训练方案来解耦摄像机运动和物体运动,并使用无需训练的调制来控制物体运动。实验评估表明,该方法能够有效地实现摄像机运动和物体运动的分离和联合控制,使Direct-a-Video成为一种高效灵活的定制运动创作工具。

成立仅 9 个月的 AI 初创公司挑战硅谷巨头

上周,AI 界的一件大事是:微软宣布与总部位于巴黎的法国初创公司 Mistral AI 建立合作伙伴关系。后者成立时间仅 9 个月,而公司 CEO 是年仅 31 岁的亚瑟.门施。需要注意的是:

微软将向 Mistral AI 投资 1630 万美元,以换取该公司的少量股份。而 Mistral AI 也将在微软云上提供自己的 LLM,以便开发人员可以通过微软云 Azure 购买。如,该公司上周发布的最新 AI 模型 Mistral Large,就将首先通过微软的云平台 Azure 提供。

第二,这笔交易也凸显了微软可能想要做一个平台的野心。考虑到之前微软与 OpenAI 的交易,微软可以让企业在自己平台上访问由多个不同供应商创建的 AI 模型。

第三,作为一家成立仅 9 个月的初创公司,Mistral AI 在 AI 领域实际上备受关注,被誉为是“欧洲版的 OpenAI”。根据三位联合创始人的说法,Mistral AI 成立的部分原因是,他们认为 AI 领域的很多钱都被浪费掉了:“我们希望成为 AI 领域资本效率最高的公司,这就是我们存在的原因。

”如该公司刚刚推出的新 AI 模型 Mistral Large。根据该公司 CEO 亚瑟.门施告诉《华尔街日报》的说法:该模型可以执行一些推理任务,可与 OpenAI 迄今为止最先进的语言模型 GPT-4 以及谷歌的新模型 Gemini Ultra 相媲美。但该新模型的训练成本不到 2000 万欧元(约 2200 万美元)。相比之下,奥特曼去年在 GPT-4 发布后表示,培训公司最大的模型成本“远远超过” 5000 万美元至 1 亿美元。


一,亚瑟.门施其人其事Mistral AI 由三位联合创始人成立,分别是:现年 31 岁的亚瑟.门施、32 岁的蒂莫西·拉克鲁瓦,以及 33 岁的纪尧姆·兰普尔。其中,CEO 亚瑟.门施来自谷歌旗下 DeepMind 的 Google AI 部门,他在团队中从事构建 LLM 的工作。后两位创始人,则在扎克伯格 Meta 的巴黎 AI 实验室工作。

根据我查阅的资料:Mistral AI 成立仅九个月,目前估值略高于 20 亿美元。在与微软公司合作前,其已经从硅谷顶级风投机构光速创投、A16z 等投资者那里筹集了 5 亿多美元。其中,光速创投是 Mistral AI 的种子轮领投者,而 A16z 则是 A 轮领投者。

该公司的 CEO 亚瑟.门施是备受关注的人物。根据《华尔街日报》的报道:31 岁的门施从学术界起步,一生中的大部分时间,都在研究如何提高 AI 以及机器学习系统的效率。长期以来,门施一直在学术追求与创业追求之间徘徊。他在巴黎西部的郊区长大,母亲是物理教师,父亲则经营一家小型科技企业。

之后,门施就读于法国一些顶尖的数学和机器学习学校。他说:“我确实喜欢新体验。我很快就会感到无聊。”门施身材高大,有一头浓密的黑发,他的外表和行为都不像科技极客的 CEO。作为一名运动员,他在 2018 年完成博士论文之前的几个月内,用了不到 3.5 小时的时间,完成了巴黎的马拉松比赛。

门施一直致力于让事情变得更高效。2022 年时,他已经是一篇关于新型 AI 模型 “Chinchilla” 论文的主要作者之一。该论文改变了对 AI 模型的规模、构建模型所使用的数据量以及模型性能之间关系的理解,即所谓的人工智能缩放定律。……