商汤发布6000亿参数多模态大模型,超越GPT-4 Turbo
近日,我国人工智能(AI)上市公司商汤科技在上海发布了“日日新SenseNova”5.0多模态大模型系列。这一系列模型采用混合专家(MoE)架构,支持多达10T Tokens的中英文与训练数据,推理合成数据高达数千亿Token,推理时上下文窗口可以有效到200K左右,拥有端侧扩散和语言模型,知识、推理、数学、代码等综合能力全面对标GPT-4 Turbo。
商汤科技董事长兼CEO徐立表示,在尺度定律(Scaling Law)的准则下,商汤持续推动自身大模型研发,会持续探索大模型能力的KRE三层架构(知识-推理-执行),不断突破大模型能力边界。他认为,2024年是端侧大模型爆发的一年。
商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示,端侧模型市场潜力巨大,每年有30亿部手机,PC出货量一年也有2-3亿台规模,AI PC 可以成为我们每个人的助手,汽车智能化也成为重要发展机遇期,从而能让大模型普及应用。这也是商汤今年的一个战略重点。
据悉,商汤科技研发的小浣熊系列支持端侧,以及不止有代码小浣熊,还有办公小浣熊等,支持更多的场景应用。此外,商汤还公布了“文生视频”等领域新的技术突破。