OpenAI推多模态AI助手：能语音互动识物 – 分秒AI研究院

12 5 月 2024

OpenAI推多模态AI助手：能语音互动识物

AI公司OpenAI近期展示了一款具备多模态功能的人工智能模型，据悉该模型能实现语音交流和物品识别。据知情人士透露，这一功能或许将成为OpenAI即将于5月13日公布的新品之一。

相较于OpenAI目前的独立图像识别和文本转语音模型，这款新型模型在处理图像和音频信息方面表现出更高的速度和准确性。例如，它能帮助客服人员更好地理解客户的语气和情绪，从而提供更精准的服务。从理论上讲，这款模型还可以辅助学生在数学领域学习，甚至可以作为翻译工具来识别现实环境中的标识。

尽管该模型在一些问题的解答上能够超越现有技术水平，但仍有可能出现过度自信而给出错误答案的情况。对此，OpenAI首席执行官萨姆·阿尔特曼已明确否认即将发布的产品是代号为GPT-5的大型语言模型，并表示OpenAI不会推出新一代人工智能搜索引擎。

关于GPT-5的最新进展，一位名为Ananay Arora的开发者在网络上分享了一段包含通话相关代码的截图，暗示OpenAI可能在考虑为ChatGPT添加打电话的功能。同时，Arora还发现了一些证据表明OpenAI正在为其配置用于实时音视频通信的服务器。

值得一提的是，谷歌也在积极研发利用人工智能进行电话呼叫的技术。此外，有关谷歌的一个尚未公开的项目“Pixie”也备受关注。该项目旨在开发一款能够通过摄像头识别物体的多模态Google助手替代品，为用户提供如“如何到达购物场所”、“如何使用”等实用信息。

综上所述，OpenAI的这一新产品有望在多个领域发挥重要作用，同时也意味着AI技术正不断向日常生活各领域渗透。

分秒AI

查看所有文章

发表回复取消回复

要发表评论，您必须先登录。