OpenAI 近日发布了一款名为 GPT-4o 的模型,该模型是 GPT-4 的升级版,具有实时推理处理音频、视觉和文本内容的强大功能。相较于 ChatGPT,GPT-4o 能够实现更无缝的交互体验。OpenAI 总裁兼联合创始人格雷格・布罗克曼(Greg Brockman)对这一成果进行了上手演示,展示了两台运行 GPT-4o 的设备如何进行语音和视频交互。
在演示过程中,布罗克曼提出了一个设想:让两台 AI 聊天机器人进行交流。他向一台 AI 聊天机器人解释了他的期待,并让其调用摄像头观察周围环境。摄像头捕捉到用户的着装和周围环境后,另一台 AI 聊天机器人可以通过语音交互获取这些信息,从而进行更深入的互动。在这个过程中,GPT-4o 表现出很强的上下文理解和记忆能力,使得这种交互更加自然流畅。
通过这次演示,我们可以看到 GPT-4o 模型的强大实力以及其在人工智能领域的应用前景。随着技术的不断发展,未来 AI 与人类的交流方式将会变得更加多样化和智能化,为人们的生活带来更多便捷和创新。