OpenAI 近日发布了一款具备视觉功能的全新模型 GPT-4 Turbo with Vision,该模型已可通过 OpenAI API 供开发者免费使用。这款模型在延续 GPT-4 Turbo 系列原有的 128,000 个 token 窗口大小及截至 2023 年 12 月的知识库的基础上,实现了文本与图像信息的融合处理,大大简化了开发过程,并展示了广泛的应用前景。
据了解,GPT-4 Turbo with Vision 主要创新点在于其新增的视觉理解能力。过去,开发者需根据不同场景调用相应模型以处理文本和图像信息,而 GPT-4 Turbo with Vision 则整合了二者,降低了应用难度。
目前,已有部分开发者开始尝试运用 GPT-4 Turbo with Vision。例如,一款名为 Devin 的 AI 软件工程助手便借助该模型辅助编程工作;另一款健康健身应用 Healthify 则利用该模型对用户上传的饮食图片进行识别,进而提供个性化营养建议;此外,创意平台 Make Real 也利用该模型将用户手绘草图快速转换为可运行的网站。
尽管 GPT-4 Turbo with Vision 尚不适用于 ChatGPT 和面向公众开放,但 OpenAI 表示未来有望将其功能引入 ChatGPT。