“AI眼神打字技术亮相Nature子刊,更快捷省力”

在我国,患有渐冻症(ALS)等病症导致无法言语或打字的人群面临着巨大的沟通障碍。为了解决这一难题,谷歌的研究团队与合作伙伴共同研发出一项创新技术——SpeakFaster,旨在助力这些患者更高效、准确地进行交流。

SpeakFaster是一款基于大语言模型(LLM)驱动的用户界面,它能够将高度缩略的英文文本(仅单词首字母,必要时添加字母和单词)准确扩展为完整的短语。这一创新技术为ALS患者眼动打字按键次数减少了57%,文本输入速度提高了29%至60%,有效提升了他们的生活质量。

相关研究论文《Using large language models to accelerate communication for eye gaze typing users with ALS》已发表在《自然》杂志的子刊《Nature Communications》上。研究结果表明,SpeakFaster通过提高文本输入速度和减少身体压力,有助于严重运动障碍患者更顺畅地交流,增强他们的独立性、社会参与度、自我表达能力。

SpeakFaster结合了LLM和专为缩写文本输入设计的UI,旨在为用户提供更为便捷的沟通方式。研究团队首先设计了SpeakFaster的UI,确保用户能够轻松输入和优化缩写,即使初始预测不是他们想要的,也能保证传达他们想要的信息。

在关键技术方面,SpeakFaster包含了KeywordAE和FillMask两个模型。KeywordAE能够扩展混合首字母和完整或部分拼写单词的缩写,而FillMask则能在上下文中提供以给定首字母开头的备选单词。两个模型均使用了从四个公共英语对话数据集中合成的大约180万个独特的三元组进行微调。

此外,SpeakFaster的UI设计包括三个路径:Initials-only AE、KeywordAE和FillMask,支持完整的缩写文本输入体验。当用户输入缩写时,UI会自动触发对KeywordAE LLM的调用,并呈现基于对话上下文和缩写的top-5最有可能的选项。

为了评估SpeakFaster的效果,研究团队进行了模拟实验和用户研究。结果表明,与传统打字方式相比,SpeakFaster在按键节省、实用性、学习曲线和认知负荷等方面均表现出显著优势。

尽管SpeakFaster在帮助残障人士交流方面具有独特优势,但目前还存在一些局限性,如模型语言单一、短语长度受限、服务成本高昂、研究样本量较少等。然而,这并不妨碍我们对未来充满信心。随着技术的不断进步,相信人工智能将在改善残障人士生活方面发挥越来越重要的作用。

除了SpeakFaster,近年来,国内外还有许多致力于改善残障人士生活的AI项目,如BrightSign的智能手套、加州大学旧金山分校Chang Lab团队的脑机接口技术、OpenAI的Voice Engine模型等。这些创新成果都为残障人士带来了更多希望,相信在不久的将来,AI将为他们带来更加美好的生活。

发表回复