AI领域新闻速递:数字助手精通20种语言,机器人可提前0.8秒预测表情

近期,我国AI技术在生成式人工智能(AIGC)领域取得了显著的发展,多个创意十足的AI应用应运而生。钛媒体AGI针对这一现象,特别梳理了免费AI“神器”系列第十三弹,涵盖五款具有创新性的应用。这些应用不仅拓宽了人们对AI的想象力,也为各行各业带来了全新的可能。

首先,Digen作为一款会20种语言的克隆数字人工具,利用生成式AI技术创建了面向未来的视频。其支持多达20种语言、40+种声音,手势、口型和语调全部同步一致,视频效果非常逼真。用户可以通过官网申请内测,享受免费的服务,但每月最多仅能制作2分钟的视频。

其次,哥伦比亚大学创新机器实验室推出的EMO机器人,可以预测人的表情并与人类同步作出表情。该机器人采用了自我监督学习框架,运作原理类似于人类通过照镜子来练习面部表情。虽然目前EMO还无法做出所有人类表情,但其预测精度已达到839毫秒。未来,EMO将具备更多表情识别和生成能力,并整合语言交流功能。

此外,映刻科技的Domo AI工具则将照片和视频动漫化,实现静态到动态的完美转变。借助深度学习和计算机视觉算法的优势,Domo AI能够智能地识别和分析静态照片中的人物特征,并与动态视频中的运动数据进行精准匹配,实现静态人物在动态视频中的自然过渡。

值得一提的是,谷歌前员工创立的Ideogram,是一款擅长生成包含可清晰阅读的文本的图像的工具。相较于其他图像生成模型,Ideogram的优势在于其能够生成包含文本的图片,无论是平面、悬浮还是立体文字效果,都能满足不同需求。Ideogram 1.0版本在正确显示文本方面取得了显著的提升,生成的图像更加逼真。

最后,由香港三所高校联合开发的文生图框架LaVi-Bridge,实现了无需训练就将不同语言模型和生成视觉模型结合起来的技术。该框架兼容多种语言模型和生成视觉模型,能够适应各种结构和场景,有效提升了文本到图像生成的效率。

总之,这五款AI应用展示了我国AI技术的巨大潜力和广阔前景。相信在未来,随着AI技术的不断发展和完善,将为人们的生活带来更多便捷和创新的可能性。

发表回复