友情提示:本文共有 814 个字,阅读大概需要 2 分钟。
卡内基梅隆大学(Carnegie Mellon University)的人工智能研究人员发明了一种人工智能代理,能够将文字翻译成身体动作。这种方法被称为联合语言到姿态,或JL2P,它将自然语言与三维姿态模型相结合。位姿预测联合嵌入式通过端到端课程学习来学习的,这是一种训练方法,在转向更困难的目标之前,强调更短的任务完成序列。
JL2P动画目前仅限于简笔画,但将文字翻译成类似人类动作的能力有朝一日可以帮助类人机器人在现实世界中执行物理任务,或帮助创意人员为视频游戏或电影等制作虚拟人物动画。JL2P符合先前的作品,把单词变成意象——就像微软的ObjGAN,从标题图片和故事板草图,迪斯尼的AI在脚本中使用单词创建故事板,和英伟达的GauGAN允许用户使用画笔画风景画贴上这样的词“树”“山”或“天空”。
JL2P能够做一些事情,比如走路或跑步,演奏乐器(如吉他或小提琴),遵循方向指示(左或右),或控制速度(快或慢)。7月2日,作者之一、CMU语言技术学院研究生研究助理Chaitanya Ahuja将于9月19日在加拿大魁北克市举行的3D视觉国际会议上发表论文。“我们首先优化模型,根据完整的句子预测两个时间步长,”论文写道。这个简单的任务可以帮助模特学习非常短的姿势序列,比如走路时的腿部动作、挥手时的手部动作和弯曲时的躯干动作。一旦验证集上的损失开始增加,我们就进入课程的下一个阶段。现在,该模型被赋予了两倍于用于预测的姿态。”
JL2P声称,与SRI国际研究人员2018年提出的最先进的人工智能相比,JL2P在人体运动建模方面有9%的改进。
JL2P使用KIT动作语言数据集进行训练。
该数据集由德国高性能仿人技术公司(High Performance Humanoid Technologies)于2016年推出,将人体运动与自然语言描述相结合,将11小时的人类运动记录映射到6200多个英语句子中,这些句子大约有8个单词长。
本文如果对你有帮助,请点赞收藏《人工智能研究人员将语言转化为肢体动作》,同时在此感谢原作者。