美国的研究人员跟踪了人们说话时的神经数据
阅读思想距离现实只有一步之遥:科学家已经开发出可以将大脑活动转化为文本的人工智能。
虽然该系统目前可以处理有人大声说话时检测到的神经模式,但专家表示,该系统最终可以帮助无法说话或打字的患者(例如患有综合症的患者)进行交流。
加州大学旧金山分校的这项研究的合著者约瑟夫·马金(Joseph Makin)博士说:“我们还不存在,但我们认为这可能是言语假肢的基础。”
Makin及其同事在《自然神经科学》(Nature Neuroscience)杂志上发表文章,通过招募四名在电极中植入电极阵列以监测癫痫发作的参与者,揭示了他们如何发展自己的系统。
要求这些参与者多次从50个固定的句子中大声朗读,包括“蒂娜·特纳是流行歌手”和“那些小偷偷走了30件珠宝”。小组在讲话时跟踪了他们的神经活动。
然后,将这些数据输入到机器学习算法中,这是一种人工智能系统,可以将每个口述句子的大脑活动数据转换为数字字符串。
为了确保数字仅与语音方面有关,该系统将根据大脑活动数据的小块预测的声音与实际记录的音频进行了比较。然后将数字字符串输入系统的第二部分,该第二部分将其转换为单词序列。
起初,系统吐出废话。但是,当系统将单词的每个序列与实际朗读的句子进行比较时,它得到了改善,从而了解了数字串与单词之间的关系以及哪些单词趋于彼此跟随。
然后,该团队对该系统进行了测试,仅从语音过程中的大脑活动生成书面文本。
该系统并不完美。在它的错误中,“那些音乐家奇妙地调和”被解释为“菠菜是著名的歌手”,而“一卷电线躺在墙上”变成“威尔宾会戴黄百合”。
但是,团队发现新系统的准确性远远高于以前的方法。尽管准确度因人而异,但对于一名参与者,平均每个句子仅需要纠正3%的单词,高于专业人类笔录者5%的单词错误率。但是,团队压力与后者不同,该算法仅处理少量句子。
Makin说:“如果您尝试使用的[50个句子之外],解码会变得更加糟糕。”他补充说,该系统可能依赖于学习特定句子,从大脑活动中识别单词以及识别英语一般模式的组合。
该团队还发现,根据一个参与者的数据对算法进行训练意味着最终用户需要的训练数据更少,这可以减少对患者的训练负担。
马斯特里赫特大学的专家克里斯蒂安·赫尔夫(Christian Herff)博士没有参加这项研究,他说这项研究令人兴奋,因为该系统为每个参与者使用不到40分钟的训练数据,并且句子的收集数量有限,而不是数百万通常需要几个小时。
他说:“通过这样做,它们达到了迄今为止尚未达到的准确性水平。”
但是,他指出,该系统尚不能用于许多严重残疾的患者,因为该系统依赖于大声说出句子的人记录的大脑活动。
他说:“当然,这是一项了不起的研究,但是那些人也可以使用" OK Google "。” “这不是思想的翻译(而是言语中涉及的大脑活动)。”
赫夫说,人们现在还不必担心别人会读他们的想法:必须植入大脑电极,而想象中的语音与内心的声音却大不相同。
但是,谢菲尔德大学脑机接口专家Mahnaz Arvaneh博士说,现在考虑道德问题很重要。她说:“我们距离机器能够读懂我们的思想的距离仍然非常非常遥远。” “但这并不意味着我们不应该考虑它,我们也不应该计划它。”