[2016.12.22]小哲谈谈交互新概念唇语识别
小哲在一个月之前说语音识别技术的时候,大胆畅想了一种“意念识别”的交互方式,可能对于目前的科技来说,那基本上是个科幻的想法;与其让计算机知道你内心在想什么,比较可能实现还是让计算机读懂人的外在表现;微表情可能是一种途径,但是收到各种社会学因素和外在干扰条件的影响,同一个动作和表情在不同的人身上可能代表着不同的情况,而行为学家也是通过大量的条件进行分析才能对人的行为进行一些简单的推理;那么像要知道你在表达什么,可能语言还是最容易表达的方式,毕竟每个语音系统内部的人在表达上是统一的。既然在某些场合下进行语音交互不够私密或者比较尴尬,那么只动动嘴唇进行人机交互就是一个不错的选择了。
人工智能技术近年来突飞猛进,微软等硅谷巨头甚至宣称其语音识别系统已经能媲美人类。据报道,现在谷歌的AI在语言理解能力上更上一层楼,不仅可以通过更好的唇语识别来帮助听力障碍人士,多语言神经机器翻译也将显著提高翻译质量。谷歌母公司Alphabet下属的DeepMind部门和牛津大学的研究者使用新闻视频对其AI系统进行训练。用于训练的视频总长超过5000小时,语句超过118,000句。视频取材自BBC电视台自2010年至2015年间播出的节目。训练完毕后,研究人员使用该系统对今年3月~9月间播出的口语节目进行测试。测试结果发现,系统通过“观看”说话者嘴部动作便可以准确识别出整个句子。给予相同的视频素材,专业的唇语识别专家能够达到12.4%的正确率。而AI系统识别正确率是46.8%。前不久谷歌开始在“谷歌翻译”中运用神经机器翻译技术,能够识别准确地识别句子而不再仅仅是单词翻译。现在谷歌宣称使用多语言神经机器翻译技术后,谷歌翻译的翻译效果将再上一层楼。
当然,目前唇语的识别还是不够准确,但是小哲认为这个技术如果能在两个地方进行突破,识别率一定会提高;首先就是唇部动作的采集,如何让计算机能高效和准确的采集到人嘴巴的动作是至关重要的,如果获取的原始分析数据都无法做到准确,后面需要处理和分析就不可能准确。所以无论是提高图像识别技术还是在传感器上下文章,总之这部分的研究是非常重要的;其次才是解决唇语分析的问题,其实这个相对来说比较容易了,上面提到的这家谷歌的公司就是下围棋赢了李世石的机器人“阿尔法狗”的团队,通过大数据和人工智能,不断的分析和学习,就可以在千变万化的唇部动作变化中获取到人们真实想表达和说的话,就和“搜狗打字法”一样,输入得越多,就越懂你要输入上面内容,同时通过大量的词组库,让你即使是打错了或者拼音不标准都不会影响输入。
唇语识别技术虽然已经不是一个新的技术了,但是它的进步空间还巨大,还值得在很多领域进行尝试,小哲大胆的猜测它将成为一种很好的人机交互方式,也是基于目前的眼界,其实也说不定会在唇语识别技术成为交互方式之前出现了新的技术,但目前来说,这是一种很不错的想法,假想下,VR、AR游戏或者应用普及的时候,不需要张牙舞爪就可以通过动动嘴巴不发出声音就能操控AR或者VR界面,那是多么科幻的场景呀,哈哈。