中国人工智能专家和语言学家正联合打造包括粤语、东北话、四川话等在内的多个方言语音识别系统,并让它们上线“学习”,不断优化出更好的社交“智能”,以留存语言“活化石”——各地方言的生命力。
【中美创新时报合肥10月25日电】(记者屈婷、马姝瑞)中国人工智能专家和语言学家正联合打造包括粤语、东北话、四川话等在内的多个方言语音识别系统,并让它们上线“学习”,不断优化出更好的社交“智能”,以留存语言“活化石”——各地方言的生命力。
10月24日,人工智能企业科大讯飞举办首届全球1024开发者节,宣布了这项“方言保护”计划。目前,已经有22种方言识别系统上线,开放给全世界的开发者使用。
据悉,科研团队4年来已在四川、安徽、东北、河南、湖南、天津等多地采集语料样本,制作方言字典,积累了各类方言500万条以上的音频数据、特殊词汇、发音现象等专业资源。
按照这项计划,22种方言识别和交互系统将陆续搭载在讯飞输入法、机器人和智能车载等软硬件产品上,面向2亿用户公开征集尽可能多的语料样本“大数据”,让机器在后台自己“学习”,在精准识别和智能交互两项能力上迅速迭代优化,预计将在“半年到一年内完全成熟”。
业内专家认为,这组方言识别系统的数量之多,意味着中国在智能语音识别技术上再一次取得先机。随着语音交互场景的进一步普及,个性化识别和交互能力的突破将加速推动人工智能融合到普通人的生活中。
合作方之一、中国社科院语言研究所的研究显示,中国各地有120多种方言,正在日常使用的达80多种。在普通话之外,方言可能是众多中国人最早接触到的“母语”。
尽管覆盖人群巨大,但全球针对中国方言开发的语音识别系统并不多。今年9月,苹果新一代操作系统ios11增加了上海话识别的功能,此前它仅支持粤语识别。
科大讯飞轮值总裁胡郁说,如果想让人工智能机器人讲起话来有“人情味儿”,就必须将文化融入科技中,而方言就是文化最基础的载体和“活化石”,“纵观古今,越是文明的国度,越在意方言的留存”。
“方言对我们不仅意味着乡音,也是妙趣和文化的传承,我们希望每一个人都参与进来。”科大讯飞消费者事业群品牌市场负责人林怡说,基于大数据和人工智能算法,未来智能语音交互能够更懂每一个人的口音和说话习惯,个性化地进行声纹识别和交互。
城市漫步科技有限公司技术总监王锋认为,从长远看,“万物互联”需要更智能化的语义理解,而方言理解是“不可或缺的一环”。他考虑尽快为产品加入方言识别模块,“如果不能很好理解各地方言,机器人和人互动的乐趣和效率都会大打折扣”。
在当前的大数据中,研究者也获得了一些有趣发现。比如,东北话、粤语的使用频次与人数在全国方言中位于前列;有的方言还有子方言;同一种方言也有语速、重音和停顿习惯的不同……
林怡说,该项目可在方言保护计划官网参与,上传方言成功的用户会获得一份荣誉证书,“希望这种方式能让大家感受到科技的温情”。
据悉,科大讯飞将与新华字典等机构开展合作,把收集到的方言语料进行语言面貌的研究,计划在2018年初推出一份中国各地主要方言使用情况的研究报告。(据新华社)