kaldi官方正式合并了基于HI-MIA数据集的唤醒recipe方案。此唤醒的recipe方案由北京希尔贝壳科技,西北工业大学音频语音与语言处理研究组,AISHELL Foundation合作完成。
此recipe方案基于北京希尔贝壳科技在openslr上开源的HI-MIA多通道固定词唤醒数据(https://www.openslr.org/85/)。
提供了2个不同的模型应用方法,第一个是借鉴snip、MobvoiHotwords的chain方案,chain方案由@freewym在arxiv上提出了论文(https://arxiv.org/pdf/2005.08347.pdf),参考论文可以获取更多的信息。效果很好的,大家多去学习。
第二个是唤醒的通用做法,即分别基于deep-KWS和keyword-filler的方案。本次HI-MIA的recipe方案中数据的对齐模型采用开源数据库AISHELL-1,并重新训练一个含唤醒词的声学模型,最后基于后验概率平滑或基于keyword-filler的fst图(可选择)方法。