搜索
新闻资讯
详情
语音识别技术(ASR Automatic Speech Recognition),让智能设备听懂人类的语音。语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理
语音芯片的识别基本工作流程
1、前端处理前端处理,即将语音的模拟信号,转换成机器能读懂的数字信号,并做信号优化处理。前端处理的硬件链路:MIC—>Codec/ADC/PDM—>NPU\DSPMIC 麦克风 采集音频的关键硬件载体,关键参数是灵敏度和信噪比。 按信号输出分为模拟和数字,数字Mic在模拟Mic的基础上内置模拟转换器ADC, 按形态分为驻极体ECM和硅麦MEMS,模拟Mic通常形态是驻极体,数字Mic通常形态是硅麦,但也有数字Mic形态是驻极体。 智能手机全部使用的是硅麦MEMS
以下是前端处理的流程原理简化:音频采集: 通过麦克风,将声波转换为模拟电信号,再通过ADC转换为数字信号预处理: 静音切除 VAD、分侦加窗、降噪(主动降噪ANC)、预加重等 特征提取:图中选的是主流的MFCC,其他还有LPCC,PLP等,选取后续可以匹配的特征点
2、模型训练
模型 可以理解为“字典”,机器收到语音信息后,跟模型比对找出相似的语音和单词那模板怎么来的呢?首先,需要通过大量地采集真人的语音数据(语料采集),且可以针对性地采集地方口音。探境科技 某项目采集表格
然后,语料采集完后,需通过特定的算法(硬件载体是服务器)进行语料的训练,又称“模型训练”。即编辑一本字典出来,后面语音识别的时候就需要“翻字典”查找正确答案。
扫二维码用手机看
Copyright ©2020 猎砷电子科技(上海)有限公司