热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

c++tostring函数不能识别_基于MCU设计的语音识别系统

0引言传统的人机交互依靠复杂的键盘或按钮来实现,随着科技的发展,一些新型的人机交互方式也随之诞生,带给人们全新的体验。基于语音识别的人机交

0 引言

传统的人机交互依靠复杂的键盘或按钮来实现,随着科技的发展,一些新型的人机交互方式也随之诞生,带给人们全新的体验。基于语音识别的人机交互方式是目前热门的技术之一。但是语音识别功能算法复杂、计算量大,一般在计算机上实现,即使是嵌入式方面,多数方案也需要运算能力强的 ARM 或 DSP,并且外扩 RAM、FLASH 等资源,增加了硬件成本,这些特点无疑限制了语音识别技术的应用,尤其是嵌入式领域。

本系统采用的主控 MCU为 Atmel 公司的 ATMEGA128,语音识别功能则采用 ICRoute 公司的单芯片 LD3320。LD3320 内部集成优化过的语音识别算法,无需外部 FLASH,RAM 资源,可以很好地完成非特定人的语音识别任务。

1 整体方案设计

1.1 语音识别原理

在计算机系统中,语音信号本身的不确定性、动态性和连续性是语音识别的难点。主流的语音识别技术是基于统计模式识别的基本理论,原理如图 1 所示。

2.1 控制器电路

控制器选用 Atmel 公司生产的 ATMEGA128 芯片,采用先进的 RISC 结构,内置 128 KB FLASH,4 KB SRAM,4 KB E2PROM 等丰富资源。该芯片是业界高性能、低功耗的 8 位微处理器,并在 8 位单片机市场有着广泛应用。

2.2 LD3320 语音识别电路

LD3320 芯片是一款“语音识别”专用芯片。该芯片集成了语音识别处理器和一些外部电路,包括 A/D、D/A 转换器、麦克风接口、声音输出接口等,而且可以播放 MP3。不需要外接任何的辅助芯片如 FLASH,RAM 等,直接集成到产品中即可以实现语音识别、声控、人机对话功能。

图 3 为 LD3320 电路原理图,与 MCU 通信采用 SPI 总线方式,时钟不能超过 1.5MHz。

d1b07b61b0ccd7bf568c16e1d4758572.png

麦克风工作电路如图 4 所示,音频输出只需将扬声器连接到 SPOP 和 SPON 即可。使用 SPI 总线方式时,LD3320 的 MD 要设为高电平,SPIS 设为低电平。SPI 总线的引脚有 SDI,SDO,SDCK 以及 SCS。INTB 为中断端口,当有识别结果或 MP3 数据不足时,会触发中断,通知 MCU 处理。RSTB 引脚是 LD3320 复位端,低电平有效。LED1,LED2 作为上电指示灯。

0fa3fe547b7f17d15bbe2a629026dea1.png

3 软件系统设计

软件设计主要有两部分,分别为移植 LD3320 官方代码和编写语音识别应用程序。

3.1 移植 LD3320 源代码

LD3320 源代码是基于 51 单片机实现的,SPI 部分采用的是软件模拟方式,但在播放 MP3 数据时会有停顿现象,原因是 51 单片机主频较低,导致 SPI 速率很慢,不能及时更新 MP3 数据。移植到 ATMEGA128 需要修改底层寄存器读写函数、中断函数等。底层驱动在 Reg_RW.c 文件中,首先在 Reg_RW.h 使用 HARD_PARA_PORT 宏定义,以支持硬件 SPI。然后在 Reg_RW.c 文件中找到 HARD_PARA_PORT 对应条件宏的代码段,保留 AVR 的 SPI 接口代码。

3.2 应用程序实现

在代码中预先设定几个单词:“你好”,“播放音乐”,“打开”。当用户说“播放音乐”时,MCU 控制 LD3320 播放一段音乐,如果是其他词语,则在串口中打印识别结果,然后再次转换到语音识别状态。

3.2.1 MP3 播放代码

LD3320 支持 MP3 数据播放,播放声音的操作顺序为:

通用初始化→MP3 播放用初始化→调节播放音量→开始播放。

将 MP3 数据顺序放入数据寄存器,芯片播放完一定数量的数据时会发出中断请求,在中断函数中连续送入声音数据,直到声音数据结束。MP3 播放函数实现代码如下:

2cfb701b9a3b0f7cea7b1a2cb2786ca4.png

由于 MCU 容量限制,选取测试的 MP3 文件不能太大。首先在计算机上将 MP3 文件的二进制数据转为标准 C 数组格式文件,然后将该文件加入工程中。源代码中 MP3 文件存储在外扩的 SPI FLASH 中,工程中需要注释和移除全部相关代码。MP3 数据读取函数是 LD_ReloadMp3Data,只需将读取的 SPI FLASH 数据部分改成以数组数据读取的方式即可。

3.2.2 语音识别程序

LD3320 语音识别芯片完成的操作顺序为:通用初始化→ASR 初始化→添加关键词→开启语音识别。在源代码中的 RunASR函数已经实现了上面的过程,直接调用即可开启语音识别功能。

RunASR函数代码如下:

4e3ecd1eb75d51eb4e8f1b5db16e90e2.png

用户说完话后,LD3320 通过打分的方式,将关键词列表中特征最相似的一个作为输出。然后 LD3320 会产生一个中断信号,此时 MCU 跳入中断函数读取 C5 寄存器的值,该值即为识别结果,得到结果后,用户可以根据数值来实现一些功能,比如读取到 1,说明是“播放音乐”,那么可以调用前面的 PlaySound函数来播放音乐。

语音识别控制的关键点在于语音识别的准确率。表 1 给出了测试结果,当然也可以在识别列表中加入更多的关键词来做测试。通过测试结果可以看出,LD3320 的识别率在 95%上,能够满足用户需求。

4 结语

本文讨论了基于 AVR 单片机的语音识别系统设计的可行性,并给出了设计方案。通过多次测试结果表明,本系统具有电路运行稳定,语音识别率高,成本低等优点。同时借助于 LD3320 的 MP3 播放功能,该系统具有一定的交互性和娱乐性。移植性方面,系统通过简单的修改,可以很方便地将 LD3320 驱动程序移植到各种嵌入式系统中。随着人们对人工智能功能的需求,语音识别技术将越来越受到人们的关注,相信不久的将来,语音识别将会拥有更广阔的应用。



推荐阅读
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 动态规划算法的基本步骤及最长递增子序列问题详解
    本文详细介绍了动态规划算法的基本步骤,包括划分阶段、选择状态、决策和状态转移方程,并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中,在以后尽可能多地利用这些子问题的解,从而提高算法的效率。 ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • 本文详细介绍了GetModuleFileName函数的用法,该函数可以用于获取当前模块所在的路径,方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释,帮助读者理解和使用该函数。同时,还提供了相关的API函数声明和说明。 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • imx6ull开发板驱动MT7601U无线网卡的方法和步骤详解
    本文详细介绍了在imx6ull开发板上驱动MT7601U无线网卡的方法和步骤。首先介绍了开发环境和硬件平台,然后说明了MT7601U驱动已经集成在linux内核的linux-4.x.x/drivers/net/wireless/mediatek/mt7601u文件中。接着介绍了移植mt7601u驱动的过程,包括编译内核和配置设备驱动。最后,列举了关键词和相关信息供读者参考。 ... [详细]
  • 海马s5近光灯能否直接更换为H7?
    本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡,并提供了完整的教程下载地址。此外,还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
author-avatar
天边的云YEAH_988
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有