一种语音赋能装置论文和设计-雷雄国

全文摘要

本实用新型公开一种语音赋能装置，包括，声源采集模块，用于采集音频数据输出至语音处理模块；语音处理模块，用于对音频数据进行处理，生成第一音频数据和第二音频数据；数据传输模块，用于实现与外接设备的数据交互，将第一音频数据和第二音频数据输出至与之连接的外接设备，根据本实用新型的装置可以实现将没有语音识别功能的主机设备赋予语音交互功能，并且克服了现有技术中的对语音识别的噪音处理问题，优化了语音识别结果。并且降低了功耗、不占用资源。

主设计要求

1.语音赋能装置，其特征在于，包括声源采集模块，用于采集音频数据输出至下述语音处理模块；语音处理模块，用于对所述音频数据进行处理，生成第一音频数据；数据传输模块，用于实现与外接设备的数据交互，将第一音频数据输出至与之连接的外接设备。

设计方案

1.语音赋能装置，其特征在于，包括

声源采集模块，用于采集音频数据输出至下述语音处理模块；

语音处理模块，用于对所述音频数据进行处理，生成第一音频数据；

数据传输模块，用于实现与外接设备的数据交互，将第一音频数据输出至与之连接的外接设备。

2.根据权利要求1所述的装置，其特征在于，所述声源采集模块包括第一声源采集组件，用于采集声源音频数据；

第二声源采集组件，用于采集参考音频数据；

所述语音处理模块包括

噪音消除单元，用于根据声源音频数据和参考音频数据对声源音频数据进行去噪处理；和

波束形成单元，用于对去噪后的声源音频数据进行波束形成，生成第一音频数据输出。

3.根据权利要求2所述的装置，其中，所述噪音消除单元包括

模数转换组件，用于对声源音频数据和参考音频数据进行模数转换，生成数字信号；

回声消除组件，用于根据模数转换组件生成的数字信号进行减法运算，获取去噪后的声源数字信号；

数模转换组件，用于对去噪后的声源数字信号进行数模转换，生成去噪后的声源音频数据。

4.根据权利要求3所述的装置，其特征在于，所述语音处理模块还生成第二音频数据通过所述数据传输模块输出至所述外接设备，所述语音处理模块还包括

唤醒验证单元，用于对去噪后的声源音频数据进行唤醒识别，生成唤醒控制信号；

第二音频数据生成单元，用于对唤醒验证单元生成的唤醒控制信号进行处理，生成第二音频数据输出。

5.根据权利要求2至4任一项所述的装置，其特征在于，所述第一声源采集组件和第二声源采集组件均实现为至少两个可移动的麦克风。

6.根据权利要求5所述的装置，其中，所述数据传输模块支持USB协议、WIFI协议和蓝牙协议中的至少一种。

设计说明书

技术领域

本实用新型涉及语音交互技术领域，特别是一种语音赋能装置。

背景技术

随着科技的发展，智能设备越来越普及，但是目前市面上,大部分智能设备不具备语音交互能力，而常用的具有语音交互功能的设备多为近场拾音交互或简单的单轮对话设计，对于语音交互中噪声的处理以及语音识别的准确度都不高,同时无法对主机设备播放的音源进行消除,从而无法实现远场语音信号处理。

又一方面，大部分设备的语音交互都在主机设备上运行,对功耗有一定影响,常常会无法达到低功耗要求,同时大部分前端信号处理也放在主机设备进行运算,对系统资源有较大占用,影响系统运行效率。

实用新型内容

针对上述问题，本实用新型旨在提出一种能够实现主机设备的远场语音交互的技术方案，尤其是能够在不改变主机设备结构的基础上，能够便捷实现对主机设备的远场语音交互功能扩展的解决方案。

根据本实用新型的第一个方面，提供了一种语音赋能装置，包括

声源采集模块，用于采集音频数据输出至下述语音处理模块；

语音处理模块，用于对所述音频数据进行处理，生成第一音频数据；

数据传输模块，用于实现与外接设备的数据交互，将第一音频数据输出至与之连接的外接设备。

根据本实用新型提供的装置，可以实现将没有语音识别功能的主机设备赋予语音交互功能，并且能够通过数据传输模块直接与主机设备通信，以实现度音频信息的采集和处理，使得与之连接的主机设备能够便捷地拥有远场语音交互能力，极方便地扩展了主机设备的语音功能。另外，本实用新型实施例提供的装置和方法能够对音频数据进行前端信号处理，克服了现有技术中主机设备要进行前端信号处理带来的降低功耗、占用资源等问题。

附图说明

图1为本实用新型一实施方式的语音赋能装置原理框图；

图2为本实用新型又一实施方式的语音赋能装置原理框图；

图3为本实用新型一实施方式的通过语音赋能装置实现语音赋能的方法流程图。

具体实施方式

为使本实用新型实施例的目的、技术方案和优点更加清楚，下面将结合本实用新型实施例中的附图，对本实用新型实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本实用新型一部分实施例，而不是全部的实施例。基于本实用新型中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本实用新型保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本实用新型可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本实用新型，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本实用新型中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和\/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和\/或线程中，并且元件可以在一台计算机上本地化和\/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和\/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和\/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图对本实用新型作进一步详细的说明。

图1示意性地显示了根据本实用新型的一种实施方式的语音赋能装置原理框图。如图1所示，

语音赋能装置包括：声源采集模块1、语音处理模块2和数据传输模块3。

其中，声源采集模块1用于采集音频数据输出至语音处理模块2。示例性，该模块实现为多个麦克风,特别是可移动的定向麦克风，可以实现对声源的定位，用户可以直接对着该模块发出语音交互的指令，例如“我要录音”等，以实现远场拾音。而将麦克风设置为可移动的，则可以通过调节麦克风的方向实现针对声源方向进行增强,其他角度噪音进行减弱,从而可以保证音频的质量。

语音处理模块2用于对音频数据进行处理，生成第一音频数据和第二音频数据，第一音频数据为用户发出的语音指令，第二音频数据为唤醒控制信号，即与唤醒结果相关的内容数据，可以根据用户发出的语音指令在本装置中进行语音唤醒得出唤醒控制信号。在其他实现例中，语音赋能装置也可以设置为不包括语音唤醒识别处理，仅生成第一音频数据，即仅进行前端信号处理。该模块可以实现为MCU(数字信号处理)芯片。

数据传输模块3用于实现与外接设备的数据交互，将第一音频数据和第二音频数据输出至与之连接的外接设备，这样就可以使不带有语音交互功能的主机设备根据第一音频数据和第二音频数据实现语音交互功能。数据传输模块3支持USB协议、蓝牙协议和WiFi协议中的至少一种，示例性地可以实现为USB接口。在语音赋能装置仅进行前端信号处理的情况下，数据传输模块3将第一音频数据输出至与之连接的外接设备。

其中，声源采集模块1包括第一声源采集组件101和第二声源采集组件102。第一声源采集组件101用于采集声源音频数据；第二声源采集组件102用于采集参考音频数据。示例性地，第一声源采集组件101和第二声源采集组件102均实现为两个可移动的麦克风，对录入的语音进行16k\/16bit的音频采集。采集声源音频数据时，可以由用户直接对着两个可移动的麦克风说话，由第一声源采集组件101录入声源音频。参考音频数据则主要为针对与之连接的主机设备的背景音，可以直接将可移动的麦克风贴近主机设备的出音口(如喇叭),或者旋转多位角度对着需要屏蔽音源的方向,从而收集主机设备播放的音源或屏蔽方向音源作为参考音频数据。将获取的两个音频数据传输至语音处理模块2。

语音处理模块2包括噪音消除单元201和波束形成单元203。

噪音消除单元201用于根据声源音频数据和参考音频数据对声源音频数据进行去噪处理，从而可以优化语音识别的结果，得到更加精准的语音识别效果，克服了现有技术中背景音的干扰。

波束形成单元203用于对去噪后的声源音频数据进行波束形成，以实现对去噪后的声源音频数据的滤波处理，从而得到可以输出给外接设备的纯净的第一音频数据。

其中，噪音消除单元201主要应用了DSP(数字信号处理)的降噪技术，可以实现为DSP芯片，其包括模数转换组件2011、回声消除组件2012和数模转换组件2013。模数转换组件2011用于对声源音频数据和参考音频数据进行模数转换，该单元内部设置有可以进行模数转换的电路，参照现有技术的模数转换方式生成数字信号。回声消除组件2012用于根据模数转换组件生成的数字信号进行减法运算，获取去噪后的声源数字信号，即将声源音频数据对应的数字信号减去参考音频数据对应的数字信号得到去噪后的数字信号，即为声源数字信号。数模转换组件2013用于对去噪后的声源数字信号进行数模转换，生成去噪后的声源音频数据。根据这几个组件的互相配合可以获得去掉参考音数据的音频数据。模数转换组件和数模转换组件可以采用相应的芯片或电路实现。

滤波形成单元203可以参照现有技术进行实现，故对其实现方式不进行赘述。

根据本实施例可以实现赋予一些不带有语音交互功能的主机设备语音交互能力，并且对于获取的用户的语音指令、内容进行去噪、滤波等前端信号处理，从而可以得到更优化的语音识别结果。同时，本实用新型实施例的装置可以使得外接设备简单地就能实现远场拾音，集成多个麦克风的设计方便进行声源的定位,以针对声源方向进行增强,而其他角度噪音进行减弱,来保证音频的质量。并且对于主机设备上所发出的背景音,会专门针对性的贴近主机设备出音口,从而可以收集主机设备播放的音源或屏蔽方向音源作为参考音,并且进行回声消除,对该类音源干扰进行抗噪处理，从而实现了优化识别音频的功能。

另外，将语音的前端信号处理和唤醒等功能集成到硬件芯片中,从而不再占用主机设备的系统资源,同时在功耗方面,在专门的语音芯片上,可以对语音算法有较大优化,从而实现低功耗要求。

图2为本实用新型又一实施方式的语音赋能装置原理框图。如图2所示，

该语音赋能装置的语音处理模块2还包括唤醒验证单元202和第二音频数据生成单元205。

唤醒验证单元202用于对去噪后的声源音频数据进行唤醒识别，生成唤醒控制信号和唤醒角度，该唤醒识别的方式通过对去噪后的声源音频的语音内容进行解析，或者对应的语义解释，根据语义进行识别，得出用户要表达的唤醒词，其实现方式可以参照现有技术，其中，唤醒角度为实用新型人根据语义解析添加的参数，获取唤醒角度的方式可以是：在声音采集处,有多个麦克风组成的麦克风采集阵列,将多个麦克风采集的数据同时给到语音唤醒验证单元202，该单元会利用唤醒的语音算法根据不同麦克风收到音频的时延情况和能力分布来确认声源点，由于每一帧音频都会有声音定位，所以通过在唤醒验证时确认声源点，就可以获取声音定位结果，将其作为唤醒角度输出。利用语音算法确定音频的时延情况和能力分布可以通过现有技术实现。

优选地，本实用新型实施例中，语音处理模块还包括第一音频数据生成单元204。与此同时，波束形成单元203用于对去噪后的声源音频数据进行波束形成，生成三路音频流即三路16k的音频输出。第一音频数据生成单元204用于对波束形成单元203生成的三路音频流进行处理生成第一音频数据输出，具体采取哪路音频作为第一音频数据输出,则依赖声源定位所指向的唤醒角度，声源定位结果所指向的唤醒角度是在唤醒处理的时候和唤醒结果一并输出的。

对于第二音频数据，其包含了唤醒的控制信号，直接将其传输至第二音频数据生成单元205，其用于对唤醒验证单元202生成的唤醒控制信号进行处理(数字转音频)同样生成音频信号(如48k的音频信号)，即第二音频数据输出。

将第一音频数据和第二音频数据这两个音频数据通过数据传输模块3的驱动传输至主机设备的应用层，应用层通过获取两路的音频数据，对第一音频数据进行拆分成三份音频A、B、C存储至循环队列，基于OneShot回溯。对第二音频数据中的唤醒信号进行持续性的监听。当监听到唤醒信号时，根据波束形成单元203获取该唤醒信号是对A、B、C哪路音频作为识别对象，从而将对应的识别对象与唤醒信号匹配，实现语音交互。

根据本实施例可以实现将没有语音识别功能的主机设备赋予语音交互功能，并且克服了现有技术中的对语音识别的噪音处理问题，优化了语音识别结果。并且，将语音的前端信号处理和唤醒等功能集成到硬件芯片中,从而不再占用主机设备的系统资源,同时在功耗方面,在专门的语音芯片上,可以对语音算法有较大优化,从而实现低功耗要求。

图3示意性地显示了根据本实用新型一实施方式的应用语音赋能装置实现语音赋能方法流程图，如图3所示，本实施例包括如下步骤：

步骤S301：将语音赋能装置通过数据传输模块连接至主设备。可以通过USB协议、蓝牙协议和WIFI协议等与主设备建立连接，该语音赋能装置支持多种类型的主设备。

步骤S302：语音赋能装置采集音频数据，并对音频数据进行处理，生成第一音频数据和第二音频数据。其中，语音赋能装置采集的音频数据包括声源音频数据和参考音频数据。具体实现为：根据声源音频数据和参考音频数据对声源音频数据进行去噪处理，该去噪处理的方式应用了DSP中降噪技术。为了方便去噪的计算过程，先将声源音频数据和参考音频数据分别转换为数字信号，对转换后的数字信号进行减法运算，将减法运算后得到的数字信号转换为模拟信号，从而得到去噪后的声源音频数据。由此实现了优化语音交互的效果。

并且对去噪后的声源音频数据进行波束形成，生成第一音频数据，与此同时还对去噪后的声源音频数据进行唤醒识别，生成第二音频数据。而且在对去噪后的声源音频数据进行波束形成时，还根据唤醒角度进行音频选择，具体地，由于声源采集模块1包括多个麦克风，在经过beamforming(波束成形)算法后会有多路音频生成，其分别对应不同角度的增强音频,而具体采取哪路音频作为第一音频数据输出,则依赖声源定位所指向的唤醒角度，声源定位结果所指向的唤醒角度是在唤醒处理的时候和唤醒结果一并输出的。具体的实现方式可以参照图2的装置实现原理。

步骤S303：语音赋能装置将第一音频数据和第二音频数据输出至主设备。该数据传输的方式可以参照步骤S301，具体实现可以在语音赋能装置建立适配于多种类型主设备的多个接口。

根据本方法可以实现将没有语音识别功能的主机设备赋予语音交互功能，并且克服了现有技术中的对语音识别的噪音处理问题，优化了语音识别结果，并且达到了降低主机设备功耗、不占用资源等效果。

以外接的主机设备为电视机为例，将本实用新型的语音赋能装置应用在电视机上实现电视机的远场拾音的具体使用方法如下：

首先，用户将该语音赋能装置安装在电视机的顶部，保障其主体部分的麦克风阵列朝向用户习惯方向，并且中间无主要的阻隔物，尽量保持在水平角度。之后，将语音赋能装置的USB线插在电视机后方的连接处，以保持供电和信号传输。再将语音赋能装置的麦克风阵列以粘贴等方式固定在电视机的喇叭附近。以此完成该语音赋能装置的安装过程。

在使用过程中，语音赋能装置通过麦克风(即上述的第一声源采集组件101)完成对用户发出的声音进行拾取的过程。并通过粘贴在电视机喇叭附近的麦克风(即上述的第二声源采集组件102)完成对电视机自发声音的拾取。通过语音赋能装置对获取的两组声音进行对比，完成对自发声音的滤除，得到用户主动发出的指令声音。以便完成更进一步的信号处理。后续的处理过程参照上述的方法部分。

由此通过这种外部传输音频的方式，可以避免软回路在系统层传输音频所必需的系统调试工作；也避免了硬回路对于端子的依赖和系统适配工作。同时更好的还原了设备自发声部分的真实干扰，避免了由于功放系统、喇叭等在声音播出环节与声音信号不同步，而导致的问题。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM\/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

设计图

一种语音赋能装置论文和设计

一种语音赋能装置论文和设计-雷雄国

全文摘要

主设计要求

设计方案

设计说明书

设计图

相关信息详情

猜你喜欢