违规音频检测方法及装置、电子设备、存储介质与流程
未命名
09-09
阅读:90
评论:0

1.本技术涉及人工智能技术领域,具体而言,涉及一种违规音频检测方法及装置、电子设备、计算机可读存储介质。
背景技术:
2.随着多媒体技术的发展,在网络用户生成内容(user generated content,ugc)中,用户的音频内容可进行自编自创,或者用户直接将歌曲内容进行歌词改编,再传播到网络上,其他用户可以在网络上查看到其传播的音频内容。但其中上传到网络的音频中可能会存在违规内容的情况,且相同的歌手,创作的系列作品往往均存在违规的现象。
3.因此,在音频内容上传前,会对其进行违规检测,现有的违规检测大多基于文本内容直接进行是否违规的判别,即将音频内容采取语音识别的方式转化为文本,再通过文本来进行音频内容是否违规的判别,或采用音频相似度匹配的方式来实现,但由于音频内容中有多含有音乐曲调和背景音,在音乐曲调和背景音的影响下,现有的违规检测的检出率较低。其次,歌曲内容可能涉及的违规种类多,场景复杂,可能涉及多语种和方言,判别标准难度很大。
4.同时,现有技术中,音频内容的审核主要采用机器审核与人工审核的双重审核的方式来完成,迫切需要一个可以降低耗费的人力成本和时间成本,并提高音频内容审核效率的违规检测的技术方案,助力运营审核团队对损害网络健康安全的音频内容进行禁止发布和删除,进而构建健康传递正确价值观的泛娱乐新生态。
技术实现要素:
5.为解决上述技术问题,本技术的实施例提供了一种违规音频检测方法及装置、电子设备、计算机可读存储介质,旨在解决现有的违规审核需要耗费的人力成本和时间成本较高,同时音频内容审核效率和准确率较低的技术问题。
6.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
7.根据本技术实施例的一个方面,提供了一种违规音频检测方法,包括:
8.获取待检测音频,提取待检测音频中的人声音频,并将人声音频转换为文本信息;
9.将文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气;其中,违规语气检测模块基于文本信息中的语气词和待检测音频的时长中至少一项进行检测;
10.若待检测音频中存在违规语气,将文本信息输入预设的违规检测模型中检测待检测音频是否为违规音频。
11.在另外的实施例中,将文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气,包括:
12.获取待检测音频的时长信息,并提取文本信息中的语气词个数和词汇个数,以及
文本信息的文本字数;
13.计算语气词个数与词汇个数的第一比值,并计算文本字数与时长信息的第二比值;
14.根据第一比值和第二比值检测待检测音频中是否存在违规语气。
15.在另外的实施例中,根据第一比值和第二比值检测待检测音频中是否存在违规语气,包括:
16.将第一比值与第一检测阈值进行匹配得到第一匹配结果,并将第二比值与第二检测阈值进行匹配得到第二匹配结果;
17.若第一匹配结果表征第一比值大于第一检测阈值,第二匹配结果表征第二比值小于第二检测阈值,确定待检测音频中存在违规语气;
18.若第一匹配结果表征第一比值小于等于第一检测阈值,或第二匹配结果表征第二比值大于等于第二检测阈值,确定待检测音频中不存在违规语气。
19.在另外的实施例中,在将文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气之前,方法还包括:
20.提取人声音频中的声纹特征得到目标声纹特征;
21.将目标声纹特征与声纹库中的违规声纹特征进行匹配,得到特征匹配结果;
22.若特征匹配结果表征目标声纹特征与违规声纹特征不匹配,执行将文本信息输入预设的违规语气检测模块中检测待检测音频中是否存在违规语气的步骤。
23.在另外的实施例中,提取人声音频中的声纹特征得到目标声纹特征,包括:
24.对人声音频进行分段处理,得到多个人声音频段;
25.通过声纹模型提取各个人声音频段的声纹特征;
26.计算多个声纹特征的平均声纹特征,并将平均声纹特征作为目标声纹特征。
27.在另外的实施例中,方法还包括:
28.若待检测音频中不存在违规语气,将文本信息输入预设的语义模型进行语义识别处理,得到语义识别结果;
29.根据语义识别结果确定待检测音频是否为违规音频。
30.在另外的实施例中,在根据语义识别结果确定待检测音频是否为违规音频之后,方法还包括:
31.若待检测音频为违规音频,根据语义识别结果确定违规类别;
32.根据违规类别确定对应的处理流程,并通过处理流程对待检测音频进行处理。
33.根据本技术实施例的一个方面,提供了一种违规音频检测装置,包括:
34.获取模块,配置为获取待检测音频,提取待检测音频中的人声音频,并将人声音频转换为文本信息;
35.第一检测模块,配置为将文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气;其中,违规语气检测模块基于文本信息中的语气词和待检测音频的时长中至少一项进行检测;
36.第二检测模块,配置为若待检测音频中存在违规语气,将文本信息输入预设的违规检测模型中检测待检测音频是否为违规音频。
37.根据本技术实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;
存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得电子设备实现如前的违规音频检测方法。
38.根据本技术实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当计算机可读指令被计算机的处理器执行时,使计算机执行如上的违规音频检测方法。
39.根据本技术实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的违规音频检测方法。
40.在本技术的实施例所提供的技术方案中,在需要检测待检测音频时,提取待检测音频中的人声音频,并将人声音频转换为文本信息,提取出的人声音频将很大程度地降低背景音乐干扰,从而提升了将人声音频转换为文本信息的识别精度。本技术还将转换到的文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气,违规语气检测模块基于文本信息中的语气词和待检测音频的时长中至少一项进行检测,在待检测音频中存在违规语气的情况下,其中的语气词和时长相较于正常的音频是存在一定的差异,因此,违规语气检测模块能够准确的检测出待检测音频中是否存在违规语气,在检测到待检测音频中存在违规语气的情况下,进一步将文本信息输入预设的违规检测模型中检测所述待检测音频是否为违规音频,能够更加快速、准确的进行违规检测。可见,采用本技术的技术方案无需设置专有的人工审核,能够降低耗费的人力成本和时间成本,助力运营审核团队对损害网络健康安全的音频内容进行禁止发布和删除,进而构建健康传递正确价值观的泛娱乐新生态。
41.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
42.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
43.图1是本技术涉及的一种实施环境的示意图;
44.图2是本技术涉及的一种违规音频检测方法的流程图;
45.图3是本技术涉及的另一个实施例中违规音频检测方法的流程图;
46.图4是本技术涉及的一个实施例中步骤s310的流程图;
47.图5是本技术涉及的一个实施例中步骤s220的流程图;
48.图6是本技术涉及的一个实施例中步骤s530的流程图;
49.图7是本技术涉及的另一个实施例中违规音频检测方法的流程图;
50.图8是本技术涉及的一个实施例中步骤s720的流程图;
51.图9是本技术涉及的另一个实施例中违规音频检测方法的流程图;
52.图10是本技术涉及的一种违规音频检测装置的框图;
53.图11示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
54.这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
55.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
56.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
57.还需要说明的是:在本技术中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
58.请参阅图1,图1是本技术涉及的一种实施环境的示意图。该实施环境包括终端110和服务器120,终端110和服务器120之间通过有线或者无线网络进行通信。
59.终端110中运行有对用户生成内容进行创作的应用程序和对音视频等进行播放的应用程序,在某些进行播放的应用程序中,可直接创作用户生成内容。用户将用户生成内容上传至应用程序进行播放时,若上传的应用程序为一个公共平台,即用户上传的用户生成内容能够被其他用户播放时,需要对用户上传的用户生成内容进行审核,以确定该用户生成内容中是否包含有违规内容,在确定用户生成内容中包含违规内容时,不准许用户成功上传该用户生成内容。
60.服务器120中设置有对用户上传的内容进行违规检测的方法,实现对音频、图像或视频进行违规检测。
61.其中,终端110可以是智能手机、平板、笔记本电脑、计算机等任意能够运行创作应用程序和播放应用程序的电子设备,服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处不对此进行限制。
62.图2是根据一示例性实施例示出的一种违规音频检测方法的流程图。该方法可以应用于图1所示的实施环境,并由图1所示实施例环境中的服务器120具体执行。
63.如图2所示,在一示例性实施例中,该违规音频检测方法可以包括步骤s210至步骤s230,详细介绍如下:
64.步骤s210,获取待检测音频,提取待检测音频中的人声音频,并将人声音频转换为文本信息。
65.本技术实施例中,当用户上传音频时,将上传的音频作为待检测音频,并生成检测
请求,当接收到检测请求,获取与检测请求对应的待检测音频,待检测音频中包括有背景音频、旋律音频、人声音频等,通过对背景音频、旋律音频等进行抑制和分离提取出待检测音频中的人声音频,并将人声音频转换为文本信息。本技术通过对背景音频、旋律音频等进行抑制和分离,将更大程度地降低音乐对声纹特征和语音特征的干扰,很大程度提升了后续将人声音频转换为文本信息,以及提取声纹特行的识别精度。
66.具体的,在提取人声音频时,将待检测音频输入预设的人声分离模型中进行处理,人声分离模型可采用深度神经网络模型如u-net、wave-u-net、waveglow、deep clustering(深度聚类),tasnet(time-domain audio separation network,时域音频分离网络)、conv-tasnet(convolutional time-domain audio separation network,全卷积时域音频分离网络模型)等,或基于注意力机制的tasnet、conv-tasnet训练而成。人声分离模型将待检测音频分离出人声音频和除开人声音频的其他音频两个音频文件。本技术实施例中只保留人声音频进行后续处理。
67.将提取出的人声音频进行语音识别处理,得到文本信息。具体的,将人声音频输入至预训练完成的语音识别模型中进行语音识别,得到文本信息。
68.在本技术的一示例性实施例中,请参阅图3,在步骤s220将文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气之前,违规音频检测方法还包括步骤s310至步骤s330,详细介绍如下:
69.步骤s310,提取人声音频中的声纹特征得到目标声纹特征。
70.本技术实施例中,从人声音频中提取声纹特征作为目标声纹特征。具体的,可通过训练好的声纹模型进行提取,声纹模型可基于深度学习的tdnn(timedelay neural network,时延神经网络)的网络结构进行训练得到。
71.步骤s320,将目标声纹特征与声纹库中的违规声纹特征进行匹配,得到特征匹配结果。
72.本技术实施例中,预先将运营中发现或者已被通报的违规音频的片段进行声纹特征提取,将提取到的声纹的x-vector组合成声纹库,同时将违规音频对应的发布者标记为敏感人员,并将提取到的违规音频的声纹特征作为违规声纹特征。
73.将目标声纹特征与违规声纹特征进行匹配,得到特征匹配结果,特征匹配结果分为两类,一类是目标声纹特征与违规声纹特征不匹配,一类是目标声纹特征与违规声纹特征匹配。
74.步骤s330,若特征匹配结果表征目标声纹特征与违规声纹特征不匹配,执行将文本信息输入预设的违规语气检测模块中检测待检测音频中是否存在违规语气的步骤。
75.本技术实施例中,若特征匹配结果表征目标声纹特征与违规声纹特征不匹配,则执行将文本信息输入预设的违规语气检测模块中检测待检测音频中是否存在违规语气的步骤。若目标声纹特征与违规声纹特征匹配,则无需进行后续将文本信息输入到违规语气检测模块中进行处理步骤,直接不允许发布者将待检测音频发布在应用程序上。
76.在本技术的另一实施例中,在目标声纹特征与违规声纹特征匹配若目标声纹特征与违规声纹特征匹配时,可将文本信息输入预设的语义模型进行语义识别处理,得到语义识别结果,再根据语义识别结果进一步确定待检测音频是否为违规音频。
77.本技术实施例中,通过声纹特征的匹配,使得不用所有的待检测音频都需要经过
违规语气检测模块和违规检测模型的检测,大大节约服务器的算力资源,同时提升违规检测的检测效率。
78.在本技术的一示例性实施例中,请参阅图4,在步骤s310中提取人声音频中的声纹特征得到目标声纹特征,包括步骤s410至步骤s430,详细介绍如下:
79.步骤s410,对人声音频进行分段处理,得到多个人声音频段。
80.本技术实施例中,将人声音频进行分段处理,得到个人声音频段。在分段处理时,可预先设置有对应的分段段数,按照固定的分段段数将人声音频切成多个人声音频段。在另一实施例中,可预设设置有每个人声音频段的时长,将人声音频切成固定时长的人声音频段。前述的预设的分段段数和时长可基于需要自行进行设置,本技术对此不进行限制。
81.步骤s420,通过声纹模型提取各个人声音频段的声纹特征。
82.本技术实施例中,将每个人声音频段输入声纹模型中进行声纹识别,提取每个人声音频段的声纹特征x-vector。
83.步骤s430,计算多个声纹特征的平均声纹特征,并将平均声纹特征作为目标声纹特征。
84.本技术实施例中,将多个声纹特征x-vector取平均,得到平均声纹特征。将平均后的平均声纹特征作为目标声纹特征与声纹库中的违规声纹特征进行匹配。
85.步骤s220,将文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气;其中,违规语气检测模块基于文本信息中的语气词和待检测音频的时长中至少一项进行检测。
86.本技术实施例中,预先设置有违规语气检测模块,违规语气检测模块基于文本信息中的语气词和待检测音频的时长中至少一项进行检测。将转换到的文本信息输入到违规语气检测模块中检测待检测音频中是否存在违规语气。本技术实施例中的违规语气可理解为通过语气词表达违规内容,因此,在待检测音频中存在违规语气的情况下,其中的语气词和时长相较于正常的音频是存在一定的差异。
87.在本技术的一示例性实施例中,请参阅图5,在步骤s220中将文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气,包括步骤s510至步骤s530,详细介绍如下:
88.步骤s510,获取待检测音频的时长信息,并提取文本信息中的语气词个数和词汇个数,以及文本信息的文本字数。
89.本技术实施例中,获取待检测音频的时长信息,并对文本信息进行分词处理,在进行分词处理时,可采用结巴分词、snownlp、thulac(thu lexical analyzer for chinese)、nlpir分词系统等工具进行分词处理。在分词处理时,对分词后的各个词汇进行词性标注,再从词性标注后的词汇中提取出语气词,并统计语气词个数和词汇个数,以及文本信息中的文本字数。
90.步骤s520,计算语气词个数与词汇个数的第一比值,并计算文本字数与时长信息的第二比值。
91.本技术实施例中,将语气词个数除以词汇个数,得到第一比值,同时将文本字数除以时长信息,得到第二比值。
92.步骤s530,根据第一比值和第二比值检测待检测音频中是否存在违规语气。
93.本技术实施例中,通常,在待检测音频中存在违规语气的情况下,人声音频中的非语气词的词汇占比较小,而“啊、哦、哈、好”这类语气词的占比大大增加。此外,识别出的文字个数在同等时长的音频长度下,也远小于正常音频,因此可以根据第一比值和第二比值检测待检测音频中是否存在违规语气。
94.在本技术的一示例性实施例中,请参阅图6,在步骤s530中根据第一比值和第二比值检测待检测音频中是否存在违规语气,包括步骤s610至步骤s630,详细介绍如下:
95.步骤s610,将第一比值与第一检测阈值进行匹配得到第一匹配结果,并将第二比值与第二检测阈值进行匹配得到第二匹配结果。
96.本技术实施例中,预先设置有第一检测阈值和第二检测阈值,将第一比值与第一检测阈值进行匹配,得到第一匹配结果,同时将第二比值与第二检测阈值进行匹配,得到第二匹配结果。
97.步骤s620,若第一匹配结果表征第一比值大于第一检测阈值,第二匹配结果表征第二比值小于第二检测阈值,确定待检测音频中存在违规语气。
98.本技术实施例中,若第一比值大于第一检测阈值,同时第二比值小于第二检测阈值,则表明人声音频中的非语气词的词汇占比较小,而语气词的占比较大,同时识别出的文字个数在同等时长的音频长度下,也远小于正常音频,可确定待检测音频中存在违规语气。
99.步骤s630,若第一匹配结果表征第一比值小于等于第一检测阈值,或第二匹配结果表征第二比值大于等于第二检测阈值,确定待检测音频中不存在违规语气。
100.本技术实施例中,若第一比值小于等于第一检测阈值,或第二比值大于等于第二检测阈值中任一成立,则表明人声音频中的非语气词的词汇占比较大,而语气词的占比较小,或识别出的文字个数在同等时长的音频长度下,也达到正常音频,可确定待检测音频中不存在违规语气。
101.步骤s230,若待检测音频中存在违规语气,将文本信息输入预设的违规检测模型中检测待检测音频是否为违规音频。
102.本技术实施例中,预设的违规检测模型可基于panns-cnn10模型或ecapa-tdnn模型训练而成,训练时,设置有正样本和负样本两类,其中,正样本中多采用自然界声音,具体可包括动物叫声、自然音&水声、非会话人声、家居声音、城市噪音等。
103.负样本则采用被标注的违规音频。
104.通过正样本和负样本对panns-cnn10模型或ecapa-tdnn进行训练得到基线模型后,又进行了迁移训练,在进行迁移训练时加入歌曲、录播课程、有声小说等数据,使得最终训练的违规检测模型能够更加精确,同时整个训练的耗时更短。在本技术一实施例中,优选ecapa-tdnn模型来训练得到违规检测模型。
105.在确定出待检测音频中存在违规语气后,将文本信息输入预设的违规检测模型中进一步检测待检测音频中是否为违规音频,能够更加准确的进行违规检测。
106.本技术实施例中,若根据违规检测模型检测出待检测音频为违规音频,将待检测音频输入至人工审核通道进行进一步审核,得到的人工审核结果人工审核结果表征待检测音频为违规音频,则将从该待检测音频中提取出的目标声纹特征存储至声纹库中作为违规声纹特征,通过将该待检测音频的发布者标记为敏感人员。
107.本技术实施例中,在需要检测待检测音频时,提取待检测音频中的人声音频,并将
人声音频转换为文本信息,提取出的人声音频将很大程度地降低背景音乐干扰,从而提升了将人声音频转换为文本信息的识别精度。本技术还将转换到的文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气,违规语气检测模块基于文本信息中的语气词和待检测音频的时长中至少一项进行检测,在待检测音频中存在违规语气的情况下,其中的语气词和时长相较于正常的音频是存在一定的差异,因此,违规语气检测模块能够准确的检测出待检测音频中是否存在违规语气,在检测到待检测音频中存在违规语气的情况下,进一步将文本信息输入预设的违规检测模型中检测所述待检测音频是否为违规音频,能够更加快速、准确的进行违规检测。可见,采用本技术的技术方案无需设置专有的人工审核,能够降低耗费的人力成本和时间成本,助力运营审核团队对损害网络健康安全的音频内容进行禁止发布和删除,进而构建健康传递正确价值观的泛娱乐新生态。
108.在本技术的一示例性实施例中,请参阅图7,违规音频检测方法还包括步骤s710和步骤s720,详细介绍如下:
109.步骤s710,若待检测音频中不存在违规语气,将文本信息输入预设的语义模型进行语义识别处理,得到语义识别结果。
110.本技术实施例中,在通过违规语气检测模块检测出待检测音频中不存在违规语气后,将文本信息输入到预设的语义模型中进行语义识别处理,得到语义识别结果。
111.步骤s720,根据语义识别结果确定待检测音频是否为违规音频。
112.本技术实施例中,根据语义识别结果能够确定出待检测音频所表达的语义,进而能够确定待检测音频是否为违规音频。
113.在本技术的一示例性实施例中,请参阅图8,在步骤s720根据语义识别结果确定待检测音频是否为违规音频之后,违规音频检测方法还包括步骤s810和步骤s820,详细介绍如下:
114.步骤s810,若待检测音频为违规音频,根据语义识别结果确定违规类别。
115.本技术实施例中,在确定出待检测音频为违规音频时,进一步根据语义识别结果确定违规类型,违规类型包括有多种。
116.步骤s820,根据违规类别确定对应的处理流程,并通过处理流程对待检测音频进行处理。
117.本技术实施例中,每个违规类别具有对应的处理流程,如禁止、疑似,在禁止的处理流程中,则禁止将待检测音频发布到网络中,而在疑似的处理流程中,则需要进一步确定是否为违规音频。根据确定出的处理流程对待检测音频进行处理。
118.在本技术的一个示例性实施例中,请参阅图9,图9是根据一示例性实施例示出的一种违规音频检测方法,包括步骤s910至步骤s960,详细介绍如下:
119.步骤s910,若接收到检测请求,根据检测请求获取待检测音频。
120.本技术实施例中,当用户上传音频时,将上传的音频作为待检测音频,并生成检测请求,当接收到检测请求,获取与检测请求对应的待检测音频。
121.步骤s920,提取待检测音频中的人声音频。
122.本技术实施例中,根据预设的人声分离模型对待检测音频进行处理,通过对背景音频、旋律音频等进行抑制和分离提取出待检测音频中的人声音频。
123.步骤s930,提取人声音频中的声纹特征得到目标声纹特征,将目标声纹特征与声
纹库中的违规声纹特征进行匹配,得到特征匹配结果。
124.本技术实施例中,步骤s930与前述步骤s310和步骤s320中的描述一致,再此不进行赘述。
125.步骤s940,若特征匹配结果表征目标声纹特征与违规声纹特征不匹配,将文本信息输入预设的语义模型进行语义识别处理,得到语义识别结果,并将人声音频转换为文本信息。
126.本技术实施例中,若特征匹配结果表征目标声纹特征与违规声纹特征不匹配,直接将文本信息输入预设的语义模型进行语义识别处理,得到语义识别结果,同时将人声音频转换为文本信息。
127.步骤s950,若语义识别结果表征待检测音频不为违规音频,将文本信息输入预设的违规语气检测模块中检测待检测音频中是否存在违规语气;其中,违规语气检测模块基于文本信息中的语气词和待检测音频的时长中至少一项进行检测。
128.本技术实施例中,当语义识别结果表征待检测音频不为违规音频时,将转换得到的文本信息输入预设的违规语气检测模块中检测待检测音频中是否存在违规语气,语气检测模块如何检测待检测音频中是否存在违规语气的描述与前述步骤s510至步骤s530,以及步骤s610至步骤s630的描述一致,在此不进行赘述。
129.步骤s960,若待检测音频中存在违规语气,将文本信息输入预设的违规检测模型中检测待检测音频是否为违规音频。
130.本技术实施例中,若待检测音频中存在违规语气,将文本信息输入预设的违规检测模型中检测待检测音频是否为违规音频,步骤s960的相关描述与前述步骤s230的相关描述一致,对此不进行赘述。
131.在本技术的一个示例性实施例中,请参阅图10,图10是根据一示例性实施例示出的一种违规音频检测装置,包括:
132.获取模块1010,配置为获取待检测音频,提取待检测音频中的人声音频,并将人声音频转换为文本信息;
133.第一检测模块1020,配置为将文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气;其中,违规语气检测模块基于文本信息中的语气词和待检测音频的时长中至少一项进行检测;
134.第二检测模块1030,配置为若待检测音频中存在违规语气,将文本信息输入预设的违规检测模型中检测待检测音频是否为违规音频。
135.在本技术的一个示例性实施例中,第一检测模块1020,包括:
136.第一提取子模块,配置为获取待检测音频的时长信息,并提取文本信息中的语气词个数和词汇个数,以及文本信息的文本字数;
137.第一计算子模块,配置为计算语气词个数与词汇个数的第一比值,并计算文本字数与时长信息的第二比值;
138.检测子模块,配置为根据第一比值和第二比值检测待检测音频中是否存在违规语气。
139.在本技术的一个示例性实施例中,检测子模块,包括:
140.匹配单元,配置为将第一比值与第一检测阈值进行匹配得到第一匹配结果,并将
第二比值与第二检测阈值进行匹配得到第二匹配结果;
141.第一确定单元,配置为若第一匹配结果表征第一比值大于第一检测阈值,第二匹配结果表征第二比值小于第二检测阈值,确定待检测音频中存在违规语气;
142.第二确定单元,配置为若第一匹配结果表征第一比值小于等于第一检测阈值,或第二匹配结果表征第二比值大于等于第二检测阈值,确定待检测音频中不存在违规语气。
143.在本技术的一个示例性实施例中,违规音频检测装置,还包括:
144.提取模块,配置为提取人声音频中的声纹特征得到目标声纹特征;
145.匹配模块,配置为将目标声纹特征与声纹库中的违规声纹特征进行匹配,得到特征匹配结果;
146.执行模块,配置为若特征匹配结果表征目标声纹特征与违规声纹特征不匹配,执行将文本信息输入预设的违规语气检测模块中检测待检测音频中是否存在违规语气的步骤。
147.在本技术的一个示例性实施例中,提取模块,包括:
148.分段处理子模块,配置为对人声音频进行分段处理,得到多个人声音频段;
149.第二提取子模块,配置为通过声纹模型提取各个人声音频段的声纹特征;
150.第二计算子模块,配置为计算多个声纹特征的平均声纹特征,并将平均声纹特征作为目标声纹特征。
151.在本技术的一个示例性实施例中,违规音频检测装置,还包括:
152.语义识别模块,配置为若待检测音频中不存在违规语气,将文本信息输入预设的语义模型进行语义识别处理,得到语义识别结果;
153.第一确定模块,配置为根据语义识别结果确定待检测音频是否为违规音频。
154.在本技术的一个示例性实施例中,违规音频检测装置,还包括:
155.第二确定模块,配置为若待检测音频为违规音频,根据语义识别结果确定违规类别;
156.第三确定模块,配置为根据违规类别确定对应的处理流程,并通过处理流程对待检测音频进行处理。
157.需要说明的是,上述实施例所提供的违规音频检测装置与上述实施例所提供的违规音频检测方法属于同一构思,其中各个模块、子模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
158.本技术的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述各个实施例中提供的违规音频检测方法;
159.违规音频检测方法,包括:
160.获取待检测音频,提取待检测音频中的人声音频,并将人声音频转换为文本信息;
161.将文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气;其中,违规语气检测模块基于文本信息中的语气词和待检测音频的时长中至少一项进行检测;
162.若待检测音频中存在违规语气,将文本信息输入预设的违规检测模型中检测待检测音频是否为违规音频。
163.图11示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
164.需要说明的是,图11示出的电子设备的计算机系统1100仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
165.如图11所示,计算机系统1100包括中央处理单元(central processing unit,cpu)1101,其可以根据存储在只读存储器(read-only memory,rom)1102中的程序或者从储存部分1108加载到随机访问存储器(random access memory,ram)1103中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在ram 1103中,还存储有系统操作所需的各种程序和数据。cpu 1101、rom 1102以及ram 1103通过总线1104彼此相连。输入/输出(input/output,i/o)接口1105也连接至总线1104。
166.以下部件连接至i/o接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(cathode ray tube,crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分1107;包括硬盘等的储存部分1108;以及包括诸如lan(local area network,局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至i/o接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入储存部分1108。
167.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(cpu)1101执行时,执行本技术的系统中限定的各种功能。
168.需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
169.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一
个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
170.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
171.本技术的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
172.本技术的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的违规音频检测方法;
173.违规音频检测方法,包括:
174.获取待检测音频,提取待检测音频中的人声音频,并将人声音频转换为文本信息;
175.将文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气;其中,违规语气检测模块基于文本信息中的语气词和待检测音频的时长中至少一项进行检测;
176.若待检测音频中存在违规语气,将文本信息输入预设的违规检测模型中检测待检测音频是否为违规音频。
177.上述内容,仅为本技术的较佳示例性实施例,并非用于限制本技术的实施方案,本领域普通技术人员根据本技术的主要构思和精神,可以十分方便地进行相应的变通或修改,故本技术的保护范围应以权利要求书所要求的保护范围为准。
技术特征:
1.一种违规音频检测方法,其特征在于,包括:获取待检测音频,提取所述待检测音频中的人声音频,并将所述人声音频转换为文本信息;将所述文本信息输入违规语气检测模块中检测所述待检测音频中是否存在违规语气;其中,所述违规语气检测模块基于所述文本信息中的语气词和所述待检测音频的时长中至少一项进行检测;若所述待检测音频中存在违规语气,将所述文本信息输入预设的违规检测模型中检测所述待检测音频是否为违规音频。2.如权利要求1所述的方法,其特征在于,所述将所述文本信息输入违规语气检测模块中检测所述待检测音频中是否存在违规语气,包括:获取所述待检测音频的时长信息,并提取所述文本信息中的语气词个数和词汇个数,以及所述文本信息的文本字数;计算所述语气词个数与所述词汇个数的第一比值,并计算所述文本字数与所述时长信息的第二比值;根据所述第一比值和所述第二比值检测所述待检测音频中是否存在违规语气。3.如权利要求2所述的方法,其特征在于,所述根据所述第一比值和所述第二比值检测所述待检测音频中是否存在违规语气,包括:将所述第一比值与第一检测阈值进行匹配得到第一匹配结果,并将所述第二比值与第二检测阈值进行匹配得到第二匹配结果;若所述第一匹配结果表征所述第一比值大于所述第一检测阈值,所述第二匹配结果表征所述第二比值小于所述第二检测阈值,确定所述待检测音频中存在违规语气;若所述第一匹配结果表征所述第一比值小于等于所述第一检测阈值,或所述第二匹配结果表征所述第二比值大于等于所述第二检测阈值,确定所述待检测音频中不存在违规语气。4.如权利要求1所述的方法,其特征在于,在所述将所述文本信息输入违规语气检测模块中检测所述待检测音频中是否存在违规语气之前,所述方法还包括:提取所述人声音频中的声纹特征得到目标声纹特征;将所述目标声纹特征与声纹库中的违规声纹特征进行匹配,得到特征匹配结果;若所述特征匹配结果表征所述目标声纹特征与所述违规声纹特征不匹配,执行所述将所述文本信息输入预设的违规语气检测模块中检测所述待检测音频中是否存在违规语气的步骤。5.如权利要求4所述的方法,其特征在于,所述提取所述人声音频中的声纹特征得到目标声纹特征,包括:对所述人声音频进行分段处理,得到多个人声音频段;通过声纹模型提取各个所述人声音频段的声纹特征;计算多个所述声纹特征的平均声纹特征,并将所述平均声纹特征作为目标声纹特征。6.如权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:若所述待检测音频中不存在违规语气,将所述文本信息输入预设的语义模型进行语义识别处理,得到语义识别结果;
根据所述语义识别结果确定所述待检测音频是否为违规音频。7.如权利要求6所述的方法,其特征在于,在所述根据所述语义识别结果确定所述待检测音频是否为违规音频之后,所述方法还包括:若所述待检测音频为违规音频,根据所述语义识别结果确定违规类别;根据所述违规类别确定对应的处理流程,并通过所述处理流程对所述待检测音频进行处理。8.一种违规音频检测装置,其特征在于,包括:获取模块,配置为获取待检测音频,提取所述待检测音频中的人声音频,并将所述人声音频转换为文本信息;第一检测模块,配置为将所述文本信息输入违规语气检测模块中检测所述待检测音频中是否存在违规语气;其中,所述违规语气检测模块基于所述文本信息中的语气词和所述待检测音频的时长中至少一项进行检测;第二检测模块,配置为若所述待检测音频中存在违规语气,将所述文本信息输入预设的违规检测模型中检测所述待检测音频是否为违规音频。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至7中任一项所述的违规音频检测方法。10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的违规音频检测方法。
技术总结
本申请的实施例公开了一种违规音频检测方法及装置、电子设备、存储介质,该违规音频检测方法包括:获取待检测音频,提取待检测音频中的人声音频,并将人声音频转换为文本信息;将文本信息输入违规语气检测模块中检测待检测音频中是否存在违规语气;其中,违规语气检测模块基于文本信息中的语气词和待检测音频的时长中至少一项进行检测;若待检测音频中存在违规语气,将文本信息输入预设的违规检测模型中检测待检测音频是否为违规音频。本申请实施例的技术方案能够快速准确的进行违规音频检测,同时节省人力成本和时间成本。同时节省人力成本和时间成本。同时节省人力成本和时间成本。
技术研发人员:曾然然
受保护的技术使用者:中国电信股份有限公司
技术研发日:2023.07.06
技术公布日:2023/9/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:高导热孔网钢带复合塑料管的制造方法与流程 下一篇:一种多功能洗浴喷头的制作方法