消息识别方法、装置、设备及计算机存储介质与流程
未命名
09-16
阅读:53
评论:0

1.本发明实施例涉及计算机数据处理技术领域,具体涉及一种消息识别方法、装置、设备及计算机存储介质。
背景技术:
2.目前在各种应用中,可能存在不法用户发布广告骚扰、反动攻击等各种违法违规的不良消息,而不良消息的存在会造成不佳的用户体验,因此需要对用户之间发送的消息进行识别,筛选出不良消息。
3.本技术的发明人在实施本发明实施例的过程中发现,现有的消息识别存在准确率或效率较低的问题。
技术实现要素:
4.鉴于上述问题,本发明实施例提供了一种消息识别方法、装置、设备以及计算机存储介质,用于解决现有技术中存在的消息识别的准确率或效率较低问题。
5.根据本发明实施例的一个方面,提供了一种消息识别方法,所述方法包括:
6.确定目标用户组对应的至少一条待识别消息;
7.根据所述至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到所述目标用户组对应的关键词匹配结果;其中,所述多模匹配模型根据预设的关键词集合构建;所述关键词匹配结果包括匹配关键词以及对应的匹配位置信息;每一条消息输入前,所述多模匹配模型的状态以及所述关键词匹配结果根据上一次输入的消息进行更新;
8.根据所述关键词匹配结果以及所述关键词集合对应的至少一个关键词匹配策略确定所述至少一条待识别消息对应的消息识别结果。
9.在一种可选的方式中,所述关键词匹配策略包括组合策略和过滤策略;所述消息识别结果中包括目标消息以及对应的命中策略;所述命中策略为关键词匹配策略中的至少一个;所述方法还包括:
10.根据所述匹配位置信息以及所述过滤策略对所述待识别消息进行过滤,得到第一备选消息;
11.根据所述第一备选消息包括的所述匹配关键词以及所述组合策略确定所述目标消息以及对应的命中策略;所述命中策略为所述组合策略中的至少一个。
12.在一种可选的方式中,所述过滤策略中包括距离阈值;所述方法还包括:
13.根据所述匹配位置信息确定所述匹配关键词之间的距离;
14.根据所述距离与所述距离阈值对所述匹配关键词进行过滤,得到第一命中关键词;
15.将包括所述第一命中关键词的所述待识别消息确定为所述第一备选消息。
16.在一种可选方式中,所述关键词匹配结果还包括已输入消息总长度;所述方法还包括:
17.在当前的待识别消息输入前,根据上一条消息输入后的所述多模匹配模型的临时状态设置所述多模匹配模型的初始状态;
18.确定状态设置后的所述多模匹配模型针对所述当前输入的待识别消息所输出的匹配关键词的长度;
19.当确定当前的待识别消息输入完成时,根据当前输入的所述待识别消息的长度对所述已输入信息总长度进行更新;
20.根据所述匹配关键词的长度以及更新后的所述已输入消息总长度对所述匹配位置信息进行更新。
21.在一种可选的方式中,所述方法还包括:
22.根据所述已输入消息总长度、所述匹配位置信息以及所述过滤策略对所述待识别消息进行过滤,得到第二备选消息;
23.根据所述第二备选消息包括的所述匹配关键词与所述组合策确定所述目标消息以及对应的命中策略。
24.在一种可选的方式中,所述过滤策略中包括长度阈值;所述方法还包括:
25.根据所述长度阈值和所述已输入消息总长度对所述匹配位置信息进行标准化处理,得到处理后的匹配位置信息;
26.根据所述处理后的匹配位置信息对所述匹配关键词进行过滤,得到第二命中关键词;
27.将包括所述第二命中关键词的所述待识别消息确定为所述第二备选消息。
28.在一种可选的方式中,所述过滤策略还包括频次阈值;所述方法还包括:
29.根据所述匹配位置信息确定各个所述匹配关键词的出现频次;
30.根据所述出现频次和所述频次阈值对所述待识别消息进行过滤,得到所述第一备选消息。
31.根据本发明实施例的另一方面,提供了一种消息识别装置,包括:
32.第一确定模块,用于确定目标用户组对应的至少一条待识别消息;
33.输入模块,用于根据所述至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到所述目标用户组对应的关键词匹配结果;其中,所述多模匹配模型根据预设的关键词集合构建;所述关键词匹配结果包括匹配关键词以及对应的匹配位置信息;每一条消息输入前,所述多模匹配模型的状态以及所述关键词匹配结果根据上一次输入的消息进行更新;
34.第二确定模块,用于根据所述关键词匹配结果以及所述至少一个关键词匹配策略确定所述至少一条待识别消息对应的消息识别结果。
35.根据本发明实施例的另一方面,提供了一种消息识别设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
36.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如任意一项实施例所述的消息识别方法的操作。
37.在一种可选的方式中,提供了一种计算机可读介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在消息识别设备上运行时,使得消息识别设备执行如任意
一项实施例所述的消息识别方法的操作。
38.本发明实施例通过确定目标用户组对应的至少一条待识别消息;根据至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到目标用户组对应的关键词匹配结果;其中,多模匹配模型根据预设的关键词集合构建;关键词匹配结果包括匹配关键词以及对应的匹配位置信息;其中,在每一条消息输入前,多模匹配模型的状态以及关键词匹配结果根据上一次输入的消息进行更新,通过根据上一次输入的待识别消息对模型的状态以及匹配结果进行迭代式更新,能够实现跨消息的关键词的识别,而无需对多条待识别消息进行合并,由此提高消息识别的效率。最后根据关键词匹配结果以及至少一个关键词匹配策略确定至少一条待识别消息对应的消息识别结果,能够结合匹配位置信息以及关键词匹配策略对识别出的跨消息的关键词进行进一步筛选,过滤掉位置关系不满足关键词匹配策略的消息,如位置相隔过远的关键词组合等,由此提高消息识别的准确率。
39.上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
40.附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
41.图1示出了本发明实施例提供的消息识别方法的流程示意图;
42.图2示出了本发明实施例提供的ac自动机的结构示意图;
43.图3示出了本发明另一实施例提供的消息识别方法的流程示意图;
44.图4示出了本发明另一实施例提供的消息识别方法的流程示意图;
45.图5示出了本发明实施例提供的消息识别装置的结构示意图;
46.图6示出了本发明实施例提供的消息识别设备的结构示意图。
具体实施方式
47.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
48.在进行本发明实施例的消息识别方法说明之前,先对相关名词进行解释:
49.模式匹配:数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串。
50.多模匹配:模式匹配的一种,用于从一段字符串中匹配多个模式字符串。常用的多模匹配算法有trie树、ac(aho-corasick)算法以及wm算法。其中,ac(aho-corasick)算法的核心思想是通过有限自动机巧妙地将字符比较转化为状态转移。
51.自动机:从主串的首字符、自动机的初始状态0开始,若字符匹配成功,则按自动机的goto(转移)函数转移到下一状态;且若转移的状态对应有output(输出)函数,则输出已匹配上的模式串;若字符匹配失败,则递归地按自动机的failure(匹配失败)函数进行转移。
52.图1示出了本发明实施例提供的消息识别方法的流程图,该方法由计算机处理设备执行。该计算机处理设备可以包括手机、笔记本电脑等。如图1所示,该方法至少包括步骤10-步骤30:
53.步骤10:确定目标用户组对应的至少一条待识别消息。
54.在本发明的一个实施例中,目标用户组中至少包括一个发送方用户以及一个接收方用户,其中,发送方用户将至少一条待识别消息发送至接收方用户。具体地,可以获取至少一条待识别消息,根据待识别消息中的接发用户标识分别确定其对应的目标用户组。
55.步骤20:根据所述至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到所述目标用户组对应的关键词匹配结果;其中,所述多模匹配模型根据预设的关键词集合构建;所述关键词匹配结果包括匹配关键词以及对应的匹配位置信息;每一条消息输入前,所述多模匹配模型的状态以及所述关键词匹配结果根据上一次输入的消息进行更新。
56.在本发明的一个实施例中,多模匹配模型用于进行字符串匹配,具体可以是ac自动机模型,其中,关键词集合中包括至少一个待识别的关键词,一个关键词可以由至少一个字符组成。匹配位置信息可以是匹配到的关键词在目标用户组对应的消息输入序列中的起始位置。其中,消息输入序列由至少一条待识别消息按消息发送顺序排列组成。
57.在本发明的一个实施例中,关键词匹配结果和多模匹配模型的状态可以以哈希表的形式存储在缓存区中,其中,哈希表中包括至少个键值对,键值对的键(key)为目标用户组的标识,键值对的值(value)为多模匹配模型的状态、匹配关键词以及该匹配关键词中的至少一个。
58.在本发明的一个实施例中,考虑到除了预设的关键词进行匹配之外,还要根据该关键词出现的文本的上下文的对关键词进行筛选,因此,关键词匹配结果中还包括已输入的消息总长度。
59.在本发明的再一个实施例中,可以在缓存区新增一个哈希表用于存储目标用户组对应的关键词匹配结果。如图3所示,哈希表的key值为“发送者标识+接收者标识”,key字段分配的内存大小为20b,将“发送者+接收者”统一转化为一个哈希值进行存储。每个key值所对应的value包含3个字段,分别为“自动机当前状态”、“缓存文本长度”、“命中关键词及位置列表”,其中,缓存文本长度指的即已输入消息总长度,命中关键词即为匹配关键词。上述三个字段分别分配内存大小为4b、2b以及120b,其中,自动机状态用一个整型变量表示,可表示最大文本长度为65535,命中关键词用一个整型变量表示使用4b进行存储,位置信息使用2b进行存储,一个命中关键词与位置信息占用6b,一共可以缓存20个命中关键词与位置信息。每个key-value结构占用内存大小为146b。
60.在本发明的再一个实施例中,步骤20还包括:步骤201:在当前的待识别消息输入前,根据上一条消息输入后的所述多模匹配模型的临时状态设置所述多模匹配模型的初始状态。
61.在本发明的一个实施例中,多模匹配模型可以是自动机,更具体地,可以是ac自动机。将上一条消息输入后的所述ac自动机的临时状态设置为ac自动机的初始状态,从而下一条消息输入后从设置后的初始状态开始匹配。
62.当预设的关键词为“app”和“os”时,构建出的ac自动机可以参考图2所示出的。结
合图2以及图3对ac自动机的工作过程进行说明,依次接收到同一组接发用户对应的消息1:appo和消息2:send,将消息1输入图2所示的ac自动机。当输入到待识别消息1最后一个字符“o”后,ac自动机的状态为“4”,此时将发送者+接收者“a+b”作为key,消息结束后自动机状态“4”,已输入消息总长度“4”,命中关键词及位置列表“app:0”作为value,作为一个哈希表写入到如图3所示的缓存区中。当待识别消息2进入ac自动机的输入队列前,首先在缓存区的哈希表中进行查找,输入key发送者+接收者“a+b”,发现存在value,则读取value中的消息结束后自动机状态“4”,将ac自动机初始状态设置为“4”再进行匹配。
63.步骤202:确定状态设置后的所述多模匹配模型针对所述当前输入的待识别消息所输出的匹配关键词的长度。
64.在本发明的一个实施例中,当存在匹配的关键词时,状态设置后的多模匹配模型后会输出该匹配到的关键词,匹配关键词的长度可以是字符个数。如匹配关键词“os”的长度为2。
65.步骤203:当确定当前的待识别消息输入完成时,根据当前输入的所述待识别消息的长度对所述已输入信息总长度进行更新。
66.在本发明的一个实施例中,已输入信息总长度由历史输入的所有待识别消息的长度之和,因此,将当前输入的待识别消息的长度增加到已输入信息总长度上进行更新。
67.继续结合图3以及前述实施例的举例进行说明,此时当输入消息2的第一个字符“s”时,由于ac自动机的初始状态为“4”,在输入为“s”后,状态变为“5”,而“5”为输出态,同时已输入信息总长度加1,得到“5”。
68.步骤204:根据所述匹配关键词的长度以及更新后的所述已输入消息总长度对所述匹配位置信息进行更新。
69.在本发明的一个实施例中,匹配位置信息可以是匹配关键在所有已输入的待识别消息组成的输入消息序列中的位置,具体可以是起始位置。因此,将更新后的已输入消息总长度与匹配关键词的长度的差确定为匹配关键词的起始位置。
70.如前述举例,匹配关键词在文中起始位置为缓存文件长度(5)-当前输入的待识别消息(即“os”)的文本长度(2),则匹配位置信息为“3”。
71.步骤30:根据所述关键词匹配结果以及所述关键词集合对应的至少一个关键词匹配策略确定所述至少一条待识别消息对应的消息识别结果。
72.在本发明中的一个实施例中,关键词匹配策略中包括组合策略以及过滤策略,组合策略用于对关键组进行组合后匹配,过滤策略用于对不满足预设条件的关键词以及
73.如前述举例,最终输出的消息识别结果为“os:3”,即,成功匹配出跨待识别消息1与待识别消息2的关键词“os”,其起始位置为3。
74.考虑到在实际生产过程中,若不进行一定文本范围内约束,由于消息输入量比较大,可能匹配的两个关键词之间距离过远,实际为不相关的关键词,造成关键词组合的误判。所以需要对匹配的关键词进行上下文本约束,废弃超出文本约束外的关键词。
75.因此,在本发明的再一个实施例中,所述关键词匹配策略包括组合策略和过滤策略;其中,组合策略包括关键词之间的逻辑关系、顺序关系以及位置关系,逻辑关系如与、或以及非等关键词的出现逻辑,顺序关系表示匹配关键词在上下文中出现的先后顺序等。
76.过滤策略是指对匹配关键词根据预设上下文约束条件进行过滤的策略,从而根据
上下文环境筛选出不满足的关键词组合,提高消息识别的准确率。其中,上下文约束条件用于表征匹配关键词所出现的消息是上下文关联的,而不是属于无关的对话过程,上下文约束条件可以是针对匹配关键词的位置约束,如匹配关键词位置之间的距离应小于位置阈值,该距离阈值用于表征匹配关键词在表达其组合的文义时的一般的距离。
77.更进一步地,上下文约束条件还可是对关键词位置以及整个关联消息的总长度,如所有待识别消息的总长度应小于长度阈值,该长度阈值用于表征一次正常的对话过程应该包含的消息长度。
78.消息识别结果中包括目标消息以及对应的命中策略;目标消息指的是组合策略命中的关键词组合中的关键词所在的待识别消息。其中,关键词组合中至少包括一个前述的预设关键词。命中策略为命中的关键词组合所匹配到的组合策略以及过滤策略,所述命中策略为关键词匹配策略中的至少一个。
79.步骤30还包括:
80.步骤301:根据所述匹配位置信息以及所述过滤策略对所述待识别消息进行过滤,得到第一备选消息。
81.在本发明中的一个实施例中,过滤策略中过滤类型和该过滤类型对应的阈值,过滤类型指的是过滤所根据的对象类型,对象可以是匹配关键词之间的距离和/或顺序、关键词所在的消息的上下文长度以及匹配关键词出现的频次等。
82.因此,在本发明中的一个实施例中,所述过滤策略中包括距离阈值;所述步骤301还包括:
83.步骤3012:根据所述匹配位置信息确定所述匹配关键词之间的距离。
84.在本发明中的一个实施例中,根据匹配位置信息确定各个匹配关键词的先后关系以及起止位置,将在前的匹配关键词的起止位置与在后的匹配关键词的差值确定为一对匹配关键词之间的距离。
85.步骤3013:根据所述距离与所述距离阈值对所述匹配关键词进行过滤,得到第一命中关键词。
86.在本发明中的一个实施例中,将距离小于距离阈值的匹配关键词确定为第一命中关键词,从而筛选出匹配关键词分别属于无关的上下文环境的情况,从而避免将上下文无关的匹配关键词进行组合,误命中组合策略,提高策略命中的准确率。
87.步骤3014:将包括所述第一命中关键词的所述待识别消息确定为所述第一备选消息。
88.在本发明中的一个实施例中,当第一命中关键词被分割成存在于多个待识别消息中的部分时,将包含各个部分的待识别消息均确定为第一备选消息。
89.进一步地,考虑到有些关键词出于其语法或文义特点,只有在多次连续或间隔出现时才能表示特定含义,因此在本发明的再一个实施例中,过滤策略还包括频次阈值。其中,频次阈值用于表征匹配关键词出现的次数以及频率,频率可以表征每隔一定数量的字符出现。
90.步骤301还包括:步骤3015:根据所述匹配位置信息确定各个所述匹配关键词的出现频次。
91.在本发明中的一个实施例中,根据各个匹配关键词的出现位置确定其出现的次数
以及根据出现位置之间的距离确定其出现的频率,如每10个字符出现一次等。
92.步骤3016:根据所述出现频次和所述频次阈值对所述待识别消息进行过滤,得到所述第一备选消息。
93.在本发明中的一个实施例中,将距离小于距离阈值的匹配关键词确定为第一命中关键词,从而筛选出匹配关键词分别属于无关的上下文环境的情况,从而避免将上下文无关的匹配关键词进行组合,误命中组合策略,从而提高策略命中的准确率。
94.更进一步地,考虑到即使是关键词之间的距离满足一次独立对话之中关键词之间的阈值,但是一般正常的一次对话中包含的字符数,即上下文的文本长度是位于一定的区间以内的。因此除了根据匹配关键词之间的距离进行关键词筛选以外,还可以根据对长度阈值对已输入消息长度进行筛选,从而筛选出最近预设个字符的匹配结果。
95.在本发明的一个实施例中,步骤30还包括:步骤302:根据所述已输入消息总长度、所述匹配位置信息以及所述过滤策略对所述待识别消息进行过滤,得到第二备选消息。
96.在本发明的一个实施例中,过滤策略中包括预设上下文长度的长度阈值,根据长度阈值对匹配位置信息进行标准化处理。其中,标准化处理可以包括偏移处理,偏移处理用于对匹配关键词的绝对位置进行向前或向后偏移,即对上下文进行裁剪,使得自动机输出的匹配关键词出现在预设范围内。
97.在本发明的一个实施例中,所述过滤策略中包括长度阈值;长度阈值用于表征;步骤302还包括:
98.步骤3021:根据所述长度阈值和所述已输入消息总长度对所述匹配位置信息进行标准化处理,得到处理后的匹配位置信息。
99.在本发明的一个实施例中,标准化处理可以是根据长度阈值对匹配位置信息进行偏移处理。具体地,偏移处理可以是在匹配位置的基础上减去长度阈值。
100.继续结合前述举例,当匹配完成待识别消息2的最后一个字符“d”时,此时将发送者+接收者“a+b”作为key,消息结束后ac自动机状态“0”,已输入消息总长度为“8”,匹配关键词及位置列表“app:0,os:3”作为value,作为一个哈希表写入到缓存区中。
101.如图4所示,此时关键词匹配策略“(app)&(os)”判定为真。若长度阈值为“6”,即仅返回近6个字符的匹配结果。当发现已输入消息总长度大于“6”,如为“8”时,则需要将已输入消息总长度变为“6”,如图4中下面缓存的哈希表中的“已输入消息总长度”所示。由于“8”与“6”之间相差为2,则各个命中关键词在文中起始位置需减少2,最终得到“app:-2,os:1”。
102.步骤3022:根据所述处理后的匹配位置信息对所述匹配关键词进行过滤,得到第二命中关键词。
103.在本发明的一个实施例中,对应于偏移处理的方式,将匹配位置信息中的起始位置小于零的匹配关键词过滤掉。
104.需要说明的是,过滤方式与偏移处理的方式相对应,其目的在于筛选掉匹配结果中超过所需要的匹配文本长度以外的部分所包含的匹配关键词。
105.结合前述举例,由于关键词“app”在文中起始位置为负数,则废弃关键词“app”,最终只保留“os:1”,如图4中下面表格所示,此时策略“(app)&(os)”判定为假。这样便保证了在一定文本范围内约束的关键词匹配。
106.步骤3023:将包括所述第二命中关键词的所述待识别消息确定为所述第二备选消
息。
107.步骤3023类似于步骤3014,不再赘述。
108.步骤3024:根据所述第二备选消息包括的所述匹配关键词与所述组合策确定所述目标消息以及对应的命中策略。
109.在本发明的一个实施例中,根据组合策略对匹配关键词的组合进行筛选,得到命中的关键词组合对应的命中策略。将命中策略对应的关键词所在的待识别消息确定为目标消息。
110.步骤303:根据所述第一备选消息包括的所述匹配关键词以及所述组合策略确定所述目标消息以及对应的命中策略。
111.步骤303类似于前述步骤3024,不再赘述。
112.本发明实施例的消息识别方法通过确定目标用户组对应的至少一条待识别消息;根据至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到目标用户组对应的关键词匹配结果;其中,多模匹配模型根据预设的关键词集合构建;关键词匹配结果包括匹配关键词以及对应的匹配位置信息;其中,在每一条消息输入前,多模匹配模型的状态以及关键词匹配结果根据上一次输入的消息进行更新,通过根据上一次输入的待识别消息对模型的状态以及匹配结果进行迭代式更新,能够实现跨消息的关键词的识别,而无需对多条待识别消息进行合并,由此提高消息识别的效率。最后根据关键词匹配结果以及至少一个关键词匹配策略确定至少一条待识别消息对应的消息识别结果,能够结合匹配位置信息以及关键词匹配策略对识别出的跨消息的关键词进行进一步筛选,过滤掉位置关系不满足关键词匹配策略的消息,如位置相隔过远的关键词组合等,由此提高消息识别的准确率。
113.图5示出了本发明实施例提供的消息识别装置的结构示意图。如图5所示,该装置400包括:第一确定模块401、输入模块402和第二确定模块403。
114.其中,第一确定模块401,用于确定目标用户组对应的至少一条待识别消息;
115.输入模块402,用于根据所述至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到所述目标用户组对应的关键词匹配结果;其中,所述多模匹配模型根据预设的关键词集合构建;所述关键词匹配结果包括匹配关键词以及对应的匹配位置信息;每一条消息输入前,所述多模匹配模型的状态以及所述关键词匹配结果根据上一次输入的消息进行更新;
116.第二确定模块403,用于根据所述关键词匹配结果以及所述关键词集合对应的至少一个关键词匹配策略确定所述至少一条待识别消息对应的消息识别结果。
117.本发明实施例的消息识别装置所执行的操作过程与前述方法实施例大致相同,不再赘述。
118.本发明实施例的消息识别装置通过确定目标用户组对应的至少一条待识别消息;根据至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到目标用户组对应的关键词匹配结果;其中,多模匹配模型根据预设的关键词集合构建;关键词匹配结果包括匹配关键词以及对应的匹配位置信息;其中,在每一条消息输入前,多模匹配模型的状态以及关键词匹配结果根据上一次输入的消息进行更新,通过根据上一次输入的待识别消息对模型的状态以及匹配结果进行迭代式更新,能够实现跨消息的关键词的识别,而无需对多条待识别消息进行合并,由此提高消息识别的效率。最后根据关键词匹配结果以及至少一
个关键词匹配策略确定至少一条待识别消息对应的消息识别结果,能够结合匹配位置信息以及关键词匹配策略对识别出的跨消息的关键词进行进一步筛选,过滤掉位置关系不满足关键词匹配策略的消息,如位置相隔过远的关键词组合等,由此提高消息识别的准确率。
119.图6示出了本发明实施例提供的消息识别设备的结构示意图,本发明具体实施例并不对消息识别设备的具体实现做限定。
120.如图6所示,该消息识别设备可以包括:处理器(processor)502、通信接口(communications interface)504、存储器(memory)506、以及通信总线508。
121.其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述用于消息识别方法实施例中的相关步骤。
122.具体地,程序510可以包括程序代码,该程序代码包括计算机可执行指令。
123.处理器502可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。消息识别设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
124.存储器506,用于存放程序410。存储器506可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
125.程序510具体可以被处理器502调用使消息识别设备执行以下操作:
126.确定目标用户组对应的至少一条待识别消息;
127.根据所述至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到所述目标用户组对应的关键词匹配结果;其中,所述多模匹配模型根据预设的关键词集合构建;所述关键词匹配结果包括匹配关键词以及对应的匹配位置信息;每一条消息输入前,所述多模匹配模型的状态以及所述关键词匹配结果根据上一次输入的消息进行更新;
128.根据所述关键词匹配结果以及所述关键词集合对应的至少一个关键词匹配策略确定所述至少一条待识别消息对应的消息识别结果。
129.本发明实施例的消息识别设备所执行的操作过程与前述方法实施例大致相同,不再赘述。
130.本发明实施例的消息识别设备通过确定目标用户组对应的至少一条待识别消息;根据至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到目标用户组对应的关键词匹配结果;其中,多模匹配模型根据预设的关键词集合构建;关键词匹配结果包括匹配关键词以及对应的匹配位置信息;其中,在每一条消息输入前,多模匹配模型的状态以及关键词匹配结果根据上一次输入的消息进行更新,通过根据上一次输入的待识别消息对模型的状态以及匹配结果进行迭代式更新,能够实现跨消息的关键词的识别,而无需对多条待识别消息进行合并,由此提高消息识别的效率。最后根据关键词匹配结果以及至少一个关键词匹配策略确定至少一条待识别消息对应的消息识别结果,能够结合匹配位置信息以及关键词匹配策略对识别出的跨消息的关键词进行进一步筛选,过滤掉位置关系不满足关键词匹配策略的消息,如位置相隔过远的关键词组合等,由此提高消息识别的准确率。
131.本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在消息识别设备上运行时,使得所述消息识别设备执行上述任意方
法实施例中的消息识别方法。
132.可执行指令具体可以用于使得消息识别设备执行以下操作:
133.确定目标用户组对应的至少一条待识别消息;
134.根据所述至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到所述目标用户组对应的关键词匹配结果;其中,所述多模匹配模型根据预设的关键词集合构建;所述关键词匹配结果包括匹配关键词以及对应的匹配位置信息;每一条消息输入前,所述多模匹配模型的状态以及所述关键词匹配结果根据上一次输入的消息进行更新;
135.根据所述关键词匹配结果以及所述关键词集合对应的至少一个关键词匹配策略确定所述至少一条待识别消息对应的消息识别结果。
136.本发明实施例的计算机存储介质所存储的可执行指令所执行的操作过程与前述方法实施例大致相同,不再赘述。
137.本发明实施例的计算机存储介质所存储的可执行指令通过确定目标用户组对应的至少一条待识别消息;根据至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到目标用户组对应的关键词匹配结果;其中,多模匹配模型根据预设的关键词集合构建;关键词匹配结果包括匹配关键词以及对应的匹配位置信息;其中,在每一条消息输入前,多模匹配模型的状态以及关键词匹配结果根据上一次输入的消息进行更新,通过根据上一次输入的待识别消息对模型的状态以及匹配结果进行迭代式更新,能够实现跨消息的关键词的识别,而无需对多条待识别消息进行合并,由此提高消息识别的效率。最后根据关键词匹配结果以及至少一个关键词匹配策略确定至少一条待识别消息对应的消息识别结果,能够结合匹配位置信息以及关键词匹配策略对识别出的跨消息的关键词进行进一步筛选,过滤掉位置关系不满足关键词匹配策略的消息,如位置相隔过远的关键词组合等,由此提高消息识别的准确率。
138.本发明实施例提供一种消息识别装置,用于执行上述消息识别方法。
139.本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使消息识别设备执行上述任意方法实施例中的消息识别方法。
140.本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的消息识别方法。
141.在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
142.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
143.类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要
求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
144.本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
145.应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
技术特征:
1.一种消息识别方法,其特征在于,所述方法包括:确定目标用户组对应的至少一条待识别消息;根据所述至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到所述目标用户组对应的关键词匹配结果;其中,所述多模匹配模型根据预设的关键词集合构建;所述关键词匹配结果包括匹配关键词以及对应的匹配位置信息;每一条消息输入前,所述多模匹配模型的状态以及所述关键词匹配结果根据上一次输入的消息进行更新;根据所述关键词匹配结果以及所述关键词集合对应的至少一个关键词匹配策略确定所述至少一条待识别消息对应的消息识别结果。2.根据权利要求1所述的方法,其特征在于,所述关键词匹配策略包括组合策略和过滤策略;所述消息识别结果中包括目标消息以及对应的命中策略;所述命中策略为关键词匹配策略中的至少一个;所述根据所述关键词匹配结果以及所述至少一个关键词匹配策略确定所述至少一条待识别消息对应的消息识别结果,包括:根据所述匹配位置信息以及所述过滤策略对所述待识别消息进行过滤,得到第一备选消息;根据所述第一备选消息包括的所述匹配关键词以及所述组合策略确定所述目标消息以及对应的命中策略;所述命中策略为所述组合策略中的至少一个。3.根据权利要求2所述的方法,其特征在于,所述过滤策略中包括距离阈值;所述根据所述匹配位置信息以及所述过滤策略对所述待识别消息进行过滤,得到第一备选消息,包括:根据所述匹配位置信息确定所述匹配关键词之间的距离;根据所述距离与所述距离阈值对所述匹配关键词进行过滤,得到第一命中关键词;将包括所述第一命中关键词的所述待识别消息确定为所述第一备选消息。4.根据权利要求1所述的方法,其特征在于,所述关键词匹配结果还包括已输入消息总长度;所述每一条消息输入前,所述多模匹配模型的状态以及所述关键词匹配结果根据上一次输入的消息进行更新,包括:在当前的待识别消息输入前,根据上一条消息输入后的所述多模匹配模型的临时状态设置所述多模匹配模型的初始状态;确定状态设置后的所述多模匹配模型针对所述当前输入的待识别消息所输出的匹配关键词的长度;当确定当前的待识别消息输入完成时,根据当前输入的所述待识别消息的长度对所述已输入信息总长度进行更新;根据所述匹配关键词的长度以及更新后的所述已输入消息总长度对所述匹配位置信息进行更新。5.根据权利要求4所述的方法,其特征在于,所述关键词匹配策略包括组合策略和过滤策略;所述消息识别结果中包括目标消息以及对应的命中策略;所述命中策略为关键词匹配策略中的至少一个;所述根据所述关键词匹配结果以及所述至少一个关键词匹配策略确定所述至少一条待识别消息对应的消息识别结果,还包括:根据所述已输入消息总长度、所述匹配位置信息以及所述过滤策略对所述待识别消息进行过滤,得到第二备选消息;
根据所述第二备选消息包括的所述匹配关键词与所述组合策确定所述目标消息以及对应的命中策略。6.根据权利要求5所述的方法,其特征在于,所述过滤策略中包括长度阈值;所述根据所述已输入消息总长度、所述匹配位置信息以及所述过滤策略对所述待识别消息进行过滤,得到第二备选消息;包括:根据所述长度阈值和所述已输入消息总长度对所述匹配位置信息进行标准化处理,得到处理后的匹配位置信息;根据所述处理后的匹配位置信息对所述匹配关键词进行过滤,得到第二命中关键词;将包括所述第二命中关键词的所述待识别消息确定为所述第二备选消息。7.根据权利要求2所述的方法,其特征在于,所述过滤策略还包括频次阈值;所述根据所述匹配位置信息以及所述过滤策略对所述待识别消息进行过滤,得到第一备选消息,包括:根据所述匹配位置信息确定各个所述匹配关键词的出现频次;根据所述出现频次和所述频次阈值对所述待识别消息进行过滤,得到所述第一备选消息。8.一种消息识别装置,其特征在于,所述装置包括:第一确定模块,用于确定目标用户组对应的至少一条待识别消息;输入模块,用于根据所述至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到所述目标用户组对应的关键词匹配结果;其中,所述多模匹配模型根据预设的关键词集合构建;所述关键词匹配结果包括匹配关键词以及对应的匹配位置信息;每一条消息输入前,所述多模匹配模型的状态以及所述关键词匹配结果根据上一次输入的消息进行更新;第二确定模块,用于根据所述关键词匹配结果以及所述关键词集合对应的至少一个关键词匹配策略确定所述至少一条待识别消息对应的消息识别结果。9.一种消息识别设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的消息识别方法的操作。10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在消息识别设备上运行时,使得消息识别设备执行如权利要求1-7任意一项所述的消息识别方法的操作。
技术总结
本发明实施例涉及计算机数据处理技术领域,公开了一种不良消息识别方法,该方法包括:确定目标用户组对应的至少一条待识别消息;根据至少一条待识别消息按照消息发送顺序依次输入多模匹配模型,得到目标用户组对应的关键词匹配结果;其中,多模匹配模型根据预设的关键词集合构建;关键词匹配结果包括匹配关键词以及对应的匹配位置信息;每一条消息输入前,多模匹配模型的状态以及关键词匹配结果根据上一次输入的消息进行更新;根据关键词匹配结果以及关键词集合对应的至少一个关键词匹配策略确定至少一条待识别消息对应的消息识别结果。通过上述方式,本发明实施例提高了不良消息识别的准确率和效率。消息识别的准确率和效率。消息识别的准确率和效率。
技术研发人员:李岩 张晨 王红雨 杜雪涛 叶剑飞 戴晶 杜刚 周宇飞 邵妍 叶艳 朱艳云
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2022.03.04
技术公布日:2023/9/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/