信息审核方法及装置、存储介质、计算机设备与流程

未命名 09-21 阅读:84 评论:0


1.本技术涉及计算机以及数字医疗技术领域,尤其是涉及到一种信息审核方法及装置、存储介质、计算机设备。


背景技术:

2.随着国家新广告法的实施以及医药商品监管政策的逐渐收紧,医药商品描述信息触发广告法违禁词的行为也越来越多。商家在发布医药商品时,需要对待发布医药商品的描述信息进行合规性校验,合规性校验的规则一般是利用词库对医药商品的描述信息进行匹配,例如词库包括“第一”“最”等词语,若医药商品的描述信息命中词库中的词语,则该医药商品合规性效验失败。但是有很多词语在大部分场景下不能使用,却在特定场景下可以使用。例如,“专利”这个词语,如果医药商品的描述信息中含有具体的专利号,那么可以使用,如果没有专利号,那么不可以使用。再比如,对于医疗保健用品不可以出现诸如“排毒”、“保肝”以及“祛痘”等词语,而对于医用药品则可以进行使用。所以,通过词库直接匹配医药商品的描述信息的方法不能很好的审核待发布医药商品的描述信息。


技术实现要素:

3.有鉴于此,本技术提供了一种信息审核方法及装置、存储介质、计算机设备,通过增加信息特征词与待审核信息词结合来审核待发布信息是否存在违规的方法,提高了对待发布信息发布审核的精准度。
4.根据本技术的一个方面,提供了一种信息审核方法,所述方法包括:
5.响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,所述预设审核词包括违禁信息样本对应的审核词;
6.基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及所述关联词对应的预设违规概率;
7.确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率;
8.基于所述目标违规概率,确定所述待发布信息的发布审核结果。
9.可选地,所述审核词信息库包括过审关联词及审拒关联词,所述基于所述目标违规概率,确定所述待发布信息的发布审核结果,包括:
10.将最大的目标违规概率确定为违规判决概率;
11.若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为过审关联词,则确定所述待发布信息通过发布审核;
12.若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为审拒关联词,则确定所述待发布信息不通过发布审核。
13.可选地,所述将最大的目标违规概率确定为违规判决概率之后,所述方法还包括:
14.若所述违规判决概率小于或等于预设阈值,则将所述待发布信息转入人工审核,并依据人工审核结果确定所述待发布信息是否通过发布审核。
15.可选地,所述响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别之后,所述方法还包括:
16.若识别出的信息关键词命中预设违禁词,则确定所述待发布信息不通过发布审核;
17.若识别出的信息关键词未命中预设违禁词,则执行所述在识别出的信息关键词中获取命中预设审核词的待审核信息词。
18.可选地,所述审核词信息库的建立方法包括:
19.针对任一预设审核词,获取所述预设审核词对应的过审样本及审拒样本;
20.基于所述过审样本对应的过审描述信息,确定过审关联词及过审关联词违规概率,基于所述审拒样本对应的审拒描述信息,确定审拒关联词及审拒关联词违规概率;
21.基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息,并建立包含所述预设审核词以及所述发布审核信息的审核词信息库。
22.可选地,所述基于所述过审样本对应的过审描述信息,确定过审关联词及过审关联词违规概率,基于所述审拒样本对应的审拒描述信息,确定审拒关联词及审拒关联词违规概率,包括:
23.对所述过审样本对应的过审描述信息进行分词,获得过审关联词,基于包含所述过审关联词的过审样本数量占过审样本总数量的百分比,确定过审关联词违规概率;
24.对所述审拒样本对应的审拒描述信息进行分词,获得审拒关联词,基于包含所述审拒关联词的审拒样本数量占审拒样本总数量的百分比,确定审拒关联词违规概率。
25.可选地,所述基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息之前,所述方法还包括:
26.选取所述过审关联词中与所述审拒关联词中相同的关联词,确定为目标关联词,计算所述目标关联词对应的过审关联词违规概率与审拒关联词违规概率的概率差值后,将非零的概率差值确定为目标概率差值;
27.当所述目标概率差值为正数时,将所述目标关联词作为最终的过审关联词以及将所述目标概率差值作为最终的过审关联词的过审关联词违规概率;
28.当所述目标概率差值为负数时,将所述目标关联词作为最终的审拒关联词以及将所述目标概率差值的绝对值作为最终的审拒关联词的审拒关联词违规概率。
29.根据本技术的另一方面,提供了一种信息审核装置,所述装置包括:
30.审核词获取模块,用于响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,所述预设审核词包括违禁信息样本对应的审核词;
31.关联词获取模块,用于基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及每个所述关联词对应的预设违规概率;
32.违规概率获取模块,用于确定所述信息特征词中命中所述关联词的目标特征词,
并获取所述目标特征词对应的目标违规概率;
33.审核结果确定模块,用于基于所述目标违规概率,确定所述待发布信息的发布审核结果。
34.可选地,所述审核结果确定模块,还用于:
35.将最大的目标违规概率确定为违规判决概率;
36.若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为过审关联词,则确定所述待发布信息通过发布审核;
37.若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为审拒关联词,则确定所述待发布信息不通过发布审核。
38.可选地,所述审核结果确定模块,还用于:
39.若所述违规判决概率小于或等于预设阈值,则将所述待发布信息转入人工审核,并依据人工审核结果确定所述待发布信息是否通过发布审核。
40.可选地,所述审核结果确定模块,还用于:
41.若识别出的信息关键词命中预设违禁词,则确定所述待发布信息不通过发布审核。
42.可选地,所述审核词获取模块,还用于:
43.若识别出的信息关键词未命中预设违禁词,则执行所述在识别出的信息关键词中获取命中预设审核词的待审核信息词。
44.根据本技术的另一方面,提供了一种建立审核词信息库的装置,所述装置包括:
45.样本获取模块,用于针对任一预设审核词,获取所述预设审核词对应的过审样本及审拒样本;
46.关联词及违规概率确定模块,用于基于所述过审样本对应的过审描述信息,确定过审关联词及过审关联词违规概率,基于所述审拒样本对应的审拒描述信息,确定审拒关联词及审拒关联词违规概率;
47.审核词信息库建立模块,用于基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息,并建立包含所述预设审核词以及所述发布审核信息的审核词信息库。
48.可选地,所述关联词及违规概率确定模块,还用于:
49.对所述过审样本对应的过审描述信息进行分词,获得过审关联词,基于包含所述过审关联词的过审样本数量占过审样本总数量的百分比,确定过审关联词违规概率;
50.对所述审拒样本对应的审拒描述信息进行分词,获得审拒关联词,基于包含所述审拒关联词的审拒样本数量占审拒样本总数量的百分比,确定审拒关联词违规概率。
51.可选地,所述关联词及违规概率确定模块,还用于:
52.选取所述过审关联词中与所述审拒关联词中相同的关联词,确定为目标关联词,计算所述目标关联词对应的过审关联词违规概率与审拒关联词违规概率的概率差值后,将非零的概率差值确定为目标概率差值;
53.当所述目标概率差值为正数时,将所述目标关联词作为最终的过审关联词以及将所述目标概率差值作为最终的过审关联词的过审关联词违规概率;
54.当所述目标概率差值为负数时,将所述目标关联词作为最终的审拒关联词以及将
所述目标概率差值的绝对值作为最终的审拒关联词的审拒关联词违规概率。
55.依据本技术又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述信息审核方法。
56.依据本技术再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述信息审核方法。
57.借由上述技术方案,本技术提供的一种信息审核方法及装置、存储介质、计算机设备,响应于待发布信息的发布审核指令,对待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,预设审核词包括违禁信息样本对应的审核词。基于审核词信息库获取待审核信息词对应的至少一个关联词以及关联词对应的预设违规概率,确定信息特征词中命中关联词的目标特征词,并获取目标特征词对应的目标违规概率,基于目标违规概率,确定待发布信息的发布审核结果。增加了信息特征词与待审核信息词结合来对待发布信息进行审核,相比较于单独运用待审核信息词(即违禁词)对待发布信息进行发布审核的方法,可以通过信息特征词来分析待审核信息词是否处于合适的应用场景,以此提高了审核结果的精准度。
58.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
59.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
60.图1示出了本技术实施例提供的一种信息审核方法的流程示意图;
61.图2示出了本技术实施例提供的另一种信息审核方法的流程示意图;
62.图3示出了本技术实施例提供的又一种信息审核方法的流程示意图;
63.图4示出了本技术实施例提供的一种审核词信息库建立方法的流程示意图;
64.图5示出了本技术实施例提供的另一种审核词信息库建立方法的流程示意图;
65.图6示出了本技术实施例提供的一种信息审核装置的结构示意图;
66.图7示出了本技术实施例提供的一种建立审核词信息库的装置的结构示意图。
具体实施方式
67.下文中将参考附图并结合实施例来详细说明本技术。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
68.在本实施例中提供了一种信息审核方法,如图1所示,该方法包括:
69.步骤101,响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,所述预设审核词包括违禁信息样本对应的审核词。
70.随着互联网技术的发展,依托互联网络进行线上交易的电子商务逐渐兴起,因给人们带来了极大的生活便利,现已渗入到社会生活的方方面面。电子商务,也即“电商”,通
常是指是在全球各地广泛的商业贸易活动中,在因特网开放的网络环境下,基于浏览器/服务器应用方式,买卖双方不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。
71.具体的,针对于医疗行业,商家可以在电商系统中发布医药商品,以基于电商系统与买家针对已发布的医药商品进行线上交易。随着国家新广告法的实施和医药商品监管政策的收紧,有些医药商品的描述信息会触发广告法违禁词,因此需要对即将发布的医药商品的描述信息进行审核,审核通过后才能准予发布。
72.在本技术上述实施例中,当商家通过商家的用户终端将待发布医药商品上传于电商系统后,便会触发电商系统中的审核系统对待发布医药商品对应的待发布信息进行发布审核,电商审核系统响应于待发布信息的发布审核指令,对待发布信息进行关键词识别,具体的,可以对待发布医药商品的描述信息进行分词,以此获得待发布信息对应的多个信息关键词,接着在识别出的信息关键词中获取命中预设审核词的待审核信息词。其中,预设审核词可以为违禁信息样本对应的审核词,即预设的违禁词,例如:“第一”以及“专利”等。将识别出的信息关键词依次与预设审核词进行匹配,然后将匹配到预设审核词的信息关键词确定为待审核信息词,并将剩余的信息关键词作为信息特征词,以便后续可以结合信息特征词与待审核信息词一起对待发布信息进行分析,进而通过分析结果确定待发布信息是否可以通过发布审核。相比较于单独运用待审核信息词(即违禁词)对待发布信息进行发布审核的方法,增加了信息特征词来分析待审核信息词是否处于合适的应用场景,提高了审核结果的精准度。
73.步骤102,基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及所述关联词对应的预设违规概率。
74.接着,基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及所述关联词对应的预设违规概率。前述关联词例如:当待审核信息词为“保肝”时,对应的关联词可以为“肝泰乐”、“医用药品”或“医疗保健用品”等。通过对关联词的获取,可以获取待审核信息词所处的应用场景,进而结合应用场景可以具体判断待审核信息词是否可以在此应用场景中使用。具体的,比如“保肝”这一词汇,对于医用药品可以使用,而医疗保健用品不可以使用。再比如,“专利”这个词语,如果信息描述中含有具体的专利号,那么可以使用,如果没有专利号,那么不可以使用。通过获取所述待审核信息词对应的至少一个关联词以及所述关联词对应的预设违规概率,以便通过关联词来判断所述待审核信息词可否在此应用场景中运用,及通过关联词对应的预设违规概率来判断所述待审核信息词能否通过审核的概率,用以确定待发布信息是否可以审核通过,提高了对待审核信息词审核的精准度。
75.步骤103,确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率。
76.步骤104,基于所述目标违规概率,确定所述待发布信息的发布审核结果。
77.接着,确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率,以基于所述目标违规概率,确定所述待发布信息的发布审核结果。
78.通过应用本实施例的技术方案,响应于待发布信息的发布审核指令,对待发布信
息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,预设审核词包括违禁信息样本对应的审核词,基于审核词信息库获取待审核信息词对应的至少一个关联词以及关联词对应的预设违规概率,确定信息特征词中命中关联词的目标特征词,并获取目标特征词对应的目标违规概率,基于目标违规概率,确定待发布信息的发布审核结果。增加了信息特征词与待审核信息词结合来对待发布信息进行审核,相比较于单独运用待审核信息词(即违禁词)对待发布信息进行发布审核的方法,可以通过信息特征词来分析待审核信息词是否处于合适的应用场景,以此提高了审核结果的精准度。
79.进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种信息审核方法,如图2所示,该方法包括:
80.步骤201,响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,所述预设审核词包括违禁信息样本对应的审核词。
81.在本技术上述实施例中,响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,以便后期可以结合信息特征词与待审核信息词一起综合判断待审核信息词是否违规,能够提高审核的准确性。其中,所述预设审核词包括违禁信息样本对应的审核词。
82.步骤202,基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及所述关联词对应的预设违规概率,确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率。
83.接着,基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及所述关联词对应的预设违规概率,确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率。关联词可以反映待审核信息词所处的应用场景,通过关联词可以判断所述待审核信息词可否在此应用场景中运用,以及通过关联词对应的预设违规概率可以判断待发布信息可否审核通过的概率,用以最终确定待发布信息是否可以审核通过,提高了对待审核信息词审核的精准性。
84.步骤203,将最大的目标违规概率确定为违规判决概率,若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为过审关联词,则确定所述待发布信息通过发布审核,其中,所述审核词信息库包括过审关联词及审拒关联词。
85.步骤204,若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为审拒关联词,则确定所述待发布信息不通过发布审核。
86.步骤205,若所述违规判决概率小于或等于预设阈值,则将所述待发布信息转入人工审核,并依据人工审核结果确定所述待发布信息是否通过发布审核。
87.接着,将最大的目标违规概率确定为违规判决概率,若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为过审关联词,则确定所述待发布信息通过发布审核。若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为审拒关联词,则确定所述待发布信息不通过发布审核。若所述违规判决概率小于或等于预设阈值,则将所述待发布信息转入人工审核,并依据人工审核结果确定所述待发布信息是否通过发
布审核。
88.具体的例如:待审核信息关键词为“保肝”,在审核词信息库中获得的关于“保肝”的关联词及关联词对应的预设违规概率如下:“医用药品,90%”,“肝泰乐,10%”及“医疗保健用品,80%”,其中,“医用药品”与“肝泰乐”为过审关联词,“医疗保健用品”为审拒关联词。电商审核系统可以根据实际情况预先设置一个阈值,即预设阈值,然后根据审核词信息库中的信息与预设阈值来判断待审核信息词是否通过和拒绝,以及是否需要人工审核。比如:如果待审核信息检查到“保肝”违禁词,待审核信息又命中“医用药品”,那么有90%的概率可以审核通过。预设阈值设置为50%,90%》50%,表示该待审核信息可以审核通过。如果阈值设置为100%,90%<100%,那么仍需转为人工审核。特别地,如果一个待审核信息关键词命中多个关联词,包括过审关联词及审拒关联词,那么取多个命中的关联词所对应的违规概率中最大的违规概率与预设阈值进行比较,以此获得审核结果。
89.在一种具体的实施例中,有些电商系统会建立违禁词词库,商家在发布医药商品时进行违禁词的检验,校验的规则是全部匹配,匹配成功医药商品发布不成功,但是有很多词语在大部分场景下不能使用,却在特定场景下可以允许使用,因此系统无法一刀切的拒绝或者通过。系统根据违禁词库进行预校验,把校验结果显示给发布医药商品的人员进行风险预警,目的是让发布人员自行判断修改。如果发布人员判断后仍要发布,则会触发平台人工审核。平台人员根据医药商品的上下文信息判断该违禁词在该场景下是否可以使用。审核通过后即可发布成功,审核失败发布失败,打回给商家自行修改。但是一方面电商的医药商品库是巨大的,可以达到上千万,修改医药商品量也是惊人,这种方案会耗费巨大人力在审核医药商品的工作上。另一方面如果没有人工审核,平台又会面临工商处罚的巨大风险,损失公司信誉和金钱。通过应用本方案实施例,结合信息特征词与待审核信息词一起综合判断待审核信息词是否违规,提高了系统对待审核信息词审核的精准度,减少了人工审核的工作量,节省了人力成本。
90.通过应用本实施例的技术方案,响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及所述关联词对应的预设违规概率,确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率,将最大的目标违规概率确定为违规判决概率,若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为过审关联词,则确定所述待发布信息通过发布审核,若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为审拒关联词,则确定所述待发布信息不通过发布审核。若所述违规判决概率小于或等于预设阈值,则将所述待发布信息转入人工审核,并依据人工审核结果确定所述待发布信息是否通过发布审核。通过结合信息特征词与待审核信息词一起综合判断待审核信息词是否违规,提高了系统对待审核信息词审核的精准度,减少了人工审核的工作量,节省了人力成本。
91.进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了又一种信息审核方法,如图3所示,该方法包括:
92.步骤301,响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,若识别出的信息关键词命中预设违禁词,则确定所述待发布信息不通过发布审核。
93.在本技术上述实施例中,响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,若识别出的信息关键词命中预设违禁词,例如“第一”或“最”等词语,则确定所述待发布信息不通过发布审核。
94.步骤302,若识别出的信息关键词未命中预设违禁词,则在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,所述预设审核词包括违禁信息样本对应的审核词。
95.步骤303,基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及所述关联词对应的预设违规概率。
96.步骤304,确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率。
97.步骤305,基于所述目标违规概率,确定所述待发布信息的发布审核结果。
98.接着,若识别出的信息关键词未命中预设违禁词,则在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及所述关联词对应的预设违规概率。确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率。基于所述目标违规概率,确定所述待发布信息的发布审核结果。通过预先过滤包含一定不能通过审核的违禁词的待发布信息,可以减少电商审核系统或其他信息审核系统的审核工作量,提高工作效率。
99.通过应用本实施例的技术方案,响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,若识别出的信息关键词命中预设违禁词,则确定所述待发布信息不通过发布审核。若识别出的信息关键词未命中预设违禁词,则在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及所述关联词对应的预设违规概率。确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率。基于所述目标违规概率,确定所述待发布信息的发布审核结果。通过预先过滤包含一定不能通过审核的违禁词的待发布信息,可以减少电商审核系统或其他信息审核系统的审核工作量,提高工作效率。
100.进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了一种审核词信息库建立方法,如图4所示,该方法包括:
101.步骤401,针对任一预设审核词,获取所述预设审核词对应的过审样本及审拒样本。
102.在本技术上述实施例中,针对任一预设审核词,获取所述预设审核词对应的过审样本及审拒样本。具体的,可以在获取一定数量的过审样本及审拒样本后,根据预设的违禁词进行分组,每个违禁词包含了审核通过和审核不通过的数据,即获取所述预设审核词对应的过审样本及审拒样本。预设审核词即预设的违禁词,过审样本或审拒样本中可以包含在电商系统或其他系统中待发布商品的审核信息,例如:医药商品名称、医药商品分类、医药商品功能描述、命中的违禁词以及审核结果等。其中,医药商品描述若是医药商品描述图片,则需要根据ocr(optical character recognition,光学字符识别)工具把图片转变为文字进行存储。具体的,过审样本例如:违禁词为“保肝”,医药商品名称为“肝泰乐”,医药商
品分类为“医用药品”,审核结果为通过。审拒样本例如:违禁词为“保肝”,医药商品名称为“养肝片”,医药商品分类为“医疗保健用品”,审核结果为拒绝。
103.步骤402,基于所述过审样本对应的过审描述信息,确定过审关联词及过审关联词违规概率,基于所述审拒样本对应的审拒描述信息,确定审拒关联词及审拒关联词违规概率。
104.接着,根据过审样本对应的过审描述信息,确定过审关联词及过审关联词违规概率,以及根据审拒样本对应的审拒描述信息,确定审拒关联词及审拒关联词违规概率。具体的针对步骤401获取到过审样本及审拒样本分别对应的两组数据,对医药商品名称、医药商品分类、医药商品功能描述等内容的文本进行分词然后进行词频分析,分析出该违禁词审核通过或审核不通过的关联高频词以及关联出现概率。其中,审核通过的关联高频词即过审关联词,其关联出现概率即审拒关联词违规概率,审核拒绝的关联高频词即审拒关联词,其关联出现概率即审拒关联词违规概率。
105.步骤403,基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息,并建立包含所述预设审核词以及所述发布审核信息的审核词信息库。
106.基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息,所述预设审核词对应的发布审核信息例如:预设审核词为保肝,过审关联词及过审关联词违规概率为“肝:100%”、“医用药品:90%”和“肝泰乐:50%”,审拒绝关联词及审拒关联词违规概率为“肝:100%”、“医疗保健用品:80%”和“养肝片:40%”。最终,建立包含所述预设审核词以及所述发布审核信息的审核词信息库。
107.通过应用本实施例的技术方案,针对任一预设审核词,获取所述预设审核词对应的过审样本及审拒样本。基于所述过审样本对应的过审描述信息,确定过审关联词及过审关联词违规概率,基于所述审拒样本对应的审拒描述信息,确定审拒关联词及审拒关联词违规概率。基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息,并建立包含所述预设审核词以及所述发布审核信息的审核词信息库。建立了用于对待发布信息进行审核的审核词信息库,在对待发布信息进行审核时,可以从中获取信息特征词及违规概率,用以判断待发布信息是否违规,进而确定待发布信息的审核结果。
108.进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种审核词信息库建立方法,如图5所示,该方法包括:
109.步骤501,针对任一预设审核词,获取所述预设审核词对应的过审样本及审拒样本。
110.在本技术上述实施例中,针对任一预设审核词,获取所述预设审核词对应的过审样本及审拒样本,以便可以根据过审样本及审核样本包含的信息建立审核词信息库。前述预设审核词可以为预设违禁词,例如:“保肝”,具体的,可以获取此前包含有“保肝”这一词汇的待发布信息的发布审核结果,其中,最终审核通过的待发布信息即过审样本,最终未审核通过的待发布信息即审拒样本。
111.步骤502,对所述过审样本对应的过审描述信息进行分词,获得过审关联词,基于
包含所述过审关联词的过审样本数量占过审样本总数量的百分比,确定过审关联词违规概率。
112.步骤503,对所述审拒样本对应的审拒描述信息进行分词,获得审拒关联词,基于包含所述审拒关联词的审拒样本数量占审拒样本总数量的百分比,确定审拒关联词违规概率。
113.接着,对所述过审样本对应的过审描述信息进行分词,获得过审关联词,基于包含所述过审关联词的过审样本数量占过审样本总数量的百分比,确定过审关联词违规概率。同样的,对所述审拒样本对应的审拒描述信息进行分词,获得审拒关联词,基于包含所述审拒关联词的审拒样本数量占审拒样本总数量的百分比,确定审拒关联词违规概率。具体的,可以计算包含过审关联词的样本数量与过审样本的总数量的占比,以此获得过审关联词出现的概率,即过审关联词违规概率。同样的,计算包含审拒关联词的样本数量与审拒样本的总数量的占比,以此获得审拒关联词出现的概率,即审拒关联词违规概率。
114.步骤504,选取所述过审关联词中与所述审拒关联词中相同的关联词,确定为目标关联词,计算所述目标关联词对应的过审关联词违规概率与审拒关联词违规概率的概率差值后,将非零的概率差值确定为目标概率差值。
115.然后,选取所述过审关联词中与所述审拒关联词中相同的关联词,确定为目标关联词,计算所述目标关联词对应的过审关联词违规概率与审拒关联词违规概率的概率差值后,将非零的概率差值确定为目标概率差值。例如:预设审核词为“保肝”,通过过审样本获取到的过审关联词及对应的过审关联词违规概率为:“肝:100%”、“医用药品:90%”和“肝泰乐:50%”,通过审拒样本获取到的审拒关联词及对应的审拒关联词违规概率为:“肝:100%”、“医疗保健用品:80%”和“肝泰乐:40%”。由前述信息可知,过审关联词中与审拒关联词中相同的关联词为“肝”和“肝泰乐”,以“肝”作为目标关联词时,对应的概率差值计算公式为100%-100%=0,以“肝泰乐”为目标关联词时,对应的概率差值计算公式为50%-40%=10%,其中,非零的概率差值为10%,即将10%确定为目标概率差值。
116.步骤505,当所述目标概率差值为正数时,将所述目标关联词作为最终的过审关联词以及将所述目标概率差值作为最终的过审关联词的过审关联词违规概率。
117.当所述目标概率差值为正数时,将所述目标关联词作为最终的过审关联词以及将所述目标概率差值作为最终的过审关联词的过审关联词违规概率。例如步骤504中,目标概率差值为10%,则最终的过审关联词为“肝泰乐”,对应的过审关联词违规概率为“10%”。
118.步骤506,当所述目标概率差值为负数时,将所述目标关联词作为最终的审拒关联词以及将所述目标概率差值的绝对值作为最终的审拒关联词的审拒关联词违规概率。
119.同样的,当所述目标概率差值为负数时,将所述目标关联词作为最终的审拒关联词以及将所述目标概率差值的绝对值作为最终的审拒关联词的审拒关联词违规概率。
120.步骤507,基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息,并建立包含所述预设审核词以及所述发布审核信息的审核词信息库。
121.基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息,并建立包含所述预设审核词以及所述发布审核信息的审核词信息库。特别地,对于步骤504中,“医用药品:90%”可以直接
作为过审关联词及过审关联词违规概率计入审核词信息库,“医疗保健用品:80%”可以直接作为审拒关联词及审拒关联词违规概率计入审核词信息库。
122.通过选取预设审核词对应的过审样本与审拒样本中共同的高频词,计算高频词在过审样本出现的概率与在审拒样本出现的概率,计为p=p
1-p2。若p大于0,则该词计入过审关联词,且概率更新为p;若p小于0,则该词计入审拒关联词,且概率更新为|p|;若p等于0,则删除该词。之后按照概率从大到小排列记录到审核词信息库,以通过审核词信息库中的信息对待发布信息进行审核,可以在审核待发布信息时提高审核的精准度。
123.通过应用本实施例的技术方案,针对任一预设审核词,获取所述预设审核词对应的过审样本及审拒样本。对所述过审样本对应的过审描述信息进行分词,获得过审关联词,基于包含所述过审关联词的过审样本数量占过审样本总数量的百分比,确定过审关联词违规概率。对所述审拒样本对应的审拒描述信息进行分词,获得审拒关联词,基于包含所述审拒关联词的审拒样本数量占审拒样本总数量的百分比,确定审拒关联词违规概率。选取所述过审关联词中与所述审拒关联词中相同的关联词,确定为目标关联词,计算所述目标关联词对应的过审关联词违规概率与审拒关联词违规概率的概率差值后,将非零的概率差值确定为目标概率差值。当所述目标概率差值为正数时,将所述目标关联词作为最终的过审关联词以及将所述目标概率差值作为最终的过审关联词的过审关联词违规概率。当所述目标概率差值为负数时,将所述目标关联词作为最终的审拒关联词以及将所述目标概率差值的绝对值作为最终的审拒关联词的审拒关联词违规概率。基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息,并建立包含所述预设审核词以及所述发布审核信息的审核词信息库。通过审核词信息库中的信息对待发布信息进行审核,可以在审核时提高审核的精准度。
124.进一步的,作为图1方法的具体实现,本技术实施例提供了一种信息审核装置,如图6所示,该装置包括:
125.审核词获取模块601,用于响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,所述预设审核词包括违禁信息样本对应的审核词;
126.关联词获取模块602,用于基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及每个所述关联词对应的预设违规概率;
127.违规概率获取模块603,用于确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率;
128.审核结果确定模块604,用于基于所述目标违规概率,确定所述待发布信息的发布审核结果。
129.可选地,所述审核词信息库包括过审关联词及审拒关联词,所述审核结果确定模块604,还用于:
130.将最大的目标违规概率确定为违规判决概率;
131.若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为过审关联词,则确定所述待发布信息通过发布审核;
132.若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为审拒关联词,则确定所述待发布信息不通过发布审核。
133.可选地,所述审核结果确定模块604,还用于:
134.若所述违规判决概率小于或等于预设阈值,则将所述待发布信息转入人工审核,并依据人工审核结果确定所述待发布信息是否通过发布审核。
135.可选地,所述审核结果确定模块604,还用于:
136.若识别出的信息关键词命中预设违禁词,则确定所述待发布信息不通过发布审核。
137.可选地,所述审核词获取模块601,还用于:
138.若识别出的信息关键词未命中预设违禁词,则执行所述在识别出的信息关键词中获取命中预设审核词的待审核信息词。
139.进一步的,本技术实施例提供了一种建立审核词信息库的装置,如图7所示,该装置包括:
140.样本获取模块701,用于针对任一预设审核词,获取所述预设审核词对应的过审样本及审拒样本;
141.关联词及违规概率确定模块702,用于基于所述过审样本对应的过审描述信息,确定过审关联词及过审关联词违规概率,基于所述审拒样本对应的审拒描述信息,确定审拒关联词及审拒关联词违规概率;
142.审核词信息库建立模块703,用于基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息,并建立包含所述预设审核词以及所述发布审核信息的审核词信息库。
143.可选地,所述关联词及违规概率确定模块702,还用于:
144.对所述过审样本对应的过审描述信息进行分词,获得过审关联词,基于包含所述过审关联词的过审样本数量占过审样本总数量的百分比,确定过审关联词违规概率;
145.对所述审拒样本对应的审拒描述信息进行分词,获得审拒关联词,基于包含所述审拒关联词的审拒样本数量占审拒样本总数量的百分比,确定审拒关联词违规概率。
146.可选地,所述关联词及违规概率确定模块702,还用于:
147.选取所述过审关联词中与所述审拒关联词中相同的关联词,确定为目标关联词,计算所述目标关联词对应的过审关联词违规概率与审拒关联词违规概率的概率差值后,将非零的概率差值确定为目标概率差值;
148.当所述目标概率差值为正数时,将所述目标关联词作为最终的过审关联词以及将所述目标概率差值作为最终的过审关联词的过审关联词违规概率;
149.当所述目标概率差值为负数时,将所述目标关联词作为最终的审拒关联词以及将所述目标概率差值的绝对值作为最终的审拒关联词的审拒关联词违规概率。
150.需要说明的是,本技术实施例提供的一种信息审核装置所涉及各功能单元的其他相应描述,可以参考图1至图4方法中的对应描述,在此不再赘述。
151.基于上述如图1至图3所示方法,相应的,本技术实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1至图3所示的信息审核方法。
152.基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令
用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施场景所述的方法。
153.基于上述如图1至图3所示的方法,以及图6所示的虚拟装置实施例,为了实现上述目的,本技术实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图3所示的信息审核方法。
154.可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(radio frequency,rf)电路,传感器、音频电路、wi-fi模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard)等,可选用户接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、wi-fi接口)等。
155.本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
156.存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
157.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本技术可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现,响应于待发布信息的发布审核指令,对待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,预设审核词包括违禁信息样本对应的审核词。基于审核词信息库获取待审核信息词对应的至少一个关联词以及关联词对应的预设违规概率,确定信息特征词中命中关联词的目标特征词,并获取目标特征词对应的目标违规概率,基于目标违规概率,确定待发布信息的发布审核结果。增加了信息特征词与待审核信息词结合来对待发布信息进行审核,相比较于单独运用待审核信息词(即违禁词)对待发布信息进行发布审核的方法,可以通过信息特征词来分析待审核信息词是否处于合适的应用场景,以此提高了审核结果的精准度。
158.本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本技术所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
159.上述本技术序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本技术的几个具体实施场景,但是,本技术并非局限于此,任何本领域的技术人员能思之的变化都应落入本技术的保护范围。

技术特征:
1.一种信息审核方法,其特征在于,所述方法包括:响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,所述预设审核词包括违禁信息样本对应的审核词;基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及所述关联词对应的预设违规概率;确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率;基于所述目标违规概率,确定所述待发布信息的发布审核结果。2.根据权利要求1所述的方法,其特征在于,所述审核词信息库包括过审关联词及审拒关联词;所述基于所述目标违规概率,确定所述待发布信息的发布审核结果,包括:将最大的目标违规概率确定为违规判决概率;若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为过审关联词,则确定所述待发布信息通过发布审核;若所述违规判决概率大于预设阈值,且所述违规判决概率对应的关联词为审拒关联词,则确定所述待发布信息不通过发布审核。3.根据权利要求2所述的方法,其特征在于,所述将最大的目标违规概率确定为违规判决概率之后,所述方法还包括:若所述违规判决概率小于或等于预设阈值,则将所述待发布信息转入人工审核,并依据人工审核结果确定所述待发布信息是否通过发布审核。4.根据权利要求1至3中任一所述的方法,其特征在于,所述响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别之后,所述方法还包括:若识别出的信息关键词命中预设违禁词,则确定所述待发布信息不通过发布审核;若识别出的信息关键词未命中预设违禁词,则执行所述在识别出的信息关键词中获取命中预设审核词的待审核信息词。5.根据权利要求4所述的方法,其特征在于,所述审核词信息库的建立方法包括:针对任一预设审核词,获取所述预设审核词对应的过审样本及审拒样本;基于所述过审样本对应的过审描述信息,确定过审关联词及过审关联词违规概率,基于所述审拒样本对应的审拒描述信息,确定审拒关联词及审拒关联词违规概率;基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息,并建立包含所述预设审核词以及所述发布审核信息的审核词信息库。6.根据权利要求5所述的方法,其特征在于,所述基于所述过审样本对应的过审描述信息,确定过审关联词及过审关联词违规概率,基于所述审拒样本对应的审拒描述信息,确定审拒关联词及审拒关联词违规概率,包括:对所述过审样本对应的过审描述信息进行分词,获得过审关联词,基于包含所述过审关联词的过审样本数量占过审样本总数量的百分比,确定过审关联词违规概率;对所述审拒样本对应的审拒描述信息进行分词,获得审拒关联词,基于包含所述审拒关联词的审拒样本数量占审拒样本总数量的百分比,确定审拒关联词违规概率。
7.根据权利要求6所述的方法,其特征在于,所述基于所述过审关联词、所述过审关联词违规概率、所述审拒关联词及所述审拒关联词违规概率,确定所述预设审核词对应的发布审核信息之前,所述方法还包括:选取所述过审关联词中与所述审拒关联词中相同的关联词,确定为目标关联词,计算所述目标关联词对应的过审关联词违规概率与审拒关联词违规概率的概率差值后,将非零的概率差值确定为目标概率差值;当所述目标概率差值为正数时,将所述目标关联词作为最终的过审关联词以及将所述目标概率差值作为最终的过审关联词的过审关联词违规概率;当所述目标概率差值为负数时,将所述目标关联词作为最终的审拒关联词以及将所述目标概率差值的绝对值作为最终的审拒关联词的审拒关联词违规概率。8.一种信息发布审核装置,其特征在于,所述装置包括:审核词获取模块,用于响应于待发布信息的发布审核指令,对所述待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,所述预设审核词包括违禁信息样本对应的审核词;关联词获取模块,用于基于审核词信息库获取所述待审核信息词对应的至少一个关联词以及每个所述关联词对应的预设违规概率;违规概率获取模块,用于确定所述信息特征词中命中所述关联词的目标特征词,并获取所述目标特征词对应的目标违规概率;审核结果确定模块,用于基于所述目标违规概率,确定所述待发布信息的发布审核结果。9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中所述信息审核方法。10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中所述信息审核方法。

技术总结
本申请涉及计算机和数字医疗技术领域,公开了一种信息审核方法及装置、存储介质、计算机设备,该方法包括:响应于待发布信息的发布审核指令,对待发布信息进行关键词识别,在识别出的信息关键词中获取命中预设审核词的待审核信息词,并将剩余的信息关键词作为信息特征词,其中,预设审核词包括违禁信息样本对应的审核词;基于审核词信息库获取待审核信息词对应的至少一个关联词以及关联词对应的预设违规概率;确定信息特征词中命中关联词的目标特征词,并获取目标特征词对应的目标违规概率;基于目标违规概率,确定待发布信息的发布审核结果,增加了信息特征词审核待发布信息是否存在违规的方法,提高了对待发布信息发布审核的精准度。核的精准度。核的精准度。


技术研发人员:刘鑫
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.05.10
技术公布日:2023/9/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐