一种企业搜索方法、装置、设备及存储介质与流程

未命名 09-17 阅读:82 评论:0


1.本发明涉及数据搜索领域,特别涉及一种企业搜索方法、装置、设备及存储介质。


背景技术:

2.企业搜索是指通过企业库数据和搜索关键词对企业进行搜索和排序。有别于一般的网页搜索,数据上企业数据更加结构化,包含企业多个维度的信息;方法上很多基于文本和网络图的方法不适用于企业搜索场景。
3.目前针对企业搜索场景的特定技术方案较少,由于企业数据存储方式和数据库的构建方式吻合,主流的方法都是基于数据检索的方案,如apache solr、elasticsearch等,这些开源搜索引擎提供了丰富的搜索和排序算法,可以对企业库数据进行全文搜索、分词、语义分析等操作。但是基于数据检索的方案在企业搜索排序的效果上存在一些局限性,例如:使用tf-idf(term frequency

inverse document frequency,一种用于信息检索与数据挖掘的常用加权技术)算法进行搜索和排序,这种算法只能基于词频和文档频率进行匹配,无法处理复杂的语义关系,如果需要更准确的搜索和排序结果,需要使用更高级的算法和技术,并且无法满足企业搜索业务上的一些特殊需求,可扩展性较差。因此,如何通过更加精确的企业搜索结果是本领域有待解决的问题。


技术实现要素:

4.有鉴于此,本发明的目的在于提供一种企业搜索方法、装置、设备及存储介质,可以通过对查询关键词的分析结果优化企业的召回和排序,并且根据业务需求对企业各维度数据进行权值设置,实现精准排序,获得更好的企业搜索效果。其具体方案如下:第一方面,本技术提供了一种企业搜索方法,包括:获取用户输入的企业查询词,对所述企业查询词进行预处理,并利用预设分词系统生成预处理后的所述企业查询词对应的关键词,以及确定所述关键词的关键词权重;根据所述关键词确定预设搜索引擎中对应的匹配字段,并确定所述匹配字段的匹配权重,基于所述匹配字段和所述匹配权重生成对应的搜索语句;利用所述预设搜索引擎根据所述搜索语句对应的查询语法进行查询,并确定语法查询结果对应的企业的召回分数,并基于所述召回分数利用预设精准排序规则对所述企业进行排序,以基于排序结果确定满足预设分数条件的目标企业,并根据所述目标企业生成所述企业查询词对应的企业搜索结果。
5.可选的,所述根据所述关键词确定预设搜索引擎中对应的匹配字段,包括:根据所述关键词确定所述企业查询词对应的企业搜索业务需求,根据所述企业搜索业务需求确定对应的匹配方式,基于所述匹配方式确定所述预设搜索引擎中所述企业搜索业务需求对应的匹配字段。
6.可选的,所述确定所述关键词的关键词权重之后,还包括:确定所述关键词的关键词属性,并根据所述关键词属性和所述关键词权重确定所
述关键词对应的关键词级别,以及确定所述关键词级别对应的级别权重。
7.可选的,所述确定语法查询结果对应的企业的召回分数,包括:根据预设匹配度计算规则确定所述搜索语句和所述预设搜索引擎中的企业信息的匹配度得分;根据所述匹配度得分、所述级别权重和所述匹配权重确定语法查询结果对应的企业的召回分数。
8.可选的,所述确定所述匹配字段的匹配权重之后,还包括:确定所述匹配字段的数据分布情况和搜索日志数据,并根据预设权重分配规则为预设非匹配字段分配对应的目标权重,以根据所述数据分布情况、所述搜索日志数据和所述目标权重对所述匹配权重进行调整,以便基于所述匹配字段和调整后的所述匹配权重生成对应的搜索语句。
9.可选的,所述确定所述关键词的关键词权重,包括:若所述关键词中包括企业名称,通过预设企业名称匹配算法确定所述企业名称对应的第一权重;根据预设通用后缀词词典和预设损失系数对所述企业名称进行处理,确定所述企业名称对应的第二权重;根据所述第一权重和所述第二权重确定所述企业名称的关键词权重。
10.可选的,所述企业搜索方法还包括:若所述关键词中包括地址词,则判断所述地址词是否在预先构建的地址树的地址链路上,若是,则确定所述地址词对应的字段对应的字段得分;相应的,所述确定语法查询结果对应的企业的召回分数,还包括:基于所述字段得分确定语法查询结果对应的企业的召回分数。
11.第二方面,本技术提供了一种企业搜索装置,包括:关键词确定模块,用于获取用户输入的企业查询词,对所述企业查询词进行预处理,并利用预设分词系统生成预处理后的所述企业查询词对应的关键词,以及确定所述关键词的关键词权重;搜索语句生成模块,用于根据所述关键词确定预设搜索引擎中对应的匹配字段,并确定所述匹配字段的匹配权重,基于所述匹配字段和所述匹配权重生成对应的搜索语句;搜索结果生成模块,用于利用所述预设搜索引擎根据所述搜索语句对应的查询语法进行查询,并确定语法查询结果对应的企业的召回分数,并基于所述召回分数利用预设精准排序规则对所述企业进行排序,以基于排序结果确定满足预设分数条件的目标企业,并根据所述目标企业生成所述企业查询词对应的企业搜索结果。
12.第三方面,本技术提供了一种电子设备,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述的企业搜索方法。
13.第四方面,本技术提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的企业搜索方法。
14.本技术获取用户输入的企业查询词,对所述企业查询词进行预处理,并利用预设
分词系统生成预处理后的所述企业查询词对应的关键词,以及确定所述关键词的关键词权重;根据所述关键词确定预设搜索引擎中对应的匹配字段,并确定所述匹配字段的匹配权重,基于所述匹配字段和所述匹配权重生成对应的搜索语句;利用所述预设搜索引擎根据所述搜索语句对应的查询语法进行查询,并确定语法查询结果对应的企业的召回分数,并基于所述召回分数利用预设精准排序规则对所述企业进行排序,以基于排序结果确定满足预设分数条件的目标企业,并根据所述目标企业生成所述企业查询词对应的企业搜索结果。这样一来,可以根据查询关键词对查询进行解析并从数据库中召回相关结果,对结果进行精准排序,通过对查询关键词的分析结果优化企业的召回和排序,并且根据业务需求对企业各维度数据进行权值设置,实现精准排序,获得扩展性更好的企业搜索效果。
附图说明
15.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
16.图1为本技术提供的一种企业搜索方法流程图;图2为本技术提供的一种企业搜索框架流程图;图3为本技术提供的一种具体的企业搜索结果精准排序流程图;图4为本技术提供的一种企业搜索装置结构示意图;图5为本技术提供的一种电子设备结构图。
具体实施方式
17.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
18.目前企业搜索主要基于数据检索,但是基于数据检索的方案只能基于词频和文档频率进行匹配,无法处理复杂的语义关系,并且无法满足企业搜索业务上的一些特殊需求,可扩展性较差。本技术可以,通过对查询关键词的分析结果优化企业的召回和排序,并且根据业务需求对企业各维度数据进行权值设置,实现精准排序,获得扩展性更好的企业搜索效果。
19.参见图1所示,本发明实施例公开了一种企业搜索方法,包括:步骤s11、获取用户输入的企业查询词,对所述企业查询词进行预处理,并利用预设分词系统生成预处理后的所述企业查询词对应的关键词,以及确定所述关键词的关键词权重。
20.本实施例中,首先获取用户输入的企业查询词后,对企业查询词进行预处理,包括但不限于去除停用词、词干提取等操作,然后利用预设分词系统生成预处理后的企业查询词对应的关键词,以及确定关键词的关键词权重。需要指出的是,上述预设分词系统可以使用现成的分词系统和对应的词权重分,也可以提供语料库进行重新训练生成,本实施例中
中文分词器的构造可以参考现成的各类文档,并且为满足企业搜索场景需求,利用企业库信息和舆情各类文档重新训练了特定中文分词器,分词器的设计和构造在此不再赘述。通过上述分词系统可以对用户输入的查询词进行分词和每个词语的重要性打分得到对应的权重,并且在处理查询词之前,需要进行一些预处理。最终可以通过将用户输入的查询词分为{关键词:权重}的格式,以便后续使用。
21.需要指出的是,确定关键词的关键词权重之后,还可以确定关键词的关键词属性,并根据关键词属性和关键词权重确定关键词对应的关键词级别,以及确定关键词级别对应的级别权重。这样一来,可以将预处理后的关键词分档,将权重值较高的关键词分配到较高的级别,以便在计算召回分数时进行加权计算。分档时可以根据关键词的重要性、频率、长短等因素进行判断,并且可以设置最高级别的关键词必须被企业信息命中,这样有利于提高后续召回分数计算的效率。
22.步骤s12、根据所述关键词确定预设搜索引擎中对应的匹配字段,并确定所述匹配字段的匹配权重,基于所述匹配字段和所述匹配权重生成对应的搜索语句。
23.本实施例中,可以根据关键词确定预设搜索引擎中对应的匹配字段,并确定匹配字段的匹配权重,在根据关键词确定预设搜索引擎中对应的匹配字段时,可以根据关键词确定企业查询词对应的企业搜索业务需求,根据企业搜索业务需求确定对应的匹配方式,基于匹配方式确定预设搜索引擎中企业搜索业务需求对应的匹配字段。在通过用户的查询词确定对应的企业搜索业务需求后,需要确定哪些字段是参与召回匹配的。例如,在搜索企业名称时,可能需要同时匹配企业行业、地区、品牌等字段,另外,需要选择适当的匹配方式,包括但不限于全文匹配、模糊匹配、精确匹配等,并为每个匹配字段分配匹配权重,以便在计算召回分数时进行加权计算。然后基于匹配字段和匹配权重生成对应的搜索语句,可以理解的是,上述搜索语句需要指定用户要搜索的索引和类型,以及参与搜索的字段、匹配方式和匹配权重等信息。
24.需要指出的是,关于上述预设搜索引擎的选择,由于企业信息包含很多维度,一般来说有企业名称、曾用名、注册资本、注册地址、法人、高管、官网、产品、经营范围等等,对于上市公司还有股票简称、股票代码等,而在各种业务下企业还会拥有众多被加工出的企业标签。这种结构化的数据有些字段可能和搜索词关联,如公司名称,有些则是公司属性、如注册资本。另一方面,企业搜索场景中企业数量上千万,需要考虑数据在进行文本检索的效果和效率。因此,本实施例采用elasticsearch搜索引擎,elasticsearch具有存储和检索数据的功能,但它不同于传统的关系型数据库。相比传统的数据库,elasticsearch更专注于全文搜索、日志分析、数据分析等应用场景,并提供了更加灵活的查询方式和更高效的性能。elasticsearch可以提供多种查询方式,包括但不限于全文搜索、模糊搜索、精确匹配等,同时还支持聚合、过滤、排序等操作,可以灵活地满足各种查询需求,并且采用倒排索引技术,可以快速查询大量数据,并且支持分布式部署,可以轻松地扩展处理能力。具体的,本实施例中,根据业务场景,由于众多可以与关键词进行匹配的字段中根据字段本身和是否需要完全匹配确定字段类型。如需要完全匹配的法人、简称缩写等,使用keyword类型存储,而不用完全匹配的如公司名称、地址等不用使用keyword类型,并且在企业搜索中,搜索核心词往往是专有名词,与企业名称、品牌等维度关联,elasticsearch自带的分词处理器的处理结果往往达不到企业搜索场景下的业务需求,因此在上述预设分词系统的分词处理器
上要选择与企业搜索适应的分词器,同时elasticsearch中构建索引使用的分词器要与对搜索词处理的分词器统一。
25.步骤s13、利用所述预设搜索引擎根据所述搜索语句对应的查询语法进行查询,并确定语法查询结果对应的企业的召回分数,并基于所述召回分数利用预设精准排序规则对所述企业进行排序,以基于排序结果确定满足预设分数条件的目标企业,并根据所述目标企业生成所述企业查询词对应的企业搜索结果。
26.本实施例中,利用elasticsearch搜索引擎可以根据搜索语句确定对应的查询语法进行查询,具体可以使用elasticsearch提供的查询语法来实现高级查询功能,如模糊查询、范围查询、布尔查询等。然后确定语法查询结果对应的企业的召回分数,首先根据预设匹配度计算规则确定搜索语句和预设搜索引擎中的企业信息的匹配度得分,然后根据匹配度得分、级别权重和匹配权重确定语法查询结果对应的企业的召回分数。根据搜索语句可以获得每个企业的召回分数,召回分数的计算通常包括匹配度计算和加权计算,具体的,上述匹配度计算是上述根据搜索语句和企业信息中的匹配情况计算出的匹配度得分,加权计算是根据关键词的级别和匹配权重进行加权计算,得出最终的召回分数,分数计算公式为召回分数=匹配度得分*关键词级别权重*匹配权重。最后,可以对召回结果进行排序,通常按照不同企业的召回分数从高到低排序,并且召回分数大于设置阈值的企业会被召回,而排名前n个的企业会进入下一模块。可以理解的是,上述召回分数阈值可以根据实际情况进行设置,该阈值越高,确定出的企业与用户的查询词的相关性越高。
27.通过上述技术方案,本实施例如图2所示,获取用户输入的企业查询词,对企业查询词进行预处理,利用预设分词系统生成预处理后的企业查询词对应的关键词,以及确定关键词的关键词权重并进行分档;根据关键词确定预设搜索引擎中对应的匹配字段,并确定匹配字段的匹配权重,基于匹配字段和匹配权重生成对应的elasticsearch搜索语句;利用预设搜索引擎根据搜索语句对应的查询语法进行查询,并确定语法查询结果对应的企业的召回分数,并基于召回分数利用预设精准排序规则对企业进行排序,以基于排序结果确定满足预设分数条件的目标企业,并根据目标企业生成企业查询词对应的企业搜索结果。可以根据查询关键词对查询进行解析,通过对查询关键词的解析结果优化企业的召回和排序,并且根据业务需求对企业各维度数据进行权值设置,实现针对分词的扩展性更好的企业搜索效果。
28.基于上一实施例可知,本技术可以通过对查询关键词的权值设置进行分析,根据分析结果优化企业的召回和排序,接下来,本实施例中将对召回结果精确排序的过程进行详细地阐述。参见图3所示,本技术实施例公开了一种具体的企业搜索结果精准排序方法,包括:步骤s21、获取用户输入的企业查询词,对所述企业查询词进行预处理,并利用预设分词系统生成预处理后的所述企业查询词对应的关键词,以及确定所述关键词的关键词权重。
29.本实施例中,在确定关键词的关键词权重时,若关键词中包括企业名称,首先可以通过预设企业名称匹配算法确定企业名称对应的第一权重,然后根据预设通用后缀词词典和预设损失系数对企业名称进行处理,确定企业名称对应的第二权重,根据第一权重和第二权重确定企业名称的关键词权重。
30.需要指出的是,在企业搜索场景中,多数情况下为对企业名称的关键词搜索,为了基于elasticsearch的匹配方式进一步满足对用户查询和企业名称的关联度计算。可以通过企业名称匹配算法为企业名称计算更合适的分数,同时为了更好地提炼关键词,根据业务场景设计通用后缀词词典,收录如“有限公司”、“责任”等在企业搜索场景下匹配价值不高的词语,对名词字段进行处理,由于经过此处理后计算的匹配值长度减少,会在分数计算时失去平衡,因此可以乘以一定的损失系数,这样一来,可以在关键词为企业名称时实现更加精确的关键词得分,有利于后续进行召回分数的精确计算。
31.上述预设企业名称匹配算法具体如下:一、名称值匹配算法:输入参数:-v:待匹配的公司名称字符串;-totalwe:关键词权重的总和;输出结果:-hit:匹配度分值,包括关键词权重、紧密度、长度占比等因素;-samewe:匹配到的关键词权重的总和;-equalflag:是否完全匹配的标志位,如果匹配成功则为true,否则为false。
32.具体实现:1、将输入的公司名称字符串v转为小写并将中文括号替换为英文括号,确保所有括号都为英文。
33.2、用分词器将公司名称拆分为多个单词,并进行反向匹配和正向匹配。
34.3、根据匹配到的关键词权重计算命中权重hit,同时计算匹配到的关键词权重的总和samewe和匹配部分的长度samelen。
35.4、如果名称字符串包含所有搜索关键词,则将包含标志containflag置为true,否则置为false。
36.5、根据命中权重、关键词权重总和占比、匹配部分长度占比等因素计算匹配度分值。
37.6、如果包含标志containflag置为true,则额外加分;如果完全匹配,即查询词和名称值长度一致,则再次额外加分并将完全匹配标志equalflag置为true;如果顺序也一致,即查询词和名称值完全一样,加上一致分数。
38.7、最终输出匹配度分值hit、匹配到的关键词权重的总和samewe以及完全匹配标志位equalflag。
39.该算法用于计算公司名称与查询条件之间的匹配度分值,并且考虑关键词权重匹配、紧密度匹配、完全包含、完全匹配等因素,有利于提高匹配度分值的精确度。
40.二、企业名称字段处理算法:输入参数:weight:属性权重。
41.输出结果:maxhit:最后最大匹配得分;equalflag:是否完全匹配;
maxwe:最大匹配名称权重。
42.具体实现流程如下:1、从self.info字典中获取对应属性名的属性值value,如果没有则value为空。
43.2、如果value是字符串类型,则将其按逗号分隔为列表。
44.3、对每个value值使用名称值匹配算法进行匹配,得到匹配得分hit,匹配的名称权重samewe,以及是否完全匹配equalflag。
45.4、根据属性名不同,对名称很短的个体户或港股公司,公司简称等进行特殊处理,分别乘以不同的系数。
46.5、将所有value值的最大匹配得分maxhit和最大匹配的名称权重maxwe记录下来。
47.6、使用通用后缀词典对value进行处理,并对后缀去除后的value值再次进行匹配,得到匹配得分hit和匹配的名称权重samewe。
48.7、对后缀去除的匹配得分乘以损失系数,再记录下来后缀去除的最大匹配得分maxhit和最大匹配的名称权重maxwe,与去除前的最大匹配得分对比,得到最终结果。
49.8、将maxhit乘以属性权重weight,maxwe乘以0.8(如果maxwe小于1)。
50.9、最后输出最大匹配得分maxhit、是否完全匹配equalflag、最大匹配名称权重maxwe。
51.步骤s22、根据所述关键词确定预设搜索引擎中对应的匹配字段,并确定所述匹配字段的匹配权重,然后确定所述匹配字段的数据分布情况和搜索日志数据,并根据预设权重分配规则为预设非匹配字段分配对应的目标权重,以根据所述数据分布情况、所述搜索日志数据和所述目标权重对所述匹配权重进行调整,以便基于所述匹配字段和调整后的所述匹配权重生成对应的搜索语句。
52.本实施例中,根据关键词确定预设搜索引擎中对应的匹配字段,并确定匹配字段的匹配权重后,可以确定匹配字段的数据分布情况和搜索日志数据,并根据预设权重分配规则为预设非匹配字段分配对应的目标权重,以根据数据分布情况、搜索日志数据和目标权重对匹配权重进行调整。这样一来,可以进行匹配字段权重的微调,修补数据检索阶段导致的偏差。例如,可以根据企业信息中不同字段的数据分布情况和搜索日志数据,对不同字段的匹配权重进行调整,以达到更加准确的排序结果。
53.需要指出的是,除了匹配字段外,还可以考虑对企业的属性等非匹配的字段进行设计加分,以便在排序时考虑更多因素。例如,可以为注册资本、是否上市、企业性质、是否是世界500强等字段分配权重,并将其加入召回分数的计算中,这样可以使得高质量的企业得到更高的排序加分,从而提高搜索结果的准确性和可信度。
54.步骤s23、利用所述预设搜索引擎根据所述搜索语句对应的查询语法进行查询,并确定语法查询结果对应的企业的召回分数,并基于所述召回分数利用预设精准排序规则对所述企业进行排序,以基于排序结果确定满足预设分数条件的目标企业,并根据所述目标企业生成所述企业查询词对应的企业搜索结果。
55.本实施例中,若关键词中包括地址词,则判断地址词是否在预先构建的地址树的地址链路上,以确定地址词对应的字段对应的字段得分,并且可以基于字段得分确定语法查询结果对应的召回分数。
56.需要指出的是,在用户输入的查询词中,可能为包含地名的搜索。用户输入地名除
了直接进行方便进行企业名称匹配外,也有对企业的区域限制的意图以及对地址搜索的意图。当用户是第二种意图时,直接将查询词中地名部分和名称匹配就不能满足业务需求,如用户想要搜索“杭州xx网络有限公司”,但是输入了“浙江xx网络有限公司”,为了在此场景下企业搜索返回正确结果,本实施例可以构建地址树,具体根据行政划分获取各省、市、县/区级的名称确定子节点以及父节点,在进行地址树的检索和判断时使用数组加字典的存储方式实现。在获取企业的地址字段信息时,可以对地址进行格式化处理,得到相应的省、市、县/区名称,由于地址字段信息存在不完整的情况,可以通过地址树补充父节点,即上级地区的信息。最后,确定查询词中的地址词,并判断是否在企业地址的地址链路上,如果在,则对地址字段给出命中分数。这样一来,可以在用户输入的企业查询词不够精确时,依旧为用户提供相应的查询结果,改善用户体验。可以理解的是,由于地址树中节点规模不大,使用循环遍历的方式抽取地址词,并且对于用户直接搜索地址的情况,按照上一实施例的处理方式处理即可,使用文本匹配并乘以相对应的权重。可以理解的是,根据上述步骤中的企业名称匹配算法以及关键词处理进行召回分数的排序时间复杂度较高,为了满足性能需求,本实施例中可以对前100条召回结果进行精准排序。
57.本实施例中,获取用户输入的企业查询词,对企业查询词进行预处理,并利用预设分词系统生成预处理后的所述企业查询词对应的关键词,以及确定所述关键词的关键词权重,若关键词中包括企业名称,通过预设企业名称匹配算法确定企业名称对应的第一权重,然后根据预设通用后缀词词典和预设损失系数对企业名称进行处理,确定企业名称对应的第二权重,根据第一权重和第二权重确定企业名称的关键词权重;若关键词中包括地址词,则判断地址词是否在预先构建的地址树的地址链路上,以确定地址词对应的字段对应的字段得分。并且根据关键词确定预设搜索引擎中对应的匹配字段,并确定匹配字段的匹配权重后,确定匹配字段的数据分布情况和搜索日志数据,并根据预设权重分配规则为预设非匹配字段分配对应的目标权重,以根据数据分布情况、搜索日志数据和目标权重对匹配权重进行调整。最后利用确定对应的召回分数,并基于所述召回分数利用预设精准排序规则对所述企业进行排序,以基于排序结果确定满足预设分数条件的目标企业,并根据所述目标企业生成所述企业查询词对应的企业搜索结果。这样一来,通过在关键词包括企业名称和地址词时,进行相应的得分计算,并且为非匹配字段分配权重,实现精准排序,利用查询词分析得到的分词和权重,增加更完善的业务处理逻辑。
58.参见图4所示,本技术实施例还公开了一种企业搜索装置,包括:关键词确定模块11,用于获取用户输入的企业查询词,对所述企业查询词进行预处理,并利用预设分词系统生成预处理后的所述企业查询词对应的关键词,以及确定所述关键词的关键词权重;搜索语句生成模块12,用于根据所述关键词确定预设搜索引擎中对应的匹配字段,并确定所述匹配字段的匹配权重,基于所述匹配字段和所述匹配权重生成对应的搜索语句;搜索结果生成模块13,用于利用所述预设搜索引擎根据所述搜索语句对应的查询语法进行查询,并确定语法查询结果对应的企业的召回分数,并基于所述召回分数利用预设精准排序规则对所述企业进行排序,以基于排序结果确定满足预设分数条件的目标企业,并根据所述目标企业生成所述企业查询词对应的企业搜索结果。
59.本实施例中,可以获取用户输入的企业查询词,对企业查询词进行预处理,并利用预设分词系统生成预处理后的企业查询词对应的关键词,以及确定关键词的关键词权重;根据关键词确定预设搜索引擎中对应的匹配字段,并确定匹配字段的匹配权重,基于匹配字段和匹配权重生成对应的搜索语句;利用预设搜索引擎根据搜索语句对应的查询语法进行查询,并确定语法查询结果对应的企业的召回分数,并基于召回分数利用预设精准排序规则对企业进行排序,以基于排序结果确定满足预设分数条件的目标企业,并根据目标企业生成企业查询词对应的企业搜索结果。这样一来,可以根据查询关键词对查询进行解析并从数据库中召回相关结果,对结果进行精准排序,通过对查询关键词的分析结果优化企业的召回和排序,并且根据业务需求对企业各维度数据进行权值设置,实现精准排序,获得扩展性更好的企业搜索效果。
60.在一些具体实施例中,所述搜索语句生成模块12,具体包括:匹配字段确定单元,用于根据所述关键词确定所述企业查询词对应的企业搜索业务需求,根据所述企业搜索业务需求确定对应的匹配方式,基于所述匹配方式确定所述预设搜索引擎中所述企业搜索业务需求对应的匹配字段。
61.在一些具体实施例中,所述关键词确定模块11,还包括:级别权重确定单元,用于确定所述关键词的关键词属性,并根据所述关键词属性和所述关键词权重确定所述关键词对应的关键词级别,以及确定所述关键词级别对应的级别权重。
62.在一些具体实施例中,所述搜索结果生成模块13,具体包括:匹配度得分确定单元,用于根据预设匹配度计算规则确定所述搜索语句和所述预设搜索引擎中的企业信息的匹配度得分;第一召回分数确定单元,用于根据所述匹配度得分、所述级别权重和所述匹配权重确定语法查询结果对应的企业的召回分数。
63.在一些具体实施例中,所述搜索语句生成模块12,还包括:匹配权重调整单元,用于确定所述匹配字段的数据分布情况和搜索日志数据,并根据预设权重分配规则为预设非匹配字段分配对应的目标权重,以根据所述数据分布情况、所述搜索日志数据和所述目标权重对所述匹配权重进行调整,以便基于所述匹配字段和调整后的所述匹配权重生成对应的搜索语句。
64.在一些具体实施例中,所述关键词确定模块11,具体包括:第一权重确定单元,用于若所述关键词中包括企业名称,通过预设企业名称匹配算法确定所述企业名称对应的第一权重;第二权重确定单元,用于根据预设通用后缀词词典和预设损失系数对所述企业名称进行处理,确定所述企业名称对应的第二权重;关键词权重确定单元,用于根据所述第一权重和所述第二权重确定所述企业名称的关键词权重。
65.在一些具体实施例中,所述搜索结果生成模块13,还包括:字段得分确定单元,用于若所述关键词中包括地址词,则判断所述地址词是否在预先构建的地址树的地址链路上,若是,则确定所述地址词对应的字段对应的字段得分;第二召回分数确定单元,用于基于所述字段得分确定语法查询结果对应的企业的
召回分数。
66.进一步的,本技术实施例还公开了一种电子设备,图5是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
67.图5为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的企业搜索方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
68.本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
69.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
70.其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的企业搜索方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
71.进一步的,本技术还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的企业搜索方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
72.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
73.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
74.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
75.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作
之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
76.以上对本技术所提供的技术方案进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。

技术特征:
1.一种企业搜索方法,其特征在于,包括:获取用户输入的企业查询词,对所述企业查询词进行预处理,并利用预设分词系统生成预处理后的所述企业查询词对应的关键词,以及确定所述关键词的关键词权重;根据所述关键词确定预设搜索引擎中对应的匹配字段,并确定所述匹配字段的匹配权重,基于所述匹配字段和所述匹配权重生成对应的搜索语句;利用所述预设搜索引擎根据所述搜索语句对应的查询语法进行查询,并确定语法查询结果对应的企业的召回分数,并基于所述召回分数利用预设精准排序规则对所述企业进行排序,以基于排序结果确定满足预设分数条件的目标企业,并根据所述目标企业生成所述企业查询词对应的企业搜索结果。2.根据权利要求1所述的企业搜索方法,其特征在于,所述根据所述关键词确定预设搜索引擎中对应的匹配字段,包括:根据所述关键词确定所述企业查询词对应的企业搜索业务需求,根据所述企业搜索业务需求确定对应的匹配方式,基于所述匹配方式确定所述预设搜索引擎中所述企业搜索业务需求对应的匹配字段。3.根据权利要求1所述的企业搜索方法,其特征在于,所述确定所述关键词的关键词权重之后,还包括:确定所述关键词的关键词属性,并根据所述关键词属性和所述关键词权重确定所述关键词对应的关键词级别,以及确定所述关键词级别对应的级别权重。4.根据权利要求3所述的企业搜索方法,其特征在于,所述确定语法查询结果对应的企业的召回分数,包括:根据预设匹配度计算规则确定所述搜索语句和所述预设搜索引擎中的企业信息的匹配度得分;根据所述匹配度得分、所述级别权重和所述匹配权重确定语法查询结果对应的企业的召回分数。5.根据权利要求1所述的企业搜索方法,其特征在于,所述确定所述匹配字段的匹配权重之后,还包括:确定所述匹配字段的数据分布情况和搜索日志数据,并根据预设权重分配规则为预设非匹配字段分配对应的目标权重,以根据所述数据分布情况、所述搜索日志数据和所述目标权重对所述匹配权重进行调整,以便基于所述匹配字段和调整后的所述匹配权重生成对应的搜索语句。6.根据权利要求1至5任一项所述的企业搜索方法,其特征在于,所述确定所述关键词的关键词权重,包括:若所述关键词中包括企业名称,通过预设企业名称匹配算法确定所述企业名称对应的第一权重;根据预设通用后缀词词典和预设损失系数对所述企业名称进行处理,确定所述企业名称对应的第二权重;根据所述第一权重和所述第二权重确定所述企业名称的关键词权重。7.根据权利要求4所述的企业搜索方法,其特征在于,还包括:若所述关键词中包括地址词,则判断所述地址词是否在预先构建的地址树的地址链路
上,若是,则确定所述地址词对应的字段对应的字段得分;相应的,所述确定语法查询结果对应的企业的召回分数,还包括:基于所述字段得分确定语法查询结果对应的企业的召回分数。8.一种企业搜索装置,其特征在于,包括:关键词确定模块,用于获取用户输入的企业查询词,对所述企业查询词进行预处理,并利用预设分词系统生成预处理后的所述企业查询词对应的关键词,以及确定所述关键词的关键词权重;搜索语句生成模块,用于根据所述关键词确定预设搜索引擎中对应的匹配字段,并确定所述匹配字段的匹配权重,基于所述匹配字段和所述匹配权重生成对应的搜索语句;搜索结果生成模块,用于利用所述预设搜索引擎根据所述搜索语句对应的查询语法进行查询,并确定语法查询结果对应的企业的召回分数,并基于所述召回分数利用预设精准排序规则对所述企业进行排序,以基于排序结果确定满足预设分数条件的目标企业,并根据所述目标企业生成所述企业查询词对应的企业搜索结果。9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的企业搜索方法。10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的企业搜索方法。

技术总结
本申请公开了一种企业搜索方法、装置、设备及存储介质,涉及数据搜索领域,包括:获取企业查询词进行预处理,并利用预设分词系统生成对应的关键词,以及确定关键词的关键词权重;根据关键词确定对应的匹配字段,并确定匹配字段的匹配权重,基于匹配字段和匹配权重生成搜索语句;根据搜索语句对应的查询语法进行查询,并确定语法查询结果对应的企业的召回分数,并基于召回分数利用预设精准排序规则对企业进行排序,以确定满足预设分数条件的目标企业,并生成对应的企业搜索结果。可以通过对查询关键词的分析结果优化企业的召回和排序,并且根据业务需求对企业各维度数据进行权值设置,实现精准排序,获得更好的企业搜索效果。获得更好的企业搜索效果。获得更好的企业搜索效果。


技术研发人员:石南 周平 马超 朱雷明
受保护的技术使用者:浙江同信企业征信服务有限公司
技术研发日:2023.08.15
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐