一种海量数据文本信息提取方法及系统与流程

未命名 07-23 阅读:87 评论:0


1.本技术涉及基于特定计算机模型的文本处理技术领域,尤其涉及一种海量数据文本信息提取方法及系统。


背景技术:

2.随着信息技术的发展,信息规模、信息体量都不断扩大,对全部地理范围内进行的信息处理面临着较大的压力。地域性的信息处理成为了新的发展方向之一。
3.若按照全部地理范围内的信息处理逻辑进行地域性信息处理,那么将会丧失地域性的特点,也会影响用户体验。例如,雪地靴较适于在寒冷的北方地区穿着,但在南方确不适宜。若濒临冬季,雪地靴销量暴增,现有技术多会将雪地靴作为热销商品进行大范围推广,使得南方地区的用户也会收到雪地靴的推荐信息。这样一方面会导致信息处理资源的浪费,另一方面也会降低用户体验。
4.可见,在信息推荐场景中,如何实现行之有用的信息处理,成为亟待解决的问题。


技术实现要素:

5.本技术实施例提供了一种海量数据文本信息提取方法及系统,以至少部分的解决上述技术问题。
6.本技术实施例采用下述技术方案:第一方面,本技术实施例提供一种海量数据文本信息提取方法,所述方法应用于海量数据文本信息提取系统的服务器,所述方法包括:获取待处理文本;其中,所述待处理文本是基于指定地理范围内历史上用户的信息获取请求得到的;采用预设的文本筛选模型,对所述待处理文本进行筛选,以将所述待处理文本中语义清晰度大于预设的清晰度阈值的第一指定数量个,确定为第一文本;将所述待处理文本中除所述第一文本以外的,确定为第二文本;其中,所述文本筛选模型用于确定所述语义清晰度;对所述第一文本进行目标字段提取,得到第一字段;针对每个所述第一字段,在所述第二文本中查找包含与之相似度大于预设的第一匹配度阈值的字段的第二文本,作为所述第一字段对应的可用文本;若所述可用文本在所述第二文本中占比大于预设的比例阈值,则将其对应的所述第一字段,确定为第一目标字段;将包含的所述第一目标字段大于预设的第二指定数量的所述第一文本,确定为目标文本;基于所述目标文本,进行信息提取。
7.在本说明书一个可选的实施例中,获取待处理文本,包括:将历史上的所述信息获取请求,作为所述待处理文本;和/或,
对历史上基于所述信息获取请求返回给所述用户的信息进行处理,得到所述待处理文本。
8.在本说明书一个可选的实施例中,所述文本筛选模型包含信息推荐过程中用于对至少部分主体进行表征的参照字段,采用所述文本筛选模型确定所述待处理文本的语义清晰度,包括:分别针对所述待处理文本包含的每个字段,确定其与所述参照字段的最大匹配度;针对每个所述待处理文本,将其包含的所述字段对应的所述最大匹配度取值最大的,作为第一匹配度;将其包含的所述字段对应的所述最大匹配度非零、且取值最小的,作为第二匹配度;确定映射区间;将所述第一匹配度映射至所述映射区间的最大值,将所述第二匹配度映射至所述映射区间的最小值,将所述待处理文本包含的所述字段对应的其他的所述最大匹配度按照其与所述第一匹配度和所述第二匹配度的差值的比例,映射至所述映射区间内;对映射至所述映射区间内的各所述最大匹配度进行综合,得到所述待处理文本的语义清晰度。
9.在本说明书一个可选的实施例中,所述第一指定数量与距当前时刻指定时长的历史时间段内,所述用户访问所述服务器的次数正相关、且与所述待处理文本各自包含的所述字段对应所述最大匹配度之和负相关。
10.在本说明书一个可选的实施例中,将其包含的所述字段对应的所述最大匹配度非零、且取值最小的,作为第二匹配度,包括:若所述待处理文本包含的所述字段半数以上对应的所述最大匹配度的取值在映射之后所属的区间范围,在所述映射区间所占的区间范围小于等于所述映射区间的指定比例,则将所述待处理文本包含的所述字段对应的所述最大匹配度非零、且取值最小的,作为所述第二匹配度;其中,所述指定比例与各待处理文本包含的所述字段的平均数量负相关;若所述待处理文本包含的所述字段半数以上对应的所述最大匹配度的取值在映射之后所属的区间范围,在所述映射区间所占的区间范围不小于所述指定比例,则将所述待处理文本包含的所述字段对应的所述最大匹配度取值最小的,作为所述第二匹配度。
11.在本说明书一个可选的实施例中,所述第一匹配度阈值与所述待处理文本中语义清晰度大于所述清晰度阈值的个数正相关、且与所述待处理文本的个数负相关。
12.在本说明书一个可选的实施例中,所述第二指定数量与距当前时刻指定时长的历史时间段内,所述用户访问所述服务器的次数正相关、且与所述待处理文本的个数正相关。
13.在本说明书一个可选的实施例中,所述方法还包括:对预设的信息库进行查找,得到与所述指定地理范围匹配的商品信息,作为所述待展示信息;根据所述待展示信息与所述信息提取的结果的匹配度由大到小,对所述待展示信息进行排序;在接收到所述用户的信息获取请求的情况下,按照所述排序,将所述待展示信息推荐给所述用户。
14.第二方面,本技术实施例还提供一种海量数据文本信息提取系统,所述系统包括服务器,所述服务器包括:文本获取模块,配置为:获取待处理文本;其中,所述待处理文本是基于指定地理范围内历史上用户的信息获取请求得到的;筛选模块,配置为:采用预设的文本筛选模型,对所述待处理文本进行筛选,以将所述待处理文本中语义清晰度大于预设的清晰度阈值的第一指定数量个,确定为第一文本;将所述待处理文本中除所述第一文本以外的,确定为第二文本;其中,所述文本筛选模型用于确定所述语义清晰度;第一字段确定模块,配置为:对所述第一文本进行目标字段提取,得到第一字段;可用文本确定模块,配置为:针对每个所述第一字段,在所述第二文本中查找包含与之相似度大于预设的第一匹配度阈值的字段的第二文本,作为所述第一字段对应的可用文本;第一目标字段确定模块,配置为:若所述可用文本在所述第二文本中占比大于预设的比例阈值,则将其对应的所述第一字段,确定为第一目标字段;目标文本确定模块,配置为:将包含的所述第一目标字段大于预设的第二指定数量的所述第一文本,确定为目标文本;信息提取模块,配置为:基于所述目标文本,进行信息提取。
15.第三方面,本技术实施例还提供一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第一方面所述的方法步骤。
16.第四方面,本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行第一方面所述的方法步骤。
17.本技术实施例采用的上述至少一个技术方案能够达到以下有益效果:本说明书中的方法是基于文本实现的,文本作为一种易于存储、识别的信息表达方式,为较为准确的获取语义提供了基础。本说明书中的方法以指定地理范围为界,以指定地理范围生成的待处理文本作为处理对象,能够将地域特色、地域用户的喜好纳入信息处理过程的考察范围,使得文本处理的结果中能够体现出地域特点,使得本说明书中的方法更适于需要突出地域特点的场景中,例如生鲜配送、外卖配送的场景中。本说明书中的方法适用于海量数据的场景中,将待处理的文本分为第一文本和第二文本,第二文本用于对第一文本进行筛选,而文本的信息提取是基于筛选的结果进行的,能够有效地减少需要信息提取的文本的量,有利于节约资源。
附图说明
18.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:图1为本说明书实施例提供的一种海量数据文本信息提取方法的过程示意图;图2为本说明书实施例中一种电子设备的结构示意图。
具体实施方式
19.下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本技术能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其它元件、材料、方法所替代。在某些情况下,本技术相关的一些操作并没有在说明书中显示或者描述,这是为了避免本技术的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
20.另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
21.本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本技术所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
22.以下结合附图,详细说明本技术各实施例提供的技术方案。
23.本说明书中的方法基于海量数据文本信息提取系统。该系统包括服务器和应用端,本说明书中的方法由服务器执行。
24.如图1所示,本说明书中的海量数据文本信息提取方法包含以下步骤:s100:获取待处理文本。
25.本说明书以文本作为目标的处理对象,若某一信息载体不是文本(例如语音信息),则可以通过相关技术中相应的技术手段,将信息载体转换为文本。这样,无论实际应用中用户输入时采用的是文字输入、语音输入、还是图片搜索,都适用于本说明书中的方法。
26.本说明书中的待处理文本是基于指定地理范围内历史上用户的信息获取请求得到的。该指定地理范围可以根据实际的业务情况确定,例如,某物流配送公司,其在a市和b市的物流配送范围内设置有仓库,则该指定地理范围可以是a市和b市限定的范围。再例如,某生鲜配送公司,其配送的水果保质期有限、冷链物流条件苛刻,其在a市的a区和b区能够达到相应的冷链物流条件,则该指定地理范围可以是a区和b区限定的范围。
27.在本说明书一个可选的实施例中,将历史上的信息获取请求,作为待处理文本。信息获取请求可以是用户在搜索时输入的内容,例如“球鞋、彩色、非国产”。
28.对历史上基于所述信息获取请求返回给所述用户的信息进行处理,得到所述待处理文本。返回给所述用户的信息可以是基于用户输入的内容返回给用户的商品详情页中的内容,其中可以包含例如商品的价格、型号、款式、品牌等。
29.s102:采用预设的文本筛选模型,对所述待处理文本进行筛选,以将所述待处理文本中语义清晰度大于清晰度阈值的第一指定数量个,确定为第一文本;将所述待处理文本中除所述第一文本以外的文本,确定为第二文本。
30.本说明书中的文本筛选模型用于确定所述语义清晰度。相关技术中,能够确定语义清晰度的技术手段,均可以作为本说明书中的文本筛选模型。在本说明书一个可选的实施例中,文本筛选模型可以是经训练得到的人工智能模型;在本说明书另一个可选的实施
例中,文本筛选模型是算法构成的集合。
31.语义清晰度的具体定义,可以根据实际的业务需求确定。若一待处理文本能够清晰的表达出其对应的产品,则其语义清晰度较高,例如,“a品牌、b型号、c价格、d颜色、参加e活动的球鞋”,其语义清晰度较高。再例如,“球鞋、彩色、非国产
”ꢀ
,其语义清晰度较低。
32.由于实际应用场景中,语义清晰度的确定方式可能不尽相同,商家的业务处理能力也不尽相同,则本说明书中的清晰度阈值可以是经验值。
33.若待处理文本中语义清晰度大于清晰度阈值的数量小于第一指定数量,则将所有语义清晰度大于清晰度阈值的待处理文本,确定为第一文本。此时,可以将待处理文本中语义清晰度最小的待处理文本的数量的半数个,确定为第二文本。该实施例中,第一文本和第二文本有部分重叠。
34.若待处理文本中语义清晰度大于清晰度阈值的数量不小于第一指定数量,则将语义清晰度大于清晰度阈值的待处理文本中语义清晰度最大的第一指定数量个,确定为第一文本。该实施例中,第一文本和第二文本无重叠。
35.在本说明书一个可选的实施例中,第一指定数量与服务器的数据处理能力正相关。该实施例能够充分地结合服务器的数据处理能力,在提高服务器的利用率的基础上,提高处理精度。
36.在本说明书另一个可选的实施例中,第一指定数量与距当前时刻指定时长的历史时间段内,访问所述服务器的次数正相关、且与所述待处理文本各自包含的字段对应所述最大匹配度之和负相关。实际应用中,服务器的数据处理能力可能存在波动,或者要为其他业务预留一定的数据处理资源,本实施例以需求方的需求为基础,使得服务器提供的服务,能够与需求方相契合。
37.s104:对所述第一文本进行目标字段提取,得到第一字段。
38.相关技术中能够实现对文本进行解构,并将其划分为字段的技术手段,在条件允许的情况下,均适用于本说明书。示例性地,“海量数据文本信息提取的方法及系统”,经字段提取之后,得到的第一字段是“海量数据”、“文本”、“信息提取”、“方法”、以及“系统”。
39.可见,通过本步骤确定出的第一字段可能不唯一。
40.s106:针对每个第一字段,在所述第二文本中查找包含与之相似度大于第一匹配度阈值的字段的第二文本,作为所述第一字段对应的可用文本。
41.在本说明书一个可选的实施例中,第一匹配度阈值是经验值。该实施例中,第一匹配度阈值便于调节,灵活性较高。
42.在本说明书另一个可选的实施例中,第一匹配度阈值与所述待处理文本中语义清晰度大于清晰度阈值的个数正相关、且与所述待处理文本的个数负相关。在该实施例中,第一匹配度阈值综合考察了待处理文本的实际情况,有利于节约服务器的数据处理资源。此外,该实施例还考察了清晰度阈值,则能够有效地保证处理精度。
43.通过本步骤,针对某一第一字段确定出的可用文本可能不唯一;也可能针对某一第一字段无法确定出可用文本。
44.s108:若所述可用文本在所述第二文本中占比大于预设的比例阈值,则将其对应的所述第一字段,确定为第一目标字段。
45.在本说明书一个可选的实施例中,比例阈值可以是经验值。
46.在本说明书另一个可选的实施例中,比例阈值与所有第一文本的语义清晰度的平均值正相关。平均值越高,表明可用于信息确定文本越丰富、确定出的准确度也越高,此时提高比例阈值,能够节约后续步骤中服务器提供的数据处理资源,还不会影响到数据处理准确度。
47.第一目标字段是指能够得到可用文本足够的支持的第一字段。这样的字段,无论是从第一文本的角度,还是从第二文本的角度,都能够充分地体现出用户与第一目标字段相对应的意愿。若某一第一字段不是第一目标字段,则该第一字段至少不能够得到第二文本的支持。
48.至此,本说明书未对第二文本进行解构处理,也不论第二文本包含的内容具体为何,即能够实现信息的提取,能够有效的节约服务器提供的数据处理资源。
49.s110:将包含的第一目标字段大于第二指定数量的第一文本,确定为目标文本。
50.至此,本说明书未对所有待处理文本逐一地进行解构处理、字段分析、语义分析,仅仅对部分的待处理文本进行了解构处理,其他步骤仅仅是通过数量的比较、阈值的判断即能够实现数据的筛选,能够有效地减小服务器的数据处理压力,使得指定地理范围内用户的需求更加突出。
51.在本说明书一个可选的实施例中,第二指定数量是经验值。
52.在本说明书另一个可选的实施例中,所述第二指定数量与距当前时刻指定时长的历史时间段内,访问所述服务器的次数正相关、且与所述待处理文本的个数正相关。
53.s112:基于所述目标文本,进行信息提取。
54.相较于待处理文本,目标文本的数量更少,对其进行信息提取能够一定程度的节约服务器的数据处理资源。此外,经本说明书的方法得到的目标文本对用户的需求的表征也更加明确,有利于保障信息提取的准确度。相关技术中,用于实现信息提取的技术手段,在条件允许的情况下,均适用于本说明书。本说明书中的信息提取的结果能够较为精准地、充分地表征用户的意图。
55.本说明书中的方法是基于文本实现的,文本作为一种易于存储、识别的信息表达方式,为较为准确的获取语义提供了基础。本说明书中的方法以指定地理范围为界,以指定地理范围生成的待处理文本作为处理对象,能够将地域特色、地域用户的喜好纳入信息处理过程的考察范围,使得文本处理的结果中能够体现出地域特点,使得本说明书中的方法更适于需要突出地域特点的场景中,例如生鲜配送、外卖配送的场景中。本说明书中的方法适用于海量数据的场景中,将待处理的文本分为第一文本和第二文本,第二文本用于对第一文本进行筛选,而文本的信息提取是基于筛选的结果进行的,能够有效地减少需要信息提取的文本的量,有利于节约资源。
56.本说明书中的方法可以用于信息展示、信息推荐的场景中,特别是应用在区域冷链运输、生鲜运输的场景中。一方面,能够充分地调动商家为某一地理区域提供的资源,则可以有效地服务于商家;另一方面,能够在基于商家能够提供的资源的基础上,充分地激发用户对商品的需求,并满足用户的需求,则可以有效地服务于用户。
57.则在本说明书一个可选的实施例中,在完成针对目标文本的信息提取之后,对预设的信息库进行查找,得到与所述指定地理范围匹配的商品信息,作为待展示信息。基于对所述目标文本进行信息提取的结果,根据所述待展示信息与所述信息提取的结果的匹配度
由大到小进行排序。在接收到用户的信息获取请求时,按照所述排序,将所述待展示信息推荐给所述用户。
58.本说明书中的信息库中存储有商品信息、地理范围、以及两者之间的对应关系。若一商品信息与一地理范围之间有对应关系,则表明商家能够在保证商品质量、配送效率的情况下,在该地理范围内销售该商品,也就是说,在该地理范围内,该商品的销售能够实现商家和用户双方利益的最大化。在信息库中,并非所有商品信息都能够和所有地理范围相对应的。
59.在相关技术中,能够确定用于确定信息之间的匹配度的技术手段,在条件允许的情况下,均适用于本说明书。一条待展示信息与目标文本的匹配度越高,表明该待展示信息对应的商品越符合用户的意愿。
60.由于本说明书中的方法确定出的目标文本是历史信息确定出的,而当前向用户进行的信息展示,则是为了能够在未来与用户达成交易,也就是说,本说明书能够在地理的区域性进行资源整合的基础上,实现对未来的预测和调控。
61.现就本说明书一个实施例中如何基于文本筛选模型确定语义清晰度进行说明。
62.在该实施例中,文本筛选模型包含信息推荐过程中用于对至少部分主体进行表征的参照字段,不同的参照字段对应有各自的权重级。该主体一方面包含商家提供的商品,另一方面包含用户画像(某些用户并未是商家重点的服务对象,则可以排除)。示例性地,表征商品这一主体的参照字段可以是:“商品型号”、“商品颜色”、“商品售价”等,这些参照字段表征商家在指定地理范围内对商品的提供能力。表征用户画像这一主体的参照字段可以是:“非新用户”、“客单价大于xx的用户”、“月活大于yy的用户”等,这些参照字段表征商家重点关注的用户。具体地,服务器执行:s200:分别针对所述待处理文本包含的每个字段,确定其与所述参照字段的最大匹配度。
63.相关技术中,用于确定字段之间的匹配度的技术手段,在条件允许的情况下,均适用于本说明书。例如,待处理文本的某一字段是“雪地靴”,则其与参照字段“冬鞋”的匹配度较大,与参照字段“r品牌”的匹配度较低。
64.s202:针对每个待处理文本,将其包含的字段对应的所述最大匹配度取值最大的,作为第一匹配度。
65.例如,待处理文本1包含:字段1、字段2、字段3、以及字段4。针对字段1确定出的最大匹配1(取值0.2)、针对字段2确定出的最大匹配2(取值0.5)、针对字段3确定出的最大匹配3(取值0.6)、以及针对字段4确定出的最大匹配4(取值0)。也就是说,针对待处理文本1得到了4个最大匹配。第一匹配度是0.6。
66.s204:将其包含的字段对应的所述最大匹配度非零、且取值最小的,作为第二匹配度。
67.继上述实施例,第二匹配度是0.2。
68.s206:确定映射区间。
69.映射区间可以根据实际的业务需求确定,例如,映射区间可以是[1,10];再例如,映射区间可以是[1,100]。映射区间就是经前述步骤确定出的最大匹配度映射之后的取值范围。
[0070]
s208:将所述第一匹配度映射至所述映射区间的最大值,将所述第二匹配度映射至所述映射区间的最小值,将所述待处理文本包含的字段对应的其他的所述最大匹配度按照其与所述第一匹配度和所述第二匹配度的差值的比例,映射至所述映射区间内。
[0071]
例如,第一匹配度是0.6,第二匹配度是0.2,映射区间是[1,100],则0.6映射之后的结果是100,0.2映射之后的结果是1。0.5映射之后的结果是85。
[0072]
由于实际应用中,待处理文本可能的情况多种多样,这也就使得不同的待处理文本各自的最大匹配度的分布难以比较。而且,每个待处理文本又自成一体,匹配度的比较仅能够从字段的维度对待处理文本的语义进行衡量,还应考虑同一待处理文本中的各个字段之间的关系。而对待处理文本进行的信息提取当前步骤尚未进行,当前尚不知晓字段之间的关系。通过本步骤的映射,则能够在进行信息提取之前,实现该技术目的。
[0073]
具体地,在本说明书一个可选的实施例中,若所述待处理文本包含的字段半数以上对应的所述最大匹配度的取值在映射之后所属的区间范围,在所述映射区间所占的区间范围小于等于所述映射区间的指定比例,表明最大匹配度分布较为集中,则将所述待处理文本包含的字段对应的所述最大匹配度非零、且取值最小的,作为所述第二匹配度。这样能够一定程度的拉开最大匹配度之间的距离,使得分布情况更加清晰。
[0074]
若所述待处理文本包含的字段半数以上对应的所述最大匹配度的取值在映射之后所属的区间范围,在所述映射区间所占的区间范围不小于所述指定比例,表明最大匹配度分布较为分散,则将所述待处理文本包含的字段对应的所述最大匹配度取值最小的(有可能是0),作为所述第二匹配度。这样能够更加全面地考察待处理文本包含的各字段的情况。
[0075]
在本说明书一个可选的实施例中,指定比例是经验值。
[0076]
在本说明书另一个可选的实施例中,指定比例和各待处理文本包含的字段的平均数量负相关。在该实施例中,能够通过指定比例的设置实现服务器提供的数据处理资源和对分布情况的调节之间的平衡。
[0077]
s210:对映射至所述映射区间内的各所述最大匹配度进行综合,得到所述待处理文本的语义清晰度。
[0078]
在本说明书一个可选的实施例中,进行综合的方式可以是将映射之后的最大匹配度进行求和。综合之后的结果取值越大,则语义清晰度越高。此外,还可以采用其他的方式进行综合,能够使得综合之后的结果与各最大匹配度正相关即可。
[0079]
进一步地,本说明书还提供一种海量数据文本信息提取系统,所述系统包括服务器,所述服务器包括:文本获取模块,配置为:获取待处理文本;其中,所述待处理文本是基于指定地理范围内历史上用户的信息获取请求得到的;筛选模块,配置为:采用预设的文本筛选模型,对所述待处理文本进行筛选,以将所述待处理文本中语义清晰度大于预设的清晰度阈值的第一指定数量个,确定为第一文本;将所述待处理文本中除所述第一文本以外的,确定为第二文本;其中,所述文本筛选模型用于确定所述语义清晰度;第一字段确定模块,配置为:对所述第一文本进行目标字段提取,得到第一字段;可用文本确定模块,配置为:针对每个所述第一字段,在所述第二文本中查找包含
与之相似度大于预设的第一匹配度阈值的字段的第二文本,作为所述第一字段对应的可用文本;第一目标字段确定模块,配置为:若所述可用文本在所述第二文本中占比大于预设的比例阈值,则将其对应的所述第一字段,确定为第一目标字段;目标文本确定模块,配置为:将包含的所述第一目标字段大于预设的第二指定数量的所述第一文本,确定为目标文本;信息提取模块,配置为:基于所述目标文本,进行信息提取。
[0080]
该系统能够执行前述任一实施例中的方法,并能够获得相同或相似的技术效果,此处不再赘述。
[0081]
图2是本技术的一个实施例电子设备的结构示意图。请参考图2,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(random-access memory,ram),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
[0082]
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0083]
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
[0084]
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成一种海量数据文本信息提取装置。处理器,执行存储器所存放的程序,并具体用于执行前述任意一种海量数据文本信息提取方法。
[0085]
上述如本技术图1所示实施例揭示的一种海量数据文本信息提取方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0086]
该电子设备还可执行图1中一种海量数据文本信息提取方法,并实现图1所示实施例的功能,本技术实施例在此不再赘述。
[0087]
本技术实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,执行前述的任意一种海量数据文本信息提取方法。
[0088]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0089]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0090]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0091]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0092]
在一个典型的配置中,计算设备包括一个或多个处理器 (cpu)、输入/输出接口、网络接口和内存。
[0093]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (ram) 和/或非易失性内存等形式,如只读存储器 (rom) 或闪存(flash ram)。内存是计算机可读介质的示例。
[0094]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (pram)、静态随机存取存储器 (sram)、动态随机存取存储器 (dram)、其他类型的随机存取存储器 (ram)、只读存储器 (rom)、电可擦除可编程只读存储器 (eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器 (cd-rom)、数字多功能光盘 (dvd) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
[0095]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的
包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0096]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0097]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。

技术特征:
1.一种海量数据文本信息提取方法,其特征在于,所述方法应用于海量数据文本信息提取系统的服务器,所述方法包括:获取待处理文本;其中,所述待处理文本是基于指定地理范围内历史上用户的信息获取请求得到的;采用预设的文本筛选模型,对所述待处理文本进行筛选,以将所述待处理文本中语义清晰度大于预设的清晰度阈值的第一指定数量个,确定为第一文本;将所述待处理文本中除所述第一文本以外的,确定为第二文本;其中,所述文本筛选模型用于确定所述语义清晰度;对所述第一文本进行目标字段提取,得到第一字段;针对每个所述第一字段,在所述第二文本中查找包含与之相似度大于预设的第一匹配度阈值的字段的第二文本,作为所述第一字段对应的可用文本;若所述可用文本在所述第二文本中占比大于预设的比例阈值,则将其对应的所述第一字段,确定为第一目标字段;将包含的所述第一目标字段大于预设的第二指定数量的所述第一文本,确定为目标文本;基于所述目标文本,进行信息提取。2.如权利要求1所述方法,其特征在于,获取待处理文本,包括:将历史上的所述信息获取请求,作为所述待处理文本;和/或,对历史上基于所述信息获取请求返回给所述用户的信息进行处理,得到所述待处理文本。3.如权利要求1所述方法,其特征在于,所述文本筛选模型包含信息推荐过程中用于对至少部分主体进行表征的参照字段,采用所述文本筛选模型确定所述待处理文本的语义清晰度,包括:分别针对所述待处理文本包含的每个字段,确定其与所述参照字段的最大匹配度;针对每个所述待处理文本,将其包含的所述字段对应的所述最大匹配度取值最大的,作为第一匹配度;将其包含的所述字段对应的所述最大匹配度非零、且取值最小的,作为第二匹配度;确定映射区间;将所述第一匹配度映射至所述映射区间的最大值,将所述第二匹配度映射至所述映射区间的最小值,将所述待处理文本包含的所述字段对应的其他的所述最大匹配度按照其与所述第一匹配度和所述第二匹配度的差值的比例,映射至所述映射区间内;对映射至所述映射区间内的各所述最大匹配度进行综合,得到所述待处理文本的语义清晰度。4.如权利要求3所述方法,其特征在于,所述第一指定数量与距当前时刻指定时长的历史时间段内,所述用户访问所述服务器的次数正相关、且与所述待处理文本各自包含的所述字段对应所述最大匹配度之和负相关。5.如权利要求3所述方法,其特征在于,将其包含的所述字段对应的所述最大匹配度非零、且取值最小的,作为第二匹配度,包括:若所述待处理文本包含的所述字段半数以上对应的所述最大匹配度的取值在映射之
后所属的区间范围,在所述映射区间所占的区间范围小于等于所述映射区间的指定比例,则将所述待处理文本包含的所述字段对应的所述最大匹配度非零、且取值最小的,作为所述第二匹配度;其中,所述指定比例与各待处理文本包含的所述字段的平均数量负相关;若所述待处理文本包含的所述字段半数以上对应的所述最大匹配度的取值在映射之后所属的区间范围,在所述映射区间所占的区间范围不小于所述指定比例,则将所述待处理文本包含的所述字段对应的所述最大匹配度取值最小的,作为所述第二匹配度。6.如权利要求1所述方法,其特征在于,所述第一匹配度阈值与所述待处理文本中语义清晰度大于所述清晰度阈值的个数正相关、且与所述待处理文本的个数负相关。7.如权利要求1所述方法,其特征在于,所述第二指定数量与距当前时刻指定时长的历史时间段内,所述用户访问所述服务器的次数正相关、且与所述待处理文本的个数正相关。8.如权利要求1所述方法,其特征在于,所述方法还包括:对预设的信息库进行查找,得到与所述指定地理范围匹配的商品信息,作为所述待展示信息;根据所述待展示信息与所述信息提取的结果的匹配度由大到小,对所述待展示信息进行排序;在接收到所述用户的信息获取请求的情况下,按照所述排序,将所述待展示信息推荐给所述用户。9.一种海量数据文本信息提取系统,其特征在于,所述系统包括服务器,所述服务器包括:文本获取模块,配置为:获取待处理文本;其中,所述待处理文本是基于指定地理范围内历史上用户的信息获取请求得到的;筛选模块,配置为:采用预设的文本筛选模型,对所述待处理文本进行筛选,以将所述待处理文本中语义清晰度大于预设的清晰度阈值的第一指定数量个,确定为第一文本;将所述待处理文本中除所述第一文本以外的,确定为第二文本;其中,所述文本筛选模型用于确定所述语义清晰度;第一字段确定模块,配置为:对所述第一文本进行目标字段提取,得到第一字段;可用文本确定模块,配置为:针对每个所述第一字段,在所述第二文本中查找包含与之相似度大于预设的第一匹配度阈值的字段的第二文本,作为所述第一字段对应的可用文本;第一目标字段确定模块,配置为:若所述可用文本在所述第二文本中占比大于预设的比例阈值,则将其对应的所述第一字段,确定为第一目标字段;目标文本确定模块,配置为:将包含的所述第一目标字段大于预设的第二指定数量的所述第一文本,确定为目标文本;信息提取模块,配置为:基于所述目标文本,进行信息提取。10.一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~8之任一所述方法。

技术总结
本申请公开了一种海量数据文本信息提取方法及系统,本说明书中的方法是基于文本实现的,文本作为一种易于存储、识别的信息表达方式,为较为准确的获取语义提供了基础。本说明书中的方法以指定地理范围为界,以指定地理范围生成的待处理文本作为处理对象,能够将地域特色、地域用户的喜好纳入信息处理过程的考察范围,使得文本处理的结果中能够体现出地域特点,使得本说明书中的方法更适于需要突出地域特点的场景中,例如生鲜配送、外卖配送的场景中。将待处理的文本分为第一文本和第二文本,第二文本用于对第一文本进行筛选,而文本的信息提取是基于筛选的结果进行的,能够有效地减少需要信息提取的文本的量。少需要信息提取的文本的量。少需要信息提取的文本的量。


技术研发人员:程越 王双 高昂 万利 李柏晨 刘昱玮
受保护的技术使用者:中国标准化研究院
技术研发日:2023.06.15
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐