地产行业景气度分布的获取方法与装置与流程

未命名 10-08 阅读:77 评论:0


1.本技术涉及数据处理领域,具体涉及一种地产行业景气度分布的计算方法与装置。


背景技术:

2.随着数据分析的应用与发展,地产行业为了更好地定制行业发展计划。地产行业也基于人工所得评价表来对用户的房产需求以及对地产行业的评价,计算获取地产行业景气度的分布,地产行业景气度是指各地区房产的满意程度以及需求程度,标示了客户对各地区房产的需求量,以及对当地地产行业的评价。地产企业将以此为依据对各地区判断是否开发楼盘,开发多少数量的楼盘。
3.就目前对于地产行业景气度分布的获取而言,各大地产企业往往通过人工发送评价表来采集用户的相关需求和评价、意见;然后对客户在评价表中反馈的需求和评价人工的进行合并与分析。
4.但是在这个过程中,一方面噪音数据过多导致分析时间过长,另一方面也会使得对客户相关数据分析并不准确,最终导致了地产企业在获取地产行业景气度分布时,地产行业景气度分布精度不高,并且用时过长。
5.因此,如何高效、精确地获取地产行业景气度分布是当前所亟待需要解决的困境。


技术实现要素:

6.本技术的旨在解决如何高效、精确地获取地产行业景气度分布的技术问题。
7.根据本技术实施例的一方面,本技术提供了一种地产行业景气度分布的获取方法,所述方法包括:
8.对获取的客户会话数据进行分词处理获得意图关键词,所述意图关键词标示相应客户的地产描述内容;
9.由所述意图关键词被标注的意图结果得到所述客户在地产行业的意图结果;
10.面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布。
11.根据本技术实施例的一方面,所述对获取的客户会话数据进行分词处理获得意图关键词之前,所述方法包括:
12.对样本会话数据进行分词,所述样本会话数据在内容上与地产所相关;
13.对所得各词根据词义衍生获取各词的近义词;
14.根据所述各词以及各词近义词的词性进行非近义词之间的组合,以所得词句为意图关键词,将所有意图关键词收纳于关键词库;
15.对收纳于所述关键词库的意图关键词进行意图结果的标注,通过所述意图结果的标注建立意图关键词与其所标注意图结果之间的对应关系。
16.根据本技术实施例的一方面,所述对收纳于所述关键词库的意图关键词进行意图
结果的标注,通过所述意图结果的标注建立意图关键词与其所标注意图结果之间的对应关系之前,所述方法包括:
17.根据地产行业热点和潜在置业客户的关注点,创建评价意图结果和需求意图结果,将评价意图结果与需求意图结果收纳于意图结果库,所述意图结果库用于为意图关键词的标注提供意图结果。
18.根据本技术实施例的一方面,所述方法还包括:
19.在对样本会话数据进行分词的过程中,利用jieba词库标记情感词并赋情感值,所述情感值用于创建评价意图结果。
20.根据本技术实施例的一方面,所述对获取的客户会话数据进行分词处理获得意图关键词,包括:
21.拉取潜在置业客户的会话记录,得到客户会话数据;
22.对客户会话数据进行清洗,去除客户会话数据中无用语句得到精简会话数据;
23.对精简会话数据进行分词,获取精简会话数据中标示客户地产描述内容的意图关键词。
24.根据本技术实施例的一方面,所述对精简会话数据进行分词,获取精简会话数据中标示客户地产描述内容的意图关键词,包括:
25.对所述精简会话数据进行分词并组合,得到精简会话数据中的关键词句;
26.在关键词库中搜索与关键词句相同的意图关键词,得到精简会话数据中的意图关键词。
27.根据本技术实施例的一方面,所述由所述意图关键词被标注的意图结果得到所述客户在地产行业的意图结果,包括:
28.根据意图关键词、以及意图关键词与意图结果之间的对应关系,得到意图关键词对应的意图结果。
29.根据本技术实施例的一方面,意图关键词包括需求意图关键词,所述方法还包括:
30.根据需求意图结果所对应的需求意图关键词,定位所述客户会话数据中需求意图关键词所在语句;
31.根据所述需求意图关键词所在语句情感词的情感值,得到客户对所述需求意图关键词所标示的地产描述内容的偏好信息;
32.根据客户标签和所述意图关键词所标示的地产描述内容的偏好信息,得到标示客户经济情况与购房需求的客户画像。
33.根据本技术实施例的一方面,意图结果包括评价意图结果,所述面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布,还包括:
34.根据所述评价意图结果所对应的评价意图关键词,定位评价意图关键词所在语句;
35.根据所述评价意图关键词所在语句情感词的情感值,得到客户对所述评价意图关键词所对应评价意图结果的评价,为地产行业评价;
36.根据客户画像以及客户对评价意图结果的评价,获取特定时间段内客户对各地区地产行业评价和购房需求量,为各地区地产行业景气度;
37.对各地区地产行业景气度进行比较,得到地产行业景气度分布。
38.根据本技术实施例的一方面,本技术提供一种地产行业景气度分布的计算装置,所述装置包括:
39.分词模块,用于对获取的客户会话数据进行分词处理获得意图关键词,所述意图关键词标示相应客户的地产描述内容;
40.获取模块,用于由所述意图关键词被标注的意图结果得到所述客户在地产行业的意图结果;
41.生成模块,用于面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布。
42.在本技术实施例中,对给定客户会话数据,首先进行分词处理获得意图关键词,意图关键词标示了相应客户的地产描述内容;其次将由意图关键词获取客户在地产行业的意图结果,最后面向若干客户将所收集的客户标签以及相应意图结果进行结合,生成地产行业景气度分布;至此将通过对客户的会话数据进行分句并获取意图关键词,来实现本技术对客户意图结果的获取,不再是简单地将关键词进行组合作为客户的意图结果;并且本技术对客户会话数据的分析是指逐一对每一客户的会话数据进行分析,获取客户在地产行业的意图结果,这样使得所得的意图结果更加精确,从而使获取的地产行业景气度分布更加精确,同时也不需要对其他相关数据进行分析,大大减少了数据分析时间,因此本技术对于地产行业景气度分布的获取,不仅仅增加了获取的地产行业景气度的精确度,还提高了对于地产行业景气度分布获取的效率。
43.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
44.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本技术。
附图说明
45.通过参照附图详细描述其示例实施例,本技术的上述和其它目标、特征及优点将变得更加显而易见。
46.图1示出了根据本技术一个实施例的所应用的一种体系架构图。
47.图2示出了根据本技术一个实施例的一种地产行业景气度分布的获取方法的流程图。
48.图3示出了对获取的客户会话数据进行分词处理获得意图关键词之前步骤的流程图。
49.图4示出了根据本技术一个实施例的对获取的客户会话数据进行分词处理获得意图关键词的流程图。
50.图5示出了根据本技术一个实施例的对客户会话数据进行清洗的示意图。
51.图6示出了根据本技术一个实施例的对客户会话数据进行清洗,去除客户会话数据中无用语句得到精简会话数据的示意图。
52.图7示出了根据本技术一个实施例的对精简会话数据进行分词,获取精简会话数据中标示客户地产描述内容的意图关键词步骤的流程图。
53.图8示出了根据本技术一个实施例的一种获取客户画像的流程图。
54.图9示出了根据本技术一个实施例的面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布的流程图。
55.图10示出了根据本技术一实施例的一种地产行业景气度分布的计算装置的示意图。
56.图11示出了根据本技术一个实施例的实施地产行业景气度分布的获取方法的硬件结构图。
具体实施方式
57.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本技术的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本技术的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
58.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本技术的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本技术的各方面变得模糊。
59.附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
60.请参阅图1,图1是本技术实施例所应用的一种体系架构。该体系架构可以包括:至少一个数据处理设备11,以及为数据处理设备11提供客户数据的终端设备12,以此来为地产行业景气度分布的获取提供客户会话数据。其中,数据处理设备11通过自身执行地产行业景气度分布的计算方法实现通过大量的客户会话数据获取地产行业景气度分布。
61.本技术实施例的一些技术方案可以基于如图1所示的体系架构或其变形架构来具体实施。
62.本技术中描述的地产行业景气度分布的获取方法,欲达到的最终效果是根据客户的会话数据以及所收集的客户标签得到地产行业景气度分布。
63.首先是对客户的会话数据进行处理所得意图关键词,意图关键词是指客户会话数据中标示的客户对地产行业的描述内容。
64.示例性的,对于客户会话数据中记录的语句“我最想要的户型是别墅”,则意图关键词为“想要别墅”。
65.然后根据意图关键词与客户意图结果之间预先构建的对应关系,以及客户会话数据的意图关键词获取客户会话数据所对应的意图结果。意图结果包含了表示客户在地产行业中对于购房产需求的需求意图结果,以及对房屋所在地相关情况评价的评价意图结果。示例性的,对于需求意图结果如房型、价格等,对于评价意图结果,如购房政策、地产行业形势等。
66.最后根据客户的意图结果和收集的客户标签得到地产行业景气度分布,地产行业景气度分布用于指示在设定时间段内各地区地产行业受欢迎程度。
67.具体请参阅图2,图2示出了根据本技术一个实施例的一种地产行业景气度分布的获取方法的流程图。本技术实施例提供了一种地产行业景气度分布的获取方法,包括:
68.步骤s210,对获取的客户会话数据进行分词处理获得意图关键词;
69.步骤s220,由意图关键词获取客户在地产行业的意图结果;
70.步骤s230,面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布。
71.下面对以上3个步骤进行详细描述。
72.在执行步骤s210之前,需要先面向诸多客户获取客户会话数据,输出客户会话数据的对象,即客户包括当前进行置业的客户、潜在置业客户以及已置业客户等,在此不进行限定。该客户会话数据将用以获取意图关键词。示例性的,在与客户的交互会话中,产生的客户会话数据被执行交互会话过程的终端设备所获得且上传至相应设置的服务器。因此,在执行生成地产行业景气度分布之时,将首先从服务器拉取客户会话数据,以此作为输入响应发起的地产行业景气度分布的生成。
73.客户会话数据是留存在服务器中的记录。示例性的,移动终端作为输入接口,将获得地产客户产生的聊天记录、客户发布的言论等,这些都将成为客户会话数据而被移动终端传送至相应的服务器中。需要明确的是,聊天记录可以是地产行业人工客服与客户的聊天记录,也可以是地产行业人工智能与客户的聊天记录,在此不进行限定。
74.客户会话数据是在客户所使用终端设备产生的,终端设备可以是手机、平板、电脑等便携移动终端。通过终端设备上运行的客户端产生客户会话数据。该客户端可以是运行于终端设备上app客户端,以及网页客户端等形式。除此之外,终端设备也并不限于便携移动终端,亦可为其他形式的会话记录设备,如能够记录客户语音的设备等,多种设备分布协同获取各种形式的客户会话数据,并传送至服务器,以便生成地产行业景气度分布之时拉取。
75.在执行步骤s210时,面向于存储的客户会话数据,将首先对客户会话数据中每一个语句进行分词,去除掉无意义文本,例如固定招呼语、标点、特殊符号、emoji表情、网址、电话或长数字等;然后对得到的词进行组合获得意图关键词。
76.示例性的,在本技术一个具体实施例中,将会话数据中除去除动词、名词之外的其他词,将保留的词按照其在会话中的顺序进行排列,得到意图关键词。
77.基于客户会话数据生成地产行业景气度分布,是对增量客户会话数据所发起执行的,以通过增量客户会话数据之上所不断执行的地产景气度分布的生成,来不断更新若干客户所支撑的地产行业景气度分布,保证所提供地产行业景气度分布的时效性和准确性,且提升执行效率。
78.还请继续参阅图3,图3示出了对获取的客户会话数据进行分词处理获得意图关键词之前步骤的流程图。在执行步骤s210之前,本技术实施例还提供了建立意图关键词与意图结果之间的对应关系的方法,即本技术实施例的地产行业景气度分布的获取方法还包括在步骤s210之前,还包括:
79.步骤s310,对样本会话数据进行分词,所述样本会话数据在内容上与地产所相关;
80.步骤s320,为所得各词根据词义衍生获取各词的近义词;
81.步骤s330,根据各词以及各词近义词的词性进行非近义词之间的组合,以所得词句为意图关键词,将所有意图关键词收纳于关键词库;
82.步骤s340,对收纳于关键词库的意图关键词进行意图结果的标注,通过意图结果的标注建立意图关键词与其所标注意图结果之间的对应关系。
83.下面对上述4个步骤进行详细描述。
84.为了能够直接根据意图关键词获取其所对应的意图结果,将在根据客户会话数据的意图关键词获取意图结果之前,首先构建意图关键词与意图结果之间的对应关系。
85.构建意图关键词与意图结果之间对应关系的具体方式如下:在步骤s310中,首先对样本会话数据通过自然语言处理技术进行分词,得到该条样本会话数据包含的各词。
86.在本技术一个实施例中,对于样本会话数据中的各个语句进行分词。因为词是稳定的字的组合,所以在样本会话数据中,当固定几个字的组合出现的次数越多,这几个字就越有可能构成一个词。由此可知字与字相邻共现的频率或概率能够较好地反映成词的可信度

当固定几个字相邻共现的频率或者概率达到设定标准时,就可以认为这几个字构成一个词。因此在对样本会话数据进行可以根据字与字相邻共现的频率或者概率对客户会话数据进行分词。对客户会话数据进行分词时采用上述方法。
87.示例性的,分别获取样本会话数据中相邻的两字x和y出现的次数m(x出现的次数)和n(y出现的次数),以及x、y的相邻共现的次数p,将p除以(m+n)计算两个汉字x、y的相邻共现概率。相邻共现概率体现了汉字之间结合关系的紧密程度,因此当两个汉字x、y的相邻共现概率高于设定阈值时,认为x、y构成了一个词,否则x、y两者之间在客户会话数据中不能成词。
88.进一步应该明确的是,当获取一个词之后,将明确各词的词性和词义,以便于在下述步骤获取各词的近义词,以及进行词与词之间的组合获取意图关键词。
89.基于此,将会为所获取得到的每一个词在预创建的词典中进行搜索与其相同的词,并获取词典中对该词进行注解的词性和词义,根据该词的词性和词义形成标签标记于样本会话数据中的该词,也即:样本会话数据进行分词后所得各词都具有属于自身的标签。
90.在步骤s320中,对分词所得各词搜索其分别对应的近义词,以此来对各词基于词义实现扩充和丰富。具体地,各词所对应近义词的获得可通过预创建的词典实现。以各词的词义为索引,在预创建的词典中寻找具有相同词义的其他词,作为各词的近义词。
91.在步骤s330中,根据各词的词性,对非近义词的词进行组合,得到词句为意图关键词。示例性的,在本技术一具体实施中,对一欲提取意图关键词的样本会话数据,根据各词的词性提取名词、动词,并按照各词在样本会话数据中的前后顺序进行组合,得到词句名词1(主语)+动词2(谓语)+名词3(宾语),该词句为意图关键词。将所有意图关键词收纳于一文件为关键词库。
92.在步骤s340中,对存入关键词库所有的意图关键词,打上对应意图结果标签,进而能够直接根据意图关键词所被赋予的标签,得到意图关键词所对应的意图结果。
93.需要注意的是,为了提高对意图关键词进行意图结果标注的效率,并且使得意图关键词与其所标注意图结果之间的对应关系,可以适用于更多的客户会话数据,进而使得意图关键词中的各词可以进行近义词替换,也即对组成一意图关键词的各词,进行近义词
置换,获得一新的意图关键词,这一新的意图关键词与原意图关键词共享一标注的意图结果。
94.示例性的,参照步骤s330中的实施例,将意图关键词“名词1+动词2+名词3”中的名词1、动词2、名词3、分别进行近义词置换,如“名词1近义词+动词2+名词3”,或者“名词1近义词+动词2近义词+名词3近义词”,进而可以得到大量对应同一意图结果的意图关键词,最后对于通过近义词置换得到的所有意图关键词都标注为同一意图结果。使得意图关键词与其所标注意图结果之间的对应关系可以适用于更多的客户会话数据。
95.应该明确的是,建立意图关键词与其所标注意图结果之间的对应关系之前,也将根据地产行业热点和潜在置业客户的关注点,创建评价意图结果和需求意图结果,将评价意图结果与需求意图结果收纳于意图结果库,意图结果库为意图关键词的标注提供意图结果。地产行业热点来源于在社交媒体中对于地产行业热度较高话题,示例性的,对于微博热搜中关于地产行业的前20条热搜索涉及的话题,认定为地产行业热点,也即意图结果。潜在置业客户的关注点是指根据样本会话数据中客户所提及的高频内容的话题,例如样本会话数据中对于户型问题高频度提及,则“户型”就为客户的关注点,也即为意图结果。
96.评价意图结果是指客户关心地与购房并不直接相关的其他方面,但是对其购房会产生间接影响的因素。如地产行业形势、以及地方政府发布的购房政策。需求意图结果是指客户所关心的与购房直接相关的方面,如户型、价格、地段等。
97.还需要说明的是,为了解客户在进行客户会话的情绪,进而得到客户对意图结果的评价或者对客户会话数据相关内容的态度,将在样本数据中进行分词时,对情感词进行情感值的标记。以便于在对客户会话数据进行分析时,获取语句的情感值。
98.在样本会话数据进行分词的过程中,对样本会话数据中的所有情感词利用jieba词库进行情感值标注。需要注意的是,在对情感词进行标注情感值时,需在预先创建的词典中搜索该情感词,获取该情感词的词义;然后根据词义在词典中获取该情感词的近义词;最后将该情感词与其近义词都标注与该情感词数值大小相同的情感值,使得当其他语句中出现该情感词的近义词时,不必再利用jieba词库重新对该情感词的近义词进行情感值标记。
99.请参阅图4,图4示出了根据本技术一个实施例的对获取的客户会话数据进行分词处理获得意图关键词的流程图。本技术实施例提供了对获取的客户会话数据进行分词处理获得意图关键词的步骤s210,包括,
100.步骤s211,拉取潜在置业客户的会话记录,得到客户会话数据;
101.步骤s212,对客户会话数据进行清洗,去除客户会话数据中无用语句得到精简会话数据;
102.步骤s213,对精简会话数据进行分词,获取精简会话数据中标示客户地产描述内容的意图关键词。
103.下面对上述3个步骤进行详细描述。
104.在步骤s211中,在发起生成地产行业景气度分布之时,面向潜在置业客户触发拉取客户会话数据。潜在置业客户可基于客户信息及其对应的属性所确定得到,例如,具备高频搜索户型属性的客户,即为潜在置业客户;又例如,根据客户信息和/或属性确定潜在置业客户,便能够面向潜在置业客户拉取其客户会话数据。
105.应该明确的是,客户在不同时间与地产行业客户端进行互动会分别产生不同的客
户会话数据并进行储存。根据客户会话数据的属性信息可以进行潜在置业用户的确认。客户会话数据的属性信息是指标示客户会话数据本身特征的信息,如客户会话数据的大小、客户会话数据的生成时间、客户会话数据的数量。
106.示例性的,在本技术一实施例中,对于潜在置业客户的确定或者选定是通过客户会话数据的数据量大小,以及产生客户会话数据的次数进行确定或者选定的。数据量越大、以及产生客户会话数据的次数越高说明客户了解得越详细,对购房更感兴趣,其购买的可能性也就越大,因此当客户会话数据的数据量大于设定大小、产生客户会话数据的次数大于设定次数时就将该客户标记为潜在置业客户。
107.在步骤s212中,由于客户会话数据中存在纯表情包、引用消息、自动回复、个人信息固定模板消息等,客户会话数据中的这类内容不具备分析价值,应当予以过滤。
108.示例性的,对于存在于客户会话数据中的固定招呼语、标点、特殊符号、emoji表情、网址、电话或长数字等,则剔除这些无意义部分,得到精简会话数据。
109.请参阅图5,图5示出了根据本技术一个实施例的对客户会话数据进行清洗的示意图。本技术在对客户会话数据进行清洗时以图5中所记录的内容顺序进行对客户会话数据进行清洗。(1)筛除引用消息部分、(2)筛除微信自带表情包部分、(3)筛除个人信息固定模板的消息、(4)筛除微信固定句式的打招呼、(5)筛除组件标签、(6)筛除电话(或长数字)、(7)筛除网址。
110.请参阅图6,图6示出了根据本技术一个实施例的对客户会话数据进行清洗,去除客户会话数据中无用语句得到精简会话数据的示意图。本技术实施例提供了对客户会话数据进行清洗,去除客户会话数据中无用语句得到精简会话数据的步骤s212,包括,
111.步骤s2121,对客户会话数据中的语句进行句长筛选,获取长度在设定区间的语句为冗余语句;
112.步骤s2122,对所有冗余语句删除其中无意义的字词。
113.下面对上述两个步骤进行详细描述。
114.在步骤s2121中,由于过短句可能只是一些语气词等助词,而过长句按经验和历史数据来看,95%以上均为广告、无意义语句可以剔除。因此需要对过长语句和过短语句进行去除,首先对客户会话数据中通过标点符号进行断句,然后统计各句中字符的数量,语句中字符的数量就是该语句的长度,根据预设的长句阈值和短句阈值,将句长小于短句阈值和大于长句阈值的语句进行删除,得到句长不小于短句阈值和不大于长句阈值的语句为冗余语句。
115.在步骤s2122中,当步骤s2121中得到冗余语句之后,对冗余语句按照进行无意义语句的删除,如固定招呼语、标点、特殊符号、emoji表情、网址、电话或长数字等,以获得得到精简语句。
116.在步骤s213中,对在步骤s212中所得的精简会话数据之后,对精简会话数据进行分词然后将分词进行组合,即得到精简会话数据的意图关键词。
117.请参阅图7,图7示出了根据本技术一个实施例的对精简会话数据进行分词,获取精简会话数据中标示客户地产描述内容的意图关键词步骤的流程图。本技术实施例提供了对精简会话数据进行分词,获取精简会话数据中标示客户地产描述内容的意图关键词的步骤s213,包括,
118.步骤s2131,对精简会话数据进行分词并组合,得到精简会话数据中的关键词句;
119.步骤s2132,在关键词库中搜索与关键词句相同的意图关键词,得到精简会话数据中的意图关键词。
120.下面对上述2个步骤进行详细描述。
121.在步骤s2131中,首先对精简会话数据进行分词,将精简会话中各语句所得到的词,分别按照各词在语句中的顺序进行排列,这样每个语句都可以得到一个关键语句。
122.在步骤s2132中,在关键词库中寻找与关键语句相同的意图关键词,若能找到,就可得到关键语句所对应的意图关键词。若在关键词库中搜索不到与关键语句相同的意图关键词,则该关键语句无对应意图关键词,则不再进行意图结果的获取。
123.应该明确的是,在本技术另一实施例中对于无对应意图关键词的关键语句,也将会进行收集储存,每经过一设定时间段都将这些无对应意图关键词的关键语句,作为意图关键词加入到关键词库,响应人工操作对这些由关键语句转换而来的意图关键词进行意图结果的标注,以扩充关键词库以及意图结果库的大小,从而增加本技术分析客户会话数据的范围。
124.在获取精简会话语句中的意图关键词之后,根据意图关键词与意图结果之间的对应关系,得到意图关键词对应的意图结果。
125.在步骤s220中,根据步骤s210中得到的意图关键词,以及意图关键词与意图结果之间的对应关系,寻找意图关键词所对应的意图结果,进而得到客户在地产行业的意图结果。上述对应关系是指一种意图关键词与意图结果之间的映射关系,需要注意的是,一个意图关键词只对应一个意图结果,但是一个意图结果可以对应数个意图关键词。
126.请参阅图8,图8示出了根据本技术一个实施例的一种获取客户画像的流程图。意图关键词包括需求意图关键词,本技术实施例提供了一种获取客户画像的步骤,包括,
127.步骤s410,根据需求意图结果所对应的需求意图关键词,定位客户会话数据中需求意图关键词所在语句;
128.步骤s420,根据需求意图关键词所在语句情感词的情感值,得到客户对需求意图关键词所对应需求意图结果的偏好信息;
129.步骤s430,根据客户标签和客户对需求意图结果的偏好信息,得到标示客户经济情况与购房需求的客户画像。
130.下面对上述3个步骤进行详细描述。
131.意图结果库中包含需求意图结果,意图关键词中包括需求意图关键词,意图关键词所对应的意图结果就是需求意图结果。
132.在步骤s410中,意图结果包括需求意图结果和评价意图结果。在意图结果库中得到需求意图关键词对应的需求意图结果。因为在对客户会话数据进行精简获取意图关键词的过程中,会将一些无意义的词删除,这些无意义的词中会存在情感词,所以意图关键词中的可能只含有一部分或者不含有其所在语句的情感词,直接根据意图关键词在对其所在语句进行情感值计算时,会导致计算误差。故需通过意图关键词定位其所在的语句,进而再根据语句中的情感词来计算意图关键词所在语句的情感值。
133.在步骤s420中,在定位到的关键语句所在语句中,搜索获取与jieba词库中各情感词相同的词,搜索得到的词即为该语句中的情感词。根据jieba词库中对情感词所赋的值,
将语句中所有情感词的情感值进行相加,得到意图关键词所在语句的情感值,根据情感值的数值大小获取客户对所述需求意图关键词所标示的地产描述内容的偏好信息。
134.示例性的在本技术一实施例中,jieba词库对正面评价的情感词赋予正值,正面评价的情感词如“喜欢”、“想要”;对负面评价的词赋予负值,负面评价的情感词如“不喜欢”、“不想要”。
135.通过判断语句的情感值是否大于零,就可以知道客户对意图关键词所标示的地产描述内容的偏好信息。例如,对于语句“关于我最喜欢的房型,我觉得三室两厅两卫可以。”其意图关键词是“我觉得三室两厅两卫可以”,其中“最喜欢”、“可以”为情感词,在jieba词库中“最喜欢”和“可以”的情感值分别为“10分”和“3”分,因此语句的情感值为“13分”是一个大于零的值,故可以得到,客户对三室两厅两卫的户型具有偏好。
136.在步骤s430中,客户标签是用来描述客户偏好的信息,与步骤s420所得的客户对所述需求意图关键词所标示的地产描述内容的偏好信息全部重合或者部分重合,例如客户对购房价格区间、面积、户型、区域、动机等偏好。客户标签的作用是对步骤s420所得客户的偏好信息进行补充,如此才能更加全面的建立起客户画像。
137.但是因为由步骤s420所得到的客户的偏好信息是更具有时效性的,而客户标签则中所包含的客户的偏好信息是之前收集的,时效性较低。进而考虑到客户会随着时间的变化而产生意图波动,使得客户标签与客户的偏好信息重合的部分,以客户的偏好信息为主。
138.客户标签可以是工作人员在与客户进行交流时所做的偏好记录,或者是客户信息中的偏好信息,例如,直接由客户对客户信息所填写的偏好信息,除此之外,客户标签当然也可以是本技术在本次获取客户的偏好信息之前根据以前的客户会话数据所获取的旧的客户的偏好信息。
139.以客户的偏好信息为主,利用客户标签对客户的偏好信息进行补充,也就是将客户标签中与客户的偏好信息不重合的部分,补充到客户的偏好信息中,所得的新的客户的偏好信息,即为客户画像。
140.在步骤s230中,通过步骤s210和步骤s220得到若干客户的意图结果,结合面向客户所收集的客户标签,得到若干客户在相同时间段内对多个地区的购房需求以及对地产行业的评价。
141.根据若干客户在相同时间段内对多个地区的购房需求以及对地产行业的评价得到各地的地产行业景气度;然后再将各地的地产行业景气度进行统计比较,就得到了在该时间段内地产行业景气度分布。
142.应该明确的是客户标签是指客户个人以及家庭信息,例如,姓名、性别、居住地、收入、家庭经济条件、家庭成员构成等。对于客户标签的收集,可以通过问卷调查获取,也可以在会话数据中通过捕捉相关的敏感词进行个人信息的收集,当然对于客户标签的收集包括但不仅仅包括上述方法。
143.请参阅图9,图9示出了根据本技术一个实施例的面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布的流程图。本技术实施例提供了面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布的步骤s230,包括:
144.步骤s231,根据评价意图结果所对应的评价意图关键词,定位评价意图关键词所
在语句;
145.步骤s232,根据评价意图关键词所在语句情感词的情感值,得到客户对评价意图关键词所对应评价意图结果的评价,为地产行业评价;
146.步骤s233,根据客户画像以及客户对评价意图结果的评价,获取特定时间段内客户对各地区地产行业评价和购房需求量,为各地区地产行业景气度;
147.步骤s234,对各地区地产行业景气度进行合并比较,得到地产行业景气度分布。
148.下面对上述4个步骤进行详细描述。
149.在步骤s231中,意图结果包括需求意图结果和评价意图结果。评价意图结果是指影响客户进行购房的间接条件,与价格、房型等无关。例如,购房政策、房地产行业态势、经济形势等都是评价意图结果。
150.获取根据评价意图关键词所得的评价意图结果。根据意图结果和意图关键词的对应关系,得到评价意图结果所对应的评价意图关键词,然后根据意图关键词得到其所对应的关键语句,最后根据关键语句定位关键语句所在的语句。
151.在步骤s232中,根据评价意图结果所对应的语句中的情感词,计算该语句的情感值,根据情感值的大小来判断客户对语句所对应的评价意图结果是正面评价还是负面评价。示例性的,对于语句“我觉得a地购房政策不太行。”此语句中情感词为“不太行”,情感值为
“‑
6分”。此语句对应的意图结果为“购房政策”,可以得到该客户对其咨询购房所在地的“购房政策”给予
“‑
6分”的评价,就是客户在该语句中的地产行业评价。通过这个评价,可以得到客户对房屋所在地“购房政策”不满意的结论。咨询购房所在地是指客户所咨询的房产所在地。
152.在步骤s233中,因为各个客户的客户画像包含了客户购房数量以及购房位置,因此根据各个客户的客户画像以及客户画像产生时间,可以获取特定时间段内客户对各地的购房需求量。将购房需求量折合成以数值形式表现的分数。
153.示例性的,将客户对##的购房需求量为200000套,则折合成分数为“200000分”。另外,对于咨询购房所在地为##的用户,将由所有客户的客户会话数据所得到的地产行业评价中的“分值”进行相加,如步骤s232中,会话数据中所得到的客户对其咨询购房所在地的“购房政策”给予
“‑
6分”的评价,其中的
“‑
6分”就是“分值”。将客户对##的地产评价进行相加就得到客户对##地产行业的评价,示例性的##的地产行业评价为
“‑
20000分”,则可以得到##的地产行业景气度为“180000分”。分值越高表示该地区房地产市场更好,更具有可开发性。
154.由于地产行业无时无刻不在进行着交易,为了获取更加精确且动态变化的地产行业景气度,因此地产行业景气度可以仅仅根据最新一个时间段内的购房需求量以及地产行业评价进行计算。
155.此外,也可通过获取一个地区连续时间段内的行业景气度,来获取该地区地产行业景气度的变化趋势。
156.示例性的,对2022年6月-2022年12月产生的,客户咨询购房地在a地的客户会话数据,进行客户画像和地产行业评价的获取,就可以得到此时间段内a地的行业景气度。
157.在步骤s234中,地产行业景气度分布是将各地的地产行业景气度进行集中显示,便于各地行业景气度之间进行比较,从而为地产行业提供进一步的投资地域导向。
158.示例性的,将在步骤s234中所得的各地的地产行业景气度进行统计,即可以得到地产行业景气分布图。如根据各地的地产行业景气度,以各地地产行业景气度为竖轴,以各地的名称为横轴进行统计图的绘制,就可以得到特定时间段内的地产行业景气度分布。
159.请参阅图10,图10示出了根据本技术一实施例的一种地产行业景气度分布的计算装置的示意图。本技术实施例的一种地产行业景气度分布的计算装置主要包括以下模块:
160.分词模块610,用于对获取的客户会话数据进行分词处理获得意图关键词,意图关键词标示相应客户的地产描述内容;
161.获取模块620,用于由意图关键词被标注的意图结果得到所述客户在地产行业的意图结果;
162.生成模块630,用于面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布。
163.根据本技术实施例的行业景气度分布的计算方法可以由图11的加工设备来实现。下面参照图11来描述根据本技术实施例的加工设备。图11显示的加工设备仅仅是一个示例,不应对本技术实施例的功能和适用范围带来任何限制。
164.如图11所示,加工设备或以通用计算设备的形式表现。加工设备的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。
165.其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图3中所示的各个步骤。
166.存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(rom)8203。
167.存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
168.总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
169.加工设备也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该加工设备交互的设备通信,和/或与使得该加工设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口850进行。并且,加工设备还可以通过网络适配器860与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与点云相机12的其它模块通信。应当明白,尽管图中未示出,可以结合加工设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
170.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术
实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本技术实施方式的方法。
171.在本技术的示例性实施例中,还提供了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述方法实施例部分描述的方法。
172.根据本技术的一个实施例,还提供了一种用于实现上述方法实施例中的方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
173.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
174.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
175.可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
176.可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
177.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
178.此外,尽管在附图中以特定顺序描述了本技术中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现
期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
179.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本技术实施方式的方法。
180.本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由所附的权利要求指出。

技术特征:
1.一种地产行业景气度分布的获取方法,其特征在于,所述方法包括:对获取的客户会话数据进行分词处理获得意图关键词,所述意图关键词标示相应客户的地产描述内容;由所述意图关键词被标注的意图结果得到所述客户在地产行业的意图结果;面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布。2.根据权利要求1所述的方法,其特征在于,所述对获取的客户会话数据进行分词处理获得意图关键词之前,所述方法包括:对样本会话数据进行分词,所述样本会话数据在内容上与地产所相关;对所得各词根据词义衍生获取各词的近义词;根据所述各词以及各词近义词的词性进行非近义词之间的组合,以所得词句为意图关键词,将所有意图关键词收纳于关键词库;对收纳于所述关键词库的意图关键词进行意图结果的标注,通过所述意图结果的标注建立意图关键词与其所标注意图结果之间的对应关系。3.根据权利要求2所述的方法,其特征在于,所述对收纳于所述关键词库的意图关键词进行意图结果的标注,通过所述意图结果的标注建立意图关键词与其所标注意图结果之间的对应关系之前,所述方法包括:根据地产行业热点和潜在置业客户的关注点,创建评价意图结果和需求意图结果,将评价意图结果与需求意图结果收纳于意图结果库,所述意图结果库用于为意图关键词的标注提供意图结果。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:在对样本会话数据进行分词的过程中,利用jieba词库标记情感词并赋情感值,所述情感值用于创建评价意图结果。5.根据权利要求1所述的方法,其特征在于,所述对获取的客户会话数据进行分词处理获得意图关键词,包括:拉取潜在置业客户的会话记录,得到客户会话数据;对客户会话数据进行清洗,去除客户会话数据中无用语句得到精简会话数据;对精简会话数据进行分词,获取精简会话数据中标示客户地产描述内容的意图关键词。6.根据权利要求2所述的方法,其特征在于,所述对精简会话数据进行分词,获取精简会话数据中标示客户地产描述内容的意图关键词,包括:对所述精简会话数据进行分词并组合,得到精简会话数据中的关键词句;在关键词库中搜索与关键词句相同的意图关键词,得到精简会话数据中的意图关键词。7.根据权利要求6所述的方法,其特征在于,所述由所述意图关键词被标注的意图结果得到所述客户在地产行业的意图结果,包括:根据意图关键词、以及意图关键词与意图结果之间的对应关系,得到意图关键词对应的意图结果。8.根据权利要求4所述的方法,其特征在于,意图关键词包括需求意图关键词,所述方
法还包括:根据需求意图结果所对应的需求意图关键词,定位所述客户会话数据中需求意图关键词所在语句;根据所述需求意图关键词所在语句情感词的情感值,得到客户对所述需求意图关键词所标示的地产描述内容的偏好信息;根据客户标签和所述意图关键词所标示的地产描述内容的偏好信息,得到标示客户经济情况与购房需求的客户画像。9.根据权利要求8所述的方法,其特征在于,意图结果包括评价意图结果,所述面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布,还包括:根据所述评价意图结果所对应的评价意图关键词,定位评价意图关键词所在语句;根据所述评价意图关键词所在语句情感词的情感值,得到客户对所述评价意图关键词所对应评价意图结果的评价,为地产行业评价;根据客户画像以及客户对评价意图结果的评价,获取特定时间段内客户对各地区地产行业评价和购房需求量,为各地区地产行业景气度;对各地区地产行业景气度进行比较,得到地产行业景气度分布。10.一种地产行业景气度分布的计算装置,其特征在于,所述装置包括:分词模块,用于对获取的客户会话数据进行分词处理获得意图关键词,所述意图关键词标示相应客户的地产描述内容;获取模块,用于由所述意图关键词被标注的意图结果得到所述客户在地产行业的意图结果;生成模块,用于面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布。

技术总结
本申请提供了一种地产行业景气度分布的获取方法和装置,该方法包括:对获取的客户会话数据进行分词处理获得意图关键词,意图关键词标示相应客户的地产描述内容,由意图关键词获取所述客户在地产行业的意图结果,面向若干客户将所收集客户标签以及相应意图结果进行结合,生成地产行业景气度分布。本申请解决了对于行业景气度分布的获取,往往需要借助于大量数据,并且由于大量数据噪音过多,导致对大量数据进行分析计算获取地产行业景气度分布的时间过长以及误差过大的问题。的时间过长以及误差过大的问题。的时间过长以及误差过大的问题。


技术研发人员:谭予婷 郭思佳 张婧鹤 郑于锷
受保护的技术使用者:深圳市金地数字科技有限公司
技术研发日:2023.05.18
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐