智能化数据分析方法、存储介质及电子设备与流程
未命名
07-12
阅读:64
评论:0

1.本技术涉及数据分析领域,具体而言,涉及一种智能化数据分析方法、存储介质及电子设备。
背景技术:
2.随着数字化的发展,越来越多的客户会采用网上消费的方式满足日常生活,随之电商产业快速发展,但是由于各商家提供的产品质量、服务质量并无相应的统一标准,目前客户消费前会借鉴电商评论来决定是否进行消费。
3.随之产生了用户体验saas产品,能够为客户提供实时的行业全网平台商品销售客户评论分析结果,了解顾客对于所销售产品的反馈与满意度,进而更好地帮助企业对商品质量和服务进行有效的提升。
4.目前而言常规的用户体验saas产品中的数据分析方法,如申请号为:201510098508.4,公开了评价信息生成方法和装置,该评价信息生成方法包括:抓取信息点的评论数据;获取与所述信息点关联的用户个性信息;根据预置规则在所述评论数据中拆分出与所述用户个性信息类别匹配的评论短句;将所述评论短句组合成自然语言,生成评价信息。本发明实施例不仅避免了现有方法获得的由一个个独立标签构成的评价信息,通过生成包含评价信息的自然语言,提高了评价信息的可读性。而且,通过结合用户个性信息,可以为用户屏蔽到大量用户不关心的信息,直接提供用户所需的评价信息,使得评价信息更加简单直接,减少了干扰信息,同时也降低了用户获取所需信息的成本。
5.上述方案中虽然能够从完成数据分析,而且用户也能够获取所需的信息,但是用户获取的仅仅是文字信息,而由于每个客户的生活质量以及消费要求不同,同一个产品在不同客户之间会产生不一样的评价结果,因此仅仅基于文字评价无法能够精准地表达该产品在大众客户中评价结果,而且对于后续客户消费的参考也无法精准。
技术实现要素:
6.本技术的主要目的在于提供一种智能化数据分析方法、存储介质及电子设备,解决目前的评价结论无法充分展示产品真实状况的问题。
7.为了实现上述目的,第一方面,本技术提供了一种智能化数据分析方法。
8.根据本技术的智能化数据分析方法,包括以下步骤:
9.s1、数据采集:基于信息点对与信息点相关联的电商评论数据进行采集,所采集的数据包括文字信息以及图片信息,并对未有关联的文字信息的图片信息进行筛分;
10.s2、数据处理:对采集的数据进行去重去垃圾处理;
11.s3、将筛分的图片信息转化为文字信息;
12.s4、ai情感模型训练与预测,对所有文字信息进行对应行业的ai情感模型训练工作,ai情感模型完成后,使用该模型对文字信息进行批量的ai情感预测形成评论信息;
13.s5、数据分析,将经过ai情感预测的评论信息依据中性评论、正向评论以及负向评
论进行归类,并进行数据统计,其中中性评论为该评论信息中正负向比例大于或等于预设阈值的评论信息,同时标注各评论中比例值最大的评论信息,将该类评论信息经过过滤、组合形成总评信息;
14.s6、将总评信息与图片信息vs相似度对比,选择vs值最高的图片信息作为总评信息的关联评论。
15.进一步改进的是,步骤s1中采用基于python语言编辑的网络爬虫进行数据采集。
16.进一步改进的是,步骤s3中ai情感模型中预设有同义的属性词表。
17.进一步改进的是,步骤s3中ai情感模型中预设有各场景的隐性观点词。
18.进一步改进的是,步骤s5中vs相似度对比为通过经过训练的视觉语义嵌入模型计算图像和文本之间的距离来衡量合成图像和文本之间的对齐,该模型的计算公式为其中ft表示的是文本编码器,fx表示的是图像编码器,vs表示计算编码后的文本和图像的余弦值相似度。
19.进一步改进的是,步骤s2中数据处理采用mq将采集的文字信息中转落库至mysql数据库中,之后使用java对数据进行初步的去重去垃圾数据处理。
20.进一步改进的是,步骤s4中采用了使用olap引擎技术的apache kylin数据库进行数据分析。
21.进一步改进的是,步骤s4中,所述数据统计包括柱状图或者表格。
22.第二方面,本技术还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述智能化数据分析方法的步骤。
23.第三方面,本技术还提供了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述智能化数据分析方法的步骤。
24.本发明提供的智能化数据分析方法,与现有技术相比,其有益效果为:该方法基于不仅具备现有的将电商评论进行情感分析后进行汇总能够提供给商家作为后续商品服务改善的参考依据,同时给出供选择客户参考的总评信息以及关联评论的图片,客户结合评论以及图片做出更为贴切的消费选择。
附图说明
25.构成本技术的一部分的附图用来提供对本技术的进一步理解,使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
26.图1是智能化数据分析方法的流程示意图。
具体实施方式
27.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范
围。
28.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.在本技术中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本技术及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
30.并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本技术中的具体含义。
31.另外,术语“多个”的含义应为两个以及两个以上。
32.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
33.如图1所示,一种智能化数据分析方法,包括以下步骤:
34.s1、数据采集:基于信息点对与信息点相关联的电商评论数据进行采集,所采集的数据包括文字信息以及图片信息,采用基于python语言编辑的网络爬虫进行数据采集,使用python语言研究数据采集策略和防屏蔽规则,解决js逆向、封账号、封ip、验证码、滑块等难点,并对未有关联的文字信息的图片信息进行筛分;
35.s2、数据处理:对采集的数据进行去重去垃圾处理,采用mq将采集的文字信息中转落库至mysql数据库中,之后使用java对数据进行初步的去重去垃圾数据处理;
36.s3、利用ocr文字识别技术将筛分的图片信息转化为文字信息;
37.s4、ai情感模型训练与预测,对所有文字信息进行对应行业的ai情感模型训练工作,ai情感模型完成后,使用该模型对文字信息进行批量的ai情感预测形成评论信息,ai情感分析采用了先进的自然语言处理技术,可高效地对海量级电商评论数据进行分词与情感预测;
38.s5、数据分析,将经过ai情感预测的评论信息依据中性评论、正向评论以及负向评论进行归类,并进行数据统计,其中中性评论为该评论信息中正负向比例大于或等于预设阈值的评论信息,同时标注各评论中比例值最大的评论信息,将该类评论信息经过过滤、组合形成总评信息,采用了使用olap引擎技术的apache kylin数据库进行数据分析;
39.s6、将总评信息与图片信息vs相似度对比,选择vs值最高的图片信息作为总评信息的关联评论。
40.ai情感模型中预设有同义的属性词表,ai情感模型中预设有各场景的隐性观点词,支持引入业务侧积累的经验和知识,包括同义属性和隐性观点词表,加强模型进行属性聚合和隐性观点抽取的能力,进一步提高模型对于业务场景数据的分析能力。
41.在用户对产品或服务进行评论时,对某一些属性可能会有不同的说法,这会在后
续对属性分析时可能会带来困扰。如以下示例中的"价格","价钱"和"费用"。
42.蛋糕味道不错,外观很漂亮,而且价格比较便宜
43.蛋糕味道不错,外观很漂亮,而且价钱比较便宜
44.蛋糕味道不错,外观很漂亮,而且费用比较便宜
45.针对这种情况,针对属性相关任务,本项目同时支持用户结合业务经验,通过设置同义的属性词表,加强模型的属性聚合能力。以下给出了酒店场景的示例,每行代表1类同义词,不同词之间以"空格"隔开。
46.房间屋子房子
47.位置地理位置
48.隔音隔声
49.价格价钱费用。
50.另外,本项目同时支持加强对隐性观点功能抽取的能力,这里需要说明一点,本项目中定义隐性观点是指没有对应属性的纯观点词,如以下示例中的"比较便宜"便是隐性观点,“蛋糕味道不错,外观很漂亮,而且比较便宜”。
51.本项目支持用户提供一个隐性观点映射文件,用户可以根据自己的业务场景定义隐性观点词,以下给出了酒店场景的示例。其格式为,第1个单词为隐性观点对应的属性,后续按照情感情感倾向对隐性观点词进行了归类,同一类的以"[]"方式放到一块。
[0052]
价格,正向[实惠便宜超划算划算物超所值物有所值不贵],负向[贵不便宜不划算]
[0053]
卫生,正向[干净],负向[很脏很臭不干净]
[0054]
隔音,负向[好吵]
[0055]
位置,负向[不太好找]
[0056]
步骤s5中vs相似度对比为通过经过训练的视觉语义嵌入模型计算图像和文本之间的距离来衡量合成图像和文本之间的对齐,该模型的计算公式为其中ft表示的是文本编码器,fx表示的是图像编码器,vs表示计算编码后的文本和图像的余弦值相似度。
[0057]
所述数据统计包括柱状图或者表格,由此提供了更为可视化的图形化报表参考数据供商家进行参考。
[0058]
第二方面,本技术还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述智能化数据分析方法的步骤。
[0059]
第三方面,本技术还提供了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述智能化数据分析方法的步骤。
[0060]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
技术特征:
1.一种智能化数据分析方法,其特征在于,包括以下步骤:s1、数据采集:基于信息点对与信息点相关联的电商评论数据进行采集,所采集的数据包括文字信息以及图片信息,并对未有关联的文字信息的图片信息进行筛分;s2、数据处理:对采集的数据进行去重去垃圾处理;s3、将筛分的图片信息转化为文字信息;s4、ai情感模型训练与预测,对所有文字信息进行对应行业的ai情感模型训练工作,ai情感模型完成后,使用该模型对文字信息进行批量的ai情感预测形成评论信息;s5、数据分析,将经过ai情感预测的评论信息依据中性评论、正向评论以及负向评论进行归类,并进行数据统计,其中中性评论为该评论信息中正负向比例大于或等于预设阈值的评论信息,同时标注各评论中比例值最大的评论信息,将该类评论信息经过过滤、组合形成总评信息;s6、将总评信息与图片信息vs相似度对比,选择vs值最高的图片信息作为总评信息的关联评论。2.如权利要求1所述的智能化数据分析方法,其特征在于,步骤s1中采用基于python语言编辑的网络爬虫进行数据采集。3.如权利要求1所述的智能化数据分析方法,其特征在于,步骤s3中ai情感模型中预设有同义的属性词表。4.如权利要求1所述的智能化数据分析方法,其特征在于,步骤s3中ai情感模型中预设有各场景的隐性观点词。5.如权利要求1所述的智能化数据分析方法,其特征在于,步骤s5中vs相似度对比为通过经过训练的视觉语义嵌入模型计算图像和文本之间的距离来衡量合成图像和文本之间的对齐,该模型的计算公式为其中ft表示的是文本编码器,fx表示的是图像编码器,vs表示计算编码后的文本和图像的余弦值相似度。6.如权利要求1所述的智能化数据分析方法,其特征在于,步骤s2中数据处理采用mq将采集的文字信息中转落库至mysql数据库中,之后使用java对数据进行初步的去重去垃圾数据处理。7.如权利要求1所述的智能化数据分析方法,其特征在于,步骤s4中采用了使用olap引擎技术的apache kylin数据库进行数据分析。8.如权利要求1所述的智能化数据分析方法,其特征在于,步骤s4中,所述数据统计包括柱状图或者表格。9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任一项所述智能化数据分析方法的步骤。10.一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述智能化数据分析方法的步骤。
技术总结
本发明公开了一种智能化数据分析方法、存储介质及电子设备,该方法包括:数据采集、数据处理、AI情感模型训练与预测、数据分析、将总评信息与图片信息VS相似度对比,选择VS值最高的图片信息作为总评信息的关联评论,解决目前的评价结论无法充分展示产品真实状况的问题。评价结论无法充分展示产品真实状况的问题。评价结论无法充分展示产品真实状况的问题。
技术研发人员:张宇
受保护的技术使用者:北京博晓通科技有限公司
技术研发日:2023.03.24
技术公布日:2023/7/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/