一种基于业务内容的新闻与股票关联方法
未命名
08-15
阅读:166
评论:0

1.本发明涉及自然语言处理技术领域;特别涉及一种基于业务内容的新闻与股票关联方法。
背景技术:
2.科学有效的股票市场“智能”预测方法不仅可以为交易监管机构制定稳定金融市场的政策提供基本信息,同时也为投资者获利和避免风险提供了一个重要参数。然而股票价格波动率取决于诸多因素,除公司自身经营状况外,还有股票政策、自然灾害等突发事件。与此同时,突发事件对股价的影响又是巨大的,但针对该问题当前的股价预测研究尚未取得较好解决方法。此外,在众多“智能”或人工预测方法中根据重大突发事件快速有效的锚定与事件相关的股票又是解决该难题的基础问题。
3.与此同时,当前新闻与股票的关联方法,大都采用新闻中提及某公司或某类公司特征的方法。而此类方法往往只能在股价已经发生变化或走势已为大众所熟知后才能得知,此时再为投资者获利和避免风险或监管机构制定策略提供参考已错过最佳时机。此外,此类方法也存在颗粒度较大的问题,导致只能挖掘出某一类与新闻关联性较强的股票或新闻中提及的少数几支股票。
技术实现要素:
4.为了克服上述现有方法中的缺点和不足,本发明的目的在于提供一种基于业务内容的新闻与股票关联方法,能够更加及时有效且更精准的关联与新闻相关更多的股票,以方便用户锚定事件将影响的股票。
5.本发明的目的通过如下技术方案予以实现:
6.一种基于业务内容的新闻与股票关联方法,包括以下步骤:
7.s1:爬取2021年a股所有上市公司年报摘要版和至少一条新闻;
8.s2:截取所有公司年报的“报告期内主要业务或产品简介”章节部分文本,随后对文本进行分词处理,获得分词后的公司业务内容文本;
9.s3:利用自建的金融停用词库筛除无关词汇;
10.s4:改进的词频-逆文件频率算法(tf-idf)提取所有上市公司的业务内容关键字,并对其进行排序,保留排名前20的关键字;
11.s5:对新闻进行分词,随后用所有上市公司的关键字与新闻进行匹配,选取匹配词汇个数超过5个的公司为与新闻关联的股票。
12.进一步的,在所述s2中,所诉获取分词后的公司业务内容文本部分,因部分文本为无效文本需对文本进行筛选,在筛选有效年报后,最终获取4298家上市公司的业务内容作为实验数据。具体筛选步骤如下:
13.s201:删除重复,以及带有更正后、修订版字样的年报;
14.s202:对用pdfplumber包将pdf文件转换为txt文件失败,导致jieba分词后,业务
内容文本词汇数量小于20个的公司进行剔除。
15.进一步的,在所述s3中,所述自建金融停用词库的构建来源于三部分:
16.s301:将常用的通用词表导入库中,如百度、哈工大停用词表;
17.s302:使用同一行业的多家公司的业务内容的关键字进行匹配,将在同一业中出现频率过低的词汇加入库中。
18.s303:将最后与新闻匹配的公司业务内容关键词汇匹配的效果不好的词汇加入词库中。
19.进一步的,在所述s302中,所述同一行业的多家公司的业务内容的关键字进行匹配,具体步骤如下:
20.s3021;选取申万一级行业中的公司作为同一行业的标准;
21.s3022:提取出同一行业的所有公司的业务内容的关键字,保留排名前20的关键字;
22.s3023:统计词汇出现的频率,将频率出现的次数小于0.2的词汇加入停用词库中。
23.进一步的,在所述s4,所诉改进的词频-逆文件频率算法(tf-idf)提取所有上市公司的业务内容关键字,具体改进如下:
24.s401:在实际应用过程中,原始的tf-idf算法在实际应用过程中,提取出的部分关键字不能较好体现公司的业务内容,如“交换”“全景”,“交付”等词,同时由于此类关键字对于部分企业的业务内容有一定的表达能力亦不便于直接使用停用词剔除。因此,考虑减小其idf
ij
相对值的方法,以减小该关键词最后所计算出的权重;
25.s402:通过实验后采用赋予一个权重w=0.5的方式实现。得到改进后的idf
ij
值计算公式为:
26.w=0.5
[0027][0028]
式中di表示该关键词在所有公司年报中主要业务内容部分出现的次数,d为公司年报总数。idf
ij
表示该关键词在所有公司年报中主要业务内容部分的频率。
[0029]
进一步的,在所述s5,所诉用所有上市公司的关键字与新闻进行匹配,选取匹配词汇个数超过5个的公司为与新闻关联的股票。具体步骤如下:
[0030]
s501:对新闻文本进行分词处理;
[0031]
s502:对公司的排名前20的关键字与新闻进行匹配,对匹配词汇大于一定数量的公司判定为与新闻关联。
[0032]
s503:经过实验,选取匹配词汇数量大于等于5时效果较好。
[0033]
与现有技术相比,本发明具有如下有益效果:
[0034]
1、本发明通过利用改进的tf-idf算法,进行关键字提取,有效减少了许多通用但又不适合直接使用停用词筛除的词汇,使得提取出的关键字能更好的代表公司的业务内容;
[0035]
2、本发明通过将同行业的公司业务内容中出现频率较低的关键词和根据新闻与股票匹配后挑选出代表性不强的关键词加入自建金融停用词库,使得代表性不强的词汇在计算tf-idf值前就能有效的被剔除,最终有效加强了关键词对公司业务内容的代表性;
[0036]
3、本发明通过利用公司业务内容与新闻进行新闻与股票关联,实现了更加细化的股票与新闻关联,在更加精准关联的基础上,同时扩充了新闻能关联的股票范围。
附图说明
[0037]
图1为本发明一种基于业务内容的新闻与股票关联方法的流程图。
具体实施方式
[0038]
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
[0039]
实施例
[0040]
一种基于业务内容的新闻与股票关联方法,包括以下步骤:
[0041]
s1:爬取2021年a股所有上市公司年报摘要版和一条关于chatgpt引爆算力需求的相关新闻。
[0042]
s2:截取所有上市公司2021年年报的“报告期内主要业务或产品简介”章节部分文本,随后对文本进行分词处理,获得分词后的公司业务内容文本;因部分文本为无效文本需对文本进行筛选,在筛选有效年报后,最终获取4298家上市公司的业务内容作为实验数据,具体包括:
[0043]
s201:删除重复,以及带有更正后、修订版字样的年报;
[0044]
s202:对用pdfplumber包将pdf文件转换为txt文件失败,导致jieba分词后,业务内容文本词汇数量小于20个的公司进行剔除。
[0045]
s3:利用自建的金融停用词库筛除无关词汇,其中自建金融停用词库的构建来源于三部分,具体包括:
[0046]
s301:将常用的通用词表导入库中,如百度、哈工大停用词表;
[0047]
s302:使用同一行业的多家公司的业务内容的关键字进行匹配,将在同一业中出现频率过低的词汇加入库中。
[0048]
s303:将最后与新闻匹配的公司业务内容关键词汇匹配的效果不好的词汇加入词库中。
[0049]
具体包括:
[0050]
s3021;选取申万一级行业中的公司作为同一行业的标准;
[0051]
s3022:提取出同一行业的所有公司的业务内容的关键字,保留排名前20的关键字;
[0052]
s3023:统计词汇出现的频率,将频率出现的次数小于0.2的词汇加入停用词库中。
[0053]
s4:改进的词频-逆文件频率算法(tf-idf)提取所有上市公司的业务内容关键字,并对其进行排序,保留排名前20的关键字具体包括:
[0054]
s401:在实际应用过程中,原始的tf-idf算法在实际应用过程中,提取出的部分关键字不能较好体现公司的业务内容,如“交换”“全景”,“交付”等词,同时由于此类关键字对于部分企业的业务内容有一定的表达能力亦不便于直接使用停用词剔除。因此,考虑减小其idf
ij
相对值的方法,以减小该关键词最后所计算出的权重;
[0055]
s402:通过实验后采用赋予一个权重w=0.5的方式实现。得到改进后的idf
ij
值计
算公式为:
[0056]
w=0.5
[0057][0058]
式中di表示该关键词在所有公司年报中主要业务内容部分出现的次数,d为公司年报总数。idf
ij
表示该关键词在所有公司年报中主要业务内容部分的频率。
[0059]
s5:对新闻进行分词,随后用所有上市公司的关键字与新闻进行匹配,选取匹配词汇个数超过5个的公司为与新闻关联的股票。具体包括:
[0060]
s501:对新闻文本进行分词处理;
[0061]
s502:对公司的排名前20的关键字与新闻进行匹配,对匹配词汇大于一定数量的公司判定为与新闻关联。
[0062]
s503:经过实验,选取匹配词汇数量大于等于5时效果较好。
[0063]
最终匹配出紫光股份(000938),千方科技(002373),科大讯飞(002230)等79家与该新闻关联的股票。
[0064]
本发明通过利用公司业务内容与新闻进行新闻与股票关联,实现了更加细化的股票与新闻关联,在更加精准关联的基础上,同时充了新闻能关联的股票范围;通过利用改进的tf-idf算法,进行关键字提取,有效减少了许多通用但又不适合直接使用停用词筛除的词汇,使得提取出的关键字能更好的代表公司的业务内容;通过将同行业的公司业务内容中出现频率较低的关键词和根据新闻与股票匹配后挑选出代表性不强的关键词加入自建金融停用词库,使得代表性不强的词汇在计算tf-idf值前就能有效的被剔除,最终有效加强了关键词对公司业务内容的代表性;
[0065]
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
技术特征:
1.一种基于业务内容的新闻与股票关联方法,其特征在于:包括以下步骤:s1:爬取2021年a股所有上市公司年报摘要版和至少一条新闻;s2:截取所有公司年报的“报告期内主要业务或产品简介”章节部分文本,随后对文本进行分词处理,获得分词后的公司业务内容文本;s3:利用自建的金融停用词库筛除无关词汇;s4:改进的词频-逆文件频率算法(tf-idf)提取所有上市公司的业务内容关键字,并对其进行排序,保留排名前20的关键字;s5:对新闻进行分词,随后用所有上市公司的关键字与新闻进行匹配,选取匹配词汇个数超过5个的公司为与新闻关联的股票。2.根据权利要求1所述的。一种基于业务内容的新闻与股票关联方法,其特征在于:在所述s2中,所诉获取分词后的公司业务内容文本部分,因部分文本为无效文本需对文本进行筛选,在筛选有效年报后,最终获取4298家上市公司的业务内容作为实验数据。具体筛选步骤如下:s201:删除重复,以及带有更正后、修订版字样的年报;s202:对用pdfplumber包将pdf文件转换为txt文件失败,导致jieba分词后,业务内容文本词汇数量小于20个的公司进行剔除。3.根据权利要求1所述的一种基于业务内容的新闻与股票关联方法,其特征在于:在所述s3中,所述自建金融停用词库的构建来源于三部分:s301:将常用的通用词表导入库中,如百度、哈工大停用词表;s302:使用同一行业的多家公司的业务内容的关键字进行匹配,将在同一业中出现频率过低的词汇加入库中;s303:将最后与新闻匹配的公司业务内容关键词汇匹配的效果不好的词汇加入词库中。4.根据权利要求3所述的一种基于业务内容的新闻与股票关联方法,其特征在于:在所述s302中,所述同一行业的多家公司的业务内容的关键字进行匹配,具体步骤如下:s3021;选取申万一级行业中的公司作为同一行业的标准;s3022:提取出同一行业的所有公司的业务内容的关键字,保留排名前20的关键字;s3023:统计词汇出现的频率,将频率出现的次数小于0.2的词汇加入停用词库中。5.一种基于业务内容的新闻与股票关联方法,其特征在于:在所述s4,所诉改进的词频-逆文件频率算法(tf-idf)提取所有上市公司的业务内容关键字,具体改进如下:s401:在实际应用过程中,原始的tf-idf算法在实际应用过程中,提取出的部分关键字不能较好体现公司的业务内容,如“交换”“全景”,“交付”等词,同时由于此类关键字对于部分企业的业务内容有一定的表达能力亦不便于直接使用停用词剔除。因此,考虑减小其idf
ij
相对值的方法,以减小该关键词最后所计算出的权重;s402:通过实验后采用赋予一个权重w=0.5的方式实现。得到改进后的idf
ij
值计算公式为:w=0.5
式中d
i
表示该关键词在所有公司年报中主要业务内容部分出现的次数,d为公司年报总数。idf
ij
表示该关键词在所有公司年报中主要业务内容部分的频率。6.一种基于业务内容的新闻与股票关联方法,其特征在于:在所述s5,所诉用所有上市公司的关键字与新闻进行匹配,选取匹配词汇个数超过5个的公司为与新闻关联的股票。具体步骤如下:s501:对新闻文本进行分词处理;s502:对公司的排名前20的关键字与新闻进行匹配,对匹配词汇大于一定数量的公司判定为与新闻关联。s503:经过实验,选取匹配词汇数量大于等于5时效果较好。
技术总结
本发明公开了一种基于业务内容的新闻与股票关联方法,属于自然语言处理领域,包括以下步骤:步骤一:爬取上市公司年报和新闻;步骤二:截取年报中业务内容部分,随后对文本进行分词处理;步骤三:利用自建的金融停用词库筛除无关词汇;步骤四:用改进的词频-逆文件频率算法(TF-IDF)提取上市公司的业务内容关键字,以提高关键字对业务内容的代表性;步骤五:对新闻进行分词,随后用关键词与新闻进行匹配来实现股票与新闻的关联。对当前的股票与新闻关联方法只能挖掘出与新闻关联性较强少数几支股票的问题,本发明利用公司的业务内容与新闻进行关联,在更加精准关联的基础上,同时扩充了新闻能关联的股票范围,方便用户锚定事件将影响的股票。影响的股票。影响的股票。
技术研发人员:杨江 韩斌 许滔 徐杰
受保护的技术使用者:江苏科技大学
技术研发日:2023.05.10
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种管道病害检测方法及系统与流程 下一篇:一种敲击传感器的安装结构的制作方法