一种融合股民情绪和股票事件的多特征股票趋势预测方法
未命名
08-07
阅读:112
评论:0

1.本发明涉及医疗器械烘干装置技术领域,具体为一种融合股民情绪和股票事件的多特征股票趋势预测方法。
背景技术:
2.随着大数据时代的到来,全球数据量爆发式增长,数据的公开程度越来越高,采集数据的方式越来越多,采集数据的难度也越来越低,这促使了计算机软硬件及相关技术在数据量不断增加的社会演化过程中持续发展,不同的领域的研究者们都开始思考是否可以使用一种技术性手段完成专业程度要求高、耗费时间长、花费成本大的数据分析工作,股票预测便是金融领域中针对股市做研究的一个热点问题。
3.股票预测是指对股市具有深刻了解的证券分析人员根据股票行情的发展进行的对未来股市发展方向以及涨跌程度的预测行为。这种预测行为只是基于假定的因素为既定的前提条件为基础的,并且会基于一定的股票走势数据进行系统化的分析,获得未来走势预测趋势。但是,现有的一些股价预测方法大多是基于传统机器学习利用开盘价、收盘价、最高价、最低价、成交量等这些线性历史数据来预测,但是市场波动较大,单独依靠历史财务数据进行预测效果并不明显。
4.由于金融市场复杂多变,影响其发展趋势的因素众多,因此排除一些数据噪声,利用一些技术手段找出优质的数据特征并通过优质的模型提高股市的预测准确率对社会稳定发展至关重要。深度学习技术在时代的发展下诞生,其能对海量不同类型的数据进行数据建模,对许多数据分析工作起到了划时代的作用。
5.针对上述问题,我们提出一种实用性更高的融合股民情绪和股票事件的多特征股票趋势预测方法。
技术实现要素:
6.本发明的目的在于提供一种融合股民情绪和股票事件的多特征股票趋势预测方法,解决了现有的问题。
7.为实现上述目的,本发明提供如下技术方案:一种融合股民情绪和股票事件的多特征股票趋势预测方法,包括以下步骤:
8.s1、获取目标股票财务数据以及该时间段内对应股票的新闻事件文本信息以及股民评论文本信息;
9.s2、文本数据和财务数据预处理;
10.s3、股民文本信息情感词典的构建;
11.s4、事件新闻文本的实体抽取以及关系抽取,将所有抽取的元素构建事件网络;
12.s5、新闻事件文本信息和股民评论文本信息特征的提取;
13.s6、融合股民情绪和股票事件的多特征股票趋势预测模型的构建及股票趋势的预测。
14.优选的,所述步骤s1中,利用python访问akshare接口,调取接口中股票的历史财务数据模块,进一步对以天为单位股票的基本数据进行获取,其中包括:收盘价、开盘价、成交量等基本信息,再通过爬虫技术在东方财富网中的研报模块和股吧模块获取股票的新闻文本信息和股民评论信息。
15.优选的,所述步骤s2中,对采集到的股票的新闻文本信息和股民评论信息进行筛选,选取标题中或者文本内容内含有股票名称的新闻,筛选出冗余的新闻信息并去除;
16.其中,财务数据预处理,包括以下步骤:
17.s21、数据清洗:去除包含有缺失值的数据,并将股票数据时间特征替换成规定格式以便将后续实验数据与其对齐;
18.s22、标准化处理:消除原始数据中不同的特征,采用z-score对股票财务数据进行标准化,公式1如下所示,
[0019][0020]
xi表示第i天的数据值,μi和σi分别代表所有xi数据的均值和标准差。
[0021]
优选的,所述步骤s3中,情感词典内容包括基础情感词典、修饰词词典和金融领域情感词典;
[0022]
金融领域情感词典是从在线路演纪要、业绩说明电话会议纪要、ipo招股报告、公司年报构建的基础语料库中提取出来的;
[0023]
金融领域情感词典包括:选取ntu评价词词典、hownet评价词词典、mpqa这三个较为著名的基础词典,合并这三个情感词典,去除重复词;
[0024]
基础语料:收集在线路演纪要、业绩说明电话会议纪要、ipo招股报告和公司年报,并使用jieba分割文档;
[0025]
计算合并词典所有的词在基础语料中的词频,词频数为0和与金融不相关的词语剔除掉。
[0026]
优选的,所述步骤s4中,实体抽取以及关系抽取选用albert_bi-lstm_crf模型;
[0027]
其中,实体分为人名、地名、组织机构名、事件发生时间;
[0028]
事件分为增持事件、减持事件、收购事件、质押事件、股价上涨事件、股价下跌事件;
[0029]
模型中bi-lstm_crf部分负责实体抽取和关系抽取,albert部分负责事件识别。
[0030]
优选的,所述步骤s5中,包括事件类别特征和事件网络影响力特征;
[0031]
其中,事件类别特征由二维矩阵构成,矩阵行特征为股票财务数据的日期,记为:date={t1,t2,t3,...,ti,...tn},矩阵列特征为事件类型,记为:event={s1,s2,s3,...,sj,...sk},矩阵中元素意义为当该股票当天出现一类或者几类事件,则矩阵中对应位置标为1,否则标为0;
[0032]
事件网络影响力特征中的数值是由网络中的度中心性、介数中心性、特征向量中心性组成,该部分也是一个二维矩阵,矩阵行特征为股票财务数据的日期,记为:date={t1,t2,t3,...,ti,...tn},矩阵列特征为三个中心性指标,记为:event={p1,p2,p3};
[0033]
股民评论文本信息特征提取来源于每个新闻事件文本下对应的评论信息,采用了bi-lstm进行分析,该部分为一维向量组成,记为emotion={c1,c2,c3,...,ci,...cn},模型
经过softmax层后将每各评论文本情感倾向值范围分化为[-1,1],由于每个新闻事件文本下评论数目不一,因此设d=[m1,m2,m3,...,mi,...,mn],n为每篇新闻事件文本评论数,mi为新闻事件文本下每条评论的情感分析数值,设e=[w1,w2,w3,...,wi,...,wn]为新闻事件文本下每条评论的点赞数,综上所述每篇新闻事件公式(2)记为:
[0034][0035]
对每天每个股票对应的公司的所有新闻事件求得的情感倾向值z相加求均值则得到emotion向量内的每个元素,为了进一步将两种情绪极性积极和消极区分开,设定当ci<0代表评论文本情绪为消极,反之为积极,即:
[0036][0037]
emotion向量中每个元素为积极时标为1,消极时标为0。
[0038]
优选的,所述步骤s6中,将股票财务数据的特征、新闻事件文本信息特征、股民评论文本信息特征所组合的数据输入cnn-lstm混合深度神经网络,在模型的训练阶段结束后对测试股票涨跌进行预测,基于时间连续的股票数据预测每日收盘价格,最后预测结果可以分为两类:1表示股票价格上涨,0表示股票价格不变或者下跌。
[0039]
与现有技术相比,本发明的有益效果如下:
[0040]
本发明将重点关注网络上事件的文本数据以及事件对所处的网络影响程度,从而研究相关新闻所属事件对国内股票的影响,其核心思想是首先构建事件网络,结合网络中事件量化体系和方法针对不同的事件进行不同程度的量化,然后采用情感分析等自然语言处理技术对股民评论进行处理分析,最后结合历史股票数据,对相对应的上市公司股价进行预测,进一步提高预测的精准度,本发明可帮助投资者透过公司数据本身,绕开“投资头部公司一定稳赚不赔”这一陷阱,收获更大的利益,这也使得本发明具有重要的现实意义。
附图说明
[0041]
图1为本发明所述的的操作流程图;
[0042]
图2为事件网络构成的示意图;
[0043]
图3为基于bi-lstm的新闻情感分析模型的结构示意图;
[0044]
图4为卷积神经网络(cnn)的结构示意图;
[0045]
图5为自注意力机制的(attention)的结构示意图;
[0046]
图6为长短期记忆神经网络(lstm)的结构示意图。
具体实施方式
[0047]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0048]
如图1、图2、图3、图4、图5和图6所示,一种融合股民情绪和股票事件的多特征股票趋势预测方法,包括以下步骤:
[0049]
步骤s1、获取目标股票财务数据以及该时间段内对应股票的新闻事件文本信息以及股民评论文本信息;
[0050]
获取所选择第一目标股票财务数据的特征数据,该样本数据集是以天为单位的股票行情数据,以及可将文本获取时间范围与股票交易数据对齐,获取该时间段内对应股票的新闻事件文本信息以及股民评论文本信息;
[0051]
利用python访问akshare接口,调取接口中股票的历史财务数据模块,进一步对以天为单位股票的基本数据进行获取,其中包括:收盘价、开盘价、成交量等基本信息,再通过爬虫技术在东方财富网中的研报模块和股吧模块获取股票的新闻文本信息和股民评论信息;
[0052]
s2、文本数据和财务数据预处理;
[0053]
对采集到的股票的新闻文本信息和股民评论信息进行筛选,选取标题中或者文本内容内含有股票名称的新闻,筛选出冗余的新闻信息并去除;
[0054]
其中,财务数据预处理,包括以下步骤:
[0055]
s21、数据清洗:去除包含有缺失值的数据,并将股票数据时间特征替换成规定格式以便将后续实验数据与其对齐;
[0056]
s22、标准化处理:消除原始数据中不同的特征,采用z-score对股票财务数据进行标准化,公式1如下所示,
[0057][0058]
xi表示第i天的数据值,μi和σi分别代表所有xi数据的均值和标准差;
[0059]
s3、股民文本信息情感词典的构建;
[0060]
情感词典内容包括基础情感词典、修饰词词典和金融领域情感词典;
[0061]
金融领域情感词典是从在线路演纪要、业绩说明电话会议纪要、ipo招股报告、公司年报构建的基础语料库中提取出来的;
[0062]
金融领域情感词典包括:选取ntu评价词词典、hownet评价词词典、mpqa这三个较为著名的基础词典,合并这三个情感词典,去除重复词;
[0063]
基础语料:收集在线路演纪要、业绩说明电话会议纪要、ipo招股报告和公司年报,并使用jieba分割文档;
[0064]
计算合并词典所有的词在基础语料中的词频,词频数为0和与金融不相关的词语剔除掉;
[0065]
人工再向词典中加入金融领域最常用的200个正面词和200个负面词;
[0066]
s4、事件新闻文本的实体抽取以及关系抽取,将所有抽取的元素构建事件网络;
[0067]
事件新闻文本的实体抽取以及关系抽取,将所有抽取的元素构建成事件网络;
[0068]
事件新闻文本的实体抽取以及关系抽取、事件网络的构建,具体如下所述:
[0069]
实体抽取以及关系抽取选用当前研究的较多albert_bi-lstm_crf模型,该模型训练数据选用人民日报ner数据集、cluener数据集和ccks2020数据集,数据集中实体分为人名、地名、组织机构名、事件发生时间等,事件分为增持事件、减持事件、收购事件、质押事件、股价上涨事件、股价下跌事件等,鉴于需要量化要所选股票每日事件影响力因此特别要注意的是组织结构名需与事件发生时间组合,这样每日由于事件节点数不同导致影响力不同从而导致量化后影响力数值也不同,数据集标注系统采用bio系统;
[0070]
模型中bi-lstm_crf部分负责实体抽取和关系抽取,albert部分负责事件识别;
[0071]
事件网络由事件类型与所识别出的各类实体组成,网络中各实体之间用连线连接,连线代表实体与事件之间的关系,构造如图2所示;
[0072]
s5、新闻事件文本信息和股民评论文本信息特征的提取,具体如下所述:
[0073]
新闻事件文本信息特征提取来源于事件网络,该部分特征分为两部分,两部分特征具体如下所述:
[0074]
第一部分为事件类别特征,该部分由二维矩阵构成,矩阵行特征为股票财务数据的日期,记为:date={t1,t2,t3,...,ti,...tn},矩阵列特征为事件类型,记为:event={s1,s2,s3,...,sj,...sk},矩阵中元素意义为当该股票当天出现一类或者几类事件,则矩阵中对应位置标为1,否则标为0;
[0075]
第二部分事件网络影响力特征,该部分数值由网络中的度中心性(degrree centrality)、介数中心性(betweeness centrality)、特征向量中心性(eigenvector centrality)组成,该部分也是一个二维矩阵,矩阵行特征为股票财务数据的日期,记为:date={t1,t2,t3,...,ti,...tn},矩阵列特征为三个中心性指标,记为:event={p1,p2,p3}。
[0076]
股民评论文本信息特征提取来源于每个新闻事件文本下对应的评论信息,特征具体如下所述:
[0077]
采用了bi-lstm进行分析,bi-lstm神经网络结构模型分为2个独立的lstm,输入序列分别以正序和逆序输入2个lstm神经网络进行特征提取,这种神经网络结构对文本特征提取效率和性能要优于单个lstm结构模型,具体结构如图3所示;
[0078]
该部分为一维向量组成,记为emotion={c1,c2,c3,...,ci,...cn},模型经过softmax层后将每各评论文本情感倾向值范围分化为[-1,1],由于每个新闻事件文本下评论数目不一,因此设d=[m1,m2,m3,...,mi,...,mn],n为每篇新闻事件文本评论数,mi为新闻事件文本下每条评论的情感分析数值,设e=[w1,w2,w3,...,wi,...,wn]为新闻事件文本下每条评论的点赞数,综上所述每篇新闻事件公式记为:
[0079][0080]
对每天每个股票对应的公司的所有新闻事件求得的情感倾向值z相加求均值则得到emotion向量内的每个元素,为了进一步将两种情绪极性积极和消极区分开,设定当ci<0代表评论文本情绪为消极,反之为积极,emotion向量中每个元素为积极时标为1,消极时标为0,具体如下:
[0081][0082]
s6、融合股民情绪和股票事件的多特征股票趋势预测模型的构建及股票趋势的预测;
[0083]
cnn-lstm混合深度神经网络模型的结构包括:
[0084]
卷积神经网络的基本结构大致包括:卷积层、激活函数、池化层、全连接层、输出层。其卷积运算操作能够对原始数据进行更高层次的表达,时序数据中时间相近的数据具有较强相关性,所以运用cnn能够很好的处理其局部特征,卷积神经网络结构如图4所示,卷积过程的公式如下所示:
[0085][0086]
f为非线性激活函数,本发明选择rule函数作为激活函数,x为输入数据,为卷积操作,w为卷积核的权重向量,b为偏移量。
[0087]
注意力机制给数据各个部分赋予权重,重点部分权重相对更高,基于这种机理从而可以将模型的焦点聚集在那些重要的部分。注意力机制作为一种加权求和的过程,其结构如图5所示,其权重计算公式如下所示:
[0088][0089]
q、k、v分别为输入张量与三个权重共享矩阵wq,wk,wv进行相乘操作得到的向量合并之后的矩阵。q为查询矩阵、k为键矩阵、v为值矩阵。k
t
为k矩阵的转置矩阵,dk矩阵的作用是调整内积维度。sigmoid激活函数将这些权重q.k进行归一化,使这些权重分数之和为1。
[0090]
lstm作为一种改进的循环神经网络模型,其结构包括了三种门和两种状态,lstm由输入门、输出门、遗忘门、当前细胞单元状态、隐藏单元状态组成,lstm具体结构如图6所示,具体公式如下所示:
[0091]it
=σ(wi·
[h
t-1
,x
t
]+bi)
[0092][0093]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
[0094]ot
=σ(wo·
(h
t-1
,x
t
)+bo)
[0095][0096][0097][0098]it
代表输入门,这部分由sigmoid层和tanh层组成;c
t
代表记忆单元。f
t
代表遗忘门,这部分可以控制哪些信息要保留、哪些信息要遗忘;c
t
代表输出门,这部分决定输出的信息;σ为sigmoid激活函数,该函数可以将输出值限制在范围[0,1]之间从而限制输出流量;为tanh函数,在生成候选记忆时候才使用tanh,该函数可以将输出范围限制在[-1,1],提升非线性建模的模型容量。
[0099]
在一个连续的时间段内,所选股票的收盘价格记为:{p1,p2,...,pi,...,pn},其中pi表示该股票在第i个交易日的收盘价格。为了定义股票的利好利空情况,将涨跌记为:{s1,s2,...,si,...,sn},其中si表示在第i个交易日股票的涨跌情况。1表示股票价格上涨,0表示股票价格不变或者下跌。
[0100]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种融合股民情绪和股票事件的多特征股票趋势预测方法,其特征在于,包括以下步骤:s1、获取目标股票财务数据以及该时间段内对应股票的新闻事件文本信息以及股民评论文本信息;s2、文本数据和财务数据预处理;s3、股民文本信息情感词典的构建;s4、事件新闻文本的实体抽取以及关系抽取,将所有抽取的元素构建事件网络;s5、新闻事件文本信息和股民评论文本信息特征的提取;s6、融合股民情绪和股票事件的多特征股票趋势预测模型的构建及股票趋势的预测。2.如权利要求1所述的一种融合股民情绪和股票事件的多特征股票趋势预测方法,其特征在于,所述步骤s1中,利用python访问akshare接口,调取接口中股票的历史财务数据模块,进一步对以天为单位股票的基本数据进行获取,其中包括:收盘价、开盘价、成交量等基本信息,再通过爬虫技术在东方财富网中的研报模块和股吧模块获取股票的新闻文本信息和股民评论信息。3.如权利要求1所述的一种融合股民情绪和股票事件的多特征股票趋势预测方法,其特征在于,所述步骤s2中,对采集到的股票的新闻文本信息和股民评论信息进行筛选,选取标题中或者文本内容内含有股票名称的新闻,筛选出冗余的新闻信息并去除;其中,财务数据预处理,包括以下步骤:s21、数据清洗:去除包含有缺失值的数据,并将股票数据时间特征替换成规定格式以便将后续实验数据与其对齐;s22、标准化处理:消除原始数据中不同的特征,采用z-score对股票财务数据进行标准化,公式1如下所示,x
i
表示第i天的数据值,μ
i
和σ
i
分别代表所有x
i
数据的均值和标准差。4.如权利要求1所述的一种融合股民情绪和股票事件的多特征股票趋势预测方法,其特征在于,所述步骤s3中,情感词典内容包括基础情感词典、修饰词词典和金融领域情感词典;金融领域情感词典是从在线路演纪要、业绩说明电话会议纪要、ipo招股报告、公司年报构建的基础语料库中提取出来的;金融领域情感词典包括:选取ntu评价词词典、hownet评价词词典、mpqa这三个较为著名的基础词典,合并这三个情感词典,去除重复词;基础语料:收集在线路演纪要、业绩说明电话会议纪要、ipo招股报告和公司年报,并使用jieba分割文档;计算合并词典所有的词在基础语料中的词频,词频数为0和与金融不相关的词语剔除掉。5.如权利要求1所述的一种融合股民情绪和股票事件的多特征股票趋势预测方法,其特征在于,所述步骤s4中,实体抽取以及关系抽取选用albert_bi-lstm_crf模型;
其中,实体分为人名、地名、组织机构名、事件发生时间;事件分为增持事件、减持事件、收购事件、质押事件、股价上涨事件、股价下跌事件;模型中bi-lstm_crf部分负责实体抽取和关系抽取,albert部分负责事件识别。6.如权利要求1所述的一种融合股民情绪和股票事件的多特征股票趋势预测方法,其特征在于,所述步骤s5中,包括事件类别特征和事件网络影响力特征;其中,事件类别特征由二维矩阵构成,矩阵行特征为股票财务数据的日期,记为:date={t1,t2,t3,...,t
i
,...t
n
},矩阵列特征为事件类型,记为:event={s1,s2,s3,...,s
j
,...s
k
},矩阵中元素意义为当该股票当天出现一类或者几类事件,则矩阵中对应位置标为1,否则标为0;事件网络影响力特征中的数值是由网络中的度中心性、介数中心性、特征向量中心性组成,该部分也是一个二维矩阵,矩阵行特征为股票财务数据的日期,记为:date={t1,t2,t3,...,t
i
,...t
n
},矩阵列特征为三个中心性指标,记为:event={p1,p2,p3};股民评论文本信息特征提取来源于每个新闻事件文本下对应的评论信息,采用了bi-lstm进行分析,该部分为一维向量组成,记为emotion={c1,c2,c3,...,c
i
,...c
n
},模型经过softmax层后将每各评论文本情感倾向值范围分化为[-1,1],由于每个新闻事件文本下评论数目不一,因此设d=[m1,m2,m3,...,m
i
,...,m
n
],n为每篇新闻事件文本评论数,m
i
为新闻事件文本下每条评论的情感分析数值,设e=[w1,w2,w3,...,w
i
,...,w
n
]为新闻事件文本下每条评论的点赞数,综上所述每篇新闻事件公式(2)记为:对每天每个股票对应的公司的所有新闻事件求得的情感倾向值z相加求均值则得到emotion向量内的每个元素,为了进一步将两种情绪极性积极和消极区分开,设定当c
i
<0代表评论文本情绪为消极,反之为积极,即:emotion向量中每个元素为积极时标为1,消极时标为0。7.如权利要求1所述的一种融合股民情绪和股票事件的多特征股票趋势预测方法,其特征在于,所述步骤s6中,将股票财务数据的特征、新闻事件文本信息特征、股民评论文本信息特征所组合的数据输入cnn-lstm混合深度神经网络,在模型的训练阶段结束后对测试股票涨跌进行预测,基于时间连续的股票数据预测每日收盘价格,最后预测结果可以分为两类:1表示股票价格上涨,0表示股票价格不变或者下跌。
技术总结
本发明公布了一种融合股民情绪和股票事件的多特征股票趋势预测方法,包括:S1、获取目标股票财务数据以及该时间段内对应股票的新闻事件文本信息以及股民评论文本信息;S2、文本数据和财务数据预处理;S3、股民文本信息情感词典的构建;S4、事件新闻文本的实体抽取以及关系抽取,将所有抽取的元素构建事件网络;S5、新闻事件文本信息和股民评论文本信息特征的提取;S6、融合股民情绪和股票事件的多特征股票趋势预测模型的构建及股票趋势的预测。本发明在预测股票涨跌走势方面的准确率有明显提高,可为用户的股票购买提供参考,从而让用户更方便的进行股票购买相关决策。户更方便的进行股票购买相关决策。户更方便的进行股票购买相关决策。
技术研发人员:韩忠明 喻启航
受保护的技术使用者:北京工商大学
技术研发日:2023.02.22
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/