一种包含相互关系的复杂多标签医疗数据的预处理方法及装置

未命名 10-09 阅读:115 评论:0


1.本发明属于数据处理领域,特别涉及一种包含相互关系的复杂多标签医疗数据的预处理方法及装置。


背景技术:

2.现有很多深度学习方法对医疗数据进行训练,通过从数据中发现疾病和症状之间的潜在联系,从而得到疾病的产生原因、发病可能、预防手段和治疗措施。
3.但现在对于进行深度学习之前的预处理部分研究较少,一个更好的预处理方法可以发现与所预测内容无关、关联很小的特征或相互冗余的特征,将这些特征在进行深度学习之前删除,不但可以提升计算效率,而且可以在一定程度上提高预测的准确率。
4.relief方法根据最邻近样本的差异判断特征与标签的相关性。同类的邻近样本特征存在差异则降低该特征权重。不同类的邻近样本特征存在差异则提高该特征权重。reyes等人通过修改先验概率估计构建多标签relieff特征选择方法。reyes等人考虑属于不同标签集的最近实例具有不同的特征值构建多标签relieff特征选择方法。等人使用基于汉明距离的相异函数构建多标签relieff特征选择方法。lee等人将互信息引入多标签特征选择,提出了一种被成为pmu的多标签特征选择方法。该算法使用多元互信息计算特征与标签的相关性,并使用增量方式选择特征。lin等人将单标签特征选择的中的最大最小冗余引入到多标签特征选择中,提出了多标签的最大最小冗余的版本ml-mdmr。lee等人提出一种快速的多标签特征选择方法fifm,通过修改原有的特征选择过程以加速特征选择的速度,以更快的进行特征选择。li等人提出了一种称为igmf的多标签特征选择方法。lee等人提出了一种称为d2f的多标签特征选择方法。lee等人提出了一种称为scls的多标签特征选择方法。miao提出一种被称作gmlf的粒度的多标签特征选择方法用来解决标签中存在的相关性问题。该方法使用信息粒将相关的标签聚到一个信息粒中,并使用平均来减少有标签的相关性影响,获得了更合适的特征子集,从而提高了分类性能。zhang在2019年提出被称作lrfs的多标签特征选择算法。lrfs提出了标签冗余的概念,并给出解决方法。该方法通过使用互信息计算标签之间的冗余性,以减少由于标签的冗余对特征选择产生的影响,选择更合适的特征子集。
5.但是现有的方法在处理特征和标签中都存在相互关系的数据时,并不能很好的处理相互之间的关系,致使不能选择更为合适的特征子集,使得深度学习方法不能得到更高的精度。


技术实现要素:

6.为了解决医疗的多标签数据中,存在的标签与标签之间的相互关系和特征与特征之间的相互关系,本发明提出一种包含相互关系的复杂多标签医疗数据的预处理方法,具体包括以下步骤:
7.将数据中缺失值大于99%特征进行删除,删除数据集中与预测无关的采集项,0值填充数据集中的空缺部分;
8.对于数据集中的数值型特征使用最小熵法进行离散化;
9.对数据集的标签进行聚类,将每个类簇靠近聚类中心的标签作为该类簇的代表标签,并将每个类簇中所有数据的标签更新为对应的代表标签;
10.结合数据特征与标签之间的协同性、相关性、冗余性和动态变化对数据的特征进行选择;
11.将处理后的数据的标签已经选择的特征作为预处理后的数据,完成预处理。
12.进一步的,通过聚类获取数据的代表标签的过程包括以下步骤:
13.对数据集的标签空间l={l1,l2,...,lm}进行粒化得到k个信息粒;
14.每个标签li依次被分配到与其最近的代表标签ci中,从而组成新的标签信息粒,对于每个新的标签信息粒gi重新生成代表标签ci。
15.进一步的,生成代表标签ci的过程包括:
[0016][0017]
其中,s(gi,ls)表示一个信息粒gi与其代表标签ls的距离。
[0018]
进一步的,一个信息粒gi与其代表标签ls的距离s(gi,ls)表示为:
[0019][0020][0021]
其中,h(lj)表示标签lj的信息熵,表示为p(a)表示标签lj的取值为a的概率;mi(lj;ci)表示标签lj与中心标签ci的互信息,表示为p(a,b)表示标签lj的取值为a、中心标签ci取值为b的联合概率;nmi(lj,ci)表示标签lj与中心标签ci的标签互信息,表示为
[0022]
进一步的,结合数据特征与标签之间的协同性、相关性、冗余性和动态变化对数据的特征进行选择的过程包括:
[0023][0024]
其中,j(xi)为特征选择函数,候选特征xi对应的特征选择函数的值越大,候选特征
xi被选择的可能越高;mi(xi;c|s)表示特征相关性;mi(s;c|xi)表示动态特征相关性;mi(xi;s|c)表示特征冗余性;mi(xi;s;c)表示特征的协同性;c为代表标签集,ck表示代表标签集中的第k个标签;s已选特征集合。
[0025]
进一步的,特征的协同性mi(xi;s;c)的计算包括:
[0026][0027][0028]
其中,mi(xi;s;ck)为单标签特征选择的特征协同性;mi(xi;xj;ck)表示在候选特征xi和已选特征xj在标签ck下的交互信息,表示为:mi(xi;xj;ck)=mi(xi;xj)-mi(xi;xj|ck),),p(a)表示标签lj的取值为a的概率,p(a,b)表示候选特征xi的取值为a、已选特征xj取值为b的联合概率;p(a,b,c)表示候选特征xi的取值为a、已选特征xj取值为b、中心标签ck为c的联合概率;p(a,b|c)表示在中心标签ck为c的前提下候选特征xi的取值为a、已选特征xj取值为b的概率,p(a|c)表示在中心标签ck为c的前提下候选特征xi的取值为a的概率。
[0029]
进一步的,特征相关性mi(xi;c|s)的计算包括:
[0030][0031][0032]
其中,p(a,b,c)表示候选特征xi的取值为a、已选特征xj取值为b、中心标签ck为c的联合概率;p(a|b)为已选特征xj取值为b的前提下候选特征xi的取值为a的概率;p(c|b)为已选特征xj取值为b的前提下中心标签ck为c的概率;p(a,c|b)表示已选特征xj取值为b的前提下候选特征xi的取值为a、已选特征xj取值为b的概率。
[0033]
进一步的,特征冗余性mi(xi;s|c)的计算包括:
[0034][0035][0036]
其中,p(a,b,c)表示候选特征xi的取值为a、已选特征xj取值为b、中心标签ck为c的联合概率;p(a|c)表示在中心标签ck为c的前提下候选特征xi的取值为a的概率;p(b|c)表示在中心标签ck为c的前提下已选特征xj取值为b的概率;p(a,b|c)表示在中心标签ck为c的前提下候选特征xi的取值为a、已选特征xj取值为b的概率。
[0037]
进一步的,特征的动态相关性mi(s;c|xi)的计算包括:
[0038][0038]
其中,p(a,b,c)表示候选特征xi的取值为a、已选特征xj取值为b、中心标签ck为c的联合概率;p(b|a)表示在候选特征xi的取值为a前提下已选特征xj取值为b的概率;p(c|a)表示在候选特征xi的取值为a的前提下中心标签ck为取值c的概率;p(b,c|a)表示在候选特征xi的取值为a的前提下已选特征xj取值为b、中心标签ck为取值c的概率。
[0039]
本发明还提出一种包含相互关系的复杂多标签医疗数据的预处理装置,用于实现一种包含相互关系的复杂多标签医疗数据的预处理方法,包括数据清洗模块、数据离散化模块、代表标签生成模块、特征选择模块、数据输出模块,其中:
[0040]
数据清洗模块,用于对数据中缺失值大于99%特征进行删除,删除数据集中与预测无关的采集项,0值填充数据集中的空缺部分;
[0041]
数据离散化模块,用于对数据集中的数值型特征使用最小熵法进行离散化处理;
[0042]
代表标签生成模块,用于对数据集的标签进行聚类,将每个类簇靠近聚类中心的标签作为该类簇的代表标签,并将每个类簇中所有数据的标签更新为对应的代表标签;
[0043]
特征选择模块,用于结合数据特征与标签之间的协同性、相关性、冗余性和动态变化对数据的特征进行选择;
[0044]
数据输出模块,用于将处理后的数据的标签已经选择的特征作为预处理后的数据,完成预处理。
[0045]
与现有技术相比,本发明具有以下有益效果:
[0046]
1、模型利用标签粒化方法分辨标签之间的相互关系,从而得到一组包含更少信息冗余的标签子集,同时尽量避免损失标签中有用的信息。为特征选择提供更好的标签子集,可以减少特征选择的计算时间,同时能避免由于标签中的冗余信息导致特征子集选择不准确的问题。
[0047]
2、特征选择中,模型将交互信息融入到特征选择的评价函数中,是特征选择方法能够发现特征与特征之间产生的交互作用,两个能产生交互信息的特征可以带来比两个单一特征更多的信息,从而使选择的特征子集能包含更多的信息量。
[0048]
3、通过该方法得到的特征子集在进行神经网络训练时,相比于不进行特征选择的神经网络训练时间有较大的缩短。相比于其他特征选择方法得到的特征子集,预测的准确率有一定的提升。
附图说明
[0049]
图1为本发明一种包含相互关系的复杂多标签医疗数据的预处理方法的流程图;
[0050]
图2为本发明中获取代表标签的流程示意图;
[0051]
图3为本发明中选择特征的流程示意图。
具体实施方式
[0052]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053]
本发明提出一种包含相互关系的复杂多标签医疗数据的预处理方法,具体包括以下步骤:
[0054]
将数据中缺失值大于99%特征进行删除,删除数据集中与预测无关的采集项,0值填充数据集中的空缺部分;
[0055]
对于数据集中的数值型特征使用最小熵法进行离散化;
[0056]
对数据集的标签进行聚类,将每个类簇靠近聚类中心的标签作为该类簇的代表标签,并将每个类簇中所有数据的标签更新为对应的代表标签;
[0057]
结合数据特征与标签之间的协同性、相关性、冗余性和动态变化对数据的特征进行选择;
[0058]
将处理后的数据的标签已经选择的特征作为预处理后的数据,完成预处理。
[0059]
在本实施例中结合交互信息的粒度标签动态多标签特征选择方法,用来预处理包含相互关系的多标签医疗数据,流程如图1所示,方法包括以下步骤:
[0060]
step1:数据填充。将数据中缺失值大于99%特征进行删除,删除数据集中与预测无关的采集项,0值填充数据集中的空缺部分。
[0061]
step2:数据标准化处理。对于数据集中的数值型特征使用最小熵法进行离散化。将所有特征变为离散值,便于后续处理。
[0062]
step3:标签粒化。标准化后,首先处理标签之间的相互关系,将数据集中的标签按照算法1的流程进行处理。首先选定粒化程度,然后将所有标签聚类为指定数量的信息粒,并使用最靠近聚类中心的标签作为后续特征选择的所使用的标签,将每个信息粒的中心标签组合成信息的标签集。从而减少标签之间的相互关系的影响。
[0063]
step4:结合交互信息的多标签特征选择。使用算法2寻找与处理后的标签集相关的特征,该算法可以发现特征之间的相互关系。每次选择一个得分最高的特征作为已选特征,知道达到指定的特征选择数量。
[0064]
算法1通过标签粒化方法,寻找标签之间的相互关系,通过将相似标签聚为一类,然后将最靠近聚类中心的标签作为该类的代表标签,将所有类簇的代表标签代替作为新的标签集进行后续计算。通过标签粒化,可以减少标签之间的冗余信息,从而使特征选择有更简明的标签集。
[0065]
算法2通过在特征选择中引入交互信息和特征动态信息,寻找特征之间的相互关系。通过辨别特征之间的相关性和冗余性,选择与标签最大相关且相互之间最少冗余的特征。这样的已选择特征集能使后续的深度学习使用更少的计算资源同时得到更好的结果。
[0066]
算法1.标签粒化
[0067]
标签粒化算法将标签空间l={l1,l2,...,lm}粒化为k个信息粒,其中每个信息粒为gi,该信息粒的代表标签为ci。一个信息粒与它的代表标签的相似性为s(gi,ci),相似性s(gi,ci)被定义为:
[0068][0069]
其中,d(lj,ci)该信息粒所包含的标签与其中心标签的距离,每个信息粒包含的标签互不相交,即所有信息粒的并集为标签空间,即
[0070]
每个标签li依次被分配到与其最近的代表标签ci中,从而组成新的标签信息粒,对于每个新的标签信息粒gi重新生成代表标签ci,并且ci∈gi,代表标签ci的更新方法被定义为:
[0071][0072]
其中,ls∈gi,计算信息粒中每个标签与信息粒的相似性,选择相似性最小的标签作为新的代表标签ci。距离(lj,ci)计算公式为:
[0073][0074]
其中,h(lj)表示标签lj的信息熵,表示为p(a)表示标签lj的取值为a的概率;mi(lj;ci)表示标签lj与中心标签ci的互信息,表示为p(a,b)表示标签lj的取值为a、中心标签ci取值为b的联合概率;nmi(lj,ci)表示标签lj与中心标签ci的标签互信息,表示为
[0075]
本实施例还提出一种进行标签粒化的流程,如图2,具体包括以下步骤:
[0076]
对数据集的标签空间l={l1,l2,...,lm}进行粒化得到k个信息粒;
[0077]
随机选择k个标签作为聚类中心进行聚类操作;
[0078]
将聚类的每个类簇中心标签作为新的聚类中心,直到聚类中心不再改变;
[0079]
将当前的聚类中心对应的标签输出作为当前类簇的代表标签。
[0080]
算法2.结合交互信息的多标签特征选择
[0081]
(1)特征与特征的相互关系——协同性
[0082]
协同作用是指,单个特征中的信息与标签信息无关,但是与其他特征结合使用时,一些与标签无关的信息会转变为对分类有用的信息。通过使用交互信息来计算特征之间的协同作用。特征的协同性mi(xi;s;c)被定义为:
[0083][0084][0085]
其中,mi(xi;s;ck)特征的协同性参考wu等人的dfs-sgii中用于单标签特征选择的特征协同性;mi(xi;xj;ck)表示在候选特征xi和已选特征xj在标签ck下的交互信息,也即协
同作用,当一个特征与已选特征的协同作用能为分类特供更多的信息时,则该特征更应该被选择,mi(xi;xj;ck)表示为:
[0086]
mi(xi;xj;ck)=mi(xi;xj)-mi(xi;xj|ck);
[0087][0088][0089]
其中,p(a,b,c)表示候选特征xi的取值为a、已选特征xj取值为b、中心标签ck为c的联合概率;p(a,b|c)表示在中心标签ck为c的前提下候选特征xi的取值为a、已选特征xj取值为b的概率,p(a|c)表示在中心标签ck为c的前提下候选特征xi的取值为a的概率。
[0090]
(2)特征与标签的相互关系——相关性
[0091]
特征相关性是特征与标签的关联程度。互信息mi(xi;c|s)是在已选特征集s的条件下,待选特征xi与代表标签集c的相关性。mi(xi;c|s)被定义为:
[0092][0093][0094]
其中,xj为已选择特征,ck为代表标签,p(a,b|c)表示在中心标签ck为c的前提下候选特征xi的取值为a、已选特征xj取值为b的概率;p(a|b)为已选特征xj取值为b的前提下候选特征xi的取值为a的概率;p(c|b)为已选特征xj取值为b的前提下中心标签ck为c的概率;p(a,c|b)表示已选特征xj取值为b的前提下候选特征xi的取值为a、已选特征xj取值为b的概率。
[0095]
(3)特征与特征的相互关系——冗余性
[0096]
特征冗余性是指它们包含的信息能从其他特征中推演出来。条件互信息mi(xi;s|c)表示在代表标签集c的条件下,待选特征xi与已选标签集s的相关性。因为已选标签已经包含该部分信息,所以对特征选择系统来说该部分是冗余信息。mi(xi;s|c)被定义为:
[0097][0098][0099]
其中,p(a|c)表示在中心标签ck为c的前提下候选特征xi的取值为a的概率;p(b|c)表示在中心标签ck为c的前提下已选特征xj取值为b的概率;p(a,b|c)表示在中心标签ck为c的前提下候选特征xi的取值为a、已选特征xj取值为b的概率。
[0100]
(4)特征与特征的相互关系——动态变化
[0101]
动态特征相关性表示在考虑候选特征时,所选特征与标签之间的信息量会发生变化。虽然所选特征与类之间的互信息量不变,但该部分的信息会随候选特征的不同而发生改变。新选择的特征应该尽量不减少已选择特征为预测标签提供的信息量,这样才能使选
择的特征能有更多信息提供给预测标签。
[0102]
在本实施例中特征的动态相关性mi(s;c|xi)的计算包括:
[0103][0104][0105]
其中,p(b|a)表示在候选特征xi的取值为a前提下已选特征xj取值为b的概率;p(c|a)表示在候选特征xi的取值为a的前提下中心标签ck为取值c的概率;p(b,c|a)表示在候选特征xi的取值为a的前提下已选特征xj取值为b、中心标签ck为取值c的概率。
[0106]
特征选择目的是在限定的特征选择数量下选择使标签集的预测准确率尽可能的高的特征。因此专利提出一种新的多标签特征评价函数,该方法在现存的多标签评价函数中引入特征协同性,以检索待选特征的出现,使得已选特征产生协同作用。该多标签特征选择方法被定义为:
[0107][0108]
多标签特征选择方法每次选择待选特征集f

中得分最高的特征加入已选特征集中,直到已选特征集s中的特征数量达到限定的特征选择数量,算法终止。
[0109]
本实施例在进行特征选择的过程时的流程,如图3,具体包括以下步骤:
[0110]
确定特征选择的特征集、代表标签集以及特征选择数量;
[0111]
计算特征集中每个特征的得分,并将得到最高的特征加入已选特征集合,直到已选特征集合中特征的数量满足特征选择数量;
[0112]
输出已选特征集合作为当前数据集选择对应的特征集合。
[0113]
本发明还提出一种包含相互关系的复杂多标签医疗数据的预处理装置,用于实现一种包含相互关系的复杂多标签医疗数据的预处理方法,包括数据清洗模块、数据离散化模块、代表标签生成模块、特征选择模块、数据输出模块,其中:
[0114]
数据清洗模块,用于对数据中缺失值大于99%特征进行删除,删除数据集中与预测无关的采集项,0值填充数据集中的空缺部分;
[0115]
数据离散化模块,用于对数据集中的数值型特征使用最小熵法进行离散化处理;
[0116]
代表标签生成模块,用于对数据集的标签进行聚类,将每个类簇靠近聚类中心的标签作为该类簇的代表标签,并将每个类簇中所有数据的标签更新为对应的代表标签;
[0117]
特征选择模块,用于结合数据特征与标签之间的协同性、相关性、冗余性和动态变化对数据的特征进行选择;
[0118]
数据输出模块,用于将处理后的数据的标签已经选择的特征作为预处理后的数据,完成预处理。
[0119]
预处理完成后,经过特征选择的数据集拥有与标签集更相关的特征集,并且这些
特征集含有的冗余信息更少,将处理后的特征可以使用新兴的长短期记忆网络、transformer模型或传统的机器学svm、knn分类器学习数据集中的信息,相比于其他特征选择的数据会在预测中得到更高精度,以及更好的学习效率。
[0120]
本发明中医疗数据可以是患者的历史患病信息,例如ukb数据库中的数据,该数据库中国的数据包含50万患者近10年的患病信息,其中有近两千种不同的疾病的发表情况,数十种生化检测指标,以及其他各种身体测量结果,通过预处理后的数据对分类进行训练,利用分类器预测对应医疗数据对应的疾病的产生原因、发病可能、预防手段和治疗措施,本技术将用户的历史患病信息进行预处理后输入一个预训练的分类器中,可以预测用户可能患病类型,可以用于用户自行诊断挂号或者医院分诊等场景。
[0121]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:
1.一种包含相互关系的复杂多标签医疗数据的预处理方法,其特征在于,具体包括以下步骤:将数据中缺失值大于99%特征进行删除,删除数据集中与预测无关的采集项,0值填充数据集中的空缺部分;对于数据集中的数值型特征使用最小熵法进行离散化;对数据集的标签进行聚类,将每个类簇靠近聚类中心的标签作为该类簇的代表标签,并将每个类簇中所有数据的标签更新为对应的代表标签;结合数据特征与标签之间的协同性、相关性、冗余性和动态变化对数据的特征进行选择;将处理后的数据的标签已经选择的特征作为预处理后的数据,完成预处理。2.根据权利要求1所述的一种包含相互关系的复杂多标签医疗数据的预处理方法,其特征在于,通过聚类获取数据的代表标签的过程包括以下步骤:对数据集的标签空间l={l1,l2,...,l
m
}进行粒化得到k个信息粒;每个标签l
i
依次被分配到与其最近的代表标签c
i
中,从而组成新的标签信息粒,对于每个新的标签信息粒g
i
重新生成代表标签c
i
。3.根据权利要求2所述的一种包含相互关系的复杂多标签医疗数据的预处理方法,其特征在于,生成代表标签c
i
的过程包括:其中,s(g
i
,l
s
)表示一个信息粒g
i
与其代表标签l
s
的距离。4.根据权利要求3所述的一种包含相互关系的复杂多标签医疗数据的预处理方法,其特征在于,一个信息粒g
i
与其代表标签l
s
的距离s(g
i
,l
s
)表示为:)表示为:其中,h(l
j
)表示标签l
j
的信息熵,表示为p(a)表示标签l
j
的取值为a的概率;mi(l
j
;c
i
)表示标签l
j
与中心标签c
i
的互信息,表示为p(a,b)表示标签l
j
的取值为a、中心标签c
i
取值为b的联合概率;nmi(l
j
,c
i
)表示标签l
j
与中心标签c
i
的标签互信息,表示为5.根据权利要求1所述的一种包含相互关系的复杂多标签医疗数据的预处理方法,其特征在于,结合数据特征与标签之间的协同性、相关性、冗余性和动态变化对数据的特征进行选择的过程包括:
其中,j(x
i
)为特征选择函数,候选特征x
i
对应的特征选择函数的值越大,候选特征x
i
被选择的可能越高;mi(x
i
;c|s)表示特征相关性;mi(s;c|x
i
)表示动态特征相关性;mi(x
i
;s|c)表示特征冗余性;mi(x
i
;s;c)表示特征的协同性;c为代表标签集,c
k
表示代表标签集中的第k个标签;s已选特征集合。6.根据权利要求5所述的一种包含相互关系的复杂多标签医疗数据的预处理方法,其特征在于,特征的协同性mi(x
i
;s;c)的计算包括:;s;c)的计算包括:7.其中,mi(x
i
;s;c
k
)为单标签特征选择的特征协同性;mi(x
i
;x
j
;c
k
)表示在候选特征x
i
和已选特征x
j
在标签c
k
下的交互信息,表示为:mi(x
i
;x
j
;c
k
)=mi(x
i
;x
j
)-mi(x
i
;x
j
|c
k
),),p(a)表示标签l
j
的取值为a的概率,p(a,b)表示候选特征x
i
的取值为a、已选特征x
j
取值为b的联合概率;p(a,b,c)表示候选特征x
i
的取值为a、已选特征x
j
取值为b、中心标签c
k
为c的联合概率;p(a,b|c)表示在中心标签c
k
为c的前提下候选特征x
i
的取值为a、已选特征x
j
取值为b的概率,p(a|c)表示在中心标签c
k
为c的前提下候选特征x
i
的取值为a的概率。根据权利要求5所述的一种包含相互关系的复杂多标签医疗数据的预处理方法,其特征在于,特征相关性mi(x
i
;c|s)的计算包括:;c|s)的计算包括:其中,p(a,b,c)表示候选特征x
i
的取值为a、已选特征x
j
取值为b、中心标签c
k
为c的联合概率;p(a|b)为已选特征x
j
取值为b的前提下候选特征x
i
的取值为a的概率;p(c|b)为已选特征x
j
取值为b的前提下中心标签c
k
为c的概率;p(a,c|b)表示已选特征x
j
取值为b的前提下候选特征x
i
的取值为a、已选特征x
j
取值为b的概率。8.根据权利要求5所述的一种包含相互关系的复杂多标签医疗数据的预处理方法,其特征在于,特征冗余性mi(x
i
;s|c)的计算包括:
其中,p(a,b,c)表示候选特征x
i
的取值为a、已选特征x
j
取值为b、中心标签c
k
为c的联合概率;p(a|c)表示在中心标签c
k
为c的前提下候选特征x
i
的取值为a的概率;p(b|c)表示在中心标签c
k
为c的前提下已选特征x
j
取值为b的概率;p(a,b|c)表示在中心标签c
k
为c的前提下候选特征x
i
的取值为a、已选特征x
j
取值为b的概率。9.根据权利要求5所述的一种包含相互关系的复杂多标签医疗数据的预处理方法,其特征在于,特征的动态相关性mi(s;c|x
i
)的计算包括:)的计算包括:其中,p(a,b,c)表示候选特征x
i
的取值为a、已选特征x
j
取值为b、中心标签c
k
为c的联合概率;p(b|a)表示在候选特征x
i
的取值为a前提下已选特征x
j
取值为b的概率;p(c|a)表示在候选特征x
i
的取值为a的前提下中心标签c
k
为取值c的概率;p(b,c|a)表示在候选特征x
i
的取值为a的前提下已选特征x
j
取值为b、中心标签c
k
为取值c的概率。10.一种包含相互关系的复杂多标签医疗数据的预处理装置,其特征在于,用于实现权利要求1所述的一种包含相互关系的复杂多标签医疗数据的预处理方法,包括数据清洗模块、数据离散化模块、代表标签生成模块、特征选择模块、数据输出模块,其中:数据清洗模块,用于对数据中缺失值大于99%特征进行删除,删除数据集中与预测无关的采集项,0值填充数据集中的空缺部分;数据离散化模块,用于对数据集中的数值型特征使用最小熵法进行离散化处理;代表标签生成模块,用于对数据集的标签进行聚类,将每个类簇靠近聚类中心的标签作为该类簇的代表标签,并将每个类簇中所有数据的标签更新为对应的代表标签;特征选择模块,用于结合数据特征与标签之间的协同性、相关性、冗余性和动态变化对数据的特征进行选择;数据输出模块,用于将处理后的数据的标签已经选择的特征作为预处理后的数据,完成预处理。

技术总结
本发明属于数据处理领域,特别涉及一种包含相互关系的复杂多标签医疗数据的预处理方法及装置,方法包括将数据中缺失值大于99%特征和无关项进行删除,并进行0值填充;对于数据集中的数值型特征使用最小熵法进行离散化;对数据集的标签进行聚类,将每个类簇靠近聚类中心的标签作为该类簇的代表标签,并将每个类簇中所有数据的标签更新为对应的代表标签;结合数据特征与标签之间的协同性、相关性、冗余性和动态变化对数据的特征进行选择;将处理后的数据的标签已经选择的特征作为预处理后的数据,完成预处理;本发明为特征选择提供更好的标签子集,可以减少特征选择的计算时间,同时能避免由于标签中的冗余信息导致特征子集选择不准确的问题。择不准确的问题。择不准确的问题。


技术研发人员:朱生文 高满 吴鹏
受保护的技术使用者:重庆邮电大学
技术研发日:2023.05.25
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐