一种面向不平衡数据集的IPORU-LDOB混合采样方法
未命名
08-18
阅读:159
评论:0

一种面向不平衡数据集的iporu-ldob混合采样方法
技术领域
1.本发明涉及数据不平衡问题与机器学习方法,尤其涉及一种面向不平衡数据集的iporu-ldob混合采样方法。
背景技术:
2.机器学习分类方法通常假设不同类别的样本数量相对均衡,且错分代价是相同的。但对于不平衡数据集而言,分类器为了保证整体分类性能达到最佳,往往会将少数类样本错分。重采样是数据层面解决数据不平衡问题的一种最具代表性的方法,重采样通过增添或删除样本使得不平衡数据集中的多数类和少数类样本数量达到平衡。按照采样方式不同,重采样又分为过采样、欠采样和混合采样。其中,过采样方法通过增添少数类样本使得不平衡数据集达到平衡,但该方法易导致数据冗余;欠采样方法通过删除多数类样本使得不平衡数据集达到平衡,但该方法易导致信息丢失;混合采样方法通过将过采样和欠采样方法相结合解决数据不平衡问题,目的是解决过采样和欠采样存在的缺陷。
3.smote是经典的过采样方法,通过在两个少数类样本间合成新样本增加少数类样本的数量,该方法有效解决了随机过采样仅仅是对少数类样本进行复制这一问题。但smote过采样方法未对少数类样本进行区分,选择为每一个少数类样本生成相同数量的新样本,导致新样本质量不佳。当前应用较为广泛的欠采样方法主要有enn、tomeklinks、ncl等,以上欠采样方法利用k近邻思想或者样本间距离信息确定欠采样目标,指导欠采样进行,有效解决了随机欠采样效果方差较大这一问题。但以上方法存在欠采样规模不可调节、过度清洗导致多数类信息丢失、未考虑不平衡数据集样本整体分布等问题。因此,结合上述分析,提出一种iporu-ldob混合采样方法,目的是解决上述过采样和欠采样方法存在的缺陷,有效的解决数据不平衡问题。
技术实现要素:
4.本发明公开一种面向不平衡数据集的iporu-ldob混合采样方法,目的是解决过采样和欠采样方法存在的问题,提高不平衡数据集的分类准确率。
5.本发明的上述任务目的是通过以下技术方案得以实现的:
6.一种面向不平衡数据集的iporu-ldob混合采样方法,其特征在于,包含以下步骤:
7.s1.输入:多数类样本集smaj,其中多数类样本数量为m;少数类样本集smin,其中少数类样本数量为n;范数参数p;近邻参数k;
8.s2.构建不平衡数据集重叠区域检测模型,实现重叠区域检测;
9.s3.对存在重叠的多数类信息颗粒内的多数类样本进行清洗;
10.s4.基于少数类边界样本的边界度和局部密度确定其采样权重;
11.s5.根据采样权重指导少数类边界样本进行过采样;
12.s6.输出:平衡数据集snew;
13.优选的,所述的重叠区域检测模型包含:
14.s7.构建少数类信息颗粒
15.s8.构建多数类信息颗粒
16.s9.重叠区域检测,若满足则处于重叠区域;
17.s10.清洗处于重叠区域的多数类信息颗粒
18.优选的,所述的少数类边界样本采样权重包含:
19.s11.计算少数类样本边界度si=(a
i-bi)2;
20.s12.计算少数类样本边界度阈值
21.s13.筛选少数类边界样本
22.s14.计算少数类边界样本(xj)局部密度
23.s15.计算少数类边界样本采样权重
24.s16.求和归一化采样权重
25.优选的,所述的少数类边界样本过采样包含:
26.s17.计算少数类边界样本采样倍率gj=g*wj;
27.s18.查询少数类边界样本同类k近邻{x1,x2,...,xk};
28.s19.随机选取一个同类k近邻样本,视为候选近邻xn;
29.s20.少数类边界样本过采样x
new
=xj+rand(0,1)
×
(x
n-xj);
30.s21.重复14-15,直至新样本数量等于gj;
31.s22.返回13,直至遍历所有少数类边界样本。
32.优选的,所述的平衡数据集由欠采样后的多数类样本集、新生成样本集、原始少数类样本集共同构成。
33.有益效果
34.1.iporu-ldob混合采样方法通过信息颗粒分别描述多数类和少数类样本分布,可以准确识别不平衡数据集中存在的重叠区域,通过对重叠区域内的多数类样本进行欠采样,解决了不平衡数据集中存在的类间重叠问题,并且信息颗粒可以用于描述任意形状的样本分布,通过“区域”指导欠采样考虑了不平衡数据集的整体分布;
35.2.通过边界度和局部密度共同确定少数类边界样本的采样权重,选择为靠近分类边界且局部稀疏的少数类边界样本生成更多新样本,在提高了新样本质量的同时,均衡了少数类样本的类内分布;
36.3.将ipour-ldob混合采样方法应用于不平衡数据集,可以有效解决数据不平衡问题,在保证多数类样本的分类准确率的前提下,有效提高少数类样本的分类准确率。
附图说明
37.图1为iporu-ldob混合采样方法流程;
38.图2为信息颗粒(p=2)示意图;
39.图3为信息颗粒(p=2)合并规则;
40.图4为重叠区域检测示意图;
41.图5为少数类样本nj邻域;
42.图6为banana数据集混合采样结果;
43.图7为banana数据集混合采样后决策边界可视化结果。
具体实施方式
44.下面结合附图对本发明做进一步说明。
45.如图1所示,一种面向不平衡数据集的iporu-ldob混合采样方法主要包含以下步骤:分别构建多数类信息颗和少数类信息颗粒,通过不同类别信息颗粒间的距离判断是否存在重叠;清洗存在重叠的多数类信息颗粒内的多数类样本,并将该多数类信息颗粒的中心点视为一个多数类样本保留;利用少数类样本的最近邻多数类和最近邻少数类样本计算其边界度,根据边界度筛选少数类边界样本,后续仅对边界样本进行过采样;为了确定少数类边界样本在少数类样本集中的分布,引入tanh函数,计算少数类边界样本的局部密度;根据边界度和局部密度确定少数类边界样本的采样权重,利用采样权重指导过采样进行。
46.具体过程如下:
47.步骤一、输入banana数据集。其中,少数类样本为600个,多数类样本为1500个,属于不平衡数据集范畴。范数参数p=2,近邻参数k=5;
48.步骤二、计算少数类信息颗粒半径阈值r
min
:
[0049][0050]
步骤三、信息颗粒如图2所示,初始化少数类信息颗粒,将每一个少数类样本视为中心点v为样本本身,半径r为0的少数类信息颗粒:
[0051][0052]
步骤四、计算任意两个少数类信息颗粒间的距离:
[0053][0054]
步骤五、信息颗粒合并规则如图3所示,将两个互为最近邻的少数类信息颗粒进行合并:
[0055][0056]
步骤六、更新中心点v和半径r:
[0057][0058][0059][0060]
步骤七、若r
12
≤rmin,则保留ω
12
,删除ω1、ω2:
[0085]
式中,ai为nj邻域内少数类样本数量,bi为nj邻域内多数类样本数量,少数类样本xi与其少数类最近邻构成的邻域为n邻域,与其多数类最近邻构成的近邻称为j邻域,n邻域与j邻域的并集为xi的nj邻域,如图5所示;
[0086]
步骤二十一、返回步骤十九,直至遍历所有少数类样本;
[0087]
步骤二十二、计算少数类边界度阈值:
[0088][0089]
步骤二十三、筛选少数类边界样本xj:
[0090][0091]
步骤二十四、计算少数类边界样本xj的局部密度ρj:
[0092][0093]
步骤二十五、计算少数类边界样本xj的采样权重wj:
[0094][0095]
步骤二十六,返回步骤二十四,直至遍历所有少数类边界样本;
[0096]
步骤二十七、求和归一化采样权重:
[0097][0098]
步骤二十八、计算少数类边界样本的采样倍率gj:
[0099]gj
=g*wj[0100]
步骤二十九、查询少数类边界样本xj的同类k近邻:
[0101]
neighbor={x1,x2,...,xk}
[0102]
步骤三十、随机选取一个同类k近邻视为候选近邻xn;
[0103]
步骤三十一、少数类边界样本xj过采样:
[0104]
x
new
=xj+rand(0,1)
×
(x
n-xj)
[0105]
步骤三十二、重复步骤三十至步骤三十一,直至新样本数量等于gj;
[0106]
步骤三十三、返回步骤二十八,直至遍历所有少数类边界样本xj;
[0107]
iporu-ldob仿真分析通过对banana数据集进行混合采样,可视化banana数据集混合采样前后样本分布,并利用混合采样后的banana数据集训练svm分类器,对其决策边界进行可视化,通过对比enn-smote、tomek links-bs、ncl-adasyn三种混合采样方法的决策边界可视化结果验证iporu-ldob混合采样方法的有效性。其中,enn-smote的近邻参数取k=5;tomek links-bs的近邻参数取k=5;ncl-adasyn的近邻参数取k=5;iporu-ldob近邻参数取k=5、范数参数取p=2,实验结果如图6和图7所示。
[0108]
uci数据集实验验证通过对6个不平衡数据集进行混合采样,分别利用混合采样后的不平衡数据集训练svm分类器,根据f1-measure、g-mean和auc三项评价指标评估iporu-ldob混合采样方法的效果,通过对比enn-smote、tomek links-bs、ncl-adasyn三种混合采样方法的评价指标验证iporu-ldob混合采样方法的有效性。上述混合采样方法的参数设定
同iporu-ldob仿真分析。6个不平衡数据集的详细信息如表1所示,实验结果如表2所示。
[0109]
表1不平衡数据集介绍
[0110][0111]
表2基于svm分类器的过采样方法实验结果
[0112][0113][0114]
在表2中,iporu-ldob混合采样方法在wine、haberman、pima、vehicle、yeast数据集上的三项评价指标均达到了最优。tomek links-bs混合采样方法在ecoli数据集上的三项评价指标均达到了最优,其中,iporu-ldob的f1-measure与最优值相差0.0164,排名第二;g-mean与最优值相差0.0074,与第二名相差0.0039,排名第三;auc与最优值相差0.0028,排名第二,上述实验结果证明了iporu-ldob混合采样方法对于不平衡数据集的有效性。
技术特征:
1.一种面向不平衡数据集的iporu-ldob混合采样方法,其特征在于,包含以下步骤:s1.输入:多数类样本集smaj,其中多数类样本数量为m;少数类样本集smin,其中少数类样本数量为n;范数参数p;近邻参数k;s2.构建不平衡数据集重叠区域检测模型,实现重叠区域检测;s3.对存在重叠的多数类信息颗粒内的多数类样本进行清洗;s4.基于少数类边界样本的边界度和局部密度确定其采样权重;s5.根据采样权重指导少数类边界样本进行过采样;s6.输出:平衡数据集snew。2.根据权利要求1所述的一种面向不平衡数据集的iporu-ldob混合采样方法,其特征在于:所述的重叠区域检测模型包含:s7.构建少数类信息颗粒s8.构建多数类信息颗粒s9.重叠区域检测,若满足则处于重叠区域;s10.清洗处于重叠区域的多数类信息颗粒3.根据权利要求1所述的一种面向不平衡数据集的iporu-ldob混合采样方法,其特征在于:所述的少数类边界样本采样权重包含:s11.计算少数类样本边界度s
i
=(a
j-b
i
)2;s12.计算少数类样本边界度阈值s13.筛选少数类边界样本s14.计算少数类边界样本(x
j
)局部密度s15.计算少数类边界样本采样权重s16.求和归一化采样权重4.根据权利要求1所述的一种面向不平衡数据集的iporu-ldob混合采样方法,其特征在于:所述的少数类边界样本过采样包含:s17.计算少数类边界样本采样倍率g
j
=g*w
j
;s18.查询少数类边界样本同类k近邻{x1,x2,...,x
k
};s19.随机选取一个同类k近邻样本,视为候选近邻x
n
;s20.少数类边界样本过采样x
new
=x
j
+rand(0,1)
×
(x
n-x
j
);s21.重复14-15,直至新样本数量等于g
j
;s22.返回13,直至遍历所有少数类边界样本。5.根据权利要求1所述的一种面向不平衡数据集的iporu-ldob混合采样方法,其特征在于:所述的平衡数据集由欠采样后的多数类样本集、新生成样本集、原始少数类样本集共
同构成。
技术总结
本发明公开了一种面向不平衡数据集的IPORU-LDOB混合采样方法。通过不同类别信息颗粒间的距离判断是否存在重叠;清洗存在重叠的多数类信息颗粒内的多数类样本;利用少数类样本的多类近邻和少类近邻计算其边界度来筛选少数类边界样本,后续仅对边界样本进行过采样;引入tanh函数,计算少数类边界样本的局部密度;根据边界度和局部密度确定少数类边界样本的采样权重,利用采样权重指导过采样进行。IPORU-LDOB混合采样方法通过删减多数类样本与增添少数类样本使得不平衡数据集达到平衡,有效提高了不平衡数据集的分类准确率。有效提高了不平衡数据集的分类准确率。
技术研发人员:齐晓轩 郑森 卞永钊 董海
受保护的技术使用者:沈阳大学
技术研发日:2023.05.16
技术公布日:2023/8/16
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/