一种基于主动查询和分组标注的多义数据标注方法

未命名 10-19 阅读:65 评论:0


1.本发明属于弱监督分类领域;尤其涉及一种基于主动查询和分组标注的多义数据标注方法。


背景技术:

2.在传统监督学习中,学习系统在输入空间利用示例刻画现实世界中对象的性质,同时在标记空间赋予该示例类别标记,即每个示例都具有单一而明确的标记,基于此前提的监督学习方法取得了广泛而巨大的成功。但是,传统监督学习所假设的对象其语义信息是单一的,而现实世界中对象的语义信息是多重的,即每个示例可能存在多个标记。多标记学习框架是一种针对多义数据的研究框架。
3.多标记学习要求示例的标记集合是准确的,但是在数据标注过程中,相比在传统多分类数据中标注者只需要找到每个示例的唯一真实标记即可停止,多标记数据的标注者需要在整个标记空间中找到示例的所有真实标记,这无疑需要巨大的标注成本。此外,受限于多义数据标注任务的专业性和复杂性、领域专家的稀缺性等因素,获得完整且准确的标注信息也是非常困难。因此,研究者们提出了不完全监督、不确切监督和不准确监督三个弱监督学习框架用于解决该困难。
4.不准确监督是指标注者会给出完整的标注信息,但标注信息不一定准确,即存在噪声标记。随着亚马逊众包平台等众包标注技术的快速发展,以相对低廉的成本标注大规模多义数据成为可能,但是要面临非精确标注信息对模型训练的影响,因此如何在雇佣非专业的众包标注者以更低的标注成本获得尽可能性能更佳的多标记分类器成为研究者们关注的问题。当前研究主要利用标记相关性等假设来从众包标注中推断真实标记或者评估标注者的专业水平,但是其势必会受到噪声标记的影响,也没有考虑到实际场景下标注者更为复杂的标注行为和习惯。


技术实现要素:

5.本发明针对多义数据标注过程中高标注成本和低标注质量的困难,提出一种基于主动查询和分组标注的多义数据标注方法,该方法主动选择对分类网络性能提高最有价值的未标注示例,对其标记空间上的标记进行少部分的领域专家精确标注和大部分的非精确众包分组标注,在尽可能减少标注成本的同时提高标注质量,保证分类模型的性能。
6.技术方案:一种基于主动查询和分组标注的多义数据标注方法,具体包括以下步骤:
7.步骤1:获取一定数量的多义数据集步骤1:获取一定数量的多义数据集步骤1:获取一定数量的多义数据集表示d维特征空间,表示c个类别的标记空间。初始时选择小部分多义示例进行精确标注,称之为已标注集进行精确标注,称之为已标注集其中yi∈{0,1}c是xi的标记向量,y
ij
=1表示第j个标记是xi的正标记(相关标记),y
ij
=0表示第j个标记是xi的负标记(无
关标记)。剩余的u=n-l个未标注示例称之为未标注集l个未标注示例称之为未标注集
8.步骤2:利用深度神经网络在已标注集训练多标记分类网络n,建立起输入空间到输出空间的映射。
9.步骤3:利用分类网络n预测未标注集中所有示例xu的概率向量和标记向量利用不确定性准则在中主动查询对当前分类网络n的性能最有价值的一个未标注示例xq。
10.步骤4:对被查询示例xq的标记向量按照进行分组,小部分组发送给领域专家进行精确标注,大部分组发送给多个众包标注者进行非精确的众包标注。返回的标记向量与示例xq共同组成一个样本(xq,yq)。
11.步骤5:将(xq,yq)加入已标注集更新分类网络n的参数,在测试集上测试性能。
12.步骤6:如果用户对当前模型性能满意,则结束,否则转步骤(3)。
13.进一步的,所述步骤3具体为:
14.步骤3.1:将未标注集中的所有示例输入到分类网络n中进行预测,对于每一个示例xu而言,分类网络n可以输出其标记向量中每一个标记是正标记的概率,组成长度为c概率向量概率向量p
uj
∈(0,1)。
15.步骤3.2:通过设置一个阈值thr(一般为0.5),将标记空间划分为正标记集合和负标记集合两个部分,p
uj
≥thr的标记被认为是正标记,p
uj
《thr的标记被认为是负标记,由此得到n为每个未标注示例预测的标记向量形式化表述如下。其中表示当π为真时返回1否则返回0。
[0016][0017][0018][0019]
步骤3.3:对于未标注集中的所有示例,计算其中最小的概率值和中最大的概率值之间的差值δu,查询δu值最小的未标注示例,作为被查询示例xq,该示例被认为是当前分类网络n最“不确定”的示例,其预测概率向量为标注并训练该示例最有希望提升分类网络的性能。
[0020]
进一步的,所述步骤4具体为:
[0021]
步骤4.1:设分类网络为被查询示例xq预测的概率向量为将标记空间上的c个标记按照的值降序排序,得到待分发标记集合其中排序靠前的是被分类网络预测是正标记的概率较高的标记,称之为高概率标记;反之,排序靠后的是被分类网络预测是正标记概率较低的标记,称之为低概率标记。
[0022]
步骤4.2:中前h个标记发送给领域专家进行精确标注,该部分标记对模型性能
较为重要,需要获取尽可能准确的标记信息。
[0023]
步骤4.3:将中剩下的c-h个标记划分为偶数个长度为l的n个“标记组”,将含有高概率标记的标记组与含有低概率标记的标记组两两配对为一个“标记组对”,即高概率标记组groupa和低概率标记组groupb,其中a=i,b=n-i+1,i=1∶1∶n/2。
[0024]
步骤4.4:将“标记组对”发送给众包标注者进行标注并限制成本或时间上限τ。标注者反复粗略浏览该“标记组对”并试图寻找正标记。如果在成本上限τ下没有发现正标记,则判定groupa和groupb中全是负标记。一旦在groupa中发现正标记,则将groupa发送给领域专家精确标注,直接判定groupb中全是负标记;一旦在groupb中发现正标记,则将groupb发送给领域专家精确标注,直接判定groupa中全是负标记。
[0025]
步骤4.5:收集各标记组的标注结果,合并得到xq的标记向量yq。
[0026]
本发明的有益效果:
[0027]
1、本方法基于不确定性准则在未标注集中主动查询对分类网络性能提升最优价值的示例以减少标注成本,同时对于被查询示例,利用神经网络记忆效应区分不同标记的标注错误对模型性能的影响程度,对少部分敏感标记实施精确的领域专家标注,对大部分非敏感标记实施非精确的众包分组标注。
[0028]
2、通过在非敏感标记上节省标注成本,但在敏感标记上保证标注质量,本方法有效地平衡了标注成本和标注质量,尽可能在节省成本的同时保证所训练分类网络的性能。
附图说明
[0029]
图1是步骤3.1-3.3中主动查询过程的计算方式示意图;
[0030]
图2是步骤4.3中对待分发标记集合进行分组的示意图;
[0031]
图3是步骤4.4中众包标注者标注一个“标记组对”的流程图。
具体实施方式
[0032]
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
[0033]
本实施例的一种基于主动查询和分组标注的多义数据标注方法,首先在获取大量未标注的多义数据,选取一小部分数据标注并训练一个深度分类网络。然后基于不确定性准则在未标注集中主动查询对分类网络性能提升最优价值的示例以减少标注成本,同时对于被查询示例,利用神经网络记忆效应区分不同标记的标注错误对模型性能的影响程度,对少部分敏感标记实施精确的领域专家标注,对大部分非敏感标记实施非精确的众包分组标注。如此往复循环查询和标注未标注示例,加入到已标注数据中更新分类网络,直到用户对分类网络的性能足够满意。具体包括以下步骤:
[0034]
步骤1:初始时,用户可以收集到大量未经标注的多义数据,但雇佣领域专家完整精确地标注这些数据需要巨大的标注成本。
[0035]
获取一定数量的多义数据集获取一定数量的多义数据集获取一定数量的多义数据集表示d维特
征空间,y={y1,y2,

,yc}表示c个类别的标记空间。初始时选择小部分多义示例进行精确标注,称之为已标注集标注,称之为已标注集其中yi∈{0,1}c是xi的标记向量,y
ij
=1表示第j个标记是xi的正标记(相关标记),y
ij
=0表示第j个标记是xi的负标记(无关标记)。剩余的u=n-l个未标注示例称之为未标注集l个未标注示例称之为未标注集
[0036]
步骤2:利用深度神经网络在已标注集训练多标记分类网络n,建立起输入空间到输出空间的映射。具体而言,n是一个深度神经网络,由一个输入层,多个隐藏层和一层输出层组成,使用二类交叉熵(binary cross-entropy,bce)作为损失函数。此外,不同于传统多分类神经网络所使用的softmax函数,该网络输出层使用sigmoid函数将每个节点的输出值限制在(0,1)范围。
[0037]
步骤3:利用分类网络n预测未标注集中所有示例xu的概率向量和标记向量利用不确定性准则在中主动查询对当前分类网络n的性能最有价值的一个未标注示例xq。具体步骤为:
[0038]
步骤3.1:将未标注集中的所有示例输入到分类网络n中进行预测,对于每一个示例xu而言,分类网络n可以输出其标记向量中每一个标记是正标记的概率,组成长度为c概率向量概率向量p
uj
∈(0,1)。
[0039]
步骤3.2:通过设置一个阈值thr(一般为0.5),将标记空间划分为正标记集合和负标记集合两个部分,p
uj
≥thr的标记被认为是正标记,p
uj
《thr的标记被认为是负标记,由此得到n为每个未标注示例预测的标记向量形式化表述如下。其中表示当π为真时返回1否则返回0。
[0040][0041][0042][0043]
步骤3.3:对于未标注集中的所有示例,计算其中最小的概率值和中最大的概率值之间的差值δu,查询δu值最小的未标注示例,作为被查询示例xq,该示例被认为是当前分类网络n最“不确定”的示例,其预测概率向量为标注并训练该示例最有希望提升分类网络的性能。
[0044]
图1是主动查询过程的计算方式示意图,首先获得一个概率向量然后根据阈值thr=0.5获得然后根据阈值thr=0.5获得其中则δu是中最小的概率值0.56和中最大的概率值0.34之间的差值。为每一个示例计算δu,选择δu值最小的未标注示例作为本次的本查询示例xq。
[0045]
步骤4:对被查询示例xq的标记向量按照进行分组,小部分组发送给领域专家进
行精确标注,大部分组发送给多个众包标注者进行非精确的众包标注。返回的标记向量与示例xq共同组成一个样本(xq,yq)。具体步骤为:
[0046]
步骤4.1:设分类网络为被查询示例xq预测的概率向量为将标记空间上的c个标记按照的值降序排序,得到待分发标记集合其中排序靠前的是被分类网络预测是正标记的概率较高的标记,称之为高概率标记;反之,排序靠后的是被分类网络预测是正标记概率较低的标记,称之为低概率标记。
[0047]
步骤4.2:中前h个标记发送给领域专家进行精确标注,该部分标记对模型性能较为重要,需要获取尽可能准确的标记信息。
[0048]
步骤4.3:将中剩下的c-h个标记划分为偶数个长度为l的n个“标记组”,将含有高概率标记的标记组与含有低概率标记的标记组两两配对为一个“标记组对”,即高概率标记组groupa和低概率标记组groupb,其中a=i,b=n-i+1,i=1∶1∶n/2。
[0049]
图2是对待分发标记集合进行分组的示意图。对于图中所示的待分发标记集合前4个标记被发送给领域专家进行精确标注。剩下的12个标记被划分为长度为2的6个“标记组”,将含有高概率标记的标记组和含有低概率标记的标记组两两配对为一个“标记组对”,例如将高概率的group 1和group 6配对为group pair 1,其它以此类推。
[0050]
步骤4.4:将“标记组对”发送给众包标注者进行标注并限制成本或时间上限τ。标注者反复粗略浏览该“标记组对”并试图寻找正标记。如果在成本上限τ下没有发现正标记,则判定groupa和groupb中全是负标记。一旦在groupa中发现正标记,则将groupa发送给领域专家精确标注,直接判定groupb中全是负标记;一旦在groupb中发现正标记,则将groupb发送给领域专家精确标注,直接判定groupa中全是负标记。
[0051]
图3是众包标注者在收到一个“标记组对”时的标注流程示意图。
[0052]
步骤4.5:收集各标记组的标注结果,合并得到xq的标记向量yq。
[0053]
步骤5:将(xq,yq)加入已标注集更新分类网络n的参数,在测试集上测试性能。
[0054]
步骤6:如果用户对当前模型性能满意,则结束,否则转步骤(3)。
[0055]
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

技术特征:
1.一种基于主动查询和分组标注的多义数据标注方法,其特征在于:包括以下步骤:步骤1:获取一定数量的多义数据集表示d维特征空间,表示c个类别的标记空间;初始时选择小部分多义示例进行精确标注,称之为已标注集其中y
i
∈{0,1}
c
是x
i
的标记向量,y
ij
=1表示第j个标记是x
i
的正标记(相关标记),y
ij
=0表示第j个标记是x
i
的负标记(无关标记);剩余的u=n-l个未标注示例称之为未标注集步骤2:利用深度神经网络在已标注集训练多标记分类网络n,建立起输入空间到输出空间的映射;步骤3:利用分类网络n预测未标注集中所有示例x
u
的概率向量和标记向量利用不确定性准则在中主动查询对当前分类网络n的性能最有价值的一个未标注示例x
q
;步骤4:对被查询示例x
q
的标记向量按照进行分组,小部分组发送给领域专家进行精确标注,大部分组发送给多个众包标注者进行非精确的众包标注;返回的标记向量与示例x
q
共同组成一个样本(x
q
,y
q
);步骤5:将(x
q
,y
q
)加入已标注集更新分类网络n的参数,在测试集上测试性能;步骤6:如果用户对当前模型性能满意,则结束,否则转步骤(3)。2.根据权利要求1所述的一种基于主动查询和分组标注的多义数据标注方法,其特征在于:所述步骤3具体为:步骤3.1:将未标注集中的所有示例输入到分类网络n中进行预测,对于每一个示例x
u
而言,分类网络n可以输出其标记向量中每一个标记是正标记的概率,组成长度为c概率向量p
uj
∈(0,1);步骤3.2:通过设置一个阈值thr(一般为0.5),将标记空间划分为正标记集合和负标记集合两个部分,p
uj
≥thr的标记被认为是正标记,p
uj
<thr的标记被认为是负标记,由此得到n为每个未标注示例预测的标记向量形式化表述如下;其中表示当π为真时返回1否则返回0;1否则返回0;1否则返回0;步骤3.3:对于未标注集中的所有示例,计算其中最小的概率值和中最大的概率值之间的差值δ
u
,查询δ
u
值最小的未标注示例,作为被查询示例x
q
,该示例被认为是当前分类网络n最“不确定”的示例,其预测概率向量为标注并训练该示例最有希望提升分类网络的性能。
3.根据权利要求1所述的一种基于主动查询和分组标注的多义数据标注方法,其特征在于:所述步骤4具体为:步骤4.1:设分类网络为被查询示例x
q
预测的概率向量为将标记空间上的c个标记按照的值降序排序,得到待分发标记集合其中排序靠前的是被分类网络预测是正标记的概率较高的标记,称之为高概率标记;反之,排序靠后的是被分类网络预测是正标记概率较低的标记,称之为低概率标记;步骤4.2:中前h个标记发送给领域专家进行精确标注,该部分标记对模型性能较为重要,需要获取尽可能准确的标记信息;步骤4.3:将中剩下的c-h个标记划分为偶数个长度为l的n个“标记组”,将含有高概率标记的标记组与含有低概率标记的标记组两两配对为一个“标记组对”,即高概率标记组group
a
和低概率标记组group
b
,其中a=i,b=n-i+1,i=1∶1∶n/2;步骤4.4:将“标记组对”发送给众包标注者进行标注并限制成本或时间上限τ;标注者反复粗略浏览该“标记组对”并试图寻找正标记。如果在成本上限τ下没有发现正标记,则判定group
a
和group
b
中全是负标记。一旦在group
a
中发现正标记,则将group
a
发送给领域专家精确标注,直接判定group
b
中全是负标记;一旦在group
b
中发现正标记,则将group
b
发送给领域专家精确标注,直接判定group
a
中全是负标记;步骤4.5:收集各标记组的标注结果,合并得到x
q
的标记向量y
q


技术总结
本发明公开一种基于主动查询和分组标注的多义数据标注方法,具体包括以下步骤:(1)用户初始时选择小部分多义数据进行精确标注;(2)利用深度神经网络在小部分已标注数据上训练多标记分类网络;(3)利用多标记分类网络对未标注数据的标记向量进行预测;(4)对该被查询示例的标记空间分组,小部分组发送给领域专家进行精确标注;(5)将该样本加入已标注集,更新多标记分类网络参数,在测试集上测试效果;(6)如果用户对当前模型性能满意,则结束,否则转步骤(3)。本发明能够在多义数据标注的质量和成本之间达到一定平衡,在减少标注成本的同时提高标注质量。时提高标注质量。时提高标注质量。


技术研发人员:张敏灵 刘冰清
受保护的技术使用者:东南大学
技术研发日:2023.07.05
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐