一种基于大语言模型的违规叉车检测方法及系统与流程
未命名
09-21
阅读:105
评论:0

1.本发明涉及叉车检测技术领域,具体为一种基于大语言模型的违规叉车检测方法及系统。
背景技术:
2.叉车不属于机动车辆范畴,是一种特种设备,按规定不得上道路行驶。由于叉车在灯光、结构、制动、机械性能等方面的特殊性,使得叉车一旦上路,就具有很大的“攻击能力”,存在较大的安全隐患,极易引发交通事故或其他意外事故。
3.因此,叉车如需转厂作业,必须由其他托运车辆运载到目的地。但是仍有操作人员为图省事,驾驶叉车上路。然而,针对叉车上路的现象,如何及时发现并进行处置是一个费精力的问题。靠人定期检查,不仅需要耗费大量的人力成本,而且检查时间有限,难以长期保持。靠摄像头监控并人工查看视频的方式虽然能够减少人力成本,但是道路数量多意味着监控视频数量庞大,人工查看监控视频的工作量依旧繁杂,且久盯监控视频容易错看漏看,检查准确度难以保证。
技术实现要素:
4.基于此,有必要针对现有检测方式难以及时有效发现叉车违规上路的问题,提供一种基于大语言模型的违规叉车检测方法及系统。
5.为实现上述目的,本发明采用了以下技术方案:一种基于大语言模型的违规叉车检测方法,包括以下步骤:s1.获取历史图片,对历史图片进行数据处理和分类,得到叉车数据集;其中,叉车数据集包括叉车图片和非叉车图片,每张图片对应一个文本标签;s2.获取训练数据集,并输入至预先构建的多模态特征对齐模型和大语言模型中,得到预训练多模态特征对齐模型和预训练大语言模型;s3.联合预训练多模态特征对齐模型和预训练大语言模型,并输入叉车数据集进行微调联合,得到联合模型;微调联合预训练多模态特征对齐模型和预训练大语言模型的具体步骤如下:s31.将叉车数据集输入至预训练多模态特征对齐模型得到1536维图片语义特征;s32.以叉车数据集包含的文本标签为答案设置指令问题,并将指令问题编码成512维问题特征;s33.将1536维图片语义特征和512维问题特征拼接并输入至大语言模型中,输出模拟文本标签;s34.判断模拟文本标签与叉车数据集中相对应的文本标签是否一致,否则微调指令并重复步骤s32,直至模拟文本标签与叉车数据集中相对应的文本标签一致;s4.将联合模型量化,并将待检测的图片输入至量化后的联合模型,输出叉车文本标签,进而得到叉车违规上路信息。
6.进一步的,多模态特征对齐模型的构建采用两个encoder结构,分别对图片及文本进行特征抽取,并通过对比学习训练特征对齐,图片特征与文本特征的输出维度均为1536维。
7.进一步的,大语言模型的构建采用decoder结构,输入的特征维度为2048。
8.进一步的,预训练多模态特征对齐模型的构建具体步骤如下:将训练数据集输入多模态特征对齐模型进行预训练,直至输入训练数据集中的图片后输出的图片特征与该图片所对应的文本特征对齐。
9.进一步的,预训练大语言模型的构建具体步骤如下:将训练数据集中的2048维文本特征输入至参数量为7b的大语言模型,采用自回归方式进行训练,直至生成预设格式的文本标签;其中,训练数据集中的文本总量大于2500万篇。
10.进一步的,将联合模型量化的具体步骤是将联合模型的参数存储方式从float32量化为int8。
11.一种基于大语言模型的违规叉车检测系统,包括视频采集模块、叉车识别模块、违规视频获取模块、预警模块和处理模块。
12.视频采集模块用于实时采集待检测道路的视频流信息。
13.叉车识别模块用于将视频流信息逐帧进行叉车识别。
14.违规视频获取模块用于获取叉车识别结果,以识别出具有叉车的图片为起始帧,在视频流信息中截取一个预设时间周期的视频作为违规视频并保存。
15.预警模块用于根据违规视频及相应的叉车识别结果生成预警报告;其中,预警报告包括违规叉车的时间、位置信息以及对应的违规视频。
16.处理模块用于判断预警报告中预警信息是否准备,是则将预警报告发送给相关人员,否则对预警报告中违规视频的起始帧进行非叉车标注并删除该预警报告。
17.进一步的,视频采集模块包括车辆检测单元,用于提取视频流信息中包含车辆信息的视频。
18.进一步的,叉车识别模块包括叉车检测单元;叉车检测单元由微调联合预训练多模态特征对齐模型和预训练大语言模型的联合模型构成,用于识别每帧图片中的叉车及叉车位置信息。
19.进一步的,处理模块还包括样本库单元,用于存储被标记的违规视频的起始帧图片。
20.与现有技术相比,本发明的有益效果包括:1、本发明的检测方法通过联合模型识别图片以获取叉车违规上路信息,和人工检测相比,效率及检测精准度高,降低错漏率,且降低人力成本;2、本发明的检测系统不仅能够检测出叉车违规情况并获取违规时间、位置信息,还可以将检测出的结果预警给相关人员,以便相关人员及时处理。
附图说明
21.参照附图来说明本发明的公开内容。应当了解,附图仅仅用于说明目的,而并非意在对本发明的保护范围构成限制。其中:
图1为本发明实施例1介绍的一种基于大语言模型的违规叉车检测方法的流程图;图2为本发明实施例2介绍的一种基于大语言模型的违规叉车检测系统的框图。
具体实施方式
22.容易理解,根据本发明的技术方案,在不变更本发明实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
23.实施例1请参阅图1,本实施例介绍了一种基于大语言模型的违规叉车检测方法,包括以下步骤:步骤1.获取历史图片,对历史图片进行数据处理和分类,得到叉车数据集;其中,叉车数据集包括叉车图片和非叉车图片,每张图片对应一个文本标签。
24.叉车数据集不论是叉车图片还是非叉车图片都有一个文本标签。例如,文本标签的形式为“是否包含叉车,叉车位置列表”。若是叉车图片,则文本标签为“true,[x1,y1,x2,y2
…
]”。[x1,y1,x2,y2
…
]表示叉车位置,true表示包含叉车。若是非叉车图片,则文本标签为“flase,[]”。false表示不含叉车,[]表示无位置信息。
[0025]
步骤2.获取训练数据集,并输入至预先构建的多模态特征对齐模型和大语言模型中,得到预训练多模态特征对齐模型和预训练大语言模型。
[0026]
训练数据集中包含用于训练多模态特征对齐模型的图片以及用于用于训练大语言模型的文本。
[0027]
多模态特征对齐模型使用两个encoder结构,分别对图片及文本进行特征抽取,两个encoder结构都采用transformer组件组成,可以抽取任意尺度和长度的图片、文本特征,抽取的特征长度限定为1536维,通过transformer结构实现两种模态在不同特征空间上进行对齐。特征对齐的训练采用对比学习的方式,对比学习损失函数为。其中,表示query样本的特征向量,表示正样本特征向量,是一个温度超参数,是个标量,温度系数默认0.7,表示对比样本的序号,表示对比样本的特征向量。
[0028]
大语言模型采用decoder结构,输入的特征维度为2048,即context长度为2048。decoder结构与gpt3的decoder结构类似。
[0029]
预训练多模态特征对齐模型,使用训练数据集里的图片文本对进行预训练,得到图片语义与文本语义的对齐,即输出的图片特征与该图片所对应的文本特征对齐。
[0030]
预训练大语言模型,大语言模型参数量为7b,使用训练数据集为公开的中文、英文文本训练集,文本总量为2500万篇,训练采用自回归方式进行,通过输入文本生成下一段文本,令大语言模型具备文本理解生成能力。需要注意的是,输入的文本特征维度为2048。
[0031]
步骤3.联合预训练多模态特征对齐模型和预训练大语言模型,并输入叉车数据集进行微调联合,得到联合模型;微调联合预训练多模态特征对齐模型和预训练大语言模型
的具体步骤如下:步骤31.将叉车数据集输入至预训练多模态特征对齐模型得到1536维图片语义特征;步骤32.以叉车数据集包含的文本标签为答案设置指令问题,并将指令问题编码成512维问题特征;步骤33.将1536维图片语义特征和512维问题特征拼接并输入至大语言模型中,输出模拟文本标签;步骤34.判断模拟文本标签与叉车数据集中相对应的文本标签是否一致,否则微调指令并重复步骤s32,直至模拟文本标签与叉车数据集中相对应的文本标签一致。
[0032]
联合预训练的多模态特征对齐模型与大语言模型,使用叉车数据集进行指令微调联合模型,此时图片首先输入多模态特征对齐模型,获取1536维图片语义特征,其次,指令为设计的所需问题,例如“判断图片中是否有叉车、叉车在图片中所在位置”,将问题编码至512维,若空余则使用0补全,将2048维输入大语言模型,将1536维图片语义特征与512维问题指令进行拼接,输入大语言模型,期望输出叉车数据集中图片的文本标签,“图片中包含叉车,叉车1位置为x1,y1,x2,y2,叉车2位置为x3,y3,x4,y4
…”
或“图片中不包含叉车。根据预测生成图片中是否包含叉车及叉车所在位置,与叉车数据集图片的文本标签计算损失,超过误差范围,则对指令微调,直至损失在误差允许的范围内。
[0033]
步骤4.将联合模型量化,并将待检测的图片输入至量化后的联合模型,输出叉车文本标签,进而得到叉车违规上路信息。
[0034]
将联合模型量化,由于训练中模型参数使用float32形式进行保存,因此量化为使用int8进行保存,字节数占用减少3/4,同时模型推理速度也能得到大幅提升。
[0035]
待检测的图片是从道路监控视频中获取的,通过目标检测的方式获取到道路监控视频中有车辆信息的视频,去除未包含车辆信息的视频,仅保留包含车辆信息的视流;将包含车辆信息的视频流逐帧提取得到待检测的图片,以此来减少处理量。
[0036]
在实际应用时,特征对齐模型如上说明,大语言模型的训练过程是采用自回归训练方式。例如有一段文本“我今天去吃饭,碰到了一位朋友”,训练使用海量类似的长文本数据,训练过程中,当输入“我今天去吃饭,碰到了一位”,需要模型预测下一个单词是“朋友”,在训练刚开始,模型无法正确预测“朋友”,因此与真实值“朋友”形成误差,称之为“损失”,通过不断迭代,反向传播更新模型参数,模型预测错误会越来越小,“损失”也越来越小,模型预测越来越准,这就是大模型训练过程。
[0037]
微调模型采用sft训练方式,这种训练方式是控制大语言模型能够对话式的回答问题,而不是之前的续写。输入为图片特征向量与问题编码的拼接,图片特征向量使用特征对齐模型的图片encoder进行生成,将图片转化为1536维特征,问题为固定文本“图片中是否包含叉车,若包含叉车,叉车所在位置在哪?”,将问题文本进行编码,编码长度为512,其中问题空余位置统一编码为0。输出为文本,即步骤1中构建的数据集标签“图片中包含叉车,叉车1所在位置为x1,y1,x2,y2, 叉车2所在位置为x3,y3,x4,y4
…”
和“图片中不包含叉车”。
[0038]
最后进行模型推理时,输入一张图片,首先经过图片特征对齐模型,生成1536维图片特征,再拼接由固定问题编码的512维问题编码,总计2048维向量输入大语言模型,最后
输出标签文本,判断图片中是否有叉车,若有叉车,一并返回叉车位置。
[0039]
基于此,本实施例的方法整体流程如下:s1.准备叉车数据集;s2、构建多模态特征对齐模型;s3、构建大语言模型;s4、预训练多模态特征对齐模型;s5、预训练大语言模型;s6、联合预训练的多模态特征对齐模型与大语言模型,使用叉车数据集进行微调联合模型;s7、将联合模型量化;s8、对于待识别的图片,调用量化后的联合模型得到输出结果。
[0040]
本发明的检测方法通过建立联合模型识别图片以获取叉车违规上路信息,和人工检测相比,效率及检测精准度高,降低错漏率,且降低人力成本。
[0041]
实施例2请参阅图2,本实施例介绍了一种基于大语言模型的违规叉车检测系统,包括视频采集模块、叉车识别模块、违规视频获取模块、预警模块和处理模块。
[0042]
视频采集模块用于实时采集待检测道路的视频流信息。视频采集模块包括车辆检测单元,用于提取视频流信息中包含车辆信息的视频,自动去除未包含车辆信息的视频流,可以大大减少调用叉车识别模块的次数。视频采集模块可以利用摄像头,且在摄像头芯片内嵌入集成微型车辆检测单元。
[0043]
叉车识别模块用于将视频流信息逐帧进行叉车识别。叉车识别模块包含叉车检测单元,叉车检测单元采用实施例1构建的量化后的联合模型。通过联合模型对视频采集模块采集到的视频流信息进行逐帧识别。
[0044]
违规视频获取模块用于获取叉车识别结果,以识别出具有叉车的图片为起始帧,在视频流信息中截取一个预设时间周期的视频作为违规视频并保存。违规视频可以保存至一个专门的问题视频数据库中,以便后续调用。
[0045]
预警模块用于根据违规视频及相应的叉车识别结果生成预警报告;其中,预警报告包括违规叉车的时间、位置信息以及对应的违规视频。
[0046]
处理模块用于判断预警报告中预警信息是否准备,是则将预警报告发送给相关人员,否则对预警报告中违规视频的起始帧进行非叉车标注并删除该预警报告。另外,在删除预警报告的同时将标注的违规视频从问题视频数据库中删除,将标注的违规视频的起始帧存储至处理模块中的样本库单元,用于样本素材积累,主要用于不断优化量化后的联合模型。
[0047]
本实施例的系统实际应用过程如下:部署叉车检测摄像头,在重要的交通路口处,部署高清检测摄像头,用于采集道路情况,同时摄像头内部集成车辆检测单元,若道路中不含车辆,可以不调用叉车识别模块,直接在端侧处理,大大减少叉车识别模块的压力。若道路中含有车辆,则摄像头采集实时的帧图片,送入叉车识别模块,叉车识别模块识别时采用量化后的联合模型,将待检测图片输入该模块,得到图片中是否包含叉车及叉车位置结果,结果形式为(是否包含叉车,叉车位置列表),其中是否包含叉车用true和flase表示,true表示包含叉车,此时叉车位置列表为[x1,y1,x2,y2
…
],false表示不含叉车,此次叉车位置列表为[]。若叉车识别模块检测出含有叉车,则违规视频获取模块截取该问题帧附近时段视频,保存至问题视频数据库中。同时预警模块生成相关检出叉车警告,处理模块向相关管理人员发出检出叉车预警,并将对应的视频一同推送给相关人员,若预警正确,则管理人员将及时进行处理,若预警不正确,则管理人员在后台对视频进行标注,标注问题帧为非叉车,用于叉车检测模型的迭代训练。
[0048]
本发明的检测系统不仅能够检测出叉车违规情况并获取违规时间、位置信息,还可以将检测出的结果预警给相关人员,以便相关人员及时处理。
[0049]
本发明的技术范围不仅仅局限于上述说明中的内容,本领域技术人员可以在不脱离本发明技术思想的前提下,对上述实施例进行多种变形和修改,而这些变形和修改均应当属于本发明的保护范围内。
技术特征:
1.一种基于大语言模型的违规叉车检测方法,其用于获取叉车违规上路信息;其特征在于,基于大语言模型的违规叉车检测方法包括以下步骤:s1.获取历史图片,对历史图片进行数据处理和分类,得到叉车数据集;其中,叉车数据集包括叉车图片和非叉车图片,每张图片对应一个文本标签;s2.获取训练数据集,并输入至预先构建的多模态特征对齐模型和大语言模型中,得到预训练多模态特征对齐模型和预训练大语言模型;s3.联合预训练多模态特征对齐模型和预训练大语言模型,并输入叉车数据集进行微调联合,得到联合模型;微调联合预训练多模态特征对齐模型和预训练大语言模型的具体步骤如下:s31.将叉车数据集输入至预训练多模态特征对齐模型得到1536维图片语义特征;s32.以叉车数据集包含的文本标签为答案设置指令问题,并将指令问题编码成512维问题特征;s33.将1536维图片语义特征和512维问题特征拼接并输入至大语言模型中,输出模拟文本标签;s34.判断模拟文本标签与叉车数据集中相对应的文本标签是否一致,否则微调指令并重复步骤s32,直至模拟文本标签与叉车数据集中相对应的文本标签一致;s4.将联合模型参数存储方式从float32量化为qunt8,并将待检测的图片输入至量化后的联合模型,输出叉车文本标签,根据叉车文本标签判断得到叉车违规上路信息;其中,叉车文本标签包括是否存在叉车的信息以及存在叉车时的位置信息。2.根据权利要求1所述的基于大语言模型的违规叉车检测方法,其特征在于,多模态特征对齐模型的构建采用两个encoder结构,分别对图片及文本进行特征抽取,并通过对比学习训练特征对齐,图片特征与文本特征的输出维度均为1536维。3.根据权利要求1所述的基于大语言模型的违规叉车检测方法,其特征在于,大语言模型的构建采用decoder结构,输入的特征维度为2048。4.根据权利要求1所述的基于大语言模型的违规叉车检测方法,其特征在于,预训练多模态特征对齐模型的构建具体步骤如下:将训练数据集输入多模态特征对齐模型进行预训练,直至输入训练数据集中的图片后输出的图片特征与该图片所对应的文本特征对齐。5.根据权利要求1所述的基于大语言模型的违规叉车检测方法,其特征在于,预训练大语言模型的构建具体步骤如下:将训练数据集中的2048维文本特征输入至参数量为7b的大语言模型,采用自回归方式进行训练,直至生成预设格式的文本标签;其中,训练数据集中的文本总量大于2500万篇。6.根据权利要求1所述的基于大语言模型的违规叉车检测方法,其特征在于,待检测的图片的获取方法具体步骤如下:获取道路监控视频并去除未包含车辆信息的视频,得到包含车辆信息的视流;将包含车辆信息的视频流逐帧提取得到待检测的图片。7.一种基于大语言模型的违规叉车检测系统,其特征在于,其包括:视频采集模块,其用于实时采集待检测道路的视频流信息;叉车识别模块,其用于将视频流信息逐帧进行叉车识别;
违规视频获取模块,其用于获取叉车识别结果,以识别出具有叉车的图片为起始帧,在视频流信息中截取一个预设时间周期的视频作为违规视频并保存;预警模块,其用于根据违规视频及相应的叉车识别结果生成预警报告;其中,预警报告包括违规叉车的时间、位置信息以及对应的违规视频;处理模块,其用于判断预警报告中预警信息是否准备,是则将预警报告发送给相关人员,否则对预警报告中违规视频的起始帧进行非叉车标注并删除该预警报告。8.根据权利要求7所述的基于大语言模型的违规叉车检测系统,其特征在于,视频采集模块包括车辆检测单元,用于提取视频流信息中包含车辆信息的视频。9.根据权利要求7所述的基于大语言模型的违规叉车检测系统,其特征在于,叉车识别模块包括叉车检测单元;叉车检测单元由微调联合预训练多模态特征对齐模型和预训练大语言模型的联合模型构成,用于识别每帧图片中的叉车及叉车位置信息。10.根据权利要求7所述的基于大语言模型的违规叉车检测系统,其特征在于,处理模块还包括样本库单元,用于存储被标记的违规视频的起始帧图片。
技术总结
本发明提供一种基于大语言模型的违规叉车检测方法及系统。该检测方法包括以下步骤:S1.获取历史图片,对历史图片进行数据处理和分类,得到叉车数据集;其中,叉车数据集包括叉车图片和非叉车图片,每张图片对应一个文本标签。S2.获取训练数据集,并输入至预先构建的多模态特征对齐模型和大语言模型中,得到预训练多模态特征对齐模型和预训练大语言模型。S3.联合预训练多模态特征对齐模型和预训练大语言模型,并输入叉车数据集进行微调联合,得到联合模型。S4.将联合模型量化,并将待检测的图片输入至量化后的联合模型,得到叉车违规上路信息。本发明通过联合模型识别图片以获取叉车违规上路信息,效率及检测精准度高,错漏率低。错漏率低。错漏率低。
技术研发人员:徐晓康 沈钰峰 华绿绿 黄健鹏
受保护的技术使用者:苏州折多山科技有限公司
技术研发日:2023.08.17
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/