车联网应用的安全检测方法、装置、电子设备及存储介质与流程

未命名 09-12 阅读：89 评论：0

1.本技术涉及深度学习领域，尤其涉及一种车联网应用的安全检测方法、装置、电子设备及存储介质。

背景技术：

2.随着科技的发展，电子设备中使用的应用也在不断的增加，而各类应用在使用前均需要进行安全检测，以检测应用是否符合安全标准的合规检测条目。
3.现有的应用检测方式中，主要存在两种方式，一种是采用人工检测的方式，通过人为手动测试应用的各项信息，进行判断各项信息是否符合安全标准的合规检测条目；另一种是采用深度学习模型对应用进行检测，但是深度学习模型的前期训练需要大量的样本，而对于应用的检测而言，不同的应用其检测项目或许存在不同，因此使用深度学习模型对应用进行检测时根据应用的不同检测项目，分别投入大量的训练成本，导致安全检测效率以及准确率均会较低的问题。

技术实现要素：

4.为了解决上述技术问题，本技术提供了一种车联网应用的安全检测方法、装置、电子设备及存储介质。
5.第一方面，本技术提供了一种车联网应用的安全检测方法，所述方法包括：
6.获取车联网应用的运行信息；
7.初始模型采用执行策略集合中的执行策略，基于所述运行信息，确定第一检测结果，其中，所述初始模型为待训练得到的深度学习模型的初始模型，所述执行策略表示运行信息和检测结果之间的对应关系；
8.采用预先训练的强化学习模型，基于所述运行信息，从所述执行策略集合中确定目标执行策略，其中，所述强化学习模型用于表示运行信息和目标执行策略之间的对应关系；
9.将所述运行信息和所述目标执行策略输入至所述初始模型，以使所述初始模型采用所述目标执行策略，基于所述运行信息，确定第二检测结果；
10.基于所述第一检测结果和所述第二检测结果，调整所述初始模型的模型参数，以训练得到深度学习模型；
11.基于所述深度学习模型对所述车联网应用进行安全检测。
12.可选的，采用预先训练的强化学习模型，基于所述运行信息，从所述执行策略集合中确定目标执行策略，包括：
13.采用所述强化学习模型，根据所述运行信息，结合所述执行策略集合中的各个执行策略，得到各个执行策略分别对应的预设检测结果；
14.确定各个预设检测结果的奖励值，所述奖励值表示所述预设检测结果符合预设标准的程度；
15.将最大所述奖励值对应的执行策略，确定为所述目标执行策略。
16.可选的，所述基于所述第一检测结果和所述第二检测结果，调整所述初始模型的模型参数，以训练得到深度学习模型，包括：
17.基于所述第一检测结果和所述第二检测结果确定损失函数的值；
18.根据所述损失函数的值，通过反向传播算法调整所述初始模型的模型参数，以训练得到深度学习模型。
19.可选的，所述基于所述第一检测结果和所述第二检测结果确定损失函数的值，之后还包括：
20.判断所述损失函数的值是否处于预设范围内；
21.在所述损失函数的值处于预设范围内的情况下，将所述初始模型确定为所述深度学习模型；
22.在所述损失函数的值不处于预设范围内的情况下，根据所述损失函数的值，通过反向传播算法调整所述初始模型的模型参数，以训练得到深度学习模型。
23.可选的，所述基于所述深度学习模型对所述车联网应用进行安全检测，包括：
24.将所述运行信息输入至所述深度学习模型，确定第三检测结果；
25.在所述第三检测结果表示检测通过的情况下，生成所述车联网应用的检测通过报告；以及
26.所述基于第一检测结果和第二检测结果，调整初始模型的模型参数，以训练得到深度学习模型，包括：
27.在所述第三检测结果表示检测未通过的情况下，结合所述运行信息以及所述第三检测结果，生成所述车联网应用的安全报告。
28.可选的，所述强化学习模型为q-learning强化学习模型；
29.所述基于所述第一检测结果和所述第二检测结果确定损失函数的值，包括：
30.采用所述q-learning强化学习模型确定所述第一检测结果的第一q值，以及确定所述第二检测结果的第二q值；
31.基于所述第一q值与所述第二q值之间的差异，确定所述损失函数的值。
32.可选的，获取车联网应用的运行信息，包括：
33.获取检测设备检测的所述车联网应用的动态信息，所述动态信息表示所述车联网应用运行时的数据信息；
34.获取所述车联网应用的属性数据，得到静态信息；
35.将所述动态信息和所述静态信息作为所述运行信息。
36.第二方面，本技术提供了一种车联网应用的安全检测装置，其特征在于，所述装置包括：
37.获取模块，用于获取车联网应用的运行信息；
38.初始模块，用于初始模型采用执行策略集合中的执行策略，基于所述运行信息，确定第一检测结果，其中，所述初始模型为待训练得到的深度学习模型的初始模型，所述执行策略表示运行信息和检测结果之间的对应关系；
39.强化学习模块，用于采用预先训练的强化学习模型，基于所述运行信息，从所述执行策略集合中确定目标执行策略，其中，所述强化学习模型用于表示运行信息和目标执行
策略之间的对应关系；
40.确定模块，用于将所述运行信息和所述目标执行策略输入至所述初始模型，以使所述初始模型采用所述目标执行策略，基于所述运行信息，确定第二检测结果；
41.训练模块，用于基于所述第一检测结果和所述第二检测结果，调整所述初始模型的模型参数，以训练得到深度学习模型；
42.检测模块，用于基于所述深度学习模型对所述车联网应用进行安全检测。
43.第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
44.存储器，用于存放计算机程序；
45.处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的方法的步骤。
46.第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的方法的步骤。
47.本技术实施例提供的上述技术方案与现有技术相比具有如下优点：
48.本技术实施例提供的该方法，通过获取车联网应用的运行信息，初始模型采用执行策略结合中的执行策略，基于运行信息，确定第一检测结果，其中，初始模型为待训练得到的深度学习模型的初始模型，执行策略表示运行信息和检测结果之间的对应关系，采用预先训练的强化学习模型，基于运行信息，从执行策略集合中确定目标执行策略，其中，强化学习模型用于表示运行信息和目标执行策略之间的对应关系，将运行信息和目标执行策略输入至初始模型，以使初始模型采用目标执行策略，基于运行信息，确定第二检测结果，并基于第一检测结果和第二检测结果，调整初始模型的模型参数，以训练得到深度学习模型；基于所述深度学习模型对所述车联网应用进行安全检测。以此无需采用大量的训练样本，而是利用强化学习模型对初始模型进行训练，得到深度学习模型的作用；通过深度学习模型进行安全检测，实现了提高车联网应用的安全检测效率，以此提高了检测效率和准确率的效果。
附图说明
49.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
50.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
51.图1为本技术实施例提供的一种车联网应用的安全检测方法的流程示意图；
52.图2为本技术实施例提供的一种车联网应用的安全检测装置的结构示意图；
53.图3为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
54.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是
本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
55.随着科技的发展，电子设备中使用的应用也在不断的增加，而各类应用在使用前均需要进行检测，以检测应用是否符合安全标准的合规检测条目；之所以需要对应用进行检测，是为了防止应用受到攻击和漏洞的影响，从而导致安全问题。以车联网应用为例，随着车联网技术的发展，车载设备上的应用程序数量越来越多，安全问题也愈加凸显。目前市面上已有一些针对车联网应用程序的安全检测方法，大多采用静态分析或动态分析的方法进行检测。静态分析主要是通过分析应用程序的源代码、二进制文件和资源文件等静态信息来发现潜在的安全漏洞；而动态分析则是通过运行应用程序并分析其运行时的行为来检测存在的安全问题。然而，单独采用静态分析或动态分析都存在一定的局限性。静态分析方法存在漏检的问题，而动态分析则无法涵盖所有情况，同时还会产生较大的运行时开销。
56.以上对于车联网应用的分析检测过程中，也是主要采用人工检测或者深度学习模型检测的方法，因此也还会存在训练成本高、检测效率以及准确率均会较低的问题。
57.图1为本技术实施例提供的一种车联网应用的安全检测方法的流程示意图。
58.如图1所示的，本技术公开一实施例，提供了一种车联网应用的安全检测方法，方法包括：
59.s110：获取车联网应用的运行信息。
60.具体的，车联网应用表示待检测应用，可以是车联网应用程序、移动端应用程序、车载应用程序等；而运行信息则表示车联网应用的静态信息和动态信息，因此s110获取车联网应用的运行信息，还可以包括：
61.获取检测设备检测的车联网应用的动态信息，动态信息表示车联网应用运行时的数据信息；
62.获取车联网应用的属性数据，得到静态信息；
63.将动态信息和静态信息作为运行信息。
64.本实施例中，检测设备表示用于检测车联网应用的运行信息的设备，可以是硬件设备也可以是软件设备，因此针对不同的车联网应用可以使用不同的检测设备；通过检测设备检测的车联网应用的动态信息，动态信息表示车联网应用运行时的数据信息，例如应用程序的名称、版本号、运行状态等数据；而属性数据可以是源代码、二进制文件和资源文件等，并以此得到静态信息；将动态信息和静态信息作为车联网应用的运行信息。
65.s120：初始模型采用执行策略集合中的执行策略，基于运行信息，确定第一检测结果，其中，初始模型为待训练得到的深度学习模型的初始模型，执行策略表示运行信息和检测结果之间的对应关系。
66.具体的，初始模型可以是卷积神经网络(convolutional neural networks，cnn)、多层感知器(multilayer perceptron，mlp)等；初始模型可以分为输入层、中间层以及输出层，本实施例中的初始模型的中间层可以包含执行策略集合，执行策略集合中包含有一个或多个执行策略，其中，执行策略表示运行信息和检测结果之间的对应关系，每个执行策略可以是不同的函数算法或者是执行步骤的顺序条件等。在初始模型未经过训练时会采用执行策略集合中的执行策略，该执行策略为未经过训练的初始模型默认执行策略，基于运行信息，确定第一检测结果。具体实施时，初始模型会对运行信息中的静态信息和动态信息进
行分析判断，判断静态信息和动态信息是否符合安全标准的合规检测条目，得到第一检测结果。本实施例使用基于卷积神经网络的深度学习模型对应用程序的运行信息进行分析和识别，以精准地检测出应用程序中存在的安全问题。以此可以快速有效的识别出应用程序中可能存在的漏洞、代码注入、异常输入等安全问题，从而为后续的检测和防御提供了支持。
67.以初始模型为cnn为例：
68.y＝f(w
l
·
σ(w
l-1
·
...
·
σ(w1·
x+b1)...+b
l-1
)+b
l
)
69.其中，输入数据:x；卷积核和权重:w1,w2,...,w
l
；偏置项:b1,b2,...,b
l
；y：cnn输出。输入数据包括车联网应用的静态信息和动态信息，cnn通过卷积层、池化层和全连接层进行特征提取和分类，以检测出可能存在的安全问题。
70.s130：采用预先训练的强化学习模型，基于运行信息，从执行策略集合中确定目标执行策略，其中，强化学习模型用于表示运行信息和目标执行策略之间的对应关系。
71.具体的，在初始模型基于运行信息，确定第一检测结果之后，由于初始模型为未训练完成的状态，因此需要判断初始模型输出的第一检测结果是否符合预设标准，此时在传统的训练过程中是采用大量标记的样本，然后利用损失函数对输出结果进行判断，以此进行训练，但是该过程中需要使用到大量标记样本，存在成本较高且训练周期长等问题。本实施例中则是采用预先训练的强化学习模型，基于运行信息，从执行策略集合中确定目标执行策略，通过利用强化学习模型在执行策略集合中确定目标执行策略，以此起到辅助训练的作用，此时则可以避免需要大量标记样本进行训练，实现了成本低且训练周期短的效果。
72.在一例子中，s130采用预先训练的强化学习模型，基于运行信息，从执行策略集合中确定目标执行策略，包括：
73.采用强化学习模型，根据运行信息，结合执行策略集合中的各个执行策略，得到各个执行策略分别对应的预设检测结果；
74.确定各个预设检测结果的奖励值，奖励值表示预设检测结果符合预设标准的程度；
75.将最大奖励值对应的执行策略，确定为目标执行策略。
76.本实施例中，由于执行策略集合中包含一个或多个执行策略，而需要确定出目标执行策略则是从执行策略集合中选择出检测运行信息最合适的执行策略；首先，采用强化学习模型，根据运行信息，结合执行策略集合中的各个执行策略，得到各个执行策略分别对应的预设检测结果，其中各个执行策略分别对应的预设检测结果表示，初始模型采用执行策略集合中的各个执行策略，基于运行信息，得到的预设检测结果；接着，确定各个预设检测结果的奖励值，奖励值则是表示预设检测结果符合预设标准的程度，因此可以通过奖励值判断初始模型采用当前执行策略，基于运行信息，得到的预设检测结果是否符合预设标准；然后，将最大奖励值对应的执行策略，确定为目标执行策略，以此从执行策略集合中的执行策略中，选择出处理所述运行信息能够得到最符合预设标准的执行策略；需要说明的是，本实施例中根据运行信息，结合执行策略集合中的各个执行策略，得到各个执行策略分别对应的预设检测结果还可以表示的是，在初始模型的环境下，模拟初始模型采用执行策略集合中的各个执行策略，基于运行信息，得到的预设检测结果。
77.s140：将运行信息和目标执行策略输入至初始模型，以使初始模型采用目标执行
策略，基于运行信息，确定第二检测结果。
78.具体的，在确定目标执行策略后，则将运行信息和目标执行策略输入至初始模型，以使初始模型采用目标执行策略，基于运行信息，确定第二检测结果；由于目标执行策略是检测运行信息最合适的执行策略，因此第二检测结果则是表示检测运行信息最合理的检测结果，以此获得了当前运行信息最合理的检测结果。
79.s150：基于第一检测结果和第二检测结果，调整初始模型的模型参数，以训练得到深度学习模型。
80.具体的，在得到第一检测结果和第二检测结果后，由于第一检测结果表示初始模型根据默认的执行策略检测运行信息所得到的检测结果，而第二检测结果则是表示检测运行信息最合理的检测结果，因此根据第一检测结果和第二检测结果之间差异确定损失函数的值，以此根据损失函数的值调整初始模型的模型参数，以训练得到深度学习模型。另外，为了提高准确性，可以在基于第一检测结果和第二检测结果，调整初始模型的模型参数后，得到训练模型，针对训练模型可以再次执行s110-s150的步骤进行训练，最后得到深度学习模型。还可以是，针对不同车联网应用以及不同的运行信息时，均可以再次执行s110-s150的步骤进行训练，最后得到深度学习模型。
81.在一实施例中，s150基于第一检测结果和第二检测结果，调整初始模型的模型参数，以训练得到深度学习模型，包括：
82.基于第一检测结果和第二检测结果确定损失函数的值；
83.根据损失函数的值，通过反向传播算法调整初始模型的模型参数，以训练得到深度学习模型。
84.本实施例中，由于第一检测结果表示初始模型根据默认的执行策略检测运行信息所得到的检测结果，而第二检测结果则是表示检测运行信息最合理的检测结果，因此第一检测结果和第二检测结果之间差异则是初始模型的损失函数的值；根据损失函数的值，通过反向传播算法调整初始模型的模型参数，以此起到更新初始模型的权重和参数的作用，实现训练初始模型得到深度学习模型的效果。
85.在一实施例中，基于第一检测结果和第二检测结果确定损失函数的值，之后还包括：
86.判断损失函数的值是否处于预设范围内；
87.在损失函数的值处于预设范围内的情况下，将初始模型确定为深度学习模型；以及
88.基于第一检测结果和第二检测结果，调整初始模型的模型参数，以训练得到深度学习模型，包括：
89.在损失函数的值不处于预设范围内的情况下，根据损失函数的值，通过反向传播算法调整初始模型的模型参数，以训练得到深度学习模型。
90.本实施例中，由于存在初始模型得到的第一检测结果与第二检测结果之间的差异，已经符合预设范围的情况；因此在基于第一检测结果和第二检测结果确定损失函数的值，之后还需要判断损失函数的值是否处于预设范围内，在损失函数的值处于预设范围内的情况下，说明当前初始模型的处理效果已经达到预期，因此该情况下无需调整初始模型的模型参数，将初始模型确定为深度学习模型即可；而在损失函数的值不处于预设范围内
的情况下，说明当前初始模型的处理效果还未达到预期，此时则根据损失函数的值，通过反向传播算法调整初始模型的模型参数，以训练得到深度学习模型。
91.s160：基于深度学习模型对车联网应用进行安全检测。
92.具体的，在得到深度学习模型后则可以利用得到深度学习模型对车联网应用进行安全检测，检测过程则是，将车联网应用的运行信息输入至深度学习模型，获取深度学习模型基于运行信息输出的结果确定，车联网应用的检测结果；由于前序步骤的训练过程，使得深度学习模型的输出结果的检测效率和准确率均较高。
93.在一实施例中，s160：基于深度学习模型对车联网应用进行安全检测，可以包括：
94.将运行信息输入至深度学习模型，确定第三检测结果；
95.在第三检测结果表示检测通过的情况下，生成车联网应用的检测通过报告；
96.在第三检测结果表示检测未通过的情况下，结合运行信息以及第三检测结果，生成车联网应用的安全报告。
97.本实施例中，在训练得到深度学习模型后，则可以利用深度学习模型对车联网应用进行检测是否符合安全标准的合规检测条目；首先将运行信息输入至深度学习模型，确定第三检测结果，接着在第三检测结果表示检测通过的情况下，说明当前运算信息符合安全标准的合规检测条目，此时则可以生成车联网应用的检测通过报告；而在第三检测结果表示检测未通过的情况下，说明当前运算信息并不符合安全标准的合规检测条目，此时则需要结合运行信息以及第三检测结果，生成车联网应用的安全报告，安全报告可以包括具体的运行信息内容，以及运行信息对应的第三检测结果，例如运行信息为版本号，运行信息对应的第三检测结果可以是版本号不符合规定等。
98.在一实施例中，强化学习模型为q-learning强化学习模型；
99.基于第一检测结果和第二检测结果确定损失函数的值，包括：
100.采用q-learning强化学习模型确定第一检测结果的第一q值，以及确定第二检测结果的第二q值；
101.基于第一q值与第二q值之间的差异，确定损失函数的值。
102.本实施例中，为了提高自主学习和反馈能力，本实施例采用q-learning强化学习模型，通过让初始模型与环境互动，优化初始模型的执行策略，从而提高了检测的准确性和可靠性。q-learning强化学习模型通过定义一个状态-动作值函数q(s,a)来表示初始模型在状态s下执行动作a所能获得的长期回报。因此第一q值和第二q值可以表示q-learning强化学习模型不同状态下的状态-动作值，由于是采用q-learning强化学习模型确定第一检测结果的第一q值，以及确定第二检测结果的第二q值，因此可以根据第一q值和第二q值之间的差异，确定损失函数的值。在本实施例中，q-learning强化学习模型的智能体可以是指初始模型，状态s表示应用程序的运行信息，包括静态信息和动态信息，动作a表示初始模型的执行策略的行为，也即对车联网应用进行安全检测的行程。其中，q(st,at)表示在状态st下执行动作at的状态-动作值，r是即时奖励，γ是折扣因子，st表示初始模型当前的状态，at表示初始模型在状态st下选择的执行策略的动作，rt+1表示初始模型在执行动作at后，环境反馈的即时奖励，st+1表示初始模型在执行动作at后，进入的新状态，可以执行策略中的下一步动作，例如执行策略包括步骤1、步骤2、步骤3，进行新的状态可以是由步骤1进入步骤2；也可以是输出的检测结果；具体模型代码和公式举例如下所示，\alpha表示学习
率，\gamma表示折扣因子。
103.q(s
t
，a
t
)
←
q(s
t
，a
t
)+α(r
t+1
+γmaxaq(s
t+1
，a)-q(s
t
，a
t
))
104.[0105][0106]
在本实施例中，q-learning强化学习模型根据状态-动作值函数选择动作，以最大化其累积奖励，从而优化初始模型的策略，提高检测的准确性和可靠性。
[0107]
在具体应用时，车联网应用为车联网蓝牙应用，初始模型为cnn神经网络，强化学习模型为q-learning为例，进行举例。
[0108]
步骤1.确定状态和动作空间：在车联网蓝牙应用中，状态可以表示应用程序的当前状态，包括静态信息和动态信息，如设备连接状态、数据传输速度等。动作空间可以表示检测系统的行为，例如对应用程序进行安全检测的不同策略或方法。
[0109]
步骤2.初始化cnn神经网络：根据问题的特点，设计并初始化一个适当的cnn神经网络结构。cnn神经网络的输入层接收状态作为输入，并输出每个动作的q值估计。
[0110]
步骤3.定义q-learning参数：确定q-learning的参数，包括学习率(α)和折扣因子(γ)。学习率决定每次更新时对之前q值的重要性，折扣因子决定了对未来奖励的重视程度。
[0111]
步骤4.开始训练：通过与环境的交互开始训练智能体。在每个训练周期中，智能体根据当前状态输入到cnn神经网络中，并根据cnn神经网络的输出选择一个动作执行。
[0112]
步骤5.观察奖励和新状态：执行选择的动作后，与环境进行交互，观察环境的奖励(即时奖励)和新状态。这些信息将用于更新q值函数。
[0113]
步骤6.计算目标q值：根据q-learning的更新公式，使用新状态和即时奖励计算目标q值，即r+γ*max(q(s',a'))。其中，r是即时奖励，γ是折扣因子，max(q(s',a'))表示在新状态s'下可选动作中的最大q值。
[0114]
步骤7.更新cnn神经网络：将当前状态输入到cnn神经网络中，通过前向传播计算当前状态的q值估计。然后，使用目标q值和估计的q值之间的差异作为损失函数的值，通过反向传播算法更新cnn神经网络的权重和参数。
[0115]
步骤8.重复步骤4至7：不断重复执行步骤4至7，通过与环境的交互和cnn神经网络的训练，逐渐优化q值函数和策略。通过迭代训练，智能体可以学习到在不同状态下选择最优动作的策略，从而提高车联网蓝牙应用的安全检测准确性和可靠性。
[0116]
以下用公式展示cnn和q-learning的关联：
[0117]
y＝f(w
l
·
σ(w
l-1
·
...
·
σ(w1·
x+b1)...+b
l-1
)+b
l
)
[0118]
1.cnn的输出作为q-learning的状态信息：
[0119]
在q-learning中，智能体的状态(state)通常表示为输入数据的特征向量。假设cnn的输出为y，则可以表示为：
[0120]
st＝h
[0121]
其中，st表示q-learning在时间步t的状态。
[0122]
2.q-learning的状态-动作值函数更新中使用cnn的输出：
[0123]
在q-learning中，通过更新状态-动作值函数q(s,a)来优化策略。在结合cnn时，cnn的输出h作为状态信息，与动作at一起传递给q-learning的更新公式。更新公式可以表示为：
[0124]
q(s
t
，a
t
)
←
q(s
t
，a
t
)+α(r
t+1
+γmaxaq(s
t+1
，a)-q(s
t
，a
t
))
[0125]
其中，q(st,at)表示在状态st下执行动作at的状态-动作值，r是即时奖励，γ是折扣因子，rt+1表示环境反馈的即时奖励，st+1表示智能体在执行动作at后的新状态。
[0126]
这里，状态st被定义为cnn的输出y，即：st＝h。
[0127]
cnn的输出h作为q-learning的状态信息，通过与动作at一起传递给q-learning的更新公式，实现状态-动作值函数的更新。这样，cnn和q-learning相互关联，共同完成优化。
[0128]
如图2所示，本技术实施例提供了一种车联网应用的安全检测装置，装置包括：
[0129]
获取模块210，用于获取车联网应用的运行信息；
[0130]
初始模块220，用于初始模型采用执行策略集合中的执行策略，基于运行信息，确定第一检测结果，其中，初始模型为待训练得到的深度学习模型的初始模型，执行策略表示运行信息和检测结果之间的对应关系；
[0131]
强化学习模块230，用于采用预先训练的强化学习模型，基于运行信息，从执行策略集合中确定目标执行策略，其中，强化学习模型用于表示运行信息和目标执行策略之间的对应关系；
[0132]
确定模块240，用于将运行信息和目标执行策略输入至初始模型，以使初始模型采用目标执行策略，基于运行信息，确定第二检测结果；
[0133]
训练模块250，用于基于第一检测结果和第二检测结果，调整初始模型的模型参数，以训练得到深度学习模型；
[0134]
检测模块260，用于基于深度学习模型对车联网应用进行安全检测。
[0135]
在一实施例中，强化学习模块230可以包括：
[0136]
强化学习单元，用于采用强化学习模型，根据运行信息，结合执行策略集合中的各个执行策略，得到各个执行策略分别对应的预设检测结果；
[0137]
第一确定单元，用于确定各个预设检测结果的奖励值，奖励值表示预设检测结果符合预设标准的程度；
[0138]
第二确定单元，用于将最大奖励值对应的执行策略，确定为目标执行策略。
[0139]
在一实施例中，训练模块250可以包括：
[0140]
第三确定单元，用于基于第一检测结果和第二检测结果确定损失函数的值；
[0141]
第一训练单元，用于根据损失函数的值，通过反向传播算法调整初始模型的模型参数，以训练得到深度学习模型。
[0142]
在一实施例中，训练模块250还可以包括：
[0143]
判断单元，用于判断损失函数的值是否处于预设范围内；
[0144]
第四确定单元，用于在损失函数的值处于预设范围内的情况下，将初始模型确定为深度学习模型；以及，训练模块250还可以包括：
[0145]
第二训练单元，用于在损失函数的值不处于预设范围内的情况下，根据损失函数的值，通过反向传播算法调整初始模型的模型参数，以训练得到深度学习模型。
[0146]
在一实施例中，检测模块260还可以包括：
[0147]
输入单元，用于将运行信息输入至深度学习模型，确定第三检测结果；
[0148]
第一生成单元，用于在第三检测结果表示检测通过的情况下，生成车联网应用的检测通过报告；
[0149]
第二生成单元，用于在第三检测结果表示检测未通过的情况下，结合运行信息以及第三检测结果，生成车联网应用的安全报告。
[0150]
在一实施例中，强化学习模型为q-learning强化学习模型；
[0151]
第三确定单元，可以包括：
[0152]
第一确定子单元，用于采用q-learning强化学习模型确定第一检测结果的第一q值，以及确定第二检测结果的第二q值；
[0153]
第二确定子单元，用于基于第一q值与第二q值之间的差异，确定损失函数的值。
[0154]
在一实施例中，获取模块210可以包括：
[0155]
第一获取单元，用于获取检测设备检测的车联网应用的动态信息，动态信息表示车联网应用运行时的数据信息；
[0156]
第二获取单元，用于获取车联网应用的属性数据，得到静态信息；
[0157]
第五确定单元，用于将动态信息和静态信息作为运行信息。
[0158]
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。
[0159]
如图3所示，本技术实施例提供了一种电子设备，包括处理器310、通信接口320、存储器330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信，
[0160]
存储器330，用于存放计算机程序；
[0161]
在本技术一个实施例中，处理器310，用于执行存储器330上所存放的程序时，实现前述任意一个方法实施例提供的方法。
[0162]
本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的方法的步骤。
[0163]
需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0164]
上述对本说明书实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0165]
以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

技术特征：
1.一种车联网应用的安全检测方法，其特征在于，所述方法包括：获取车联网应用的运行信息；初始模型采用执行策略集合中的执行策略，基于所述运行信息，确定第一检测结果，其中，所述初始模型为待训练得到的深度学习模型的初始模型，所述执行策略表示运行信息和检测结果之间的对应关系；采用预先训练的强化学习模型，基于所述运行信息，从所述执行策略集合中确定目标执行策略，其中，所述强化学习模型用于表示运行信息和目标执行策略之间的对应关系；将所述运行信息和所述目标执行策略输入至所述初始模型，以使所述初始模型采用所述目标执行策略，基于所述运行信息，确定第二检测结果；基于所述第一检测结果和所述第二检测结果，调整所述初始模型的模型参数，以训练得到深度学习模型；基于所述深度学习模型对所述车联网应用进行安全检测。2.根据权利要求1所述的方法，其特征在于，采用预先训练的强化学习模型，基于所述运行信息，从所述执行策略集合中确定目标执行策略，包括：采用所述强化学习模型，根据所述运行信息，结合所述执行策略集合中的各个执行策略，得到各个执行策略分别对应的预设检测结果；确定各个预设检测结果的奖励值，所述奖励值表示所述预设检测结果符合预设标准的程度；将最大所述奖励值对应的执行策略，确定为所述目标执行策略。3.根据权利要求1所述的方法，其特征在于，所述基于所述第一检测结果和所述第二检测结果，调整所述初始模型的模型参数，以训练得到深度学习模型，包括：基于所述第一检测结果和所述第二检测结果确定损失函数的值；根据所述损失函数的值，通过反向传播算法调整所述初始模型的模型参数，以训练得到深度学习模型。4.根据权利要求3所述的方法，其特征在于，所述基于所述第一检测结果和所述第二检测结果确定损失函数的值，之后还包括：判断所述损失函数的值是否处于预设范围内；在所述损失函数的值处于预设范围内的情况下，将所述初始模型确定为所述深度学习模型；以及所述基于第一检测结果和第二检测结果，调整初始模型的模型参数，以训练得到深度学习模型，包括：在所述损失函数的值不处于预设范围内的情况下，根据所述损失函数的值，通过反向传播算法调整所述初始模型的模型参数，以训练得到深度学习模型。5.根据权利要求3所述的方法，其特征在于，所述基于所述深度学习模型对所述车联网应用进行安全检测，包括：将所述运行信息输入至所述深度学习模型，确定第三检测结果；在所述第三检测结果表示检测通过的情况下，生成所述车联网应用的检测通过报告；在所述第三检测结果表示检测未通过的情况下，结合所述运行信息以及所述第三检测结果，生成所述车联网应用的安全报告。
6.根据权利要求3所述的方法，其特征在于，所述强化学习模型为q-learning强化学习模型；所述基于所述第一检测结果和所述第二检测结果确定损失函数的值，包括：采用所述q-learning强化学习模型确定所述第一检测结果的第一q值，以及确定所述第二检测结果的第二q值；基于所述第一q值与所述第二q值之间的差异，确定所述损失函数的值。7.根据权利要求1-6任一所述的方法，其特征在于，获取车联网应用的运行信息，包括：获取检测设备检测的所述车联网应用的动态信息，所述动态信息表示所述车联网应用运行时的数据信息；获取所述车联网应用的属性数据，得到静态信息；将所述动态信息和所述静态信息作为所述运行信息。8.一种车联网应用的安全检测装置，其特征在于，所述装置包括：获取模块，用于获取车联网应用的运行信息；初始模块，用于初始模型采用执行策略集合中的执行策略，基于所述运行信息，确定第一检测结果，其中，所述初始模型为待训练得到的深度学习模型的初始模型，所述执行策略表示运行信息和检测结果之间的对应关系；强化学习模块，用于采用预先训练的强化学习模型，基于所述运行信息，从所述执行策略集合中确定目标执行策略，其中，所述强化学习模型用于表示运行信息和目标执行策略之间的对应关系；确定模块，用于将所述运行信息和所述目标执行策略输入至所述初始模型，以使所述初始模型采用所述目标执行策略，基于所述运行信息，确定第二检测结果；训练模块，用于基于所述第一检测结果和所述第二检测结果，调整所述初始模型的模型参数，以训练得到深度学习模型；检测模块，用于基于所述深度学习模型对所述车联网应用进行安全检测。9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1-7中任一所述的方法步骤。10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

技术总结
本申请涉及一种车联网应用的安全检测方法、装置、电子设备及存储介质，所述方法，通过获取车联网应用的运行信息，初始模型采用执行策略结合中的执行策略，基于运行信息，确定第一检测结果，采用预先训练的强化学习模型，基于运行信息，从执行策略集合中确定目标执行策略，将运行信息和目标执行策略输入至初始模型，以使初始模型采用目标执行策略，基于运行信息，确定第二检测结果，并基于第一检测结果和第二检测结果，调整初始模型的模型参数，以训练得到深度学习模型；基于深度学习模型对车联网应用进行安全检测。以此实现了提高车联网应用的安全检测效率，以此提高了检测效率和准确率的效果。确率的效果。确率的效果。

技术研发人员：李卫程薇宸余宇舟张也邵磊
受保护的技术使用者：国家工业信息安全发展研究中心
技术研发日：2023.05.30
技术公布日：2023/9/9

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：阴型连接件、阳型连接件、连接装置、物品和物品组件的制作方法 下一篇：一种风机叶片防雷装置

车联网应用的安全检测方法、装置、电子设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

车联网应用的安全检测方法、装置、电子设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表