基于大数据识别技术的计算机信息安全共享系统及方法与流程
未命名
07-23
阅读:86
评论:0

1.本发明涉及计算机信息安全领域,具体为基于大数据识别技术的计算机信息安全共享系统及方法。
背景技术:
2.大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的海量数据资源,具备数据规模大、数据流转快速、数据类型多样和价值密度低四大特征;
3.信息共享是指在信息标准化和规范化的基础上,依据信息系统的技术和传输技术,在信息和信息产品的不同层次、不同部门之间实现交流共享的活动,旨在将信息资源通过互联网与其他人共同分享,优化资源配置,节约社会成本,提高信息资源利用率,创造财富的涌流;信息共享提高了信息资源的利用率,避免了在信息采集、存储和管理上重复;
4.计算机信息安全是为数据处理系统建立和采用的技术、管理上的安全保护,保护计算机软硬件和数据不受破坏、更改和泄露,使得系统能够连续正常运行,信息服务不受干扰,包括操作系统安全、数据库安全、网络安全、加密和认证等,确保了信息不会被非法读取、修改和泄露;
5.在计算机使用过程中,由于使用者并不是信息安全的相关专业人员,在进行信息获取,浏览网页时,计算机安全受到挑战,由于用户的没有意义的操作,使得数据受损,在不经意间被盗取用户个人行为习惯和数据,需要提出一种系统及方法来保护用户在浏览网页时的信息安全问题。
技术实现要素:
6.本发明的目的在于提供基于大数据识别技术的计算机信息安全共享系统及方法来解决上述背景技术中提出的问题,通过建立不信任网站名单,监测用户在不信任网站的阅读和操作信息,对不信任网站进行用户操作数据的替换和相关数据的处理,来保护用户信息和计算机安全。
7.为了解决上述问题,本发明提供如下技术方案,基于大数据识别技术的计算机信息安全共享系统,该信息安全共享系统包括:数据采集模块、行为识别模块、数据替换模块和数据清理模块;
8.所述数据采集模块用于采集网页数据信息,判断网页安全性;所述行为识别模块用于识别用户浏览网页数据时的行为模式,所述数据替换模块用于在后台进行数据替换,将用户浏览网页信息时的数据信息进行替换更新;所述数据清理模块将从网页缓存下载的数据进行检查和清理;
9.通过采集网页相关的数据信息,判断了网页数据的有效程度和网页的安全性,对用户提出了预警,减少了用户在接收信息时被虚假网络信息欺骗的情况,提升了用户的安全警戒意识;通过行为识别模块识别用户在不信任网页的操作习惯,判断用户在当前网页
注意力停留时间,并判断注意力停留处信息的有效性,识别用户是否从不信任网页获取了信息,进行了相关操作;通过数据替换模块,从后台对用户在获取有效信息处的操作进行无序替换,驱动输入设备上传操作信息,替换或扰乱用户的有效操作在网页留下的信息数据,使得当前网页无法通过用户的操作数据形成有效信息分析,进行推送;
10.进一步的,所述数据采集模块包括地址捕获单元、网页名单单元、查找校验单元;所述地址捕获单元捕获网页的域名,通过dns域名系统解析得到网页的ip地址,dns域名系统将根据网页的域名查找网络真实的ip地址;所述网页名单单元将查找得到的域名和ip地址进行检索,网页名单由数据库进行存储,存储了信任网页和不信任网页的域名和ip地址,并分别将信任网页的域名和ip地址放入网页白名单,不信任网页的域名和ip地址放入网页黑名单,分类存储;所述查找检验单元通过对比数据库中的网页名单信息,对比查找网页的域名和ip地址是否存在名单中,若在网页黑名单中查找到ip地址或域名,则标记为不信任网页,并将相关的信息添加进入网页黑名单,如通过ip地址查找到网页黑名单中匹配项,而域名并不存在于黑名单中,则将该域名也添加进入网页黑名单;若在网页白名单中查找到ip地址和域名,则将当前网页标记为受信任网页,可以正常访问;
11.进一步的,所述行为识别模块包括屏幕监测单元、输入设备监测单元、行为捕捉单元和行为识别单元;所述屏幕监测单元通过监测屏幕显示内容,捕获屏幕显示的信息,并判断信息是否属于敏感词汇,将敏感词汇所在的完整句进行下载比对,判断完整句表达的信息的有效性;所述输入设备监测单元捕获用户在当前网页进行操作的相关数据,包括操作类型、操作时间和操作区域;所述行为捕捉单元利用眼动仪,捕捉用户目光聚焦于屏幕的位置,并记录每次目光停留的时长;所述行为识别单元综合捕获到的用户操作数据,判断用户进行一系列操作的相关性,判断用户操作的目的,并根据时间轴,归类用户在同一个时间节点进行的操作,沿着时间轴将操作数据归类,使得操作数据的意义更加明显客观,并根据操作类型进行数据的分类,监测操作的连续性,如用户通过鼠标滚轮对网页进行滚页的频率,检测出异常频率的滚轮操作,说明用户对当前网页进行了精读;
12.进一步的,所述数据替换模块包括数据捕获单元、数据分析单元、替换算法单元和数据上传单元;所述数据捕获单元将接收用户操作数据和网页相关数据,并根据分类方法,设置用户操作数据的检索链接,对网页相关数据设置敏感词检索,以便进行数据的快速检索;所述数据分析单元根据捕获到的用户数据和网页相关数据,进行操作数据和网页信息的相关性分析,所述替换算法单元将用户对敏感信息所在的页面进行的操作进行后台数据替换,使得用户的操作无序化,使得用户的操作习惯和点击偏好没有规律,隐藏了用户的个人信息,所述数据上传单元用于将后台程序设计的操作数据进行上传,拟真为用户的操作数据;
13.进一步的,所述数据清理模块包括数据检查单元、数据分类单元和数据处理单元;所述数据检查单元对不信任网页的浏览数据、下载数据和缓存数据进行检查,对储存在本地计算机的相关数据进行检查,设置隔离存储区域,将对不信任网页的相关数据放入隔离存储区域,避免存在木马程序,对其他正常程序和系统造成影响;所述数据分类单元将网页相关数据进行分类,对下载的文件类信息进行安全性检查后移入计算机正常存储空间,将配置类信息放入隔离存储空间后进行筛选,检索针对用户信息的配置文件,并进行标记;所述数据处理单元将对危险文件和数据进行格式化删除,对隔离存储区域内的数据进行常态
化安全性检查,对放入计算机正常存储空间的文件和数据,记录其地址,在其进行复制和移动等操作时,向管理员提出权限申请并进行安全性检查;
14.基于大数据识别技术的计算机信息安全共享方法,包括以下步骤:
15.s1、判断网页是否受信任,捕捉网页的所有敏感词,根据敏感词在信息中的位置和相关度,判断包含敏感词的信息的有效性;
16.s2、根据用户目光停留时间,用户在页面的操作记录,判断用户是否关注到了包含敏感词汇的有效信息;
17.s3、根据用户关注的包含敏感词汇的有效信息界面及相关操作,设计无序操作数据同步上传,模糊操作数据;
18.s4、对不信任网页相关数据进行处理,保证计算机系统存储空间的安全性,并对不信任网页相关数据进行分析,对危险数据进行隔离或删除操作;
19.进一步的,在步骤s1中,根据网页的域名和ip地址,判断网页是否受到信任,并对不信任网页链接提出警告,若用户仍然选择点击不受信任的网页,则抓取网页所有信息,根据数据库信息,对比捕捉敏感词,对敏感词所在词句进行标记,关联敏感词,进行信息有效性的判断;根据网络安全协议内容,预先加载敏感词库,并对词汇进行比对,得到独立的敏感词信息,并判断敏感词的语义,判断网站是否是随机抓取拼接构成的,对随机抓取拼接的网站,网站内容不具有意义,可以判断为不包含有效信息的网站,不具有信息层面的危险性,首先对词汇进行向量化操作,使用分布式表示的方法将自然语言中的词汇向量化,把这些符号数字化,现存许多模型和技术能够对词汇向量化,在此不再赘述;对敏感词汇之间关系以及在语句中的位置的相关性判断如下,对一个段落中的若干敏感词进行摘取,摘取过程中,将敏感词进行记录,对一个段落的摘取以检索到空格符号为止,记录为对排列相近的两个敏感词进行互信息的计算,依次对两个相近敏感词进行互信息的计算后,进行关联程度比较;截取包含连续两个关联词汇的段落,向前或向后再截取一个包含敏感词汇的语句,将这段包含3个敏感词的段落进行互信息计算,分别赋予两个计算量权重,若计算得到的权重和高于阈值,说明整个段落是表达出有效信息的,则判断该段落信息有效;对两个敏感词的互信息的计算公式如下:
[0020][0021]
p和q分别为两个敏感词的向量化表示,p(p,q)是两个向量的联合概率密度函数,p(p)和p(q)是边际概率密度,若两个向量之间没有联系,互相独立,则其互信息为0,相反,若向量之间的联系越紧密,互信息越大;
[0022]
对三个敏感词进行互信息的计算,以判断包含三个连续敏感词的若干句是否有意义,其计算公式如下:
[0023]
i(p,q,r)=i(p,q)+i(r,p|q)
[0024]
将p和q看做一个整体,然后求r之间的互信息;所述连续三个敏感词是随机选取的,不具有特定性,选取出不具备意义的段落的可能性更大,赋予两个敏感词互信息和三个敏感词互信息的权重,判断包含这些敏感词的语句是否具有有效信息;
[0025]
m=
∝
*i(p,q)+β*i(p,q,r)
[0026]
其中
∝
和β是分别赋予两个互信息的权重,通常β的值要大,可根据实际情况拟合;若m的值大于阈值,则判断包含这些敏感词的段落传递出了有效信息,构成完整意义的表达,具有含义,阈值通常由模型训练,可通过查询得到;
[0027]
进一步的,在步骤s2中,根据用户目光停留区域和用户目光停留时间,判断用户是否关注了包含敏感词汇的有效信息,并进行了信息的读取,若用户读取了相关信息,记录用户读取信息的时间点之后的操作,判断哪些操作有泄露信息的可能性,哪些操作暴露了用户的操作习惯;通过眼动仪追踪用户的目光聚集处,标记目光聚集处的网页信息,若此段网页信息是包含敏感词汇的有效信息,记录用户注视时间,根据有效信息段的信息容量,就信息容量判断一般阅读时间,与用户注视时间进行比较,若注视时间长于一般阅读时间则说明用户读取了包含敏感词汇的有效信息,对用户之后时间段内的操作进行记录,包括鼠标移动点击操作和键盘输入操作;
[0028]
进一步的,在步骤s3中,根据用户对包含敏感词汇的有效信息的界面,对危险操作进行处理,通过设计算法,对操作数据进行无序替换,使得操作数据不具备意义;记录用户读取包含敏感词汇的有效信息后的操作,并将操作类型设定为aj和bj,aj为存储鼠标操作的数据类,存储鼠标操作的次数、时间间隔和在时间轴上的排序,设操作间隔ta,为bj为存储键盘操作类型的数据类,存储用户进行键盘操作的时间间隔、操作时长和在时间轴上的排序,设操作间隔为tb;将数据类型aj放入集合a,将数据类型bj放入集合b,并按照时间轴上的顺序在两个集合中对数据类型分别进行排序,将b中数据插入a中数据,并替换数据类型;生成集合c,插入方法如下:
[0029]
s301、将b数据集合中的bj添加随机函数,使得bj的数据类型失真,
[0030]bk
=bj+random()
[0031]bk
根据时间轴的排序插入集合a,根据操作间隔tb,选择间隔短的操作数据插入间隔间隔长的操作数据之间,由于此时bk数据类型已经失真,bk数据类型中的时间轴并不代表真实条件下的时间轴戳点;
[0032]
s302、从a数据和b数据中选取部分数据,将数据类型替换,将a数据类替换为b数据类,将b数据类替换为a数据类;对替换数据的选择,生成随机数组,选择集合中排列顺序和将随机数组中数值相同的进行替换;
[0033]
s303、重新按照时间轴排序,生成集合c,此时c集合中的操作数据已经完全扰乱,在用户仍然停留在当前页面时,将集合c中的操作数据上传,以达到扰乱网页对用户操作数据捕捉分析的目的;
[0034]
进一步的,在步骤s4中,对用户浏览不信任网页的数据进行处理,对不信任网页相关数据进行安全性检查,并分类处理;在进行扰乱操作后,将扰乱数据在本地的存储删除,并将上传记录保存至本地配置文件,以备后期网站名单更新,对网站进行数据的恢复;在用户从当前不受信任网站进行下载操作后,利用杀毒软件对下载文件进行检查,并设立隔离存储区,将不受信任网站下载的文件及缓存的配置文件放入隔离存储区,直到杀毒软件确认文件数据不含危险,将文件数据放入普通存储区域;在浏览器配置文件中,存有对不信任网站的配置信息,将对不信任网站的配置信息上传至服务器,以供云服务器进行检查,丰富数据信息,提高网站安全性检测的准确性;在用户浏览完不受信任网站并点击关闭后,将不受信任网站的相关缓存数据删除,并对下载文件进行标记,以便在计算机中快速检索得到。
[0035]
与现有技术相比,本发明所达到的有益效果是:
[0036]
本发明通过比对网页中敏感词汇的相关性,判断网页是否由软件随机生成,通过设计一种权重判断方法,更加准确地判断了包含多个敏感词汇的段落是否传递出完整的具体含义,并通过眼动仪捕捉用户的视线聚焦点,判断用户是否对包含敏感词的有效信息进行了读取;通过设计操作数据的替换上传机制,模糊了不受信任网页对用户数据的抓取,保护了用户的个人隐私,并对不受信任网页的相关数据进行处理,保护了计算机安全。
附图说明
[0037]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0038]
图1是基于大数据识别技术的计算机信息安全共享系统的模块组成示意图;
[0039]
图2是基于大数据识别技术的计算机信息安全共享方法的步骤流程图。
具体实施方式
[0040]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0041]
实施例1:基于大数据识别技术的计算机信息安全共享系统,如图1所示,该信息安全共享系统包括:数据采集模块、行为识别模块、数据替换模块和数据清理模块;
[0042]
所述数据采集模块用于采集网页数据信息,判断网页安全性;所述行为识别模块用于识别用户浏览网页数据时的行为模式,所述数据替换模块用于在后台进行数据替换,将用户浏览网页信息时的数据信息进行替换更新;所述数据清理模块将从网页缓存下载的数据进行检查和清理;
[0043]
通过采集网页相关的数据信息,判断了网页数据的有效程度和网页的安全性,对用户提出了预警,减少了用户在接收信息时被虚假网络信息欺骗的情况,提升了用户的安全警戒意识;通过行为识别模块识别用户在不信任网页的操作习惯,判断用户在当前网页注意力停留时间,并判断注意力停留处信息的有效性,识别用户是否从不信任网页获取了信息,进行了相关操作;通过数据替换模块,从后台对用户在获取有效信息处的操作进行无序替换,驱动输入设备上传操作信息,替换或扰乱用户的有效操作在网页留下的信息数据,使得当前网页无法通过用户的操作数据形成有效信息分析,进行推送;
[0044]
所述数据采集模块包括地址捕获单元、网页名单单元、查找校验单元;所述地址捕获单元捕获网页的域名,通过dns域名系统解析得到网页的ip地址,dns域名系统将根据网页的域名查找网络真实的ip地址;所述网页名单单元将查找得到的域名和ip地址进行检索,网页名单由数据库进行存储,存储了信任网页和不信任网页的域名和ip地址,并分别将信任网页的域名和ip地址放入网页白名单,不信任网页的域名和ip地址放入网页黑名单,分类存储;所述查找检验单元通过对比数据库中的网页名单信息,对比查找网页的域名和ip地址是否存在名单中,若在网页黑名单中查找到ip地址或域名,则标记为不信任网页,并将相关的信息添加进入网页黑名单,如通过ip地址查找到网页黑名单中匹配项,而域名并
不存在于黑名单中,则将该域名也添加进入网页黑名单;若在网页白名单中查找到ip地址和域名,则将当前网页标记为受信任网页,可以正常访问;
[0045]
所述行为识别模块包括屏幕监测单元、输入设备监测单元、行为捕捉单元和行为识别单元;所述屏幕监测单元通过监测屏幕显示内容,捕获屏幕显示的信息,并判断信息是否属于敏感词汇,将敏感词汇所在的完整句进行下载比对,判断完整句表达的信息的有效性;所述输入设备监测单元捕获用户在当前网页进行操作的相关数据,包括操作类型、操作时间和操作区域;所述行为捕捉单元利用眼动仪,捕捉用户目光聚焦于屏幕的位置,并记录每次目光停留的时长;所述行为识别单元综合捕获到的用户操作数据,判断用户进行一系列操作的相关性,判断用户操作的目的,并根据时间轴,归类用户在同一个时间节点进行的操作,沿着时间轴将操作数据归类,使得操作数据的意义更加明显客观,并根据操作类型进行数据的分类,监测操作的连续性,如用户通过鼠标滚轮对网页进行滚页的频率,检测出异常频率的滚轮操作,说明用户对当前网页进行了精读;
[0046]
所述数据替换模块包括数据捕获单元、数据分析单元、替换算法单元和数据上传单元;所述数据捕获单元将接收用户操作数据和网页相关数据,并根据分类方法,设置用户操作数据的检索链接,对网页相关数据设置敏感词检索,以便进行数据的快速检索;所述数据分析单元根据捕获到的用户数据和网页相关数据,进行操作数据和网页信息的相关性分析,所述替换算法单元将用户对敏感信息所在的页面进行的操作进行后台数据替换,使得用户的操作无序化,使得用户的操作习惯和点击偏好没有规律,隐藏了用户的个人信息,所述数据上传单元用于将后台程序设计的操作数据进行上传,拟真为用户的操作数据;
[0047]
所述数据清理模块包括数据检查单元、数据分类单元和数据处理单元;所述数据检查单元对不信任网页的浏览数据、下载数据和缓存数据进行检查,对储存在本地计算机的相关数据进行检查,设置隔离存储区域,将对不信任网页的相关数据放入隔离存储区域,避免存在木马程序,对其他正常程序和系统造成影响;所述数据分类单元将网页相关数据进行分类,对下载的文件类信息进行安全性检查后移入计算机正常存储空间,将配置类信息放入隔离存储空间后进行筛选,检索针对用户信息的配置文件,并进行标记;所述数据处理单元将对危险文件和数据进行格式化删除,对隔离存储区域内的数据进行常态化安全性检查,对放入计算机正常存储空间的文件和数据,记录其地址,在其进行复制和移动等操作时,向管理员提出权限申请并进行安全性检查;
[0048]
实施例2:基于大数据识别技术的计算机信息安全共享方法,包括以下步骤:在步骤s1中,根据网页的域名和ip地址,判断网页是否受到信任,并对不信任网页链接提出警告,若用户仍然选择点击不受信任的网页,则抓取网页所有信息,根据数据库信息,对比捕捉敏感词,对敏感词所在词句进行标记,关联敏感词,进行信息有效性的判断;根据网络安全协议内容,预先加载敏感词库,并对词汇进行比对,得到独立的敏感词信息,并判断敏感词的语义,判断网站是否是随机抓取拼接构成的,对随机抓取拼接的网站,网站内容不具有意义,可以判断为不包含有效信息的网站,不具有信息层面的危险性,首先对词汇进行向量化操作,使用分布式表示的方法将自然语言中的词汇向量化,把这些符号数字化,现存许多模型和技术能够对词汇向量化,在此不再赘述;对敏感词汇之间关系以及在语句中的位置的相关性判断如下,对一个段落中的若干敏感词进行摘取,摘取过程中,将敏感词进行记录,对一个段落的摘取以检索到空格符号为止,记录为对排列相近的两个敏感词进行互信
息的计算,依次对两个相近敏感词进行互信息的计算后,进行关联程度比较;截取包含连续两个关联词汇的段落,向前或向后再截取一个包含敏感词汇的语句,将这段包含3个敏感词的段落进行互信息计算,分别赋予两个计算量权重,若计算得到的权重和高于阈值,说明整个段落是表达出有效信息的,则判断该段落信息有效;对两个敏感词的互信息的计算公式如下:
[0049][0050]
p和q分别为两个敏感词的向量化表示,p(p,q)是两个向量的联合概率密度函数,p(p)和p(q)是边际概率密度,若两个向量之间没有联系,互相独立,则其互信息为0,相反,若向量之间的联系越紧密,互信息越大;
[0051]
对三个敏感词进行互信息的计算,以判断包含三个连续敏感词的若干句是否有意义,其计算公式如下:
[0052]
i(p,q,r)=i(p,q)+i(r,p|q)
[0053]
将p和q看做一个整体,然后求r之间的互信息;所述连续三个敏感词是随机选取的,不具有特定性,选取出不具备意义的段落的可能性更大,赋予两个敏感词互信息和三个敏感词互信息的权重,判断包含这些敏感词的语句是否具有有效信息;
[0054]
m=
∝
*i(p,q)+β*i(p,q,r)
[0055]
其中
∝
和β是分别赋予两个互信息的权重,通常β的值要大,可根据实际情况拟合;若m的值大于阈值,则判断包含这些敏感词的段落传递出了有效信息,构成完整意义的表达,具有含义,阈值通常由模型训练,可通过查询得到;
[0056]
在步骤s2中,根据用户目光停留区域和用户目光停留时间,判断用户是否关注了包含敏感词汇的有效信息,并进行了信息的读取,若用户读取了相关信息,记录用户读取信息的时间点之后的操作,判断哪些操作有泄露信息的可能性,哪些操作暴露了用户的操作习惯;通过眼动仪追踪用户的目光聚集处,标记目光聚集处的网页信息,若此段网页信息是包含敏感词汇的有效信息,记录用户注视时间,根据有效信息段的信息容量,就信息容量判断一般阅读时间,与用户注视时间进行比较,若注视时间长于一般阅读时间则说明用户读取了包含敏感词汇的有效信息,对用户之后时间段内的操作进行记录,包括鼠标移动点击操作和键盘输入操作;
[0057]
在步骤s3中,根据用户对包含敏感词汇的有效信息的界面,对危险操作进行处理,通过设计算法,对操作数据进行无序替换,使得操作数据不具备意义;记录用户读取包含敏感词汇的有效信息后的操作,并将操作类型设定为aj和bj,aj为存储鼠标操作的数据类,存储鼠标操作的次数、时间间隔和在时间轴上的排序,设操作间隔ta,为bj为存储键盘操作类型的数据类,存储用户进行键盘操作的时间间隔、操作时长和在时间轴上的排序,设操作间隔为tb;将数据类型aj放入集合a,将数据类型bj放入集合b,并按照时间轴上的顺序在两个集合中对数据类型分别进行排序,将b中数据插入a中数据,并替换数据类型;生成集合c,插入方法如下:
[0058]
s301、将b数据集合中的bj添加随机函数,使得bj的数据类型失真,
[0059]bk
=bj+random()
[0060]bk
根据时间轴的排序插入集合a,根据操作间隔tb,选择间隔短的操作数据插入间隔间隔长的操作数据之间,由于此时bk数据类型已经失真,bk数据类型中的时间轴并不代表真实条件下的时间轴戳点;
[0061]
s302、从a数据和b数据中选取部分数据,将数据类型替换,将a数据类替换为b数据类,将b数据类替换为a数据类;对替换数据的选择,生成随机数组,选择集合中排列顺序和将随机数组中数值相同的进行替换;
[0062]
s303、重新按照时间轴排序,生成集合c,此时c集合中的操作数据已经完全扰乱,在用户仍然停留在当前页面时,将集合c中的操作数据上传,以达到扰乱网页对用户操作数据捕捉分析的目的;
[0063]
在步骤s4中,对用户浏览不信任网页的数据进行处理,对不信任网页相关数据进行安全性检查,并分类处理;在进行扰乱操作后,将扰乱数据在本地的存储删除,并将上传记录保存至本地配置文件,以备后期网站名单更新,对网站进行数据的恢复;在用户从当前不受信任网站进行下载操作后,利用杀毒软件对下载文件进行检查,并设立隔离存储区,将不受信任网站下载的文件及缓存的配置文件放入隔离存储区,直到杀毒软件确认文件数据不含危险,将文件数据放入普通存储区域;在浏览器配置文件中,存有对不信任网站的配置信息,将对不信任网站的配置信息上传至服务器,以供云服务器进行检查,丰富数据信息,提高网站安全性检测的准确性;在用户浏览完不受信任网站并点击关闭后,将不受信任网站的相关缓存数据删除,并对下载文件进行标记,以便在计算机中快速检索得到。
[0064]
实施例3:
[0065]
在步骤s3中,设b1=[b,3,3,5];b2=[b,3,5,7];b3=[b,4,6,9]
[0066]
对b数据集合{b1,b2,b3}中的数据添加随机函数,则添加后
[0067]bk
=bj+random()
[0068]
b1=[b,5,5,8]
[0069]
b2=[b,6,3,9]
[0070]
b3=[b,4,2,5]
[0071]bk
根据时间轴的排序插入集合a,根据操作间隔tb,选择间隔短的操作数据插入间隔间隔长的操作数据之间,将b1插入b2和b3之间,则在在c集合中,b1数据是在b3和b3之间的;
[0072]
b数据中选取部分数据,将数据类型替换,将b1进行替换为a1;重新按照时间轴排序,生成集合c,此时c集合中数据是混乱无序的。
[0073]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.基于大数据识别技术的计算机信息安全共享系统,其特征在于:该信息安全共享系统包括:数据采集模块、行为识别模块、数据替换模块和数据清理模块;所述数据采集模块用于采集网页数据信息,判断网页安全性;所述行为识别模块用于识别用户浏览网页数据时的行为模式,所述数据替换模块用于在后台进行数据替换,将用户浏览网页信息时的数据信息进行替换更新;所述数据清理模块将从网页缓存下载的数据进行检查和清理。2.根据权利要求1所述的基于大数据识别技术的计算机信息安全共享系统,其特征在于:所述数据采集模块包括地址捕获单元、网页名单单元和查找校验单元;所述地址捕获单元捕获网页的域名,通过dns域名系统解析得到网页的ip地址,dns域名系统将根据网页的域名查找网络真实的ip地址;所述网页名单单元将查找得到的域名和ip地址进行检索,网页名单由数据库进行存储,存储了信任网页和不信任网页的域名和ip地址,并分别将信任网页的域名和ip地址放入网页白名单,不信任网页的域名和ip地址放入网页黑名单,分类存储;所述查找检验单元通过对比数据库中的网页名单信息,对比查找网页的域名和ip地址是否存在名单中,若在网页黑名单中查找到ip地址或域名,则标记为不信任网页,并将相关的信息添加进入网页黑名单,如通过ip地址查找到网页黑名单中匹配项,而域名并不存在于黑名单中,则将该域名也添加进入网页黑名单;若在网页白名单中查找到ip地址和域名,则将当前网页标记为受信任网页。3.根据权利要求1所述的基于大数据识别技术的计算机信息安全共享系统,其特征在于:所述行为识别模块包括屏幕监测单元、输入设备监测单元、行为捕捉单元和行为识别单元;所述屏幕监测单元通过监测屏幕显示内容,捕获屏幕显示的信息,并判断信息是否属于敏感词汇,将敏感词汇所在的完整句进行下载比对,判断完整句表达的信息的有效性;所述输入设备监测单元捕获用户在当前网页进行操作的相关数据,包括操作类型、操作时间和操作区域;所述行为捕捉单元利用眼动仪,捕捉用户目光聚焦于屏幕的位置,并记录每次目光停留的时长;所述行为识别单元综合捕获到的用户操作数据,判断用户进行一系列操作的相关性,判断用户操作的目的,并根据时间轴,归类用户在同一个时间节点进行的操作,沿着时间轴将操作数据归类,并根据操作类型进行数据的分类,监测操作的连续性。4.根据权利要求1所述的基于大数据识别技术的计算机信息安全共享系统,其特征在于:所述数据替换模块包括数据捕获单元、数据分析单元、替换算法单元和数据上传单元;所述数据捕获单元将接收用户操作数据和网页相关数据,并根据分类方法,设置用户操作数据的检索链接,对网页相关数据设置敏感词检索,以便进行数据的快速检索;所述数据分析单元根据捕获到的用户数据和网页相关数据,进行操作数据和网页信息的相关性分析,所述替换算法单元将用户对敏感信息所在的页面进行的操作进行后台数据替换,所述数据上传单元用于将后台程序设计的操作数据进行上传,拟真为用户的操作数据。5.根据权利要求1所述的基于大数据识别技术的计算机信息安全共享系统,其特征在于:所述数据清理模块包括数据检查单元、数据分类单元和数据处理单元;所述数据检查单元对不信任网页的浏览数据、下载数据和缓存数据进行检查,对储存在本地计算机的相关数据进行检查,设置隔离存储区域,将对不信任网页的相关数据放入隔离存储区域;所述数据分类单元将网页相关数据进行分类,对下载的文件类信息进行安全性检查后移入计算机正常存储空间,将配置类信息放入隔离存储空间后进行筛选,检索针对用户信息的配置文
件,并进行标记;所述数据处理单元将对危险文件和数据进行格式化删除,对隔离存储区域内的数据进行常态化安全性检查,对放入计算机正常存储空间的文件和数据,记录其地址,在其进行复制和移动等操作时,向管理员提出权限申请并进行安全性检查。6.基于大数据识别技术的计算机信息安全共享方法,包括以下步骤:s1、判断网页是否受信任,捕捉网页的所有敏感词,根据敏感词在信息中的位置和相关度,判断包含敏感词的信息的有效性;s2、根据用户目光停留时间,用户在页面的操作记录,判断用户是否关注到了包含敏感词汇的有效信息;s3、根据用户关注的包含敏感词汇的有效信息界面及相关操作,设计无序操作数据同步上传,模糊操作数据;s4、对不信任网页相关数据进行处理,保证计算机系统存储空间的安全性,并对不信任网页相关数据进行分析,对危险数据进行隔离或删除操作。7.根据权利要求6所述的基于大数据识别技术的计算机信息安全共享方法,其特征在于:在步骤s1中,根据网页的域名和ip地址,判断网页是否受到信任,并对不信任网页链接提出警告,若用户仍然选择点击不受信任的网页,则抓取网页所有信息,根据数据库信息,对比捕捉敏感词,对敏感词所在词句进行标记,关联敏感词,进行信息有效性的判断;预先加载敏感词库,并对词汇进行比对,得到独立的敏感词信息,并判断敏感词的语义,判断网站是否是随机抓取拼接构成的,对随机抓取拼接的网站,判断为不包含有效信息的网站,不具有信息层面的危险性,首先对词汇进行向量化操作;对敏感词汇之间关系以及在语句中的位置的相关性判断如下,对一个段落中的若干敏感词进行摘取,摘取过程中,将敏感词进行记录,对一个段落的摘取以检索到空格符号为止,记录为对排列相近的两个敏感词进行互信息的计算,依次对两个相近敏感词进行互信息的计算后,进行关联程度比较;截取包含连续两个关联词汇的段落,向前或向后再截取一个包含敏感词汇的语句,将这段包含3个敏感词的段落进行互信息计算,分别赋予两个计算量权重,若计算得到的权重和高于阈值,说明整个段落是表达出有效信息的,则判断该段落信息有效;对两个敏感词的互信息的计算公式如下:p和q分别为两个敏感词的向量化表示,p(p,q)是两个向量的联合概率密度函数,p(p)和p(q)是边际概率密度,若两个向量之间没有联系,互相独立,则其互信息为0,相反,若向量之间的联系越紧密,互信息越大;对三个敏感词进行互信息的计算,以判断包含三个连续敏感词的若干句是否有意义,其计算公式如下:i(p,q,r)=i(p,q)+i(r,p|q)将p和q看做一个整体,然后求r之间的互信息;赋予两个敏感词互信息和三个敏感词互信息的权重,判断包含这些敏感词的语句是否具有有效信息;m=
∝
*i(p,q)+p*i(p,q,r)其中
∝
和β是分别赋予两个互信息的权重;若m的值大于阈值,则判断包含这些敏感词
的段落传递出了有效信息,构成完整意义的表达,具有含义。8.根据权利要求6所述的基于大数据识别技术的计算机信息安全共享方法,其特征在于:在步骤s2中,根据用户目光停留区域和用户目光停留时间,判断用户是否关注了包含敏感词汇的有效信息,并进行了信息的读取,若用户读取了相关信息,记录用户读取信息的时间点之后的操作,判断哪些操作有泄露信息的可能性,哪些操作暴露了用户的操作习惯;通过眼动仪追踪用户的目光聚集处,标记目光聚集处的网页信息,若此段网页信息是包含敏感词汇的有效信息,记录用户注视时间,根据有效信息段的信息容量,就信息容量判断一般阅读时间,与用户注视时间进行比较,若注视时间长于一般阅读时间则说明用户读取了包含敏感词汇的有效信息,对用户之后时间段内的操作进行记录。9.根据权利要求6所述的基于大数据识别技术的计算机信息安全共享方法,其特征在于:在步骤s3中,根据用户对包含敏感词汇的有效信息的界面,对危险操作进行处理,通过设计算法,对操作数据进行无序替换;记录用户读取包含敏感词汇的有效信息后的操作,并将操作类型设定为a
j
和b
j
,a
j
为存储鼠标操作的数据类,存储鼠标操作的次数、时间间隔和在时间轴上的排序,设操作间隔t
a
,为b
j
为存储键盘操作类型的数据类,存储用户进行键盘操作的时间间隔、操作时长和在时间轴上的排序,设操作间隔为t
b
;将数据类型a
j
放入集合a,将数据类型b
j
放入集合b,并按照时间轴上的顺序在两个集合中对数据类型分别进行排序,将b中数据插入a中数据,并替换数据类型;生成集合c,插入方法如下:s301、将b数据集合中的b
j
添加随机函数,使得b
j
的数据类型失真,b
k
=b
j
+random()b
k
根据时间轴的排序插入集合a,根据操作间隔t
b
,选择间隔短的操作数据插入间隔间隔长的操作数据之间;s302、从a数据和b数据中选取部分数据,将数据类型替换,将a数据类替换为b数据类,将b数据类替换为a数据类;对替换数据的选择,生成随机数组,选择集合中排列顺序和将随机数组中数值相同的进行替换;s303、重新按照时间轴排序,生成集合c,此时c集合中的操作数据已经完全扰乱,在用户仍然停留在当前页面时,将集合c中的操作数据上传。10.根据权利要求6所述的基于大数据识别技术的计算机信息安全共享方法,其特征在于:在步骤s4中,对用户浏览不信任网页的数据进行处理,对不信任网页相关数据进行安全性检查,并分类处理;在进行扰乱操作后,将扰乱数据在本地的存储删除,并将上传记录保存至本地配置文件;在用户从当前不受信任网站进行下载操作后,利用杀毒软件对下载文件进行检查,并设立隔离存储区,将不受信任网站下载的文件及缓存的配置文件放入隔离存储区,直到杀毒软件确认文件数据不含危险,将文件数据放入普通存储区域;在浏览器配置文件中,存有对不信任网站的配置信息,将对不信任网站的配置信息上传至服务器,以供云服务器进行检查;在用户浏览完不受信任网站并点击关闭后,将不受信任网站的相关缓存数据删除,并对下载文件进行标记。
技术总结
本发明公开了基于大数据识别技术的计算机信息安全共享系统,涉及计算机信息安全领域,该信息安全共享系统包括:数据采集模块、行为识别模块、数据替换模块和数据清理模块;数据采集模块采集网页数据信息,判断网页安全性;行为识别模块识别用户行为模式,数据替换模块进行数据替换;数据清理模块将从网页缓存下载的数据进行检查和清理;本发明通过比对网页中敏感词汇的相关性,设计权重判断方法,更加准确地判断了包含多个敏感词汇的段落是否传递出完整含义,并通过眼动仪捕捉用户的视线聚焦点,判断用户是否对包含敏感词的有效信息进行了读取;设计操作数据的替换上传机制,模糊了对用户数据的抓取,保护了计算机安全。保护了计算机安全。保护了计算机安全。
技术研发人员:王舒
受保护的技术使用者:哈尔滨臻善科技有限责任公司
技术研发日:2023.04.06
技术公布日:2023/7/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种UV光解等离子净化一体机的制作方法 下一篇:一种工业污水净化装置的制作方法