一种基于异构数据源的海量数据处理方法及系统与流程

未命名 07-15 阅读：91 评论：0

1.本发明属于混合数据源数据处理方法
技术领域：
：，尤其涉及一种基于异构数据源的海量数据处理方法及系统。
背景技术：
：：2.很多应用系统在工作运行过程中，例如数据服务系统在统计用户调用接口的情况时，需获得已发布服务数、接口失败率、接口调用耗时、接口调用量(日、周、月、年)、支撑应用数等信息，都需要基于接口调用数据来进行统计分析。目前，大多现有系统采取的都是基于mongodb+mysql+运维手动清数据的架构方案，mongodb用于存储调用数据，定时任务处理mongodb数据形成统计数据，然后把统计数据存储到mysql单表中，运维定时(每年)手动清理一次mongodb中无用的数据文件。3.然而，上述基于mongodb+mysql+运维手动清数据的方案，如果因为突发事件导致调用接口用户剧增，服务日调用量达到千万或者亿级别，单秒单接口并发量达到数千时(比如千万级人口城市提供的个人信息查询等服务接口)，会存在如下缺陷：4.1、上述方案中接口日调用量只能支持到万级别，根本无法支撑突发情况导致调用量达到日亿级别的情况。5.2、mongodb存储数据文件，难以扩容，mongo集群扩容复杂，扩容过程中会停服，机器成本和人工成本巨大，当并发量突然提高时，难以在短时间内以用户无感知的方式进行扩容支撑。6.3、接口调用统计数据存放在单表mysql，如果对外开放1w个接口，每天产生的数据有13w条以上，每个月可到400w条，每年可到5000w条。当单表mysql数据量超过5000w时会触及磁盘io瓶颈，会导致查询慢、效率低、接口调用超时、甚至不可用等情况出现。7.4、基于mysql和mongodb存储中间件，不支持跨数据源查询，对复杂查询、统计不友好，且查询效率难以满足复杂olap需求。8.5、手动清数据文件，对于单日数据文件大小在1g以下，一般文件服务器，磁盘大小1t，运维年度手动清理一次数据方案即可。但对于日产生数据量50g以上的，只需十几天数据磁盘就会爆满，需要运维高频率检查磁盘，手动清理文件，消耗人工成本，若清理不及时还会导致服务不可用。技术实现要素：9.术语解释10.presto：presto是facebook开源的、完全基于内存并行计算的、分布式sql查询引擎，适用于交互式分析查询。11.catalog：catalog即数据源。每个数据源连接都有一个名字，一个catalog可以包含多个schema，并通过connector引用数据源，通过showcatalogs命令可看到presto已连接的所有数据源。12.schema：相当于一个数据库，一个schema包含多张数据表。通过showschemasfrom'catalog_name'命令可列出catalog下的所有schema。13.kafka：kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。14.为了克服现有mongodb+mysql+运维手动清数据架构方案存在的缺陷，本发明提出了一种新的基于异构数据源的海量数据处理方法。本发明方法旨在解决以下问题：15.1、针对突发事件导致单接口日服务调用量达到千万甚至亿级别的情况，提出容易扩容的数据存储方案，以解决扩容困难的问题。16.2、优化存储方案，以解决mysql单表数据量超过5000w时数据库io阻塞和数据库卡死导致服务平台不可用的问题。17.3、提高单表查询速度和查询效率。18.4、针对多数据源，实现跨数据源查询，满足复杂olap需求。19.5、提出自动清理规则及清理算法，实现数据文件智能清理，替代手动清理数据，节省人工成本。20.整体而言，本发明通过以下技术构思及策略来实现上述目的：21.(1)高效扩容方案：更换主要数据存储引擎，把mongodb只作为临时存储中间件、最终数据存储到elasticasearch，由于elasticasearch扩容是在集群中增加机器节点，因此更加容易实现扩容。22.(2)mysql按特定规则和算法智能分表。23.(3)为了实现单表查询、复杂olap等多种查询，采用了多种数据源引擎(mysql、mongodb、elasticasearch、redis)存储数据，多数据源之间协作完成查询，提高查询效率、分担查询压力。24.(4)引入presto引擎，支持mysql、elasticasearch跨数据源查询分析。25.(5)定时调度任务、shell脚本、数据库定时任务等多种数据清理方案，定时清理mongodb、mysql统计表、elasticasearch。26.(6)引入智能预警，通过上述方案之后，系统还存在的无法处理的服务器压力或者数据库压力，按天巡检，智能发送预警消息给管理员。27.具体地，本发明提供了一种基于异构数据源的海量数据处理方法，本方法包括：28.s1.服务调用数据写入存储，所述存储包括mongodb和elasticsearch；29.s2.查询服务调用数据；30.s3.定时清理数据文件；31.s4.通过shell脚本进行智能预警。32.进一步地，根据本发明的一些实施例，本发明基于异构数据源的海量数据处理方法步骤s1中所述服务调用数据包括api服务调用时间、apiid、应用名称、参数、耗时、出错信息、错误码信息记录json串。33.进一步地，本发明基于异构数据源的海量数据处理方法步骤s1中所述服务调用数据写入存储，包括：34.s11.将服务调用数据的具体信息异步写入mongodb，用于数据统计查询，并每天为mongodb新建collection，每天23:59分启动定时任务，创建新的mongodb表，当天的数据写入当天的数据表；35.s12.将服务调用数据的具体信息异步写入elasticsearch，用于用户查询，并每月为elasticsearch滚动创建新索引(创建模板，每月基于模板和创建策略rollover生成新索引)；36.s13.每10秒钟对mongodb的数据，按年、月、日、小时的维度对接口调用量、平均耗时、失败次数、调用次数进行统计，并将统计数据保存到mysql统计表；37.s14.每年为mysql创建新数据统计表，每年末定时创建新表，新表同步上个月表数据，下个月表数据写入新表，每年最后一天23:00:00创建新数据表，表名为dytj_当前日期年，同时把12月数据同步到新数据表，每年2月1日，定时清理新表中上一年12月的数据。38.进一步地，根据本发明的一些实施例，本发明基于异构数据源的海量数据处理方法当系统在运行中出现数据库和/或服务器压力突然剧增，资源空间不足时，采用下述方式进行扩容：39.(1)针对mysql，通过mysql分表策略，当出现资源空间不足时，给mysql增加机器，分库存储历史数据和当前数据；40.(2)针对mongodb，mongodb只存储临时数据，作为临时存储中间件，当出现资源空间不足时，只保留1天数据，删除中间表数据；41.(3)针对elasticsearch，评估需要增加的服务器资源，根据调用量计算需要扩容的机器个数，进行水平扩容；42.(4)针对应用服务器，根据总并发量及单服务器配置支持的并发量，评估需要增加的服务器资源，进行水平扩容。43.进一步地，本发明基于异构数据源的海量数据处理方法步骤s2中所述查询服务调用数据，包括：44.(1)单表查询45.①查询api服务调用统计信息，通过查询mysql统计表，获取年、月、日、小时维度的统计数据信息；46.②查询api服务调用数据信息，通过查询elasticsearch，获取api服务名称、调用时间、应用名称、数据内容、参数、耗时、错误码的数据信息；47.(2)跨数据源查询48.①配置presto的catalog，在presto安装目录下找到catalog目录，然后在catalog目录下添加connector文件，创建mysql.properties、mongodb.properties、elasticsearch.properties，并配置连接器信息(地址、用户名、密码等)；49.②编写混合查询的sql，混合查询sql的编写方法与普通sql相同，查询的表名写为catalog.schame.tablename(catalog即为properties的名字)，完成跨数据源查询。50.进一步地，上述基于异构数据源的海量数据处理方法，单表查询中所述查询api服务调用数据信息还包括基于查询获取到的数据信息，进行聚合分析；51.所述聚合分析包括错误数据分布分析、错误类型分布分析、以及报错最多时间段分析。52.进一步地，本发明基于异构数据源的海量数据处理方法步骤s3中所述定时清理数据文件，包括：53.(1)mongodb数据清理54.设置按天清理的数据定时删除任务，数据有效时间为2天，每日删除前2天的mongodb数据；55.(2)elasticsearch数据清理56.①elasticsearch创建索引时同步设置数据定时删除任务，数据有效时间为1年，到期自动删除数据；57.②手动编写一个用于检测的shell脚本，并将其放入服务器中，每日定时检查磁盘剩余空间，当磁盘剩余空间不足10％时，按重要性以及索引创建时间策略删除文件，直到磁盘剩余空间达到80％；58.(3)mysql数据清理59.①设置按年清理的数据定时删除任务，数据有效时间为3年，到期自动清理3年前的数据统计表；60.②手动编写一个用于检测的shell脚本，并将其放入服务器中，每日定时检查磁盘剩余空间，当磁盘剩余空间不足10％时，按重要性以及数据存入时间策略删除文件，直到磁盘剩余空间超过10％；61.③针对mysql数据库新建事件，每日检查单表数据量，若单表数据量超过1亿，则向告警表中写入数据，并通知平台维护人员检查处置。62.进一步地，本发明基于异构数据源的海量数据处理方法步骤s4中所述通过shell脚本进行智能预警，包括：63.s41.编写智能预警shell脚本，然后在/home/opt创建xtyj.sh文件；64.s42.查询磁盘空间，若磁盘空间占用率达到85％，则向kafka发送xt_yj_topic的消息，消息内容包括服务器ip、cpu及磁盘使用情况；65.s43.为智能预警shell脚本设置定时任务，每日1:00执行脚本；66.s44.后端代码监听kafka对应主题xt_yj_topic的消息，接收消息之后，给系统管理员发送预警消息；67.s45.系统管理员收到预警消息后，检查服务器异常并进行相应的处理。68.通过上述方案之后，若系统还存在无法处理的服务器压力或者数据库压力，按天巡检，智能发送预警消息给系统管理员。69.第二方面，本发明还提供了一种基于异构数据源的海量数据处理系统，所述处理系统包括：70.存储模块，用于将服务调用数据写入存储，所述存储包括mongodb和elasticsearch；71.查询模块，用于查询服务调用数据；72.清理模块，用于定时清理数据文件；73.预警模块，用于通过shell脚本进行智能预警。74.另外，本发明还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现上述的基于异构数据源的海量数据处理方法的步骤。75.综上，本发明基于异构数据源的海量数据处理方法具有以下优点：76.(1)本发明方法能够支持服务系统快速扩容，大幅提高接口并发量，支撑接口日亿级别的调用，可用于海量数据的存储及调用；且支持外部用户无感知的系统扩容，扩容期间接口可以正常调用。77.(2)本发明方法采用多数据源引擎协作查询，支持跨数据源查询，适用于各种查询场景，提高了数据实时查询能力和多维分析能力。78.(3)本发明方法能够及时快速地智能清理无用的存储数据和文件，不需要运维手动巡查清理，减少了人工和机器成本。79.(4)本发明方法提供了智能预警功能，当数据库、服务器压力突然剧增时，能够以邮件、短信等方式给平台维护人员发送预警。附图说明80.为了更清楚地说明本发明实施例的技术方案，下面对本发明实施例中需要使用的附图作简要介绍，显而易见地，下述附图仅是本发明中记载的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。81.图1为本发明方法的整体实施流程图。82.图2为本发明方法中服务调用数据存储方案框图。83.图3为本发明方法中服务调用数据存储过程流程图。84.图4为本发明方法中服务调用数据查询方案框图。85.图5为本发明方法中数据定时清理方案框图。86.图6为本发明方法中智能预警过程流程图。87.图7为本发明数据处理系统的组成结构示意图。具体实施方式88.为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例，本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。89.同时，应理解，本发明的保护范围并不局限于下述特定的具体实施方案；还应当理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围。90.实施例：一种基于异构数据源的海量数据处理方法91.如图1所示，本方法包括下述步骤：92.s1.服务调用数据写入存储93.假设背景：94.服务平台对外提供的接口个数如下，分为高并发调用接口和低并发调用接口：[0095][0096]mysql数据量：[0097]产生统计数据量(条/每天)＝服务总个数*24*1.5≈11w条；[0098]产生统计数据量(条/每年)＝产生统计数据量(条/每天)*365≈4000w条。[0099]mongodb数据量：[0100]详细数据量(每天)＝高并发接口个数*日均调用量*数据量+低并发接口个数*日均调用量*数据量[0101]＝5000w*10*1kb+1w*3000*1kb[0102]≈500g。[0103]elasticasearch数据量：[0104]每月数据量＝数据量(每天)*30≈15t；[0105]每季数据量＝数据量(每天)*90≈45t；[0106]每年数据量＝数据量(每天)*365≈180t。[0107]如图2和图3所示，服务调用数据存储流程包括下述步骤：[0108]s11.服务调用数据异步写入mongodb[0109]将服务调用数据，如api服务调用时间、apiid、应用名称、参数、耗时、出错信息、错误码信息记录json串等的具体信息异步写入mongodb，用于数据统计查询。[0110]mongodb按天分表[0111]每天为mongodb新建collection，每天23:59分启动定时任务，创建新的mongodb表，当天的数据写入当天的数据表，只保留2天数据。[0112]s12.服务调用数据异步写入elasticsearch[0113]将上述服务调用数据的具体信息异步写入elasticsearch，用于用户查询。[0114]elasticsearch按月生成新索引[0115]创建模板，每月基于模板和策略为elasticsearch滚动生成新的索引。[0116]s13.统计数据保存到mysql[0117]每10秒钟对mongodb的数据，按年、月、日、小时的维度对接口调用量、平均耗时、失败次数、调用次数进行统计，并将统计数据保存到mysql统计表；[0118](1)按小时同步统计数据insertandupdatehourdata；[0119](2)按天同步统计数据insertandupdatedaydata；[0120](3)按月同步统计数据insertandupdatemonthdata；[0121](4)按年同步统计数据insertandupdateyeardata。[0122]s14.mysql统计表按年分表[0123]每年为mysql创建新数据表，每年末定时任务创建新表，新表同步上个月表数据，下个月表数据写入新表。每年最后一天23:00:00创建新数据表，表名为dytj_当前日期年，同时把12月数据同步到新数据表，每年2月1号，定时任务清理新表中上一年12月的数据。[0124]扩容[0125]系统运行中，应用了数据文件清理方案之后，如果数据库、服务器压力突然剧增，资源空间不足，智能预警功能会以邮件、短信等方式给平台维护人员预警，提示哪台服务器哪台应用存在资源不足。针对mysql、mongodb、elasticsearch、应用服务器，采取不同方案进行扩容或处置。[0126](1)mysql[0127]针对mysql，通过mysql分表策略，当出现资源空间不足时，给mysql增加机器，分库存储历史数据和当前数据；[0128](2)mongodb[0129]针对mongodb，mongodb只存储临时数据，作为临时存储中间件，当出现资源空间不足时，只保留1天数据，删除中间表中的其他数据；[0130](3)elasticsearch[0131]针对elasticsearch，评估需要增加的服务器资源，进行水平扩容，根据调用量计算需要扩容的机器个数：[0132]每天数据量＝∑统计表单服务每天调用量*1k；[0133]如果需要保留1年的数据，那数据存储能力为：[0134]1年数据量＝每天数据量*365。[0135](4)应用服务器[0136]针对应用服务器，根据总并发量及单服务器配置支持的并发量，评估需要增加的服务器资源，进行水平扩容，[0137]总并发量(每秒)＝统计表存储的每小时调用量/3600。[0138]s2.查询服务调用数据[0139]如图4所示，服务调用数据查询包括单表查询和跨数据源查询，具体流程如下：[0140](一)单表查询(简单查询)[0141](1)查询api服务调用统计信息，通过查询mysql统计表，可以直接获取年、月、日、小时维度的统计数据信息；[0142](2)查询api服务调用数据信息，通过查询elasticsearch，获取api服务名称、调用时间、应用名称、数据内容、参数、耗时、错误码的具体数据信息；[0143]还支持基于查询获取到的数据信息，进行聚合分析，例如进行错误数据分布、错误类型分布、报错最多时间段等统计信息分析。[0144](二)跨数据源查询(复杂查询)[0145]查询复杂业务场景，需要mysql、elasticsearch、mongodb联合查询，通过使用presto，实现跨数据源查询。[0146](1)配置presto的catalog，在presto安装目录下找到catalog目录，然后在catalog目录下添加connector文件，创建mysql.properties、mongodb.properties、elasticsearch.properties，并配置连接器信息，包括地址、用户名、密码等；[0147](2)编写混合查询的sql，完成跨数据源查询，混合查询sql的编写方法与普通sql相同，查询的表名写为catalog.schame.tablename，catalog即properties的名字，具体如下表所示：[0148]数据源类型catalog表名mysqlmysqlmysql.库名.表名mongodbmongodbmongodb.库名.表名elasticsearchelasticsearchelasticsearch.库名.表名[0149]s3.定时清理数据文件[0150]如图5所示，数据文件清理包括下述过程：[0151](1)mongodb数据清理[0152]设置按天清理的数据定时删除任务，数据有效时间为2天，每日删除前2天的mongodb数据(collection名称为dyrz_前2天日期的collection)；[0153](2)elasticsearch数据清理[0154]①elasticsearch创建索引时同步设置数据定时删除任务，数据有效时间为1年，到期自动删除数据；[0155]②手动编写一个用于检测的shell脚本，并将其放入服务器中，每日定时检查磁盘剩余空间，当磁盘剩余空间不足10％时，按重要性以及索引创建时间策略删除文件，直到磁盘剩余空间达到80％；[0156](3)mysql数据清理[0157]①设置按年清理的数据定时删除任务，数据有效时间为3年，到期自动清理3年前的数据统计表；[0158]②手动编写一个用于检测的shell脚本，并将其放入服务器中，每日定时检查磁盘剩余空间，当磁盘剩余空间不足10％时，按重要性以及数据存入时间策略删除文件，直到磁盘剩余空间超过10％；[0159]③针对mysql数据库新建事件，每日检查单表数据量，若单表数据量超过1亿，则向告警表中写入数据，并利用邮件、短信通知平台维护人员进行检查，如有异常则采取相应的措施处置。[0160]s4.通过shell脚本进行智能预警[0161]如图6所示，智能预警包括下述过程：[0162]s41.编写智能预警shell脚本，然后在/home/opt创建xtyj.sh文件；[0163]s42.查询磁盘空间，若磁盘空间占用率达到85％，则向kafka发送xt_yj_topic的消息，消息内容包括服务器ip、cpu及磁盘使用情况；[0164]s43.为智能预警shell脚本设置定时任务，每日1:00执行脚本，[0165]01***/home/opt/xtyj.sh；[0166]s44.后端代码监听kafka对应主题xt_yj_topic的消息，接收消息之后，给系统管理员发送邮件、短信等预警消息；[0167]s45.系统管理员收到预警消息后，检查服务器异常并进行相应的处理。[0168]一种基于异构数据源的海量数据处理系统，如图7所示，包括：[0169]存储模块，用于将服务调用数据写入存储，所述存储包括mongodb和elasticsearch；[0170]查询模块，用于查询服务调用数据；[0171]清理模块，用于定时清理数据文件；[0172]预警模块，用于通过shell脚本进行智能预警。[0173]以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、替换等，均应包含在本发明的权利要求保护范围之内。当前第1页12当前第1页12
技术特征：
1.一种基于异构数据源的海量数据处理方法，其特征在于，所述方法包括：s1.服务调用数据写入存储，所述存储包括mongodb和elasticsearch；s2.查询服务调用数据；s3.定时清理数据文件；s4.通过shell脚本进行智能预警。2.根据权利要求1所述的基于异构数据源的海量数据处理方法，其特征在于，步骤s1中所述服务调用数据包括api服务调用时间、apiid、应用名称、参数、耗时、出错信息、错误码信息记录json串。3.根据权利要求2所述的基于异构数据源的海量数据处理方法，其特征在于，步骤s1中所述服务调用数据写入存储，包括：s11.将服务调用数据的具体信息异步写入mongodb，用于数据统计查询，并每天为mongodb新建collection；s12.将服务调用数据的具体信息异步写入elasticsearch，用于用户查询，并每月为elasticsearch滚动创建新索引；s13.每10秒钟对mongodb的数据，按年、月、日、小时的维度对接口调用量、平均耗时、失败次数、调用次数进行统计，并将统计数据保存到mysql统计表；s14.每年为mysql创建新数据表。4.根据权利要求3所述的基于异构数据源的海量数据处理方法，其特征在于，当系统在运行中出现数据库和/或服务器压力突然剧增，资源空间不足时，采用下述方式进行扩容：(1)针对mysql，通过mysql分表策略，当出现资源空间不足时，给mysql增加机器，分库存储历史数据和当前数据；(2)针对mongodb，mongodb只存储临时数据，作为临时存储中间件，当出现资源空间不足时，只保留1天数据，删除中间表数据；(3)针对elasticsearch，评估需要增加的服务器资源，根据调用量计算需要扩容的机器个数，进行水平扩容；(4)针对应用服务器，根据总并发量及单服务器配置支持的并发量，评估需要增加的服务器资源，进行水平扩容。5.根据权利要求3所述的基于异构数据源的海量数据处理方法，其特征在于，步骤s2中所述查询服务调用数据，包括：(1)单表查询
①
查询api服务调用统计信息，通过查询mysql统计表，获取年、月、日、小时维度的统计数据信息；
②
查询api服务调用数据信息，通过查询elasticsearch，获取api服务名称、调用时间、应用名称、数据内容、参数、耗时、错误码的数据信息；(2)跨数据源查询
①
配置presto的catalog，在presto安装目录下找到catalog目录，然后在catalog目录下添加connector文件，创建mysql.properties、mongodb.properties、elasticsearch.properties，并配置连接器信息；
②
编写混合查询的sql，查询的表名写为catalog.schame.tablename，完成跨数据源查
询。6.根据权利要求5所述的基于异构数据源的海量数据处理方法，其特征在于，单表查询中所述查询api服务调用数据信息还包括基于查询获取到的数据信息，进行聚合分析；所述聚合分析包括错误数据分布分析、错误类型分布分析、以及报错最多时间段分析。7.根据权利要求3所述的基于异构数据源的海量数据处理方法，其特征在于，步骤s3中所述定时清理数据文件，包括：(1)mongodb数据清理设置按天清理的数据定时删除任务，数据有效时间为2天，每日删除前2天的mongodb数据；(2)elasticsearch数据清理
①
elasticsearch创建索引时同步设置数据定时删除任务，数据有效时间为1年，到期自动删除数据；
②
手动编写一个用于检测的shell脚本，并将其放入服务器中，每日定时检查磁盘剩余空间，当磁盘剩余空间不足10％时，按重要性以及索引创建时间策略删除文件，直到磁盘剩余空间达到80％；(3)mysql数据清理
①
设置按年清理的数据定时删除任务，数据有效时间为3年，到期自动清理3年前的数据统计表；
②
手动编写一个用于检测的shell脚本，并将其放入服务器中，每日定时检查磁盘剩余空间，当磁盘剩余空间不足10％时，按重要性以及数据存入时间策略删除文件，直到磁盘剩余空间超过10％；
③
针对mysql数据库新建事件，每日检查单表数据量，若单表数据量超过1亿，则向告警表中写入数据，并通知平台维护人员检查处置。8.根据权利要求3所述的基于异构数据源的海量数据处理方法，其特征在于，步骤s4中所述通过shell脚本进行智能预警，包括：s41.编写智能预警shell脚本，然后在/home/opt创建xtyj.sh文件；s42.查询磁盘空间，若磁盘空间占用率达到85％，则向kafka发送xt_yj_topic的消息，消息内容包括服务器ip、cpu及磁盘使用情况；s43.为智能预警shell脚本设置定时任务，每日1:00执行脚本；s44.后端代码监听kafka对应主题xt_yj_topic的消息，接收消息之后，给系统管理员发送预警消息；s45.系统管理员收到预警消息后，检查服务器异常并进行相应的处理。9.一种基于异构数据源的海量数据处理系统，其特征在于，所述处理系统包括：存储模块，用于将服务调用数据写入存储，所述存储包括mongodb和elasticsearch；查询模块，用于查询服务调用数据；清理模块，用于定时清理数据文件；预警模块，用于通过shell脚本进行智能预警。10.一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现权利要求1-8任一项所述的基于异构数据源的海量数据处理方法的步骤。

技术总结
本发明涉及一种基于异构数据源的海量数据处理方法及系统。本方法包括服务调用数据写入存储、查询服务调用数据、定时清理数据文件、通过shell脚本进行智能预警等步骤。本方法能够支持服务系统快速扩容，大幅提高接口并发量，支撑接口日亿级别的调用，可用于海量数据的存储及调用；且支持外部用户无感知的系统扩容，扩容期间接口可以正常调用。本方法采用多数据源引擎协作查询，支持跨数据源查询，适用于各种查询场景，提高了数据实时查询能力和多维分析能力，且本方法能够及时快速地智能清理无用的存储数据和文件，不需要运维手动巡查清理，减少了人工和机器成本。减少了人工和机器成本。减少了人工和机器成本。

技术研发人员：师莎盛振宇汪飞王钢
受保护的技术使用者：中电云数智科技有限公司
技术研发日：2023.04.04
技术公布日：2023/7/12

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：橙果粉固体饮料及其制作方法与流程 下一篇：一种零温度系数电流产生电路的制作方法

一种基于异构数据源的海量数据处理方法及系统与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于异构数据源的海量数据处理方法及系统与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表