基于自律计算的分布式系统可恢复性关键技术

发布时间:2023-10-08

项目概述

本项目突破了以下几项关键技术:

1)理论参考模型:构建了一种以失效预防和系统恢复为目标的自律可恢复系统理论参考模型,通过分级恢复模式,使系统具有一定的自我感知和环境适应能力。

2)失效自愈调控技术:从分布式系统失效恢复决策问题入手,提出一种部分可观察随机决策 POMDP 模型,采用局部线性嵌入算法对高维、稀疏失效数据矩阵进行非线性映射,实现失效提前预判,减少或避免人为干预。

3)事件实时记录与分析技术突破了大量实时非覆盖存储、系统快照、互助日志和异地日志挖掘等技术,有针对性地对网络运行状况进行实时跟踪和记

录,从中发现隐藏的安全问题。

4)微重启恢复技术 通过对软件系统二进制文件结构的分析与动态修改,建立系统应用的恢复结构,并将系统划分为多个递归重启域,依照恢复结构图递归重启直到失效最终解决,使系统具有更高的自恢复性能。5)任务热插拔恢复技术:通过对运行组件的实时监视获取任务组件状态信息,定位失效组件,并采用代理、动态装载、反射等技术实现组件热插拔,实现软件的在线升级与恢复。

6)悔改恢复技术:采用三“R”技术,即“Rewind”,“Replay”和“Repair”,

通过检查点设置和回卷恢复这两个过程使系统恢复到正常状态,实现对人为操作故障的恢复。

目前,事件实时记录与分析技术的部分成果正计划应用于某核电站监控系统中,微重启、任务热插拔技术计划已应用到某重大国防项目中,为某关键任务系统的不间断运行提供在线恢复手段。截至到目前,本项目已获得实用新型专利 2项,申请发明专利 8 项,软件著作权 2 项。

项目成熟情况

技术成熟,成功应用。

应用范围

研究成果可广泛应用于交通、民航、金融、证券、商业、保险等民用信息系

统的建设,也可用于国防、政府机关等关键信息系统的保障领域。