課程概述
容錯計算機系統(Fault-tolerant Computer
System),是當計算機系統內的部件出現允許故障時,仍能正確執行所規定任務的一種計算機。 [1]
系統採用特別的硬件、軟件和電源部件,能夠支持系統的備份和避免系統故障以維持系統的運行。系統裝有特殊的存儲芯片、處理器和磁盤存儲設備,利用諸如擴充的程序流監控機制等特殊的軟件程序或自我檢查邏輯來檢測故障以及自動轉換到備份上繼續工作。該機制使得計算機既能容忍故意邏輯故障又能容忍隨機物理故障。這些計算機系統上的零部件可以移動和修理而不破壞計算機系統。
容錯計算機系統可靠性較高,具有一定容錯能力的計算機。容錯是指計算機在運行期間,軟件或硬件出現故障時,系統能自動切換資源,採取補救措施,以保證系統繼續正確執行任務。這種切換可以是切換到處於待用狀態的設備,也可以是把大部分負載轉給非飽和狀況運行的設備,還可以是在計算機系統不停止運行
情況下,切換電源、冷卻系統或其它部件。設計這種計算機採用了容錯技術,如採用了糾錯碼、系統恢復技術、冗余技術、指令復執、程序復算、備件切換、系統降級重新組合、配置檢查程序和診斷程序等。但當系統
出現了容錯措施許可範圍以外的故障時,計算機仍然不能繼續正確運行。容錯計算機多用於要求高可靠性、 高安全性的場合。如用於飛機自動駕駛的控制系統、航
天飛機操縱系統、衛星的星載系統等
容錯技術是指當系統在運行時有錯誤被激活的情況下仍能保證不間斷提供服務的方法和技術
[3]。在一些特殊應用場合,如航空航天、國防軍事、核能電力、工業化工、衛生醫療急救等關鍵部門,一次計算機系統錯誤的發生就可能導致不可挽回的巨大損失,在這些關鍵系統的設計中必須採用大量的容錯技術來保證運行中突發的計算機錯誤不會導致整個系統的失效。
日前,我國首台高端容錯計算機在金融示範應用系統成功啟動上線測試,這標誌著我國高端容錯計算機系統研製實現重大突破.「第一台高端容錯計算機樣機研製完
成,意味著我國在金融、電信等關鍵領域高端計算機一直被國外壟斷的現狀即將被打破,並有望實現這類信息化建設重大裝備的自主可控.」國家最高科技獎獲得
者、中國工程院院士金怡濂表示.
高端容錯計算機是面向高端商業應用的高性能、高可靠大型計算機,是金融、電信等關鍵業務系統的核心設備.但長期以來,該類產品市場為國外企業所壟斷,以銀行業為例,目前國內銀行的核心業務採用的大型計算機全部是進口設備.研製國產高端容錯計算機系統,並通過示範應用實現產業化推廣,對於確保我國金融、電信等要害部門信息系統的自主可控、安全可信有重大意義.
在科技部「十一五」863
計劃的支持下,浪潮集團聯合國防科技大學、中國建設銀行承擔了「浪潮天梭高端容錯計算機研製與示範應用」課題.經過數年技術攻關,課題組在高端容錯計算機體系結構、系統總線協議設計、核心芯片組設計、系統BIOS設計以及容錯操作系統核心等關鍵技術方面實現突破,完成了系統樣機研製.
據863計劃信息領域專家、浪潮集團高級副總裁王恩東介紹,浪潮天梭高端容錯計算機項目自主研發的核心芯片接口速度達到10Gbps,性能達到國際領先水平.一系列自主研發的系統板卡,在集成度、聚合帶寬等方面,也已經達到國際競爭對手的現有產品水平.
「此項目有三大意義:技術、經濟和安全.」金怡濂說,「當初專家進行論證,最關心這項技術能否推廣應用,與國外企業比較是否有競爭力.」自主創新成果成功走向產業化的關鍵在於應用.建設銀行結合業務發展戰略,在風險可控的前提下,大膽創新,積極主動承擔了高端容錯計算機在銀行關鍵信息系統中應用示範的任務,以提高我國自主產品的成熟度,促進產業化.
今年8月15日,國產第一台浪潮天梭高端容錯計算機進入建設銀行新疆分行機房完成安裝和測試.新疆分行組織強大的科研隊伍在樣機上進行業務軟件移植,目前示範應用已經移植成功,並在樣機上經過嚴格的功能和壓力測試,運行情況平穩、正常,各項技術指標均達到了設計要求.
據悉,該系統可用度達到99.999%(即每年停機時間累計不超過5.26分鐘),系統支持32顆處理器,2048GB內存,960GB/S輸入輸出處理能力.根據目前公開的數據和資料,該系統事務處理能力進入世界排名前十.
該項目由科技部組織論證立項,企業牽頭,高校和科研機構參與,相關項目單位協調一致、職責明確、運轉有效.它的實施對於推廣軍民融合、產學研用結合的創新模式具有示範效應.
「這只是部分完成了項目總體目標第一階段的任務」,據科技部相關負責人介紹,預計到2012年年底,項目組將研製成功64路處理器(四核或四核以上)的高端容錯計算機,可用度達到99.999%;形成系列產品,並在兩個以上關鍵領域的生產性業務系統上實現規模化應用.
課程列表
名稱 時間長度
第01集_容錯計算機設計概述(一) 00:22:47
第02集_容錯計算機設計概述(二) 00:22:00
第03集_容錯計算機設計概述(三) 00:22:01
第04集_容錯計算機設計概述(四) 00:21:29
第05集_容錯計算機設計概述(五) 00:24:25
第06集_容錯計算機設計概述(六) 00:22:00
第07集_容錯計算機設計概述(七) 00:24:11
第08集_容錯計算機設計概述與容錯計算的名詞 00:22:14
第09集_容錯計算的名詞(一) 00:23:06
第10集_容錯計算的名詞(二) 00:24:09
第11集_容錯計算的名詞(三) 00:22:04
第12集_容錯計算的名詞(四) 00:22:25
第13集_容錯計算的名詞(五) 00:22:01
第14集_容錯計算的名詞(六) 00:22:20
第15集_系統可信性的度量(一) 00:22:08
第16集_系統可信性的度量(二) 00:20:04
第17集_系統可信性的度量(三) 00:23:21
第18集_系統可信性的度量(四) 00:22:56
第19集_系統可信性的度量(五) 00:22:01
第20集_系統可信性的度量(六) 00:22:03
第21集_系統可信性的度量(七) 00:23:34
第22集_系統可信性的度量與N模冗余系統 00:24:29
第23集_N模冗余系統(一) 00:22:06
第24集_N模冗余系統(二) 00:22:07
第25集_N模冗余系統(三) 00:22:03
第26集_N模冗余系統(四) 00:22:49
第27集_N模冗余系統(五) 00:22:03
第28集_N模冗余系統(六) 00:21:07
第29集_N模冗余系統(七) 00:22:12
第30集_N模冗余系統(八) 00:22:00
第31集_N模冗余系統與軟件可靠性工程 00:22:16
第32集_軟件可靠性工程(一) 00:22:37
第33集_軟件可靠性工程(二) 00:22:56
第34集_軟件可靠性工程(三) 00:24:15
第35集_軟件可靠性工程(四) 00:23:22
第36集_軟件可靠性工程(五) 00:23:31
第37集_軟件可靠性工程與軟件可靠性增長模型 00:36:49
第38集_軟件可靠性增長模型(一) 00:23:04
第39集_軟件可靠性增長模型(二) 00:21:45
第40集_軟件可靠性增長模型(三) 00:24:36
第41集_軟件可靠性增長模型(四) 00:22:50
第42集_軟件可靠性增長模型(五) 00:22:00
第43集_軟件可靠性增長模型與RAID System 00:20:43
第44集_RAID System(上) 00:22:04
第45集_RAID System(下) 00:22:53
第46集_Information Redundancy - coding(一) 00:21:05
第47集_Information Redundancy - coding(二) 00:24:59
|