軌道交通AFC線災備設計方案

時間:2022-07-08 09:07:30

導語:軌道交通AFC線災備設計方案一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

軌道交通AFC線災備設計方案

摘要:本文基于鄭州市軌道交通自動售檢票線網管理中心(ANCC)系統主副中心雙活設計方案,從災備中心建設的必要性入手,分析得出選擇雙活中心方案建設。其次對雙活中心的容災架構、存儲雙活、應用雙活和主備倒切流程等分別做出分析,展現了雙活中心的架構特點和相較于傳統方案的應用優勢,為后續城市線網管理中心的建設提供參考。

關鍵詞:城市軌道交通;自動售檢票系統;災備

1引言

近年,全國各地城市軌道交通的快速建設,各大城市的城軌線網逐漸成型,對線網級自動化、智能化調度指揮和運維管理的需求日益加強[1]。鄭州市軌道交通在建設多線路中心(MLC)和清分中心(ACC)擴容的背景下,從架構、可行性、建設成本、技術發展趨勢等方面進行了充分的論證和分析,依托云平臺、大數據的快速發展,最終確定實施ACC及MLC系統組合建設方案,即建設鄭州市軌道交通線網管理中心ANCC系統。可以看出,ANCC成為了鄭州市軌道交通全線網afc系統協調及對外票務信息服務和管理的主要窗口,重要性可見一斑。ANCC系統癱瘓或者由于其它原因(火災、恐怖襲擊等)退出運行,將會導致全線網運營管理處于癱瘓狀態,造成票務收益損失[2],因此建立一套安全、可靠的災備系統,是非常必要的[3]。本文基于鄭州市軌道交通ANCC系統的建設,分析了災備中心建設的必要性、雙活中心方案的設計選擇,并對雙活中心的建設方案進行介紹。

2建設背景

2.1必要性分析

災備方案是ANCC建設工作重要內容,關系到業務可用性、業務連續性、數據安全性、系統合規性等多方面[4]。高可用設計包括平臺架構高可用和業務系統高可用,保證整個業務平臺可以穩定運行,當故障出現時快速定位并恢復故障[5];對于業務系統來說,在出現意外宕機時業務不會中斷,對用戶無感知。ANCC作為線網級生產平臺,作為各線路的大腦,如果由于意外事故的出現,線網級業務癱瘓并停止運行,會給整個行業帶來嚴重的后果[6]。所以應該建立擁有線網業務功能的后備中心系統,當主系統發生故障或意外不能正常工作時,及時、快速地接管主系統的基本工作,實現正常情況下異地災備、緊急情況下應急處理等。

2.2雙活中心的選擇

災備包含三個層次,即基礎設施災備、數據災備和應用災備[7]。基礎設施災備是對業務處理邏輯相關的設備備份,數據災備是對數據備份以保證數據的完整性,應用災備是對應用處理系統的冗余備份。雙活中心方案從基礎設施、數據、應用三個層面進行容災,具有更高級的連續性和高可用性,能夠針對服務器、硬盤、適配器卡、網絡等物理設備實施保護,也能針對操作系統、數據庫、應用、服務等軟件的致命錯誤實施保護,對于發生在本地的錯誤,具備自動接管功能[8]。該方案技術實現復雜度最高,但能夠充分利用兩個中心的所有資源,業務高可用性和連續性最優。

3ANCC系統雙活中心關鍵技術

3.1雙活容災架構

各線路數據匯聚節點就近接入,主副中心同時處理業務,資源得到有效利用;業務處理完成后,寫入主中心數據庫,主副中心數據庫通過數據庫同步軟件進行同步;當主中心/副中心接入故障或業務處理故障時,系統通過預置的備用路由,自動完成線路接入的切換;當系統數據存儲出現故障時,系統通過內部業務倒切,實現數據的有序入庫存儲;通過系統應用雙活設計,實現系統的高穩定運營。生產中心發生災難(生產中心停電、火災等):可對受云服務器高可用性(CSHA)服務保護的生產云服務器自動或手工切換到災備中心,快速啟動容災云服務器。計劃內停機(計劃性停電、日常運維等):容災管理員可對受CSHA服務保護的生產云服務器進行一鍵式的計劃性遷移,在災備中心快速啟動容災云服務器,保證業務數據零丟失;在原生產中心完成計劃性活動后,容災管理員對受保護云服務器進行反向重保護,并在合適時間通過計劃性遷移將業務切回到原生產中心。雙活中心的總體架構如圖1所示。

3.2存儲雙活方案

3.2.1方案描述云硬盤高可用服務(VHA)為云服務器中的云硬盤提供本地存儲雙活保護[9]。當單套存儲設備發生故障時,數據零丟失,業務不中斷。該方案是基于FusionSphere OpenStack云操作系統平臺的IaaS層云服務器容災方案。它通過云數據中心結合存儲雙活實現單中心內的云硬盤容災。3.2.2方案架構云硬盤高可用服務與網絡是解耦的,原則上使用FusionCloud的通用網絡方案即可,僅要求在通用組網方案上預留存儲網絡端口,增加兩套雙活存儲間的雙活數據路徑。在組件部署上,云硬盤高可用主要增加了存儲仲裁軟件和BCManager eReplication兩大組件。二者均可部署在物理機中,也可以部署在虛擬機中。如圖2所示。3.2.3實現原理租戶登錄VHA服務申請界面,為云主機申請本地存儲雙活容災保護。系統過濾出該租戶具備創建容災保護條件但還尚未創建的云主機[10]。租戶可從中選擇單個或多個需要容災保護的云主機,提交申請。后臺自動調用容災管理組件對應API,創建存儲雙活保護,實現的基本原理及主要步驟如下:(1)調用Cinder建卷API,在對應的容災存儲上創建雙活占位卷(并設置為預留狀態)及雙活LUN;(2)調用DRextend容災擴展組件,為雙活LUN配置雙活Pair;(3)調用DRextend容災擴展組件,創建雙活一致性組(將雙活Pair加入雙活一致性組,當災難發生時,可實現存儲一致性切換,實現存儲一致性保護);(4)調用Nova的在線重連雙活卷擴展接口,將創建的雙活LUN掛載給云主機;(5)生成VHA保護服務實例。3.2.4方案優勢(1)開放架構業界率先推出基于Openstack+KVM云架構的云硬盤高可用方案,在一套Openstack私有云架構上構建云服務器本地存儲雙活保護能力防止廠商鎖定,為客戶節約成本擴展Openstack標準并開放接口,只要第三方廠家支持該接口,就可以接入進行統一高可用配置和管理。(2)按需使用支持租戶按需自助申請云硬盤高可用服務,服務開通便捷高效,業務發放周期由一周縮短到半小時內,系統根據租戶要求自動化配置和開通云硬盤高可用服務。(3)可靠高效基于存儲側的雙活技術,對主機性能無影響;數據實時同步。

3.3應用雙活方案

3.3.1方案描述此方案特點是各線路就近接入主、副中心,主副中心同時處理業務,有效利用資源;針對主副中心不能同時上線的情況,由單中心改為雙中心的實施過程較簡單,可在線操作,不影響業務運行,實施風險較小。總體架構如圖3所示。3.3.2實現原理云服務器高可用(CSHA)是為了當生產中心故障后,容災云服務器能夠掛載容災端的卷,并在災備中心快速啟動,實現的基本原理如下:租戶根據生產中心網絡、計算的資源類型及高可用要求,在災備中心配置相同或相似的網絡、計算資源,并申請CSHA服務實例。服務申請成功后,根據生產端云服務器的云磁盤信息,自動在容災端創建相同規格的云磁盤,并在存儲層配置雙活復制對、一致性組,實現數據的鏡像保護。當生產中心發生站點級故障時,云平臺仲裁服務顯示站點故障,同時生產云服務器、存儲層雙活復制對故障。此時,可自動或管理員手工觸發CSHA保護組切換,將災備中心的云硬盤掛載至容災云服務器并啟動云服務器。容災云服務器接入所在災備中心的網絡,取決于容災云服務器創建時所接入的VPC網絡。

3.4主備倒切流程

主備系統倒切應急處置流程分為五個階段,即災難發生、處置決策、前期準備、應急處置和處置結束。災難發生階段,當系統發生災難影響生產中心正常業務時,應立即將災難情況報告給應急處置小組組長、副組長。處置決策階段,應急處置小組組長、副組長,收到災難情況報告后,應立即組織小組成員開會,分析災難具體情況、判斷影響范圍并確定對應措施啟動相關預案,開展應急處置工作。前期準備階段,根據應急處置小組組長決策,各分組組長按照預案內容,組織分組成員進行主備系統倒切前的相關技術準備。副組長負責與相關單位溝通,協調主備系統倒切前工作。應急處置階段,準備工作完成后,應急處置小組組長指揮小組成員進行主備系統倒切工作。系統倒切完成后,各分組組長負責確認系統狀態、業務情況,并向組進行報告。處置結束階段,主備系統倒切完成后,確認系統狀態、業務情況正常后,應急處置小組組長向上級單位、領導匯報應急處置工作情況。

4結論

軌道交通自動售檢票系統線網管理中心的建設,提高了基礎設施資源的利用率,實現了鄭州軌道信息化基礎設施資源的統一規劃、統一建設、按需調配、即需即用、有效共享。采用雙活中心的容災方案,可更大程度保證業務的連續性,也可有效保障災難發生后,業務恢復的時效性。隨著技術的發展和建設需求,后續可繼續探索災備中心建設的可能性。

作者:徐淑鵬 陳俊亞 曹美閣 單位:鄭州地鐵集團有限公司