奥托波特-今日足球比赛预测比分-专家预测最准确的篮球-雪缘园足球比分|www.jnjqx.com

方案之道:機(jī)房搬遷

2020-11-06 15:02:15 編輯: 云巔英雄 來(lái)源:中信云
前言
    機(jī)房搬遷,是運(yùn)維工作中非常艱巨的工作,需要有資產(chǎn)管理、配置管理、應(yīng)用關(guān)聯(lián)系統(tǒng)這些基礎(chǔ)信息,需要存儲(chǔ)、網(wǎng)絡(luò)、服務(wù)器這些設(shè)備搬遷的方案,需要項(xiàng)目管理、廠商管理、溝通管理這些軟技能,是一個(gè)綜合性重大任務(wù)。自己經(jīng)歷過(guò)3次大的搬遷,將一些心得總結(jié)一下。
批次
    搬遷的核心目標(biāo)是減少對(duì)業(yè)務(wù)的影響。首要的、也是最重要的任務(wù)是確認(rèn)批次。銀行傳統(tǒng)架構(gòu)是圍繞著存儲(chǔ)的災(zāi)備技術(shù),建立的兩地三中心架構(gòu)。確認(rèn)批次,一般是先要?jiǎng)澐址?wù)器群,從一個(gè)存儲(chǔ)設(shè)備開(kāi)始,確認(rèn)與之關(guān)聯(lián)的交換機(jī)設(shè)備,再到所連接的服務(wù)器。 還有一個(gè)維度是圍繞網(wǎng)絡(luò)設(shè)備。搬遷前一般在新機(jī)房,預(yù)先搭建一套新網(wǎng)絡(luò)設(shè)備,但如果要遷移原有的網(wǎng)絡(luò)設(shè)備、波分設(shè)備,那就要圍繞這網(wǎng)絡(luò)設(shè)備,構(gòu)建一個(gè)服務(wù)器群。
 
     決定批次的另一個(gè)要素,是重要程度排序,將7*24的關(guān)鍵業(yè)務(wù),作為核心考慮要素,以縮短其停機(jī)時(shí)間為目標(biāo),設(shè)計(jì)搬遷計(jì)劃。
 
    第三點(diǎn),是項(xiàng)目管理中的最長(zhǎng)路徑問(wèn)題。一般關(guān)機(jī)順序是,分區(qū)關(guān)機(jī)、服務(wù)器管理、存儲(chǔ)關(guān)機(jī);物理搬遷,開(kāi)機(jī)時(shí)是存儲(chǔ)開(kāi)機(jī)、物理機(jī)開(kāi)機(jī)、小機(jī)開(kāi)機(jī)。這樣,就要將最關(guān)鍵系統(tǒng)從關(guān)機(jī)時(shí)間到開(kāi)機(jī)時(shí)間的這個(gè)時(shí)間,作為關(guān)鍵路徑考慮。
 
其他原則:
1、每次搬遷數(shù)量在“可控”范圍內(nèi),盡量做到批次時(shí)間不重疊,保障大家“一次只做一件事,一次性做好”
2、與搬遷公司對(duì)接,確認(rèn)好搬遷批次,與車(chē)輛批次的關(guān)系。
 
四線問(wèn)題
    搬遷工作,最繁重,也是最容易出問(wèn)題的,就是四線問(wèn)題:網(wǎng)線、光纖線、電源線、內(nèi)部連線。這是對(duì)數(shù)據(jù)中心日常的配置管理的一次大考,是機(jī)房準(zhǔn)備工作是否充分的一個(gè)核心考察項(xiàng),也是對(duì)現(xiàn)場(chǎng)組織能力、應(yīng)變能力的一大考驗(yàn)。
1、網(wǎng)線:核對(duì)原機(jī)房的IP和信息點(diǎn),在新機(jī)房申請(qǐng)信息點(diǎn),布放網(wǎng)線,測(cè)試網(wǎng)線,搬遷后插網(wǎng)線,網(wǎng)線綁扎,開(kāi)機(jī)后測(cè)試IP、測(cè)試連通性。這一長(zhǎng)串圍繞著網(wǎng)線的工作,是整個(gè)搬遷工作中耗時(shí)最長(zhǎng)的工作。尤其現(xiàn)在是云計(jì)算時(shí)代,使用了大量的trunk替代了傳統(tǒng)的access,給信息點(diǎn)測(cè)試帶來(lái)了很大的難度。
 
2、光纖線:機(jī)房中插線最密集的設(shè)備,是光纖交換機(jī);決定某個(gè)系統(tǒng)搬遷成功的最關(guān)鍵要點(diǎn),是數(shù)據(jù)庫(kù)能正常連接到存儲(chǔ);數(shù)據(jù)中心最難維護(hù)的配置管理,是存儲(chǔ)、到交換機(jī)、到系統(tǒng)、到災(zāi)備之間的關(guān)聯(lián)關(guān)系(相對(duì)于服務(wù)器等設(shè)備,業(yè)界存儲(chǔ)管理的工具最缺乏)。光纖線插的有問(wèn)題,將大大延緩系統(tǒng)啟動(dòng)的時(shí)間;光纖線差錯(cuò),已經(jīng)開(kāi)機(jī)的系統(tǒng)將無(wú)法識(shí)別存儲(chǔ),需要在光纖鏈路恢復(fù)后,重啟掃盤(pán)。
 
3、電源線:數(shù)據(jù)中心一般很重視網(wǎng)線和光纖線,都有相應(yīng)的標(biāo)簽規(guī)范。但電源線往往不做標(biāo)簽,簡(jiǎn)單綁扎在一起。但如果一個(gè)機(jī)柜中出現(xiàn)部分設(shè)備搬遷,部分設(shè)備不搬,沒(méi)有電源線標(biāo)簽,將給拔電源線帶來(lái)很大麻煩。
 
4、內(nèi)部連線:小機(jī)、SAN存儲(chǔ)設(shè)備都有大量的內(nèi)部連線,需要專(zhuān)業(yè)的廠商來(lái)布放、插拔、需要留出足夠的時(shí)間,例如某高端存儲(chǔ),搬遷前后,線纜的相關(guān)工作需要2-3小時(shí)。
 
應(yīng)急預(yù)案
    運(yùn)維工作,是一個(gè)典型的逆向思維過(guò)程,所有的變更,都以失敗為假設(shè)前提;搬遷的所有任務(wù),都以出問(wèn)題為假想指標(biāo),尤其是每個(gè)關(guān)鍵任務(wù),都需要準(zhǔn)備應(yīng)急預(yù)案。以下是我們常使用的應(yīng)急場(chǎng)景。
 
1、存儲(chǔ)無(wú)法關(guān)閉。
2、搬遷后,存儲(chǔ)無(wú)法啟動(dòng)。將影響整個(gè)搬遷進(jìn)度,影響關(guān)鍵系統(tǒng)的開(kāi)機(jī)時(shí)間。
3、服務(wù)器無(wú)法啟動(dòng)。
4、數(shù)據(jù)損壞。  需要保障所有系統(tǒng),搬遷搬遷前有完整的數(shù)據(jù)備份。
5、少搬設(shè)備,應(yīng)該搬遷的未搬。
6、多搬設(shè)備,不應(yīng)該搬遷設(shè)備被下電。
7、誤操作,例如碰到不搬遷設(shè)備的線纜。
8、網(wǎng)絡(luò)信息點(diǎn)不通。
9、光纖鏈路不通。
10、硬件故障。
11、 機(jī)房中沒(méi)有手機(jī)信號(hào)。
 
無(wú)法啟動(dòng)問(wèn)題
    服務(wù)器無(wú)法啟動(dòng),是搬遷中一個(gè)重大問(wèn)題,除了常見(jiàn)的硬件損壞外,還有很多可能的原因,以下是2個(gè)例子。
 
問(wèn)題1:搬遷后,某小機(jī)的分區(qū)不能啟動(dòng)。
分析:通過(guò)HMC檢查,發(fā)現(xiàn)啟動(dòng)過(guò)程中hang死,檢查啟動(dòng)信息,發(fā)現(xiàn)找不到硬盤(pán),而2塊硬盤(pán)同時(shí)出問(wèn)題不太可能。
解決:每個(gè)小區(qū)分區(qū)有1個(gè)SAS卡,SAS松動(dòng),造成2塊硬盤(pán)都找不到。
 
問(wèn)題2:搬遷后,某PC服務(wù)器不能ping通。
解決: 1、ping不通原因是靜電導(dǎo)致網(wǎng)卡通信異常,釋放靜電后解決。
2、重啟后,服務(wù)器依然無(wú)法啟動(dòng),原因是光驅(qū)里有光盤(pán),第一啟動(dòng)項(xiàng)是光驅(qū),將光盤(pán)彈出后,可以恢復(fù)啟動(dòng)。
 
預(yù)防:
1、配置console方式,實(shí)現(xiàn)帶外管理,這樣可遠(yuǎn)程處理不能啟動(dòng)問(wèn)題:對(duì)于PC服務(wù)器,通過(guò)BMC配置LIM;對(duì)于小機(jī),配置HMC;對(duì)于虛擬機(jī),為低權(quán)用戶(hù)用戶(hù)增加console權(quán)限。
2、常見(jiàn)無(wú)法啟動(dòng)原因:有光盤(pán)并設(shè)置了光盤(pán)啟動(dòng)、有磁帶并設(shè)置了磁帶啟動(dòng)、小機(jī)sas線松動(dòng)。
溝通問(wèn)題
   現(xiàn)在是微信時(shí)代,搬遷準(zhǔn)備階段,我們會(huì)建立搬遷群進(jìn)行項(xiàng)目組內(nèi)溝通,將搬遷廠商、設(shè)備廠商、管理員、機(jī)房人員等等相關(guān)人員都加入進(jìn)來(lái),進(jìn)行溝通協(xié)助。
    搬遷開(kāi)始前,準(zhǔn)備搬遷話術(shù),匯報(bào)路徑、并進(jìn)行桌面演練。 其中話術(shù)主要包括3類(lèi)。(1)【信息發(fā)布】 (2)【信息反饋】 3【問(wèn)題反饋】。為了便于管理,外每項(xiàng)任務(wù)都進(jìn)行編號(hào)。
 
  其中對(duì)于容易出現(xiàn)歧義的操作,要統(tǒng)一話術(shù),例如對(duì)于小機(jī)的開(kāi)關(guān)機(jī)。
1、管理員關(guān)機(jī):系統(tǒng)管理員在操作系統(tǒng)中運(yùn)行shutdown。
2、系統(tǒng)組關(guān)機(jī): HMC管理員通過(guò)HMC關(guān)閉整臺(tái)服務(wù)器
3、下電: 機(jī)房拔掉機(jī)器電源
4、加電:機(jī)房給服務(wù)器插上電源線
5、開(kāi)機(jī): HMC管理員激活主機(jī)
6、啟分區(qū):HMC管理員啟動(dòng)分區(qū)
 
另外,對(duì)于機(jī)房中信號(hào)不好的問(wèn)題,要提前準(zhǔn)備應(yīng)急的手機(jī);對(duì)于手機(jī)沒(méi)電問(wèn)題,要準(zhǔn)備移動(dòng)充電器。
 
腳本化
    搬遷一般系統(tǒng)很多,搬遷后的系統(tǒng)比對(duì),是一個(gè)非常重要的環(huán)節(jié),可以發(fā)現(xiàn)潛在的問(wèn)題。目前我們是通過(guò)搬遷秦通過(guò)腳本抓取數(shù)據(jù),搬遷重啟后,通過(guò)腳本進(jìn)行比對(duì),全面檢查各類(lèi)問(wèn)題。以下是腳本的一些考慮因素:
 
1、針對(duì)Unix和linux,需要考慮各版本差異,例如RHEL5月RHEL6的ls的輸出的項(xiàng)目不同,會(huì)造成腳本讀取的目錄名出現(xiàn)問(wèn)題。
2、腳本健壯性,要求可重復(fù)執(zhí)行,尤其是搬遷后的比對(duì)數(shù)據(jù),要解決重復(fù)執(zhí)行問(wèn)題。
3、要比對(duì)靜態(tài)配置,過(guò)濾掉動(dòng)態(tài)輸出,例如netstat中的動(dòng)態(tài)信息,lsattr的busintr信息都要過(guò)濾掉。
4、AIX重啟后執(zhí)行prtconf,會(huì)出現(xiàn)分隔符不同的問(wèn)題。
5、當(dāng)比對(duì)腳本失效時(shí),需要有手工快速進(jìn)行比較。  diff <目錄A> <目錄B>
6、服務(wù)器重啟后,errpt有重啟的提示,diff比對(duì)會(huì)報(bào)錯(cuò)。需要過(guò)濾重啟記錄,或者只抓取PH,PS類(lèi)型的告警比對(duì)。
7、對(duì)于小機(jī),lsdev的輸出有從available變?yōu)閐efine狀態(tài)的情況, 包括磁帶、CDROM等。
8、對(duì)于外置存儲(chǔ)的檢查,需要通過(guò)lspv檢查磁盤(pán)信息,通過(guò)powermt檢查鏈路信息。
9、如果搬遷的是災(zāi)備系統(tǒng),需要考慮VG是否自動(dòng)激活,文件系統(tǒng)是否自動(dòng)mount的因素。
 
項(xiàng)目管理
   對(duì)于搬遷,需要選擇一個(gè)強(qiáng)有力的項(xiàng)目經(jīng)理,進(jìn)行整體把控。
   搬遷過(guò)程中,需要在各個(gè)時(shí)間斷,在機(jī)房和變更室,都有牽頭人進(jìn)行整體進(jìn)度把控。
對(duì)于搬遷的職責(zé)界定,必須清晰明了。最容易出現(xiàn)糾紛的,是搬遷廠商和維保廠商不是一家,設(shè)備設(shè)備誰(shuí)來(lái)關(guān)機(jī),誰(shuí)來(lái)加電,硬件故障如果界定責(zé)任等。
   對(duì)于各方面的協(xié)調(diào)工作,需要建立一個(gè)溝通計(jì)劃,包括總控表、定期開(kāi)會(huì)、核心團(tuán)隊(duì)等。
   機(jī)房環(huán)境準(zhǔn)備:機(jī)柜上架圖、用電量評(píng)估、線纜準(zhǔn)備、存儲(chǔ)做電、搬遷用的電梯等準(zhǔn)備。
   標(biāo)簽:對(duì)于搬遷的設(shè)備、搬遷涉及的機(jī)柜都制作標(biāo)簽。
本站文章均為華創(chuàng)云鼎摘自權(quán)威資料,書(shū)籍,或網(wǎng)絡(luò)原創(chuàng)文章,如有版權(quán)糾紛或者違規(guī)問(wèn)題,請(qǐng)即刻聯(lián)系我們刪除,我們歡迎您分享,引用和轉(zhuǎn)載,我們謝絕直接復(fù)制和抄襲!感謝...
我們猜你喜歡