爐石傳說為什么維護(hù)30多小時,爐石傳說1月17日維護(hù)原因,截止到1月18日,爐石傳說已經(jīng)維護(hù)了33個小時了,很多玩家在論壇和貼吧討論網(wǎng)易為什么維護(hù)這么久,維護(hù)30多個小時有沒有補(bǔ)充呢,下面帶來爐石傳說1月17日維護(hù)原因預(yù)測分析。
爐石傳說1月17日維護(hù)原因預(yù)測分析
來自網(wǎng)友PQFitz爆料:本人13年的時候在網(wǎng)易天下3項(xiàng)目,去年9月跳到九城。
這次爐石超長事件維護(hù),各種傳言不斷,我從前內(nèi)部人士的角度給大家分析一下這次事件。
關(guān)于服務(wù)器
首先說說服務(wù)器。
你們以為數(shù)據(jù)都在服務(wù)器里? 服務(wù)器只有硬件而已,硬盤數(shù)據(jù)13年-16年都是用的DELL的磁盤陣列服務(wù)器,而且是雙機(jī)熱備+異地容災(zāi),我這臺數(shù)據(jù)丟了,我另一臺會有克隆的相同的數(shù)據(jù)。就算廣州整個機(jī)房炸了,我上海機(jī)房異地也會有一臺克隆的數(shù)據(jù)。
所以數(shù)據(jù)丟了,數(shù)據(jù)丟了30%什么,大家就不要信了。
我在做天下3運(yùn)維的時候也遇到過N種問題,不過都被總監(jiān)、經(jīng)理他們這些人帶著解決了。
可以說,就算來個10歲的小朋友,會動電腦鼠標(biāo)看得懂字,按照流程都不會出問題。 一個團(tuán)隊(duì)4個人,一個經(jīng)理, 5個人同時犯錯?怎么可能因?yàn)椴僮魇д`就丟30%數(shù)據(jù)?
另外關(guān)于過熱導(dǎo)致的各種問題我覺得也不可能,肯定有備用的空調(diào)和供電,網(wǎng)易多少年都走下來了,總結(jié)了很多經(jīng)驗(yàn)和規(guī)范,服務(wù)器這方面是沒問題的。
至于啥原因維護(hù)這么久?原因千奇百怪,也可能是游戲本身問題,可能鍋在暴雪身上? 我只能說數(shù)據(jù)不會丟。
任務(wù)也不用擔(dān)心,幾行代碼就能解決的,只是日期問題而已;蛘呦牒唵吸c(diǎn),有補(bǔ)償,一定會有的。
這次事件猜測
拖這么久,我覺得昨天應(yīng)該是暴雪給的補(bǔ)丁有問題,但是每次修改游戲都必須工信部、文化局、廣電局三個部門來審核。
每次更新游戲一般是這樣的流程:
暴雪軟件部-暴雪技術(shù)支持部(測試部)-網(wǎng)易軟件部-網(wǎng)易技術(shù)支持部(測試部)- ZF部門(審核)-技術(shù)支持部(運(yùn)維部)-網(wǎng)易技術(shù)支持部(測試部)
估計(jì)是兩邊的測試部第一次都沒發(fā)現(xiàn)問題,結(jié)果運(yùn)維部按照流程更新之后,測試部又TM發(fā)現(xiàn)問題,要修改游戲,又要所有部門再走一次流程。
既然涉及到了PC端/IOS/ANDROID,根本不是一天就能解決的。
比如我這次定5個小時做運(yùn)維,2個小時做測試。 我5個小時運(yùn)維做完了,剩下的就是測試組干的事情了。 測試組花了1個小時發(fā)現(xiàn)問題,想恢復(fù)更新之前,只能再花5個小時恢復(fù),今天就白忙活。 OK,就算我今天白忙了, 每周都有每周的目標(biāo),下周要補(bǔ)這周的目標(biāo),所花的時間可能就是4倍了。
有測試端,所以主要責(zé)任是測試部,第一次測試沒有發(fā)現(xiàn)問題,次要的是軟件部,主管或者總監(jiān)審核代碼的時候?yàn)槭裁礇]有發(fā)現(xiàn)問題? 也要問責(zé)。我感覺總監(jiān)這個年不好過了,就算是主管的責(zé)任,總監(jiān)也要被扣年總獎了,誰讓這個主管是你面的? 就面這水平? 這工作態(tài)度?
大家耐心等吧。
配點(diǎn)服務(wù)器相關(guān)的圖
查看原圖|大圖模式
半個月工資配的服務(wù)器,準(zhǔn)備玩單機(jī)游戲。
一些猜測的答疑
還有人說是有人把代碼偷走了。
每個員工入職之前都要簽保密協(xié)議,競業(yè)協(xié)議
而且每個部門的團(tuán)隊(duì),負(fù)責(zé)的都是不同的項(xiàng)目,能接觸的只是一小塊代碼,修改完代碼上傳到SVN里。 能接觸整個完整SVN的,只有總監(jiān)
總監(jiān)每個月工資不少于15W把? 還有年總獎。 至于偷個代碼? 蹲幾年牢,以后還有公司要? 而且偷了代碼有什么用。。。。 開玩笑。。。
至于有朋友問我容災(zāi)是什么,不是冗余嗎?
異地容災(zāi),就是我這個機(jī)房真是起火了爆炸了,我異地機(jī)房能夠運(yùn)行起來。
冗余是指我服務(wù)器或者數(shù)據(jù)出了問題,我有bakup,可以隨時頂上去。
好比美國容不下維基解密,迅速把機(jī)房全部占領(lǐng)了,想取回數(shù)據(jù)不可能,那怎么辦,還好他們有容災(zāi)方案,地點(diǎn)在南極,請求俄羅斯幫助,俄羅斯就會幫他們保護(hù)數(shù)據(jù)。
至于有網(wǎng)友問那如果兩臺都炸了怎么辦?
兩臺都炸了,這幾率比你中彩票幾率都低,應(yīng)該不可能的。
另外有朋友問兩地三中心,主機(jī)房將數(shù)據(jù)刪除,其他中心也會瞬間刪除的問題。
其實(shí)沒有瞬間刪除這一說,我之前可能沒說詳細(xì),雙機(jī)熱備,同步時間5分鐘(成本翻倍,之所以沒有采用故障轉(zhuǎn)移群集(成本低),是因?yàn)閴艋弥俺鲞^問題,導(dǎo)致只能回檔,所以流程規(guī)定是雙機(jī)熱備) 異地容災(zāi)同步時間每天凌晨00:01 丟數(shù)據(jù)頂多回檔一天給補(bǔ)償。
另外日志精確到每一條語句,數(shù)據(jù)庫Oracle 有商業(yè)解決方案。
至于有些帖子提出的BUG說。
程序員自己解決BUG? 不可能,每個程序員負(fù)責(zé)的都是一部分代碼,他就算修改了,也不能編譯出來,更別提他能接觸到服務(wù)器了。
我之前是3-5個人一個小team,程序員應(yīng)該是7-10人的樣子,有了問題經(jīng)理 主管都可以上報的。。。 服務(wù)器是深度定制的LINUX+密碼狗。 修改了代碼,SVN都有日志,要表明原因,不然代碼也不會審核。
可能bug是有的,只是當(dāng)時沒有發(fā)現(xiàn)而已,他們主管就要倒霉了。
至于有朋友問為什么天下三12年后一天比一天坑爹?
雖然我是在天下3項(xiàng)目,不過我連這游戲都沒下過,我只是運(yùn)維。。。 管服務(wù)器的。
至于卡的問題,服務(wù)器問題是不可能的,只能說優(yōu)化還是別的事情沒有做好吧。機(jī)器假如內(nèi)存壞了,我們不會追究是主板還是電源導(dǎo)致的,我們做的只有一件事,換新服務(wù)器,因?yàn)楣静徊铄X。
總結(jié)
總結(jié)一下吧,這次有說是誤刪的,有說是封腳本程序被惡意篡改的,有說是服務(wù)器物理損壞的,有說是意外bug走流程的……
我個人是覺得測試的鍋。
以上就是爐石傳說為什么維護(hù)30多小時,爐石傳說1月17日維護(hù)原因預(yù)測分析,請大家繼續(xù)關(guān)注。