爐石傳說為什么維護(hù)30多小時(shí),爐石傳說1月17日維護(hù)原因,截止到1月18日,爐石傳說已經(jīng)維護(hù)了33個(gè)小時(shí)了,很多玩家在論壇和貼吧討論網(wǎng)易為什么維護(hù)這么久,維護(hù)30多個(gè)小時(shí)有沒有補(bǔ)充呢,下面帶來爐石傳說1月17日維護(hù)原因預(yù)測(cè)分析。
爐石傳說1月17日維護(hù)原因預(yù)測(cè)分析
來自網(wǎng)友PQFitz爆料:本人13年的時(shí)候在網(wǎng)易天下3項(xiàng)目,去年9月跳到九城。
這次爐石超長(zhǎng)事件維護(hù),各種傳言不斷,我從前內(nèi)部人士的角度給大家分析一下這次事件。
關(guān)于服務(wù)器
首先說說服務(wù)器。
你們以為數(shù)據(jù)都在服務(wù)器里? 服務(wù)器只有硬件而已,硬盤數(shù)據(jù)13年-16年都是用的DELL的磁盤陣列服務(wù)器,而且是雙機(jī)熱備+異地容災(zāi),我這臺(tái)數(shù)據(jù)丟了,我另一臺(tái)會(huì)有克隆的相同的數(shù)據(jù)。就算廣州整個(gè)機(jī)房炸了,我上海機(jī)房異地也會(huì)有一臺(tái)克隆的數(shù)據(jù)。
所以數(shù)據(jù)丟了,數(shù)據(jù)丟了30%什么,大家就不要信了。
我在做天下3運(yùn)維的時(shí)候也遇到過N種問題,不過都被總監(jiān)、經(jīng)理他們這些人帶著解決了。
可以說,就算來個(gè)10歲的小朋友,會(huì)動(dòng)電腦鼠標(biāo)看得懂字,按照流程都不會(huì)出問題。 一個(gè)團(tuán)隊(duì)4個(gè)人,一個(gè)經(jīng)理, 5個(gè)人同時(shí)犯錯(cuò)?怎么可能因?yàn)椴僮魇д`就丟30%數(shù)據(jù)?
另外關(guān)于過熱導(dǎo)致的各種問題我覺得也不可能,肯定有備用的空調(diào)和供電,網(wǎng)易多少年都走下來了,總結(jié)了很多經(jīng)驗(yàn)和規(guī)范,服務(wù)器這方面是沒問題的。
至于啥原因維護(hù)這么久?原因千奇百怪,也可能是游戲本身問題,可能鍋在暴雪身上? 我只能說數(shù)據(jù)不會(huì)丟。
任務(wù)也不用擔(dān)心,幾行代碼就能解決的,只是日期問題而已;蛘呦牒(jiǎn)單點(diǎn),有補(bǔ)償,一定會(huì)有的。
這次事件猜測(cè)
拖這么久,我覺得昨天應(yīng)該是暴雪給的補(bǔ)丁有問題,但是每次修改游戲都必須工信部、文化局、廣電局三個(gè)部門來審核。
每次更新游戲一般是這樣的流程:
暴雪軟件部-暴雪技術(shù)支持部(測(cè)試部)-網(wǎng)易軟件部-網(wǎng)易技術(shù)支持部(測(cè)試部)- ZF部門(審核)-技術(shù)支持部(運(yùn)維部)-網(wǎng)易技術(shù)支持部(測(cè)試部)
估計(jì)是兩邊的測(cè)試部第一次都沒發(fā)現(xiàn)問題,結(jié)果運(yùn)維部按照流程更新之后,測(cè)試部又TM發(fā)現(xiàn)問題,要修改游戲,又要所有部門再走一次流程。
既然涉及到了PC端/IOS/ANDROID,根本不是一天就能解決的。
比如我這次定5個(gè)小時(shí)做運(yùn)維,2個(gè)小時(shí)做測(cè)試。 我5個(gè)小時(shí)運(yùn)維做完了,剩下的就是測(cè)試組干的事情了。 測(cè)試組花了1個(gè)小時(shí)發(fā)現(xiàn)問題,想恢復(fù)更新之前,只能再花5個(gè)小時(shí)恢復(fù),今天就白忙活。 OK,就算我今天白忙了, 每周都有每周的目標(biāo),下周要補(bǔ)這周的目標(biāo),所花的時(shí)間可能就是4倍了。
有測(cè)試端,所以主要責(zé)任是測(cè)試部,第一次測(cè)試沒有發(fā)現(xiàn)問題,次要的是軟件部,主管或者總監(jiān)審核代碼的時(shí)候?yàn)槭裁礇]有發(fā)現(xiàn)問題? 也要問責(zé)。我感覺總監(jiān)這個(gè)年不好過了,就算是主管的責(zé)任,總監(jiān)也要被扣年總獎(jiǎng)了,誰讓這個(gè)主管是你面的? 就面這水平? 這工作態(tài)度?
大家耐心等吧。
配點(diǎn)服務(wù)器相關(guān)的圖
查看原圖|大圖模式
半個(gè)月工資配的服務(wù)器,準(zhǔn)備玩單機(jī)游戲。
一些猜測(cè)的答疑
還有人說是有人把代碼偷走了。
每個(gè)員工入職之前都要簽保密協(xié)議,競(jìng)業(yè)協(xié)議
而且每個(gè)部門的團(tuán)隊(duì),負(fù)責(zé)的都是不同的項(xiàng)目,能接觸的只是一小塊代碼,修改完代碼上傳到SVN里。 能接觸整個(gè)完整SVN的,只有總監(jiān)
總監(jiān)每個(gè)月工資不少于15W把? 還有年總獎(jiǎng)。 至于偷個(gè)代碼? 蹲幾年牢,以后還有公司要? 而且偷了代碼有什么用。。。。 開玩笑。。。
至于有朋友問我容災(zāi)是什么,不是冗余嗎?
異地容災(zāi),就是我這個(gè)機(jī)房真是起火了爆炸了,我異地機(jī)房能夠運(yùn)行起來。
冗余是指我服務(wù)器或者數(shù)據(jù)出了問題,我有bakup,可以隨時(shí)頂上去。
好比美國(guó)容不下維基解密,迅速把機(jī)房全部占領(lǐng)了,想取回?cái)?shù)據(jù)不可能,那怎么辦,還好他們有容災(zāi)方案,地點(diǎn)在南極,請(qǐng)求俄羅斯幫助,俄羅斯就會(huì)幫他們保護(hù)數(shù)據(jù)。
至于有網(wǎng)友問那如果兩臺(tái)都炸了怎么辦?
兩臺(tái)都炸了,這幾率比你中彩票幾率都低,應(yīng)該不可能的。
另外有朋友問兩地三中心,主機(jī)房將數(shù)據(jù)刪除,其他中心也會(huì)瞬間刪除的問題。
其實(shí)沒有瞬間刪除這一說,我之前可能沒說詳細(xì),雙機(jī)熱備,同步時(shí)間5分鐘(成本翻倍,之所以沒有采用故障轉(zhuǎn)移群集(成本低),是因?yàn)閴?mèng)幻之前出過問題,導(dǎo)致只能回檔,所以流程規(guī)定是雙機(jī)熱備) 異地容災(zāi)同步時(shí)間每天凌晨00:01 丟數(shù)據(jù)頂多回檔一天給補(bǔ)償。
另外日志精確到每一條語句,數(shù)據(jù)庫(kù)Oracle 有商業(yè)解決方案。
至于有些帖子提出的BUG說。
程序員自己解決BUG? 不可能,每個(gè)程序員負(fù)責(zé)的都是一部分代碼,他就算修改了,也不能編譯出來,更別提他能接觸到服務(wù)器了。
我之前是3-5個(gè)人一個(gè)小team,程序員應(yīng)該是7-10人的樣子,有了問題經(jīng)理 主管都可以上報(bào)的。。。 服務(wù)器是深度定制的LINUX+密碼狗。 修改了代碼,SVN都有日志,要表明原因,不然代碼也不會(huì)審核。
可能bug是有的,只是當(dāng)時(shí)沒有發(fā)現(xiàn)而已,他們主管就要倒霉了。
至于有朋友問為什么天下三12年后一天比一天坑爹?
雖然我是在天下3項(xiàng)目,不過我連這游戲都沒下過,我只是運(yùn)維。。。 管服務(wù)器的。
至于卡的問題,服務(wù)器問題是不可能的,只能說優(yōu)化還是別的事情沒有做好吧。機(jī)器假如內(nèi)存壞了,我們不會(huì)追究是主板還是電源導(dǎo)致的,我們做的只有一件事,換新服務(wù)器,因?yàn)楣静徊铄X。
總結(jié)
總結(jié)一下吧,這次有說是誤刪的,有說是封腳本程序被惡意篡改的,有說是服務(wù)器物理?yè)p壞的,有說是意外bug走流程的……
我個(gè)人是覺得測(cè)試的鍋。
以上就是爐石傳說為什么維護(hù)30多小時(shí),爐石傳說1月17日維護(hù)原因預(yù)測(cè)分析,請(qǐng)大家繼續(xù)關(guān)注。