云服務(wù)器租用發(fā)生故障的概率低的原因是什么?
發(fā)布時間:2019-09-17 點擊數(shù):1776
大家知道云服務(wù)器租用使用過程中硬件故障是很少發(fā)生的,可以說云服務(wù)器發(fā)生故障的概率要比傳統(tǒng)服務(wù)器的低,那么云服務(wù)器租用發(fā)生故障的概率低的原因是什么?
影響云主機故障率的主要因素有:
l服務(wù)器硬件質(zhì)量
l宿主機內(nèi)核
l虛擬化層(KVM+QEMU 或 Xen)
lLinux 內(nèi)核(承載業(yè)務(wù)程序)
影響物理機故障率的主要因素有:
·服務(wù)器硬件質(zhì)量
·Linux 內(nèi)核(承載業(yè)務(wù)程序)
從上面的對比看,云主機比物理機故障率貌似要高,因為虛擬化層和宿主機內(nèi)核非常復雜,引入額外的故障率。這是直覺,而且很有道理:
AWS 去年就因為虛擬化層內(nèi)核的安全漏洞大規(guī)模重啟了物理機,多數(shù) AWS 用戶受影響。虛擬化層和宿主機內(nèi)核的 BUG 也會同樣造成宕機及重啟。
那為什么還說云主機故障率可以低于物理機呢?
備注:這里我是從終端用戶的角度看的,“從廠商購買的”物理機,來對比「從云平臺購買的」云主機。
2.服務(wù)器硬件質(zhì)量可以不斷提升;
3.承載業(yè)務(wù)程序的 Linux 內(nèi)核,云平臺可以幫助用戶進行維護。并解決 BUG,修復安全漏洞等。
有人會說,我自己購買的物理機也能做上述優(yōu)化,效果比云主機更好。 真的是這樣的么?現(xiàn)實情況是:
絕大部分公司管理的服務(wù)器數(shù)量不多,不足以建立相應(yīng)的團隊;同時因為服務(wù)器數(shù)量少(比如不到萬臺),做軟硬件優(yōu)化的環(huán)境不理想。
這主要通過自主掌控虛擬化層和宿主機內(nèi)核,這整套內(nèi)核來實現(xiàn)。
但我們自己維護的 Linux 內(nèi)核,我們可以迅速修復并應(yīng)用進實際環(huán)境,不像商業(yè) Linux 要等待較長的發(fā)布周期。
我們還可以預先研究別人犯過的錯誤,把更新補丁打入現(xiàn)在的內(nèi)核;還可以屏蔽不必要的特性和改動避免 BUG 的引入。
簡單講,自主維護內(nèi)核很靈活,最終質(zhì)量不低于商業(yè) Linux 發(fā)行版。國內(nèi)有海量服務(wù)器的公司如騰訊和阿里都運行自主維護的 Linux 內(nèi)核。
結(jié)合自主維護 Linux 內(nèi)核,如果發(fā)現(xiàn)了 BUG 并制作修復補丁后,可以免重啟應(yīng)用到生產(chǎn)環(huán)境的 Linux 內(nèi)核里。
這點目前主流 Linux 廠商不提供。但云平臺廠商可以自己做。
這三點的綜合效果,使得某些云廠商,因為內(nèi)核原因造成的宕機低到可以忽略。幾萬臺服務(wù)器半年可以減少到一兩次。
可能有些早期用戶應(yīng)該比較有感覺,幾年軟件宕機不少,給客戶推送的故障報告不時就和內(nèi)核有關(guān),但經(jīng)過一年半載的工作后,現(xiàn)在幾乎沒有了。
這里的工作需要海量服務(wù)器來做,比如上萬臺才有意義,而幾百上千臺意義不大。
這里有一張圖,體現(xiàn)我們可以主動采取部分措施。
一般來說,小廠的服務(wù)器故障率會高一些,但大廠即使 DELL、聯(lián)想的個別機型也會有較高故障率。
這主要和機型設(shè)計和生產(chǎn)質(zhì)量管控有關(guān),就不闡述了。我們能做的是選擇故障率低的廠商和機型。
對于硬盤故障,可以通過 RAID 方式規(guī)避。對于內(nèi)存硬件,可以通過內(nèi)存故障隔離等內(nèi)核手段,大幅度減少其硬件故障造成的宕機及影響。
總的來講,通過上述這些工作,云平臺廠商可以讓服務(wù)器硬件故障率逐步降低。其實,可以做的更多,篇幅原因就不講了。而這樣的工作,對于沒有海量環(huán)境的公司是很難做的,效果也不佳。
另外,云平臺廠商可以替用戶修復云主機內(nèi)核的 BUG 和安全漏洞,降低內(nèi)核故障率。
我們在這方面做了一些工作,內(nèi)核版本會及時更新,關(guān)鍵漏洞會提供免重啟熱補丁修復包。
觀點總結(jié)
簡要總結(jié)一下本文的主要觀點:
1.云主機相比物理機,虛擬化層和宿主機內(nèi)核的額外復雜性及故障率可以被優(yōu)化至接近 0 即可以忽略。
2.服務(wù)器硬件故障,云平臺可以不斷降低其故障率,主要手段通過內(nèi)核隔離硬件故障、熱遷移規(guī)避故障隱患,以及監(jiān)控故障率并主動下架不良廠商機型等。
上述這些工作都需要非常專業(yè)的運維團隊和內(nèi)核團隊才能實施,如果沒有足夠大的服務(wù)器數(shù)量是很難開展的。
影響云主機故障率的主要因素有:
l服務(wù)器硬件質(zhì)量
l宿主機內(nèi)核
l虛擬化層(KVM+QEMU 或 Xen)
lLinux 內(nèi)核(承載業(yè)務(wù)程序)
影響物理機故障率的主要因素有:
·服務(wù)器硬件質(zhì)量
·Linux 內(nèi)核(承載業(yè)務(wù)程序)
從上面的對比看,云主機比物理機故障率貌似要高,因為虛擬化層和宿主機內(nèi)核非常復雜,引入額外的故障率。這是直覺,而且很有道理:
AWS 去年就因為虛擬化層內(nèi)核的安全漏洞大規(guī)模重啟了物理機,多數(shù) AWS 用戶受影響。虛擬化層和宿主機內(nèi)核的 BUG 也會同樣造成宕機及重啟。
那為什么還說云主機故障率可以低于物理機呢?
備注:這里我是從終端用戶的角度看的,“從廠商購買的”物理機,來對比「從云平臺購買的」云主機。
原因在于:簡單來說,云平臺廠商往往管理幾萬幾十萬臺物理服務(wù)器,并有比較專業(yè)的基礎(chǔ)運維團隊和內(nèi)核團隊,可以在故障率上做大量的工作,以達成這樣的效果:
2.服務(wù)器硬件質(zhì)量可以不斷提升;
3.承載業(yè)務(wù)程序的 Linux 內(nèi)核,云平臺可以幫助用戶進行維護。并解決 BUG,修復安全漏洞等。
有人會說,我自己購買的物理機也能做上述優(yōu)化,效果比云主機更好。 真的是這樣的么?現(xiàn)實情況是:
絕大部分公司管理的服務(wù)器數(shù)量不多,不足以建立相應(yīng)的團隊;同時因為服務(wù)器數(shù)量少(比如不到萬臺),做軟硬件優(yōu)化的環(huán)境不理想。
下面就上述要點展開。
虛擬化層和宿主機內(nèi)核的故障率如何降低?
這主要通過自主掌控虛擬化層和宿主機內(nèi)核,這整套內(nèi)核來實現(xiàn)。1. 自主維護Linux內(nèi)核
商業(yè) Linux 發(fā)行版(如 RHEL6.X)的內(nèi)核其實有不少 BUG,因為內(nèi)核太龐大、太復雜,BUG 修之不盡而且不斷涌現(xiàn),只要內(nèi)核有人在改動,更多的 BUG 就還在路上。但我們自己維護的 Linux 內(nèi)核,我們可以迅速修復并應(yīng)用進實際環(huán)境,不像商業(yè) Linux 要等待較長的發(fā)布周期。
我們還可以預先研究別人犯過的錯誤,把更新補丁打入現(xiàn)在的內(nèi)核;還可以屏蔽不必要的特性和改動避免 BUG 的引入。
簡單講,自主維護內(nèi)核很靈活,最終質(zhì)量不低于商業(yè) Linux 發(fā)行版。國內(nèi)有海量服務(wù)器的公司如騰訊和阿里都運行自主維護的 Linux 內(nèi)核。
2. 免重啟熱補丁技術(shù)
這是指通過二進制指令修改的方式修改 Linux 內(nèi)核達到修復的目的。結(jié)合自主維護 Linux 內(nèi)核,如果發(fā)現(xiàn)了 BUG 并制作修復補丁后,可以免重啟應(yīng)用到生產(chǎn)環(huán)境的 Linux 內(nèi)核里。
這點目前主流 Linux 廠商不提供。但云平臺廠商可以自己做。
3. 熱遷移技術(shù)
特殊情況下的熱遷移,可規(guī)避尚未完全定位的內(nèi)核問題。這三點的綜合效果,使得某些云廠商,因為內(nèi)核原因造成的宕機低到可以忽略。幾萬臺服務(wù)器半年可以減少到一兩次。
可能有些早期用戶應(yīng)該比較有感覺,幾年軟件宕機不少,給客戶推送的故障報告不時就和內(nèi)核有關(guān),但經(jīng)過一年半載的工作后,現(xiàn)在幾乎沒有了。
服務(wù)器硬件質(zhì)量如何提升?
服務(wù)器硬件故障率的影響因素有廠商品牌、機型、服務(wù)器運行時間、以及部件型號的故障率。這里的工作需要海量服務(wù)器來做,比如上萬臺才有意義,而幾百上千臺意義不大。
這里有一張圖,體現(xiàn)我們可以主動采取部分措施。
1. 服務(wù)器故障率和廠商機型關(guān)系密切
我們可以監(jiān)控各廠商機型的故障率,主動下架比較差的,從而提升總體質(zhì)量。一般來說,小廠的服務(wù)器故障率會高一些,但大廠即使 DELL、聯(lián)想的個別機型也會有較高故障率。
這主要和機型設(shè)計和生產(chǎn)質(zhì)量管控有關(guān),就不闡述了。我們能做的是選擇故障率低的廠商和機型。
2. 服務(wù)器運行時間久了,故障率會隨之提升
對于云平臺廠商,可以監(jiān)控這一切故障發(fā)生前的征兆,并主動采取措施,通過熱遷移手段避免云主機受影響。3. 硬件宕機和部件缺陷關(guān)系很大
我們的統(tǒng)計發(fā)現(xiàn),部件種類里,硬盤故障故障率最高,其次內(nèi)存硬件、RAID 卡等。對于硬盤故障,可以通過 RAID 方式規(guī)避。對于內(nèi)存硬件,可以通過內(nèi)存故障隔離等內(nèi)核手段,大幅度減少其硬件故障造成的宕機及影響。
總的來講,通過上述這些工作,云平臺廠商可以讓服務(wù)器硬件故障率逐步降低。其實,可以做的更多,篇幅原因就不講了。而這樣的工作,對于沒有海量環(huán)境的公司是很難做的,效果也不佳。
另外,云平臺廠商可以替用戶修復云主機內(nèi)核的 BUG 和安全漏洞,降低內(nèi)核故障率。
我們在這方面做了一些工作,內(nèi)核版本會及時更新,關(guān)鍵漏洞會提供免重啟熱補丁修復包。
觀點總結(jié)
簡要總結(jié)一下本文的主要觀點:
1.云主機相比物理機,虛擬化層和宿主機內(nèi)核的額外復雜性及故障率可以被優(yōu)化至接近 0 即可以忽略。
2.服務(wù)器硬件故障,云平臺可以不斷降低其故障率,主要手段通過內(nèi)核隔離硬件故障、熱遷移規(guī)避故障隱患,以及監(jiān)控故障率并主動下架不良廠商機型等。
上述這些工作都需要非常專業(yè)的運維團隊和內(nèi)核團隊才能實施,如果沒有足夠大的服務(wù)器數(shù)量是很難開展的。
而大型云廠商往往管理幾萬、幾十萬服務(wù)器,因此具備這樣的條件。也因此,云主機故障率能低于物理機(當然,如果什么都不做,云主機故障率一定是高于物理機的)。
看完想必大家知道原因了吧,上述文章由全網(wǎng)數(shù)據(jù)小編分享,全網(wǎng)數(shù)據(jù)專業(yè)提供深圳服務(wù)器租用,深圳服務(wù)器托管,深圳主機租用,云服務(wù)器租用等服務(wù),歡迎咨詢客服了解詳情。