無論購買服務(wù)器托管到數(shù)據(jù)中心,還是租用服務(wù)器,您都不必成為服務(wù)器專家,但您必須定期維護(hù)它。服務(wù)器是每天24小時(shí)運(yùn)行,每周執(zhí)行數(shù)百萬次交互。所有這些都會(huì)造成硬件,軟件,數(shù)據(jù)庫和服務(wù)器的磨損。老舊的服務(wù)器設(shè)置將不足以處理日益增加的交互數(shù)量。服務(wù)器軟件將容易受到新的攻擊,SQL表將變得支離破碎,硬盤終會(huì)降級(jí)甚至崩潰,終可能導(dǎo)致服務(wù)質(zhì)量低下,數(shù)據(jù)丟失或信息被盜。
其實(shí)所有這些都很容易預(yù)防。你所需要的只是一個(gè)計(jì)劃:服務(wù)器維護(hù)計(jì)劃。您需要在不同的時(shí)間段檢查服務(wù)器中的不同內(nèi)容。
服務(wù)器維護(hù)技術(shù)避免98%損失
一、服務(wù)器維護(hù)計(jì)劃包括哪些內(nèi)容?
1.日常維護(hù)
?軟件更新:防病毒和軟件更新可以在任何進(jìn)行。
?日志審核:濫用用戶,網(wǎng)站訪問者或僵尸程序可能會(huì)從合法用戶那里奪走資源,應(yīng)該盡快阻止。
?漏洞披露:軟件供應(yīng)商和渠道報(bào)告未經(jīng)修補(bǔ)的漏洞或攻擊。緊急修補(bǔ)將保護(hù)您的數(shù)據(jù)。
2.每周:檢查您的備份。如果備份不可用,您將只丟失一周的數(shù)據(jù)。
3.雙周:審核磁盤使用情況,包括老舊帳戶,未完成的備份,舊的臨時(shí)文件等會(huì)占用磁盤空間,從而導(dǎo)致磁盤空間問題。
4.每月一次:優(yōu)化數(shù)據(jù)庫。繁忙的數(shù)據(jù)庫在一個(gè)月內(nèi)可能產(chǎn)生3%-5%的碎片。
5.雙月:調(diào)整應(yīng)用程序。由于流量模式可能會(huì)在兩個(gè)月內(nèi)發(fā)生變化,因此未經(jīng)優(yōu)化的設(shè)置會(huì)影響速度。
6.24小時(shí):監(jiān)控服務(wù)器運(yùn)行狀況。可以通過負(fù)載高峰等早期跡象發(fā)現(xiàn)服務(wù)器故障。早期檢測(cè)可以防止完全停機(jī)。您需要檢測(cè)的內(nèi)容包括RAID健康、服務(wù)器溫度、負(fù)載平均值、網(wǎng)絡(luò)連接等。
二、如何構(gòu)建適合您的服務(wù)器的維護(hù)計(jì)劃
您可以根據(jù)服務(wù)器維護(hù)活動(dòng)的目標(biāo),來細(xì)分服務(wù)器維護(hù)活動(dòng),然后找出實(shí)現(xiàn)該目標(biāo)需要完成的工作。例如:
緊急響應(yīng),您需要知道您的服務(wù)器是否發(fā)生了不好的事情,您需要在出現(xiàn)問題時(shí)快速恢復(fù)服務(wù)。預(yù)防措施包括:主動(dòng)審核和檢查系統(tǒng),以防止可能的服務(wù)降級(jí)或誤用。它可能包括:檢查,績(jī)效審計(jì),資源使用審核等。保險(xiǎn)措施包括:備份審核,鏡像故障轉(zhuǎn)移測(cè)試,高可用性測(cè)試。
三、制定應(yīng)急響應(yīng)計(jì)劃
可能出現(xiàn)故障的軟件和硬件組件類型在數(shù)據(jù)庫服務(wù)器,郵件服務(wù)器和Web或應(yīng)用程序服務(wù)器中會(huì)有所不同。因此,沒有一個(gè)適合所有人的列表,來列出服務(wù)器中需要監(jiān)控的所有故障。您需要考慮一下服務(wù)器可能出現(xiàn)故障的常見方式,以及如何及早發(fā)現(xiàn)它們。例如:Web服務(wù)器可能存在以下問題:
?容量錯(cuò)誤(流量的突然增加可能耗盡內(nèi)存,并使磁盤過載,導(dǎo)致響應(yīng)遲緩);
?用戶濫用(在共享環(huán)境中,某些用戶可能會(huì)運(yùn)行資源繁重的腳本,從而導(dǎo)致服務(wù)器負(fù)載);
?網(wǎng)絡(luò)攻擊(僵尸網(wǎng)絡(luò)通過在網(wǎng)站上執(zhí)行數(shù)千個(gè)同步查詢來完成大規(guī)模攻擊);
?Buggy腳本(編碼不良的腳本可能導(dǎo)致內(nèi)存泄漏或其他資源過度使用);
?網(wǎng)絡(luò)故障(Web服務(wù)器可能會(huì)丟失與后端數(shù)據(jù)庫服務(wù)器或其他應(yīng)用服務(wù)器的連接);
?硬件錯(cuò)誤(從RAID降級(jí)到溫度問題,各種各樣的問題都可能導(dǎo)致服務(wù)器運(yùn)行不良或凍結(jié));
?惡意軟件注入(黑客可能會(huì)使用未公開的漏洞將惡意軟件注入服務(wù)器);
?IP/網(wǎng)站聲譽(yù)問題(搜索引擎可以檢測(cè)到惡意軟件注入的網(wǎng)站從而降低網(wǎng)站權(quán)重)等等。
為預(yù)防這些故障,您需要每周7天,每天24小時(shí)監(jiān)控與這些問題相關(guān)的服務(wù)器參數(shù)。它可能包括負(fù)載均衡,內(nèi)存使用,I/O使用等。在列出適合您的服務(wù)器類型的所有這些方案和服務(wù)器參數(shù)后,列出您需要采取的操作以使服務(wù)重新聯(lián)機(jī)。緊急行動(dòng)需要提前考慮,因?yàn)槟鷽]有時(shí)間停下來思考服務(wù)何時(shí)失敗。
四、制定預(yù)防性維護(hù)計(jì)劃
預(yù)防性維護(hù)的目標(biāo)是審核和調(diào)整服務(wù)器和服務(wù)的每個(gè)部分,以便它不會(huì)失敗。同樣,您需要檢查的內(nèi)容將根據(jù)您運(yùn)行的服務(wù)器類型而有所不同。我們來看一個(gè)數(shù)據(jù)庫SQL服務(wù)器的例子。MySQL服務(wù)器維護(hù)計(jì)劃將包括:
?碎片整理(又名表優(yōu)化):數(shù)據(jù)庫中頻繁的“刪除”會(huì)使表格碎片化。每月優(yōu)化一次表,以防止性能問題和可用空間的損失。
?分析(優(yōu)化索引):MySQL使用索引快速查找所需的數(shù)據(jù)。大約每月運(yùn)行一次“分析”以簡(jiǎn)化索引,并使查詢執(zhí)行更快。
?完整性檢查:有時(shí),由于數(shù)據(jù)庫崩潰或應(yīng)用程序錯(cuò)誤,MySQL索引會(huì)丟失對(duì)數(shù)據(jù)集的。每周檢查數(shù)據(jù)庫完整性以防止查詢錯(cuò)誤。
?磁盤運(yùn)行狀況檢查:服務(wù)器日志中記錄了HDD或RAID錯(cuò)誤。此類錯(cuò)誤是即將發(fā)生故障的早期指示,您可以采取措施更換磁盤。
?空間使用檢查:您的數(shù)據(jù)庫需要增長(zhǎng)空間,進(jìn)行備份和進(jìn)行大型事務(wù)。每月檢查一次陳舊文件,臨時(shí)文件或舊備份。
?群集效率分析:數(shù)據(jù)庫群集應(yīng)有效地同步數(shù)據(jù),以防止查詢延遲和數(shù)據(jù)錯(cuò)誤。早期檢測(cè)同步滯后可以防止代價(jià)高昂的數(shù)據(jù)庫崩潰。
?錯(cuò)誤日志審核:如果MySQL服務(wù)器檢測(cè)到索引或表損壞,則會(huì)記錄錯(cuò)誤。定期錯(cuò)誤日志審核將防止意外停機(jī)。
?慢查詢分析:MySQL會(huì)將執(zhí)行效果不佳的查詢記錄到文件中。對(duì)這些查詢和服務(wù)器調(diào)整的每周分析可能會(huì)阻止性能日志。
?服務(wù)器速度審計(jì):每月速度測(cè)試可以顯示MySQL服務(wù)器執(zhí)行查詢的效率。通過及早發(fā)現(xiàn)和修復(fù)瓶頸,您可以避免性能問題。
五、規(guī)劃災(zāi)難恢復(fù)
您的服務(wù)器硬盤都有一定的壽命。有些數(shù)據(jù)可能會(huì)丟失。那時(shí)的重要問題是,“你多久能恢復(fù)?”如果您已準(zhǔn)備好應(yīng)對(duì)這種可能性,那么它可能只需1分鐘。
在葵芳機(jī)房,我們維護(hù)著Web主機(jī),數(shù)據(jù)中心和其他在線服務(wù)提供商的服務(wù)器。我們的每個(gè)客戶都有不同級(jí)別的可用性要求。有些人可以忍受數(shù)小時(shí)的停機(jī)時(shí)間。有些人甚至不能容忍一分鐘的停機(jī)時(shí)間。
因此,我們部署了廣泛的解決方案,以確保業(yè)務(wù)連續(xù)性,從高可用性集群和容錯(cuò)硬件到故障轉(zhuǎn)移鏡像和增量備份。至少,您的災(zāi)難恢復(fù)計(jì)劃應(yīng)包括備份審核。一些檢查是:
?狀態(tài)檢查:備份是否每天都成功完成?它顯示錯(cuò)誤了嗎?
?數(shù)據(jù)完整性檢查:備份存檔是否已損壞?是否可以從中檢索數(shù)據(jù)?
?磁盤空間檢查:磁盤空間不足?是否有空間接收下周的檔案?
?恢復(fù)過程檢查:當(dāng)前恢復(fù)方法是否有效?是否存在連接錯(cuò)誤或其他阻止快速恢復(fù)的問題?
構(gòu)建災(zāi)難恢復(fù)計(jì)劃的出發(fā)點(diǎn)是問自己,您希望能夠以多快的速度恢復(fù)服務(wù)。然后向后工作所需的系統(tǒng),涉及的成本,以及您愿意接受的權(quán)衡