基于終端數(shù)據(jù)的電信承載網(wǎng)異常節(jié)點(diǎn)定位方法
發(fā)布時(shí)間:2021-09-22 12:31
隨著電信IPTV業(yè)務(wù)的高速發(fā)展,承載網(wǎng)規(guī)模不斷擴(kuò)大,設(shè)備故障運(yùn)維難度逐漸增大。當(dāng)設(shè)備發(fā)生故障時(shí),如何在大規(guī)模網(wǎng)絡(luò)中對(duì)故障節(jié)點(diǎn)進(jìn)行快速定位已成為運(yùn)維方面的重大挑戰(zhàn)。目前承載網(wǎng)設(shè)備故障告警主要依賴(lài)于設(shè)備性能日志,誤告較多,且無(wú)法適應(yīng)大規(guī)模網(wǎng)絡(luò)故障定位。因此借助Spark等工具,提出一種基于終端數(shù)據(jù)的異常節(jié)點(diǎn)定位方法,結(jié)合網(wǎng)絡(luò)拓?fù)涑醪綄?shí)現(xiàn)閾值告警。并進(jìn)一步以設(shè)備相關(guān)性和可靠性為分析基礎(chǔ),將告警過(guò)程產(chǎn)生的大量虛假告警進(jìn)行清洗,提高故障定位精確率。實(shí)驗(yàn)結(jié)果表明,在承載網(wǎng)故障定位中該方法精確率能達(dá)到89%,具有較高實(shí)用價(jià)值。
【文章來(lái)源】:計(jì)算機(jī)工程與應(yīng)用. 2019,55(11)北大核心CSCD
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
部分特征示例
2019,55(11)常時(shí)該占比的累積分布也較為接近,相關(guān)特征較為明顯,其中W正常時(shí)相關(guān)性均值Rˉ≈0.72。(4)設(shè)備可靠性設(shè)備可靠性通過(guò)韋布爾兩參數(shù)模型進(jìn)行量化。聯(lián)合利用中位秩與最小二乘法對(duì)兩參數(shù)進(jìn)行估計(jì),雖然在計(jì)算偏差方面較數(shù)值解法類(lèi)較大,但計(jì)算效率較高[21]。圖5給出了某設(shè)備在1個(gè)月內(nèi)發(fā)生的故障時(shí)間記錄,通過(guò)最小二乘法估計(jì)的累積失效概率曲線(xiàn)與中位秩的比較,其β和α分別對(duì)應(yīng)累積失效率計(jì)算過(guò)程中的形狀參數(shù)與比例參數(shù),R2為線(xiàn)性回歸相關(guān)指數(shù)。4故障定位為解決由閾值告警過(guò)程產(chǎn)生大量虛假告警的問(wèn)題,通過(guò)設(shè)備統(tǒng)計(jì)量在網(wǎng)絡(luò)拓?fù)涔?jié)點(diǎn)上的分布狀態(tài)、相關(guān)性等進(jìn)行告警數(shù)據(jù)清洗、可靠性閾值告警和故障定位。4.1告警數(shù)據(jù)示例以下為所有OLT和BRAS層設(shè)備故障時(shí)刻進(jìn)行直播故障數(shù)據(jù)的一些特征示例。圖6(a)描述了這些設(shè)備從故障發(fā)生至恢復(fù)過(guò)程占用時(shí)段的關(guān)系,圖中顯示能夠在48個(gè)單位時(shí)段內(nèi)恢復(fù)的設(shè)備分布狀態(tài)。83.78%的設(shè)備故障后能夠在1至4個(gè)時(shí)間段T恢復(fù);大于4個(gè)時(shí)段的設(shè)備從整體看來(lái)較少。部分設(shè)備在發(fā)生故障時(shí)無(wú)法自主恢復(fù)或已損壞等,需要進(jìn)行維護(hù)處理,故而所需恢復(fù)時(shí)間較長(zhǎng)。圖6(b)描述了這些設(shè)備在24個(gè)自然時(shí)段的告警次數(shù)分布特點(diǎn),可以看出其走勢(shì)和在線(xiàn)人數(shù)的日均特征較為接近,在3到6點(diǎn)告警次數(shù)較少,13到18點(diǎn)較為平穩(wěn),在21點(diǎn)告警次數(shù)較多。圖6(c)則描述了這些設(shè)備在告警時(shí),同一設(shè)備連續(xù)兩次相同性質(zhì)告警間隔時(shí)長(zhǎng)的分布特征,描述時(shí)長(zhǎng)控制在48個(gè)單位時(shí)段?煽闯鲈诎l(fā)生故障時(shí)有近82.79%的設(shè)備在6個(gè)單位時(shí)段內(nèi)會(huì)產(chǎn)生兩次相同性質(zhì)的告警。4.2數(shù)據(jù)過(guò)濾數(shù)據(jù)過(guò)濾主要是針對(duì)告警過(guò)程中產(chǎn)生的重復(fù)及衍生數(shù)據(jù),需要進(jìn)行清洗操作。重復(fù)數(shù)據(jù)主要來(lái)源于設(shè)備故障的持續(xù)
食?黽撲?值的部分進(jìn)行均值處理,從而進(jìn)行閾值告警。如圖9所示,如果在相關(guān)性清洗過(guò)后的設(shè)備告警時(shí)刻ti上計(jì)算所得發(fā)生故障的概率Pti≥PTHti,則認(rèn)為會(huì)發(fā)生故障。且超出閾值范圍越大,則認(rèn)為故障可能性越大,并標(biāo)記該設(shè)備為故障設(shè)備;否則認(rèn)為是誤告。4.4實(shí)驗(yàn)結(jié)果通過(guò)實(shí)驗(yàn)對(duì)本文告警機(jī)制進(jìn)行對(duì)比分析,評(píng)估過(guò)程中,以承載網(wǎng)7455個(gè)設(shè)備(OLT及BRAS層級(jí))的3個(gè)月歷史監(jiān)控?cái)?shù)據(jù)和系統(tǒng)告警數(shù)據(jù),作為實(shí)驗(yàn)基礎(chǔ)數(shù)據(jù)。其中,測(cè)試數(shù)據(jù)的測(cè)試節(jié)點(diǎn)數(shù)為7455個(gè),由故障工單核實(shí)后的平均真故障節(jié)點(diǎn)數(shù)為30.73個(gè)。圖10給出了平均每日產(chǎn)生的告警數(shù)據(jù)中,被清洗的重復(fù)及衍生的告警數(shù)據(jù)量情況,其中,告警數(shù)是包含衍生類(lèi)、重復(fù)類(lèi)和其他類(lèi)的總數(shù)。通過(guò)設(shè)備告警數(shù)據(jù)清洗過(guò)程,有近97.37%的衍生類(lèi)數(shù)據(jù)量被清洗,有近87.24%的重復(fù)類(lèi)告警數(shù)據(jù)被清洗,減少告警數(shù)據(jù)量,其中數(shù)據(jù)清洗的TW=8T(且T=5min)、Rth=0.70和PWth=0.80。但仍有部分告警數(shù)據(jù)無(wú)法被清洗掉,主要由于設(shè)備的統(tǒng)計(jì)量、相關(guān)性等特征不明顯,或者部分告警在值上過(guò)于接近閾值水平,但是并沒(méi)有達(dá)到閾值,而這部分?jǐn)?shù)據(jù)在進(jìn)行設(shè)備可靠性計(jì)算過(guò)程中,同樣存在可靠性計(jì)算無(wú)法適應(yīng)的情況。而在數(shù)據(jù)清洗完畢后,需要繼續(xù)進(jìn)行可靠性分析和閾值判斷。評(píng)價(jià)過(guò)程中的混淆矩陣如表2所示。采用:精確率:Precision=TP/(TP+FP)召回率:Recall=TP/(TP+FN)F1值:F1=2PrecisionRecall/(Precision+Recall)作為評(píng)價(jià)指標(biāo),對(duì)現(xiàn)有承載網(wǎng)使用設(shè)備異常日志進(jìn)行普通閾值告警機(jī)制M1、使用時(shí)移平均的動(dòng)態(tài)閾值[10]告警機(jī)制M2、本文設(shè)計(jì)的告警機(jī)制M3、使用文獻(xiàn)[4]且以承載網(wǎng)終端與服務(wù)端數(shù)據(jù)訪(fǎng)問(wèn)路徑構(gòu)建監(jiān)測(cè)點(diǎn)的端到端識(shí)別方法M4。實(shí)驗(yàn)結(jié)果對(duì)?
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)據(jù)挖掘的網(wǎng)管告警處理方法研究[J]. 許劭慶,馬彪,安海英. 軟件工程. 2016(12)
碩士論文
[1]基于動(dòng)態(tài)閾值的網(wǎng)絡(luò)性能管理系統(tǒng)研究與實(shí)現(xiàn)[D]. 王越.山東大學(xué) 2012
[2]基于屬性相似度的TD-SCDMA網(wǎng)絡(luò)告警系統(tǒng)研究[D]. 侯振宇.吉林大學(xué) 2012
本文編號(hào):3403764
【文章來(lái)源】:計(jì)算機(jī)工程與應(yīng)用. 2019,55(11)北大核心CSCD
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
部分特征示例
2019,55(11)常時(shí)該占比的累積分布也較為接近,相關(guān)特征較為明顯,其中W正常時(shí)相關(guān)性均值Rˉ≈0.72。(4)設(shè)備可靠性設(shè)備可靠性通過(guò)韋布爾兩參數(shù)模型進(jìn)行量化。聯(lián)合利用中位秩與最小二乘法對(duì)兩參數(shù)進(jìn)行估計(jì),雖然在計(jì)算偏差方面較數(shù)值解法類(lèi)較大,但計(jì)算效率較高[21]。圖5給出了某設(shè)備在1個(gè)月內(nèi)發(fā)生的故障時(shí)間記錄,通過(guò)最小二乘法估計(jì)的累積失效概率曲線(xiàn)與中位秩的比較,其β和α分別對(duì)應(yīng)累積失效率計(jì)算過(guò)程中的形狀參數(shù)與比例參數(shù),R2為線(xiàn)性回歸相關(guān)指數(shù)。4故障定位為解決由閾值告警過(guò)程產(chǎn)生大量虛假告警的問(wèn)題,通過(guò)設(shè)備統(tǒng)計(jì)量在網(wǎng)絡(luò)拓?fù)涔?jié)點(diǎn)上的分布狀態(tài)、相關(guān)性等進(jìn)行告警數(shù)據(jù)清洗、可靠性閾值告警和故障定位。4.1告警數(shù)據(jù)示例以下為所有OLT和BRAS層設(shè)備故障時(shí)刻進(jìn)行直播故障數(shù)據(jù)的一些特征示例。圖6(a)描述了這些設(shè)備從故障發(fā)生至恢復(fù)過(guò)程占用時(shí)段的關(guān)系,圖中顯示能夠在48個(gè)單位時(shí)段內(nèi)恢復(fù)的設(shè)備分布狀態(tài)。83.78%的設(shè)備故障后能夠在1至4個(gè)時(shí)間段T恢復(fù);大于4個(gè)時(shí)段的設(shè)備從整體看來(lái)較少。部分設(shè)備在發(fā)生故障時(shí)無(wú)法自主恢復(fù)或已損壞等,需要進(jìn)行維護(hù)處理,故而所需恢復(fù)時(shí)間較長(zhǎng)。圖6(b)描述了這些設(shè)備在24個(gè)自然時(shí)段的告警次數(shù)分布特點(diǎn),可以看出其走勢(shì)和在線(xiàn)人數(shù)的日均特征較為接近,在3到6點(diǎn)告警次數(shù)較少,13到18點(diǎn)較為平穩(wěn),在21點(diǎn)告警次數(shù)較多。圖6(c)則描述了這些設(shè)備在告警時(shí),同一設(shè)備連續(xù)兩次相同性質(zhì)告警間隔時(shí)長(zhǎng)的分布特征,描述時(shí)長(zhǎng)控制在48個(gè)單位時(shí)段?煽闯鲈诎l(fā)生故障時(shí)有近82.79%的設(shè)備在6個(gè)單位時(shí)段內(nèi)會(huì)產(chǎn)生兩次相同性質(zhì)的告警。4.2數(shù)據(jù)過(guò)濾數(shù)據(jù)過(guò)濾主要是針對(duì)告警過(guò)程中產(chǎn)生的重復(fù)及衍生數(shù)據(jù),需要進(jìn)行清洗操作。重復(fù)數(shù)據(jù)主要來(lái)源于設(shè)備故障的持續(xù)
食?黽撲?值的部分進(jìn)行均值處理,從而進(jìn)行閾值告警。如圖9所示,如果在相關(guān)性清洗過(guò)后的設(shè)備告警時(shí)刻ti上計(jì)算所得發(fā)生故障的概率Pti≥PTHti,則認(rèn)為會(huì)發(fā)生故障。且超出閾值范圍越大,則認(rèn)為故障可能性越大,并標(biāo)記該設(shè)備為故障設(shè)備;否則認(rèn)為是誤告。4.4實(shí)驗(yàn)結(jié)果通過(guò)實(shí)驗(yàn)對(duì)本文告警機(jī)制進(jìn)行對(duì)比分析,評(píng)估過(guò)程中,以承載網(wǎng)7455個(gè)設(shè)備(OLT及BRAS層級(jí))的3個(gè)月歷史監(jiān)控?cái)?shù)據(jù)和系統(tǒng)告警數(shù)據(jù),作為實(shí)驗(yàn)基礎(chǔ)數(shù)據(jù)。其中,測(cè)試數(shù)據(jù)的測(cè)試節(jié)點(diǎn)數(shù)為7455個(gè),由故障工單核實(shí)后的平均真故障節(jié)點(diǎn)數(shù)為30.73個(gè)。圖10給出了平均每日產(chǎn)生的告警數(shù)據(jù)中,被清洗的重復(fù)及衍生的告警數(shù)據(jù)量情況,其中,告警數(shù)是包含衍生類(lèi)、重復(fù)類(lèi)和其他類(lèi)的總數(shù)。通過(guò)設(shè)備告警數(shù)據(jù)清洗過(guò)程,有近97.37%的衍生類(lèi)數(shù)據(jù)量被清洗,有近87.24%的重復(fù)類(lèi)告警數(shù)據(jù)被清洗,減少告警數(shù)據(jù)量,其中數(shù)據(jù)清洗的TW=8T(且T=5min)、Rth=0.70和PWth=0.80。但仍有部分告警數(shù)據(jù)無(wú)法被清洗掉,主要由于設(shè)備的統(tǒng)計(jì)量、相關(guān)性等特征不明顯,或者部分告警在值上過(guò)于接近閾值水平,但是并沒(méi)有達(dá)到閾值,而這部分?jǐn)?shù)據(jù)在進(jìn)行設(shè)備可靠性計(jì)算過(guò)程中,同樣存在可靠性計(jì)算無(wú)法適應(yīng)的情況。而在數(shù)據(jù)清洗完畢后,需要繼續(xù)進(jìn)行可靠性分析和閾值判斷。評(píng)價(jià)過(guò)程中的混淆矩陣如表2所示。采用:精確率:Precision=TP/(TP+FP)召回率:Recall=TP/(TP+FN)F1值:F1=2PrecisionRecall/(Precision+Recall)作為評(píng)價(jià)指標(biāo),對(duì)現(xiàn)有承載網(wǎng)使用設(shè)備異常日志進(jìn)行普通閾值告警機(jī)制M1、使用時(shí)移平均的動(dòng)態(tài)閾值[10]告警機(jī)制M2、本文設(shè)計(jì)的告警機(jī)制M3、使用文獻(xiàn)[4]且以承載網(wǎng)終端與服務(wù)端數(shù)據(jù)訪(fǎng)問(wèn)路徑構(gòu)建監(jiān)測(cè)點(diǎn)的端到端識(shí)別方法M4。實(shí)驗(yàn)結(jié)果對(duì)?
【參考文獻(xiàn)】:
期刊論文
[1]基于數(shù)據(jù)挖掘的網(wǎng)管告警處理方法研究[J]. 許劭慶,馬彪,安海英. 軟件工程. 2016(12)
碩士論文
[1]基于動(dòng)態(tài)閾值的網(wǎng)絡(luò)性能管理系統(tǒng)研究與實(shí)現(xiàn)[D]. 王越.山東大學(xué) 2012
[2]基于屬性相似度的TD-SCDMA網(wǎng)絡(luò)告警系統(tǒng)研究[D]. 侯振宇.吉林大學(xué) 2012
本文編號(hào):3403764
本文鏈接:http://sikaile.net/guanlilunwen/sjfx/3403764.html
最近更新
教材專(zhuān)著