基于疊加編碼的Web網(wǎng)頁抓取路徑損耗估計
發(fā)布時間:2017-09-18 18:24
本文關(guān)鍵詞:基于疊加編碼的Web網(wǎng)頁抓取路徑損耗估計
更多相關(guān)文章: Web網(wǎng)頁 文本特征 抓取路徑 數(shù)據(jù)挖掘
【摘要】:對Web網(wǎng)頁抓取是實現(xiàn)Web文本特征數(shù)據(jù)檢索的最佳方式,Web網(wǎng)頁抓取路徑損耗誤差的優(yōu)化估計可以提高對Web數(shù)據(jù)的挖掘性能。傳統(tǒng)方法中,對Web網(wǎng)頁抓取采用基于線性濾波檢測的單模匹配抓取方法,受弱信號幅度和臨界閾值約束,路徑損耗較大,且無法有效實現(xiàn)路徑損耗誤差有效估計。提出一種基于疊加編碼特征統(tǒng)計的Web網(wǎng)頁抓取路徑損耗誤差估計算法。構(gòu)建Web網(wǎng)頁文本特征抓取的目標(biāo)函數(shù),進行Web網(wǎng)絡(luò)路徑損耗模型構(gòu)建,設(shè)計疊加編碼算法進行特征統(tǒng)計,得到Web網(wǎng)頁抓取路徑概念格。仿真實驗表明,該算法能有效提高Web網(wǎng)頁抓取路徑損耗誤差估計精度,進而提高了Web網(wǎng)頁文本數(shù)據(jù)抓取的查準(zhǔn)率和文本特征數(shù)據(jù)的挖掘性能。
【作者單位】: 邢臺廣播電視大學(xué);
【關(guān)鍵詞】: Web網(wǎng)頁 文本特征 抓取路徑 數(shù)據(jù)挖掘
【分類號】:TP393.092;TP391.1
【正文快照】: 0引言隨著信息技術(shù)的快速發(fā)展,特別是互聯(lián)網(wǎng)的應(yīng)用及普及,網(wǎng)絡(luò)信息存儲呈爆炸式增加趨勢。Web網(wǎng)頁包含海量信息,需要對其進行文本數(shù)據(jù)挖掘和抓取,Web網(wǎng)頁結(jié)構(gòu),層次復(fù)雜,更新頻繁,個性特征強,主題信息受到各種信息的干擾,對其有效的抓取是實現(xiàn)文本信息特征索引和挖掘的關(guān)鍵。在
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 劉燕;;基于云計算信息處理系統(tǒng)體系結(jié)構(gòu)設(shè)計[J];科技通報;2012年08期
2 饒翔;王懷民;陳振邦;周揚帆;蔡華;周琦;孫廷韜;;云計算系統(tǒng)中基于伴隨狀態(tài)追蹤的故障檢測機制[J];計算機學(xué)報;2012年05期
3 覃雄派;王會舉;李芙蓉;李翠平;陳紅;周p,
本文編號:877137
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/877137.html
最近更新
教材專著