基于WSFT模型的深層網(wǎng)文本獲取方法
發(fā)布時間:2017-04-03 12:03
本文關(guān)鍵詞:基于WSFT模型的深層網(wǎng)文本獲取方法,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Web2.0的興起,目前互聯(lián)網(wǎng)應(yīng)用延伸出了兩種存在方式:表層網(wǎng)和深層網(wǎng)。前者是指傳統(tǒng)搜索引擎可以檢索到的Web頁面,是由超鏈接連通的靜態(tài)頁面組成的;后者是指存在互聯(lián)網(wǎng)中但無法通過超鏈接到達(dá)的一些資源的集合。目前,深層網(wǎng)里包含的可訪問信息容量遠(yuǎn)遠(yuǎn)高于一般表層網(wǎng),可見研究深層網(wǎng)的內(nèi)容獲取方法對提高搜索引擎的覆蓋率有著非常重要的的意義。在深層網(wǎng)應(yīng)用所使用的技術(shù)中,Ajax技術(shù)由于為Web應(yīng)用提供了更流暢的交互而成為了其中的重要組成部分。使用了Ajax技術(shù)的頁面與一般表層網(wǎng)頁面的區(qū)別在于其是多種狀態(tài)的“混合體”,即一個頁面對應(yīng)多個文檔結(jié)構(gòu),且文檔結(jié)構(gòu)之間存在強(qiáng)關(guān)聯(lián)關(guān)系。Ajax頁面的多狀態(tài)以及狀態(tài)之間強(qiáng)關(guān)聯(lián)的特性可能會有助于Web頁面數(shù)據(jù)處理(如重要內(nèi)容挖掘),而當(dāng)前研究還沒有針對Ajax頁面的這種特性來進(jìn)行數(shù)據(jù)預(yù)處理的方法?紤]到文本作為信息的主要載體,且大部分Web挖掘方法是針對文本來進(jìn)行分析的,頁面文檔的內(nèi)容信息與結(jié)構(gòu)信息對Web挖掘工作都是非常重要的。由此提出一種基于WSFT(帶權(quán)狀態(tài)融合樹)模型的深層網(wǎng)文本獲取方法:在一個Ajax頁面多個狀態(tài)的轉(zhuǎn)換中,一個文本塊出現(xiàn)頻率越高,可能越重要。本文主要針對Ajax頁面的文本信息進(jìn)行分析處理,且很好的保留Web頁面的內(nèi)容信息和結(jié)構(gòu)信息。首先,構(gòu)建一個特定的數(shù)據(jù)結(jié)構(gòu)一文本特征樹。這個數(shù)據(jù)結(jié)構(gòu)即能有效地保留原Web頁面的文檔內(nèi)容信息和結(jié)構(gòu)特征,同時也能作為狀態(tài)轉(zhuǎn)換的信息指紋,有效地判斷狀態(tài)改變。從而優(yōu)化了深層網(wǎng)中Ajax頁面信息采集方法。然后,將文本特征樹引入到Ajax頁面的采集過程。具體實(shí)現(xiàn)中,通過事件代理技術(shù),主動觸發(fā)一個Web頁面的各種狀態(tài),并將每一個頁面樹轉(zhuǎn)換為一個文本特征樹,從而獲取到一個頁面的文本特征樹集合以及相互轉(zhuǎn)換條件來構(gòu)造出狀態(tài)轉(zhuǎn)移有向圖,進(jìn)而計(jì)算出這個有向圖的鄰接矩陣。最后,使用StatusRank算法對每個狀態(tài)進(jìn)行權(quán)值計(jì)算,并將所有狀態(tài)融合成一個WSFT(帶權(quán)狀態(tài)融合樹),為后續(xù)的Web挖掘(內(nèi)容挖掘和結(jié)構(gòu)挖掘)工作提供了有價值的結(jié)構(gòu)化數(shù)據(jù)。從互聯(lián)網(wǎng)應(yīng)用中,選用了一些廣泛使用了Ajax技術(shù)的站點(diǎn)進(jìn)行實(shí)驗(yàn)。在這個過程中設(shè)計(jì)并實(shí)現(xiàn)了相應(yīng)的原型系統(tǒng)cl-fetcher,并對實(shí)驗(yàn)結(jié)果進(jìn)行分析,論證了本文所提出的方法的有效性。
【關(guān)鍵詞】:Ajax爬蟲 帶權(quán)狀態(tài)融合樹 文本挖掘 文本特征樹
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-12
- 第1章 緒論12-18
- 1.1 研究背景及意義12-13
- 1.2 相關(guān)技術(shù)研究現(xiàn)狀13-15
- 1.3 主要研究內(nèi)容15-17
- 1.4 論文組織結(jié)構(gòu)17-18
- 第2章 相關(guān)技術(shù)綜述18-32
- 2.1 客戶端相關(guān)技術(shù)18-23
- 2.1.1 JavaScript腳本語言18-19
- 2.1.2 文檔對象模型(DOM)19-21
- 2.1.3 事件模型21-23
- 2.2 深層網(wǎng)和Ajax技術(shù)23-26
- 2.2.1 深層網(wǎng)概念和特點(diǎn)23-24
- 2.2.2 Ajax技術(shù)和XMLHttpRequest對象24-26
- 2.3 Web挖掘與網(wǎng)絡(luò)爬蟲技術(shù)26-30
- 2.3.1 Web挖掘概念和分類26-29
- 2.3.2 Web挖掘過程29
- 2.3.3 網(wǎng)絡(luò)爬蟲技術(shù)29-30
- 2.4 PageRank算法30-31
- 2.5 本章小結(jié)31-32
- 第3章 基于WSFT模型的文本獲取方法32-43
- 3.1 基礎(chǔ)定義32-33
- 3.2 文本特征樹33-35
- 3.3 狀態(tài)捕獲35-38
- 3.4 狀態(tài)融合樹生成38-41
- 3.5 本章小結(jié)41-43
- 第4章 原型系統(tǒng)設(shè)計(jì)及實(shí)驗(yàn)結(jié)果分析43-58
- 4.1 原型系統(tǒng)設(shè)計(jì)43-53
- 4.1.1 項(xiàng)目構(gòu)建43-45
- 4.1.2 系統(tǒng)設(shè)計(jì)45-47
- 4.1.3 Ajax頁面采集器模塊47-50
- 4.1.4 Ajax頁面分析器模塊50-52
- 4.1.5 狀態(tài)融合器模塊52-53
- 4.2 實(shí)驗(yàn)結(jié)果分析53-57
- 4.2.1 方法代理結(jié)果驗(yàn)證53
- 4.2.2 狀態(tài)捕獲結(jié)果驗(yàn)證53-55
- 4.2.3 WSFT模型正確性驗(yàn)證55-56
- 4.2.4 其他指標(biāo)對比56-57
- 4.3 本章小結(jié)57-58
- 結(jié)論58-60
- 參考文獻(xiàn)60-64
- 致謝64-65
- 附錄A 攻讀學(xué)位期間所發(fā)表的學(xué)術(shù)論文目錄65-66
- 附錄B 攻讀學(xué)位期間所參與的實(shí)踐項(xiàng)目66
【相似文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李虹萱;基于WSFT模型的深層網(wǎng)文本獲取方法[D];湖南大學(xué);2016年
本文關(guān)鍵詞:基于WSFT模型的深層網(wǎng)文本獲取方法,由筆耕文化傳播整理發(fā)布。
本文編號:284267
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/284267.html
最近更新
教材專著