基于搜索引擎的Deep Web數(shù)據(jù)源發(fā)現(xiàn)技術(shù)
本文關(guān)鍵詞:基于搜索引擎的Deep Web數(shù)據(jù)源發(fā)現(xiàn)技術(shù),由筆耕文化傳播整理發(fā)布。
維普資訊
6 0
計算機技術(shù)與發(fā)展
第 1 8卷
3 3查詢擴展 .
后對那些被標(biāo)記頁面的主題進行分析。通過中文分詞
對于每個 D e b域來說, epWe領(lǐng)有些詞語經(jīng)常出 現(xiàn),結(jié)合這些詞語構(gòu)建新的查詢將會得到更準(zhǔn)確的結(jié)果。因此,查詢擴展的關(guān)鍵在于搜集這些詞語。通過 分析搜索引擎的查詢?nèi)罩荆瑢⒉樵冏址凑障嗨贫?/p>
軟件,,一個主題被分割成獨立
的語義單元。例如,每主題為”說天下一一玄幻 f俠 f小武網(wǎng)絡(luò)小說在線閱讀”經(jīng)過分詞處理后,,輸出為:小說,天下,玄幻,武俠, 網(wǎng)絡(luò),在線,閱讀。其中“小說”出現(xiàn)兩次。為了統(tǒng)計出 所有主題中每個詞出現(xiàn)的次數(shù),設(shè)計了一個簡單的詞 頻計數(shù)器。值得注意的是,當(dāng)一個詞語在同一主題中 重復(fù)出現(xiàn)的話,計數(shù)器一律視為只出現(xiàn)一次。在處理完所有相關(guān)主題后,隨之得到每個詞的詞頻。表 2表、 3表 4分別為“、小說”“、服裝”“、法律”這三個領(lǐng)域詞頻統(tǒng)計的結(jié)果。該結(jié)果是查詢擴展的依據(jù)。 表 2小說
進行聚類,以實現(xiàn)查詢擴展[可 1。但該方法必須建立 0 J在已獲得查詢?nèi)罩镜幕A(chǔ)上,而我們并不具備該條件。 實驗中,對搜索引擎返回頁面中鏈接的主題進行分析,
運用分詞技術(shù)將主題分割成獨立的語義單元,過詞通 頻統(tǒng)計歸納出最常用的詞語,而實現(xiàn)查詢擴展。從
4實
驗
4 1實驗步驟 .
將構(gòu)建好的初始查詢提交給傳統(tǒng)搜索引擎。實驗 中,以百度 ( t:Ⅵ bi .o/作為搜索平臺。 ht/ v w. a u cr ) p d n
在百度返回的結(jié)果頁面中,取前 1 0鏈接記錄進選 0條 行分析。 4. .主題抽取和頁面爬取 11
利用爬蟲在百度返回的結(jié)果頁面上抓取有用信
息。由于記錄的摘要是頁面正文的某一部分,內(nèi)容往往雜亂無章,而記錄的主題則是頁面所屬站點的總體概括,定位比摘要更準(zhǔn)確,因此選擇每一條記錄的主題 進行抽取。當(dāng)然,每一主題所對應(yīng)的 U L鏈接也是必 R不可少的信息。根據(jù)該 UR去爬取具體的 H ML L, T
4 2實驗結(jié)果 .
根據(jù) D e b ep We各個領(lǐng)域詞頻的大小,選取其中出 現(xiàn)次數(shù)最多的詞語進行查詢擴展。對于搜索引擎來說,提交的關(guān)鍵詞越多,查詢結(jié)果卻反而不能令人滿 意。因此,須要在關(guān)鍵詞的提交數(shù)量上加以限制。必 鑒于“這個詞通用性過高,網(wǎng)”在查詢擴展中起不到很大作用,因此,將詞頻數(shù)排名前兩位的詞語和初始查詢
頁面。最后,主題和相對應(yīng)的 H ML頁面保存在本將 T 地的數(shù)據(jù)庫中。 4. . H r L頁面分類 12 M
組合在一起構(gòu)成新的查詢。為了驗證該方法的有效性,對查詢擴展前后的結(jié)果進
行比較。圖 3為結(jié)果對 比圖,中縱軸表示含 D e b其 epWe查詢表單的頁面數(shù)。
有了 H ML頁面, T下一步工作就是找出那些含有 D e b詢接口的頁面。為此, HT ep We查對 ML頁面進行兩次篩選:第一輪篩選的目標(biāo)是剔除所有不含接口
的頁面,含有 F r標(biāo)簽的 HT將 om ML頁面保留下來。 接著,二輪便是從剩下的 H ML頁面中篩選出含有第 T De epWe查詢接口的頁面, b先從頁面中抽取出接口表單,隨后通過“利用樸素貝葉斯分類算法自動判定網(wǎng)頁表單”的方法將這些表單自動分類。表 1是頁面分類
結(jié)果。經(jīng)過貝葉斯分類器篩選后,那些含有 D e對 ep We查詢表單的頁面進行標(biāo)記。 b 表 1頁面分類結(jié)果
圖 3查詢擴展前后結(jié)果比較
“小說”“裝”“、服、法律”這三個領(lǐng)域在查詢擴展
后, D e b詢接口的頁面數(shù)分別為 7、6 3。含 e We查 p 5 6、9 由圖 3以看出,可查詢擴展后能夠得到更多含有 D e ep We查詢接口的頁面。 b
5結(jié)束語 4.,主題詞頻統(tǒng)計 13
D e b ep We數(shù)據(jù)源發(fā)現(xiàn)問題一直以來都是 D e ep (轉(zhuǎn)第 6下 4頁 )
由于主題和相對應(yīng)的頁面已保存在數(shù)據(jù)庫中,隨
本文關(guān)鍵詞:基于搜索引擎的Deep Web數(shù)據(jù)源發(fā)現(xiàn)技術(shù),由筆耕文化傳播整理發(fā)布。
本文編號:75372
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/75372.html