基于鏈接關(guān)系的網(wǎng)頁分類算法優(yōu)化
本文關(guān)鍵詞:基于鏈接關(guān)系的網(wǎng)頁分類算法優(yōu)化
更多相關(guān)文章: 網(wǎng)頁分類 鏈接關(guān)系 支持向量機 相似度
【摘要】:網(wǎng)絡(luò)技術(shù)的發(fā)展和推廣,使我們進入了一個信息極其豐富的時代。在這種時代背景下,搜索引擎以其高效和便捷的特性獲得了人們的青睞,成為主流的信息獲取方式。但是搜索引擎的結(jié)果中總是包含很多主題無關(guān)的網(wǎng)頁,這嚴(yán)重影響了搜索質(zhì)量,是一個亟待解決的問題。網(wǎng)頁分類不僅能夠有效的解決這一問題,而且可以使信息資源的組織更合理,對問答系統(tǒng)、信息過濾等都有積極的意義。網(wǎng)頁分類已經(jīng)成為一個重要的研究課題。所以本文對基于鏈接關(guān)系的網(wǎng)頁分類算法進行研究,實現(xiàn)一個改進后的網(wǎng)頁分類系統(tǒng)。 本文的主要研究工作如下: (1)提出利用網(wǎng)頁間的相似度對基于鏈接關(guān)系的網(wǎng)頁分類算法進行優(yōu)化。為了解決該算法中存在的噪聲鄰域網(wǎng)頁干擾問題,在分類時為不同鏈接關(guān)系的鄰域網(wǎng)頁分別設(shè)置相似度閾值,,只有滿足條件時才能參與計算,減少了噪聲鄰域網(wǎng)頁的干擾。 (2)使用支持向量機來改善分類效果。網(wǎng)頁中的文本內(nèi)容包含了豐富的信息,利用得當(dāng)可以繼續(xù)提高分類的準(zhǔn)確性。支持向量機是一種十分有效的分類算法,通過對支持向量機對文本內(nèi)容分類的結(jié)果進行權(quán)重計算改進原算法。 (3)根據(jù)提出的優(yōu)化方法,設(shè)計并實現(xiàn)了一個網(wǎng)頁分類系統(tǒng)。在概要設(shè)計部分,從宏觀上說明了實現(xiàn)系統(tǒng)的原理、目標(biāo)、開發(fā)環(huán)境和總體結(jié)構(gòu)。在詳細(xì)設(shè)計與實現(xiàn)部分,按照分模塊的方式進行,論述了各個模塊的功能、包含的子模塊以及具體處理的過程和實現(xiàn)細(xì)節(jié)。 (4)為了驗證提出優(yōu)化方法的有效性,實現(xiàn)了兩個參照分類器,其分別以支持向量機和原鏈接關(guān)系分類算法為原理。依次對實驗數(shù)據(jù)進行分類,計算三種情況下的查準(zhǔn)率、召回率和F1值并進行對比分析。 實驗結(jié)果表明,優(yōu)化后的算法效果良好,比改進前性能有所提高。
【關(guān)鍵詞】:網(wǎng)頁分類 鏈接關(guān)系 支持向量機 相似度
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
【目錄】:
- 摘要4-5
- Abstract5-8
- 第1章 緒論8-16
- 1.1 研究背景與意義8-9
- 1.2 網(wǎng)頁分類概述與研究現(xiàn)狀9-13
- 1.2.1 網(wǎng)頁分類概述9-12
- 1.2.2 網(wǎng)頁分類研究現(xiàn)狀12-13
- 1.3 論文的組織結(jié)構(gòu)13-16
- 第2章 相關(guān)技術(shù)介紹16-28
- 2.1 文本表示16-18
- 2.1.1 布爾模型16-17
- 2.1.2 向量空間模型17-18
- 2.2 權(quán)重計算18-20
- 2.3 特征選擇20-22
- 2.3.1 信息增益20-21
- 2.3.2 互信息21
- 2.3.3 χ 2統(tǒng)計量21-22
- 2.4 網(wǎng)頁分類22-27
- 2.4.1 支持向量機22-26
- 2.4.2 基于鏈接關(guān)系的網(wǎng)頁分類算法26-27
- 2.5 小結(jié)27-28
- 第3章 網(wǎng)頁分類系統(tǒng)概要設(shè)計28-36
- 3.1 系統(tǒng)目標(biāo)28-29
- 3.2 系統(tǒng)實現(xiàn)原理29-30
- 3.3 系統(tǒng)開發(fā)環(huán)境30
- 3.4 系統(tǒng)總體結(jié)構(gòu)30-34
- 3.5 本章小結(jié)34-36
- 第4章 系統(tǒng)詳細(xì)設(shè)計與實現(xiàn)36-44
- 4.1 系統(tǒng)預(yù)處理模塊36-38
- 4.2 網(wǎng)頁預(yù)處理模塊38-40
- 4.3 分類模塊40-41
- 4.4 效果評價模塊41-42
- 4.5 網(wǎng)頁分類流程說明42-43
- 4.6 本章小結(jié)43-44
- 第5章 實驗結(jié)果及性能分析44-50
- 5.1 實驗數(shù)據(jù)集44-45
- 5.2 性能評價指標(biāo)45-46
- 5.3 參數(shù)選擇46-47
- 5.4 實驗結(jié)果47-48
- 5.5 本章小結(jié)48-50
- 結(jié)論50-52
- 參考文獻52-56
- 攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文56-58
- 致謝58
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 蔣輝;張波;;支持向量回歸特征提取的ARMA準(zhǔn)則——中國社會消費品零售總額預(yù)測的實證研究[J];統(tǒng)計與信息論壇;2012年07期
2 范雪莉;馮海泓;原猛;;基于互信息的主成分分析用于聲場景分類[J];聲學(xué)技術(shù);2013年03期
3 計雄飛;張寶林;王霞;魏利偉;;專題服務(wù)方式探討——以標(biāo)準(zhǔn)文獻服務(wù)為例[J];標(biāo)準(zhǔn)科學(xué);2014年02期
4 唐靜笑;呂學(xué)強;柳成洋;李涵;;搜索日志中領(lǐng)域查詢串識別研究[J];計算機工程與設(shè)計;2014年05期
5 劉哲;唐立新;;基于特征匹配的螺柱視覺識別方法研究[J];機械工程與自動化;2014年05期
6 張曉娟;陸偉;雷聲偉;;基于查詢特征分析的新聞意圖自動識別[J];圖書情報工作;2014年20期
7 苑瑋琦;荊瀾濤;林森;桑海峰;;基于分類區(qū)分度和相關(guān)性的手形特征選擇方法[J];儀器儀表學(xué)報;2013年08期
8 唐靜笑;呂學(xué)強;柳成洋;李涵;;用戶查詢意圖的層次化識別方法[J];現(xiàn)代圖書情報技術(shù);2014年01期
9 王忠民;曹棟;;基于蟻群算法的行為識別特征優(yōu)選方法[J];西安郵電大學(xué)學(xué)報;2014年01期
10 王晉;張小龍;趙涓涓;;孤立性肺結(jié)節(jié)診斷模型的特征選擇算法[J];中國科技論文;2014年10期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 肖進;唐靜;劉敦虎;汪壽陽;;基于GMDH和Logistic回歸的目標(biāo)客戶選擇模型研究[A];第十六屆中國管理科學(xué)學(xué)術(shù)年會論文集[C];2014年
本文編號:958682
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/958682.html