網(wǎng)頁(yè)分類(lèi)中的標(biāo)簽權(quán)重自動(dòng)優(yōu)化研究
本文關(guān)鍵詞:網(wǎng)頁(yè)分類(lèi)中的標(biāo)簽權(quán)重自動(dòng)優(yōu)化研究,由筆耕文化傳播整理發(fā)布。
【摘要】:近幾年來(lái),隨著互聯(lián)網(wǎng)的蓬勃發(fā)展以及移動(dòng)互聯(lián)網(wǎng)時(shí)代的來(lái)臨,人們的工作和生活越來(lái)越離不開(kāi)互聯(lián)網(wǎng),互聯(lián)網(wǎng)成為了人們獲取相關(guān)信息和資訊的最主要渠道。所以需要更加高效的Web數(shù)據(jù)挖掘技術(shù)。網(wǎng)頁(yè)分類(lèi)是Web數(shù)據(jù)挖掘的基礎(chǔ)技術(shù),因而成為十分重要的研究課題。 本文主要的工作圍繞如何更加有效地對(duì)網(wǎng)頁(yè)進(jìn)行特征表示進(jìn)行展開(kāi),分析了標(biāo)簽權(quán)重系數(shù)自動(dòng)調(diào)優(yōu)的必要性,介紹了各種優(yōu)化算法的基本原理,詳細(xì)分析了其各自的優(yōu)缺點(diǎn),著重介紹了差分進(jìn)化算法,并設(shè)計(jì)了一種基于改進(jìn)的差分進(jìn)化算法的標(biāo)簽權(quán)重系數(shù)自動(dòng)尋優(yōu)方法,具體工作如下: (1)針對(duì)差分進(jìn)化算法容易陷入局部最優(yōu)解的缺點(diǎn),提出了一種對(duì)差分進(jìn)化算法的改進(jìn)方法。與其他優(yōu)化算法相比,差分進(jìn)化算法具有更好的效率和全局尋優(yōu)能力,但是其缺點(diǎn)也是顯著的。差分進(jìn)化算法的局部搜索能力較弱,從而使算法過(guò)早的收斂。為解決上述缺點(diǎn),提出了一種對(duì)差分進(jìn)化算法的選擇策略進(jìn)行改進(jìn)的方案,并通過(guò)基準(zhǔn)測(cè)試函數(shù)對(duì)其進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明了改進(jìn)方案的優(yōu)越性。 (2)針對(duì)現(xiàn)有的手工指定標(biāo)簽權(quán)重系數(shù)的缺點(diǎn),設(shè)計(jì)和實(shí)現(xiàn)了一種基于改進(jìn)的差分進(jìn)化算法的標(biāo)簽權(quán)重系數(shù)自動(dòng)尋優(yōu)方案。網(wǎng)頁(yè)中不同HTML標(biāo)簽的內(nèi)容對(duì)網(wǎng)頁(yè)的概述能力是不同的,在表述網(wǎng)頁(yè)文本時(shí),需要對(duì)不同的標(biāo)簽賦予不同的權(quán)重系數(shù)。現(xiàn)有的網(wǎng)頁(yè)分類(lèi)技術(shù)多基于個(gè)人經(jīng)驗(yàn)對(duì)標(biāo)簽的權(quán)重系數(shù)進(jìn)行手工指定,因而具有一定的隨機(jī)性,且不能適應(yīng)樣本集的變化。因而,需要有效的優(yōu)化算法對(duì)標(biāo)簽權(quán)重進(jìn)行自動(dòng)設(shè)定。本文設(shè)計(jì)的方案以一組標(biāo)簽的權(quán)重系數(shù)作為尋優(yōu)對(duì)象,并使用本文提出的改進(jìn)的差分進(jìn)化算法作為調(diào)優(yōu)方法,實(shí)驗(yàn)結(jié)果表明,該方案可以充分利用樣本集的特性,可以有效地進(jìn)一步提高分類(lèi)的準(zhǔn)確率。 (3)設(shè)計(jì)了一個(gè)網(wǎng)頁(yè)自動(dòng)訓(xùn)練和預(yù)測(cè)系統(tǒng),并在訓(xùn)練中加入了標(biāo)簽權(quán)重系數(shù)自動(dòng)尋優(yōu)功能。該系統(tǒng)包括HTML解析、分詞、特征選擇、特征表示以及分類(lèi)模型設(shè)計(jì)等,同時(shí)包括本文提出的標(biāo)簽權(quán)重系數(shù)自動(dòng)尋優(yōu)模塊。
【關(guān)鍵詞】:Web數(shù)據(jù)挖掘 差分進(jìn)化算法 選擇策略 網(wǎng)頁(yè)分類(lèi) 半結(jié)構(gòu)化特征
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092
【目錄】:
- 摘要5-6
- ABSTRACT6-8
- 目錄8-10
- 表格10-11
- 插圖11-12
- 第一章 緒論12-16
- 1.1 課題的研究背景和意義12-13
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀13-14
- 1.3 課題的主要研究?jī)?nèi)容14
- 1.4 本文的組織結(jié)構(gòu)14-16
- 第二章 網(wǎng)頁(yè)分類(lèi)相關(guān)技術(shù)研究16-30
- 2.1 HTML解析16-17
- 2.2 分詞17-19
- 2.2.1 英文分詞17-18
- 2.2.2 中文分詞18-19
- 2.3 有用詞提取19-20
- 2.4 特征選擇20-21
- 2.4.1 文檔頻率20
- 2.4.2 信息增益20-21
- 2.4.3 互信息21
- 2.5 特征表示21-22
- 2.6 分類(lèi)算法22-27
- 2.6.1 樸素貝葉斯22-23
- 2.6.2 KNN算法23-24
- 2.6.3 神經(jīng)網(wǎng)絡(luò)24-25
- 2.6.4 決策樹(shù)25
- 2.6.5 支持向量機(jī)25-27
- 2.7 分類(lèi)器評(píng)價(jià)27-29
- 2.8 本章小結(jié)29-30
- 第三章 標(biāo)簽權(quán)重自動(dòng)調(diào)優(yōu)研究30-52
- 3.1 網(wǎng)頁(yè)的結(jié)構(gòu)特征分析30-32
- 3.2 演化算法概述32-43
- 3.2.1 遺傳算法33-34
- 3.2.2 粒子群算法34-36
- 3.2.3 差分進(jìn)化算法36-43
- 3.3 差分進(jìn)化算法研究綜述43-45
- 3.4 差分進(jìn)化算法的改進(jìn)45-47
- 3.5 基于改進(jìn)的差分進(jìn)化算法的標(biāo)簽權(quán)重自動(dòng)調(diào)優(yōu)設(shè)計(jì)47-50
- 3.6 本章小結(jié)50-52
- 第四章 實(shí)驗(yàn)52-60
- 4.1 實(shí)驗(yàn)環(huán)境52-53
- 4.2 實(shí)驗(yàn)訓(xùn)練相關(guān)準(zhǔn)備53-54
- 4.3 實(shí)驗(yàn)步驟54-55
- 4.4 實(shí)驗(yàn)數(shù)據(jù)收集以及分析55-58
- 4.5 本章小結(jié)58-60
- 第五章 工作總結(jié)和展望60-62
- 5.1 工作總結(jié)60
- 5.2 展望60-62
- 參考文獻(xiàn)62-66
- 致謝66-68
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的其他研究成果68
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 高翔;海洋;;遺傳算法應(yīng)用[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年03期
2 孫茂松,鄒嘉彥;漢語(yǔ)自動(dòng)分詞研究評(píng)述[J];當(dāng)代語(yǔ)言學(xué);2001年01期
3 龍樹(shù)全;趙正文;唐華;;中文分詞算法概述[J];電腦知識(shí)與技術(shù);2009年10期
4 楊維,李歧強(qiáng);粒子群優(yōu)化算法綜述[J];中國(guó)工程科學(xué);2004年05期
5 方強(qiáng),陳德釗,俞歡軍,吳曉華;基于優(yōu)進(jìn)策略的差分進(jìn)化算法及其化工應(yīng)用[J];化工學(xué)報(bào);2004年04期
6 張勁松;袁健;;回溯正向匹配中文分詞算法[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期
7 陳濤;雍龍泉;鄧方安;楊曉;;基于差分進(jìn)化算法的支持向量機(jī)參數(shù)選擇[J];計(jì)算機(jī)工程與應(yīng)用;2011年05期
8 蘭均;施化吉;李星毅;徐敏;;基于特征詞復(fù)合權(quán)重的關(guān)聯(lián)網(wǎng)頁(yè)分類(lèi)[J];計(jì)算機(jī)科學(xué);2011年03期
9 劉波;王凌;金以慧;;差分進(jìn)化算法研究進(jìn)展[J];控制與決策;2007年07期
10 蔣宗禮;時(shí)福林;;基于鏈接關(guān)系的網(wǎng)頁(yè)分類(lèi)優(yōu)化算法[J];計(jì)算機(jī)與現(xiàn)代化;2014年05期
本文關(guān)鍵詞:網(wǎng)頁(yè)分類(lèi)中的標(biāo)簽權(quán)重自動(dòng)優(yōu)化研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):336844
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/336844.html