天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

網(wǎng)頁分類中的標簽權(quán)重自動優(yōu)化研究

發(fā)布時間:2017-04-30 12:14

  本文關(guān)鍵詞:網(wǎng)頁分類中的標簽權(quán)重自動優(yōu)化研究,由筆耕文化傳播整理發(fā)布。


【摘要】:近幾年來,隨著互聯(lián)網(wǎng)的蓬勃發(fā)展以及移動互聯(lián)網(wǎng)時代的來臨,人們的工作和生活越來越離不開互聯(lián)網(wǎng),互聯(lián)網(wǎng)成為了人們獲取相關(guān)信息和資訊的最主要渠道。所以需要更加高效的Web數(shù)據(jù)挖掘技術(shù)。網(wǎng)頁分類是Web數(shù)據(jù)挖掘的基礎(chǔ)技術(shù),因而成為十分重要的研究課題。 本文主要的工作圍繞如何更加有效地對網(wǎng)頁進行特征表示進行展開,分析了標簽權(quán)重系數(shù)自動調(diào)優(yōu)的必要性,介紹了各種優(yōu)化算法的基本原理,詳細分析了其各自的優(yōu)缺點,著重介紹了差分進化算法,并設(shè)計了一種基于改進的差分進化算法的標簽權(quán)重系數(shù)自動尋優(yōu)方法,具體工作如下: (1)針對差分進化算法容易陷入局部最優(yōu)解的缺點,提出了一種對差分進化算法的改進方法。與其他優(yōu)化算法相比,差分進化算法具有更好的效率和全局尋優(yōu)能力,但是其缺點也是顯著的。差分進化算法的局部搜索能力較弱,從而使算法過早的收斂。為解決上述缺點,提出了一種對差分進化算法的選擇策略進行改進的方案,并通過基準測試函數(shù)對其進行了驗證,實驗結(jié)果表明了改進方案的優(yōu)越性。 (2)針對現(xiàn)有的手工指定標簽權(quán)重系數(shù)的缺點,設(shè)計和實現(xiàn)了一種基于改進的差分進化算法的標簽權(quán)重系數(shù)自動尋優(yōu)方案。網(wǎng)頁中不同HTML標簽的內(nèi)容對網(wǎng)頁的概述能力是不同的,在表述網(wǎng)頁文本時,需要對不同的標簽賦予不同的權(quán)重系數(shù),F(xiàn)有的網(wǎng)頁分類技術(shù)多基于個人經(jīng)驗對標簽的權(quán)重系數(shù)進行手工指定,因而具有一定的隨機性,且不能適應(yīng)樣本集的變化。因而,需要有效的優(yōu)化算法對標簽權(quán)重進行自動設(shè)定。本文設(shè)計的方案以一組標簽的權(quán)重系數(shù)作為尋優(yōu)對象,并使用本文提出的改進的差分進化算法作為調(diào)優(yōu)方法,實驗結(jié)果表明,該方案可以充分利用樣本集的特性,可以有效地進一步提高分類的準確率。 (3)設(shè)計了一個網(wǎng)頁自動訓練和預(yù)測系統(tǒng),并在訓練中加入了標簽權(quán)重系數(shù)自動尋優(yōu)功能。該系統(tǒng)包括HTML解析、分詞、特征選擇、特征表示以及分類模型設(shè)計等,同時包括本文提出的標簽權(quán)重系數(shù)自動尋優(yōu)模塊。
【關(guān)鍵詞】:Web數(shù)據(jù)挖掘 差分進化算法 選擇策略 網(wǎng)頁分類 半結(jié)構(gòu)化特征
【學位授予單位】:中國科學技術(shù)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要5-6
  • ABSTRACT6-8
  • 目錄8-10
  • 表格10-11
  • 插圖11-12
  • 第一章 緒論12-16
  • 1.1 課題的研究背景和意義12-13
  • 1.2 國內(nèi)外研究現(xiàn)狀13-14
  • 1.3 課題的主要研究內(nèi)容14
  • 1.4 本文的組織結(jié)構(gòu)14-16
  • 第二章 網(wǎng)頁分類相關(guān)技術(shù)研究16-30
  • 2.1 HTML解析16-17
  • 2.2 分詞17-19
  • 2.2.1 英文分詞17-18
  • 2.2.2 中文分詞18-19
  • 2.3 有用詞提取19-20
  • 2.4 特征選擇20-21
  • 2.4.1 文檔頻率20
  • 2.4.2 信息增益20-21
  • 2.4.3 互信息21
  • 2.5 特征表示21-22
  • 2.6 分類算法22-27
  • 2.6.1 樸素貝葉斯22-23
  • 2.6.2 KNN算法23-24
  • 2.6.3 神經(jīng)網(wǎng)絡(luò)24-25
  • 2.6.4 決策樹25
  • 2.6.5 支持向量機25-27
  • 2.7 分類器評價27-29
  • 2.8 本章小結(jié)29-30
  • 第三章 標簽權(quán)重自動調(diào)優(yōu)研究30-52
  • 3.1 網(wǎng)頁的結(jié)構(gòu)特征分析30-32
  • 3.2 演化算法概述32-43
  • 3.2.1 遺傳算法33-34
  • 3.2.2 粒子群算法34-36
  • 3.2.3 差分進化算法36-43
  • 3.3 差分進化算法研究綜述43-45
  • 3.4 差分進化算法的改進45-47
  • 3.5 基于改進的差分進化算法的標簽權(quán)重自動調(diào)優(yōu)設(shè)計47-50
  • 3.6 本章小結(jié)50-52
  • 第四章 實驗52-60
  • 4.1 實驗環(huán)境52-53
  • 4.2 實驗訓練相關(guān)準備53-54
  • 4.3 實驗步驟54-55
  • 4.4 實驗數(shù)據(jù)收集以及分析55-58
  • 4.5 本章小結(jié)58-60
  • 第五章 工作總結(jié)和展望60-62
  • 5.1 工作總結(jié)60
  • 5.2 展望60-62
  • 參考文獻62-66
  • 致謝66-68
  • 在讀期間發(fā)表的學術(shù)論文與取得的其他研究成果68

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 高翔;海洋;;遺傳算法應(yīng)用[J];赤峰學院學報(自然科學版);2009年03期

2 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當代語言學;2001年01期

3 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期

4 楊維,李歧強;粒子群優(yōu)化算法綜述[J];中國工程科學;2004年05期

5 方強,陳德釗,俞歡軍,吳曉華;基于優(yōu)進策略的差分進化算法及其化工應(yīng)用[J];化工學報;2004年04期

6 張勁松;袁健;;回溯正向匹配中文分詞算法[J];計算機工程與應(yīng)用;2009年22期

7 陳濤;雍龍泉;鄧方安;楊曉;;基于差分進化算法的支持向量機參數(shù)選擇[J];計算機工程與應(yīng)用;2011年05期

8 蘭均;施化吉;李星毅;徐敏;;基于特征詞復(fù)合權(quán)重的關(guān)聯(lián)網(wǎng)頁分類[J];計算機科學;2011年03期

9 劉波;王凌;金以慧;;差分進化算法研究進展[J];控制與決策;2007年07期

10 蔣宗禮;時福林;;基于鏈接關(guān)系的網(wǎng)頁分類優(yōu)化算法[J];計算機與現(xiàn)代化;2014年05期


  本文關(guān)鍵詞:網(wǎng)頁分類中的標簽權(quán)重自動優(yōu)化研究,,由筆耕文化傳播整理發(fā)布。



本文編號:336844

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/336844.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶28c78***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com