天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向網(wǎng)頁的主題概念挖掘

發(fā)布時(shí)間:2017-05-19 00:09

  本文關(guān)鍵詞:面向網(wǎng)頁的主題概念挖掘,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著萬維網(wǎng)在全球范圍內(nèi)的普及,Internet上出現(xiàn)了大量的信息。龐大的信息量在給人們帶來了更多資源的同時(shí),也帶來了信息重復(fù)、駁雜、搜索結(jié)果精確度不高的問題。搜索引擎返回的眾多結(jié)果中存在大量與用戶所需信息完全不相關(guān)甚至相關(guān)程度很低的網(wǎng)頁文本,用戶浪費(fèi)在查找和判斷搜索結(jié)果上的時(shí)間大大增加。信息的重復(fù)和駁雜使得用戶很難有效且快速的獲取所需。鑒于此,本文提出了一種主題挖掘方法,該方法通過分析網(wǎng)頁的HTML文本挖掘出網(wǎng)頁的主題概念,它可以減少用戶瀏覽網(wǎng)頁的時(shí)間,使得用戶可以快速有效的獲取相關(guān)信息。 網(wǎng)頁的HTML源代碼包含大量的信息,除文字外,,還包含一定的格式、圖片、鏈接等特有信息,這些信息對文字有突出加強(qiáng)或補(bǔ)充說明的作用。詞語的一詞多義現(xiàn)象使得僅使用詞語作為主題存在描述不清的問題,因此,本文首先使用詞義消歧方法獲得候選主題的詞義,即概念;其次統(tǒng)計(jì)網(wǎng)頁文字信息中各候選主題概念的頻率構(gòu)建初始文本特征向量。但是,依據(jù)概念出現(xiàn)頻率構(gòu)建的文本向量存在信息不足的問題,本文針對此問題提出了標(biāo)簽影響因子和位置影響因子兩個(gè)概念,充分利用概念所屬的HTML標(biāo)簽以及概念在網(wǎng)頁中的位置對概念的初始權(quán)重進(jìn)行修正。其中標(biāo)簽影響因子依據(jù)所包含信息是否可在網(wǎng)頁中顯示分為可見標(biāo)簽和不可見標(biāo)簽,充分利用了文字所屬的HTML標(biāo)簽對文字的影響。位置影響因子通過將網(wǎng)頁文字信息劃分為若干段,統(tǒng)計(jì)得到各分段的權(quán)重。本文通過統(tǒng)計(jì)ODP分類目錄中business主題下的若干網(wǎng)頁得到各標(biāo)簽的權(quán)重以及文本各分段的位置權(quán)重。依據(jù)概念所屬的可見標(biāo)簽以及概念的位置對概念的權(quán)重進(jìn)行初步修正,然后利用不可見標(biāo)簽對初步修正后的概念進(jìn)行進(jìn)一步的修正得到概念的最終權(quán)重,最后選取權(quán)重最大的前n個(gè)概念作為網(wǎng)頁的主題概念。 實(shí)驗(yàn)表明,當(dāng)所選主題概念的個(gè)數(shù)越大時(shí),主題挖掘的準(zhǔn)確率越高,當(dāng)n取值為10時(shí),各主題的主題挖掘準(zhǔn)確率都在70%以上,最高可達(dá)98%。實(shí)驗(yàn)驗(yàn)證了權(quán)重修正的必要性,并給出了n值的一般取值。通過本文提出的網(wǎng)頁主題挖掘算法,可以大大減少用戶瀏覽和查找所需信息的時(shí)間,提高信息查找的效率。
【關(guān)鍵詞】:詞性標(biāo)注 詞義消歧 標(biāo)簽影響因子 位置影響因子 權(quán)重修正
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 緒論10-16
  • 1.1 研究背景及意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-14
  • 1.3 本文主要研究工作14-15
  • 1.4 本文組織結(jié)構(gòu)15
  • 1.5 本章小結(jié)15-16
  • 第2章 相關(guān)知識介紹16-26
  • 2.1 簡介16-19
  • 2.1.1 WordNet 概述16
  • 2.1.2 WordNet 中語義關(guān)系16-18
  • 2.1.3 WordNet 應(yīng)用18-19
  • 2.2 詞義消歧簡介19-25
  • 2.2.1 問題定義19-20
  • 2.2.2 經(jīng)典詞義消歧方法20-24
  • 2.2.3 詞義消歧應(yīng)用24-25
  • 2.3 本章小結(jié)25-26
  • 第3章 基于詞義消歧的主題概念挖掘26-39
  • 3.1 網(wǎng)頁預(yù)處理26-28
  • 3.2 詞義消歧28-32
  • 3.3 權(quán)重修正32-36
  • 3.3.1 標(biāo)簽影響因子32-34
  • 3.3.2 位置影響因子34-35
  • 3.3.3 概念權(quán)重修正35-36
  • 3.4 確定主題概念36-38
  • 3.5 本章小結(jié)38-39
  • 第4章 實(shí)驗(yàn)及結(jié)果分析39-48
  • 4.1 實(shí)驗(yàn)數(shù)據(jù)及評價(jià)指標(biāo)39-41
  • 4.2 標(biāo)簽權(quán)重計(jì)算41-42
  • 4.3 位置權(quán)重計(jì)算42-43
  • 4.4 權(quán)重修正結(jié)果及分析43-47
  • 4.5 本章小結(jié)47-48
  • 第5章 總結(jié)及展望48-50
  • 5.1 全文總結(jié)48-49
  • 5.2 展望49
  • 5.3 本章小結(jié)49-50
  • 參考文獻(xiàn)50-54
  • 作者簡介及碩士期間科研成果54-55
  • 致謝55

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 吳昊;耿煥同;;基于潛在語義分析的BBS主題發(fā)現(xiàn)算法研究[J];電腦知識與技術(shù);2008年29期

2 隋麗萍;徐承韜;李瑞芳;;基于HTML結(jié)構(gòu)的Web文本主題挖掘研究[J];電腦與電信;2007年01期

3 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期

4 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期

5 李芳;何婷婷;宋樂;;評價(jià)主題挖掘及其傾向性識別[J];計(jì)算機(jī)科學(xué);2012年06期

6 王林;戴冠中;;基于復(fù)雜網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)的論壇熱點(diǎn)主題發(fā)現(xiàn)[J];計(jì)算機(jī)工程;2008年11期

7 李智輝;盧葦;;Web文本主題挖掘技術(shù)研究[J];計(jì)算機(jī)教育;2005年11期

8 熊朝松;甘嵐;;基于子主題概念的Web主題挖掘[J];計(jì)算機(jī)與現(xiàn)代化;2006年04期

9 謝昊;江紅;;一種面向微博主題挖掘的改進(jìn)LDA模型[J];華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年06期

10 王小華;徐寧;諶志群;;基于共詞分析的文本主題詞聚類與主題發(fā)現(xiàn)[J];情報(bào)科學(xué);2011年11期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 周子力;基于WordNet的本體構(gòu)建及其在安全領(lǐng)域應(yīng)用關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2009年

2 常鵬;基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D];天津大學(xué);2010年


  本文關(guān)鍵詞:面向網(wǎng)頁的主題概念挖掘,由筆耕文化傳播整理發(fā)布。



本文編號:377402

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/377402.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶29341***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com