天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于分類技術(shù)的網(wǎng)頁(yè)去噪方法的研究

發(fā)布時(shí)間:2017-05-28 15:14

  本文關(guān)鍵詞:基于分類技術(shù)的網(wǎng)頁(yè)去噪方法的研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)的快速發(fā)展使網(wǎng)絡(luò)上的各種信息呈現(xiàn)出快速增長(zhǎng)的趨勢(shì)。如何從浩瀚的互聯(lián)網(wǎng)文本中獲取有效信息、分析網(wǎng)頁(yè)數(shù)據(jù)之間的關(guān)聯(lián)性等,是自然語(yǔ)言處理領(lǐng)域的一項(xiàng)挑戰(zhàn)。網(wǎng)頁(yè)導(dǎo)航、主題信息、超鏈接信息、版權(quán)信息等構(gòu)成一個(gè)網(wǎng)頁(yè),其中除了網(wǎng)頁(yè)正文信息外,其他的信息對(duì)于研究人員來說都屬于噪音信息,這些噪音信息會(huì)對(duì)Web信息檢索,網(wǎng)頁(yè)分類等研究產(chǎn)生了不利的影響。為了使自然語(yǔ)言處理技術(shù)更好地應(yīng)用到網(wǎng)頁(yè)信息的研究中,提高對(duì)網(wǎng)頁(yè)正文的處理能力,同時(shí)降低網(wǎng)頁(yè)去噪領(lǐng)域?qū)τ诰W(wǎng)頁(yè)模板的依賴性,本文提出了一種基于網(wǎng)頁(yè)標(biāo)簽位置特征與文本特征相結(jié)合的網(wǎng)頁(yè)去噪方法。該方法將HTML網(wǎng)頁(yè)映射為相應(yīng)的DOM樹,在分析DOM樹結(jié)構(gòu)的基礎(chǔ)上,抽取其中每一個(gè)標(biāo)簽節(jié)點(diǎn)的位置特征以及文本特征,同時(shí)考慮正文與標(biāo)題的語(yǔ)義相似性,將這些DOM樹節(jié)點(diǎn)在網(wǎng)頁(yè)中所屬的塊分為正文節(jié)點(diǎn)和噪音節(jié)點(diǎn),最后將它們表示為樣本數(shù)據(jù),運(yùn)用機(jī)器學(xué)習(xí)中的分類方法進(jìn)行分類實(shí)驗(yàn)。該方法實(shí)現(xiàn)簡(jiǎn)單且對(duì)于網(wǎng)頁(yè)的模板依賴較小,具有一定的通用性。實(shí)驗(yàn)選取了決策樹、樸素貝葉斯和支持向量機(jī)三種分類方法,通過對(duì)比實(shí)驗(yàn)驗(yàn)證了方法的有效性,同時(shí)實(shí)驗(yàn)還獲得了較高的準(zhǔn)確度,表明該方法能夠較為精確地抽取出正文信息,去除網(wǎng)頁(yè)噪音信息。最后,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了詳細(xì)分析與討論,總結(jié)導(dǎo)致誤分類的原因。同時(shí),通過特征選擇實(shí)驗(yàn)將所選特征對(duì)于結(jié)果的貢獻(xiàn)度及該特征的時(shí)間復(fù)雜度進(jìn)行對(duì)比分析,論證特征選擇對(duì)于模型訓(xùn)練精度和效率的重要性。
【關(guān)鍵詞】:自然語(yǔ)言處理 網(wǎng)頁(yè)去噪 正文 噪音 機(jī)器學(xué)習(xí)
【學(xué)位授予單位】:貴州師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【目錄】:
  • 摘要2-3
  • ABSTRACT3-7
  • 1 緒論7-11
  • 1.1 課題研究的背景與意義7
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀7-9
  • 1.3 本文的研究?jī)?nèi)容9-10
  • 1.4 論文的組織結(jié)構(gòu)10-11
  • 2 網(wǎng)頁(yè)結(jié)構(gòu)特點(diǎn)與網(wǎng)頁(yè)去噪技術(shù)11-15
  • 2.1 網(wǎng)頁(yè)DOM樹11
  • 2.2 網(wǎng)頁(yè)DOM樹的解析11-13
  • 2.3 網(wǎng)頁(yè)去噪技術(shù)13-14
  • 2.4 本章小結(jié)14-15
  • 3 基于分類方法的網(wǎng)頁(yè)去噪15-21
  • 3.1 常用分類方法15-19
  • 3.2 分類方法的對(duì)比19
  • 3.3 網(wǎng)頁(yè)去噪分類模型19-20
  • 3.4 本章小結(jié)20-21
  • 4 網(wǎng)頁(yè)特征的提取與表示21-27
  • 4.1 文本與標(biāo)題相似度21-23
  • 4.2 文本長(zhǎng)度比23
  • 4.3 鏈接文字比23-24
  • 4.4 網(wǎng)頁(yè)的標(biāo)簽特征24-26
  • 4.5 本章小結(jié)26-27
  • 5 實(shí)驗(yàn)過程及評(píng)價(jià)27-38
  • 5.1 數(shù)據(jù)獲取與解析工具27-28
  • 5.2 實(shí)驗(yàn)數(shù)據(jù)集28
  • 5.3 實(shí)驗(yàn)及評(píng)價(jià)準(zhǔn)則28-30
  • 5.4 結(jié)果及其分析30-32
  • 5.5 特征選擇32-37
  • 5.6 本章小結(jié)37-38
  • 6 總結(jié)與展望38-39
  • 參考文獻(xiàn)39-42
  • 攻讀碩士學(xué)位期間完成論文42-43
  • 致謝43-44

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條

1 毛先領(lǐng);何靖;閆宏飛;;網(wǎng)頁(yè)去噪:研究綜述[J];計(jì)算機(jī)研究與發(fā)展;2010年12期

2 張奇,黃萱菁,吳立德;一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[J];中文信息學(xué)報(bào);2005年02期

3 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 熊浩勇;基于SVM的中文文本分類算法研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2008年

2 楊茂;基于句子相似度的文本比對(duì)算法研究[D];電子科技大學(xué);2010年


  本文關(guān)鍵詞:基于分類技術(shù)的網(wǎng)頁(yè)去噪方法的研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):402921

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/402921.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0d783***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
亚洲国产av精品一区二区| 国产永久免费高清在线精品| 亚洲国产精品久久网午夜| 国产精品偷拍视频一区| 国产男女激情在线视频| 国产精品人妻熟女毛片av久久| 东京热男人的天堂久久综合| 欧美午夜一级艳片免费看| 婷婷伊人综合中文字幕| 日韩一区二区三区久久| 成人午夜视频在线播放| 99久久精品国产日本| 亚洲欧美日韩综合在线成成| 国产精品欧美激情在线观看| 人妻精品一区二区三区视频免精 | 青青操日老女人的穴穴| 中文字幕人妻综合一区二区| 亚洲视频在线观看你懂的| 日本深夜福利在线播放| 国产精品久久男人的天堂| 色婷婷人妻av毛片一区二区三区| 丝袜破了有美女肉体免费观看| 91超精品碰国产在线观看| 亚洲精品欧美精品一区三区| 九九九热视频免费观看| 丰满少妇被粗大猛烈进出视频| 亚洲伊人久久精品国产| 东京热一二三区在线免| 日本和亚洲的香蕉视频| 国产国产精品精品在线| 亚洲天堂精品在线视频| 99国产高清不卡视频| 亚洲av熟女一区二区三区蜜桃| 久久午夜福利精品日韩| 麻豆一区二区三区在线免费| 日韩一区二区三区久久| 精品精品国产欧美在线| 国产精品偷拍一区二区| 精品国产一区二区欧美| 日本人妻丰满熟妇久久| 深夜日本福利在线观看|