天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

互聯(lián)網(wǎng)熱點話題聚類研究與實現(xiàn)

發(fā)布時間:2017-04-24 09:01

  本文關(guān)鍵詞:互聯(lián)網(wǎng)熱點話題聚類研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)不斷的發(fā)展,計算機網(wǎng)絡(luò)給我們帶來豐富多彩的信息資源,但隨之而來的是獲取信息的難度在不斷增加。當(dāng)前信息日益膨脹的原因,主要是由網(wǎng)絡(luò)信息的兩個特征造成的:(1)網(wǎng)絡(luò)信息規(guī)模不斷增加(2)網(wǎng)絡(luò)信息結(jié)構(gòu)雜亂無章。因此,快速便捷的從互聯(lián)網(wǎng)中獲取所需相關(guān)信息的技術(shù)將有助于幫助人們擺脫這個困境。目前,搜索引擎已經(jīng)成為人們獲取信息的主要來源的手段之一,但其一般是采用關(guān)鍵詞匹配來查找信息,未能體現(xiàn)文章間的相關(guān)性。盡管現(xiàn)在新聞媒體在作專題性的新聞報道是能讓人們了解整個新聞事件的來龍去脈,然而,新聞專題報道都是通過人工歸類總結(jié)到一起。針對以上存在問題,本文設(shè)計一個基于互聯(lián)網(wǎng)熱點話題的搜索模型及實現(xiàn)方案,具體總體設(shè)計如下:首先,設(shè)計定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲,針對定向主題爬尋網(wǎng)頁信息,通過網(wǎng)頁去標(biāo)簽化,頁面內(nèi)容重排等手段,使處理過的文檔滿足系統(tǒng)需要。然后,對文檔進行中文分詞,提取特征值,權(quán)重計算等一系列預(yù)處理工作,構(gòu)建文檔向量空間模型。最后,利用話題偵測的研究技術(shù),針對互聯(lián)網(wǎng)信息的特點對話題偵測進行設(shè)計。通過測試對比各種文本相似度算法和文本聚類算法,從中選出合適的算法進而獲取互聯(lián)網(wǎng)熱點話題。驗證測試表明:本文利用相關(guān)的各項技術(shù),通過實驗測試和展示基本上完成了本論文的設(shè)計目的,能針對互聯(lián)網(wǎng)熱點話題自動發(fā)現(xiàn),話題相關(guān)文本聚類關(guān)聯(lián)度高。
【關(guān)鍵詞】:話題偵測與追蹤(TDT) 文本聚類分析 自然語言處理(NLP) 網(wǎng)絡(luò)爬蟲
【學(xué)位授予單位】:武漢郵電科學(xué)研究院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 摘要3-4
  • ABSTRACT4-8
  • 第1章 緒論8-13
  • 1.1 課題背景及研究意義8-9
  • 1.2 相關(guān)技術(shù)的研究情況9-11
  • 1.3 論文的主要內(nèi)容11-13
  • 第2章 相關(guān)技術(shù)介紹13-31
  • 2.1 文本采集技術(shù)——網(wǎng)絡(luò)爬蟲13-14
  • 2.2 文本語料預(yù)處理——中文分詞14-22
  • 2.2.1 中文分詞系統(tǒng)概述14-15
  • 2.2.2 中文分詞算法介紹15-19
  • 2.2.3 本論文分詞器采用的中文分詞算法19-22
  • 2.3 話題/報道模型22-28
  • 2.3.1 語言模型和空間向量模型22-24
  • 2.3.2 特征值提取法24-27
  • 2.3.3 特征值權(quán)重計算27-28
  • 2.4 相似度算法28-29
  • 2.4.1 語言模型相似度計算29
  • 2.4.2 向量空間模型相似度計算29
  • 2.5 文本聚類算法29-30
  • 2.6 本章小結(jié)30-31
  • 第3章 系統(tǒng)設(shè)計框架31-45
  • 3.1 整體設(shè)計思路31-32
  • 3.2 系統(tǒng)設(shè)計流程圖32-33
  • 3.3 系統(tǒng)設(shè)計詳解33-44
  • 3.3.1 網(wǎng)絡(luò)爬蟲的設(shè)計33-35
  • 3.3.2 中文分詞的系統(tǒng)的選擇35-37
  • 3.3.3 熱點話題發(fā)現(xiàn)設(shè)計37-39
  • 3.3.4 相關(guān)試驗數(shù)據(jù)測試39-44
  • 3.4 本章小結(jié)44-45
  • 第4章 熱點話題聚類實現(xiàn)與驗證45-52
  • 4.1 測試數(shù)據(jù)采集與預(yù)處理工作45-48
  • 4.2 文本聚類工作48-51
  • 4.3 本章小結(jié)51-52
  • 第5章 結(jié)束語52-54
  • 5.1 全文總結(jié)52
  • 5.2 工作不足與展望52-54
  • 參考文獻54-56
  • 致謝56-57
  • 附錄1 攻讀碩士學(xué)位期間發(fā)表的論文57

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 梁喜濤;顧磊;;中文分詞與詞性標(biāo)注研究[J];計算機技術(shù)與發(fā)展;2015年02期

2 路永和;李焰鋒;;改進TF-IDF算法的文本特征項權(quán)值計算方法[J];圖書情報工作;2013年03期

3 朱恒民;朱衛(wèi)未;;基于Single-Pass的網(wǎng)絡(luò)話題在線聚類方法研究[J];現(xiàn)代圖書情報技術(shù);2011年12期

4 付年鈞;彭昌水;王慰;;中文分詞技術(shù)及其實現(xiàn)[J];軟件導(dǎo)刊;2011年01期

5 Mohamed Farouk Abdel Hady;Friedhelm Schwenker;;Combining Committee-Based Semi-Supervised Learning and Active Learning[J];Journal of Computer Science & Technology;2010年04期

6 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期

7 劉華婷;郭仁祥;姜浩;;關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進[J];計算機應(yīng)用與軟件;2009年01期

8 劉海娟;張佳驥;陳勇;;語言模型在話題跟蹤中的應(yīng)用[J];無線電工程;2008年09期

9 周建梁;;聚焦爬蟲原理及關(guān)鍵技術(shù)研究[J];科技資訊;2008年22期

10 魏曉寧;;基于隱馬爾科夫模型的中文分詞研究[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年21期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 王寶龍;面向新聞領(lǐng)域的文本數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2010年

2 段明秀;層次聚類算法的研究及應(yīng)用[D];中南大學(xué);2009年

3 曹衛(wèi)峰;中文分詞關(guān)鍵技術(shù)研究[D];南京理工大學(xué);2009年


  本文關(guān)鍵詞:互聯(lián)網(wǎng)熱點話題聚類研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:323876

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/323876.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9f586***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲精品国产第一区二区多人| 富婆又大又白又丰满又紧又硬| 两性色午夜天堂免费视频| 久久国产亚洲精品赲碰热| 在线免费不卡亚洲国产| 日本免费熟女一区二区三区| 日本视频在线观看不卡| 91麻豆精品欧美视频| 日系韩系还是欧美久久| 精品欧美一区二区三久久| 麻豆tv传媒在线观看| 色小姐干香蕉在线综合网| 日本道播放一区二区三区| 91免费精品国自产拍偷拍| 日本视频在线观看不卡| 99国产成人免费一区二区| 夫妻性生活黄色录像视频| 亚洲男女性生活免费视频| 日韩欧美91在线视频| 日本淫片一区二区三区| 欧美成人一区二区三区在线| 欧美午夜一级艳片免费看| 亚洲色图欧美另类人妻| 国产一区二区三区精品免费| 国产欧美日产久久婷婷| 婷婷基地五月激情五月| 国产一区二区三区四区免费| 久久99一本色道亚洲精品| 黄色在线免费高清观看| 小草少妇视频免费看视频| 深夜少妇一区二区三区| 加勒比系列一区二区在线观看 | 91蜜臀精品一区二区三区| 91偷拍与自偷拍精品| 91人妻人人精品人人爽| 欧美日韩视频中文字幕| 免费啪视频免费欧美亚洲| 日韩精品视频高清在线观看| 国内女人精品一区二区三区| 色欧美一区二区三区在线| 人妻偷人精品一区二区三区不卡|