基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實(shí)現(xiàn)
本文關(guān)鍵詞:基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:在現(xiàn)代互聯(lián)網(wǎng)技術(shù)快速發(fā)展的帶動下,以萬維網(wǎng)作為信息的核心載體給人們搜索信息、共享信息提供了豐富的數(shù)據(jù)源,但在網(wǎng)絡(luò)資源中快速獲取精準(zhǔn)有效信息變得越來越難,而且信息的置信程度也難以保證,F(xiàn)有搜索引擎技術(shù)和產(chǎn)品,如Google、百度、HotBot等,在很大程度上滿足了人們獲取網(wǎng)絡(luò)信息資源的需求。但是,如何面對不同的用戶偏好、用戶背景等,識別用戶潛在的搜索意圖,挖掘用戶背后真正需要的信息,對搜索引擎系統(tǒng)設(shè)計的重要性毋庸置疑。本文在對已有搜索系統(tǒng)研究基礎(chǔ)上,研究個性化搜索的應(yīng)用,并開展了搜索系統(tǒng)在輿情分析中的應(yīng)用研究。主要內(nèi)容包括:闡述了個性化搜索系統(tǒng)中的用戶興趣模型、網(wǎng)絡(luò)信息抓取、網(wǎng)頁信息分析與挖掘、文本聚類分類等關(guān)鍵技術(shù),并基于系統(tǒng)的功能需求分析,設(shè)計了個性化搜索系統(tǒng)的總體框架和各個模塊,通過個性化搜索系統(tǒng)在網(wǎng)絡(luò)輿情分析中的應(yīng)用,對輿情分析的關(guān)鍵技術(shù)進(jìn)行了研究,并給出了系統(tǒng)的性能測試和分析結(jié)果。本文工作主要體現(xiàn)在以下兩個方面:1)通過整合網(wǎng)絡(luò)爬蟲、文本分類與聚類、及索引技術(shù),設(shè)計了一種基于用戶興趣模型的輿情熱點(diǎn)信息挖掘框架。該框架通過網(wǎng)絡(luò)爬蟲中的信息抓取、信息過濾與更新策略,獲取網(wǎng)絡(luò)中有效的信息;然后采用改進(jìn)的文本分類與聚類技術(shù),挖掘出網(wǎng)頁中的輿情分布、來源等熱點(diǎn)信息,并且與用戶進(jìn)行交互,通過用戶的反饋,構(gòu)建相應(yīng)的用戶興趣模型庫。該框架為基于用戶的個性化搜索系統(tǒng)設(shè)計提供了良好的參考。2)針對傳統(tǒng)K-Means聚類算法對文本初始化聚類中心較為敏感及容易陷入局部極小點(diǎn)的問題,提出了一種基于向量空間模型的K-Means改進(jìn)聚類算法。該算法提高了文本聚類及分類的準(zhǔn)確率,有效解決了傳統(tǒng)K-Means聚類算法在文本挖掘中的問題,并且也提高了文本挖掘的效率。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲 文本挖掘 聚類分析 用戶興趣模型
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.52;TP391.1
【目錄】:
- 摘要5-6
- abstract6-10
- 第一章 緒論10-19
- 1.1 研究背景10-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-18
- 1.2.1 互聯(lián)網(wǎng)爬蟲技術(shù)研究12-14
- 1.2.2 文本挖掘技術(shù)研究14-15
- 1.2.3 個性化搜索技術(shù)15-17
- 1.2.4 面向輿情分析的文本處理17-18
- 1.3 本文的主要工作及安排18-19
- 第二章 系統(tǒng)需求分析19-29
- 2.1 系統(tǒng)需求分析19-20
- 2.2 系統(tǒng)功能需求20-27
- 2.2.1 系統(tǒng)功能用例分析20-21
- 2.2.2 子系統(tǒng)功能用例分析21-27
- 2.2.3 網(wǎng)絡(luò)輿情功能分析27
- 2.3 系統(tǒng)性能需求27
- 2.4 系統(tǒng)其他需求27-28
- 2.5 本章總結(jié)28-29
- 第三章 系統(tǒng)設(shè)計29-51
- 3.1 系統(tǒng)總體設(shè)計29-33
- 3.1.1 系統(tǒng)設(shè)計思路29-31
- 3.1.2 系統(tǒng)總體設(shè)計31-33
- 3.2 用戶興趣模型設(shè)計33-39
- 3.2.1 用戶興趣模型概述33
- 3.2.2 用戶建模方法33-35
- 3.2.3 用戶興趣建模35-39
- 3.3 系統(tǒng)模塊設(shè)計39-48
- 3.3.1 網(wǎng)頁信息采集模塊40-41
- 3.3.2 數(shù)據(jù)預(yù)處理模塊41-42
- 3.3.3 信息檢索模塊42-43
- 3.3.4 網(wǎng)頁信息分析與挖掘模塊43-47
- 3.3.5 歸檔管理模塊47
- 3.3.6 興趣點(diǎn)數(shù)據(jù)統(tǒng)計模塊47-48
- 3.3.7 系統(tǒng)管理模塊48
- 3.4 數(shù)據(jù)庫設(shè)計48-50
- 3.5 本章小結(jié)50-51
- 第四章 系統(tǒng)關(guān)鍵功能實(shí)現(xiàn)51-65
- 4.1 網(wǎng)絡(luò)輿情信息抓取功能實(shí)現(xiàn)51-58
- 4.1.1 實(shí)現(xiàn)網(wǎng)頁信息功能抓取的策略51-53
- 4.1.2 信息過濾與更新方法53
- 4.1.3 網(wǎng)絡(luò)輿情信息的抓取功能實(shí)現(xiàn)53-58
- 4.2 輿情熱點(diǎn)信息挖掘功能實(shí)現(xiàn)58-60
- 4.3 網(wǎng)絡(luò)輿情聚類分析功能實(shí)現(xiàn)60-64
- 4.3.1 輿情文本聚類分析60
- 4.3.2 聚類分析功能實(shí)現(xiàn)60-64
- 4.4 本章小結(jié)64-65
- 第五章 系統(tǒng)測試與分析65-72
- 5.1 開發(fā)環(huán)境與界面設(shè)計65-66
- 5.2 系統(tǒng)測試與分析66-71
- 5.2.1 系統(tǒng)測試的評價指標(biāo)66-67
- 5.2.2 系統(tǒng)測試與性能分析67-71
- 5.3 本章小結(jié)71-72
- 第六章 總結(jié)與展望72-74
- 6.1 總結(jié)72
- 6.2 未來展望72-74
- 致謝74-75
- 參考文獻(xiàn)75-79
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙亞琴;周獻(xiàn)中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計算機(jī)工程;2006年06期
2 劉務(wù)華;羅鐵堅;王文杰;;文本聚類技術(shù)的有效性驗證[J];計算機(jī)工程;2007年01期
3 丁X;許侃;;基于文本聚類方法的我國科技管理研究領(lǐng)域的計量研究[J];科學(xué)學(xué)研究;2007年S1期
4 孫愛香;楊鑫華;;關(guān)于文本聚類有效性評價的研究[J];山東理工大學(xué)學(xué)報(自然科學(xué)版);2007年05期
5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報;2007年06期
6 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報;2008年02期
7 李江華;楊書新;劉利峰;;基于概念格的文本聚類[J];計算機(jī)應(yīng)用;2008年09期
8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期
9 章成志;;文本聚類結(jié)果描述研究綜述[J];現(xiàn)代圖書情報技術(shù);2009年02期
10 馬娜;;文本聚類研究[J];電腦知識與技術(shù);2009年20期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
2 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 王明文;付劍波;羅遠(yuǎn)勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
7 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年
9 張寶艷;王慶輝;;中文文本聚類的研究與實(shí)現(xiàn)[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年
10 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學(xué)基金委員會管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會論文集[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年
2 張培偉;基于改進(jìn)Single-Pass算法的熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];華中師范大學(xué);2015年
3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年
4 邵明來;中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年
5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年
6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年
7 樊兆欣;個性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];北京理工大學(xué);2015年
8 蘇圣瞳;微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2014年
9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年
10 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
本文關(guān)鍵詞:基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號:432889
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/432889.html