面向輿情監(jiān)測的主題爬蟲設(shè)計(jì)與分析
本文關(guān)鍵詞:面向輿情監(jiān)測的主題爬蟲設(shè)計(jì)與分析
更多相關(guān)文章: 主題爬蟲 SVM分類器 增量學(xué)習(xí) 網(wǎng)絡(luò)輿情
【摘要】:隨著社會(huì)的進(jìn)步,互聯(lián)網(wǎng)逐漸成為人們表達(dá)輿論的一個(gè)重要平臺(tái)。與傳統(tǒng)的媒體相比,網(wǎng)絡(luò)具有傳播迅速、用戶匿名等特點(diǎn),這對社會(huì)輿論起到了很好的監(jiān)督作用,但也容易包含反動(dòng)、迷信和黃色的內(nèi)容,給社會(huì)安定甚至國家安全帶來困擾。因此,如何在豐富的網(wǎng)絡(luò)信息中及時(shí)獲取當(dāng)前網(wǎng)民關(guān)心的輿情信息,幫助政府及時(shí)了解當(dāng)前社會(huì)重要事件及輿論方向就顯得十分重要。 運(yùn)用搜索引擎等信息技術(shù)進(jìn)行網(wǎng)絡(luò)輿情的搜集與監(jiān)控是切實(shí)有效的方法。本文提出了一種改進(jìn)的基于在線增量學(xué)習(xí)的主題爬蟲SVM分類器算法。通過對傳統(tǒng)主題爬蟲SVM分類器的改進(jìn),將歷史訓(xùn)練集中對正反例影響較大的樣本剔除并與增量集重新訓(xùn)練來獲得完備的訓(xùn)練集,以提高獲取率。最后以該算法為基礎(chǔ)構(gòu)建了一個(gè)主題爬蟲框架,開發(fā)完成了一個(gè)面向網(wǎng)絡(luò)輿情抓取的主題爬蟲系統(tǒng),實(shí)驗(yàn)結(jié)果表明,在網(wǎng)絡(luò)輿情的采集過程中有效的提高了網(wǎng)絡(luò)輿情信息的獲取率。 本文的具體研究工作主要有:一是信息采集和預(yù)處理技術(shù)。研究如何從松散的非結(jié)構(gòu)化信息中采集資料。利用主題爬蟲技術(shù)和網(wǎng)頁凈化技術(shù)、中文分詞技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)信息的自動(dòng)采集與結(jié)構(gòu)化存儲(chǔ)。二是SVM分類器分類算法研究。通過人為設(shè)定的某一主題,經(jīng)過訓(xùn)練這一主題的訓(xùn)練集得到主題向量的向量模型表示,然后將實(shí)際抓取的頁面跟訓(xùn)練得到的主題向量模型進(jìn)行相關(guān)度計(jì)算,將高相關(guān)度的網(wǎng)頁提取出來。實(shí)驗(yàn)數(shù)據(jù)表明,在查準(zhǔn)率和查全率以及主題爬蟲的獲取率等方面,改進(jìn)的增量學(xué)習(xí)的SVM分類方法的結(jié)果比傳統(tǒng)SVM分類方法明顯要好。三是開發(fā)完成了一個(gè)網(wǎng)絡(luò)輿情抓取原型系統(tǒng)。在以上研究的基礎(chǔ)上,本文開發(fā)完成了一個(gè)面向網(wǎng)絡(luò)輿情的主題爬蟲系統(tǒng),用該系統(tǒng)對部分網(wǎng)絡(luò)的輿情信息進(jìn)行爬取,結(jié)果表明:本系統(tǒng)在主題輿情獲取上取得了良好的效果。
【關(guān)鍵詞】:主題爬蟲 SVM分類器 增量學(xué)習(xí) 網(wǎng)絡(luò)輿情
【學(xué)位授予單位】:天津科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 1 緒論8-11
- 1.1 論文研究背景與意義8-9
- 1.2 論文研究內(nèi)容9-11
- 1.2.1 研究內(nèi)容9
- 1.2.2 本文工作9
- 1.2.3 論文組織結(jié)構(gòu)9-11
- 2 相關(guān)研究11-18
- 2.1 主題爬蟲研究11-14
- 2.1.1 傳統(tǒng)網(wǎng)絡(luò)爬蟲11-12
- 2.1.2 主題爬蟲12-14
- 2.2 網(wǎng)頁凈化和中文分詞研究14-16
- 2.2.1 網(wǎng)頁凈化14-15
- 2.2.2 中文分詞15-16
- 2.3 SVM在主題爬蟲中的應(yīng)用研究16
- 2.4 本章小結(jié)16-18
- 3 主題爬蟲框架與網(wǎng)頁預(yù)處理18-33
- 3.1 主題爬蟲框架分析18-22
- 3.1.1 主題爬蟲總體框架和搜索策略18-20
- 3.1.2 主題爬蟲網(wǎng)頁下載模塊20
- 3.1.3 主題爬蟲網(wǎng)頁分析模塊20-22
- 3.1.4 主題爬蟲URL去重模塊22
- 3.1.5 主題爬蟲相關(guān)度分析模塊22
- 3.2 網(wǎng)頁預(yù)處理分析22-32
- 3.2.1 網(wǎng)頁凈化23-25
- 3.2.2 中文分詞25-28
- 3.2.3 網(wǎng)頁文本表示28-30
- 3.2.4 文本相似度計(jì)算30-32
- 3.3 本章小結(jié)32-33
- 4 主題爬蟲SVM算法的研究與改進(jìn)33-43
- 4.1 支持向量機(jī)分類算法33-38
- 4.1.1 基于二次規(guī)劃的支持向量機(jī)線性分類算法33-34
- 4.1.2 基于二次規(guī)劃的支持向量機(jī)非線性分類算法34-38
- 4.2 網(wǎng)頁的SVM主題分類算法38
- 4.3 改進(jìn)的SVM主題分類算法38-40
- 4.4 實(shí)驗(yàn)結(jié)果的比較與分析40-42
- 4.4.1 數(shù)據(jù)準(zhǔn)備40
- 4.4.2 實(shí)驗(yàn)結(jié)果及比較40-42
- 4.5 本章小結(jié)42-43
- 5 基于增量學(xué)習(xí)的SVN主題爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)43-48
- 5.1 總體設(shè)計(jì)和框架結(jié)構(gòu)43-44
- 5.2 開發(fā)環(huán)境與開發(fā)工具44-45
- 5.3 系統(tǒng)功能實(shí)現(xiàn)45
- 5.4 輿情抓取45-47
- 5.5 本章小結(jié)47-48
- 6 結(jié)論與展望48-49
- 6.1 工作總結(jié)48
- 6.2 工作展望48-49
- 7 參考文獻(xiàn)49-55
- 8 攻讀碩士學(xué)位期間論文發(fā)表情況55-56
- 9 致謝56
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 梁南元;書面漢語的自動(dòng)分詞與一個(gè)自動(dòng)分詞系統(tǒng)—CDWS[J];北京航空學(xué)院學(xué)報(bào);1984年04期
2 馬穎華,王永成,蘇貴洋,韓客松,趙海;自動(dòng)標(biāo)引中基于概念層次樹的主題詞輪排選擇的算法實(shí)現(xiàn)[J];高技術(shù)通訊;2003年06期
3 荊濤,左萬利;基于可視布局信息的網(wǎng)頁噪音去除算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
4 丁月華,文貴華,郭煒強(qiáng);基于核向量空間模型的專利分類[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年08期
5 殷賢亮;李猛;;基于分塊的網(wǎng)頁主題信息自動(dòng)提取算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年10期
6 王錫江;王啟祥;陳家駿;;基于鄰接知識(shí)的漢語自動(dòng)分詞系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;1992年11期
7 張國煊,王小華,周必水;快速書面漢語自動(dòng)分詞系統(tǒng)及其算法設(shè)計(jì)[J];計(jì)算機(jī)研究與發(fā)展;1993年01期
8 張文生,王玨,戴國忠;支持向量機(jī)中引入后驗(yàn)概率的理論和方法研究[J];計(jì)算機(jī)研究與發(fā)展;2002年04期
9 吳勝遠(yuǎn);一種漢語分詞方法[J];計(jì)算機(jī)研究與發(fā)展;1996年04期
10 吳勝遠(yuǎn);并行分詞方法的研究[J];計(jì)算機(jī)研究與發(fā)展;1997年07期
,本文編號:634984
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/634984.html