中文微博話題檢測跟蹤方法研究和系統(tǒng)設計
發(fā)布時間:2021-03-24 15:06
微博作為一種Web2.0信息時代的出類拔萃的新媒介,做為支持跨平臺信息互動交流的多媒體平臺,在近兩年里迅速發(fā)展,逐漸成為普通民眾分享個人信息、關注他人信息、獲取實時信息的主要平臺,也逐漸成為網(wǎng)絡媒體的主要組成部分。其特點是信息數(shù)量龐大、分散、多樣。為了能讓用戶實時了解微博中整體的話題走向,跟蹤自己感興趣的話題,本文進行中文微博話題數(shù)據(jù)獲取方式,話題檢測跟蹤方法研究。通過采用適用于微博的網(wǎng)頁信息采集技術一一基于時間控制廣度優(yōu)先采集,提高信息采集效率,保證信息采集覆蓋率。對微博網(wǎng)站話題信息的自適應采集和信息抽取,模塊化識別和規(guī)范化儲存,提供質量較好的數(shù)據(jù)源。同時研究了基于微博API數(shù)據(jù)獲取方式,并比較了基于網(wǎng)絡爬蟲數(shù)據(jù)獲取方式和基于API微博數(shù)據(jù)獲取方式兩種方案在微博數(shù)據(jù)獲取中性能的優(yōu)劣。最后采用了中文處理技術進行文本處理,對獲取的數(shù)據(jù)進行檢測跟蹤。在話題追蹤過程中實時調整查詢向量,并且通過網(wǎng)頁關系、核心特征項和非核心特征項的調整有效過濾了噪聲信息的引入,從而提高查詢向量調整效果。最終實現(xiàn)了微博話題檢測與熱門話題跟蹤。
【文章來源】:廣東技術師范大學廣東省
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【部分圖文】:
微話題應用模塊圖
【參考文獻】:
期刊論文
[1]微博熱點話題檢測系統(tǒng)的設計與實現(xiàn)[J]. 趙前東,葉猛. 電視技術. 2013(03)
[2]網(wǎng)絡爬蟲在網(wǎng)頁信息提取中的應用研究[J]. 金濤. 現(xiàn)代計算機(專業(yè)版). 2012(01)
[3]新浪微博數(shù)據(jù)挖掘方案[J]. 廉捷,周欣,曹偉,劉云. 清華大學學報(自然科學版). 2011(10)
[4]基于樹比較的Web頁面主題信息抽取[J]. 朱夢麟,李光耀,周毅敏. 微型機與應用. 2011(19)
[5]基于內容分析的中文BBS話題檢測系統(tǒng)的設計與實現(xiàn)[J]. 趙艷紅,聶哲. 計算機應用與軟件. 2011(06)
[6]Web信息抽取技術綜述[J]. 陳釗,張冬梅. 計算機應用研究. 2010(12)
[7]網(wǎng)絡爬蟲在Web信息搜索與數(shù)據(jù)挖掘中應用[J]. 楊定中,趙剛,王泰. 計算機工程與設計. 2009(24)
[8]Web信息采集技術研究與發(fā)展[J]. 龐景安. 情報科學. 2009(12)
[9]基于自動生成模板的Web信息抽取技術[J]. 張彥超,劉云,李勇,沈波. 北京交通大學學報. 2009(05)
[10]話題發(fā)現(xiàn)與追蹤技術研究[J]. 張曉艷,王挺. 計算機科學與探索. 2009(04)
碩士論文
[1]微博客數(shù)據(jù)的獲取與分析方法研究[D]. 田董濤.北京交通大學 2012
[2]中文微博客熱點話題檢測與跟蹤技術研究[D]. 孫勝平.北京交通大學 2011
[3]微博客熱點話題發(fā)現(xiàn)策略研究[D]. 楊冠超.浙江大學 2011
[4]話題檢測與跟蹤算法的研究[D]. 張美珍.北京交通大學 2010
[5]基于話題檢測與跟蹤的話題搜索技術研究[D]. 袁呂.哈爾濱工業(yè)大學 2010
[6]新浪微博的發(fā)展研究[D]. 鄭雅真.北京交通大學 2010
[7]話題檢測研究[D]. 樂可欣.北京交通大學 2009
本文編號:3097935
【文章來源】:廣東技術師范大學廣東省
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【部分圖文】:
微話題應用模塊圖
【參考文獻】:
期刊論文
[1]微博熱點話題檢測系統(tǒng)的設計與實現(xiàn)[J]. 趙前東,葉猛. 電視技術. 2013(03)
[2]網(wǎng)絡爬蟲在網(wǎng)頁信息提取中的應用研究[J]. 金濤. 現(xiàn)代計算機(專業(yè)版). 2012(01)
[3]新浪微博數(shù)據(jù)挖掘方案[J]. 廉捷,周欣,曹偉,劉云. 清華大學學報(自然科學版). 2011(10)
[4]基于樹比較的Web頁面主題信息抽取[J]. 朱夢麟,李光耀,周毅敏. 微型機與應用. 2011(19)
[5]基于內容分析的中文BBS話題檢測系統(tǒng)的設計與實現(xiàn)[J]. 趙艷紅,聶哲. 計算機應用與軟件. 2011(06)
[6]Web信息抽取技術綜述[J]. 陳釗,張冬梅. 計算機應用研究. 2010(12)
[7]網(wǎng)絡爬蟲在Web信息搜索與數(shù)據(jù)挖掘中應用[J]. 楊定中,趙剛,王泰. 計算機工程與設計. 2009(24)
[8]Web信息采集技術研究與發(fā)展[J]. 龐景安. 情報科學. 2009(12)
[9]基于自動生成模板的Web信息抽取技術[J]. 張彥超,劉云,李勇,沈波. 北京交通大學學報. 2009(05)
[10]話題發(fā)現(xiàn)與追蹤技術研究[J]. 張曉艷,王挺. 計算機科學與探索. 2009(04)
碩士論文
[1]微博客數(shù)據(jù)的獲取與分析方法研究[D]. 田董濤.北京交通大學 2012
[2]中文微博客熱點話題檢測與跟蹤技術研究[D]. 孫勝平.北京交通大學 2011
[3]微博客熱點話題發(fā)現(xiàn)策略研究[D]. 楊冠超.浙江大學 2011
[4]話題檢測與跟蹤算法的研究[D]. 張美珍.北京交通大學 2010
[5]基于話題檢測與跟蹤的話題搜索技術研究[D]. 袁呂.哈爾濱工業(yè)大學 2010
[6]新浪微博的發(fā)展研究[D]. 鄭雅真.北京交通大學 2010
[7]話題檢測研究[D]. 樂可欣.北京交通大學 2009
本文編號:3097935
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3097935.html
最近更新
教材專著