天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于關(guān)聯(lián)規(guī)則的微博主題搜索策略研究

發(fā)布時間:2020-03-08 08:12
【摘要】:在Web2.0時代,微博已成為一個有重要價值的信息平臺。為了利用微博平臺為用戶提供較好的搜索服務(wù),論文應(yīng)用關(guān)聯(lián)規(guī)則挖掘技術(shù)識別微博相關(guān)話題,利用相關(guān)話題擴(kuò)充機(jī)制和話題語義相似度度量,構(gòu)建微博搜索索引文件。實驗分析表明:相對于傳統(tǒng)的關(guān)鍵詞搜索策略,論文提出的搜索策略能從浩瀚的微博信息平臺中找到更加有效的搜索結(jié)果。
【圖文】:

設(shè)計圖,檢索策略,設(shè)計圖


向量余弦來度量搜索話題與文檔的相似度。2檢索策略設(shè)計選擇基于API數(shù)據(jù)采集方式收集微博中的信息。用ICTCLAS軟件對采集的博文進(jìn)行分詞處理,結(jié)合VSM思想,實現(xiàn)文檔數(shù)據(jù)的結(jié)構(gòu)化處理;利用微博平臺話題的用戶關(guān)注網(wǎng)絡(luò),得到用戶影響力,繼而利用關(guān)聯(lián)規(guī)則將分詞數(shù)據(jù)與用戶影響力結(jié)合起來,得到關(guān)聯(lián)文本;對于短文本式搜索,查詢擴(kuò)充機(jī)制是必不可少的工作,為了保證微博查詢擴(kuò)充機(jī)制的實現(xiàn),構(gòu)建了基于關(guān)聯(lián)文本的索引文件。在對搜索詞進(jìn)行擴(kuò)充后,便能通過之前搜集到的信息和索引文件快速準(zhǔn)確的返回搜索結(jié)果。設(shè)計思路如圖1所示。圖1檢索策略設(shè)計圖2.1分詞處理國內(nèi)分詞系統(tǒng)的主要思想是以詞典為基礎(chǔ),進(jìn)行字符串匹配,以少量詞法、句法以及語義規(guī)則進(jìn)行輔助;贜-最短路徑方法的中科院的中文分詞系統(tǒng)ICTCLAS在中文分詞上有著比較廣泛的應(yīng)用,同時它還提供了多種接口,,如C#、C等接口,可以通過接口,調(diào)用該軟件。提取微博的關(guān)鍵字,對句子含義造成噪音干擾的詞匯進(jìn)行去除,僅保留具有能涵蓋句子意義的詞匯,也就是通過去除噪音,清洗文本信息。根據(jù)對微博熱點話題,如“汶川地震”、“喬布斯去世”等語句組成元素的分析,可以發(fā)現(xiàn),名詞性質(zhì)的詞是占絕對分量。所以在提取微博關(guān)鍵詞時僅保留名詞,動名詞,專有名詞等詞性的詞,其它詞性的詞匯一律清洗掉。2.2關(guān)聯(lián)規(guī)則與用戶影響力截取相應(yīng)時間段內(nèi)的微博數(shù)據(jù),利用關(guān)聯(lián)規(guī)則挖掘技術(shù)識別相關(guān)話題。該技術(shù)的基本思想是將類Apriori的關(guān)聯(lián)規(guī)則算法應(yīng)用到文本挖掘中。規(guī)則支持度表示規(guī)則出現(xiàn)的頻率,規(guī)則置信度表示規(guī)則的可靠性,可以根據(jù)自己的需要設(shè)置兩者合理的閾值。在進(jìn)行關(guān)聯(lián)分析之前,需對話題中的用戶影響力進(jìn)行評價。在微博中,用戶間的關(guān)注關(guān)系已構(gòu)成了社區(qū),即用戶

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 郭煒;何丕廉;;面向領(lǐng)域的語義排序與自適應(yīng)熱點算法[J];天津大學(xué)學(xué)報;2007年07期

2 霍華,馮博琴;一種基于微分流型的Web檢索算法[J];西安交通大學(xué)學(xué)報;2005年02期

3 崔爭艷;;基于語義的微博短信息分類[J];現(xiàn)代計算機(jī)(專業(yè)版);2010年08期

相關(guān)碩士學(xué)位論文 前1條

1 唐朝輝;潛在語義分析在互聯(lián)網(wǎng)數(shù)據(jù)挖掘中的應(yīng)用研究[D];湖南大學(xué);2009年

【共引文獻(xiàn)】

相關(guān)期刊論文 前8條

1 李龍;李芝棠;涂浩;史春永;;一種分布式微博數(shù)據(jù)采集平臺的設(shè)計與實現(xiàn)[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2011年S1期

2 張東霞;;基于高校學(xué)生微博的輿情熱點分析與發(fā)現(xiàn)[J];東南傳播;2013年06期

3 王志曉;張大陸;王玉紅;王東;;P2P語義搜索研究進(jìn)展[J];計算機(jī)科學(xué);2010年04期

4 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計算機(jī)科學(xué);2012年01期

5 程亮;邱云飛;孫魯;;微博謠言檢測方法研究[J];計算機(jī)應(yīng)用與軟件;2013年02期

6 周勝臣;瞿文婷;石英子;施詢之;孫韻辰;;中文微博情感分析研究綜述[J];計算機(jī)應(yīng)用與軟件;2013年03期

7 陳正思;張建中;;分詞在行業(yè)知識檢索中的差異影響與改進(jìn)對策[J];網(wǎng)絡(luò)財富;2010年22期

8 趙文兵;朱慶華;吳克文;黃奇;;微博客用戶特性及動機(jī)分析——以和訊財經(jīng)微博為例[J];現(xiàn)代圖書情報技術(shù);2011年02期

相關(guān)碩士學(xué)位論文 前9條

1 孫勝平;中文微博客熱點話題檢測與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年

2 張玉;基于社會化標(biāo)簽的個性化推薦系統(tǒng)研究[D];合肥工業(yè)大學(xué);2011年

3 高寶軍;Web結(jié)構(gòu)挖掘中PageRank算法優(yōu)化研究[D];蘭州大學(xué);2011年

4 劉義亮;基于元搜索調(diào)度算法的領(lǐng)域搜索模型研究[D];大連理工大學(xué);2008年

5 黃波;基于向量空間模型和LDA模型相結(jié)合的微博客話題發(fā)現(xiàn)算法研究[D];西南交通大學(xué);2012年

6 郭瑞;基于GPU和內(nèi)容標(biāo)簽的個性化推薦系統(tǒng)研究[D];武漢科技大學(xué);2012年

7 時睿;面向短文本的網(wǎng)絡(luò)輿情分析[D];西安電子科技大學(xué);2012年

8 李旭;移動微博應(yīng)用管理系統(tǒng)的研究設(shè)計與實現(xiàn)[D];中山大學(xué);2012年

9 方維;微博興趣識別與推送系統(tǒng)的研究與實現(xiàn)[D];華中科技大學(xué);2012年

【二級參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(自然科學(xué)版);2002年05期

2 張俐,李晶皎,胡明涵,姚天順;中文WordNet的研究及實現(xiàn)[J];東北大學(xué)學(xué)報;2003年04期

3 劉麗清;;微博雖“微”足值道爾——微博特性之淺析[J];東南傳播;2009年11期

4 汪曉巖,胡慶生,李斌,莊鎮(zhèn)泉;面向Internet的個性化智能信息檢索[J];計算機(jī)研究與發(fā)展;1999年09期

5 邢春曉;高鳳榮;戰(zhàn)思南;周立柱;;適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法[J];計算機(jī)研究與發(fā)展;2007年02期

6 王永恒;賈焰;楊樹強(qiáng);;大規(guī)模文本數(shù)據(jù)庫中的短文分類方法[J];計算機(jī)工程與應(yīng)用;2006年22期

7 秦國;杜小勇;;基于用戶層次信息的協(xié)同推薦算法[J];計算機(jī)科學(xué);2004年10期

8 張丙奇;基于領(lǐng)域知識的個性化推薦算法研究[J];計算機(jī)工程;2005年21期

9 沈云斐;沈國強(qiáng);蔣麗華;覃征;;基于時效性的Web頁面?zhèn)性化推薦模型的研究[J];計算機(jī)工程;2006年13期

10 夏天;;漢語詞語語義相似度計算研究[J];計算機(jī)工程;2007年06期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 嚴(yán)仍榮;;數(shù)值型關(guān)聯(lián)規(guī)則挖掘在客戶關(guān)系管理中的應(yīng)用[J];皖西學(xué)院學(xué)報;2007年05期

2 呂圣軍;郭偉青;;房地產(chǎn)CRM的挖掘算法應(yīng)用[J];商場現(xiàn)代化;2008年06期

3 朱慧爽;;數(shù)據(jù)挖掘在紡織高校科研管理系統(tǒng)中的應(yīng)用[J];山東紡織經(jīng)濟(jì);2008年03期

4 孫景;田甜;;基于多層關(guān)聯(lián)規(guī)則的銀行產(chǎn)品交叉銷售策略[J];中國金融電腦;2008年10期

5 張志彥;李俊峰;;關(guān)聯(lián)規(guī)則挖掘在學(xué)生成績分析中的應(yīng)用[J];科技和產(chǎn)業(yè);2009年05期

6 劉芳;晏志勇;;基于ART的電子商務(wù)推薦系統(tǒng)的研究與實現(xiàn)[J];中國商貿(mào);2009年07期

7 甘振韜;;基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)教學(xué)中的應(yīng)用探討[J];科學(xué)咨詢(決策管理);2010年01期

8 吳學(xué)民;;基于關(guān)聯(lián)規(guī)則的股票走勢關(guān)聯(lián)挖掘研究[J];科協(xié)論壇(下半月);2010年03期

9 郭卜銘;呂渭濟(jì);;高?蒲泄芾碇械臄(shù)據(jù)挖掘技術(shù)及應(yīng)用[J];科技和產(chǎn)業(yè);2007年06期

10 何躍;郭輝;;應(yīng)用關(guān)聯(lián)規(guī)則挖掘研究觀眾喜愛的電視節(jié)目[J];統(tǒng)計與決策;2007年11期

相關(guān)會議論文 前10條

1 谷姍姍;秦首科;胡大斌;周傲英;;面向關(guān)聯(lián)規(guī)則挖掘的敏感規(guī)則隱藏技術(shù)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年

2 陳曉云;李澤霞;劉幸輝;彭文靜;;關(guān)聯(lián)規(guī)則挖掘過程中的模糊化方法研究[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年

3 張宇鵬;王麗珍;周麗華;;基于氣象數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年

4 王盛;董黎剛;李群;;一種基于逆序編碼的關(guān)聯(lián)規(guī)則挖掘研究[A];浙江省電子學(xué)會2010學(xué)術(shù)年會論文集[C];2010年

5 方芳;李建中;潘海為;;腦部醫(yī)學(xué)圖像中的關(guān)聯(lián)規(guī)則挖掘[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年

6 張鵬;于波;童云海;唐世渭;;基于隨機(jī)響應(yīng)的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年

7 張仲楠;孫志揮;;關(guān)系數(shù)據(jù)庫中限制性關(guān)聯(lián)規(guī)則挖掘的優(yōu)化[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年

8 李貝貝;樂嘉錦;;分布式環(huán)境下的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2005年

9 楊曉雪;衡紅軍;;一種對XML數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘的方法研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年

10 周愛廣;李玉忱;蔣志芳;曹璐;;基于HOLAP的關(guān)聯(lián)規(guī)則挖掘[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年

相關(guān)重要報紙文章 前1條

1 浙江省金華市煙草專賣局 滿在明 廖明景;談卷煙專賣案件信息的挖掘[N];東方煙草報;2011年

相關(guān)博士學(xué)位論文 前10條

1 劉智;關(guān)聯(lián)規(guī)則挖掘方法及其在冠心病中醫(yī)診療中的應(yīng)用研究[D];大連海事大學(xué);2012年

2 何月順;關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[D];南京航空航天大學(xué);2010年

3 劉亞波;關(guān)聯(lián)規(guī)則挖掘方法的研究及應(yīng)用[D];吉林大學(xué);2005年

4 毛宇星;關(guān)聯(lián)規(guī)則挖掘在分類數(shù)據(jù)領(lǐng)域的擴(kuò)展性研究[D];復(fù)旦大學(xué);2010年

5 周皓峰;關(guān)聯(lián)規(guī)則挖掘的拓展性研究[D];復(fù)旦大學(xué);2003年

6 高飛;關(guān)聯(lián)規(guī)則挖掘算法研究[D];西安電子科技大學(xué);2001年

7 王瑋;基于概念格的關(guān)聯(lián)規(guī)則挖掘及變化模式研究[D];山東大學(xué);2012年

8 王德興;基于概念格模型關(guān)聯(lián)規(guī)則挖掘的關(guān)鍵問題研究[D];合肥工業(yè)大學(xué);2007年

9 顏躍進(jìn);最大頻繁項集挖掘算法的研究[D];國防科學(xué)技術(shù)大學(xué);2005年

10 宋余慶;醫(yī)學(xué)圖像數(shù)據(jù)挖掘若干技術(shù)研究[D];東南大學(xué);2005年

相關(guān)碩士學(xué)位論文 前10條

1 譚義紅;關(guān)聯(lián)規(guī)則挖掘及其在概念檢索中的應(yīng)用研究[D];湖南大學(xué);2003年

2 鄒麗;分布式系統(tǒng)下關(guān)聯(lián)規(guī)則挖掘的研究與實現(xiàn)[D];大連交通大學(xué);2005年

3 黃鵬鶴;關(guān)聯(lián)規(guī)則挖掘及其在教務(wù)管理中的應(yīng)用[D];大連交通大學(xué);2005年

4 徐勇;基于概念格模型的分布式關(guān)聯(lián)規(guī)則挖掘研究[D];合肥工業(yè)大學(xué);2006年

5 李偉;基于關(guān)聯(lián)規(guī)則B2C圖書銷售網(wǎng)站個性化推薦系統(tǒng)研究[D];對外經(jīng)濟(jì)貿(mào)易大學(xué);2007年

6 梁碧珍;目標(biāo)頻繁項集挖掘算法與應(yīng)用研究[D];廣西大學(xué);2007年

7 陳耀東;遺傳算法在關(guān)聯(lián)規(guī)則挖掘中的應(yīng)用[D];華東師范大學(xué);2008年

8 唐文志;蟻群算法在關(guān)聯(lián)規(guī)則學(xué)習(xí)中的研究與應(yīng)用[D];北京工業(yè)大學(xué);2009年

9 李宏運(yùn);關(guān)聯(lián)規(guī)則挖掘在圖書館管理中的應(yīng)用[D];華東師范大學(xué);2009年

10 陳斌;條件獨(dú)立性在關(guān)聯(lián)規(guī)則挖掘中的研究和應(yīng)用[D];河海大學(xué);2004年



本文編號:2585519

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/xxjj/2585519.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2957b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com