中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究
本文關(guān)鍵詞:中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)的發(fā)展帶動(dòng)了以微博為代表的新媒體的廣泛應(yīng)用,在海量的微博文本中會(huì)產(chǎn)生大量的新詞,給微博領(lǐng)域的相關(guān)研究帶來(lái)困難;此外,信息會(huì)在用戶數(shù)龐大的微博平臺(tái)中不斷發(fā)酵,形成熱點(diǎn)話題,但是用戶很難準(zhǔn)確的掌握微博平臺(tái)上發(fā)酵的熱點(diǎn)話題。需要使用計(jì)算機(jī)的方法發(fā)現(xiàn)熱點(diǎn)話題。主要研究工作如下:微博新詞發(fā)現(xiàn)研究方面,本文提出規(guī)則與N-gram算法相結(jié)合的方法提取候選新詞。首先研究新詞的構(gòu)成模式,確定本文新詞研究的范圍。然后根據(jù)新詞的構(gòu)成模式,制定相關(guān)的規(guī)則提取分詞后的碎片,針對(duì)提取的碎片,使用N-gram算法進(jìn)行候選字串的提取,通過(guò)訓(xùn)練垃圾詞典和詞頻過(guò)濾候選字串,得到實(shí)驗(yàn)所需的候選新詞列表。最后以CRF為框架,不斷的加入新詞的語(yǔ)言與統(tǒng)計(jì)特征研究特征組合對(duì)新詞發(fā)現(xiàn)的影響。實(shí)驗(yàn)表明,本文的候選新詞提取算法較為明顯地提升了新詞發(fā)現(xiàn)的性能。微博熱點(diǎn)話題發(fā)現(xiàn)研究方面,包括文本相似度計(jì)算與文本聚類(lèi)。文本相似度計(jì)算方面,提出了基于余弦法則與A值矩陣相結(jié)合的相似度算法,首先選擇LDA模型進(jìn)行特征選擇,計(jì)算特征項(xiàng)的A值;然后以經(jīng)典的TF-IDF算法計(jì)算特征項(xiàng)的權(quán)重,同時(shí)構(gòu)建微博文本的VSM模型,根據(jù)余弦法則計(jì)算文本向量間的余弦值;最后通過(guò)參數(shù)調(diào)節(jié)特征項(xiàng)權(quán)值與語(yǔ)義間的聯(lián)系,使聚類(lèi)更準(zhǔn)確,提高微博話題發(fā)現(xiàn)算法的性能。微博文本聚類(lèi)方面,根據(jù)用戶關(guān)注關(guān)系和轉(zhuǎn)發(fā)評(píng)論關(guān)系改進(jìn)Single-Pass聚類(lèi)算法,通過(guò)設(shè)置雙相似度閾值,判斷用戶關(guān)注與轉(zhuǎn)發(fā)評(píng)論關(guān)系進(jìn)行聚類(lèi),得到初始話題類(lèi),最后采用CURE聚類(lèi)算法合并初始話題類(lèi),彌補(bǔ)了話題聚類(lèi)精度不夠高的缺點(diǎn)。
【關(guān)鍵詞】:微博 新詞發(fā)現(xiàn) 熱點(diǎn)話題 聚類(lèi)
【學(xué)位授予單位】:湖南工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1;TP393.092
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-14
- 1.1 課題選題背景與意義9-10
- 1.2 研究現(xiàn)狀10-12
- 1.2.1 新詞發(fā)現(xiàn)技術(shù)10-11
- 1.2.2 微博熱點(diǎn)話題發(fā)現(xiàn)技術(shù)11-12
- 1.3 本文主要內(nèi)容與組織結(jié)構(gòu)12-14
- 1.3.1 本文主要研究?jī)?nèi)容12-13
- 1.3.2 組織結(jié)構(gòu)13-14
- 第二章 相關(guān)背景知識(shí)與技術(shù)簡(jiǎn)介14-26
- 2.1 微博及其特點(diǎn)14-15
- 2.1.1 微博簡(jiǎn)介14-15
- 2.1.2 微博特點(diǎn)15
- 2.2 相關(guān)概念15-17
- 2.2.1 新詞15-16
- 2.2.2 熱點(diǎn)話題16-17
- 2.3 特征選擇17-19
- 2.3.1 互信息17-18
- 2.3.2 文檔頻率18
- 2.3.3 信息增益18-19
- 2.4 文本模型19-21
- 2.4.1 布爾模型19
- 2.4.2 向量空間模型19-20
- 2.4.3 統(tǒng)計(jì)語(yǔ)言模型20-21
- 2.5 聚類(lèi)算法21-24
- 2.5.1 基于密度的聚類(lèi)算法21
- 2.5.2 基于劃分的聚類(lèi)算法21-22
- 2.5.3 層次聚類(lèi)算法22-24
- 2.5.4 其他聚類(lèi)算法24
- 2.6 本章小結(jié)24-26
- 第三章 微博新詞發(fā)現(xiàn)26-41
- 3.1 新詞模式分析26-27
- 3.2 微博新詞發(fā)現(xiàn)流程27-28
- 3.3 候選新詞提取28-32
- 3.3.1 預(yù)處理29-30
- 3.3.2 分詞30
- 3.3.3 候選新詞提取算法30-32
- 3.4 基于C RF的微博新詞發(fā)現(xiàn)32-35
- 3.4.1 條件隨機(jī)場(chǎng)(C RF)模型簡(jiǎn)介32-33
- 3.4.2 條件隨機(jī)場(chǎng)特點(diǎn)33
- 3.4.3 算法描述33-35
- 3.5 實(shí)驗(yàn)與結(jié)果分析35-40
- 3.5.1 實(shí)驗(yàn)條件35-36
- 3.5.2 評(píng)價(jià)標(biāo)準(zhǔn)36
- 3.5.3 實(shí)驗(yàn)結(jié)果與分析36-40
- 3.6 本章小結(jié)40-41
- 第四章 微博熱點(diǎn)話題發(fā)現(xiàn)41-58
- 4.1 微博熱點(diǎn)話題發(fā)現(xiàn)算法思想41-42
- 4.1.1 傳統(tǒng)熱點(diǎn)話題發(fā)現(xiàn)算法思想41
- 4.1.2 微博熱點(diǎn)發(fā)現(xiàn)算法思想41-42
- 4.2 微博文本建模42-46
- 4.2.1 微博文本預(yù)處理42-43
- 4.2.2 構(gòu)建文本模型43-46
- 4.3 微博熱點(diǎn)話題發(fā)現(xiàn)算法46-53
- 4.3.1 話題相似度計(jì)算46-49
- 4.3.2 微博熱點(diǎn)話題發(fā)現(xiàn)算法描述49-53
- 4.4 實(shí)驗(yàn)與分析53-56
- 4.4.1 實(shí)驗(yàn)數(shù)據(jù)53
- 4.4.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)53
- 4.4.3 相似度參數(shù)確定53-54
- 4.4.4 實(shí)驗(yàn)結(jié)果與分析54-56
- 4.5 本章小結(jié)56-58
- 第五章 總結(jié)與展望58-60
- 5.1 本文工作總結(jié)58-59
- 5.2 本文研究展望59-60
- 參考文獻(xiàn)60-63
- 攻讀學(xué)位期間主要的研究成果63-64
- 致謝64
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 羅智勇;宋柔;;基于多特征的自適應(yīng)新詞識(shí)別[J];北京工業(yè)大學(xué)學(xué)報(bào);2007年07期
2 崔世起;劉群;孟遙;于浩;西野文人;;基于大規(guī)模語(yǔ)料庫(kù)的新詞檢測(cè)[J];計(jì)算機(jī)研究與發(fā)展;2006年05期
3 趙妍;趙學(xué)民;;基于CURE的用戶聚類(lèi)算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年11期
4 楊亮;林原;林鴻飛;;基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J];中文信息學(xué)報(bào);2012年01期
5 仲兆滿;劉宗田;;利用事件影響關(guān)系識(shí)別文本集合中重要事件的方法[J];模式識(shí)別與人工智能;2010年03期
6 魏萌;楊文濤;;基于關(guān)鍵詞的微博熱點(diǎn)話題實(shí)時(shí)檢測(cè)方法[J];計(jì)算機(jī)與現(xiàn)代化;2013年10期
7 萬(wàn)志華,歐陽(yáng)為民,張平庸;一種基于劃分的動(dòng)態(tài)聚類(lèi)算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2005年01期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 李明;針對(duì)特定領(lǐng)域的中文新詞發(fā)現(xiàn)技術(shù)研究[D];南京航空航天大學(xué);2012年
本文關(guān)鍵詞:中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):304318
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/304318.html