天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究

發(fā)布時(shí)間:2017-04-13 19:23

  本文關(guān)鍵詞:中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)的發(fā)展帶動(dòng)了以微博為代表的新媒體的廣泛應(yīng)用,在海量的微博文本中會(huì)產(chǎn)生大量的新詞,給微博領(lǐng)域的相關(guān)研究帶來(lái)困難;此外,信息會(huì)在用戶數(shù)龐大的微博平臺(tái)中不斷發(fā)酵,形成熱點(diǎn)話題,但是用戶很難準(zhǔn)確的掌握微博平臺(tái)上發(fā)酵的熱點(diǎn)話題。需要使用計(jì)算機(jī)的方法發(fā)現(xiàn)熱點(diǎn)話題。主要研究工作如下:微博新詞發(fā)現(xiàn)研究方面,本文提出規(guī)則與N-gram算法相結(jié)合的方法提取候選新詞。首先研究新詞的構(gòu)成模式,確定本文新詞研究的范圍。然后根據(jù)新詞的構(gòu)成模式,制定相關(guān)的規(guī)則提取分詞后的碎片,針對(duì)提取的碎片,使用N-gram算法進(jìn)行候選字串的提取,通過(guò)訓(xùn)練垃圾詞典和詞頻過(guò)濾候選字串,得到實(shí)驗(yàn)所需的候選新詞列表。最后以CRF為框架,不斷的加入新詞的語(yǔ)言與統(tǒng)計(jì)特征研究特征組合對(duì)新詞發(fā)現(xiàn)的影響。實(shí)驗(yàn)表明,本文的候選新詞提取算法較為明顯地提升了新詞發(fā)現(xiàn)的性能。微博熱點(diǎn)話題發(fā)現(xiàn)研究方面,包括文本相似度計(jì)算與文本聚類(lèi)。文本相似度計(jì)算方面,提出了基于余弦法則與A值矩陣相結(jié)合的相似度算法,首先選擇LDA模型進(jìn)行特征選擇,計(jì)算特征項(xiàng)的A值;然后以經(jīng)典的TF-IDF算法計(jì)算特征項(xiàng)的權(quán)重,同時(shí)構(gòu)建微博文本的VSM模型,根據(jù)余弦法則計(jì)算文本向量間的余弦值;最后通過(guò)參數(shù)調(diào)節(jié)特征項(xiàng)權(quán)值與語(yǔ)義間的聯(lián)系,使聚類(lèi)更準(zhǔn)確,提高微博話題發(fā)現(xiàn)算法的性能。微博文本聚類(lèi)方面,根據(jù)用戶關(guān)注關(guān)系和轉(zhuǎn)發(fā)評(píng)論關(guān)系改進(jìn)Single-Pass聚類(lèi)算法,通過(guò)設(shè)置雙相似度閾值,判斷用戶關(guān)注與轉(zhuǎn)發(fā)評(píng)論關(guān)系進(jìn)行聚類(lèi),得到初始話題類(lèi),最后采用CURE聚類(lèi)算法合并初始話題類(lèi),彌補(bǔ)了話題聚類(lèi)精度不夠高的缺點(diǎn)。
【關(guān)鍵詞】:微博 新詞發(fā)現(xiàn) 熱點(diǎn)話題 聚類(lèi)
【學(xué)位授予單位】:湖南工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1;TP393.092
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-14
  • 1.1 課題選題背景與意義9-10
  • 1.2 研究現(xiàn)狀10-12
  • 1.2.1 新詞發(fā)現(xiàn)技術(shù)10-11
  • 1.2.2 微博熱點(diǎn)話題發(fā)現(xiàn)技術(shù)11-12
  • 1.3 本文主要內(nèi)容與組織結(jié)構(gòu)12-14
  • 1.3.1 本文主要研究?jī)?nèi)容12-13
  • 1.3.2 組織結(jié)構(gòu)13-14
  • 第二章 相關(guān)背景知識(shí)與技術(shù)簡(jiǎn)介14-26
  • 2.1 微博及其特點(diǎn)14-15
  • 2.1.1 微博簡(jiǎn)介14-15
  • 2.1.2 微博特點(diǎn)15
  • 2.2 相關(guān)概念15-17
  • 2.2.1 新詞15-16
  • 2.2.2 熱點(diǎn)話題16-17
  • 2.3 特征選擇17-19
  • 2.3.1 互信息17-18
  • 2.3.2 文檔頻率18
  • 2.3.3 信息增益18-19
  • 2.4 文本模型19-21
  • 2.4.1 布爾模型19
  • 2.4.2 向量空間模型19-20
  • 2.4.3 統(tǒng)計(jì)語(yǔ)言模型20-21
  • 2.5 聚類(lèi)算法21-24
  • 2.5.1 基于密度的聚類(lèi)算法21
  • 2.5.2 基于劃分的聚類(lèi)算法21-22
  • 2.5.3 層次聚類(lèi)算法22-24
  • 2.5.4 其他聚類(lèi)算法24
  • 2.6 本章小結(jié)24-26
  • 第三章 微博新詞發(fā)現(xiàn)26-41
  • 3.1 新詞模式分析26-27
  • 3.2 微博新詞發(fā)現(xiàn)流程27-28
  • 3.3 候選新詞提取28-32
  • 3.3.1 預(yù)處理29-30
  • 3.3.2 分詞30
  • 3.3.3 候選新詞提取算法30-32
  • 3.4 基于C RF的微博新詞發(fā)現(xiàn)32-35
  • 3.4.1 條件隨機(jī)場(chǎng)(C RF)模型簡(jiǎn)介32-33
  • 3.4.2 條件隨機(jī)場(chǎng)特點(diǎn)33
  • 3.4.3 算法描述33-35
  • 3.5 實(shí)驗(yàn)與結(jié)果分析35-40
  • 3.5.1 實(shí)驗(yàn)條件35-36
  • 3.5.2 評(píng)價(jià)標(biāo)準(zhǔn)36
  • 3.5.3 實(shí)驗(yàn)結(jié)果與分析36-40
  • 3.6 本章小結(jié)40-41
  • 第四章 微博熱點(diǎn)話題發(fā)現(xiàn)41-58
  • 4.1 微博熱點(diǎn)話題發(fā)現(xiàn)算法思想41-42
  • 4.1.1 傳統(tǒng)熱點(diǎn)話題發(fā)現(xiàn)算法思想41
  • 4.1.2 微博熱點(diǎn)發(fā)現(xiàn)算法思想41-42
  • 4.2 微博文本建模42-46
  • 4.2.1 微博文本預(yù)處理42-43
  • 4.2.2 構(gòu)建文本模型43-46
  • 4.3 微博熱點(diǎn)話題發(fā)現(xiàn)算法46-53
  • 4.3.1 話題相似度計(jì)算46-49
  • 4.3.2 微博熱點(diǎn)話題發(fā)現(xiàn)算法描述49-53
  • 4.4 實(shí)驗(yàn)與分析53-56
  • 4.4.1 實(shí)驗(yàn)數(shù)據(jù)53
  • 4.4.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)53
  • 4.4.3 相似度參數(shù)確定53-54
  • 4.4.4 實(shí)驗(yàn)結(jié)果與分析54-56
  • 4.5 本章小結(jié)56-58
  • 第五章 總結(jié)與展望58-60
  • 5.1 本文工作總結(jié)58-59
  • 5.2 本文研究展望59-60
  • 參考文獻(xiàn)60-63
  • 攻讀學(xué)位期間主要的研究成果63-64
  • 致謝64

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條

1 羅智勇;宋柔;;基于多特征的自適應(yīng)新詞識(shí)別[J];北京工業(yè)大學(xué)學(xué)報(bào);2007年07期

2 崔世起;劉群;孟遙;于浩;西野文人;;基于大規(guī)模語(yǔ)料庫(kù)的新詞檢測(cè)[J];計(jì)算機(jī)研究與發(fā)展;2006年05期

3 趙妍;趙學(xué)民;;基于CURE的用戶聚類(lèi)算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年11期

4 楊亮;林原;林鴻飛;;基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J];中文信息學(xué)報(bào);2012年01期

5 仲兆滿;劉宗田;;利用事件影響關(guān)系識(shí)別文本集合中重要事件的方法[J];模式識(shí)別與人工智能;2010年03期

6 魏萌;楊文濤;;基于關(guān)鍵詞的微博熱點(diǎn)話題實(shí)時(shí)檢測(cè)方法[J];計(jì)算機(jī)與現(xiàn)代化;2013年10期

7 萬(wàn)志華,歐陽(yáng)為民,張平庸;一種基于劃分的動(dòng)態(tài)聚類(lèi)算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2005年01期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 李明;針對(duì)特定領(lǐng)域的中文新詞發(fā)現(xiàn)技術(shù)研究[D];南京航空航天大學(xué);2012年


  本文關(guān)鍵詞:中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):304318

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/304318.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶91fbe***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
色婷婷在线视频免费播放| 国产又粗又长又大的视频| 亚洲综合色婷婷七月丁香| 色婷婷中文字幕在线视频| 午夜精品在线视频一区| 欧美二区视频在线观看| 隔壁的日本人妻中文字幕版| 亚洲欧美日韩综合在线成成| 日本精品理论在线观看| 亚洲国产成人精品福利| 久久99国产精品果冻传媒| 中文字幕一二区在线观看| 欧美一区二区口爆吞精| 国产目拍亚洲精品区一区| 国产农村妇女成人精品| 国产中文另类天堂二区| 爽到高潮嗷嗷叫之在现观看| 狠狠做深爱婷婷久久综合| 91人妻人澡人人爽人人精品| 天堂av一区一区一区| 麻豆蜜桃星空传媒在线观看| 又黄又爽禁片视频在线观看| 激情五月综五月综合网| 亚洲伦片免费偷拍一区| 成人免费视频免费观看| 国产中文另类天堂二区| 嫩草国产福利视频一区二区| 少妇人妻一级片一区二区三区 | 日韩偷拍精品一区二区三区| 欧美精品日韩精品一区| 有坂深雪中文字幕亚洲中文| 在线观看视频日韩精品| 久久精品国产熟女精品| 国产激情一区二区三区不卡| 亚洲黄色在线观看免费高清| 亚洲成人黄色一级大片| 精品视频一区二区三区不卡| 精品欧美国产一二三区| av在线免费播放一区二区| 麻豆最新出品国产精品| 日韩人妻av中文字幕|