天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

短文本信息流的會話抽取與分析技術(shù)研究

發(fā)布時間:2017-04-24 10:11

  本文關(guān)鍵詞:短文本信息流的會話抽取與分析技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)迅猛發(fā)展,即時通信、論壇和微博等滿足網(wǎng)民溝通交流需求的網(wǎng)絡(luò)應(yīng)用迅速興起,為網(wǎng)民之間的信息共享、知識傳播提供了便利的途徑。在這些網(wǎng)絡(luò)應(yīng)用中,存在大量的短文本信息流(Short Text Message Stream),這些數(shù)據(jù)大多是網(wǎng)民對社會生活的描述和評論,包含著網(wǎng)民對所談?wù)撛掝}的情感傾向,以及與網(wǎng)民身份信息相關(guān)的內(nèi)容。因此,有效地對短文本信息流進(jìn)行處理,對其中包含的情感傾向和用戶信息進(jìn)行分析,能夠輔助有關(guān)部門了解輿情動向,實施輿情引導(dǎo)。本文研究了短文本信息流的會話抽取和分析技術(shù),主要包括短文本聚類、短文本信息流的會話抽取、會話的情感傾向性分析以及短文本信息流中的用戶建模四個部分。論文的主要研究成果如下:(1)網(wǎng)絡(luò)媒體中的短文本存在特征稀疏、用語不規(guī)范的特點,導(dǎo)致傳統(tǒng)的聚類方法效果不夠理想。針對這個問題,本文提出了一種改進(jìn)的短文本層次聚類算法。首先,定義特征權(quán)重計算方法,計算類簇中詞語的權(quán)重,得到類簇的關(guān)鍵詞;然后,使用詞向量計算關(guān)鍵詞之間的語義相似度進(jìn)而得到類簇的相似度;最后,基于改進(jìn)的短文本層次聚類算法實現(xiàn)聚類。在4個不同類型的短文本數(shù)據(jù)集上進(jìn)行實驗,該方法的宏平均結(jié)果分別達(dá)到了63.8%、72.3%、61.5%和84.7%,較傳統(tǒng)方法有了明顯提高,表明了該方法的有效性。(2)短文本信息流的會話抽取中,傳統(tǒng)方法計算內(nèi)容相關(guān)度時受到特征稀疏的影響。針對這個問題,本文提出了一種“先分割再聚類”的會話抽取算法。首先,根據(jù)信息內(nèi)容、時間間隔和用戶關(guān)系對短文本信息流進(jìn)行會話分割得到會話片段;然后,對Single-Pass聚類算法進(jìn)行改進(jìn)并用于會話片段的聚類,實現(xiàn)會話抽取。在3個數(shù)據(jù)集上進(jìn)行實驗的結(jié)果表明,該方法能夠有效提高會話抽取的性能。(3)會話中單條信息長度較短,常常不具有完整的句法結(jié)構(gòu),導(dǎo)致傳統(tǒng)的情感傾向性分析方法效果較差。針對這個問題,本文提出了一種無監(jiān)督的會話情感傾向性分析方法。首先,利用詞向量和情感詞典計算詞語的情感傾向;然后,對會話中的單條信息進(jìn)行情感傾向性分析;最后,對用戶在會話中所發(fā)表的信息的情感傾向進(jìn)行統(tǒng)計得到用戶對會話話題的情感傾向。在不同話題的會話上進(jìn)行實驗,以平均F值作為評價指標(biāo),平均性能為83.3%,最優(yōu)結(jié)果達(dá)到了97.6%,說明所提出的方法能夠有效地對會話進(jìn)行情感傾向性分析。(4)借鑒詞向量的訓(xùn)練原理,并結(jié)合短文本信息流中數(shù)據(jù)的特點,本文提出了一種短文本信息流中的用戶建模方法。首先,將用戶在所有會話中發(fā)表的內(nèi)容進(jìn)行合并得到用戶數(shù)據(jù);然后,將其分割為固定長度的詞鏈,在分割處添加用戶標(biāo)識構(gòu)造上下文關(guān)系,并結(jié)合外部數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù);最后,使用Skip-gram模型進(jìn)行訓(xùn)練,將得到的用戶向量作為用戶建模的結(jié)果。基于用戶向量進(jìn)行用戶關(guān)鍵詞提取和用戶聚類的實驗結(jié)果均優(yōu)于傳統(tǒng)方法,說明所提出的用戶建模方法是合理和有效的。
【關(guān)鍵詞】:短文本聚類 詞向量 短文本信息流 會話抽取 情感傾向性分析 用戶建模
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-12
  • 第一章 緒論12-24
  • 1.1 課題背景及研究意義12-14
  • 1.1.1 課題背景12-14
  • 1.1.2 研究意義14
  • 1.2 相關(guān)研究現(xiàn)狀14-20
  • 1.2.1 短文本聚類現(xiàn)狀15-16
  • 1.2.2 短文本信息流的會話抽取現(xiàn)狀16-18
  • 1.2.3 會話情感傾向性分析現(xiàn)狀18-19
  • 1.2.4 短文本信息流中的用戶建,F(xiàn)狀19-20
  • 1.3 目前研究的問題和難點20-21
  • 1.4 論文的工作和組織21-24
  • 1.4.1 論文的主要工作21-22
  • 1.4.2 論文的組織結(jié)構(gòu)22-24
  • 第二章 短文本聚類24-34
  • 2.1 詞向量24-27
  • 2.1.1 詞向量原理24-26
  • 2.1.2 詞向量的性質(zhì)26
  • 2.1.3 詞向量在短文本聚類中的應(yīng)用26-27
  • 2.2 改進(jìn)的短文本層次聚類算法27-29
  • 2.2.1 層次聚類算法介紹27
  • 2.2.2 特征權(quán)重計算和關(guān)鍵詞提取27-28
  • 2.2.3 類簇相似度計算28-29
  • 2.2.4 改進(jìn)的短文本層次聚類算法流程29
  • 2.3 實驗結(jié)果與性能分析29-33
  • 2.3.1 實驗數(shù)據(jù)29-31
  • 2.3.2 評價指標(biāo)31
  • 2.3.3 實驗設(shè)置與結(jié)果分析31-33
  • 2.4 本章小結(jié)33-34
  • 第三章 短文本信息流的會話抽取34-48
  • 3.1 會話抽取方法簡介34-36
  • 3.1.1 會話抽取的問題描述34-35
  • 3.1.2 Single-Pass聚類算法介紹35
  • 3.1.3 基于Single-Pass聚類算法的會話抽取方法35-36
  • 3.2 會話分割36-40
  • 3.2.1 信息的內(nèi)容相關(guān)度37
  • 3.2.2 信息的時間間隔37-39
  • 3.2.3 用戶親密程度39-40
  • 3.3 會話片段聚類40-42
  • 3.3.1 內(nèi)容相關(guān)度計算40-41
  • 3.3.2 時間相關(guān)度計算41
  • 3.3.3 會話抽取算法實現(xiàn)41-42
  • 3.4 實驗結(jié)果與性能分析42-46
  • 3.4.1 實驗數(shù)據(jù)42-43
  • 3.4.2 評價指標(biāo)43
  • 3.4.3 實驗結(jié)果與分析43-46
  • 3.5 本章小結(jié)46-48
  • 第四章 會話的情感傾向性分析48-58
  • 4.1 會話的情感傾向性分析原理48
  • 4.2 會話的情感傾向性分析方法48-52
  • 4.2.1 會話的情感傾向性分析49
  • 4.2.2 單條信息的情感傾向性分析49-50
  • 4.2.3 詞語的情感傾向識別50-52
  • 4.3 實驗結(jié)果與性能分析52-56
  • 4.3.1 實驗數(shù)據(jù)52
  • 4.3.2 評價指標(biāo)52
  • 4.3.3 實驗設(shè)置與結(jié)果分析52-56
  • 4.4 本章小結(jié)56-58
  • 第五章 短文本信息流中的用戶建模58-68
  • 5.1 用戶建模方法簡介58-59
  • 5.1.1 基于向量空間模型的方法58-59
  • 5.1.2 基于主題模型的方法59
  • 5.2 短文本信息流中的用戶建模方法59-63
  • 5.2.1 用戶建模原理59-60
  • 5.2.2 構(gòu)造訓(xùn)練數(shù)據(jù)60
  • 5.2.3 用戶向量的性質(zhì)60-61
  • 5.2.4 用戶向量的應(yīng)用61-63
  • 5.3 實驗結(jié)果與性能分析63-66
  • 5.3.1 實驗數(shù)據(jù)63-64
  • 5.3.2 實驗設(shè)置與結(jié)果分析64-66
  • 5.4 本章小結(jié)66-68
  • 第六章 總結(jié)和展望68-70
  • 6.1 本文工作總結(jié)68
  • 6.2 下一步研究展望68-70
  • 致謝70-72
  • 參考文獻(xiàn)72-78
  • 作者簡歷78

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 許琦;;基于向量空間模型的個性化信息過濾系統(tǒng)研究與開發(fā)[J];計算機(jī)與數(shù)字工程;2014年10期

2 陳仲帥;劉洋;禹曉輝;;英語情態(tài)句的情感傾向性分析[J];中文信息學(xué)報;2014年03期

3 史劍虹;陳興蜀;王文賢;;基于隱主題分析的中文微博話題發(fā)現(xiàn)[J];計算機(jī)應(yīng)用研究;2014年03期

4 劉金嶺;王新功;周泓;;基于短信文本信息流的多熱點事件挖掘[J];山東大學(xué)學(xué)報(工學(xué)版);2013年03期

5 田野;王文東;饒京海;王冠;郭亮;陳燦峰;馬建;;短信息的會話檢測及組織[J];軟件學(xué)報;2012年10期

6 郭志剛;席耀一;李弼程;許旭陽;;論壇數(shù)據(jù)形式化表示技術(shù)研究[J];信息工程大學(xué)學(xué)報;2011年06期

7 白秋產(chǎn);金春霞;;概念屬性擴(kuò)展的短文本聚類算法[J];長春師范學(xué)院學(xué)報;2011年10期

8 段瑞雪;王小捷;孫月萍;李文峰;;HDP主題模型的用戶意圖聚類[J];北京郵電大學(xué)學(xué)報;2011年S1期

9 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機(jī)學(xué)報;2011年08期

10 黃九鳴;吳泉源;劉春陽;張旭;賈焰;周斌;;短文本信息流的無監(jiān)督會話抽取技術(shù)[J];軟件學(xué)報;2012年04期


  本文關(guān)鍵詞:短文本信息流的會話抽取與分析技術(shù)研究,,由筆耕文化傳播整理發(fā)布。



本文編號:323999

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/323999.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶57b69***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com