基于主題模型的新聞標(biāo)題分類方法研究
本文關(guān)鍵詞:基于主題模型的新聞標(biāo)題分類方法研究
更多相關(guān)文章: 新聞標(biāo)題 短文本 領(lǐng)域詞典 BTM 主題模型 分類方法
【摘要】:大數(shù)據(jù)時(shí)代的到來,給很多傳統(tǒng)的行業(yè)帶來了前所未有的沖擊和挑戰(zhàn),新聞行業(yè)也是如此。大數(shù)據(jù)與傳統(tǒng)新聞行業(yè)在相互融合的過程中衍生出來一種新的新聞形式,它通過利用自然語言處理領(lǐng)域的知識,使用一些技術(shù)手段,通過可視化的方式向公眾展示出來;ヂ(lián)網(wǎng)中每天都產(chǎn)生海量的新聞,當(dāng)我們想搜集各種新聞并從中挖掘有用信息時(shí),新聞分類是必須做的基礎(chǔ)工作之一。在如今“數(shù)據(jù)驅(qū)動(dòng)新聞”的背景下,網(wǎng)絡(luò)新聞自動(dòng)分類已經(jīng)成為當(dāng)下研究的熱點(diǎn)問題。由于標(biāo)題是文本內(nèi)容的高度概括,所以在面對海量的新聞數(shù)據(jù)時(shí),先用新聞標(biāo)題對文本進(jìn)行分類無疑是十分高效的。然而新聞標(biāo)題作為短文本的一種,它的文本長度基本上不會(huì)超過30字,大多數(shù)在20字以內(nèi),不像其他短文本那樣,比如微博,有時(shí)可以達(dá)到上百字。所以新聞標(biāo)題的特征更為稀疏,這給短文本信息分類帶來了更大的挑戰(zhàn),也意味著傳統(tǒng)的研究方法在新聞標(biāo)題分類問題上存在缺陷和不足。我們將需要分類的文本集合歸類到一個(gè)已定義的類別中的過程稱為文本分類。在面對新聞信息挖掘這個(gè)問題時(shí),我們不得不做的一個(gè)基礎(chǔ)工作就是對新聞數(shù)據(jù)進(jìn)行分類。目前大多數(shù)的方法都是針對新聞文本內(nèi)容進(jìn)行分類的,也就是通常所說的長文本分類。然而,由于新聞的正文內(nèi)容通常較多,所以在處理大量的新聞數(shù)據(jù)時(shí)就會(huì)非常麻煩。鑒于新聞標(biāo)題是新聞內(nèi)容的高度概括,本文利用新聞標(biāo)題來對新聞進(jìn)行分類。本文主要做了以下工作:(1)使用從網(wǎng)上找到的未經(jīng)過加工處理的騰訊新聞數(shù)據(jù)集,從中提取了新聞標(biāo)題,并對其進(jìn)行類別標(biāo)注和預(yù)處理,構(gòu)建了用于分類的新聞標(biāo)題語料庫,包括政治、經(jīng)濟(jì)、教育、科技、體育、社會(huì)、民生等七大類別新聞,其中,民生類新聞?dòng)职ń煌ā⑨t(yī)療、住房等三個(gè)小類別。(2)由于新聞標(biāo)題擁有短小精煉的語言特點(diǎn),使用現(xiàn)有的分詞技術(shù)并不能達(dá)到很好的分詞效果,這也會(huì)影響最終的分類效果。針對這個(gè)問題,本文在分詞過程中搜集并使用了新聞?lì)I(lǐng)域詞典,并通過實(shí)驗(yàn)最終驗(yàn)證了該方法的有效性,提高了分類效果。(3)由于新聞標(biāo)題自身包含特征詞個(gè)數(shù)極少、并且描述信息能力強(qiáng),所以傳統(tǒng)的分類方法(例如經(jīng)常使用的TF-IDF方法)在新聞標(biāo)題分類上的效果并不理想。本文使用近年來最新提出的LDA (Latent Dirichlet Allocation)主題模型和BTM (Biterm Topic Model)主題模型,通過挖掘出新聞標(biāo)題中隱含的語義關(guān)系,并結(jié)合新聞?lì)I(lǐng)域詞典,來提高新聞標(biāo)題分類的效果。通過大量的對比實(shí)驗(yàn),本文驗(yàn)證了使用BTM建模并結(jié)合新聞?lì)I(lǐng)域詞典的方法要比其他的分類方法的效果要好很多。
【關(guān)鍵詞】:新聞標(biāo)題 短文本 領(lǐng)域詞典 BTM 主題模型 分類方法
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要3-5
- Abstract5-9
- 第一章 緒論9-16
- 1.1 研究背景及意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-13
- 1.2.1 文本分類的國外研究現(xiàn)狀11-12
- 1.2.2 文本分類國內(nèi)研究現(xiàn)狀12-13
- 1.3 新聞標(biāo)題的文本特點(diǎn)13
- 1.4 本文主要工作13-14
- 1.5 文章組織結(jié)構(gòu)14-15
- 1.6 本章小結(jié)15-16
- 第二章 短文本分類相關(guān)理論概述16-28
- 2.1 文本分類流程16-17
- 2.2 文本預(yù)處理17-19
- 2.3 特征提取19-22
- 2.3.1 文檔頻率(DF)20
- 2.3.2 信息增益(IG)20-21
- 2.3.3 互信息(MI)21
- 2.3.4 卡方統(tǒng)計(jì)量(CHI)21-22
- 2.3.5 期望交叉熵(ECE)22
- 2.4 文本表示22-24
- 2.4.1 布爾模型22-23
- 2.4.2 概率模型23
- 2.4.3 向量空間模型23
- 2.4.4 一主題模型23-24
- 2.5 特征權(quán)重計(jì)算24-25
- 2.5.1 詞頻權(quán)重(TF)24
- 2.5.2 TF-IDF權(quán)重24-25
- 2.6 常見文本分類算法25-27
- 2.6.1 樸素貝葉斯分類算法(NB)25-26
- 2.6.2 類中心點(diǎn)分類算法(Rocchio)26
- 2.6.3 K最近鄰分類算法(KNN)26-27
- 2.6.4 支持向量機(jī)分類算法(SVM)27
- 2.7 本章小結(jié)27-28
- 第三章 主題模型28-40
- 3.1 主題模型簡介28-29
- 3.2 傳統(tǒng)主題模型29-32
- 3.2.1 LSI模型29-30
- 3.2.2 PLSI主題模型30-31
- 3.2.3 一元混合模型31-32
- 3.3 LDA主題模型32-35
- 3.3.1 LDA模型表示32-34
- 3.3.2 LDA模型參數(shù)估計(jì)34
- 3.3.3 JGibbLDA介紹34-35
- 3.4 BTM主題模型35-39
- 3.4.1 BTM模型表示36-37
- 3.4.2 BTM模型參數(shù)估計(jì)37-38
- 3.4.3 BTM模型使用介紹38-39
- 3.5 本章小結(jié)39-40
- 第四章 基于主題模型的新聞標(biāo)題分類方法研究40-59
- 4.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)流程40
- 4.2 實(shí)驗(yàn)語料庫及預(yù)處理40-44
- 4.2.1 語料庫的獲取40-41
- 4.2.2 評估標(biāo)準(zhǔn)41-42
- 4.2.3 數(shù)據(jù)預(yù)處理以及新聞?lì)I(lǐng)域詞典的使用42-43
- 4.2.4 新聞?lì)I(lǐng)域詞典對分類結(jié)果的影響實(shí)驗(yàn)43-44
- 4.3 基于TF-IDF方法的不足44-46
- 4.4 基于LDA主題模型的新聞標(biāo)題分類實(shí)驗(yàn)46-49
- 4.4.1 最優(yōu)主題個(gè)數(shù)選取實(shí)驗(yàn)46-47
- 4.4.2 基于LDA模型的不同分類算法對比實(shí)驗(yàn)47-49
- 4.5 基于BTM主題模型的新聞標(biāo)題分類實(shí)驗(yàn)49-52
- 4.5.1 最優(yōu)主題個(gè)數(shù)選取實(shí)驗(yàn)49-50
- 4.5.2 基于BTM模型的不同分類算法對比實(shí)驗(yàn)50-52
- 4.6 TF-IDF、LDA、BTM三種方法對比實(shí)驗(yàn)52-53
- 4.7 關(guān)于民生類新聞的細(xì)分類研究53-57
- 4.7.1 基于BTM模型的細(xì)分類算法對比實(shí)驗(yàn)53-55
- 4.7.2 TF-IDF與BTM模型相結(jié)合的實(shí)驗(yàn)55-56
- 4.7.3 民生類新聞的細(xì)分類方法對比實(shí)驗(yàn)56-57
- 4.8 本章小結(jié)57-59
- 第五章 總結(jié)與展望59-61
- 5.1 本文總結(jié)59-60
- 5.2 未來展望60-61
- 參考文獻(xiàn)61-67
- 致謝67
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 范洪濤;新聞標(biāo)題專著《美國盼兮》出版[J];新聞與寫作;2000年01期
2 盛書剛;一條有誤導(dǎo)傾向的新聞標(biāo)題[J];語文建設(shè);2000年02期
3 郭銀土;“畫龍點(diǎn)睛”──淺議新聞標(biāo)題的作用和制作[J];福建商業(yè)高等?茖W(xué)校學(xué)報(bào);2000年03期
4 王同倫;報(bào)刊新聞標(biāo)題中潛性語言開發(fā)和應(yīng)用分析[J];連云港教育學(xué)院學(xué)報(bào);2000年01期
5 程躍慧;報(bào)紙新聞標(biāo)題的形式美[J];新聞前哨;2000年03期
6 張澤勇;新聞標(biāo)題的魅力[J];新聞前哨;2000年06期
7 程金太;準(zhǔn)確是新聞標(biāo)題的生命[J];采.寫.編;2000年01期
8 黃頌明;報(bào)紙口語化新聞標(biāo)題的傳播優(yōu)勢[J];新聞通訊;2000年09期
9 張保田;;新聞的制題藝術(shù)[J];記者搖籃;2000年11期
10 侯恩貴;;讓新聞標(biāo)題“跳起來”[J];記者搖籃;2000年06期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前9條
1 陳麗昭;;漢英新聞標(biāo)題的語法特點(diǎn)對比[A];福建省外國語文學(xué)會(huì)2002年會(huì)論文集[C];2002年
2 李娜;;俄語報(bào)刊中新聞標(biāo)題的修辭手法趣談—以Русская газета為例[A];福建省外國語文學(xué)會(huì)2013年年會(huì)暨海峽兩岸翻譯學(xué)術(shù)研討會(huì)論文集[C];2013年
3 劉稟誠;;新聞標(biāo)題的分句隱含[A];江西省語言學(xué)會(huì)2008年年會(huì)論文集[C];2008年
4 朱思;丁浩;;自然災(zāi)難新聞標(biāo)題的翻譯[A];福建省外國語文學(xué)會(huì)2009年年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2009年
5 衛(wèi)曉莉;;《今日氣象》氣象新聞分析[A];中國氣象學(xué)會(huì)2005年年會(huì)論文集[C];2005年
6 姚紅衛(wèi);;談?wù)劗?dāng)代體育新聞標(biāo)題的語言藝術(shù)[A];第八屆全國體育科學(xué)大會(huì)論文摘要匯編(二)[C];2007年
7 陳朝暉;;有關(guān)法制新聞標(biāo)題的質(zhì)疑與思考[A];中國傳媒大學(xué)第五屆全國新聞學(xué)與傳播學(xué)博士生學(xué)術(shù)研討會(huì)論文集[C];2011年
8 彭建武;季英奎;;新聞標(biāo)題中的冒號在心理空間建構(gòu)中的作用[A];第四屆全國認(rèn)知語言學(xué)研討會(huì)論文摘要匯編[C];2006年
9 彭建武;季英奎;;新聞標(biāo)題中的冒號在心理空間建構(gòu)中的作用[A];中國英漢語比較研究會(huì)第七次全國學(xué)術(shù)研討會(huì)論文集[C];2006年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 靜秀麗;淺談新聞標(biāo)題如何出新[N];赤峰日報(bào);2007年
2 尉穎穎;災(zāi)難新聞標(biāo)題小議[N];中國新聞出版報(bào);2006年
3 劉海賢邋原《北海晚報(bào)》副總編輯,,現(xiàn)《北海日報(bào)》新聞研究室主任;新聞標(biāo)題:要解讀新聞的“核”[N];中華新聞報(bào);2008年
4 馬凡德;淺談新聞標(biāo)題的制作[N];中華新聞報(bào);2008年
5 王元中南財(cái)經(jīng)政法大學(xué)公安學(xué)院;淺談公安新聞標(biāo)題要注意的問題[N];今日信息報(bào);2009年
6 喀什日報(bào)社 王文博;淺談電視與報(bào)紙的新聞標(biāo)題差異性[N];喀什日報(bào)(漢);2010年
7 駐馬店電視臺 張淑貞;藝術(shù)化新聞標(biāo)題特色[N];駐馬店日報(bào);2011年
8 長治日報(bào)社 曹云;精心打造吸人眼球的新聞標(biāo)題[N];山西黨校報(bào);2012年
9 鄭旭輝;新舊媒體新聞標(biāo)題的“合”與“離”[N];中國新聞出版報(bào);2013年
10 劉輝;淺談如何做好新聞標(biāo)題[N];安徽經(jīng)濟(jì)報(bào);2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 白麗娜;空間的制約與語言的表達(dá)[D];華東師范大學(xué);2013年
2 王燕;新聞?wù)Z體研究[D];復(fù)旦大學(xué);2003年
3 黃裕\
本文編號:697478
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/697478.html