中文短文本主題分類方法研究
本文關(guān)鍵詞:中文短文本主題分類方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:對搜索引擎的查詢串、圖片內(nèi)容的描述串這樣的短文本進行分類,普遍的做法是,通過特征擴展對傳統(tǒng)的機器學(xué)習(xí)分類方法進行優(yōu)化,以此提高對短文本分類的效果。但是,這種方法仍然存在如下一些不足:性能開銷大,并行化程度低;分類的準(zhǔn)確率不高;難以處理信息快速更新的情況;模型訓(xùn)練缺乏準(zhǔn)確標(biāo)注的大語料集。為此,本文采用一種基于規(guī)則的主題分類方法,可有效解決傳統(tǒng)方法的不足。 其主要研究工作如下: 1)通過對句法分析技術(shù)的語法體系和處理方法的分析可知,基于統(tǒng)計的依存句法分析是當(dāng)前主流句法分析技術(shù)。本文以此作為句法分析的基礎(chǔ),并對分詞模塊和命名實體標(biāo)注模塊進行一定程度的調(diào)整,使其滿足主題分類的要求。在此基礎(chǔ)上,引入語義塊概念、語義塊確定規(guī)則及語義塊主題確定規(guī)則。 2)分析分類法和主題法的相關(guān)技術(shù),在分類-主題一體化的基礎(chǔ)上,兼顧主題聚合的要求,構(gòu)建一個面向互聯(lián)網(wǎng)開放域的二級主題分類表,并采用反向過濾+TF-IDF+人工判定的混合方法來構(gòu)建準(zhǔn)確率較高的主題詞典。用該詞典對分詞結(jié)果進行主題標(biāo)注后,根據(jù)主題標(biāo)注結(jié)果和句法分析結(jié)果滿足的規(guī)則來確定短文本的主題。 3)在上述研究分析的基礎(chǔ)上,本文實現(xiàn)一個基于搜索日志的主題挖掘系統(tǒng)。該系統(tǒng)中實現(xiàn)基于規(guī)則的主題分類方法和基于統(tǒng)計的模型分類方法,根據(jù)實際應(yīng)用,通過分析兩種方法在性能、并行程度、對數(shù)據(jù)更新的適應(yīng)性以及標(biāo)注語料集需求方面的差異,進一步證實了本方法的有效性。
【關(guān)鍵詞】:句法分析 主題詞典 疑問主題 分類規(guī)則
【學(xué)位授予單位】:西北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要3-4
- Abstract4-9
- 第一章 緒論9-15
- 1.1 研究背景及意義9-10
- 1.2 研究現(xiàn)狀10-13
- 1.2.1 模型分類研究現(xiàn)狀10-12
- 1.2.2 規(guī)則分類研究現(xiàn)狀12-13
- 1.3 論文研究內(nèi)容13-14
- 1.4 論文結(jié)構(gòu)14-15
- 第二章 句法結(jié)構(gòu)分析15-29
- 2.1 句法分析的語法體系15-18
- 2.1.1 短語結(jié)構(gòu)語法15-17
- 2.1.2 依存語法17-18
- 2.1.3 兩種語法體系的比較18
- 2.2 句法分析的處理方法18-19
- 2.2.1 基于規(guī)則的方法18
- 2.2.2 基于統(tǒng)計的方法18-19
- 2.2.3 兩種處理方法的比較19
- 2.3 哈工大語言分析技術(shù)19-25
- 2.3.1 LTP架構(gòu)20-22
- 2.3.2 LTP符號說明22-23
- 2.3.3 LTP應(yīng)用23-25
- 2.4 語義塊主題25-27
- 2.4.1 語義塊概念26
- 2.4.2 語義塊主題判定規(guī)則26-27
- 2.5 本章小結(jié)27-29
- 第三章 主題詞典的構(gòu)建29-43
- 3.1 信息組織方法29-34
- 3.1.1 分類法技術(shù)29-30
- 3.1.2 主題法技術(shù)30-31
- 3.1.3 分類法與主題法的異同及融合31-33
- 3.1.4 互聯(lián)網(wǎng)開放域的主題分類表33-34
- 3.2 主題詞典的構(gòu)建34-40
- 3.2.1 基于現(xiàn)有知識庫35-36
- 3.2.2 反向過濾36
- 3.2.3 改進的TF-IDF方法36-38
- 3.2.4 特定領(lǐng)域抽取38
- 3.2.5 主題詞典的構(gòu)建流程38-40
- 3.3 主題沖突的解決方法40-41
- 3.3.1 熱度表40
- 3.3.2 主干詞距離40-41
- 3.3.3 基于規(guī)則的主題融合41
- 3.4 本章小結(jié)41-43
- 第四章 基于規(guī)則的主題分類43-59
- 4.1 主題分類的流程43-44
- 4.2 疑問主題及確定規(guī)則44-45
- 4.3 用規(guī)則進行主題分類45-50
- 4.3.1 預(yù)處理45-46
- 4.3.2 分類規(guī)則制定依據(jù)46-47
- 4.3.3 分類規(guī)則用法47-49
- 4.3.4 分類規(guī)則使用說明49-50
- 4.4 實驗與分析50-58
- 4.4.1 實驗環(huán)境與數(shù)據(jù)50
- 4.4.2 評價指標(biāo)50-51
- 4.4.3 實驗結(jié)果與分析51-58
- 4.5 本章小結(jié)58-59
- 第五章 主題分類的應(yīng)用59-71
- 5.1 基于搜索日志的主題挖掘系統(tǒng)介紹59
- 5.1.1 應(yīng)用背景59
- 5.1.2 開發(fā)環(huán)境59
- 5.2 基于搜索日志的主題挖掘系統(tǒng)59-67
- 5.2.1 系統(tǒng)流程59-60
- 5.2.2 主要模塊功能與實現(xiàn)60-64
- 5.2.3 主題分類的改進64-65
- 5.2.4 模型分類的應(yīng)用65-67
- 5.3 應(yīng)用分析67-69
- 5.3.1 性能分析67-68
- 5.3.2 并行程度分析68
- 5.3.3 對數(shù)據(jù)更新的適應(yīng)性分析68
- 5.3.4 標(biāo)注語料集需求分析68-69
- 5.4 本章小結(jié)69-71
- 總結(jié)與展望71-73
- 參考文獻73-77
- 攻讀碩士學(xué)位期間取得的科研成果77-79
- 致謝79
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 譚金波;;基于規(guī)則的網(wǎng)絡(luò)教育資源分類技術(shù)研究[J];中國遠程教育;2010年03期
2 閆瑞;曹先彬;李凱;;面向短文本的動態(tài)組合分類算法[J];電子學(xué)報;2009年05期
3 郭泗輝;樊興華;;一種改進的貝葉斯網(wǎng)絡(luò)短文本分類算法[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2010年03期
4 呂德新;張桂平;蔡東風(fēng);余超;;基于語義信息的問題分類[J];沈陽航空工業(yè)學(xué)院學(xué)報;2006年03期
5 趙歡;朱紅權(quán);;基于雙數(shù)組Trie樹中文分詞研究[J];湖南大學(xué)學(xué)報(自然科學(xué)版);2009年05期
6 王鵬,戴新宇,陳家駿,王啟祥;基于規(guī)則的漢語句法分析方法研究[J];計算機工程與應(yīng)用;2003年29期
7 王細薇;樊興華;趙軍;;一種基于特征擴展的中文短文本分類方法[J];計算機應(yīng)用;2009年03期
8 王盛;樊興華;陳現(xiàn)麟;;利用上下位關(guān)系的中文短文本分類[J];計算機應(yīng)用;2010年03期
9 蔡月紅;朱倩;孫萍;程顯毅;;基于屬性選擇的半監(jiān)督短文本分類算法[J];計算機應(yīng)用;2010年04期
10 周強;漢語句法樹庫標(biāo)注體系[J];中文信息學(xué)報;2004年04期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 宋巍;基于主題的查詢意圖識別研究[D];哈爾濱工業(yè)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 程勇;漢語句法分析的重排序技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2012年
本文關(guān)鍵詞:中文短文本主題分類方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:300897
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/300897.html