漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究
本文關(guān)鍵詞:漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究
更多相關(guān)文章: 漢語句義結(jié)構(gòu)模型 句義結(jié)構(gòu) 文本表示 主題模型 語義分析 文本分類 文本聚類 自然語言處理
【摘要】:隨著移動(dòng)互聯(lián)網(wǎng)和信息技術(shù)的迅速發(fā)展,新聞、評(píng)論和微博等文本數(shù)量呈現(xiàn)爆炸式增長,對(duì)通過計(jì)算機(jī)處理海量文本數(shù)據(jù)提出了更高的要求。其中,文本表示是文本分類、聚類、檢索等基礎(chǔ)研究中極為重要內(nèi)容之一,在文本數(shù)據(jù)處理中具有舉足輕重的地位。同時(shí),文本處理中對(duì)語義分析的需求越來越強(qiáng),需要更深層次地挖掘語言中的語義信息。與英語等語種不同,漢語文本的處理存在更多、更大的困難,特別是漢語語義分析研究更是一項(xiàng)長期的具有挑戰(zhàn)性的工作。本文圍繞漢語句義結(jié)構(gòu)模型及其在文本表示中的應(yīng)用展開研究,建立漢語句義結(jié)構(gòu)分析方法,利用其豐富的語義信息有效提升長文本和短文本的文本表示效果,力圖推進(jìn)漢語義分析理論與技術(shù)的發(fā)展。論文的主要成果和創(chuàng)新包括:1.提出了一種基于條件隨機(jī)場(chǎng)和依存分析的句義結(jié)構(gòu)多環(huán)節(jié)分析方法,可識(shí)別句義結(jié)構(gòu)模型的28種句義成分和3種句義成分間關(guān)系,豐富了計(jì)算機(jī)可處理的漢語句義特征。漢語句義結(jié)構(gòu)模型是漢語句子語義的抽象表示,是漢語語義分析的一種重要方法,是計(jì)算機(jī)可理解、可計(jì)算漢語句義的一種模型表示。論文提出的漢語句義結(jié)構(gòu)多環(huán)節(jié)分析方法,將句義結(jié)構(gòu)的識(shí)別過程分為5個(gè)環(huán)節(jié),每個(gè)環(huán)節(jié)都可以得到相應(yīng)的語義信息,包括28種句義成分和3種句義成分間關(guān)系,可根據(jù)需要靈活選用各識(shí)別環(huán)節(jié);贐FS-CTC語料庫的實(shí)驗(yàn),結(jié)果表明,句義結(jié)構(gòu)識(shí)別F值為0.787。句義結(jié)構(gòu)分析方法可以一次性完整識(shí)別句義結(jié)構(gòu)模型的句義成分和句義成分間關(guān)系,實(shí)現(xiàn)了漢語句子到計(jì)算機(jī)可計(jì)算的句義結(jié)構(gòu)的轉(zhuǎn)換,豐富了計(jì)算機(jī)可處理的漢語句義特征,有利于進(jìn)一步推進(jìn)漢語語義分析的研究。2.提出了一種融合句義成分間關(guān)系的長文本表示方法,利用句義成分間關(guān)系指導(dǎo)主題模型的詞語生成過程,打破主題模型的詞袋假設(shè),充分利用文本語義信息,有效提升了長文本分類和聚類的效果。長文本表示方法近年來得到了長足的發(fā)展,主題模型是長文本表示極為重要的方法。但是,現(xiàn)有的主題模型文本表示方法,由于沒有考慮詞語之間的語義關(guān)系造成了語義信息的丟失,從而影響了文本表示的效果。論文提出了融合句義成分間關(guān)系的長文本表示方法,該方法使用句義成分間關(guān)系到詞語語義關(guān)系的映射,將文本中的詞語表示成詞語本身和與其相關(guān)的語義關(guān)系詞語對(duì),打破主題模型的詞袋假設(shè)理論,在文本生成過程中考慮并利用了詞語之間的語義關(guān)系信息;赟ogou文本分類語料庫分別進(jìn)行了困惑度、文本分類和文本聚類實(shí)驗(yàn),結(jié)果表明,困惑度值為480.319,文本分類精確度為0.907,文本聚類ARI值為0.4537。通過引入句義結(jié)構(gòu)模型中句義成分間關(guān)系,使用語義信息指導(dǎo)主題模型的詞語生成過程,充分利用了文本語義信息,有效提升了長文本分類和聚類的效果。3.提出了一種利用句義成分的短文本表示方法,通過利用句義結(jié)構(gòu)模型的話題和述題構(gòu)建主題選擇判定規(guī)則,選擇語義相關(guān)詞語擴(kuò)充到短文本中,緩解了短文本表示的特征稀疏問題,有效提升了短文本分類和聚類的效果。文本表示方法研究中,短文本表示的特征稀疏問題影響了短文本的分類和聚類效果。論文提出利用句義成分的短文本表示方法,該方法在保證特征空間維度不變的同時(shí),結(jié)合利用句義成分和主題模型構(gòu)建語義相關(guān)詞語,再利用句義結(jié)構(gòu)模型的話題和述題構(gòu)建主題選擇判定規(guī)則,選擇語義相關(guān)詞語擴(kuò)充到短文本中,減少了短文本表示向量中的0值特征,有效緩解了短文本表示的特征稀疏問題;赟ogou文本分類語料庫分別進(jìn)行了文本分類和聚類實(shí)驗(yàn),結(jié)果表明,短文本分類精確度為0.8031,聚類ARI值為0.2728。利用語義相關(guān)詞語豐富短文本的語義信息,緩解了短文本特征稀疏問題,有效提升了短文本分類和聚類的效果。4.構(gòu)建了一個(gè)漢語句義結(jié)構(gòu)分析及應(yīng)用研究平臺(tái),實(shí)現(xiàn)句義結(jié)構(gòu)分析和句義結(jié)構(gòu)語料標(biāo)注共享功能,易于擴(kuò)展多種基于漢語句義結(jié)構(gòu)模型的應(yīng)用基礎(chǔ)及應(yīng)用研究。為了更廣泛和深入地推動(dòng)漢語句義結(jié)構(gòu)模型的研究,采用LNMP架構(gòu),依靠遠(yuǎn)程過程調(diào)用協(xié)議進(jìn)行模塊化開發(fā),研發(fā)了一個(gè)漢語句義結(jié)構(gòu)分析及應(yīng)用研究平臺(tái)。該平臺(tái)的主要功能包括漢語句義結(jié)構(gòu)自動(dòng)分析和漢語句義結(jié)構(gòu)語料庫標(biāo)注共享等。此外,該平臺(tái)穩(wěn)定可靠、易于維護(hù)、易于擴(kuò)展,為推進(jìn)漢語句義結(jié)構(gòu)的廣泛研究奠定了基礎(chǔ)。
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李盛瑜;何文;;一種對(duì)聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期
2 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對(duì)不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期
3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國審計(jì);2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
7 諶志群;;文本趨勢(shì)挖掘綜述[J];情報(bào)科學(xué);2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會(huì)議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會(huì)議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
中國重要報(bào)紙全文數(shù)據(jù)庫 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報(bào);2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2016年
4 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年
5 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
6 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年
7 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
8 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年
9 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年
10 李自強(qiáng);大規(guī)模文本分類的若干問題研究[D];電子科技大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年
2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年
3 李少卿;不良文本及其變體信息的檢測(cè)過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
4 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年
5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評(píng)估及推薦應(yīng)用[D];華南理工大學(xué);2015年
6 黃晨;基于新詞識(shí)別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年
7 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
8 王s,
本文編號(hào):1286418
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1286418.html