漢越新聞?dòng)^點(diǎn)句抽取與聚類(lèi)方法研究
本文關(guān)鍵詞:漢越新聞?dòng)^點(diǎn)句抽取與聚類(lèi)方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:越南與我國(guó)相毗鄰,在“一帶一路”戰(zhàn)略下,兩國(guó)交流日益頻繁,新聞是了解兩國(guó)國(guó)家動(dòng)態(tài)與事件觀點(diǎn)的主要載體,由于中文與越南文有著語(yǔ)言的差異,對(duì)不同新聞事件與觀點(diǎn)的獲取和分析工作較難進(jìn)行。本文針對(duì)這一問(wèn)題,首先對(duì)新聞文本處理,利用已知的漢語(yǔ)越南語(yǔ)知識(shí),分析新聞?dòng)^點(diǎn)句特點(diǎn),對(duì)觀點(diǎn)句定義其特征,再通過(guò)現(xiàn)有的維基百科知識(shí)庫(kù)概念互譯的特點(diǎn)計(jì)算漢語(yǔ)越南語(yǔ)詞語(yǔ)間的相似度,最后通過(guò)觀點(diǎn)句間的關(guān)聯(lián)關(guān)系融合半監(jiān)督信息,構(gòu)建觀點(diǎn)句半監(jiān)督圖聚類(lèi)模型,對(duì)混合中越新聞?dòng)^點(diǎn)句進(jìn)行聚類(lèi)。具體研究工作如下:(1)提出了基于SVM的觀點(diǎn)抽取方法,該方法首先分析新聞?dòng)^點(diǎn)句在新聞文本中的位置、與新聞標(biāo)題的相關(guān)度、情感詞等特性,構(gòu)建新聞?dòng)^點(diǎn)句抽取的特征;接著通過(guò)人工標(biāo)注的新聞?dòng)^點(diǎn)句,對(duì)SVM模型進(jìn)行訓(xùn)練,達(dá)到觀點(diǎn)句判別的效果。最后通過(guò)實(shí)驗(yàn),驗(yàn)證該方法的效果,實(shí)驗(yàn)結(jié)果表明,該方法可以有效抽取觀點(diǎn)句。(2)提出了基于維基百科的漢語(yǔ)越南語(yǔ)詞語(yǔ)相似度計(jì)算方法,該方法利用了維基百科上具有多語(yǔ)言概念描述頁(yè)面,很多概念之間存在翻譯對(duì)應(yīng)關(guān)系,不同語(yǔ)言詞語(yǔ)會(huì)出現(xiàn)在不同的概念頁(yè)面上,且詞語(yǔ)與其他概念之間存在一定的共現(xiàn)關(guān)系,等特點(diǎn),首先提取維基百科中漢語(yǔ)越南語(yǔ)具有對(duì)應(yīng)關(guān)系的概念集合,構(gòu)建雙語(yǔ)概念特征空間,然后根據(jù)詞語(yǔ)在相應(yīng)概念描述文本中出現(xiàn)的詞頻特征,以及詞語(yǔ)與概念在其他概念文本中的共現(xiàn)特征構(gòu)建詞語(yǔ)的概念向量值,最后通過(guò)夾角余弦對(duì)兩個(gè)向量進(jìn)行詞語(yǔ)相似度計(jì)算。實(shí)驗(yàn)結(jié)果表明提出的方法在漢越雙語(yǔ)詞語(yǔ)相似度計(jì)算上表現(xiàn)了好的效果,概念共現(xiàn)關(guān)系能夠提高詞語(yǔ)相似度的準(zhǔn)確率。該方法為跨語(yǔ)言半監(jiān)督圖觀點(diǎn)聚類(lèi)方法提供了屬性之間的關(guān)聯(lián)關(guān)系的橋梁。(3)構(gòu)建了漢語(yǔ)越南語(yǔ)雙語(yǔ)新聞?dòng)^點(diǎn)句聚類(lèi)的半監(jiān)督圖模型,定義句子間的相似度、關(guān)聯(lián)關(guān)系作為特征,其中關(guān)聯(lián)關(guān)系包括姓名,地點(diǎn),及時(shí)間的共現(xiàn)。構(gòu)建半監(jiān)督圖聚類(lèi)模型時(shí),利用維基百科計(jì)算漢語(yǔ)越南語(yǔ)詞語(yǔ)相似度,計(jì)算跨語(yǔ)言觀點(diǎn)句間相似度與不同句子中對(duì)應(yīng)屬性的相似值,構(gòu)建觀點(diǎn)句間的邊,引入"must-link"和"cannot-link"為監(jiān)督信息,實(shí)現(xiàn)漢語(yǔ)越南語(yǔ)混合環(huán)境下的觀點(diǎn)句聚類(lèi)。實(shí)驗(yàn)表明,該方法可以將兩種語(yǔ)言混合環(huán)境下的觀點(diǎn)句有效聚類(lèi)。
【關(guān)鍵詞】:詞語(yǔ)相似度 維基百科 觀點(diǎn)句抽取 圖聚類(lèi)
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要5-7
- ABSTRACT7-12
- 第一章 緒論12-18
- 1.1 課題研究背景及意義12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-14
- 1.2.1 單語(yǔ)言觀點(diǎn)分析相關(guān)研究12-14
- 1.2.2 跨語(yǔ)言觀點(diǎn)分析相關(guān)研究14
- 1.3 本文研究?jī)?nèi)容14-15
- 1.4 論文的組織15-18
- 第二章 語(yǔ)料庫(kù)及基礎(chǔ)資源構(gòu)建18-24
- 2.1 新聞?wù)Z料的獲取與預(yù)處理18-22
- 2.1.1 語(yǔ)料的獲取18-19
- 2.1.2 語(yǔ)料的保存19-20
- 2.1.3 新聞?wù)Z料的處理20-22
- 2.2 跨語(yǔ)言觀點(diǎn)分析語(yǔ)料庫(kù)構(gòu)建22-23
- 2.2.1 情感詞庫(kù)的構(gòu)建22
- 2.2.2 指示詞庫(kù)的構(gòu)建22-23
- 2.3 本章小結(jié)23-24
- 第三章 基于svm的新聞?dòng)^點(diǎn)句抽取24-34
- 3.1 漢越新聞?dòng)^點(diǎn)句特點(diǎn)分析25-26
- 3.2 觀點(diǎn)句抽取26-30
- 3.2.1 SVM原理26
- 3.2.2 特征定義26-30
- 3.2.3 svm分類(lèi)器的構(gòu)建30
- 3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析30-32
- 3.3.1 實(shí)驗(yàn)設(shè)計(jì)30-31
- 3.3.2 評(píng)價(jià)方法31
- 3.3.3 實(shí)驗(yàn)結(jié)果與分析31-32
- 3.4 本章小結(jié)32-34
- 第四章 基于維基百科的漢語(yǔ)越南語(yǔ)詞語(yǔ)相似度計(jì)算方法34-42
- 4.1 維基百科頁(yè)面分析35-36
- 4.2 漢越詞語(yǔ)的表征36-37
- 4.2.1 詞向量的構(gòu)成36
- 4.2.2 詞語(yǔ)在概念文本上的詞頻特征值計(jì)算36-37
- 4.2.3 詞語(yǔ)與概念的共現(xiàn)特征值計(jì)算37
- 4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析37-41
- 4.3.1 測(cè)試集構(gòu)建37-39
- 4.3.2 實(shí)驗(yàn)數(shù)據(jù)39
- 4.3.3 評(píng)價(jià)方法39-40
- 4.3.4 實(shí)驗(yàn)結(jié)果與分析40-41
- 4.4 本章小結(jié)41-42
- 第五章 基于半監(jiān)督圖聚類(lèi)的漢越新聞?dòng)^點(diǎn)分析方法42-52
- 5.1 半監(jiān)督圖聚類(lèi)基礎(chǔ)理論42-44
- 5.2 基于半監(jiān)督圖聚類(lèi)的觀點(diǎn)分析模型構(gòu)建44-49
- 5.2.1 觀點(diǎn)屬性關(guān)聯(lián)關(guān)系特征選取44-46
- 5.2.2 觀點(diǎn)句關(guān)聯(lián)約束規(guī)則分析與提取46-47
- 5.2.3 觀點(diǎn)聚類(lèi)分析模型的構(gòu)建47-49
- 5.3 實(shí)驗(yàn)與結(jié)果分析49-51
- 5.3.1 實(shí)驗(yàn)數(shù)據(jù)49
- 5.3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)49-50
- 5.3.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析50-51
- 5.4 本章小結(jié)51-52
- 第六章 總結(jié)與展望52-54
- 6.1 總結(jié)52
- 6.2 展望52-54
- 致謝54-56
- 參考文獻(xiàn)56-60
- 附錄A 攻讀碩士學(xué)位期間發(fā)表論文60-62
- 附錄B 攻讀碩士學(xué)位期間發(fā)表軟件著作權(quán)62-64
- 附錄C 攻讀碩士期間參與科研項(xiàng)目64
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 羅武駿;黃程韋;查誠(chéng);趙力;;越南語(yǔ)語(yǔ)音情感特征分析與識(shí)別[J];信號(hào)處理;2013年10期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 張海云;張超靜;畢玉德;;越南語(yǔ)文獻(xiàn)中字母縮略語(yǔ)自動(dòng)提取研究[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年
2 武氏惠;;淺談漢語(yǔ)多音字對(duì)越南語(yǔ)翻譯的影響——以“單”字為例[A];學(xué)行堂文史集刊——2013年第2期[C];2013年
3 林麗;畢玉德;;越南語(yǔ)給予類(lèi)動(dòng)詞的語(yǔ)義結(jié)構(gòu)和層級(jí)分類(lèi)研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 實(shí)習(xí)生 黃一婧 記者 周仕興;全國(guó)越南語(yǔ)口語(yǔ)大賽在邕舉行[N];廣西日?qǐng)?bào);2005年
2 陸勇;崇左打響越南語(yǔ)人才跨國(guó)勞務(wù)品牌[N];中國(guó)勞動(dòng)保障報(bào);2008年
3 本報(bào)記者 曹植勤 實(shí)習(xí)生 侯少華 鄧芳;越南語(yǔ)里的中國(guó)文化[N];南寧日?qǐng)?bào);2008年
4 唐光福;加強(qiáng)技能培訓(xùn) 提升業(yè)務(wù)能力[N];邊防警察報(bào);2010年
5 記者 鄭雅邋實(shí)習(xí)生 劉小靈 袁晶;把中越語(yǔ)言文化研究向前推進(jìn)[N];南寧日?qǐng)?bào);2007年
6 本報(bào)記者 伍建青;教育交流澆灌友誼之花[N];廣西日?qǐng)?bào);2010年
7 黃志輝 班紹長(zhǎng);一口流利越南語(yǔ) 邊貿(mào)派上大用場(chǎng)[N];中國(guó)勞動(dòng)保障報(bào);2013年
8 周漢青 本報(bào)記者 陳典宏;中士伍新海邊境線上的“金牌翻譯”[N];解放軍報(bào);2010年
9 謝莉麗;越南語(yǔ)畢業(yè)生火爆東盟[N];廣西日?qǐng)?bào);2004年
10 通訊員 海仁;海南特招俄語(yǔ)和越南語(yǔ)專(zhuān)業(yè)公務(wù)員[N];中國(guó)人事報(bào);2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條
1 武忠定;越南語(yǔ)核心詞研究[D];華中科技大學(xué);2012年
2 阮氏玉華;越南語(yǔ)佛教詞語(yǔ)研究[D];華中科技大學(xué);2011年
3 阮氏玉華;越南語(yǔ)佛教詞語(yǔ)研究[D];華中科技大學(xué);2011年
4 阮大瞿越(Nguy(?)n (?)i C(?) Vi(?)t;十七世紀(jì)越南漢字音(A類(lèi))研究[D];北京大學(xué);2011年
5 阮氏黎心;漢越人體名詞隱喻對(duì)比研究[D];華東師范大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 阮武瓊芳;漢越詞及漢越音在新時(shí)期越南語(yǔ)中的實(shí)踐價(jià)值[D];首都師范大學(xué);2007年
2 徐淑媛;越南語(yǔ)問(wèn)候語(yǔ)研究[D];廣西民族大學(xué);2015年
3 陳氏青日;越南語(yǔ)與漢語(yǔ)擬聲詞對(duì)比研究[D];廣西民族大學(xué);2014年
4 莫媛媛;漢越雙語(yǔ)詞語(yǔ)對(duì)齊方法研究[D];昆明理工大學(xué);2015年
5 陳氏賢;漢語(yǔ)副詞“都”與越南語(yǔ)對(duì)應(yīng)詞對(duì)比研究和偏誤分析[D];福建師范大學(xué);2015年
6 顏偉光(NHAN VI QUANG);越南語(yǔ)注釋的漢語(yǔ)教材中同譯動(dòng)詞的研究[D];福建師范大學(xué);2015年
7 龐納敏;新HSK六級(jí)詞匯漢越比較研究[D];廣西大學(xué);2015年
8 阮氏莊;漢越介詞對(duì)比研究及越南學(xué)生使用漢語(yǔ)介詞的調(diào)查分析[D];東北師范大學(xué);2015年
9 范功名(Pham Cong Danh);漢—越語(yǔ)短語(yǔ)語(yǔ)序與正負(fù)遷移研究[D];河北師范大學(xué);2015年
10 黎明柱子;漢越詞:類(lèi)別與越化[D];廣東外語(yǔ)外貿(mào)大學(xué);2015年
本文關(guān)鍵詞:漢越新聞?dòng)^點(diǎn)句抽取與聚類(lèi)方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):426404
本文鏈接:http://sikaile.net/shekelunwen/ydyl/426404.html