天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 一帶一路論文 >

漢越新聞觀點句抽取與聚類方法研究

發(fā)布時間:2017-06-06 13:00

  本文關鍵詞:漢越新聞觀點句抽取與聚類方法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:越南與我國相毗鄰,在“一帶一路”戰(zhàn)略下,兩國交流日益頻繁,新聞是了解兩國國家動態(tài)與事件觀點的主要載體,由于中文與越南文有著語言的差異,對不同新聞事件與觀點的獲取和分析工作較難進行。本文針對這一問題,首先對新聞文本處理,利用已知的漢語越南語知識,分析新聞觀點句特點,對觀點句定義其特征,再通過現(xiàn)有的維基百科知識庫概念互譯的特點計算漢語越南語詞語間的相似度,最后通過觀點句間的關聯(lián)關系融合半監(jiān)督信息,構建觀點句半監(jiān)督圖聚類模型,對混合中越新聞觀點句進行聚類。具體研究工作如下:(1)提出了基于SVM的觀點抽取方法,該方法首先分析新聞觀點句在新聞文本中的位置、與新聞標題的相關度、情感詞等特性,構建新聞觀點句抽取的特征;接著通過人工標注的新聞觀點句,對SVM模型進行訓練,達到觀點句判別的效果。最后通過實驗,驗證該方法的效果,實驗結(jié)果表明,該方法可以有效抽取觀點句。(2)提出了基于維基百科的漢語越南語詞語相似度計算方法,該方法利用了維基百科上具有多語言概念描述頁面,很多概念之間存在翻譯對應關系,不同語言詞語會出現(xiàn)在不同的概念頁面上,且詞語與其他概念之間存在一定的共現(xiàn)關系,等特點,首先提取維基百科中漢語越南語具有對應關系的概念集合,構建雙語概念特征空間,然后根據(jù)詞語在相應概念描述文本中出現(xiàn)的詞頻特征,以及詞語與概念在其他概念文本中的共現(xiàn)特征構建詞語的概念向量值,最后通過夾角余弦對兩個向量進行詞語相似度計算。實驗結(jié)果表明提出的方法在漢越雙語詞語相似度計算上表現(xiàn)了好的效果,概念共現(xiàn)關系能夠提高詞語相似度的準確率。該方法為跨語言半監(jiān)督圖觀點聚類方法提供了屬性之間的關聯(lián)關系的橋梁。(3)構建了漢語越南語雙語新聞觀點句聚類的半監(jiān)督圖模型,定義句子間的相似度、關聯(lián)關系作為特征,其中關聯(lián)關系包括姓名,地點,及時間的共現(xiàn)。構建半監(jiān)督圖聚類模型時,利用維基百科計算漢語越南語詞語相似度,計算跨語言觀點句間相似度與不同句子中對應屬性的相似值,構建觀點句間的邊,引入"must-link"和"cannot-link"為監(jiān)督信息,實現(xiàn)漢語越南語混合環(huán)境下的觀點句聚類。實驗表明,該方法可以將兩種語言混合環(huán)境下的觀點句有效聚類。
【關鍵詞】:詞語相似度 維基百科 觀點句抽取 圖聚類
【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 摘要5-7
  • ABSTRACT7-12
  • 第一章 緒論12-18
  • 1.1 課題研究背景及意義12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-14
  • 1.2.1 單語言觀點分析相關研究12-14
  • 1.2.2 跨語言觀點分析相關研究14
  • 1.3 本文研究內(nèi)容14-15
  • 1.4 論文的組織15-18
  • 第二章 語料庫及基礎資源構建18-24
  • 2.1 新聞語料的獲取與預處理18-22
  • 2.1.1 語料的獲取18-19
  • 2.1.2 語料的保存19-20
  • 2.1.3 新聞語料的處理20-22
  • 2.2 跨語言觀點分析語料庫構建22-23
  • 2.2.1 情感詞庫的構建22
  • 2.2.2 指示詞庫的構建22-23
  • 2.3 本章小結(jié)23-24
  • 第三章 基于svm的新聞觀點句抽取24-34
  • 3.1 漢越新聞觀點句特點分析25-26
  • 3.2 觀點句抽取26-30
  • 3.2.1 SVM原理26
  • 3.2.2 特征定義26-30
  • 3.2.3 svm分類器的構建30
  • 3.3 實驗設計與結(jié)果分析30-32
  • 3.3.1 實驗設計30-31
  • 3.3.2 評價方法31
  • 3.3.3 實驗結(jié)果與分析31-32
  • 3.4 本章小結(jié)32-34
  • 第四章 基于維基百科的漢語越南語詞語相似度計算方法34-42
  • 4.1 維基百科頁面分析35-36
  • 4.2 漢越詞語的表征36-37
  • 4.2.1 詞向量的構成36
  • 4.2.2 詞語在概念文本上的詞頻特征值計算36-37
  • 4.2.3 詞語與概念的共現(xiàn)特征值計算37
  • 4.3 實驗設計與結(jié)果分析37-41
  • 4.3.1 測試集構建37-39
  • 4.3.2 實驗數(shù)據(jù)39
  • 4.3.3 評價方法39-40
  • 4.3.4 實驗結(jié)果與分析40-41
  • 4.4 本章小結(jié)41-42
  • 第五章 基于半監(jiān)督圖聚類的漢越新聞觀點分析方法42-52
  • 5.1 半監(jiān)督圖聚類基礎理論42-44
  • 5.2 基于半監(jiān)督圖聚類的觀點分析模型構建44-49
  • 5.2.1 觀點屬性關聯(lián)關系特征選取44-46
  • 5.2.2 觀點句關聯(lián)約束規(guī)則分析與提取46-47
  • 5.2.3 觀點聚類分析模型的構建47-49
  • 5.3 實驗與結(jié)果分析49-51
  • 5.3.1 實驗數(shù)據(jù)49
  • 5.3.2 實驗評價指標49-50
  • 5.3.3 實驗設計及結(jié)果分析50-51
  • 5.4 本章小結(jié)51-52
  • 第六章 總結(jié)與展望52-54
  • 6.1 總結(jié)52
  • 6.2 展望52-54
  • 致謝54-56
  • 參考文獻56-60
  • 附錄A 攻讀碩士學位期間發(fā)表論文60-62
  • 附錄B 攻讀碩士學位期間發(fā)表軟件著作權62-64
  • 附錄C 攻讀碩士期間參與科研項目64

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 羅武駿;黃程韋;查誠;趙力;;越南語語音情感特征分析與識別[J];信號處理;2013年10期

中國重要會議論文全文數(shù)據(jù)庫 前3條

1 張海云;張超靜;畢玉德;;越南語文獻中字母縮略語自動提取研究[A];第五屆全國青年計算語言學研討會論文集[C];2010年

2 武氏惠;;淺談漢語多音字對越南語翻譯的影響——以“單”字為例[A];學行堂文史集刊——2013年第2期[C];2013年

3 林麗;畢玉德;;越南語給予類動詞的語義結(jié)構和層級分類研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 實習生 黃一婧 記者 周仕興;全國越南語口語大賽在邕舉行[N];廣西日報;2005年

2 陸勇;崇左打響越南語人才跨國勞務品牌[N];中國勞動保障報;2008年

3 本報記者 曹植勤 實習生 侯少華 鄧芳;越南語里的中國文化[N];南寧日報;2008年

4 唐光福;加強技能培訓 提升業(yè)務能力[N];邊防警察報;2010年

5 記者 鄭雅邋實習生 劉小靈 袁晶;把中越語言文化研究向前推進[N];南寧日報;2007年

6 本報記者 伍建青;教育交流澆灌友誼之花[N];廣西日報;2010年

7 黃志輝 班紹長;一口流利越南語 邊貿(mào)派上大用場[N];中國勞動保障報;2013年

8 周漢青 本報記者 陳典宏;中士伍新海邊境線上的“金牌翻譯”[N];解放軍報;2010年

9 謝莉麗;越南語畢業(yè)生火爆東盟[N];廣西日報;2004年

10 通訊員 海仁;海南特招俄語和越南語專業(yè)公務員[N];中國人事報;2008年

中國博士學位論文全文數(shù)據(jù)庫 前5條

1 武忠定;越南語核心詞研究[D];華中科技大學;2012年

2 阮氏玉華;越南語佛教詞語研究[D];華中科技大學;2011年

3 阮氏玉華;越南語佛教詞語研究[D];華中科技大學;2011年

4 阮大瞿越(Nguy(?)n (?)i C(?) Vi(?)t;十七世紀越南漢字音(A類)研究[D];北京大學;2011年

5 阮氏黎心;漢越人體名詞隱喻對比研究[D];華東師范大學;2011年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 阮武瓊芳;漢越詞及漢越音在新時期越南語中的實踐價值[D];首都師范大學;2007年

2 徐淑媛;越南語問候語研究[D];廣西民族大學;2015年

3 陳氏青日;越南語與漢語擬聲詞對比研究[D];廣西民族大學;2014年

4 莫媛媛;漢越雙語詞語對齊方法研究[D];昆明理工大學;2015年

5 陳氏賢;漢語副詞“都”與越南語對應詞對比研究和偏誤分析[D];福建師范大學;2015年

6 顏偉光(NHAN VI QUANG);越南語注釋的漢語教材中同譯動詞的研究[D];福建師范大學;2015年

7 龐納敏;新HSK六級詞匯漢越比較研究[D];廣西大學;2015年

8 阮氏莊;漢越介詞對比研究及越南學生使用漢語介詞的調(diào)查分析[D];東北師范大學;2015年

9 范功名(Pham Cong Danh);漢—越語短語語序與正負遷移研究[D];河北師范大學;2015年

10 黎明柱子;漢越詞:類別與越化[D];廣東外語外貿(mào)大學;2015年


  本文關鍵詞:漢越新聞觀點句抽取與聚類方法研究,由筆耕文化傳播整理發(fā)布。

,

本文編號:426404

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shekelunwen/ydyl/426404.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶e2f73***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com