基于注意力模型的漢語意見解釋分類方法研究與實現(xiàn)
發(fā)布時間:2021-06-14 05:07
意見解釋分類問題是解釋性意見挖掘研究領域的基礎問題,對后續(xù)的研究工作有著極其重要的影響。本文收集并整理了手機和酒店領域的在線評論語料,構建了一個大規(guī)模、高質量的意見解釋分類語料庫。通過分析語料庫中意見解釋的表達特點和不同意見-解釋之間的語義邏輯關系,探索意見解釋分類新方法。本文將從以下三個方面開展研究:(1)構建大規(guī)模漢語意見解釋分類語料庫。本文面向手機和酒店領域的在線評論,通過分析意見解釋的語義特點和規(guī)律,將意見解釋劃分為三個類別,分別是意見原因、意見建議和意見條件,并在此分類體系的基礎上構建了一個大規(guī)模、高質量的漢語意見解釋分類語料庫。通過對語料的分析,我們發(fā)現(xiàn)不同意見解釋具有多樣的表達方式,不同意見和解釋之間存在潛在的聯(lián)系。(2)基于注意力模型的漢語意見解釋分類方法。根據不同意見解釋和意見之間蘊含的語義邏輯關系,嘗試將Self Attention、Vanilla Attention和Contextualized Attention三種注意力模型應用于意見解釋分類任務,探索不同的注意力機制對分類性能的影響。針對語料庫中存在的類別不平衡問題,嘗試使用Focal Loss損失函數(shù)調節(jié)模...
【文章來源】:黑龍江大學黑龍江省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
論文框架
第二個意見原因類的意見解釋“手機屏幕太大”,并沒有很明顯的類別標記詞。本文對意見解釋內部是否含有明顯的高頻標記詞對意見解釋進行了統(tǒng)計,統(tǒng)計結果如圖2-3和圖2-4所示。由統(tǒng)計結果可知,語料庫中存在一部分不包含明顯關鍵詞的意見解釋片段,其中手機領域中占比達到了百分之五十,酒店領域占比則接近三分之二。對于這種意見解釋,由于沒有明顯的關鍵詞,模型區(qū)分會有一定的難度,所以,本文提出利用意見解釋片段的上下文信息提取特征用于分類,希望能進一步提升分類性能。圖2-3 手機領域包含類別關鍵詞和不包含類別關鍵詞的意見解釋的分布情況Figure 2-3 Distribution of opinion explanations containing category keywords and no markers in themobile phone area
第 2 章 基于 LSTM 的漢語意見解釋分類- 17 -圖2-4 酒店領域包含類別關鍵詞和不包含類別關鍵詞的意見解釋的分布情況Figure 2-4 Distribution of opinion explanations containing category keywords and no markers in thehotel area通過分析,我們發(fā)現(xiàn)不同的意見解釋與上下文之間蘊含著不同的關聯(lián)。意見原因類的意見解釋與其上文或下文之間存在著因果關系或是相關關系,例如,表2-1中第(2)句,“手機屏幕太大”是造成“握著不方便”的原因信息,兩個語句之間存在一種時序上的關聯(lián),是明顯的因果關系。對于意見條件類的意見解釋,它與上文和下文之間則存在著條件關系,例如,表2-1中第(7)句,“相比其他的錦江來說”是消費者得到評價“房間空間有點小了”的前提條件,沒有這個條件可能就得不出這樣的評價。然而
【參考文獻】:
期刊論文
[1]基于詞語情感隸屬度特征的情感極性分類[J]. 宋佳穎,黃旭,付國宏. 北京大學學報(自然科學版). 2016(01)
[2]基于自動編碼特征的漢語解釋性意見句識別[J]. 賀宇,潘達,付國宏. 北京大學學報(自然科學版). 2015(02)
[3]網絡意見挖掘、摘要與檢索研究綜述[J]. 侯鋒,王傳廷,李國輝. 計算機科學. 2009(07)
碩士論文
[1]面向在線評論的漢語意見解釋分類方法研究[D]. 張柳影.黑龍江大學 2017
本文編號:3229130
【文章來源】:黑龍江大學黑龍江省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
論文框架
第二個意見原因類的意見解釋“手機屏幕太大”,并沒有很明顯的類別標記詞。本文對意見解釋內部是否含有明顯的高頻標記詞對意見解釋進行了統(tǒng)計,統(tǒng)計結果如圖2-3和圖2-4所示。由統(tǒng)計結果可知,語料庫中存在一部分不包含明顯關鍵詞的意見解釋片段,其中手機領域中占比達到了百分之五十,酒店領域占比則接近三分之二。對于這種意見解釋,由于沒有明顯的關鍵詞,模型區(qū)分會有一定的難度,所以,本文提出利用意見解釋片段的上下文信息提取特征用于分類,希望能進一步提升分類性能。圖2-3 手機領域包含類別關鍵詞和不包含類別關鍵詞的意見解釋的分布情況Figure 2-3 Distribution of opinion explanations containing category keywords and no markers in themobile phone area
第 2 章 基于 LSTM 的漢語意見解釋分類- 17 -圖2-4 酒店領域包含類別關鍵詞和不包含類別關鍵詞的意見解釋的分布情況Figure 2-4 Distribution of opinion explanations containing category keywords and no markers in thehotel area通過分析,我們發(fā)現(xiàn)不同的意見解釋與上下文之間蘊含著不同的關聯(lián)。意見原因類的意見解釋與其上文或下文之間存在著因果關系或是相關關系,例如,表2-1中第(2)句,“手機屏幕太大”是造成“握著不方便”的原因信息,兩個語句之間存在一種時序上的關聯(lián),是明顯的因果關系。對于意見條件類的意見解釋,它與上文和下文之間則存在著條件關系,例如,表2-1中第(7)句,“相比其他的錦江來說”是消費者得到評價“房間空間有點小了”的前提條件,沒有這個條件可能就得不出這樣的評價。然而
【參考文獻】:
期刊論文
[1]基于詞語情感隸屬度特征的情感極性分類[J]. 宋佳穎,黃旭,付國宏. 北京大學學報(自然科學版). 2016(01)
[2]基于自動編碼特征的漢語解釋性意見句識別[J]. 賀宇,潘達,付國宏. 北京大學學報(自然科學版). 2015(02)
[3]網絡意見挖掘、摘要與檢索研究綜述[J]. 侯鋒,王傳廷,李國輝. 計算機科學. 2009(07)
碩士論文
[1]面向在線評論的漢語意見解釋分類方法研究[D]. 張柳影.黑龍江大學 2017
本文編號:3229130
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3229130.html
最近更新
教材專著