自然語言處理在挖掘概念傳遞特征中的應用研究
發(fā)布時間:2021-07-16 07:30
自然語言處理(NLP)被廣泛應用于不同的研究領域,包括文本分詞、語音識別、文本信息的處理、人工智能等,對文本中名詞或短語的處理是NLP研究的重要內容。名詞或短語研究的主要目標之一是探討將傳統(tǒng)的關鍵詞和句法方法、語義方法相結合的可能性,以提高信息處理與分析的質量。大規(guī)模開放在線課程(MOOC)為大眾提供了豐富的學習資源,并且MOOC討論區(qū)成為學生和教師之間進行深入互動的主要交流途徑。因此,討論區(qū)中適當長度的學生-助教的討論對于MOOC討論區(qū)的提問者和觀察者來說尤其寶貴。本文利用NLP技術深入挖掘MOOC討論區(qū)中學生-助教問答文本(學生問、助教答)信息,提出了一種挖掘問答文本概念傳遞特征的自然語言處理方法。本文利用Stanford Word Segmenter對問答文本分詞,再用Stanford POS Tagger標注問答文本詞性,提取問答文本中的名詞(即概念),將文本中提取的概念通過語言知識庫HowNet/WordNet得到每個概念對應的上位概念。然后結合網絡分析工具UCInet、文本分析工具CRIE/Coh-Metrix,將概念傳遞過程視為一個有向圖建模。選取平均路徑長度、語義具體度...
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖2.1?WordNet中soprano的上下位關系表示??HowNet和WordNet在描述概念采用的方法有些不同,但是這兩者有著明顯的??
文本信息中數(shù)據的“大小”和“形式”多種多樣,在提取文本中的特征時重要??的一點就是結構化數(shù)據,一般把文本中沒有經過處理的原始數(shù)據轉換成結構化數(shù)據,??然后借助一些工具,來得到有效信息的過程稱為信息提取,如下圖2.2,展示了一種??基本的提取文本信息特征的系統(tǒng)結構。它首先借助一些句子分割工具把文本內容分??成句子,其次是分詞、詞性標注、實體識別(識別文本中實體之間可能存在的關系)、??12??
3.i?流程??為了研宄問答文本概念傳遞特征,本文提出了一個挖掘文本概念傳遞特征的自??然語言處理流程,如圖3.1。??I?a—_I?I?I??!丨學生-助教語料1?J丨-問答-文本綱iiTj?I??!?|科學家語料|?]?]?|文本去停用調]??I?|發(fā)言人語料?!?T?一""'??■?J?|?*?n??廠?文本處理?;??I???I??I?文本分詞?丨??I?i?I?:■■」?■?I??!?|詞性標注?提取概念丨??1?????I??I?1??概念傳遞特征挖掘??——rz:一」…一in一一一??I?HowNet/WordNet?!?廠?CRIE/Coh-Metrix?]?I?U?Cl?net??I?||?j?I????[|語義具體度|?|?|?|可讀性|?j?[?|平均路徑長度j??1?!?|?1?LSASSl?|?|?I?|?出?/入度?|?;??I?I?i?J??圖3.1挖掘文本概念傳遞特征的流程圖??如圖3.1所示,文本概念傳遞特征的挖掘流程由預處理、文本處理、概念傳遞??特征挖掘三個部分組成。??第一部分,文本的預處理首先從獲得的學生-助教、科學家、發(fā)言人語料數(shù)據中??整理出問答文本,一個問答文本即一個提問和一個對應的回答,然后再過濾問答文??本的停用詞。??第二部分,文本處理過程是先借助Stanford?Word?Segmenter分詞,再用Stanford??POS?Tagger標注詞性,然后結合HowNet/WorldNet提取問答文本的概念特征。??第三部分
【參考文獻】:
期刊論文
[1]文本可讀性的自動分析研究綜述[J]. 吳思遠,蔡建永,于東,江新. 中文信息學報. 2018(12)
[2]基于詞聯(lián)接的自然語言處理改進技術研究[J]. 趙棟材,周雁. 計算機與網絡. 2018(09)
[3]科學探究的問答邏輯及其博弈模型[J]. 顏中軍. 佛山科學技術學院學報(社會科學版). 2017(04)
[4]系統(tǒng)功能語法視角下美國新聞發(fā)言人語言特點研究[J]. 安鳳. 現(xiàn)代交際. 2017(02)
[5]面向自然語言處理的深度學習研究[J]. 奚雪峰,周國棟. 自動化學報. 2016(10)
[6]科學家參與科學傳播守則——淺析《科學家與媒體交流指南》[J]. 高健,陳玲,張會亮. 科普研究. 2015(05)
[7]基于知識圖譜的中外自然語言處理研究的對比分析[J]. 邱均平,方國平. 現(xiàn)代圖書情報技術. 2014(12)
[8]在線社會網絡的測量與分析[J]. 徐恪,張賽,陳昊,李海濤. 計算機學報. 2014(01)
[9]概念圖理論在移動學習資源設計中的應用研究[J]. 李浩君,項靜,吳亮亮. 中國遠程教育. 2013(07)
[10]概念圖在小學作文教學中應用的實驗研究[J]. 曹培杰,王濟軍,李敏,何克抗. 電化教育研究. 2013(05)
碩士論文
[1]基于HowNet的個性化學習系統(tǒng)的研究與設計[D]. 張珺昱.江西師范大學 2016
本文編號:3286574
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖2.1?WordNet中soprano的上下位關系表示??HowNet和WordNet在描述概念采用的方法有些不同,但是這兩者有著明顯的??
文本信息中數(shù)據的“大小”和“形式”多種多樣,在提取文本中的特征時重要??的一點就是結構化數(shù)據,一般把文本中沒有經過處理的原始數(shù)據轉換成結構化數(shù)據,??然后借助一些工具,來得到有效信息的過程稱為信息提取,如下圖2.2,展示了一種??基本的提取文本信息特征的系統(tǒng)結構。它首先借助一些句子分割工具把文本內容分??成句子,其次是分詞、詞性標注、實體識別(識別文本中實體之間可能存在的關系)、??12??
3.i?流程??為了研宄問答文本概念傳遞特征,本文提出了一個挖掘文本概念傳遞特征的自??然語言處理流程,如圖3.1。??I?a—_I?I?I??!丨學生-助教語料1?J丨-問答-文本綱iiTj?I??!?|科學家語料|?]?]?|文本去停用調]??I?|發(fā)言人語料?!?T?一""'??■?J?|?*?n??廠?文本處理?;??I???I??I?文本分詞?丨??I?i?I?:■■」?■?I??!?|詞性標注?提取概念丨??1?????I??I?1??概念傳遞特征挖掘??——rz:一」…一in一一一??I?HowNet/WordNet?!?廠?CRIE/Coh-Metrix?]?I?U?Cl?net??I?||?j?I????[|語義具體度|?|?|?|可讀性|?j?[?|平均路徑長度j??1?!?|?1?LSASSl?|?|?I?|?出?/入度?|?;??I?I?i?J??圖3.1挖掘文本概念傳遞特征的流程圖??如圖3.1所示,文本概念傳遞特征的挖掘流程由預處理、文本處理、概念傳遞??特征挖掘三個部分組成。??第一部分,文本的預處理首先從獲得的學生-助教、科學家、發(fā)言人語料數(shù)據中??整理出問答文本,一個問答文本即一個提問和一個對應的回答,然后再過濾問答文??本的停用詞。??第二部分,文本處理過程是先借助Stanford?Word?Segmenter分詞,再用Stanford??POS?Tagger標注詞性,然后結合HowNet/WorldNet提取問答文本的概念特征。??第三部分
【參考文獻】:
期刊論文
[1]文本可讀性的自動分析研究綜述[J]. 吳思遠,蔡建永,于東,江新. 中文信息學報. 2018(12)
[2]基于詞聯(lián)接的自然語言處理改進技術研究[J]. 趙棟材,周雁. 計算機與網絡. 2018(09)
[3]科學探究的問答邏輯及其博弈模型[J]. 顏中軍. 佛山科學技術學院學報(社會科學版). 2017(04)
[4]系統(tǒng)功能語法視角下美國新聞發(fā)言人語言特點研究[J]. 安鳳. 現(xiàn)代交際. 2017(02)
[5]面向自然語言處理的深度學習研究[J]. 奚雪峰,周國棟. 自動化學報. 2016(10)
[6]科學家參與科學傳播守則——淺析《科學家與媒體交流指南》[J]. 高健,陳玲,張會亮. 科普研究. 2015(05)
[7]基于知識圖譜的中外自然語言處理研究的對比分析[J]. 邱均平,方國平. 現(xiàn)代圖書情報技術. 2014(12)
[8]在線社會網絡的測量與分析[J]. 徐恪,張賽,陳昊,李海濤. 計算機學報. 2014(01)
[9]概念圖理論在移動學習資源設計中的應用研究[J]. 李浩君,項靜,吳亮亮. 中國遠程教育. 2013(07)
[10]概念圖在小學作文教學中應用的實驗研究[J]. 曹培杰,王濟軍,李敏,何克抗. 電化教育研究. 2013(05)
碩士論文
[1]基于HowNet的個性化學習系統(tǒng)的研究與設計[D]. 張珺昱.江西師范大學 2016
本文編號:3286574
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3286574.html
最近更新
教材專著