基于多統(tǒng)計方法級聯(lián)的信息技術詞語搭配抽取方法研究
發(fā)布時間:2021-04-04 21:10
漢語詞語搭配的研究,目前正在不斷深入。但目前專業(yè)領域的詞語搭配研究并不多,這也是一個新的詞語搭配抽取的研究方向。隨著5G時代的到來,信息技術類的自然語言處理研究也即將更加深入。因此本文主要研究的信息技術類詞語搭配,并用于信息技術知識庫的搭建,也是信息技術類語言科學領域的一個重要研究方向;诨バ畔⒑袜徑屿氐男畔⒓夹g專業(yè)詞語發(fā)現(xiàn)。由于本文研究的是信息技術類的詞語搭配抽取方法。專業(yè)詞匯是信息技術專業(yè)語境和通識語境的主要區(qū)別之一。信息技術專業(yè)詞匯大多數(shù)是組合詞,如果沒有信息技術專業(yè)詞表,容易造成切詞錯誤,破壞組合詞的結構,造成搭配抽取準確率低。傳統(tǒng)的詞語發(fā)現(xiàn)方法主要是基于詞頻和規(guī)則的方法,基于詞頻的方法容易造成抽取新詞語邊界錯誤和準確率低的問題。而基于規(guī)則的方法易出現(xiàn)規(guī)則頻繁制定問題,工作量繁重且意義不大。本文采用互信息與鄰接熵相結合的方法發(fā)現(xiàn)專業(yè)詞匯,互信息可以表征詞語和鄰接字詞之間結合的緊密度,鄰接熵可以界定專業(yè)詞語的邊界,節(jié)省了制定規(guī)則的工作量,提高了發(fā)現(xiàn)專業(yè)詞語的效率和準確率。基于多統(tǒng)計量級聯(lián)的方式對信息技術詞語搭配抽取方法。傳統(tǒng)的詞語搭配抽取的統(tǒng)計方法各自存在缺點,抽取的準確率及綜...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
圖3-1分詞與詞性標注
哈爾濱工業(yè)大學工程碩士學位論文-23-3.3.2信息技術專業(yè)詞匯發(fā)現(xiàn)的實現(xiàn)信息技術專業(yè)詞匯發(fā)現(xiàn)主要運用互信息和鄰接熵來判斷是否為本文所需的信息技術專業(yè)詞匯,流程如圖3-2。圖3-2信息技術專業(yè)詞匯發(fā)現(xiàn)流程圖信息技術語料預處理主要是去除信息技術語料中的噪聲。因為信息技術語料含有大量非本文所需要的標點、停用詞、多余數(shù)字、非常見字符等噪聲。首先將實驗語料吧,按照上述標點、字符、停用詞等進行切分并去除這類噪聲。通過互信息生成候選專業(yè)詞匯主要通過互信息來衡量相鄰的字和中心詞能夠組成一個專業(yè)詞匯的可能性。將信息技術語料重的語句按照語句順序逐字擴展,將中心詞和右邊相鄰的字的共現(xiàn)頻率記錄下來,若記錄的詞頻高于指定值,則對這個中心詞和相鄰詞進行互信息計算。若算出的值大于指定值,則判定這個中心詞和右邊相鄰的字為一個詞的組成部分,然后對右邊的字用同樣的方式記錄互信息,到互信息的值小于指定值為止。記錄停止計算后的詞語,為信息技術專業(yè)詞語候選詞。經(jīng)過互信息得到候選詞匯以后,通過鄰接熵篩選得到信息技術專業(yè)詞語。需要設置信息技術候選專業(yè)詞匯左右鄰接詞的鄰接熵臨界值,將大于
哈爾濱工業(yè)大學工程碩士學位論文-36-特征,還可以進行多組數(shù)據(jù)分布特征的比較。箱線圖的繪制方法是:先找出一組數(shù)據(jù)的上邊緣、下邊緣、中位數(shù)和兩個四分位數(shù);然后,連接兩個四分位數(shù)畫出箱體;再將上邊緣和下邊緣與箱體相連接,中位數(shù)在箱體中間。因此本文通過繪制箱線圖和頻率分布直方圖進行數(shù)據(jù)分析。圖4-1信息技術詞語搭配以互信息篩選頻率箱線圖針對詞頻篩選出的30251對搭配進行MI值計算后,對MI值的統(tǒng)計結果繪制互信息的箱線圖和頻率分布圖。觀察并且分析圖4-1和圖4-2,可見MI值主要分布在[-2.4,15.00]間。圖4-2信息技術詞語搭配以互信息篩選頻率分布圖
【參考文獻】:
期刊論文
[1]基于互信息和邏輯回歸的新詞發(fā)現(xiàn)[J]. 陳先來,韓超鵬,安瑩,劉莉,李忠民,楊榮. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(08)
[2]基于依存搭配抽取技術的平面媒體語言監(jiān)測研究[J]. 邵艷秋,申資卓,劉世軍. 山西大學學報(自然科學版). 2019(03)
[3]基于中文賓州樹庫的依存句法分析器的比較[J]. 楊振鵬. 太原城市職業(yè)技術學院學報. 2018(12)
[4]漢語復句中基于依存關系與最大熵模型的詞義消歧方法研究[J]. 李源,翟宏森,劉鳳嬌,黃文燦,楊夢川. 計算機與數(shù)字工程. 2018(01)
[5]一種基于改進互信息的文本分類方法[J]. 董露露. 合肥師范學院學報. 2017(06)
[6]基于新詞發(fā)現(xiàn)與知識庫的微博命名實體識別研究——以教育話題為例[J]. 陳桂強. 經(jīng)營管理者. 2017(11)
[7]基于詞向量的評價搭配抽取算法研究[J]. 楊令鐸,史海波,周曉鋒. 小型微型計算機系統(tǒng). 2016(10)
[8]基于改進互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法[J]. 夭榮朋,許國艷,宋健. 計算機應用. 2016(10)
[9]基于共現(xiàn)詞卡方值的關鍵詞提取算法[J]. 時永賓,余青松. 計算機工程. 2016(06)
[10]基于上下文詞頻詞匯量指標的新詞發(fā)現(xiàn)方法[J]. 邢恩軍,趙富強. 計算機應用與軟件. 2016(06)
碩士論文
[1]Spark下MPI/GPU并行計算處理機制的研究[D]. 鄭偉.中國海洋大學 2015
[2]現(xiàn)代漢語詞語搭配的自動抽取方法[D]. 陳雅菊.華東師范大學 2006
本文編號:3118496
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
圖3-1分詞與詞性標注
哈爾濱工業(yè)大學工程碩士學位論文-23-3.3.2信息技術專業(yè)詞匯發(fā)現(xiàn)的實現(xiàn)信息技術專業(yè)詞匯發(fā)現(xiàn)主要運用互信息和鄰接熵來判斷是否為本文所需的信息技術專業(yè)詞匯,流程如圖3-2。圖3-2信息技術專業(yè)詞匯發(fā)現(xiàn)流程圖信息技術語料預處理主要是去除信息技術語料中的噪聲。因為信息技術語料含有大量非本文所需要的標點、停用詞、多余數(shù)字、非常見字符等噪聲。首先將實驗語料吧,按照上述標點、字符、停用詞等進行切分并去除這類噪聲。通過互信息生成候選專業(yè)詞匯主要通過互信息來衡量相鄰的字和中心詞能夠組成一個專業(yè)詞匯的可能性。將信息技術語料重的語句按照語句順序逐字擴展,將中心詞和右邊相鄰的字的共現(xiàn)頻率記錄下來,若記錄的詞頻高于指定值,則對這個中心詞和相鄰詞進行互信息計算。若算出的值大于指定值,則判定這個中心詞和右邊相鄰的字為一個詞的組成部分,然后對右邊的字用同樣的方式記錄互信息,到互信息的值小于指定值為止。記錄停止計算后的詞語,為信息技術專業(yè)詞語候選詞。經(jīng)過互信息得到候選詞匯以后,通過鄰接熵篩選得到信息技術專業(yè)詞語。需要設置信息技術候選專業(yè)詞匯左右鄰接詞的鄰接熵臨界值,將大于
哈爾濱工業(yè)大學工程碩士學位論文-36-特征,還可以進行多組數(shù)據(jù)分布特征的比較。箱線圖的繪制方法是:先找出一組數(shù)據(jù)的上邊緣、下邊緣、中位數(shù)和兩個四分位數(shù);然后,連接兩個四分位數(shù)畫出箱體;再將上邊緣和下邊緣與箱體相連接,中位數(shù)在箱體中間。因此本文通過繪制箱線圖和頻率分布直方圖進行數(shù)據(jù)分析。圖4-1信息技術詞語搭配以互信息篩選頻率箱線圖針對詞頻篩選出的30251對搭配進行MI值計算后,對MI值的統(tǒng)計結果繪制互信息的箱線圖和頻率分布圖。觀察并且分析圖4-1和圖4-2,可見MI值主要分布在[-2.4,15.00]間。圖4-2信息技術詞語搭配以互信息篩選頻率分布圖
【參考文獻】:
期刊論文
[1]基于互信息和邏輯回歸的新詞發(fā)現(xiàn)[J]. 陳先來,韓超鵬,安瑩,劉莉,李忠民,楊榮. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(08)
[2]基于依存搭配抽取技術的平面媒體語言監(jiān)測研究[J]. 邵艷秋,申資卓,劉世軍. 山西大學學報(自然科學版). 2019(03)
[3]基于中文賓州樹庫的依存句法分析器的比較[J]. 楊振鵬. 太原城市職業(yè)技術學院學報. 2018(12)
[4]漢語復句中基于依存關系與最大熵模型的詞義消歧方法研究[J]. 李源,翟宏森,劉鳳嬌,黃文燦,楊夢川. 計算機與數(shù)字工程. 2018(01)
[5]一種基于改進互信息的文本分類方法[J]. 董露露. 合肥師范學院學報. 2017(06)
[6]基于新詞發(fā)現(xiàn)與知識庫的微博命名實體識別研究——以教育話題為例[J]. 陳桂強. 經(jīng)營管理者. 2017(11)
[7]基于詞向量的評價搭配抽取算法研究[J]. 楊令鐸,史海波,周曉鋒. 小型微型計算機系統(tǒng). 2016(10)
[8]基于改進互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法[J]. 夭榮朋,許國艷,宋健. 計算機應用. 2016(10)
[9]基于共現(xiàn)詞卡方值的關鍵詞提取算法[J]. 時永賓,余青松. 計算機工程. 2016(06)
[10]基于上下文詞頻詞匯量指標的新詞發(fā)現(xiàn)方法[J]. 邢恩軍,趙富強. 計算機應用與軟件. 2016(06)
碩士論文
[1]Spark下MPI/GPU并行計算處理機制的研究[D]. 鄭偉.中國海洋大學 2015
[2]現(xiàn)代漢語詞語搭配的自動抽取方法[D]. 陳雅菊.華東師范大學 2006
本文編號:3118496
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3118496.html
最近更新
教材專著