基于多統(tǒng)計(jì)方法級(jí)聯(lián)的信息技術(shù)詞語搭配抽取方法研究
發(fā)布時(shí)間:2021-04-04 21:10
漢語詞語搭配的研究,目前正在不斷深入。但目前專業(yè)領(lǐng)域的詞語搭配研究并不多,這也是一個(gè)新的詞語搭配抽取的研究方向。隨著5G時(shí)代的到來,信息技術(shù)類的自然語言處理研究也即將更加深入。因此本文主要研究的信息技術(shù)類詞語搭配,并用于信息技術(shù)知識(shí)庫的搭建,也是信息技術(shù)類語言科學(xué)領(lǐng)域的一個(gè)重要研究方向;诨バ畔⒑袜徑屿氐男畔⒓夹g(shù)專業(yè)詞語發(fā)現(xiàn)。由于本文研究的是信息技術(shù)類的詞語搭配抽取方法。專業(yè)詞匯是信息技術(shù)專業(yè)語境和通識(shí)語境的主要區(qū)別之一。信息技術(shù)專業(yè)詞匯大多數(shù)是組合詞,如果沒有信息技術(shù)專業(yè)詞表,容易造成切詞錯(cuò)誤,破壞組合詞的結(jié)構(gòu),造成搭配抽取準(zhǔn)確率低。傳統(tǒng)的詞語發(fā)現(xiàn)方法主要是基于詞頻和規(guī)則的方法,基于詞頻的方法容易造成抽取新詞語邊界錯(cuò)誤和準(zhǔn)確率低的問題。而基于規(guī)則的方法易出現(xiàn)規(guī)則頻繁制定問題,工作量繁重且意義不大。本文采用互信息與鄰接熵相結(jié)合的方法發(fā)現(xiàn)專業(yè)詞匯,互信息可以表征詞語和鄰接字詞之間結(jié)合的緊密度,鄰接熵可以界定專業(yè)詞語的邊界,節(jié)省了制定規(guī)則的工作量,提高了發(fā)現(xiàn)專業(yè)詞語的效率和準(zhǔn)確率。基于多統(tǒng)計(jì)量級(jí)聯(lián)的方式對(duì)信息技術(shù)詞語搭配抽取方法。傳統(tǒng)的詞語搭配抽取的統(tǒng)計(jì)方法各自存在缺點(diǎn),抽取的準(zhǔn)確率及綜...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-1分詞與詞性標(biāo)注
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-23-3.3.2信息技術(shù)專業(yè)詞匯發(fā)現(xiàn)的實(shí)現(xiàn)信息技術(shù)專業(yè)詞匯發(fā)現(xiàn)主要運(yùn)用互信息和鄰接熵來判斷是否為本文所需的信息技術(shù)專業(yè)詞匯,流程如圖3-2。圖3-2信息技術(shù)專業(yè)詞匯發(fā)現(xiàn)流程圖信息技術(shù)語料預(yù)處理主要是去除信息技術(shù)語料中的噪聲。因?yàn)樾畔⒓夹g(shù)語料含有大量非本文所需要的標(biāo)點(diǎn)、停用詞、多余數(shù)字、非常見字符等噪聲。首先將實(shí)驗(yàn)語料吧,按照上述標(biāo)點(diǎn)、字符、停用詞等進(jìn)行切分并去除這類噪聲。通過互信息生成候選專業(yè)詞匯主要通過互信息來衡量相鄰的字和中心詞能夠組成一個(gè)專業(yè)詞匯的可能性。將信息技術(shù)語料重的語句按照語句順序逐字?jǐn)U展,將中心詞和右邊相鄰的字的共現(xiàn)頻率記錄下來,若記錄的詞頻高于指定值,則對(duì)這個(gè)中心詞和相鄰詞進(jìn)行互信息計(jì)算。若算出的值大于指定值,則判定這個(gè)中心詞和右邊相鄰的字為一個(gè)詞的組成部分,然后對(duì)右邊的字用同樣的方式記錄互信息,到互信息的值小于指定值為止。記錄停止計(jì)算后的詞語,為信息技術(shù)專業(yè)詞語候選詞。經(jīng)過互信息得到候選詞匯以后,通過鄰接熵篩選得到信息技術(shù)專業(yè)詞語。需要設(shè)置信息技術(shù)候選專業(yè)詞匯左右鄰接詞的鄰接熵臨界值,將大于
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-36-特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。箱線圖的繪制方法是:先找出一組數(shù)據(jù)的上邊緣、下邊緣、中位數(shù)和兩個(gè)四分位數(shù);然后,連接兩個(gè)四分位數(shù)畫出箱體;再將上邊緣和下邊緣與箱體相連接,中位數(shù)在箱體中間。因此本文通過繪制箱線圖和頻率分布直方圖進(jìn)行數(shù)據(jù)分析。圖4-1信息技術(shù)詞語搭配以互信息篩選頻率箱線圖針對(duì)詞頻篩選出的30251對(duì)搭配進(jìn)行MI值計(jì)算后,對(duì)MI值的統(tǒng)計(jì)結(jié)果繪制互信息的箱線圖和頻率分布圖。觀察并且分析圖4-1和圖4-2,可見MI值主要分布在[-2.4,15.00]間。圖4-2信息技術(shù)詞語搭配以互信息篩選頻率分布圖
【參考文獻(xiàn)】:
期刊論文
[1]基于互信息和邏輯回歸的新詞發(fā)現(xiàn)[J]. 陳先來,韓超鵬,安瑩,劉莉,李忠民,楊榮. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(08)
[2]基于依存搭配抽取技術(shù)的平面媒體語言監(jiān)測(cè)研究[J]. 邵艷秋,申資卓,劉世軍. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[3]基于中文賓州樹庫的依存句法分析器的比較[J]. 楊振鵬. 太原城市職業(yè)技術(shù)學(xué)院學(xué)報(bào). 2018(12)
[4]漢語復(fù)句中基于依存關(guān)系與最大熵模型的詞義消歧方法研究[J]. 李源,翟宏森,劉鳳嬌,黃文燦,楊夢(mèng)川. 計(jì)算機(jī)與數(shù)字工程. 2018(01)
[5]一種基于改進(jìn)互信息的文本分類方法[J]. 董露露. 合肥師范學(xué)院學(xué)報(bào). 2017(06)
[6]基于新詞發(fā)現(xiàn)與知識(shí)庫的微博命名實(shí)體識(shí)別研究——以教育話題為例[J]. 陳桂強(qiáng). 經(jīng)營管理者. 2017(11)
[7]基于詞向量的評(píng)價(jià)搭配抽取算法研究[J]. 楊令鐸,史海波,周曉鋒. 小型微型計(jì)算機(jī)系統(tǒng). 2016(10)
[8]基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法[J]. 夭榮朋,許國艷,宋健. 計(jì)算機(jī)應(yīng)用. 2016(10)
[9]基于共現(xiàn)詞卡方值的關(guān)鍵詞提取算法[J]. 時(shí)永賓,余青松. 計(jì)算機(jī)工程. 2016(06)
[10]基于上下文詞頻詞匯量指標(biāo)的新詞發(fā)現(xiàn)方法[J]. 邢恩軍,趙富強(qiáng). 計(jì)算機(jī)應(yīng)用與軟件. 2016(06)
碩士論文
[1]Spark下MPI/GPU并行計(jì)算處理機(jī)制的研究[D]. 鄭偉.中國海洋大學(xué) 2015
[2]現(xiàn)代漢語詞語搭配的自動(dòng)抽取方法[D]. 陳雅菊.華東師范大學(xué) 2006
本文編號(hào):3118496
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-1分詞與詞性標(biāo)注
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-23-3.3.2信息技術(shù)專業(yè)詞匯發(fā)現(xiàn)的實(shí)現(xiàn)信息技術(shù)專業(yè)詞匯發(fā)現(xiàn)主要運(yùn)用互信息和鄰接熵來判斷是否為本文所需的信息技術(shù)專業(yè)詞匯,流程如圖3-2。圖3-2信息技術(shù)專業(yè)詞匯發(fā)現(xiàn)流程圖信息技術(shù)語料預(yù)處理主要是去除信息技術(shù)語料中的噪聲。因?yàn)樾畔⒓夹g(shù)語料含有大量非本文所需要的標(biāo)點(diǎn)、停用詞、多余數(shù)字、非常見字符等噪聲。首先將實(shí)驗(yàn)語料吧,按照上述標(biāo)點(diǎn)、字符、停用詞等進(jìn)行切分并去除這類噪聲。通過互信息生成候選專業(yè)詞匯主要通過互信息來衡量相鄰的字和中心詞能夠組成一個(gè)專業(yè)詞匯的可能性。將信息技術(shù)語料重的語句按照語句順序逐字?jǐn)U展,將中心詞和右邊相鄰的字的共現(xiàn)頻率記錄下來,若記錄的詞頻高于指定值,則對(duì)這個(gè)中心詞和相鄰詞進(jìn)行互信息計(jì)算。若算出的值大于指定值,則判定這個(gè)中心詞和右邊相鄰的字為一個(gè)詞的組成部分,然后對(duì)右邊的字用同樣的方式記錄互信息,到互信息的值小于指定值為止。記錄停止計(jì)算后的詞語,為信息技術(shù)專業(yè)詞語候選詞。經(jīng)過互信息得到候選詞匯以后,通過鄰接熵篩選得到信息技術(shù)專業(yè)詞語。需要設(shè)置信息技術(shù)候選專業(yè)詞匯左右鄰接詞的鄰接熵臨界值,將大于
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-36-特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。箱線圖的繪制方法是:先找出一組數(shù)據(jù)的上邊緣、下邊緣、中位數(shù)和兩個(gè)四分位數(shù);然后,連接兩個(gè)四分位數(shù)畫出箱體;再將上邊緣和下邊緣與箱體相連接,中位數(shù)在箱體中間。因此本文通過繪制箱線圖和頻率分布直方圖進(jìn)行數(shù)據(jù)分析。圖4-1信息技術(shù)詞語搭配以互信息篩選頻率箱線圖針對(duì)詞頻篩選出的30251對(duì)搭配進(jìn)行MI值計(jì)算后,對(duì)MI值的統(tǒng)計(jì)結(jié)果繪制互信息的箱線圖和頻率分布圖。觀察并且分析圖4-1和圖4-2,可見MI值主要分布在[-2.4,15.00]間。圖4-2信息技術(shù)詞語搭配以互信息篩選頻率分布圖
【參考文獻(xiàn)】:
期刊論文
[1]基于互信息和邏輯回歸的新詞發(fā)現(xiàn)[J]. 陳先來,韓超鵬,安瑩,劉莉,李忠民,楊榮. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(08)
[2]基于依存搭配抽取技術(shù)的平面媒體語言監(jiān)測(cè)研究[J]. 邵艷秋,申資卓,劉世軍. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[3]基于中文賓州樹庫的依存句法分析器的比較[J]. 楊振鵬. 太原城市職業(yè)技術(shù)學(xué)院學(xué)報(bào). 2018(12)
[4]漢語復(fù)句中基于依存關(guān)系與最大熵模型的詞義消歧方法研究[J]. 李源,翟宏森,劉鳳嬌,黃文燦,楊夢(mèng)川. 計(jì)算機(jī)與數(shù)字工程. 2018(01)
[5]一種基于改進(jìn)互信息的文本分類方法[J]. 董露露. 合肥師范學(xué)院學(xué)報(bào). 2017(06)
[6]基于新詞發(fā)現(xiàn)與知識(shí)庫的微博命名實(shí)體識(shí)別研究——以教育話題為例[J]. 陳桂強(qiáng). 經(jīng)營管理者. 2017(11)
[7]基于詞向量的評(píng)價(jià)搭配抽取算法研究[J]. 楊令鐸,史海波,周曉鋒. 小型微型計(jì)算機(jī)系統(tǒng). 2016(10)
[8]基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法[J]. 夭榮朋,許國艷,宋健. 計(jì)算機(jī)應(yīng)用. 2016(10)
[9]基于共現(xiàn)詞卡方值的關(guān)鍵詞提取算法[J]. 時(shí)永賓,余青松. 計(jì)算機(jī)工程. 2016(06)
[10]基于上下文詞頻詞匯量指標(biāo)的新詞發(fā)現(xiàn)方法[J]. 邢恩軍,趙富強(qiáng). 計(jì)算機(jī)應(yīng)用與軟件. 2016(06)
碩士論文
[1]Spark下MPI/GPU并行計(jì)算處理機(jī)制的研究[D]. 鄭偉.中國海洋大學(xué) 2015
[2]現(xiàn)代漢語詞語搭配的自動(dòng)抽取方法[D]. 陳雅菊.華東師范大學(xué) 2006
本文編號(hào):3118496
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3118496.html
最近更新
教材專著