天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于多統(tǒng)計(jì)方法級(jí)聯(lián)的信息技術(shù)詞語搭配抽取方法研究

發(fā)布時(shí)間:2021-04-04 21:10
  漢語詞語搭配的研究,目前正在不斷深入。但目前專業(yè)領(lǐng)域的詞語搭配研究并不多,這也是一個(gè)新的詞語搭配抽取的研究方向。隨著5G時(shí)代的到來,信息技術(shù)類的自然語言處理研究也即將更加深入。因此本文主要研究的信息技術(shù)類詞語搭配,并用于信息技術(shù)知識(shí)庫的搭建,也是信息技術(shù)類語言科學(xué)領(lǐng)域的一個(gè)重要研究方向;诨バ畔⒑袜徑屿氐男畔⒓夹g(shù)專業(yè)詞語發(fā)現(xiàn)。由于本文研究的是信息技術(shù)類的詞語搭配抽取方法。專業(yè)詞匯是信息技術(shù)專業(yè)語境和通識(shí)語境的主要區(qū)別之一。信息技術(shù)專業(yè)詞匯大多數(shù)是組合詞,如果沒有信息技術(shù)專業(yè)詞表,容易造成切詞錯(cuò)誤,破壞組合詞的結(jié)構(gòu),造成搭配抽取準(zhǔn)確率低。傳統(tǒng)的詞語發(fā)現(xiàn)方法主要是基于詞頻和規(guī)則的方法,基于詞頻的方法容易造成抽取新詞語邊界錯(cuò)誤和準(zhǔn)確率低的問題。而基于規(guī)則的方法易出現(xiàn)規(guī)則頻繁制定問題,工作量繁重且意義不大。本文采用互信息與鄰接熵相結(jié)合的方法發(fā)現(xiàn)專業(yè)詞匯,互信息可以表征詞語和鄰接字詞之間結(jié)合的緊密度,鄰接熵可以界定專業(yè)詞語的邊界,節(jié)省了制定規(guī)則的工作量,提高了發(fā)現(xiàn)專業(yè)詞語的效率和準(zhǔn)確率。基于多統(tǒng)計(jì)量級(jí)聯(lián)的方式對(duì)信息技術(shù)詞語搭配抽取方法。傳統(tǒng)的詞語搭配抽取的統(tǒng)計(jì)方法各自存在缺點(diǎn),抽取的準(zhǔn)確率及綜... 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:57 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于多統(tǒng)計(jì)方法級(jí)聯(lián)的信息技術(shù)詞語搭配抽取方法研究


圖3-1分詞與詞性標(biāo)注

流程圖,專業(yè)詞匯,信息技術(shù),流程圖


哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-23-3.3.2信息技術(shù)專業(yè)詞匯發(fā)現(xiàn)的實(shí)現(xiàn)信息技術(shù)專業(yè)詞匯發(fā)現(xiàn)主要運(yùn)用互信息和鄰接熵來判斷是否為本文所需的信息技術(shù)專業(yè)詞匯,流程如圖3-2。圖3-2信息技術(shù)專業(yè)詞匯發(fā)現(xiàn)流程圖信息技術(shù)語料預(yù)處理主要是去除信息技術(shù)語料中的噪聲。因?yàn)樾畔⒓夹g(shù)語料含有大量非本文所需要的標(biāo)點(diǎn)、停用詞、多余數(shù)字、非常見字符等噪聲。首先將實(shí)驗(yàn)語料吧,按照上述標(biāo)點(diǎn)、字符、停用詞等進(jìn)行切分并去除這類噪聲。通過互信息生成候選專業(yè)詞匯主要通過互信息來衡量相鄰的字和中心詞能夠組成一個(gè)專業(yè)詞匯的可能性。將信息技術(shù)語料重的語句按照語句順序逐字?jǐn)U展,將中心詞和右邊相鄰的字的共現(xiàn)頻率記錄下來,若記錄的詞頻高于指定值,則對(duì)這個(gè)中心詞和相鄰詞進(jìn)行互信息計(jì)算。若算出的值大于指定值,則判定這個(gè)中心詞和右邊相鄰的字為一個(gè)詞的組成部分,然后對(duì)右邊的字用同樣的方式記錄互信息,到互信息的值小于指定值為止。記錄停止計(jì)算后的詞語,為信息技術(shù)專業(yè)詞語候選詞。經(jīng)過互信息得到候選詞匯以后,通過鄰接熵篩選得到信息技術(shù)專業(yè)詞語。需要設(shè)置信息技術(shù)候選專業(yè)詞匯左右鄰接詞的鄰接熵臨界值,將大于

線圖,詞語搭配,互信息,線圖


哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-36-特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。箱線圖的繪制方法是:先找出一組數(shù)據(jù)的上邊緣、下邊緣、中位數(shù)和兩個(gè)四分位數(shù);然后,連接兩個(gè)四分位數(shù)畫出箱體;再將上邊緣和下邊緣與箱體相連接,中位數(shù)在箱體中間。因此本文通過繪制箱線圖和頻率分布直方圖進(jìn)行數(shù)據(jù)分析。圖4-1信息技術(shù)詞語搭配以互信息篩選頻率箱線圖針對(duì)詞頻篩選出的30251對(duì)搭配進(jìn)行MI值計(jì)算后,對(duì)MI值的統(tǒng)計(jì)結(jié)果繪制互信息的箱線圖和頻率分布圖。觀察并且分析圖4-1和圖4-2,可見MI值主要分布在[-2.4,15.00]間。圖4-2信息技術(shù)詞語搭配以互信息篩選頻率分布圖

【參考文獻(xiàn)】:
期刊論文
[1]基于互信息和邏輯回歸的新詞發(fā)現(xiàn)[J]. 陳先來,韓超鵬,安瑩,劉莉,李忠民,楊榮.  數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(08)
[2]基于依存搭配抽取技術(shù)的平面媒體語言監(jiān)測(cè)研究[J]. 邵艷秋,申資卓,劉世軍.  山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[3]基于中文賓州樹庫的依存句法分析器的比較[J]. 楊振鵬.  太原城市職業(yè)技術(shù)學(xué)院學(xué)報(bào). 2018(12)
[4]漢語復(fù)句中基于依存關(guān)系與最大熵模型的詞義消歧方法研究[J]. 李源,翟宏森,劉鳳嬌,黃文燦,楊夢(mèng)川.  計(jì)算機(jī)與數(shù)字工程. 2018(01)
[5]一種基于改進(jìn)互信息的文本分類方法[J]. 董露露.  合肥師范學(xué)院學(xué)報(bào). 2017(06)
[6]基于新詞發(fā)現(xiàn)與知識(shí)庫的微博命名實(shí)體識(shí)別研究——以教育話題為例[J]. 陳桂強(qiáng).  經(jīng)營管理者. 2017(11)
[7]基于詞向量的評(píng)價(jià)搭配抽取算法研究[J]. 楊令鐸,史海波,周曉鋒.  小型微型計(jì)算機(jī)系統(tǒng). 2016(10)
[8]基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法[J]. 夭榮朋,許國艷,宋健.  計(jì)算機(jī)應(yīng)用. 2016(10)
[9]基于共現(xiàn)詞卡方值的關(guān)鍵詞提取算法[J]. 時(shí)永賓,余青松.  計(jì)算機(jī)工程. 2016(06)
[10]基于上下文詞頻詞匯量指標(biāo)的新詞發(fā)現(xiàn)方法[J]. 邢恩軍,趙富強(qiáng).  計(jì)算機(jī)應(yīng)用與軟件. 2016(06)

碩士論文
[1]Spark下MPI/GPU并行計(jì)算處理機(jī)制的研究[D]. 鄭偉.中國海洋大學(xué) 2015
[2]現(xiàn)代漢語詞語搭配的自動(dòng)抽取方法[D]. 陳雅菊.華東師范大學(xué) 2006



本文編號(hào):3118496

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3118496.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1ac12***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
少妇高潮呻吟浪语91| 日韩欧美国产三级在线观看| 日韩成人午夜福利免费视频| 美女黄色三级深夜福利| 国内尹人香蕉综合在线| 在线免费观看黄色美女| 中文字幕精品一区二区三| 国产又粗又猛又大爽又黄同志| 国产永久免费高清在线精品 | 丝袜破了有美女肉体免费观看| 亚洲国产av在线观看一区| 欧洲精品一区二区三区四区| 色偷偷偷拍视频在线观看| 欧美日韩精品一区二区三区不卡| 日韩一区二区三区在线日| 中文字幕五月婷婷免费 | 免费观看在线午夜视频| 亚洲精品福利视频你懂的| 午夜小视频成人免费看| 国产情侣激情在线对白| 视频一区中文字幕日韩| 国产又爽又猛又粗又色对黄| 日韩国产亚洲欧美激情| 日本精品理论在线观看| 富婆又大又白又丰满又紧又硬| 丝袜美女诱惑在线观看| 国产又爽又猛又粗又色对黄| 男人把女人操得嗷嗷叫| 久久99青青精品免费观看| 高清免费在线不卡视频| 中文字幕欧美精品人妻一区| 日本福利写真在线观看| 久久精品一区二区少妇| 91欧美日韩中在线视频| 欧美日韩有码一二三区| 国产传媒高清视频在线| 伊人天堂午夜精品草草网| 国产剧情欧美日韩中文在线| 老司机精品线观看86| 亚洲综合香蕉在线视频| 亚洲最新的黄色录像在线|