天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

跨語言檢索數(shù)據(jù)集構(gòu)建方法研究與驗證

發(fā)布時間:2021-12-18 02:47
  隨著互聯(lián)網(wǎng)的飛速發(fā)展,用戶對網(wǎng)絡(luò)的信息需求越來越多,他們不僅想得到單語種的檢索信息,而且也想得到其他語種的檢索信息,因此,跨語言信息檢索受到了眾多研究人員的關(guān)注,是當前信息檢索的研究熱點之一。跨語言檢索系統(tǒng)可以將用戶輸入的一種語言的查詢在另一種語言或者多種語言的文檔中檢索相關(guān)信息,這有利于許多不了解外語的搜索引擎用戶檢索出更豐富的結(jié)果,獲得多語言的信息資料,從而滿足用戶的信息需求。跨語言信息檢索的研究具有重要意義:一方面,跨語言信息檢索技術(shù)的出現(xiàn)可以在一定程度上解決用戶對多語種的信息需求問題;另一方面,跨語言檢索是信息檢索的重要組成部分,對跨語言信息檢索進行研究是豐富和完善信息檢索理論體系的需要。目前,深度學習技術(shù)已經(jīng)在單語言檢索中取得了良好的效果,但在跨語言信息檢索中的應(yīng)用還不多,原因之一便是在跨語言信息檢索中沒有合適的數(shù)據(jù)可以用于訓練神經(jīng)檢索模型。為了更好的實現(xiàn)跨語言信息檢索,我們提出了一種簡單又靈活的數(shù)據(jù)集構(gòu)建方案。我們的英--中雙語數(shù)據(jù)集是由維基百科上的數(shù)據(jù)構(gòu)建而成的,它支持英文查詢和中文文檔之間的跨語言信息檢索模型的訓練和評估。我們的數(shù)據(jù)集包含三個部分,分別是英文查詢、中文文... 

【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校

【文章頁數(shù)】:55 頁

【學位級別】:碩士

【部分圖文】:

跨語言檢索數(shù)據(jù)集構(gòu)建方法研究與驗證


圖2-1?CBOW結(jié)構(gòu)圖??從圖中可以看出,CBOW模型預(yù)測的是圖中目??11??

概率分布,中心詞,數(shù)據(jù)輸出,概率分布


丨碩士學位論文???'?MASTKRS?THESIS??INPUT?PROJECTION?OUTPUT??^?i?w(t-2)??ff“-???Ww?G?H?Kl?二??X?Wcm)??丨?W(t+2)??圖2-2?Skip-gram模型結(jié)構(gòu)圖??Skip-gram的輸入數(shù)據(jù)是中心詞所對應(yīng)的one-hot編碼,模型訓練完畢后,將根??據(jù)訓練數(shù)據(jù)輸出一個概率分布,這個概率表示每個詞在中心詞作為輸入的基礎(chǔ)上輸??出的可能性。如果我們從訓練文檔中抽。保埃埃埃皞唯一不重復(fù)的單詞組成詞匯表,??并且想要表示一個具有500個特征的單詞,則投影層的權(quán)重矩陣應(yīng)該為10000行,??500列。通過最大化在中心詞詞向量的條件下上下文詞語,%_2,?Wm,?Wt+1,?Wt+2,...??出現(xiàn)的條件概率,來學習到上下文詞語的詞向量表示。同樣,我們的目標是使一系??列的輸出詞最接近真實的情況,因此,在訓練前,我們需要定義好損失函數(shù),更新??投影層的權(quán)重矩陣來減小誤差。訓練完畢后,投影層中迭代更新好的權(quán)重矩陣就是??我們要的詞向量。??2.?3文本編碼模型??2.3.1?Text-CNN?模型??CNN[M在計算機視覺領(lǐng)域表現(xiàn)出良好的效果,另外,它還可以應(yīng)用于文本分類。??文本分類的關(guān)鍵在于準確提煉文檔或者句子的中心思想,而提煉中心思想的方法是??把文本編碼為向量,基于這些向量去訓練分類器并分類。Text-CNN模型【31]包括四??層,依次是輸入層、卷積層、池化層和全連接層。??(1)輸入層??首先輸入一個一維的包含m個單詞的句子,為了使其可以進行卷積,需要先將??其轉(zhuǎn)化為二維矩陣表示,通常使用word2vec、glove【32

結(jié)構(gòu)圖,箭頭,模型,結(jié)構(gòu)圖


碩士學位論文??MASTER'S?TH1;SIS??類神經(jīng)網(wǎng)絡(luò)的顯著區(qū)別在于它在各層的神經(jīng)元之間仍然通過權(quán)值聯(lián)系。RNN模型的??結(jié)構(gòu)如下圖2-3所示。??(y?]?\?y<r?>>?:?/?y(t)、?f?yi.O?)??I:?i:?r’?I’??(L?)?(?L11'1'?)?(?L⑴)?:、)??^?不?4?“??輸出層(〇?)?(?〇(r)?)?(〇^?)??i?Unfold?扣?丫?丫?V??V?w?V?T?V?V??1?Z^X?.?_、W?,丄、、:?丄?'?廣'??隱藏Ji?h?]?w?循環(huán)層?huh“-i‘?l_!???h⑴—???h(l—*—??h^'??^?V?'?】<?Y?w??輸入尼丨x?j?x(f*"?1?丨x(t》〗?/?x(t*j)?1??f,?%?:?\?:??_、?/??V?/????y"??圖2-3?RNN模型基礎(chǔ)結(jié)構(gòu)??上圖2-3是RNN模型的基礎(chǔ)結(jié)構(gòu)圖,圖中通過箭頭表示做一次變換,也就是??說,箭頭是帶有權(quán)值的。圖的左邊表示折疊起來的樣子,圖的右邊表示展開之后的??樣子,在圖的左邊h右邊的弧形箭頭代表“循環(huán)”發(fā)生在隱藏層。在圖的右邊,??不難看到,在RNN模型的基礎(chǔ)結(jié)構(gòu)中,隱藏層中的各個神經(jīng)元就是通過權(quán)值聯(lián)系??的。也就是說,在各個時刻,隱藏層的前后之間是有一定的聯(lián)系的。??(2)?RNN的計算過程??上圖2-3顯示了一個RNN模型被展開成一個完整的神經(jīng)網(wǎng)絡(luò),從被展開的網(wǎng)絡(luò)??中,我們可以清楚地看出每一個神經(jīng)元的計算過程。RNN的計算過程如下所示:??是指在t時刻模型的輸入。同理,是指在t

【參考文獻】:
期刊論文
[1]基于多語言本體的中英跨語言信息檢索模型及實現(xiàn)[J]. 司莉,陳雨雪,曾粵亮.  圖書情報工作. 2017(01)
[2]一種新的基于中間語義的跨語言信息檢索模型[J]. 黃國斌,王明文,葉浩.  中文信息學報. 2009(02)
[3]跨語言檢索技術(shù):策略與方法[J]. 賴茂生,侯艷飛.  鄭州大學學報(哲學社會科學版). 2005(04)
[4]基于英漢機譯實現(xiàn)跨語言信息檢索[J]. 張玥杰,郭依昆,連理,吳立德.  小型微型計算機系統(tǒng). 2004(07)
[5]基于本體的跨語言信息檢索模型[J]. 王進,陳恩紅,張振亞,王煦法.  中文信息學報. 2004(03)
[6]跨語言信息檢索中的查詢翻譯方法研究[J]. 徐紅姣,王惠臨.  數(shù)字圖書館論壇. 2009 (04)

碩士論文
[1]基于雙語文檔相似度的跨語言文檔排序?qū)W習方法研究[D]. 黃健.昆明理工大學 2017
[2]跨語言信息檢索技術(shù)的研究與實現(xiàn)[D]. 牛亞萌.西安電子科技大學 2011
[3]基于統(tǒng)計語言模型的跨語言信息檢索[D]. 蘇綏綏.大連理工大學 2009



本文編號:3541472

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3541472.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4b76c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com