基于深度學習的中文文檔檢索的應(yīng)用
本文關(guān)鍵詞:基于林業(yè)科學數(shù)據(jù)的語義檢索研究,由筆耕文化傳播整理發(fā)布。
《吉林大學》 2015年
基于深度學習的中文文檔檢索的應(yīng)用
孫建文
【摘要】:社會的進步往往伴隨著生產(chǎn)資料的提高,人們通過各種各樣的社會手段不斷來滿足自身的需求的方式也變得越來越智能。隨著近些年互聯(lián)網(wǎng)技術(shù)的普及,人們從網(wǎng)絡(luò)上搜尋所需求的信息的機會也就越來越多。隨著人們需求的提高,信息檢索技術(shù)也就廣大的人民大眾擺在了聚光燈下。特別是近10年以來,隨著大數(shù)據(jù)時代的到來,文本、圖片、語音等等越來越多的資源不斷地填充著網(wǎng)絡(luò)數(shù)據(jù)庫,有資料表明,這10年產(chǎn)生的數(shù)據(jù)是人類歷史上產(chǎn)生數(shù)據(jù)之和[1]。這樣就帶來了一個問題,如何從浩瀚的數(shù)據(jù)中快速高效地挖取有用的信息。很顯然,傳統(tǒng)老套的信息檢索模型已經(jīng)難以滿足廣大人群的迫切需求,人們需要找尋另一種方式來處理,機器學習技術(shù)應(yīng)運而生。本文針對大數(shù)據(jù)背景下平行文檔難以快速被挖掘的問題,提出了機器學習技術(shù)中最前沿的深度學習技術(shù),用于快速準確抽取中文相關(guān)性文檔,并且充分分析了實際檢索系統(tǒng)中可能出現(xiàn)的一些情況的影響。 首先,分析中文平行文檔的特性,接著全面解析深度學習技術(shù)的特點。并通過實驗了解傳統(tǒng)信息檢索模型和目前使用較為廣泛的信息檢索模型在應(yīng)對中文平行文檔檢索的優(yōu)缺點,以及各方面的效率。接著通過實驗驗證深度神經(jīng)網(wǎng)絡(luò)在這個方面的各項指標;實驗證明通過控制隱藏層的層數(shù),和每一層的結(jié)點個數(shù)可以更加準確,全面的檢索大量含有隱含信息的中文平行文檔。 其次,,本文將深度學習技術(shù)與傳統(tǒng)信息檢索模型相結(jié)合的新模型來解決深度學習模型訓練時間較長的問題。本文通過參數(shù)調(diào)整具體包括調(diào)整深度神經(jīng)網(wǎng)絡(luò)中隱藏層的個數(shù)及其每一個隱藏層所對應(yīng)的結(jié)點的個數(shù),來優(yōu)化整個神經(jīng)網(wǎng)絡(luò)。最后本文提出利用Google最新深度學習工具Doc2Vec,將每一篇文章都轉(zhuǎn)化為詞向量的形式,通過深度神經(jīng)網(wǎng)絡(luò)重新訓練,結(jié)果表明通過將文章轉(zhuǎn)化為詞向量的形式可以在某些方面更好反映出文檔內(nèi)在具體含義,從而更加準確、全面地檢索出平行文檔針對某一個特定的用戶返回與其對應(yīng)的個性化檢索信息。 最后,通過可視化編程設(shè)計并實現(xiàn)了基于深度學習的中文平行文檔的信息檢索系統(tǒng)。該系統(tǒng)支持用戶通過某些檢索詞,更加快速全面地檢索出所需要的中文平行文檔。
【關(guān)鍵詞】:
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 劉建偉;劉媛;羅雄麟;;深度學習研究進展[J];計算機應(yīng)用研究;2014年07期
2 徐愷英;王碩;張射;常改;;基于人工神經(jīng)網(wǎng)絡(luò)的個性化檢索模型[J];圖書情報工作;2011年02期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王益明;崔莎;王婧文;;2011年我國情報學研究進展[J];國家圖書館學刊;2012年03期
2 馬寧;劉怡君;;基于超網(wǎng)絡(luò)中超邊排序算法的網(wǎng)絡(luò)輿論領(lǐng)袖識別[J];系統(tǒng)工程;2013年09期
3 左欣;羅立民;沈繼鋒;于化龍;;基于多源異質(zhì)特征的緊致二進制編碼學習(英文)[J];Journal of Southeast University(English Edition);2013年04期
4 馬寶君;張楠;孫濤;;智慧城市背景下公眾反饋大數(shù)據(jù)分析:概率主題建模的視角[J];電子政務(wù);2013年12期
5 易軍凱;田立康;;基于類別區(qū)分度的文本特征選擇算法研究[J];北京化工大學學報(自然科學版);2013年S1期
6 代寬;趙輝;韓冬;宋天勇;;基于向量空間模型的中文網(wǎng)頁主題特征項抽取[J];吉林大學學報(信息科學版);2014年01期
7 吳瑞紅;呂學強;;基于互聯(lián)網(wǎng)的術(shù)語定義辨析[J];北京大學學報(自然科學版);2014年01期
8 羅琦;;一種最大分類間隔SVDD的多類文本分類算法[J];電訊技術(shù);2014年04期
9 劉莉;朱丹浩;;公安信息資源整合中的統(tǒng)一檢索自動加權(quán)系統(tǒng)研究[J];江蘇警官學院學報;2014年02期
10 方躍勝;姚宏亮;;基于電力公司的多格式文檔智能信息檢索系統(tǒng)的設(shè)計與實現(xiàn)[J];重慶科技學院學報(自然科學版);2014年04期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 劉權(quán);郭武;;基于核主成分分析的話題跟蹤系統(tǒng)[A];第十二屆全國人機語音通訊學術(shù)會議(NCMMSC'2013)論文集[C];2013年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 王寶勛;面向網(wǎng)絡(luò)社區(qū)問答對的語義挖掘研究[D];哈爾濱工業(yè)大學;2013年
2 張俊三;Web中相關(guān)實體發(fā)現(xiàn)研究[D];北京交通大學;2013年
3 張乃靜;基于林業(yè)科學數(shù)據(jù)的語義檢索研究[D];中國林業(yè)科學研究院;2013年
4 劉瀏;基于內(nèi)容的重排列視頻檢索技術(shù)研究[D];上海交通大學;2013年
5 呂英杰;網(wǎng)絡(luò)健康社區(qū)中的文本挖掘方法研究[D];上海交通大學;2013年
6 張琦;基于聚合場模型的數(shù)據(jù)競爭算法及其應(yīng)用研究[D];哈爾濱工程大學;2013年
7 譚琦;面向跨領(lǐng)域文檔分類的異構(gòu)遷移學習算法研究[D];華南理工大學;2013年
8 李金城;大規(guī)模圖像檢索和識別中的神經(jīng)網(wǎng)絡(luò)學習及其應(yīng)用[D];華南理工大學;2013年
9 張琳;基于引用聚類的多文檔自動文摘技術(shù)研究[D];大連海事大學;2013年
10 蕭箏;客戶需求信息處理理論和方法研究[D];武漢理工大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 董錦霞;基于菱形思維的概念檢索模型研究[D];大連理工大學;2011年
2 鄭曉潔;蘋果樹腐爛病預測模型研究[D];西北農(nóng)林科技大學;2011年
3 張濤;支持個性化的海運貨代服務(wù)系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學;2011年
4 常改;圖書館3.0個性化服務(wù)模型研究[D];吉林大學;2012年
5 李東亮;不確定多媒體數(shù)據(jù)個性化查詢處理系統(tǒng)設(shè)計與實現(xiàn)[D];華中科技大學;2012年
6 謝娜娜;基于不均衡數(shù)據(jù)集的文本分類算法研究[D];重慶大學;2013年
7 王強;非均衡文本分類的特征選擇研究[D];南京師范大學;2013年
8 項峻求;文本分類在電子政務(wù)平臺中的應(yīng)用與研究[D];南昌大學;2013年
9 陳方瓊;融合多特征的專家列表排序?qū)W習方法研究[D];昆明理工大學;2013年
10 余峰;項目評審專家推薦方法研究[D];昆明理工大學;2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 朱前東;龐弘燊;;搜索引擎?zhèn)性化檢索研究綜述[J];圖書館學刊;2008年06期
2 詹越;;基于BP人工神經(jīng)網(wǎng)絡(luò)的知識管理戰(zhàn)略選擇研究[J];圖書情報工作;2009年12期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳麗華;羅云鋒;張宏斌;;信息檢索模型及相關(guān)性算法的研究[J];情報雜志;2006年12期
2 鐘振鴻;印潤遠;于慶梅;;基于本體驅(qū)動的法律信息檢索模型[J];微計算機信息;2007年30期
3 劉偉成;孫吉紅;;跨語言信息檢索模型應(yīng)用研究[J];情報雜志;2007年10期
4 張小芳;;幾種常見信息檢索模型的分析與評價[J];情報雜志;2008年03期
5 張艷;;信息檢索模型的比較研究[J];電腦知識與技術(shù);2009年08期
6 邢國林;王基一;岑婷婷;;覆蓋粒計算在信息檢索模型中的應(yīng)用[J];河南師范大學學報(自然科學版);2009年02期
7 李清茂;楊興江;周相兵;馬洪江;;基于主題圖的本體信息檢索模型研究[J];計算機應(yīng)用;2010年01期
8 田歡;;淺析信息檢索模型的現(xiàn)狀及趨勢[J];計算機光盤軟件與應(yīng)用;2012年01期
9 於曉慶;;信息檢索模型研究概述[J];成功(教育);2012年12期
10 胡兆芹;;傳統(tǒng)信息檢索模型及其優(yōu)化策略研究[J];情報探索;2013年02期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 梅偉;劉惟一;;基于可信度的信息檢索模型[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2002年
2 黃名選;嚴小衛(wèi);張師超;;基于完全加權(quán)關(guān)聯(lián)規(guī)則挖掘的信息檢索模型[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
3 黃國斌;王明文;葉浩;;一種新的基于中間語義的跨語言信息檢索模型[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
4 張文雅;宋大為;趙曉朝;張鵬;李競飛;;基于可讀性的信息檢索模型研究[A];第十二屆全國人機語音通訊學術(shù)會議(NCMMSC'2013)論文集[C];2013年
5 李廣原;馮嘉禮;;基于屬性坐標的文本信息檢索模型[A];廣西計算機學會2005年學術(shù)年會論文集[C];2005年
6 普東航;唐常杰;元昌安;廖勇;張?zhí)鞈c;于中華;;一種基于相鄰地址的信息檢索模型AAM[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2004年
7 盛俊;王明文;余俊英;;一種基于潛在語義的Markov網(wǎng)絡(luò)信息檢索模型[A];第二屆全國信息檢索與內(nèi)容安全學術(shù)會議(NCIRCS-2005)論文集[C];2005年
8 吳晨;張全;繆建明;韋向峰;;自然語言語義理解下的信息檢索模型[A];第三屆學生計算語言學研討會論文集[C];2006年
9 孫斌;呂學強;蘇祺;;義項矩陣模型SMM簡介[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年
中國博士學位論文全文數(shù)據(jù)庫 前7條
1 楊為民;基于場論的信息檢索模型的研究[D];安徽大學;2007年
2 徐建民;基于術(shù)語關(guān)系的貝葉斯網(wǎng)絡(luò)信息檢索模型擴展研究[D];天津大學;2007年
3 陳圣兵;基于商空間理論的海量信息檢索模型的研究[D];安徽大學;2010年
4 程凡;基于排序?qū)W習的信息檢索模型研究[D];中國科學技術(shù)大學;2012年
5 涂新輝;基于概念的信息檢索模型研究[D];華中師范大學;2012年
6 梁作鵬;面向Web的XML檢索關(guān)鍵技術(shù)研究[D];東南大學;2005年
7 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];中南大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 丁志剛;基于類別意圖的信息檢索模型[D];北京郵電大學;2009年
2 任克江;基于地理信息的檢索和用戶數(shù)據(jù)挖掘[D];大連理工大學;2013年
3 王慶華;用戶個性化信息檢索模型的設(shè)計與實現(xiàn)[D];大連理工大學;2004年
4 黃果;文本信息檢索模型研究[D];西南大學;2007年
5 張東偉;中英文跨語言信息檢索模型研究[D];黑龍江大學;2006年
6 廖亞男;基于多層Markov網(wǎng)絡(luò)的信息檢索模型[D];江西師范大學;2014年
7 左家莉;基于Markov網(wǎng)絡(luò)的信息檢索模型[D];江西師范大學;2005年
8 王艷萍;基于XML的移動信息檢索模型研究[D];大連理工大學;2006年
9 甘麗新;基于Markov概念的信息檢索模型[D];江西師范大學;2007年
10 姜鵬;Kullback-Leibler距離檢索框架下文摘在檢索中的應(yīng)用[D];昆明理工大學;2011年
本文關(guān)鍵詞:基于林業(yè)科學數(shù)據(jù)的語義檢索研究,由筆耕文化傳播整理發(fā)布。
本文編號:177061
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/177061.html