天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于條件隨機場的中文圖書主題自動標引研究

發(fā)布時間:2020-05-05 07:48
【摘要】:在當前信息量呈爆炸式增長的背景下,為充分有效的利用信息資源,我們必須對信息資源進行良好的組織和描述,以建立高效的信息檢索系統(tǒng)。圖書作為最重要的信息資源載體之一,對其進行良好的信息描述,包括分類標引和主題標引都具有重要的現(xiàn)實意義。與西文不同,中文一是沒有明顯的分隔標記,二是語義上的復(fù)雜性,故中文圖書的主題自動標引存在較大的困難。對此,本文嘗試將該問題轉(zhuǎn)化為序列標注問題,從而引入了信息抽取領(lǐng)域的機器學(xué)習(xí)方法,通過對大量已有的中文圖書主題手工標引數(shù)據(jù)的訓(xùn)練和學(xué)習(xí),產(chǎn)生序列實體之間語義關(guān)系和規(guī)則特征的模板,然后利用該模板進行機器預(yù)測,從而產(chǎn)生圖書主題詞。另外,在機器學(xué)習(xí)模型的選擇中,考慮到樸素貝葉斯模型和最大熵模型需要條件獨立性假設(shè),忽視了隨機變量之間事實存在的聯(lián)系;而隱馬爾可夫模型又存在標記偏置問題,且不能反映實體之間的長距離依賴,但幸運的是條件隨機場模型能避免上述問題,在序列標注領(lǐng)域有很好的表現(xiàn),故而本文采用條件隨機場模型。同時,注意到條件隨機場模型的參數(shù)選擇會影響到系統(tǒng)的標注性能,故而筆者從多個方面進行了多組對比試驗,確定了針對中文圖書主題標引這一特定問題的條件隨機場模型最佳參數(shù),包括訓(xùn)練集大小、特征模板字長窗口數(shù)、特征模板特征元數(shù)、特征函數(shù)頻次閾值、模型軟邊界參數(shù)。并用實驗探討了不同的觀察特征對主題標引的影響,確定了四個能夠提高標引性能的觀察特征。最終筆者建立了基于條件隨機場的中文圖書主題自動標引模型,用實驗證明了模型的可行性和實用性。然后總結(jié)了模型建立過程所需要注意的一些關(guān)鍵問題,并對后續(xù)工作進行了展望。
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1;G254.361

【相似文獻】

相關(guān)期刊論文 前10條

1 研;;WD—ZBJ中文文獻自動標引檢索系統(tǒng)通過鑒定[J];圖書情報知識;1987年03期

2 江孝感;中文部件詞組配特性的完備性問題[J];現(xiàn)代圖書情報技術(shù);1990年02期

3 葉志清,劉瑞紅,袁慶,胡修蘭;文獻信息計算機全文全自動標引方法[J];情報學(xué)報;2003年02期

4 顧燕萍;侯漢清;王曉紅;;中文圖書自動標引與分類加權(quán)設(shè)計研究[J];中國圖書館學(xué)報;2006年06期

5 王繼華,王懷惠,,吳澤宜;中文農(nóng)業(yè)科技文獻自動標引系統(tǒng)SDIC/CASDAIS[J];情報學(xué)報;1995年05期

6 朱麗;自動標引在自然語言提問中的應(yīng)用[J];情報理論與實踐;1998年03期

7 高崇謙;漢語文獻自動處理、標引和檢索系統(tǒng)的開發(fā)[J];現(xiàn)代圖書情報技術(shù);1989年02期

8 史繼紅,賴茂生;漢語自動標引加權(quán)方法試驗研究[J];現(xiàn)代圖書情報技術(shù);1994年03期

9 黃慶紅;自動標引與機輔標引[J];現(xiàn)代圖書情報技術(shù);2002年S1期

10 楊學(xué)山;;詞典在漢語科技文獻自動標引中的作用[J];情報科學(xué);1987年03期

相關(guān)會議論文 前10條

1 章成志;周冬敏;蘇新寧;;自動標引通用評價模型研究[A];2007年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2007年

2 王蘭成;;基于MM最小回溯和詞義規(guī)則的知識標引研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年

3 劉桐菊;于浩;趙鐵軍;;基于標引技術(shù)的特定領(lǐng)域XML文本自動生成[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

4 王蘭成;田梅;侯雙;;PLS:一種基于信息自動標引的最小推進分詞算法及其實現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年

5 章成志;;基于集成學(xué)習(xí)的自動標引方法研究[A];中國索引學(xué)會第三次全國會員代表大會暨學(xué)術(shù)論壇論文集[C];2008年

6 謝坤生;;關(guān)于后四年索引工作趨向的幾點思考[A];中國索引學(xué)會第三次全國會員代表大會暨學(xué)術(shù)論壇論文集[C];2008年

7 賀七一;;黃頁分類計算機自動標引的實現(xiàn)[A];2004年度中國索引學(xué)會年會暨學(xué)術(shù)討論會論文集[C];2004年

8 彭莉;;研制中醫(yī)藥文獻自動標引系統(tǒng)的設(shè)想[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年

9 李素建;李蕓;紀鷺寧;徐睿峰;;詞典匹配和串頻統(tǒng)計相結(jié)合在自動主題分析中的應(yīng)用[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

10 薛春香;夏祖奇;侯漢清;;基于語料和基于標引經(jīng)驗的自動分類模式比較[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

相關(guān)重要報紙文章 前10條

1 王萍;Web文本的知識化管理[N];計算機世界;2006年

2 記者 舒晉瑜;在家也能續(xù)借“國圖”中文書[N];中華讀書報;2005年

3 肖港;谷歌在港推廣圖書搜尋服務(wù)[N];中國新聞出版報;2007年

4 記者  李晉悅;Google圖書搜索上線[N];中華讀書報;2007年

5 ;“博庫”網(wǎng)的“O”們[N];中國信息報;2000年

6 本報記者 王玉梅;李祖澤 愛國出版50年[N];中國新聞出版報;2010年

7 陳萬雄;華文出版10年風(fēng)雨歷程[N];中國圖書商報;2005年

8 本報記者 馬國倉;“全民讀書月”:冬天里燃起一把火[N];中國新聞出版報;2005年

9 本報記者 楊春凌;點擊鼠標把圖書館搬回家[N];貴州日報;2009年

10 江山;超星欲退出數(shù)圖行業(yè)[N];中華工商時報;2007年

相關(guān)博士學(xué)位論文 前10條

1 劉磊;概念內(nèi)涵屬性計算研究[D];上海交通大學(xué);2011年

2 段建勇;多詞表達抽取及其應(yīng)用[D];上海交通大學(xué);2007年

3 楊為民;基于場論的信息檢索模型的研究[D];安徽大學(xué);2007年

4 魏立飛;基于隨機場模型的遙感影像變化檢測方法研究[D];武漢大學(xué);2011年

5 邵曉鵬;紅外紋理生成方法研究[D];西安電子科技大學(xué);2005年

6 儲節(jié)旺;企業(yè)應(yīng)對危機的知識管理問題研究:能力、體系、機制與技術(shù)[D];南昌大學(xué);2006年

7 y囈黃

本文編號:2649783


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2649783.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶25e9d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com