天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于hLDA的圖書內(nèi)部主題層次組織研究

發(fā)布時間:2017-07-02 22:03

  本文關(guān)鍵詞:基于hLDA的圖書內(nèi)部主題層次組織研究


  更多相關(guān)文章: 電子圖書 主題模型 hLDA 上下文 多主題文檔 層次


【摘要】:隨著數(shù)字出版技術(shù)的不斷提高和進步,電子圖書資源呈現(xiàn)爆炸式的增長。電子圖書以它獨有的數(shù)字化、方便性為人們所接受,并逐漸改變?nèi)藗儌鹘y(tǒng)的閱讀習(xí)慣。然而,電子圖書雖然被數(shù)字化了,但由于其長文檔性,人們?nèi)匀幻媾R著內(nèi)容太多而時間、精力不夠的問題,并沒有極大地發(fā)揮數(shù)字圖書可分解、可快速定位的優(yōu)點。因此,研究如何快速準確地對圖書信息資源進行良好的組織和描述一直是研究人員的目標和追求。圖書主題分析是文本分析的一個應(yīng)用分支,它通過抽取圖書的主題信息,識別主題之間的語義聯(lián)系,并將這些主題信息進行有機組織,勾勒出文檔的主題結(jié)構(gòu)樹,來幫助用戶更高效的搜索、定位和分析圖書內(nèi)容,使得用戶獲取圖書知識的過程變得更簡潔、方便、高效,F(xiàn)階段由于文本分析大都從目次、段落甚至全文的角度,對于主題之間的關(guān)系、層次信息以及上下文環(huán)境少有考慮,并不能為用戶提供滿意的分析結(jié)果。此外,當前的電子圖書主題多樣、結(jié)構(gòu)復(fù)雜,導(dǎo)致現(xiàn)有的文本分析普遍存在低效性和盲目性的問題。因此,如何有效地對圖書進行組織分析成為迫切需要解決的問題。本文主要包括以下幾部分工作:首先,本文提出了一種基于主題的圖書知識組織分析方法,在深入分析現(xiàn)有文檔組織理論的基礎(chǔ)上,結(jié)合圖書特點,利用層次主題模型及上下文信息構(gòu)建圖書內(nèi)部主題層次組織模型,挖掘圖書內(nèi)部潛在的主題信息。其次,在模型建立的基礎(chǔ)上,利用計算機技術(shù),根據(jù)需求分析設(shè)計并實現(xiàn)了圖書內(nèi)部主題分析原型系統(tǒng)。然后,通過實驗證明了圖書內(nèi)部主題層次組織系統(tǒng)的可行性和實用性。并與圖書目錄系統(tǒng)進行對比,對該系統(tǒng)的效果進行評價。實驗結(jié)果表明,該系統(tǒng)在圖書主題分析上具有很高的準確率。最后,本文對研究工作中存在的問題進行了總結(jié),并對后續(xù)研究方向進行了展望。
【關(guān)鍵詞】:電子圖書 主題模型 hLDA 上下文 多主題文檔 層次
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:G254
【目錄】:
  • 摘要6-7
  • Abstract7-10
  • 1 緒論10-16
  • 1.1 研究背景及意義10-12
  • 1.2 國內(nèi)外研究綜述12-14
  • 1.2.1 國內(nèi)外關(guān)于文檔組織研究的現(xiàn)狀12-13
  • 1.2.2 存在的問題13-14
  • 1.3 研究內(nèi)容與創(chuàng)新點14
  • 1.4 論文的結(jié)構(gòu)安排14-16
  • 2 相關(guān)理論基礎(chǔ)16-25
  • 2.1 文檔組織結(jié)構(gòu)理論16-20
  • 2.1.1 語篇性理論16-17
  • 2.1.2 文本拓撲理論17-18
  • 2.1.3 修辭結(jié)構(gòu)理論18-19
  • 2.1.4 篇章系統(tǒng)性理論19-20
  • 2.2 hLDA層次主題模型20-23
  • 2.2.1 中國餐館過程(Chinese Restaurant Process)20-21
  • 2.2.2 嵌套的中國餐館過程21-23
  • 2.2.3 概率后驗推理23
  • 2.3 本章小結(jié)23-25
  • 3 圖書內(nèi)部主題層次組織理論模型研究25-33
  • 3.1 建模思想25-26
  • 3.2 圖書內(nèi)部主題層次組織模型構(gòu)建26-31
  • 3.2.1 文檔預(yù)處理26-28
  • 3.2.2 層次主題挖掘28-29
  • 3.2.3 依據(jù)上下文信息進行段落歸并29-31
  • 3.3 本章小結(jié)31-33
  • 4 圖書內(nèi)部主題層次組織原型系統(tǒng)設(shè)計與實現(xiàn)33-44
  • 4.1 系統(tǒng)需求分析33-34
  • 4.2 系統(tǒng)開發(fā)環(huán)境34
  • 4.3 系統(tǒng)體系架構(gòu)34-36
  • 4.4 系統(tǒng)功能模塊設(shè)計及實現(xiàn)36-41
  • 4.4.1 文本預(yù)處理模塊36-37
  • 4.4.2 層次主題挖掘模塊37-39
  • 4.4.3 上下文段落歸并模塊39-41
  • 4.5 系統(tǒng)展示41-43
  • 4.6 本章小結(jié)43-44
  • 5 實驗與分析44-54
  • 5.1 實驗環(huán)境44
  • 5.2 實驗語料44
  • 5.3 評估標準44-46
  • 5.3.1 查全率與查準率44-45
  • 5.3.2 用戶滿意度45-46
  • 5.4 實驗方案46
  • 5.5 實驗過程46-49
  • 5.5.1 預(yù)處理46-48
  • 5.5.2 參數(shù)設(shè)置48-49
  • 5.6 實驗結(jié)果及分析49-53
  • 5.7 本章小結(jié)53-54
  • 6 結(jié)論54-56
  • 6.1 總結(jié)54-55
  • 6.2 展望55-56
  • 參考文獻56-60
  • 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文及參與科研項目情況60-61
  • 致謝61

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 吳玲達,謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動收集與處理系統(tǒng)的研制[J];計算機應(yīng)用研究;2005年05期

2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機工程與應(yīng)用;2005年31期

3 周亦鵬;杜軍平;;基于時空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年08期

4 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計算機信息;2010年27期

5 何利益;陸國鋒;羅鵬;;動態(tài)新聞主題信息推薦系統(tǒng)設(shè)計[J];指揮信息系統(tǒng)與技術(shù);2013年04期

6 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計算機仿真;2009年10期

7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計算機研究與發(fā)展;2012年06期

8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期

9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報技術(shù);2008年12期

10 朱夢麟;李光耀;周毅敏;;基于樹比較的Web頁面主題信息抽取[J];微型機與應(yīng)用;2011年19期

中國重要會議論文全文數(shù)據(jù)庫 前6條

1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年

3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評論發(fā)現(xiàn)[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條

1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年

2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年

3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年

4 薛利;面向證券應(yīng)用的WEB主題觀點挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 解琰;主題優(yōu)化過濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年

2 楊春艷;基于語義和引用加權(quán)的文獻主題提取研究[D];浙江大學(xué);2015年

3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年

4 黃志;基于維基歧義頁的搜索結(jié)果聚類方法研究[D];北京理工大學(xué);2015年

5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年

6 任昱鳳;基于Hadoop的分布式主題爬蟲及其實現(xiàn)[D];陜西師范大學(xué);2015年

7 韓琳;基于貝葉斯主題爬蟲的研究與實現(xiàn)[D];北京工業(yè)大學(xué);2015年

8 黎楠;面向?qū)@闹黝}挖掘技術(shù)研究及應(yīng)用[D];北京工業(yè)大學(xué);2015年

9 劉學(xué)江;超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團挖掘[D];電子科技大學(xué);2015年

10 黃文強;安卓技術(shù)信息的主題爬蟲技術(shù)研究與實現(xiàn)[D];東南大學(xué);2015年


  本文關(guān)鍵詞:基于hLDA的圖書內(nèi)部主題層次組織研究


  更多相關(guān)文章: 電子圖書 主題模型 hLDA 上下文 多主題文檔 層次


,

本文編號:511409

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/511409.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶18fc9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com