天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

分類學術文獻搜索引擎的應用和研究

發(fā)布時間:2017-10-26 10:31

  本文關鍵詞:分類學術文獻搜索引擎的應用和研究


  更多相關文章: 網絡信息處理 分類搜索引擎 網頁學術性判斷 網頁分類算法


【摘要】:隨著互聯網上信息數量的指數式增加,與學術信息相關的網站也在隨著增長。在日常對學術信息進行檢索時,我們發(fā)現,常用的學術搜索引擎在檢索的方式上,基本上都是對全文的關鍵字進行檢索,但是網頁中的大部分關鍵字并不是文章的主題關鍵字,所以檢索結果中就會出現很多與檢索關鍵字相關度不高的結果,并且在學術搜索引擎中,關于學術網站的分類,大多數都是粗略、非專業(yè)的分類,并不能給予用戶很好的指導作用,這些都會大大的降低用戶的使用體驗。為了解決上述問題,本文設計了一個基于中圖法分類的學術文獻搜索引擎。在網頁學術性判定方面,提出了基于貝葉斯算法的網頁學術性判斷算法,該算法通過對網頁內容特征、格式特征和結構特征的分析,實現了網頁學術性的判定;在分類方面,以中圖法的分類大綱作為分類目錄,提出了基于改進空間向量模型的學術網頁分類算法,該算法通過利用網頁主題關鍵字構建網頁向量空間,最后實現了網頁的正確分類。結合上述兩個關鍵算法,在系統(tǒng)中的網頁主題提取部分,采用Html Parser技術與正則表達式相結合的網頁主題提取算法,實現對抓取的網頁主題內容的獲取。分詞部分使用的是基于正向最大匹配算法。最后對抓取的網頁鏈接建立有效的索引,使用了開源的Lucene技術,利用Lucene構建高效的索引庫以滿足用戶查詢功能。最后結合以上技術,實現了一個分類學術文獻搜索引擎。
【關鍵詞】:網絡信息處理 分類搜索引擎 網頁學術性判斷 網頁分類算法
【學位授予單位】:長安大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3
【目錄】:
  • 摘要4-5
  • Abstract5-9
  • 第一章 緒論9-14
  • 1.1 課題研究背景及意義9-10
  • 1.2 國內外的研究現狀10-11
  • 1.3 目前存在的問題11-12
  • 1.4 研究的目標和內容12-14
  • 1.4.1 研究目標12-13
  • 1.4.2 研究內容13-14
  • 第二章 分類學術文獻搜索引擎總體設計14-20
  • 2.1 系統(tǒng)需求分析14-15
  • 2.2 系統(tǒng)設計要求15-16
  • 2.3 系統(tǒng)功能模塊設計16-19
  • 2.3.1 系統(tǒng)工作原理16
  • 2.3.2 系統(tǒng)功能模塊設計結構圖16-19
  • 2.4 本章小結19-20
  • 第三章 網頁學術性判斷算法設計與實現20-32
  • 3.1 網頁學術性判斷現狀20-22
  • 3.1.1 網頁學術性20
  • 3.1.2 網頁學術性判斷依據20-21
  • 3.1.3 網頁學術性判斷算法研究現狀21-22
  • 3.1.4 現有網頁學術性判斷算法存在的問題22
  • 3.2 基于貝葉斯算法的網頁學術性判斷算法設計與實現22-31
  • 3.2.1 貝葉斯定理22-23
  • 3.2.2 網頁特征提取23-24
  • 3.2.3 網頁學術性判別算法24-25
  • 3.2.4 K值計算25-28
  • 3.2.5 基于貝葉斯算法的網頁學術性判斷算法的實現28-31
  • 3.3 本章小結31-32
  • 第四章 學術網頁分類算法設計與實現32-52
  • 4.1 學術網頁分類需求32-36
  • 4.1.1 學術網頁分類現狀32-33
  • 4.1.2 中圖法分類33-36
  • 4.2 關鍵詞與中圖法分類的關系36-38
  • 4.3 常用的分類算法38-39
  • 4.4 基于改進向量空間模型的學術網頁分類算法設計39-51
  • 4.4.1 基于改進向量空間模型的學術網頁分類學術網頁分類算法40-46
  • 4.4.2 基于改進向量空間模型的學術網頁分類算法實現46-51
  • 4.5 本章小結51-52
  • 第五章 分類學術文獻搜索引擎的設計與實現52-65
  • 5.1 網絡爬蟲子系統(tǒng)的設計與實現52-54
  • 5.1.1 網絡爬子系統(tǒng)的技術分析52-53
  • 5.1.2 網絡爬子系統(tǒng)的系統(tǒng)流程圖53-54
  • 5.2 網頁內容提取模塊54-59
  • 5.2.1 網頁提取模塊技術分析54-55
  • 5.2.2 網頁提取算法設計55-57
  • 5.2.3 網頁提取模塊的實現57-59
  • 5.3 中文分詞模塊設計59-62
  • 5.3.1 中文分詞技術分析59-60
  • 5.3.2 分詞算法的設計60-61
  • 5.3.3 中文分詞算法的實現61-62
  • 5.4 索引模塊設計62-64
  • 5.4.1 索引模塊技術分析62-63
  • 5.4.2 索引模塊系統(tǒng)實現63-64
  • 5.5 本章小結64-65
  • 第六章 學術文獻搜索引擎測試65-74
  • 6.1 系統(tǒng)測試平臺65
  • 6.2 網頁抓取模塊實驗65-66
  • 6.3 中文分詞模塊實驗66
  • 6.4 網頁學術性判別模塊試驗66-68
  • 6.5 網頁分類模塊試驗68-70
  • 6.6 索引模塊建立試驗結果70-71
  • 6.7 程序的運行結果及界面信息71-73
  • 6.8 本章小結73-74
  • 第七章 結論與工作展望74-76
  • 7.1 結論74
  • 7.2 工作展望74-76
  • 參考文獻76-78
  • 攻讀碩士學位期間取得的研究成果78-79
  • 致謝79

【相似文獻】

中國期刊全文數據庫 前10條

1 張東準;網頁減肥工具大觀[J];電腦技術;2001年04期

2 黃家貞;彈指間網頁內碼隨心換[J];電腦知識與技術;2004年22期

3 黃家貞;彈指間網頁內碼隨心換[J];網絡與信息;2004年09期

4 宏偉;巧妙抓取防滾屏網頁[J];電腦愛好者;2005年20期

5 啟動;;淺談網頁文件引用[J];網絡與信息;2006年05期

6 小叢;;教你輕松抓取無法滾屏的網頁[J];計算機與網絡;2006年08期

7 花的神明;;追尋網頁上閃動的音樂[J];電腦迷;2007年12期

8 秋思;;收藏一個網頁只需一個文件[J];電腦愛好者(普及版);2009年05期

9 唐永明;;淺議網頁設計與制作[J];科技信息;2009年20期

10 蔣偉;徐義平;;個性化網頁淺析[J];魅力中國;2009年35期

中國重要會議論文全文數據庫 前7條

1 張曉明;奈一雄;齊炯明;安媛媛;張建楠;王靜嫻;;基于信息隱藏的網頁入侵檢測技術與實現[A];2009通信理論與技術新發(fā)展——第十四屆全國青年通信學術會議論文集[C];2009年

2 林政;呂雅娟;劉群;馬希榮;;基于雙語混和網頁的平行語料挖掘[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年

3 熊德蘭;鄢靖豐;陳靜;;基于論壇主題的網頁褒貶傾向性識別[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

4 隋春明;郭志豐;;網頁防篡改技術在電力信息網中的應用[A];二○○九年全國電力企業(yè)信息化大會論文集[C];2009年

5 王海源;石睿智;;高校網頁惡意代碼的檢測、清理與預防[A];中國高等教育學會教育信息化分會第十次學術年會論文集[C];2010年

6 戴玉剛;;藏文網頁采集技術研究[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年

7 劉世杰;唐世渭;楊冬青;王騰蛟;姚小波;;自動的WEB信息提取和集成[A];第十九屆全國數據庫學術會議論文集(技術報告篇)[C];2002年

中國重要報紙全文數據庫 前10條

1 范德生 鄧亞玲;守住網頁的秘密[N];電腦報;2005年

2 貞;網頁特效與瘦身專家[N];中國電腦教育報;2002年

3 網天;在自己的電腦上發(fā)布網頁[N];大眾科技報;2000年

4 楊興平 六子;我的網頁你別動[N];電腦報;2004年

5 楊耀祥;簡繁網頁批量互轉有妙法[N];中國電腦教育報;2003年

6 河北 李永波;網頁底圖顯個性[N];電腦報;2004年

7 ;讓你的網頁綻放最美麗的特效[N];中國電腦教育報;2004年

8 劉成富;編輯網頁有妙法[N];計算機世界;2004年

9 綿陽南山 iled;讓 Frontpage 2000 給我們“一了百了”[N];電腦報;2001年

10 陳宗偉;妙用查找替換功能編輯網頁[N];電腦報;2004年

中國博士學位論文全文數據庫 前4條

1 李浩;基于眼動特征的小屏幕設備網頁內容適配研究[D];華中師范大學;2013年

2 計華;Web Spam特征分析及其檢測技術研究[D];山東師范大學;2015年

3 陳定權;自動主題搜索的應用研究[D];中國科學院研究生院(文獻情報中心);2003年

4 胡燕;基于Web信息抽取的專業(yè)知識獲取方法研究[D];武漢理工大學;2007年

中國碩士學位論文全文數據庫 前10條

1 杜明明;基于關鍵詞的垃圾網頁判別研究[D];哈爾濱工業(yè)大學;2015年

2 劉慕凡;基于主題與語義的作弊網頁檢測方法研究[D];北京化工大學;2015年

3 賀知義;基于關鍵詞的搜索引擎網頁去重算法研究[D];華中師范大學;2015年

4 李小娟;基于分類技術的網頁去噪方法的研究[D];貴州師范大學;2015年

5 李亞東;網頁取證若干關鍵問題研究[D];合肥工業(yè)大學;2014年

6 孫健;基于程序切片的網頁過濾技術[D];南京郵電大學;2015年

7 肖蒙;基于多示例學習的網絡毒品信息檢索[D];北京交通大學;2016年

8 朱華麗;集成網頁質量特征的垃圾網頁檢測特征模型及模型驗證[D];西南交通大學;2016年

9 孟慶飛;基于統(tǒng)計的Web網頁分類算法研究[D];中國地質大學(北京);2016年

10 李楊;分類學術文獻搜索引擎的應用和研究[D];長安大學;2016年



本文編號:1098297

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1098297.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶dd938***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com