基于正文提取的信息分享和交流系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于正文提取的信息分享和交流系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 正文提取算法 信息分享和交流 信息過載
【摘要】:企業(yè)員工需要經(jīng)常性在網(wǎng)絡(luò)上查詢與公司業(yè)務(wù)以及解決方案相關(guān)的信息,然而隨著互聯(lián)網(wǎng)信息的發(fā)展,網(wǎng)絡(luò)信息量迅速增大,如何簡(jiǎn)潔有效的進(jìn)行信息分享和交流成為企業(yè)內(nèi)部比較重要的問題。當(dāng)前使用的信息分享和交流系統(tǒng)主要是基于網(wǎng)頁(yè)鏈接的分享,雖然能夠?qū)崿F(xiàn)基本功能,但在實(shí)際的應(yīng)用中卻有以下問題:一方面網(wǎng)頁(yè)過多廣告和無(wú)用信息會(huì)影響閱讀效率和積極性,另一方面網(wǎng)頁(yè)信息過載會(huì)影響信息檢索的效率和正確率。本文針對(duì)上述問題,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)公司內(nèi)部基于正文提取的信息分享和交流系統(tǒng)NISCS (Neverout Imformation Sharing and Communication System)。該系統(tǒng)以正文提取為基礎(chǔ),以網(wǎng)頁(yè)正文內(nèi)容為信息資源,提供相應(yīng)的信息分享和交流管理的功能。本文主要的工作如下:(1)對(duì)信息分享和交流系統(tǒng)以及正文提取算法進(jìn)行了相關(guān)研究。(2)描述了系統(tǒng)相關(guān)的技術(shù)背景,包括正文提取技術(shù)、協(xié)同過濾算法及相關(guān)開發(fā)技術(shù)。(3)針對(duì)NISCS系統(tǒng)進(jìn)行需求分析,介紹了NISCS系統(tǒng)的整體設(shè)計(jì)架構(gòu)以及各個(gè)功能模塊的設(shè)計(jì)方案以及數(shù)據(jù)庫(kù)的設(shè)計(jì)。(4)詳細(xì)描述了NISCS系統(tǒng)的具體實(shí)現(xiàn),特別對(duì)正文提取模塊進(jìn)行描述。NISCS系統(tǒng)利用設(shè)計(jì)正文提取算法實(shí)現(xiàn)了網(wǎng)頁(yè)正文信息的提取,利用SSH框架實(shí)現(xiàn)信息分享和交流方面的功能。目前該系統(tǒng)已經(jīng)完成,處于試用階段。
【關(guān)鍵詞】:正文提取算法 信息分享和交流 信息過載
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 引言11-16
- 1.1 項(xiàng)目背景11-12
- 1.2 信息分享和交流系統(tǒng)的研究現(xiàn)狀12-13
- 1.3 目前存在的問題以及本文主要研究的工作13-14
- 1.4 本文的組織結(jié)構(gòu)14-16
- 第二章 技術(shù)綜述16-23
- 2.1 正文提取相關(guān)技術(shù)16-18
- 2.1.1 HtmlUnit16-17
- 2.1.2 Dom樹介紹17
- 2.1.3 頁(yè)面正文提取技術(shù)17-18
- 2.2 協(xié)同過濾算法18-20
- 2.2.1 基于用戶的協(xié)同過濾算法19
- 2.2.2 基于項(xiàng)目的協(xié)同過濾算法19-20
- 2.3 系統(tǒng)開發(fā)相關(guān)技術(shù)20-22
- 2.3.1 Struts框架20-21
- 2.3.2 Spring21
- 2.3.3 Apache Mahout21-22
- 2.4 本章小結(jié)22-23
- 第三章 NISCS系統(tǒng)的分析與設(shè)計(jì)23-45
- 3.1 系統(tǒng)需求分析23-29
- 3.1.1 功能性需求23-29
- 3.1.2 算法需求29
- 3.2 系統(tǒng)概要設(shè)計(jì)29-31
- 3.3 系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)31-34
- 3.3.1 用戶管理數(shù)據(jù)庫(kù)實(shí)現(xiàn)32
- 3.3.2 文信息管理數(shù)據(jù)庫(kù)實(shí)現(xiàn)32-34
- 3.3.3 問答管理數(shù)據(jù)庫(kù)實(shí)現(xiàn)34
- 3.4 頁(yè)面爬取模塊詳細(xì)設(shè)計(jì)34-37
- 3.5 正文內(nèi)容提取模塊詳細(xì)設(shè)計(jì)37-40
- 3.6 系統(tǒng)服務(wù)管理模塊詳細(xì)設(shè)計(jì)40-43
- 3.6.1 文信息管理子模塊設(shè)計(jì)42-43
- 3.6.2 用戶管理子模塊設(shè)計(jì)43
- 3.6.3 問答管理子模塊設(shè)計(jì)43
- 3.7 本章小結(jié)43-45
- 第四章 NISCS系統(tǒng)的實(shí)現(xiàn)45-69
- 4.1 頁(yè)面爬取模塊實(shí)現(xiàn)45-50
- 4.2 正文內(nèi)容提取模塊實(shí)現(xiàn)50-58
- 4.2.1 基于特征文本密度的自動(dòng)提取實(shí)現(xiàn)50-57
- 4.2.2 基于瀏覽器插件的手動(dòng)提取實(shí)現(xiàn)57-58
- 4.3 系統(tǒng)服務(wù)管理模塊實(shí)現(xiàn)58-68
- 4.3.1 用戶管理59-60
- 4.3.2 問答管理60-61
- 4.3.3 正文信息管理61-68
- 4.4 本章小結(jié)68-69
- 第五章 總結(jié)與展望69-71
- 5.1 總結(jié)69
- 5.2 進(jìn)一步工作展望69-71
- 參考文獻(xiàn)71-73
- 致謝73-75
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 楊柳青;李曉東;耿光剛;;基于布局相似性的網(wǎng)頁(yè)正文內(nèi)容提取研究[J];計(jì)算機(jī)應(yīng)用研究;2015年09期
2 王燕嬌;;大學(xué)生社交網(wǎng)站用戶信息分享行為調(diào)查研究——以人人網(wǎng)為例[J];高校圖書情報(bào)論壇;2014年03期
3 陳永江;仲兆滿;陳宗華;;HTMLUNIT在網(wǎng)絡(luò)信息采集系統(tǒng)中的應(yīng)用[J];淮海工學(xué)院學(xué)報(bào)(自然科學(xué)版);2013年04期
4 姜仲;婁鈞;;基于云計(jì)算的知識(shí)分享系統(tǒng)的設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2012年11期
5 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年12期
6 張俊英;胡俠;卜佳俊;;網(wǎng)頁(yè)文本信息自動(dòng)提取技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2009年08期
7 馬宏偉;張光衛(wèi);李鵬;;協(xié)同過濾推薦算法綜述[J];小型微型計(jì)算機(jī)系統(tǒng);2009年07期
8 哈清;;信息資源共享的現(xiàn)狀和展望[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2007年12期
9 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 吳倩;楊逍;張兆心;;基于視覺特征的網(wǎng)頁(yè)信息提取[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 常江;基于Apache Mahout的推薦算法的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
2 曹曉菲;人人網(wǎng)信息分享行為研究[D];河北大學(xué);2013年
3 莫卓穎;基于語(yǔ)義DOM的WEB信息抽取[D];廣西師范大學(xué);2012年
4 胡金棟;網(wǎng)頁(yè)正文提取及去重技術(shù)研究[D];浙江大學(xué);2011年
,本文編號(hào):788223
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/788223.html