天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于J2EE的網(wǎng)絡(luò)輿情分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-09-19 18:42
【摘要】:隨著網(wǎng)絡(luò)信息的極速膨脹,各類新聞網(wǎng)站,論壇上的信息越來越龐大。在如此龐大的數(shù)據(jù)中,快速且準(zhǔn)確的找到和用戶關(guān)心的主題有關(guān)的新聞條目或是論壇主題變得越來越困難。目前Google、百度這樣的搜索引擎提供的爬取結(jié)果的主題過于廣泛,時(shí)效性也難以保證,加上一些和關(guān)鍵詞相關(guān)的結(jié)果位置被購買,往往導(dǎo)致檢索的時(shí)效性,相關(guān)性,人工檢索的效率皆不如人意,滿足不了特定領(lǐng)域用戶的精準(zhǔn)搜索的需要。為此本文的目的就是實(shí)現(xiàn)一個(gè)精準(zhǔn)的對頁面時(shí)效性,網(wǎng)絡(luò)內(nèi)容相關(guān)性的和搜索關(guān)鍵詞高度匹配的網(wǎng)絡(luò)爬蟲系統(tǒng),加之準(zhǔn)確的分類分析,以達(dá)到網(wǎng)絡(luò)輿情監(jiān)控的目的。 隨著互聯(lián)網(wǎng)治安越來越成為構(gòu)建和諧精神文明建設(shè)的一個(gè)重要組成部分,對網(wǎng)絡(luò)水軍與網(wǎng)絡(luò)敵對勢力的防范,對來自人民的聲音的聽取變得越來越重要。而這也導(dǎo)致了國內(nèi)目前做輿論監(jiān)控為目的的網(wǎng)絡(luò)爬蟲系統(tǒng)的公司層出不窮,本人實(shí)習(xí)所在單位就是這樣一家專注于特定用戶群的互聯(lián)網(wǎng)公司。 本文所描述的網(wǎng)絡(luò)輿情分析系統(tǒng)的數(shù)據(jù)來源為目前國內(nèi)主要微博、論壇(如西祠,天涯,新浪,貼吧)和新聞網(wǎng)站(新浪等門戶),以及百度,奇虎新聞等專業(yè)搜索引擎的結(jié)果頁面。網(wǎng)頁遞歸地抓取完成后使用HtmlParser這樣一個(gè)開源的網(wǎng)頁解析工具解析出主要結(jié)構(gòu),進(jìn)行基于時(shí)間,主題相關(guān)性,內(nèi)容相關(guān)度的分類過濾,最后更新到數(shù)據(jù)庫中供前臺Jsp頁面訪問。爬蟲支持定時(shí)任務(wù)與ad-hoc即時(shí)觸發(fā)。邏輯層面使用了一些如Spring、Hibernate、Struts這樣的開源技術(shù)來構(gòu)建MVC-based的業(yè)務(wù)處理系統(tǒng),后臺的采集、解析、過濾等模塊還使用了諸如Berkeley DB、Apache Lucene、HtmlParser、MMAnalyzer等開源技術(shù)來完善系統(tǒng)。 在這個(gè)系統(tǒng)中本人設(shè)計(jì)并實(shí)現(xiàn)了采集中心子模塊、解析模塊以及分類分析模塊。論文主要描述了這幾大模塊的相關(guān)工作,包括需求分析、具體設(shè)計(jì)(流程圖、類圖)以及關(guān)鍵代碼的實(shí)現(xiàn)。最后描述了系統(tǒng)的缺點(diǎn)與待改進(jìn)之處。
[Abstract]:With the rapid expansion of network information, all kinds of news websites and forums are getting more and more information. In such huge data, it is becoming more and more difficult to find news items or forum topics related to topics of concern to users quickly and accurately. At present, search engines such as Google, Baidu provide a wide range of topics for crawling results, and the timeliness is difficult to guarantee. In addition, some key words related to the results are purchased, which often leads to the timeliness and relevance of retrieval. The efficiency of manual retrieval is not satisfactory, which can not meet the needs of users in a specific field of accurate search. Therefore, the purpose of this paper is to achieve a precise web crawler system with the accuracy of page timeliness, network content correlation and high matching of search keywords, together with accurate classification and analysis, in order to achieve the purpose of monitoring network public opinion. As Internet public order becomes an important part of constructing harmonious spiritual civilization, it is more and more important to guard against the network naval forces and network hostile forces, and to listen to the voices of the people. This has also led to the emergence of domestic public opinion monitoring for the purpose of the network crawler system companies, my internship in the unit is such a focus on specific user groups of Internet companies. The data sources of the network public opinion analysis system described in this paper are currently the main domestic Weibo, forums (such as Xici, Tianya, Sina, Tiefa) and news websites (Sina and other portals), as well as Baidu, Qihoo News and other professional search engine results page. After the web page is fetched recursively, we use HtmlParser, an open source web page parsing tool, to analyze the main structure and filter it based on time, topic correlation and content correlation. Finally, it is updated to the database for the foreground Jsp page to visit. Reptiles support timing tasks and ad-hoc immediate triggers. At the logic level, some open source technologies such as Spring,Hibernate,Struts are used to build MVC-based business processing system, and the modules of background acquisition, parsing, filtering and so on are used to perfect the system by using open source technology such as Berkeley DB,Apache Lucene,HtmlParser,MMAnalyzer. In this system, I designed and implemented the collection center sub-module, analysis module and classification analysis module. This paper mainly describes the related work of these modules, including requirements analysis, specific design (flow chart, class diagram) and the implementation of key codes. In the end, the shortcomings of the system and the points for improvement are described.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 孫宏彬,蘇長齡;基于J2EE三層結(jié)構(gòu)分布系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];齊齊哈爾大學(xué)學(xué)報(bào);2002年04期

2 潘錦基,周良,丁秋林;基于J2EE的物流信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2003年26期

3 姚睿,彭艦,周明康;基于J2EE的學(xué)習(xí)管理系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2003年09期

4 楊鏖丞,孟波;基于J2EE構(gòu)建B2B電子商務(wù)平臺[J];計(jì)算機(jī)應(yīng)用研究;2003年03期

5 方鵬,霍亮;基于J2EE環(huán)境下EJB結(jié)構(gòu)的Web GIS實(shí)現(xiàn)[J];測繪工程;2003年03期

6 陳波,陳芨熙,楊志雄,顧新建;基于J2EE的分布式技術(shù)及在分布式制造系統(tǒng)中的應(yīng)用[J];制造業(yè)自動(dòng)化;2003年05期

7 王新房,肖勝,陳春娥;基于J2EE的變電工區(qū)管理信息系統(tǒng)的研究與設(shè)計(jì)[J];河北理工學(xué)院學(xué)報(bào);2004年01期

8 劉宏;J2EE與.NET在Web Services領(lǐng)域之比較[J];電腦學(xué)習(xí);2004年04期

9 駱華;電力營銷管理信息系統(tǒng)的開發(fā)與應(yīng)用[J];江西電力;2004年04期

10 孫泠;存儲(chǔ)不滿足[J];軟件世界;2004年09期

相關(guān)會(huì)議論文 前10條

1 任紅博;邢春曉;;基于J2EE的政務(wù)構(gòu)件庫管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年

2 段蓉;高敏;;基于J2EE架構(gòu)的開放式電子電工實(shí)驗(yàn)管理系統(tǒng)[A];全國高等學(xué)校電子技術(shù)研究會(huì)論文集[C];2010年

3 張偉燕;席傳裕;;J2EE中異步Web服務(wù)的研究與應(yīng)用[A];第一屆全國Web信息系統(tǒng)及其應(yīng)用會(huì)議(WISA2004)論文集[C];2004年

4 盛莉;陳科;;基于J2EE的環(huán)保產(chǎn)品生產(chǎn)企業(yè)進(jìn)銷存管理系統(tǒng)的設(shè)計(jì)[A];安徽節(jié)能減排博士科技論壇論文集[C];2007年

5 許國艷;李曉芳;;J2EE平臺上基于Web服務(wù)的動(dòng)態(tài)電子商務(wù)架構(gòu)研究[A];2006年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(三)[C];2006年

6 李雪;翟慶志;段穎昕;魏章懷;趙宇先;;基于J2EE的數(shù)字化管理平臺設(shè)計(jì)與實(shí)現(xiàn)[A];北京高教學(xué)會(huì)實(shí)驗(yàn)室工作研究會(huì)2009年學(xué)術(shù)研討會(huì)論文集[C];2009年

7 劉濤;陳行益;;基于ODC的缺陷管理系統(tǒng)的研究[A];中國電子學(xué)會(huì)第十五屆信息論學(xué)術(shù)年會(huì)暨第一屆全國網(wǎng)絡(luò)編碼學(xué)術(shù)年會(huì)論文集(上冊)[C];2008年

8 黃燦;周橋;高燕;孟麗;;面向SOA的地理信息服務(wù)構(gòu)建[A];第四屆海峽兩岸GIS發(fā)展研討會(huì)暨中國GIS協(xié)會(huì)第十屆年會(huì)論文集[C];2006年

9 馬路;郭涑煒;謝飛;;基于J2EE的電子投訴系統(tǒng)[A];Java技術(shù)及應(yīng)用的進(jìn)展——第七屆中國Java技術(shù)及應(yīng)用交流大會(huì)文集[C];2004年

10 喻國寶;廖湖聲;高紅雨;俞暉;;一種基于J2EE的分布式空間要素服務(wù)框架[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

相關(guān)重要報(bào)紙文章 前10條

1 南京郵電學(xué)院 李建忠 中南大學(xué) 畢文杰;異中有同 同中有異[N];計(jì)算機(jī)世界;2002年

2 舒暢;J2EE開發(fā)平臺個(gè)性化滿足應(yīng)用需求[N];中國計(jì)算機(jī)報(bào);2003年

3 曹術(shù)華;宏道用J2EE和XML打造門戶[N];中國計(jì)算機(jī)報(bào);2002年

4 上海 邱文宇;學(xué)習(xí).Net技術(shù)的時(shí)機(jī)到了?[N];電腦報(bào);2002年

5 ;Compuware升級J2EE開發(fā)工具[N];計(jì)算機(jī)世界;2003年

6 ;支持J2EE1.3的TongWeb最新版本發(fā)布[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2003年

7 ;提高.NET和J2EE開發(fā)能力[N];中國計(jì)算機(jī)報(bào);2003年

8 劉慶;定位“經(jīng)分”[N];網(wǎng)絡(luò)世界;2006年

9 趙云波 記者  孫小和;常州移動(dòng)開發(fā)出無線網(wǎng)質(zhì)量智能分析系統(tǒng)[N];人民郵電;2007年

10 王慧斌邋李春瑜 黃曉姝;分析系統(tǒng)給納稅評估安上“眼睛”[N];中國稅務(wù)報(bào);2007年

相關(guān)博士學(xué)位論文 前10條

1 楊賢;面向智能水電站的遠(yuǎn)程監(jiān)測與分析系統(tǒng)[D];華中科技大學(xué);2012年

2 陳廷斌;基于XML/Web服務(wù)的供應(yīng)鏈信息集成技術(shù)與方法研究[D];大連理工大學(xué);2005年

3 郭曉軍;成套電器企業(yè)集成信息系統(tǒng)的研究[D];天津大學(xué);2005年

4 趙穎慧;大興安嶺示范區(qū)數(shù)字林業(yè)應(yīng)用技術(shù)的研究[D];東北林業(yè)大學(xué);2006年

5 王建軍;中藥質(zhì)量控制規(guī)范化及光譜相關(guān)色譜分析系統(tǒng)研究[D];第二軍醫(yī)大學(xué);2005年

6 高鵬;網(wǎng)絡(luò)化制造環(huán)境下基于語義的制造知識管理技術(shù)若干問題的研究[D];浙江大學(xué);2005年

7 洪榮晶;客車車身數(shù)字化設(shè)計(jì)平臺關(guān)鍵技術(shù)研究[D];東南大學(xué);2006年

8 李祥全;基于多Agent的軟件行業(yè)人力資源管理系統(tǒng)若干關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2007年

9 霍科林;女子鏈球項(xiàng)目生物力學(xué)研究[D];北京體育大學(xué);2007年

10 魏向軍;全反射相關(guān)的X射線熒光分析技術(shù)及其應(yīng)用[D];蘭州大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 賀曉敏;基于J2EE的高校畢業(yè)生就業(yè)信息管理系統(tǒng)的開發(fā)[D];南昌大學(xué);2010年

2 趙慶永;基于數(shù)據(jù)挖掘算法的日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];青島大學(xué);2009年

3 李浩;基于J2EE架構(gòu)的城建局辦公系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2010年

4 高河福;一個(gè)基于J2EE架構(gòu)的MIS設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2003年

5 劉春玲;基于J2EE平臺的教務(wù)管理系統(tǒng)的設(shè)計(jì)[D];合肥工業(yè)大學(xué);2010年

6 徐立峰;J2EE框架及全文檢索技術(shù)在信息管理系統(tǒng)中的應(yīng)用[D];電子科技大學(xué);2009年

7 周睿鵬;自治愈的容忍入侵J2EE應(yīng)用服務(wù)器平臺及關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2010年

8 羅正根;基于J2EE體系的綜合報(bào)警系統(tǒng)的研究與實(shí)現(xiàn)[D];江西師范大學(xué);2010年

9 金煒光;基于J2EE的供應(yīng)鏈信息化管理系統(tǒng)[D];電子科技大學(xué);2010年

10 曾旭峰;基于J2EE企業(yè)應(yīng)用框架的研究與應(yīng)用[D];中南林業(yè)科技大學(xué);2009年

,

本文編號:2250991

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2250991.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6a520***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
欧美一区二区三区在线播放| 欧美久久一区二区精品| 国产成人国产精品国产三级| 亚洲av成人一区二区三区在线| 色综合伊人天天综合网中文| 果冻传媒精选麻豆白晶晶 | 一区二区日韩欧美精品| 精品日韩国产高清毛片| 亚洲国产av在线视频| 欧美国产日本免费不卡| 久久精品国产熟女精品| 四季av一区二区播放| 亚洲最新中文字幕在线视频| 欧美特色特黄一级大黄片| 久久中文字幕中文字幕中文| 亚洲女同一区二区另类| 国产午夜精品福利免费不| 婷婷基地五月激情五月| 加勒比系列一区二区在线观看| 欧美黑人在线精品极品| 亚洲天堂国产精品久久精品| 特黄大片性高水多欧美一级| 又大又紧又硬又湿又爽又猛| 亚洲中文字幕综合网在线| 风间中文字幕亚洲一区| 午夜福利视频偷拍91| 一区二区三区国产日韩| 久久天堂夜夜一本婷婷| 精品推荐国产麻豆剧传媒| 国产一级不卡视频在线观看| 欧美日韩在线第一页日韩| 国产一区二区三区香蕉av| 福利一区二区视频在线| 欧美黑人暴力猛交精品| 亚洲一区二区三区精选| 欧美成人欧美一级乱黄| 少妇视频一区二区三区| 九九视频通过这里有精品| 久久精品a毛片看国产成人| 日韩人妻欧美一区二区久久| 东京热加勒比一区二区三区|