質(zhì)檢輿情監(jiān)控系統(tǒng)中信息檢索的研究
本文關(guān)鍵詞:結(jié)合本體篩選和文本挖掘的垂直搜索引擎研究,由筆耕文化傳播整理發(fā)布。
《北京郵電大學(xué)》 2011年
質(zhì)檢輿情監(jiān)控系統(tǒng)中信息檢索的研究
李琚彪
【摘要】:本文分析了對(duì)產(chǎn)品質(zhì)量、食品安全方面的質(zhì)檢輿情監(jiān)控的意義和必要性,介紹了垂直搜索、信息抽取、中文分詞、文本相似度、文本聚類、信息檢索等方面的技術(shù)現(xiàn)狀。研究了信息檢索系統(tǒng)中的信息檢索優(yōu)化處理、信息檢索接口的設(shè)計(jì)與實(shí)現(xiàn)。論文完成的主要工作如下: (1)完成了系統(tǒng)的總體架構(gòu)設(shè)計(jì)以及網(wǎng)頁去重、聚類優(yōu)化、信息檢索以及統(tǒng)計(jì)報(bào)表等功能模塊的設(shè)計(jì),完成了相關(guān)數(shù)據(jù)庫的設(shè)計(jì)。 (2)通過引入詞語共現(xiàn),改進(jìn)了文本相似度的算法,實(shí)現(xiàn)了文本相似度的計(jì)算,并將其應(yīng)用到了信息檢索的優(yōu)化處理中。 (3)將重復(fù)網(wǎng)頁分為完全重復(fù)網(wǎng)頁和部分重復(fù)網(wǎng)頁,并采用不同的算法進(jìn)行判斷,實(shí)現(xiàn)了信息檢索中的網(wǎng)頁去重功能。針對(duì)完全重復(fù)網(wǎng)頁采用運(yùn)行速度快的MD5校驗(yàn)碼進(jìn)行判重,而針對(duì)部分重復(fù)網(wǎng)頁采用倒排索引計(jì)算相似度的方法實(shí)現(xiàn)了判重。 (4)通過對(duì)基本的k-means算法進(jìn)行改進(jìn),實(shí)現(xiàn)了文本聚類。通過聚類結(jié)果對(duì)信息檢索結(jié)果進(jìn)行了優(yōu)化。實(shí)現(xiàn)了信息檢索系統(tǒng)的用戶接口,包括檢索接口和統(tǒng)計(jì)報(bào)表接口,可向用戶高效、直觀地展示檢索結(jié)果。 本文通過計(jì)算文本相似度、網(wǎng)頁去重和聚類優(yōu)化實(shí)現(xiàn)了對(duì)信息檢索的優(yōu)化處理,然后通過檢索接口和統(tǒng)計(jì)報(bào)表接口將結(jié)果呈現(xiàn)給用戶,可以及時(shí)向用戶提供質(zhì)檢輿情監(jiān)控系統(tǒng)所采集到的相關(guān)內(nèi)容,有助于政府相關(guān)部門對(duì)產(chǎn)品質(zhì)量、食品安全方面的信息進(jìn)行監(jiān)督管理。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP393.09
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 金益;;基于“網(wǎng)絡(luò)蜘蛛原理”的搜索引擎技術(shù)剖析[J];電腦學(xué)習(xí);2007年05期
2 駱慶;;中文搜索引擎中的網(wǎng)絡(luò)蜘蛛[J];福建電腦;2006年12期
3 張麗娟;李舟軍;;分類方法的新發(fā)展:研究綜述[J];計(jì)算機(jī)科學(xué);2006年10期
4 赫建營;晏海華;金茂忠;劉超;;結(jié)合本體篩選和文本挖掘的垂直搜索引擎研究[J];計(jì)算機(jī)科學(xué);2008年02期
5 羅可,林睦綱,郗東妹;數(shù)據(jù)挖掘中分類算法綜述[J];計(jì)算機(jī)工程;2005年01期
6 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁正文提取[J];計(jì)算機(jī)工程;2010年06期
7 曹恬;周麗;張國煊;;一種基于詞共現(xiàn)的文本相似度計(jì)算[J];計(jì)算機(jī)工程與科學(xué);2007年03期
8 郭慶琳;李艷梅;唐琦;;基于VSM的文本相似度計(jì)算的研究[J];計(jì)算機(jī)應(yīng)用研究;2008年11期
9 孫西全;馬瑞芳;李燕靈;;基于Lucene的信息檢索的研究與應(yīng)用[J];情報(bào)理論與實(shí)踐;2006年01期
10 熊回香;夏立新;;自然語言處理技術(shù)在中文全文檢索中的應(yīng)用[J];情報(bào)理論與實(shí)踐;2008年03期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 羅長壽;張峻峰;孫素芬;魏清鳳;;基于改進(jìn)VSM的農(nóng)業(yè)實(shí)用技術(shù)自動(dòng)問答系統(tǒng)研究[J];安徽農(nóng)業(yè)科學(xué);2009年28期
2 孫喜來;王欣;葛昂;鄭家民;鄧宏斌;;面向相似度的多維異構(gòu)數(shù)據(jù)比對(duì)模型研究[J];信息安全與技術(shù);2011年09期
3 蔣洛丹;;網(wǎng)絡(luò)輿情與引導(dǎo)機(jī)制探究[J];今傳媒;2012年05期
4 王雅蕾;方付建;;輿情熱點(diǎn)事件的熱源研究——基于人民網(wǎng)“輿情排行榜”的分析[J];北京理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2011年04期
5 周文剛;金鑫;;基于樹擴(kuò)展樸素貝葉斯的高效網(wǎng)絡(luò)入侵檢測系統(tǒng)[J];北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年01期
6 施敏鋒;;網(wǎng)絡(luò)語境下高校突發(fā)事件的輿情傳播及其制度干預(yù)[J];長春理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2012年01期
7 張兢;候旭東;呂和勝;;基于樸素貝葉斯和支持向量機(jī)的短信智能分析系統(tǒng)設(shè)計(jì)[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
8 吳玲;;高校網(wǎng)絡(luò)輿情與大學(xué)生人生價(jià)值觀的教育[J];巢湖學(xué)院學(xué)報(bào);2011年04期
9 李玲俐;;數(shù)據(jù)挖掘中分類算法綜述[J];重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
10 徐朝軍;;基于主題搜索的通用教學(xué)資源共享平臺(tái)設(shè)計(jì)[J];中國遠(yuǎn)程教育;2010年03期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前5條
1 吳琳;;網(wǎng)絡(luò)政治學(xué)視域下虛擬社會(huì)管理實(shí)踐機(jī)制探索[A];中國行政管理學(xué)會(huì)2011年年會(huì)暨“加強(qiáng)行政管理研究,推動(dòng)政府體制改革”研討會(huì)論文集[C];2011年
2 田鶴楠;杜軍平;;產(chǎn)品質(zhì)量食品安全互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)設(shè)計(jì)[A];中國電子學(xué)會(huì)第十七屆信息論學(xué)術(shù)年會(huì)論文集[C];2010年
3 梁勇;張文;;網(wǎng)絡(luò)輿情采集系統(tǒng)的設(shè)計(jì)[A];2011年全國通信安全學(xué)術(shù)會(huì)議論文集[C];2011年
4 王春厚;許都;孫健;;一種降低誤判率的BF快速匹配算法結(jié)構(gòu)[A];2010年全國通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
5 孟紅;鐘華;;基于htmlparser的搜索引擎信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 殷志偉;基于統(tǒng)計(jì)學(xué)習(xí)理論的分類方法研究[D];哈爾濱工程大學(xué);2009年
2 方付建;突發(fā)事件網(wǎng)絡(luò)輿情演變研究[D];華中科技大學(xué);2011年
3 湯步洲;序列標(biāo)注問題的監(jiān)督學(xué)習(xí)方法及應(yīng)用[D];哈爾濱工業(yè)大學(xué);2011年
4 周濤;網(wǎng)絡(luò)輿論環(huán)境下的高校思想政治教育研究[D];西南財(cái)經(jīng)大學(xué);2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
6 李宏;面向應(yīng)用領(lǐng)域的分類方法研究[D];中南大學(xué);2007年
7 汪素南;智能技術(shù)在金融市場溢出效應(yīng)和反洗錢中的應(yīng)用研究[D];浙江大學(xué);2007年
8 姚山;基于數(shù)據(jù)挖掘技術(shù)的造林決策研究[D];北京林業(yè)大學(xué);2008年
9 伍平陽;基于數(shù)據(jù)挖掘技術(shù)的醫(yī)療設(shè)備績效預(yù)測方法的應(yīng)用研究[D];南方醫(yī)科大學(xué);2008年
10 張梅鳳;人工魚群智能優(yōu)化算法的改進(jìn)及應(yīng)用研究[D];大連理工大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 秦璐;網(wǎng)絡(luò)輿情引導(dǎo)方法研究[D];廣西師范學(xué)院;2010年
2 劉靖媛;個(gè)性搜索引擎中用戶興趣模型研究[D];哈爾濱工程大學(xué);2010年
3 李紅;數(shù)據(jù)挖掘中特征選擇與聚類算法研究[D];大連理工大學(xué);2010年
4 程波波;基于文本的茶學(xué)本體學(xué)習(xí)方法研究[D];安徽農(nóng)業(yè)大學(xué);2010年
5 周翔;決策支持技術(shù)在企業(yè)銷售系統(tǒng)中的應(yīng)用研究[D];中國海洋大學(xué);2010年
6 徐德玉;中文文檔內(nèi)容相似度檢測方法研究[D];長春工業(yè)大學(xué);2010年
7 王冉冉;基于協(xié)同過濾的主動(dòng)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];昆明理工大學(xué);2008年
8 程代娣;決策樹在高職院校畢業(yè)生就業(yè)工作中應(yīng)用研究[D];安徽大學(xué);2010年
9 戴霖;網(wǎng)絡(luò)輿情信息挖掘關(guān)鍵技術(shù)研究與應(yīng)用[D];浙江工商大學(xué);2011年
10 許世明;中文網(wǎng)頁分類技術(shù)研究及預(yù)分類算法實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
【二級(jí)參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張勇鋒;;對(duì)《旅游新報(bào)》事件的網(wǎng)絡(luò)輿情解析[J];今傳媒;2008年09期
2 王娟;;網(wǎng)絡(luò)輿情監(jiān)控分析系統(tǒng)構(gòu)建[J];長春理工大學(xué)學(xué)報(bào)(高教版);2007年04期
3 陶建杰;;完善網(wǎng)絡(luò)輿情聯(lián)動(dòng)應(yīng)急機(jī)制[J];黨政論壇;2007年09期
4 肖明忠,代亞非,李曉明;拆分型Bloom Filter[J];電子學(xué)報(bào);2004年02期
5 曾潤喜;;網(wǎng)絡(luò)論壇的運(yùn)行機(jī)制——以“家樂福事件”為例[J];電子政務(wù);2009年Z1期
6 池靜;倪健;王華;邢秀娥;;Bloom Filter和Weighted Bloom Filter的比較與研究[J];河北師范大學(xué)學(xué)報(bào);2006年04期
7 孟衛(wèi)一,吳宗寰;集成搜索引擎的文本數(shù)據(jù)庫選擇[J];計(jì)算機(jī)研究與發(fā)展;2001年04期
8 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
9 赫楓齡,左萬利;用有向圖法解決網(wǎng)頁爬行中循環(huán)鏈接問題[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2004年03期
10 宋暉,張嶺,葉允明,馬范援;基于標(biāo)記樹對(duì)象抽取技術(shù)的Hidden Web獲取研究[J];計(jì)算機(jī)工程與應(yīng)用;2002年23期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 王秀娟;文本檢索中若干問題研究[D];北京郵電大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 沈斌;基于分詞的中文文本相似度計(jì)算研究[D];天津財(cái)經(jīng)大學(xué);2006年
2 何淑芳;基于BBS文本信息的中文自動(dòng)分詞系統(tǒng)的研究[D];中國海洋大學(xué);2006年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鐘國韻;劉梅鋒;;基于ASP技術(shù)的網(wǎng)絡(luò)搜索引擎的開發(fā)[J];科技廣場;2006年01期
2 林文清;;B2B垂直搜索引擎在信息獲取技術(shù)中的應(yīng)用[J];情報(bào)雜志;2007年09期
3 宋文琳,鄒云康;基于ASP技術(shù)的網(wǎng)絡(luò)搜索引擎的開發(fā)[J];科技廣場;2005年10期
4 劉新周;;隱形網(wǎng)頁資源產(chǎn)生原因與開發(fā)利用[J];農(nóng)業(yè)圖書情報(bào)學(xué)刊;2006年02期
5 馬榮華;;試論網(wǎng)絡(luò)搜索引擎[J];晉圖學(xué)刊;2007年02期
6 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期
7 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期
8 李彥;;基于Google搜索引擎的原理及使用[J];現(xiàn)代電子技術(shù);2010年02期
9 郭興;柯鵬;徐媛;李宗榮;;論垂直搜索引擎中的信息抽取技術(shù)的選用[J];醫(yī)學(xué)信息;2006年12期
10 王旭東;;信息檢索的發(fā)展概況(下)—中文全文檢索簡述[J];中國傳媒科技;1998年06期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
2 孫金立;李路路;王棟;;生物信息檢索教學(xué)網(wǎng)的建設(shè)[A];向數(shù)字化轉(zhuǎn)型的圖書館工作[C];2004年
3 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年
4 孫金立;李路路;董明強(qiáng);;建立生物信息檢索教學(xué)網(wǎng)的研究[A];中華醫(yī)學(xué)會(huì)第十次全國醫(yī)學(xué)信息學(xué)術(shù)會(huì)議論文匯編[C];2004年
5 ;編者的話[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
6 米曉紅;;一種基于LSI的用戶興趣模型構(gòu)建方法[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊)[C];2006年
7 王敬成;;HNC農(nóng)村智能信息檢索系統(tǒng)[A];2006年首屆ICT大會(huì)信息、知識(shí)、智能及其轉(zhuǎn)換理論第一次高峰論壇會(huì)議論文集[C];2006年
8 李應(yīng)興;付婷;李勇;;基于LUCENE的藏文信息檢索的研究與應(yīng)用[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
9 于志剛;楊金生;;農(nóng)業(yè)機(jī)械網(wǎng)絡(luò)書簽[A];第十三次全國農(nóng)機(jī)維修學(xué)術(shù)會(huì)議論文集[C];2007年
10 ;前言[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(下)[C];2008年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 希安;[N];經(jīng)濟(jì)日?qǐng)?bào);2004年
2 葉靜;[N];人民郵電;2001年
3 本報(bào)記者 潘永花;[N];網(wǎng)絡(luò)世界;2003年
4 劉靜一;[N];建筑報(bào);2000年
5 劉光強(qiáng);[N];中國計(jì)算機(jī)報(bào);2007年
6 柏榮;[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2003年
7 劉立新;[N];學(xué)習(xí)時(shí)報(bào);2006年
8 常燕杰;[N];中國計(jì)算機(jī)報(bào);2006年
9 微軟中國研究院 陳正 李明鏡 馬維英;[N];計(jì)算機(jī)世界;2001年
10 夏飛平 蔣光君;[N];中國國門時(shí)報(bào);2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
2 郭永明;XML文檔交互式信息檢索技術(shù)研究[D];東華大學(xué);2010年
3 吳定峰;基于本體的語義搜索模型研究[D];中國農(nóng)業(yè)科學(xué)院;2012年
4 董道國;高維數(shù)據(jù)索引結(jié)構(gòu)研究[D];復(fù)旦大學(xué);2005年
5 林建方;詞搭配抽取及在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年
6 翟海軍;面向Web信息檢索的知識(shí)挖掘[D];中國科學(xué)技術(shù)大學(xué);2010年
7 林古立;互聯(lián)網(wǎng)信息檢索中的多樣化排序研究及應(yīng)用[D];華南理工大學(xué);2011年
8 王一川;基于內(nèi)容的海量文本探索式查詢導(dǎo)引中若干關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2011年
9 劉云峰;基于潛在語義分析的中文概念檢索研究[D];華中科技大學(xué);2005年
10 王镠璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 楊宇;搜索詞的意圖分析與應(yīng)用[D];北京郵電大學(xué);2010年
2 李琚彪;質(zhì)檢輿情監(jiān)控系統(tǒng)中信息檢索的研究[D];北京郵電大學(xué);2011年
3 喬智勇;Web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)及關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2002年
4 楊才峰;基于自動(dòng)分類的元搜索引擎的研究與應(yīng)用[D];華北電力大學(xué)(河北);2005年
5 郭磊;P2P系統(tǒng)中的信息檢索理論及應(yīng)用研究[D];山東師范大學(xué);2011年
6 宋海林;基于語言模型的信息檢索中負(fù)反饋技術(shù)的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2011年
7 楊立淳;針對(duì)社會(huì)協(xié)作生成型數(shù)據(jù)的信息檢索[D];上海交通大學(xué);2011年
8 管玉娟;基于智能Agent的個(gè)性化信息檢索技術(shù)研究[D];西安建筑科技大學(xué);2005年
9 杭月芹;基于文檔查詢信息的檢索系統(tǒng)研究與實(shí)現(xiàn)[D];揚(yáng)州大學(xué);2005年
10 劉壁松;策略可擴(kuò)展的搜索引擎研究和實(shí)現(xiàn)[D];清華大學(xué);2005年
本文關(guān)鍵詞:結(jié)合本體篩選和文本挖掘的垂直搜索引擎研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):208223
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/208223.html