面向問答類網(wǎng)站的垂直搜索引擎的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:面向問答類網(wǎng)站的垂直搜索引擎的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
《北京郵電大學(xué)》 2013年
面向問答類網(wǎng)站的垂直搜索引擎的研究與實(shí)現(xiàn)
梁淼
【摘要】:目前,互聯(lián)網(wǎng)上的信息爆炸式增長,人們通過搜索引擎從海量信息中尋找自己想要的各方面信息,但通用搜索引擎對檢索出的信息的準(zhǔn)確性和相關(guān)性呈下降趨勢,人們需要能夠?qū)μ囟ㄐ袠I(yè)的信息快速準(zhǔn)確定位的垂直搜索引擎。近些年國內(nèi)外興起了眾多問答類網(wǎng)站,與搜索引擎的通過機(jī)器獲得結(jié)果不同,此類網(wǎng)站是用戶基于自己的知識構(gòu)成進(jìn)行“一問多答”,同時它又具有“針對性強(qiáng)”、“快速答疑”、“流量大”等特點(diǎn),是用戶提問題找答案的一種有效方式,但大部分的問答類網(wǎng)站只提供站內(nèi)搜索,對問答類的垂直搜索引擎的實(shí)踐卻不是很成熟,這就限制了用戶針對特定問題的搜索,面向特定主題的問答類搜索引擎能夠滿足用戶對專業(yè)問題的需要。 本文以汽車問答網(wǎng)頁作為實(shí)驗(yàn)數(shù)據(jù),在對搜索引擎關(guān)鍵技術(shù)進(jìn)行深入研究基礎(chǔ)上,完成了一個面向問答類網(wǎng)站的垂直搜索引擎,論文的主要工作包括以下幾點(diǎn): 1)通過對問答類站點(diǎn)特性的分析,提出了問答類站點(diǎn)重要性的動態(tài)評價機(jī)制,解決了對不同問答類站點(diǎn)來源同等對待的問題,根據(jù)該機(jī)制對空間向量模型中特征詞權(quán)重的計(jì)算公式TFIDF和空間向量模型的表示進(jìn)行了改進(jìn),使其更具有主題傾向性。 2)針對問答的搜索引擎主題爬蟲的實(shí)現(xiàn)。研究了主題爬蟲的一般模型,在鏈接過濾器方面提出了基于Nutch配置文件定制鏈接抓取規(guī)則的方法,在主題過濾器方面,采用文檔頻率算法確立了主題詞庫,采用人工專家和基于搜索引擎的初始種子確立方法,主題相關(guān)度判定采用了文本分類方法,并對文本分類效果進(jìn)行了驗(yàn)證。 3)針對問答的信息抽取模塊。提出了基于網(wǎng)頁結(jié)構(gòu)和通過問答站點(diǎn)鏈接控制具體的信息抽取方式相結(jié)合的方法,中文分詞部分,采用了庖丁分詞器。 4)針對問答的索引和檢索模塊。提出增加問答信息索引域,強(qiáng)調(diào)搜索重點(diǎn),并依據(jù)問答類站點(diǎn)重要性動態(tài)評價機(jī)制,對索引域的權(quán)重因子進(jìn)行了設(shè)定,使問答引擎排序結(jié)果更趨合理。 最后通過Nutch框架對問答類垂直搜索引擎進(jìn)行了實(shí)現(xiàn),實(shí)驗(yàn)分析表明爬蟲抓取性能和搜索引擎的查詢查準(zhǔn)率都有所提升。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 孔維亭;閆宏印;;基于Lucene的自動答疑系統(tǒng)的設(shè)計(jì)[J];電腦開發(fā)與應(yīng)用;2012年04期
2 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J];計(jì)算機(jī)工程與應(yīng)用;2003年22期
3 楊凱峰;張毅坤;李燕;;基于文檔頻率的特征選擇方法[J];計(jì)算機(jī)工程;2010年17期
4 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計(jì)算機(jī)時代;2007年01期
5 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
6 劉運(yùn)強(qiáng);;垂直搜索引擎的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用與軟件;2010年07期
7 孫殿哲;魏海平;陳巖;;Nutch中庖丁解牛中文分詞的實(shí)現(xiàn)與評測[J];計(jì)算機(jī)與現(xiàn)代化;2010年06期
8 梁南元;書面漢語自動分詞系統(tǒng)—CDWS[J];中文信息學(xué)報(bào);1987年02期
9 曹羽中;曹勇剛;金茂忠;劉超;;支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年23期
10 李村合;呂克強(qiáng);;Nutch搜索引擎的頁面排序修改方法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年06期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻(xiàn)信息檢索系統(tǒng)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年05期
2 胡錫衡;;正向最大匹配法在中文分詞技術(shù)中的應(yīng)用[J];鞍山師范學(xué)院學(xué)報(bào);2008年02期
3 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實(shí)現(xiàn)[J];兵工學(xué)報(bào);2009年S1期
4 李玉鑑;周蘭珍;操衛(wèi)平;;基于DF和CHI的聯(lián)合特征提取方法及其應(yīng)用[J];北京工業(yè)大學(xué)學(xué)報(bào);2008年09期
5 李國和;劉光勝;吳衛(wèi)江;孫紅軍;唐先明;韓寶東;;基于最大匹配和歧義檢測的中文分詞粗分方法[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年S2期
6 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學(xué)學(xué)報(bào);2005年07期
7 付雪峰;劉邱云;;不確定性推理在文本分類上的應(yīng)用研究[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年04期
8 高東平;;基于類型論的漢語分詞系統(tǒng)TTCS[J];重慶理工大學(xué)學(xué)報(bào)(社會科學(xué));2011年08期
9 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期
10 毛曉蛟;;搜索引擎中網(wǎng)絡(luò)蜘蛛的研究與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2010年18期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實(shí)現(xiàn)[A];數(shù)字博物館研究與實(shí)踐(2009)[C];2010年
2 侯松;周斌;賈焰;;分詞結(jié)果的再搭配對文本分類效果的增強(qiáng)[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年
3 孫茂松;;漢語自動分詞研究的若干最新進(jìn)展——清華大學(xué)相關(guān)工作簡介[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年
4 董強(qiáng);郝長伶;董振東;;基于《知網(wǎng)》的中文語塊抽取器[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
5 李斌;陳小荷;方芳;徐艷華;;高頻最大交集型歧義字段問題研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
6 孫承杰;黃昌寧;關(guān)毅;;基于標(biāo)注語料庫的組合歧義檢測與消解[A];第三屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2006年
7 張霄軍;董宇;陳小荷;;基于語料考察的“組合型歧義”與“切分變異”辨析[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
8 徐燕;王斌;李錦濤;孫春明;;知識增益:文本分類中一種新的特征選擇方法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
9 單鐵城;張安妮;馬德輝;;基于爬蟲改進(jìn)算法的個性化搜索引擎應(yīng)用研究[A];戰(zhàn)略性新興產(chǎn)業(yè)與科技支撐——2012年山東省科協(xié)學(xué)術(shù)年會論文集[C];2012年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險(xiǎn)信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
2 祝翠玲;基于類別結(jié)構(gòu)的文本層次分類方法研究[D];山東大學(xué);2011年
3 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年
4 余傳明;基于本體的語義信息系統(tǒng)研究[D];武漢大學(xué);2005年
5 賀前華;漢語自動分詞及機(jī)器翻譯研究[D];華南理工大學(xué);1993年
6 馮敏萱;論漢英平行語料的平行處理[D];南京師范大學(xué);2006年
7 張亮;面向開放域的中文問答系統(tǒng)問句處理相關(guān)技術(shù)研究[D];南京理工大學(xué);2006年
8 張華平;語言淺層分析與句子級新信息檢測研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
9 郭永輝;英漢機(jī)器翻譯系統(tǒng)關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2006年
10 黃魏;植物營養(yǎng)診斷自動應(yīng)答網(wǎng)絡(luò)專家系統(tǒng)研究[D];華中農(nóng)業(yè)大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 潘正高;基于內(nèi)容的Web新聞文本自動分類問題研究[D];合肥工業(yè)大學(xué);2010年
2 王有權(quán);基于Web的智能答疑技術(shù)研究與實(shí)現(xiàn)[D];南京財(cái)經(jīng)大學(xué);2010年
3 李永春;主題搜索引擎的研究與實(shí)現(xiàn)[D];哈爾濱理工大學(xué);2010年
4 巫昌凱;企業(yè)知識庫系統(tǒng)中復(fù)雜查詢系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2010年
5 李丹;基于規(guī)則與統(tǒng)計(jì)的漢語自動分詞研究[D];長春工業(yè)大學(xué);2010年
6 馮葉磊;基于隱語義的中醫(yī)藥文獻(xiàn)搜索引擎[D];浙江大學(xué);2011年
7 王林平;基于內(nèi)容的電子郵件過濾系統(tǒng)的研究[D];電子科技大學(xué);2010年
8 蔡蕊;一種新的搜索引擎分詞詞典的研究[D];山東大學(xué);2010年
9 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年
10 陶小波;電子就業(yè)文本挖掘系統(tǒng)關(guān)鍵技術(shù)研究與應(yīng)用[D];浙江工商大學(xué);2011年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期
2 王仕仲;寧龍兵;;基于Nutch的中文搜索引擎的研究與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2009年07期
3 張斌;周爾寧;;基于Nutch的分布式紡織垂直搜索引擎研究[J];電腦知識與技術(shù);2009年21期
4 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J];計(jì)算機(jī)工程與應(yīng)用;2003年22期
5 彭波;搜索引擎的混合索引技術(shù)[J];計(jì)算機(jī)工程與應(yīng)用;2004年22期
6 李軍;黃海寬;曹琦;;基于支持向量機(jī)的中藥工藝參數(shù)優(yōu)化研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年36期
7 胡長春;劉功申;;面向搜索引擎Lucene的中文分析器[J];計(jì)算機(jī)工程與應(yīng)用;2009年12期
8 張慶揚(yáng);柴勝;;使用二級索引的中文分詞詞典[J];計(jì)算機(jī)工程與應(yīng)用;2009年19期
9 張裔智;趙毅;湯小斌;;MD5算法研究[J];計(jì)算機(jī)科學(xué);2008年07期
10 李盛韜,趙章界,余智華;基于主題的Web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2003年17期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 徐和祥;Deep Web集成中若干技術(shù)研究[D];復(fù)旦大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 蘇景春;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];北京交通大學(xué);2010年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 一林;;垂直搜索:前進(jìn)路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期
2 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報(bào);2004年09期
3 邊凱;;你會搜索嗎?[J];中國計(jì)算機(jī)用戶;2007年23期
4 莊芯;;風(fēng)投押寶垂直搜索 各方巨頭介入又添疑點(diǎn)[J];IT時代周刊;2008年01期
5 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學(xué)[J];科學(xué)24小時;2003年Z1期
6 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報(bào);2006年32期
7 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學(xué)垂直搜索引擎的實(shí)踐[J];信息系統(tǒng)工程;2009年05期
8 張美芳;張迎春;;淺議垂直搜索引擎服務(wù)市場的商業(yè)模式[J];現(xiàn)代商業(yè);2010年06期
9 田野;垂直搜索火熱為哪般[J];中國計(jì)算機(jī)用戶;2005年37期
10 王寧寧;;淺談CNNIC最新報(bào)告對垂直搜索引擎領(lǐng)域的啟示[J];圖書館理論與實(shí)踐;2009年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學(xué)會第十七屆信息論學(xué)術(shù)年會論文集[C];2010年
4 遲騁;;網(wǎng)絡(luò)監(jiān)聽[A];第十九次全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集[C];2004年
5 遲騁;;網(wǎng)絡(luò)監(jiān)聽在檢察實(shí)踐中的應(yīng)用[A];第二十次全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集[C];2005年
6 凌媛;鄭立喬;劉寶云;;我國十大城市交通門戶網(wǎng)站維護(hù)主體復(fù)雜性分析[A];2007第三屆中國智能交通年會論文集[C];2007年
7 鄭海峰;;地市級廣播電臺網(wǎng)站的建立和規(guī)劃[A];中國新聞技術(shù)工作者聯(lián)合會五屆一次理事會暨學(xué)術(shù)年會論文集(下篇)[C];2009年
8 彭永新;郭嘉;王康平;;高校心理輔導(dǎo)網(wǎng)站的設(shè)計(jì)嘗試[A];中國心理衛(wèi)生協(xié)會大學(xué)生心理咨詢專業(yè)委員會全國第七屆大學(xué)生心理健康教育與心理咨詢學(xué)術(shù)交流會暨專業(yè)委員會成立十周年紀(jì)念大會論文集[C];2001年
9 王京生;;北京市區(qū)縣決策氣象服務(wù)系統(tǒng)網(wǎng)站的建設(shè)[A];信息技術(shù)在氣象領(lǐng)域的開發(fā)應(yīng)用論文集(一)[C];2005年
10 林明和;;網(wǎng)絡(luò)信息資源在中醫(yī)藥期刊編輯工作中的應(yīng)用[A];學(xué)報(bào)編輯論叢(第十五集)[C];2007年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;[N];計(jì)算機(jī)世界;2010年
2 王艷;[N];中國旅游報(bào);2000年
3 賽迪網(wǎng) 方剛;[N];中國計(jì)算機(jī)報(bào);2000年
4 王靖;[N];人民日報(bào)海外版;2000年
5 徐超;[N];中華新聞報(bào);2007年
6 本報(bào)記者 周婷;[N];中國證券報(bào);2008年
7 小文;[N];中國服飾報(bào);2008年
8 本報(bào)記者 李佳祺 蘇顯龍 趙永新;[N];人民日報(bào);2009年
9 趙齊;[N];國際商報(bào);2009年
10 本報(bào)記者 李可 通訊員 崔棟君;[N];光明日報(bào);2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
4 汲業(yè);面向圖像的垂直搜索引擎關(guān)鍵技術(shù)研究[D];大連海事大學(xué);2013年
5 姜巖;消費(fèi)者購物網(wǎng)站依戀機(jī)理研究[D];大連理工大學(xué);2013年
6 尹文科;基于本體的視頻服務(wù)網(wǎng)站監(jiān)管技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2013年
7 熊回香;面向Web3.0的大眾分類研究[D];華中師范大學(xué);2011年
8 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年
9 吳勝;網(wǎng)站信息分類體系優(yōu)化方法及其應(yīng)用[D];南京林業(yè)大學(xué);2009年
10 章舜仲;文本分類中詞共現(xiàn)關(guān)系的研究及其應(yīng)用[D];南京理工大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 梁淼;面向問答類網(wǎng)站的垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
2 齊鵬;垂直搜索引擎分類索引系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2010年
3 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年
4 張楠;面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年
5 華大年;手機(jī)產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計(jì)與開發(fā)[D];武漢理工大學(xué);2011年
6 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國海洋大學(xué);2010年
7 李海升;垂直搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
8 丁文;垂直搜索引擎在網(wǎng)絡(luò)購物系統(tǒng)中的研究與應(yīng)用[D];中國海洋大學(xué);2011年
9 張倩;教育信息垂直搜索引擎的研究[D];吉林大學(xué);2012年
10 張行;木材垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];北京林業(yè)大學(xué);2012年
本文關(guān)鍵詞:面向問答類網(wǎng)站的垂直搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:64376
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/64376.html