天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于聚類算法的垂直搜索引擎技術(shù)研究

發(fā)布時間:2018-06-24 22:57

  本文選題:搜索引擎 + 爬蟲; 參考:《北京信息科技大學(xué)學(xué)報(自然科學(xué)版)》2013年01期


【摘要】:設(shè)計并實現(xiàn)了一個基于相似聚類算法的垂直搜索引擎。利用網(wǎng)絡(luò)爬蟲NWebCrawler,通過定制正則表達式,高效爬取所需的URL;通過解析爬取的URL信息,提取結(jié)構(gòu)化數(shù)據(jù);利用正向最大匹配算法,對搜索關(guān)鍵字分詞;利用向量空間模型,根據(jù)相似度值對搜索結(jié)果聚類;基于Lucene建立索引,檢索所需信息。實驗結(jié)果表明,基于相似聚類算法的垂直搜索引擎,比通用搜索引擎的準確率和召回率高,與普通的垂直搜索引擎相比,具備了相似產(chǎn)品查詢功能。
[Abstract]:A vertical search engine based on similar clustering algorithm is designed and implemented. Using the network crawler NWebCrawler, the required URL is crawled efficiently by customizing the regular expression. By parsing the crawling URL information, the structured data is extracted, and the search keyword is divided by the positive maximum matching algorithm, and the vector space model is used for the similarity. The results show that the vertical search engine based on the similar clustering algorithm has higher accuracy and recall than the general search engine, and has the similar product query function compared with the common vertical search engine, compared with the common vertical search engine. The results show that the vertical search engine based on the similar clustering algorithm has higher accuracy and recall than the general search engine, and has the similar product query function compared with the common vertical search engine. The results show that the Lucene based on the similarity clustering algorithm is higher than the general search engine.
【作者單位】: 北京信息科技大學(xué)計算機學(xué)院;
【基金】:國家自然科學(xué)基金資助項目(60873013,61070119) 北京大學(xué)計算語言學(xué)教育部重點實驗室開放課題基金資助項目(KLCL-1005) 北京市屬市管高等學(xué)校人才強教計劃資助項目(PHR201007131)
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前4條

1 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J];計算機工程;2006年04期

2 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[J];計算機應(yīng)用研究;2001年09期

3 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學(xué)研究;2006年12期

4 張磊;;搜索引擎綜述[J];泰州科技;2008年08期

【共引文獻】

相關(guān)期刊論文 前10條

1 洪穎;;基于改進VSM算法的智能個性化信息檢索系統(tǒng)研究[J];北京服裝學(xué)院學(xué)報(自然科學(xué)版);2010年01期

2 宋昊蘇;李寧;張偉;;VSM模型在文檔結(jié)構(gòu)識別中的應(yīng)用[J];北京信息科技大學(xué)學(xué)報(自然科學(xué)版);2011年06期

3 戰(zhàn)守義,井新;加入時間因素的個性化信息過濾技術(shù)[J];北京理工大學(xué)學(xué)報;2005年09期

4 何元嬌;張國英;;基于本體語義的簡單向量距離分類方法[J];北京石油化工學(xué)院學(xué)報;2007年03期

5 代勁;胡峰;王國胤;;基于不完備信息系統(tǒng)的文本分類研究與應(yīng)用[J];重慶郵電學(xué)院學(xué)報(自然科學(xué)版);2006年03期

6 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(自然科學(xué)版);2011年02期

7 陶鎮(zhèn)威;周雨程;;基于Compass框架的高級搜索系統(tǒng)的設(shè)計與實現(xiàn)[J];重慶理工大學(xué)學(xué)報(自然科學(xué));2011年08期

8 趙京橋;;中國雅虎經(jīng)營模式轉(zhuǎn)型原因分析[J];財貿(mào)經(jīng)濟;2008年10期

9 蔡兵;胡敏;;基于Lucene2.0的書目搜索引擎設(shè)計[J];重慶圖情研究;2009年01期

10 馬建斌;李瀅;滕桂法;王芳;趙洋;;KNN和SVM算法在中文文本自動分類技術(shù)上的比較研究[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2008年03期

相關(guān)會議論文 前10條

1 張娟;王慧鋒;;文本分類技術(shù)在海量金融信息處理中的應(yīng)用[A];第二十四屆中國控制會議論文集(下冊)[C];2005年

2 牛強;王志曉;陳岱;夏士雄;;基于支持向量機的Web文本分類方法[A];2006年全國開放式分布與并行計算學(xué)術(shù)會議論文集(一)[C];2006年

3 陳慶軒;鄭德權(quán);鄭博文;趙鐵軍;李生;;中文文本分類中基于文檔頻度分布的特征選擇方法[A];黑龍江省計算機學(xué)會2009年學(xué)術(shù)交流年會論文集[C];2010年

4 王秀娟;郭軍;鄭康鋒;;基于互信息可信度的特征選擇方法[A];2006通信理論與技術(shù)新進展——第十一屆全國青年通信學(xué)術(shù)會議論文集[C];2006年

5 王丹;蔡紅柳;王斌;;基于混沌序列的數(shù)字水印算法[A];第一屆中國高校通信類院系學(xué)術(shù)研討會論文集[C];2007年

6 石艷榮;孫丹寧;賀永強;;一種基于內(nèi)容的郵件過濾模型的研究與性能分析[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年

7 張璐;王景中;;基于HNC語境框架的文本相似度計算[A];2008通信理論與技術(shù)新進展——第十三屆全國青年通信學(xué)術(shù)會議論文集(上)[C];2008年

8 陳慶軒;鄭德權(quán);趙鐵軍;;多分類器融合的文本分類技術(shù)研究[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年

9 程新榮;楊仁剛;;網(wǎng)頁自動分類在搜索引擎上的應(yīng)用研究[A];2007'中國儀器儀表與測控技術(shù)交流大會論文集(二)[C];2007年

10 王秀娟;鄭康鋒;楊星海;;線性鑒別分析在中文文本分類中的應(yīng)用[A];2005通信理論與技術(shù)新進展——第十屆全國青年通信學(xué)術(shù)會議論文集[C];2005年

相關(guān)博士學(xué)位論文 前10條

1 楊抒;基于WEB的林產(chǎn)品信息資源整合方法研究[D];北京林業(yè)大學(xué);2011年

2 代勁;云模型在文本挖掘應(yīng)用中的關(guān)鍵問題研究[D];重慶大學(xué);2011年

3 朱振方;基于微粒群和遺傳優(yōu)化的文本過濾關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2012年

4 劉華;基于關(guān)鍵短語的文本內(nèi)容標引研究[D];北京語言大學(xué);2005年

5 王秀娟;文本檢索中若干問題研究[D];北京郵電大學(xué);2006年

6 劉濤;現(xiàn)代信息檢索中的文本分類及圖像恢復(fù)研究[D];北京郵電大學(xué);2006年

7 周瑛;神經(jīng)網(wǎng)絡(luò)作為分類器的算法研究及在信息檢索中的應(yīng)用[D];安徽大學(xué);2006年

8 張亮;面向開放域的中文問答系統(tǒng)問句處理相關(guān)技術(shù)研究[D];南京理工大學(xué);2006年

9 杜衛(wèi)鋒;粗糙集理論在中文文本分類中的應(yīng)用[D];西南交通大學(xué);2006年

10 王永恒;海量短語信息挖掘技術(shù)的研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 郭明;基于文本分類技術(shù)的文本情感傾向性研究[D];鄭州大學(xué);2010年

2 左維松;規(guī)則和統(tǒng)計相結(jié)合的篇章情感傾向性分析研究[D];鄭州大學(xué);2010年

3 汪永偉;搜索引擎中網(wǎng)頁排序算法的研究與實現(xiàn)[D];哈爾濱工程大學(xué);2010年

4 劉輝;基于KNN算法的中文Web文本分類技術(shù)研究[D];遼寧工程技術(shù)大學(xué);2010年

5 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國海洋大學(xué);2010年

6 劉偉麗;基于粒子群算法和支持向量機的中文文本分類研究[D];河南工業(yè)大學(xué);2010年

7 于飛;基于搜索引擎的個性化推薦研究[D];哈爾濱理工大學(xué);2010年

8 蘇麒勻;基于概率的潛在語義分析模型在搜索引擎商業(yè)文本分類系統(tǒng)中的應(yīng)用研究[D];北京交通大學(xué);2011年

9 張廬穎;基于粗糙集的K-means研究[D];北京交通大學(xué);2011年

10 樊春雷;基于語義分析的糖尿病健康教育系統(tǒng)研究與實現(xiàn)[D];華東理工大學(xué);2011年

【二級參考文獻】

相關(guān)期刊論文 前2條

1 張曉寧;;走近垂直搜索[J];電子商務(wù)世界;2006年Z1期

2 趙志榮;垂直網(wǎng)站與垂直搜索引擎[J];中國信息導(dǎo)報;2000年11期

相關(guān)碩士學(xué)位論文 前1條

1 壽周翔;專業(yè)搜索引擎的研究與設(shè)計[D];浙江大學(xué);2005年

【相似文獻】

相關(guān)期刊論文 前10條

1 周彩蘭;馮斌;;Web數(shù)據(jù)挖掘在搜索引擎中的應(yīng)用[J];軟件導(dǎo)刊;2007年17期

2 江婕;李建民;曾R挽,

本文編號:2063351


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2063351.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dbab4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com