一種基于Lucene的面向主題爬行搜索引擎的研究
本文關(guān)鍵詞:一種基于Lucene的面向主題爬行搜索引擎的研究
更多相關(guān)文章: Lucene 面向主題 中文分詞 索引
【摘要】:本文簡要介紹了主題搜索的基本概念以及Lucene的基本結(jié)構(gòu)。研究了面向主題搜索引擎的實(shí)現(xiàn)和優(yōu)化,提出了JE中文分詞實(shí)現(xiàn)方法,主題索引系統(tǒng)的構(gòu)建,完成了一個高性能的主題搜索引擎系統(tǒng)。
【作者單位】: 浙江工商職業(yè)技術(shù)學(xué)院;
【關(guān)鍵詞】: Lucene 面向主題 中文分詞 索引
【基金】:浙江工商職業(yè)技術(shù)學(xué)院科研基金項(xiàng)目:一種基于Lucene的面向主題爬行搜索引擎的研究
【分類號】:TP391.3
【正文快照】: 在當(dāng)今的社會,通過互聯(lián)網(wǎng)獲取信息已逐漸成為人們?nèi)粘+@取信息的途徑之一。與此同時,互聯(lián)網(wǎng)的信息量也與日俱增,網(wǎng)上獲取信息的難度也隨之增加。搜索引擎的出現(xiàn),為人們提供了獲取信息的新途徑,通常情況下,人們習(xí)慣用Google和百度等通用搜索引擎來幫助自己在網(wǎng)絡(luò)中檢索想要的
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前3條
1 李曉亞;赫楓齡;左萬利;;基于網(wǎng)頁分塊技術(shù)主題爬行器的實(shí)現(xiàn)[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2007年06期
2 潘濤;梁正友;;Nutch中網(wǎng)頁排序效果的改進(jìn)方法[J];計(jì)算機(jī)工程;2010年13期
3 劉亞姝;黃岳;;基于Lucene的MYSearch全文搜索引擎[J];微型機(jī)與應(yīng)用;2010年18期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 陶林;諶超;強(qiáng)保華;王勇;;基于Hadoop的Nutch網(wǎng)頁排序算法研究與實(shí)現(xiàn)[J];桂林電子科技大學(xué)學(xué)報(bào);2013年02期
2 范會聯(lián);李獻(xiàn)禮;曾廣樸;;基于改進(jìn)遺傳算法的聚焦爬蟲設(shè)計(jì)[J];計(jì)算機(jī)工程與科學(xué);2010年05期
3 王征;徐培文;;基于互聯(lián)網(wǎng)用戶心理挖掘的網(wǎng)站深翻系統(tǒng)[J];計(jì)算機(jī)科學(xué);2012年11期
4 劉兆偉;黃永峰;;面向主題搜索引擎的實(shí)現(xiàn)與優(yōu)化[J];數(shù)據(jù)通信;2011年04期
5 劉佐達(dá);張久嶺;陳茂科;李星;;一種面向BBS信息檢索的主題網(wǎng)絡(luò)爬蟲算法[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2010年02期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前9條
1 文軍艦;基于Nutch的Web結(jié)構(gòu)挖掘算法研究[D];天津財(cái)經(jīng)大學(xué);2011年
2 張立;文本搜索引擎的探究與設(shè)計(jì)[D];華南理工大學(xué);2011年
3 張麗娟;基于Lucene的面向主題爬行搜索引擎的應(yīng)用研究[D];安徽理工大學(xué);2011年
4 李海波;基于MapReduce框架的分布式網(wǎng)絡(luò)爬行器研究[D];哈爾濱工程大學(xué);2011年
5 卜永忠;面向金融信息的主題爬蟲研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2008年
6 黃仲清;互聯(lián)網(wǎng)主題信息定向采集研究[D];華東師范大學(xué);2010年
7 李倩倩;基于個性化知識搜索的E-learning系統(tǒng)的研究[D];湖北工業(yè)大學(xué);2012年
8 李偉;基于J2EE的網(wǎng)絡(luò)輿情分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2012年
9 宋宇;深度web采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 赫楓齡,左萬利;利用超鏈接信息改進(jìn)網(wǎng)頁爬行器的搜索策略[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2005年01期
2 姚文琳;劉文;;一種基于本體的PageRank算法的改進(jìn)策略[J];計(jì)算機(jī)工程;2009年06期
3 魯松,李曉黎,白碩,王實(shí);文檔中詞語權(quán)重計(jì)算方法的改進(jìn)[J];中文信息學(xué)報(bào);2000年06期
4 張校乾,金玉玲,侯麗波;一種基于Lucene檢索引擎的全文數(shù)據(jù)庫的研究與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2005年02期
5 隋麗萍;徐承韜;李瑞芳;;一個中文全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];科技資訊;2007年18期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 馬志強(qiáng);劉利民;蘇依拉;馬瑞明;;基于Lucene的站內(nèi)搜索引擎研究[J];內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
2 藍(lán)永健;;基于Lucene的校園網(wǎng)垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];廣東教育學(xué)院學(xué)報(bào);2009年03期
3 謝峰;劉洪星;;基于Lucene的Web站內(nèi)搜索引擎的研究[J];電腦知識與技術(shù);2008年04期
4 李瑞芳;楊娜;;主題搜索引擎的研究[J];微型機(jī)與應(yīng)用;2009年19期
5 胡繼鈞;;基于Lucene全文檢索引擎的研究與實(shí)現(xiàn)[J];科技創(chuàng)新導(dǎo)報(bào);2010年20期
6 張旭;;構(gòu)建基于本地服務(wù)的垂直搜索引擎[J];才智;2011年18期
7 蔡小艷;寇應(yīng)展;沈巍;鄭偉;;Nutch-0.9中JE中文分詞的實(shí)現(xiàn)[J];科學(xué)技術(shù)與工程;2008年17期
8 索紅光;孫鑫;;針對中文檢索的Lucene改進(jìn)策略[J];計(jì)算機(jī)應(yīng)用與軟件;2009年06期
9 向暉;郭一平;王亮;;基于Lucene的中文字典分詞模塊的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2006年08期
10 李穎;李志蜀;鄧歡;;基于Lucene的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)[J];四川大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應(yīng)用研究[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2008年
2 蘇亮;孫斌;;一種基于Lucene的Hash改進(jìn)中文分詞算法的實(shí)現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年
3 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年
4 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
5 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
6 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計(jì)量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 申兵一;鞏青歌;;基于Lucene桌面搜索引擎系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[A];江蘇省電子學(xué)會2010年學(xué)術(shù)年會論文集[C];2010年
8 李明宙;羅艷;王宗義;;Lucene全文檢索引擎的研究及應(yīng)用[A];廣西計(jì)算機(jī)學(xué)會2010年學(xué)術(shù)年會論文集[C];2010年
9 彭輝;翟翔;;AutoCAD 2008自動翻譯軟件研發(fā)[A];全國冶金自動化信息網(wǎng)2010年年會論文集[C];2010年
10 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2006年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 記者 吳苡婷;用技術(shù)挖出網(wǎng)絡(luò)信息中“金子”[N];上?萍紙(bào);2009年
2 劉青寶 鄧蘇 張維明 陳衛(wèi)東 黃宏賓;海量信息組織與集成技術(shù)[N];計(jì)算機(jī)世界;2001年
3 西安交通大學(xué) 朱國昱;數(shù)據(jù)倉庫與企業(yè)信息門戶[N];計(jì)算機(jī)世界;2000年
4 劉麗華 周丹 金水高 胡凱;面向管理的HIS信息集成設(shè)計(jì)[N];計(jì)算機(jī)世界;2006年
5 ;把握電信數(shù)據(jù)倉庫設(shè)計(jì)的關(guān)鍵環(huán)節(jié)[N];人民郵電;2006年
6 胡守毅;論數(shù)據(jù)倉庫的技術(shù)應(yīng)用[N];人民郵電;2002年
7 李曉鋼;有效建立數(shù)據(jù)交換與共享機(jī)制[N];大眾科技報(bào);2006年
8 李莉 商瑤玲;大型空間地理信息數(shù)據(jù)庫的解決方案[N];中國測繪報(bào);2003年
9 張 濤 劉劍峰;適應(yīng)跨越式發(fā)展需要構(gòu)建檢驗(yàn)檢疫決策支持系統(tǒng)(下)[N];中國國門時報(bào);2005年
10 ;建立企業(yè)級數(shù)據(jù)倉庫實(shí)現(xiàn)銀行管理決策科學(xué)化[N];金融時報(bào);2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
2 孫越恒;基于統(tǒng)計(jì)的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
3 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年
4 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
5 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年
6 任飛亮;高適應(yīng)性基于實(shí)例的機(jī)器翻譯中關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年
7 張京楣;基于統(tǒng)計(jì)方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年
8 李鵬;面向主題的多文檔自動文摘關(guān)鍵技術(shù)研究[D];上海交通大學(xué);2013年
9 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年
10 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 馮斌;基于Lucene小型搜索引擎的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2008年
2 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年
3 徐財(cái)應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進(jìn)[D];長春理工大學(xué);2010年
4 杜先撰;基于Lucene全文索引系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2011年
5 王冬坡;基于Lucene的主題搜索引擎的研究與實(shí)現(xiàn)[D];河北科技大學(xué);2010年
6 周月紅;基于Lucene的站內(nèi)搜索引擎的設(shè)計(jì)與開發(fā)[D];華東理工大學(xué);2011年
7 張偉;垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2008年
8 李東海;基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)[D];吉林大學(xué);2008年
9 許雁鳴;博客資源的爬取與檢索[D];山東大學(xué);2008年
10 劉運(yùn)佳;基于Lucene和Heririx構(gòu)建搜索引擎的研究和示例實(shí)現(xiàn)[D];電子科技大學(xué);2008年
,本文編號:1049951
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1049951.html