基于樸素貝葉斯的垂直搜索引擎分類器設(shè)計(jì)
本文關(guān)鍵詞:基于樸素貝葉斯的垂直搜索引擎分類器設(shè)計(jì)
更多相關(guān)文章: 樸素貝葉斯 垂直搜索引擎 特征提取 文檔分類
【摘要】:隨著互聯(lián)網(wǎng)的網(wǎng)頁(yè)數(shù)量呈現(xiàn)爆炸式增長(zhǎng),傳統(tǒng)的通用搜索引擎越來(lái)越遭人詬病,查詢不準(zhǔn)、深度不夠等問題,使用戶倍感煩惱。因此,針對(duì)特定行業(yè)的垂直搜索引擎逐漸興起,與之相關(guān)的研究也日益受到重視。網(wǎng)頁(yè)分類是垂直搜索引擎的基礎(chǔ)和難點(diǎn),分類器的好壞直接決定了一個(gè)垂直搜索引擎系統(tǒng)的性能;跇闼刎惾~斯的垂直搜索引擎分類器通過(guò)CHI方法進(jìn)行特征提取,利用樸素貝葉斯模型對(duì)從互聯(lián)網(wǎng)爬取的網(wǎng)頁(yè)按內(nèi)容類別進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,該分類器對(duì)網(wǎng)頁(yè)分類有著良好的表現(xiàn),為構(gòu)建大型專業(yè)的垂直搜索引擎系統(tǒng)奠定了一定的理論基礎(chǔ)。
【作者單位】: 天津科技大學(xué);河北遠(yuǎn)東通信系統(tǒng)工程有限公司;
【分類號(hào)】:TP391.3
【正文快照】: 0引言所謂垂直搜索引擎,是針對(duì)某一個(gè)行業(yè)或類別的專業(yè)搜索引擎,其特點(diǎn)是“專、精、深”,且具有行業(yè)色彩,相比傳統(tǒng)通用搜索引擎的海量信息無(wú)序化,垂直搜索引擎則更加專注、具體和深入[1]。2006年以來(lái),國(guó)內(nèi)垂直搜索引擎與相關(guān)行業(yè)相結(jié)合,在IT信息、房地產(chǎn)、招聘、購(gòu)物和醫(yī)療等
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王樹文;鄭闊實(shí);陳竟博;;面向教育主題的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];長(zhǎng)春師范學(xué)院學(xué)報(bào);2013年04期
2 菅小艷;崔彩霞;;基于樸素貝葉斯的文本分類[J];電腦開發(fā)與應(yīng)用;2013年12期
3 李靜梅,孫麗華,張巧榮,張春生;一種文本處理中的樸素貝葉斯分類器[J];哈爾濱工程大學(xué)學(xué)報(bào);2003年01期
4 盧葦;彭雅;;幾種常用文本分類算法性能比較與分析[J];湖南大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年06期
5 胡永鋒;;淺談垂直搜索引擎的工作原理[J];科學(xué)大眾(科學(xué)教育);2011年06期
6 任曉娜;;基于Lucene的全文搜索引擎的研究與實(shí)現(xiàn)[J];湖北廣播電視大學(xué)學(xué)報(bào);2010年05期
7 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報(bào)科學(xué);2010年03期
8 余淼;楊丹;趙俊芹;;垂直搜索引擎的關(guān)鍵技術(shù)研究[J];軟件導(dǎo)刊;2007年23期
9 張紅斌;曹義親;;混合多層分類和樸素貝葉斯模型的垂直搜索引擎分類器設(shè)計(jì)[J];現(xiàn)代圖書情報(bào)技術(shù);2011年03期
10 余芳,姜云飛;一種基于樸素貝葉斯分類的特征選擇方法[J];中山大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 石志偉;吳功宜;;改善樸素貝葉斯在文本分類中的穩(wěn)定性[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 陳弋蘭;王鳴;孫書誠(chéng);;樸素貝葉斯分類器的誤差估計(jì)[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年04期
2 陳弋蘭;;基于樸素貝葉斯分類的圖像消噪[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年03期
3 邵樂;于紅;劉溪婧;綦孝姬;梁曉娜;;基于樸素貝葉斯的漁業(yè)文本分類器研究[J];大連水產(chǎn)學(xué)院學(xué)報(bào);2010年01期
4 劉穎;;貝葉斯方法在文本分類預(yù)處理中的應(yīng)用[J];電腦與信息技術(shù);2010年06期
5 劉穎;;淺析貝葉斯方法在文本分類中的應(yīng)用[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年22期
6 牟肖光;宮麗寧;;基于樸素貝葉斯的中文垃圾短信過(guò)濾系統(tǒng)的設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2008年32期
7 苑俊英;袁方;劉博;;一種基于類別核心詞的概念映射方法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
8 楊永斌;;油田信息專業(yè)搜索引擎的研究與應(yīng)用[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年12期
9 焦鵬;王新政;謝鵬遠(yuǎn);;基于屬性選擇法的樸素貝葉斯分類器性能改進(jìn)[J];電訊技術(shù);2013年03期
10 陳曉麗;楊欣蓉;王作釗;周航;趙益;沈玲玲;;面向制造業(yè)的知識(shí)搜索引擎設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2013年16期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 張娟;王慧鋒;;文本分類技術(shù)在海量金融信息處理中的應(yīng)用[A];第二十四屆中國(guó)控制會(huì)議論文集(下冊(cè))[C];2005年
2 徐曉東;郭燕慧;;AppStore應(yīng)用信息自動(dòng)化采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[A];2013年中國(guó)信息通信研究新進(jìn)展論文集[C];2014年
3 周利民;童珉;陳燕雙;;面向互聯(lián)網(wǎng)視頻主題管理的搜索引擎關(guān)鍵技術(shù)研究及實(shí)現(xiàn)[A];中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)第六次會(huì)員代表大會(huì)、2014年學(xué)術(shù)年會(huì)暨第七屆《王選新聞科學(xué)技術(shù)獎(jiǎng)》和優(yōu)秀論文獎(jiǎng)?lì)C獎(jiǎng)大會(huì)論文集(二等獎(jiǎng))[C];2014年
4 徐曉東;郭燕慧;;App Store應(yīng)用信息自動(dòng)化采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[A];2013年中國(guó)信息通信研究新進(jìn)展論文集[C];2014年
5 吳運(yùn)超;崔浩;王賽;王浩然;崔真真;;面向規(guī)劃編制的網(wǎng)絡(luò)數(shù)據(jù)獲取與整合方法研究[A];第十七屆中國(guó)科協(xié)年會(huì)——分16 大數(shù)據(jù)與城鄉(xiāng)治理研討會(huì)論文集[C];2015年
6 張維楚;高翔;;互聯(lián)網(wǎng)熱點(diǎn)搜索與追蹤的研究和實(shí)現(xiàn)[A];中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)2015年度“新聞科技論文”優(yōu)秀論文集[C];2015年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 殷志偉;基于統(tǒng)計(jì)學(xué)習(xí)理論的分類方法研究[D];哈爾濱工程大學(xué);2009年
2 楊抒;基于WEB的林產(chǎn)品信息資源整合方法研究[D];北京林業(yè)大學(xué);2011年
3 羅建宏;粒計(jì)算分類知識(shí)發(fā)現(xiàn)算法及其應(yīng)用[D];浙江大學(xué);2010年
4 代勁;云模型在文本挖掘應(yīng)用中的關(guān)鍵問題研究[D];重慶大學(xué);2011年
5 胡佳妮;文本挖掘中若干關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年
6 周亦鵬;基于軟件人的情境主題分析及應(yīng)用研究[D];北京科技大學(xué);2012年
7 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年
8 王龍;教育資源推薦服務(wù)中若干關(guān)鍵技術(shù)的研究[D];吉林大學(xué);2013年
9 黃煒;電子商務(wù)環(huán)境下商品信息檢索的若干問題研究[D];武漢大學(xué);2010年
10 王駿;基于文本挖掘的國(guó)際關(guān)系網(wǎng)絡(luò)研究[D];北京郵電大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 周登;基于N-Gram模型的藏文文本分類技術(shù)研究[D];西北民族大學(xué);2010年
2 楊鼎;基于樸素貝葉斯的中文文本情感傾向分類研究[D];湖南工業(yè)大學(xué);2010年
3 吳惠雄;基于支持向量機(jī)與聚類算法的中文文本分類研究[D];中南林業(yè)科技大學(xué);2009年
4 榮建文;基于RS-SVM的Web中文文本自動(dòng)分類研究[D];東北財(cái)經(jīng)大學(xué);2010年
5 許世明;中文網(wǎng)頁(yè)分類技術(shù)研究及預(yù)分類算法實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
6 王佳;支持Ajax技術(shù)的主題網(wǎng)絡(luò)爬蟲系統(tǒng)研究與實(shí)現(xiàn)[D];北京交通大學(xué);2011年
7 黃華;基于搜索引擎和語(yǔ)義的Web服務(wù)發(fā)現(xiàn)研究[D];武漢理工大學(xué);2011年
8 么士宇;基于分布式計(jì)算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
9 管翠花;支持Ajax技術(shù)的Deep Web網(wǎng)絡(luò)爬蟲模型研究[D];大連海事大學(xué);2011年
10 孫海東;面向醫(yī)學(xué)教育視頻的垂直檢索的研究[D];第二軍醫(yī)大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 吳yP昕;順風(fēng);;網(wǎng)絡(luò)搜索引擎的發(fā)展趨勢(shì)分析[J];當(dāng)代傳播;2007年03期
2 盧新國(guó),林亞平,陳治平;一種改進(jìn)的互信息特征選取預(yù)處理算法[J];湖南大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年01期
3 劉佳;賈彩燕;;基于TAN的文本自動(dòng)分類框架[J];計(jì)算機(jī)工程;2010年16期
4 王瓊;搜索引擎的四大發(fā)展趨勢(shì)[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年03期
5 孫登峰;面向XML文檔的概念檢索技術(shù)[J];計(jì)算機(jī)應(yīng)用;2003年01期
6 朱學(xué)昊;王儒敬;余鋒林;唐昱;;基于Lucene的站內(nèi)搜索設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2008年10期
7 劉暢;;綜合搜索引擎與垂直搜索引擎的比較研究[J];情報(bào)科學(xué);2007年01期
8 李廣麗;;基于網(wǎng)頁(yè)內(nèi)容評(píng)價(jià)和Web圖的啟發(fā)式垂直搜索策略的設(shè)計(jì)[J];情報(bào)理論與實(shí)踐;2009年09期
9 何東炯;搜索無(wú)所不在[J];軟件世界;2005年09期
10 羅海飛;吳剛;楊金生;;基于貝葉斯的文本分類方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年24期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 李廣麗;垂直搜索引擎的研究與設(shè)計(jì)[D];華東交通大學(xué);2008年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期
2 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期
3 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期
4 張美芳;張迎春;;淺議垂直搜索引擎服務(wù)市場(chǎng)的商業(yè)模式[J];現(xiàn)代商業(yè);2010年06期
5 焦龍;;垂直搜索引擎在旅游企業(yè)中應(yīng)用的探索[J];商場(chǎng)現(xiàn)代化;2010年08期
6 趙宏中;李亞;;垂直搜索引擎應(yīng)用研究[J];現(xiàn)代商貿(mào)工業(yè);2010年04期
7 陳高維;鄧天權(quán);曾云磊;王維國(guó);張龍;;基于垂直搜索引擎的旅游線路評(píng)價(jià)模型的設(shè)計(jì)[J];科技創(chuàng)新導(dǎo)報(bào);2010年18期
8 劉小強(qiáng);;二手轉(zhuǎn)讓及房產(chǎn)租售垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];三門峽職業(yè)技術(shù)學(xué)院學(xué)報(bào);2010年03期
9 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期
10 胡永鋒;;淺談垂直搜索引擎的工作原理[J];科學(xué)大眾(科學(xué)教育);2011年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
4 毛華揚(yáng);劉衛(wèi);;會(huì)計(jì)信息搜索方法研究[A];第十屆全國(guó)會(huì)計(jì)信息化年會(huì)論文集[C];2011年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 胡宜敏;農(nóng)業(yè)垂直搜索引擎語(yǔ)義化若干問題的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
3 王桂紅;農(nóng)產(chǎn)品市場(chǎng)價(jià)格web信息分析方法研究[D];沈陽(yáng)農(nóng)業(yè)大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 崔詩(shī)遠(yuǎn);基于垂直搜索引擎的旅行社網(wǎng)絡(luò)營(yíng)銷[D];青島大學(xué);2009年
2 翟曉玲;面向?qū)W科的基礎(chǔ)教育資源垂直搜索引擎的研究與實(shí)現(xiàn)[D];東北師范大學(xué);2009年
3 王嘉杰;面向博客領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年
4 劉明君;垂直搜索引擎?zhèn)鞑W(xué)特征及應(yīng)用研究[D];華中科技大學(xué);2008年
5 黎斌;可擴(kuò)展分布式垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
6 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國(guó)地質(zhì)大學(xué)(北京);2010年
7 石占偉;垃圾頁(yè)面檢測(cè)及其在垂直搜索引擎中的應(yīng)用[D];燕山大學(xué);2010年
8 張楠;面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年
9 陳向東;寵物用品垂直搜索引擎研究與設(shè)計(jì)[D];西北農(nóng)林科技大學(xué);2010年
10 周佳慶;實(shí)時(shí)垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學(xué);2010年
,本文編號(hào):1144592
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1144592.html