垂直搜索引擎中的分詞算法研究
本文關(guān)鍵詞:垂直搜索引擎中的分詞算法研究
更多相關(guān)文章: 垂直搜索引擎 分詞算法 檢索效率
【摘要】:垂直搜索引擎是用戶利用網(wǎng)絡(luò)資源不可或缺的工具,而其中的索引引擎和查詢引擎都使用到了分詞算法。前者依據(jù)分詞算法分析文本建立倒排索引表,后者依據(jù)分詞算法將查詢語句切分成關(guān)鍵詞。為了提高垂直搜索引擎的檢索效率,有必要研究一下垂直搜索引擎中的分詞技術(shù)。在本文中,首先介紹了現(xiàn)有的中文分詞算法并分析了其缺點,在此基礎(chǔ)上構(gòu)建了一種改進的分詞算法。最后,本文通過實驗證明了該改進算法的有效性。
【作者單位】: 上海市東華大學(xué)信息科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: 垂直搜索引擎 分詞算法 檢索效率
【分類號】:TP391.3
【正文快照】: 0引言近年來,爆炸式增長的信息和不斷發(fā)展的互聯(lián)網(wǎng)技術(shù),使得WEB的信息量急劇增長,格式以及內(nèi)容不斷翻新,而通用搜索引擎由于存儲、計算資源和帶寬等方面的問題想要檢索互聯(lián)網(wǎng)上全部的網(wǎng)頁是不可能的[1]。從海量的信息中準(zhǔn)確快速地搜索出特定的內(nèi)容十分困難,如何從網(wǎng)絡(luò)中的海量
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張輝麗;孟昭鵬;王慧芝;;漢語自動分詞中的歧義處理[J];微計算機應(yīng)用;2006年06期
2 亢臨生,,張永奎;利用分詞屬性解決歧義切分[J];電腦開發(fā)與應(yīng)用;1994年04期
3 王永景;劉功申;李生紅;荊濤;;用于文本校對的分詞與詞性標(biāo)注一體化算法[J];計算機技術(shù)與發(fā)展;2008年08期
4 張立巖;呂玲;王井陽;;基于最大熵算法的全文檢索研究[J];河北科技大學(xué)學(xué)報;2009年02期
5 盛啟東;譚守標(biāo);徐超;馮二媛;陳軍寧;;巧用黑盒法逆推百度中文分詞算法[J];計算機技術(shù)與發(fā)展;2010年04期
6 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期
7 趙亞慧;;基于編輯距離的中文機構(gòu)名簡稱檢索方法研究[J];內(nèi)蒙古科技與經(jīng)濟;2010年07期
8 周文剛;孫挺;;Web頁文本信息語義過濾系統(tǒng)設(shè)計與實現(xiàn)[J];周口師范學(xué)院學(xué)報;2007年02期
9 謝紅薇;王棟;;基于Web文本挖掘中的一種中文分詞算法研究[J];電腦開發(fā)與應(yīng)用;2007年07期
10 吳振南;熊皓;徐愛萍;;GIS中文查詢語句的未登錄詞識別算法研究[J];計算機工程與科學(xué);2007年11期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王蘭成;田梅;侯雙;;PLS:一種基于信息自動標(biāo)引的最小推進分詞算法及其實現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年
2 蘇亮;孫斌;;一種基于Lucene的Hash改進中文分詞算法的實現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年
3 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機:中文分詞研究的新思維[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
4 陳曉蘇;鄒園斌;張文珂;;全切分圖與路徑表達式在分詞算法中的應(yīng)用[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
5 刮俊杰;吳樹國;伊勝偉;;基于詞效應(yīng)的中文術(shù)語提取方法[A];第三屆中國智能計算大會論文集[C];2009年
6 孫亞夫;陳文斌;;基于分詞的地址匹配技術(shù)[A];中國地理信息系統(tǒng)協(xié)會第四次會員代表大會暨第十一屆年會論文集[C];2007年
7 姜尚仆;陳群秀;;基于規(guī)則和統(tǒng)計的日語分詞和詞性標(biāo)注的研究[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
8 陳志峰;朱巧明;;面向課程教學(xué)的中文問答系統(tǒng)研究[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
9 姜文斌;王志洋;劉群;呂雅娟;;基于馬爾可夫間隔標(biāo)注的中文分詞算法[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
10 孫茂松;;分詞國際標(biāo)準(zhǔn)中的核心概念體系[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 張京楣;基于統(tǒng)計方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年
2 田學(xué)東;光學(xué)公式識別技術(shù)研究[D];河北大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 林冬盛;中文分詞算法的研究與實現(xiàn)[D];西北大學(xué);2011年
2 王凱;中文分詞算法在工程建設(shè)材料搜索中的研究與應(yīng)用[D];大連交通大學(xué);2010年
3 刁毓;基于本體的中文分詞算法的研究與實現(xiàn)[D];曲阜師范大學(xué);2012年
4 付敏;一個改進的中文分詞算法及其在Lucene中的應(yīng)用[D];華中科技大學(xué);2010年
5 朱世猛;中文分詞算法的研究與實現(xiàn)[D];電子科技大學(xué);2011年
6 韓雪冬;基于CRFs的中文分詞算法研究與實現(xiàn)[D];北京郵電大學(xué);2010年
7 李暢;智能問答系統(tǒng)在高中物理教學(xué)中的應(yīng)用[D];陜西師范大學(xué);2011年
8 孫博雅;中文分詞算法在GIS中的應(yīng)用研究[D];中南大學(xué);2011年
9 馬東;基于Nutch搜索引擎的中文分詞算法研究與實現(xiàn)[D];內(nèi)蒙古農(nóng)業(yè)大學(xué);2011年
10 范敏敏;企業(yè)經(jīng)營范圍字段自動分類方法研究[D];哈爾濱工業(yè)大學(xué);2010年
本文編號:601505
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/601505.html