天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

開源中文分詞器在web搜索引擎中的應(yīng)用

發(fā)布時間:2017-10-28 10:21

  本文關(guān)鍵詞:開源中文分詞器在web搜索引擎中的應(yīng)用


  更多相關(guān)文章: 分詞器 web搜索 信息檢索 智能分詞 全文搜索


【摘要】:目前,在信息檢索方面,一般分詞器對英文的支持相對較好,但對中文分詞效果不太理想;隨著web搜索在互聯(lián)網(wǎng)中的廣泛應(yīng)用,中文分詞器也出現(xiàn)了突飛猛進(jìn)的發(fā)展,尤其以IKAnalyzer分詞器為主的分詞工具,為更多企事業(yè)單位所采納。本文主要在詞條化等方面對分詞原理進(jìn)行深入的分析,并且對如何構(gòu)造智能分詞詞典進(jìn)行了探討。同時,對分詞內(nèi)部結(jié)構(gòu)進(jìn)行研究,在分詞數(shù)目和速率方面對目前主流的中文分詞器進(jìn)行了比較,并運用htmlparser庫對北京郵電大學(xué)的網(wǎng)站進(jìn)行解析,采用分詞工具Paoding Analysis建立索引文件存入本地,利用solt4.0全文搜索服務(wù)器給出運用中文分詞后的查詢效果圖,實現(xiàn)對北京郵電大學(xué)網(wǎng)站的全文搜索功能。
【作者單位】: 北京郵電大學(xué)電子工程學(xué)院;北京郵電大學(xué)自動化學(xué)院;
【關(guān)鍵詞】分詞器 web搜索 信息檢索 智能分詞 全文搜索
【分類號】:TP391.3
【正文快照】: O引言隨著互聯(lián)網(wǎng)的飛速發(fā)展,搜索引擎在實時搜索、社會化搜索和個性化搜索等方面發(fā)生著巨大的變化,,從而促使人們在性能、功能和界面上的要求越來越高,而其中起著關(guān)鍵作用的分詞技術(shù)也在潛移默化的更新?lián)Q代。目前幾大主要的搜索引擎都采用如下的工作原理:用戶輸人搜索關(guān)鍵

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前3條

1 費洪曉,康松林,朱小娟,謝文彪;基于詞頻統(tǒng)計的中文分詞的研究[J];計算機(jī)工程與應(yīng)用;2005年07期

2 陳林;楊丹;趙俊芹;;基于語義理解的智能搜索引擎研究[J];計算機(jī)科學(xué);2008年06期

3 陳紅濤;楊放春;陳磊;;基于大規(guī)模中文搜索引擎的搜索日志挖掘[J];計算機(jī)應(yīng)用研究;2008年06期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 王茜;基于字符串匹配的中英文混合分詞技術(shù)研究[D];四川師范大學(xué);2011年

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 白曉梅;張福利;;校園網(wǎng)中文搜索引擎系統(tǒng)的設(shè)計[J];鞍山師范學(xué)院學(xué)報;2006年06期

2 耿新青;陶鳳梅;黃宏光;;一種基于近鄰匹配的中文分詞算法Jlppeccz[J];鞍山師范學(xué)院學(xué)報;2010年04期

3 徐光俠;封雷;涂演;李成;;基于Android和Google Maps的生活輔助系統(tǒng)的設(shè)計與實現(xiàn)[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2012年02期

4 田占霄;韓憲忠;王克儉;;一種改進(jìn)的長詞優(yōu)先逆向最大匹配分詞消歧策略[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2009年04期

5 趙春紅;高希龍;王檸;趙威;劉國華;;一種應(yīng)用分治策略的中文分詞方法[J];燕山大學(xué)學(xué)報;2009年05期

6 湯國鋒;徐振偉;張華熊;;基于Lucene的中文分詞技術(shù)研究[J];電腦編程技巧與維護(hù);2012年10期

7 康松林;施榮華;;基于信息元的教學(xué)資源組織系統(tǒng)的設(shè)計與實現(xiàn)[J];電腦與信息技術(shù);2006年04期

8 陳文君;於文雪;;漢英跨語言檢索系統(tǒng)中關(guān)鍵詞提取方法的研究[J];電腦知識與技術(shù);2009年28期

9 葉敏;范金鋒;;基于二叉排序樹及中文分詞的關(guān)鍵字過濾技術(shù)[J];電力信息化;2011年07期

10 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 王芳;萬常選;;基于互信息的中文完整詞自動識別模型[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

2 夏天;研究性學(xué)習(xí)支持系統(tǒng)[D];華東師范大學(xué);2007年

3 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 馮海瑛;《萬歷野獲編》分詞理論與實踐[D];廣西師范學(xué)院;2010年

2 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過濾研究[D];鄭州大學(xué);2010年

3 劉國峰;數(shù)據(jù)模板匹配研究及在社保審計中的應(yīng)用[D];哈爾濱工程大學(xué);2010年

4 孔勝;文本資源的知識抽取研究[D];大連理工大學(xué);2010年

5 李丹;基于規(guī)則與統(tǒng)計的漢語自動分詞研究[D];長春工業(yè)大學(xué);2010年

6 周月紅;基于Lucene的站內(nèi)搜索引擎的設(shè)計與開發(fā)[D];華東理工大學(xué);2011年

7 林淥;基于新聞主題模型的熱點工作挖掘系統(tǒng)[D];浙江大學(xué);2011年

8 曹亞輝;非結(jié)構(gòu)文本最佳近似匹配系統(tǒng)的研究與實現(xiàn)[D];東華大學(xué);2011年

9 惠國寶;基于統(tǒng)計和語義分析的分詞及在產(chǎn)品設(shè)計中的應(yīng)用[D];西安電子科技大學(xué);2011年

10 詹圣君;基于用戶行為日志分析的搜索引擎排序算法研究[D];湖北工業(yè)大學(xué);2011年

【二級參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期

2 王顯芳,杜利民;一種能夠檢測所有交叉歧義的漢語分詞算法[J];電子學(xué)報;2004年01期

3 張仰森,徐波,曹元大;自然語言處理中的語言模型及其比較研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2003年01期

4 王繼民,陳

本文編號:1107837


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1107837.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1bba2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com