一個基于Lucene的維文搜索引擎的設計與實現(xiàn)
本文關鍵詞:一個基于Lucene的維文搜索引擎的設計與實現(xiàn)
【摘要】:目前針對維文搜索引擎的研究還比較少,本文在開源項目Lucene搜索引擎的基礎上,通過對數(shù)據(jù)源、分詞和停用詞的設置構造了一個實驗性的維文搜索引擎,并針對維文的特點改進了搜索方法。在手工構造的語料上的搜索實驗表明,基于前綴匹配的搜索方法改進了維文搜索引擎的效果。
【作者單位】: 蘇州大學自然語言處理實驗室;蘇州大學計算機科學與技術學院;
【關鍵詞】: 搜索引擎 維文 分詞 Lucene
【分類號】:TP391.3
【正文快照】: 1引言隨著社會經(jīng)濟的發(fā)展,新疆的網(wǎng)絡事業(yè)也得到了很大的發(fā)展,出現(xiàn)了很多具有民族特色的維文網(wǎng)站,大大豐富了網(wǎng)絡上的維文文本信息,而目前的通用搜索引擎不能很好地適合維文的特點,因此如何進行維文文本搜索是目前迫切需要解決的問題[1][2]。目前網(wǎng)絡上的維文文本存在著種類繁
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 古麗拉·阿東別克,米吉提·阿布力米提;維吾爾語詞切分方法初探[J];中文信息學報;2004年06期
2 薛化建;董興華;王磊;吐爾洪·吾司曼;蔣同海;;基于詞綴庫的非監(jiān)督維吾爾語詞切分方法[J];計算機工程與設計;2011年09期
3 艾賽提江·艾拜都拉;維文搜索引擎設計及實現(xiàn)[J];新疆教育學院學報;2004年04期
4 亞森·艾則孜;迪里夏提·買買提;如先故力·阿布都熱西提;;基于Google Web API的單機版維文元搜索引擎技術研究[J];信息網(wǎng)絡安全;2011年05期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳鴿;王廷梅;趙瑋;;一種新的維漢英混排文本顯示模型的設計[J];硅谷;2012年16期
2 努爾麥麥提·尤魯瓦斯;吾守爾·斯拉木;熱依曼·吐爾遜;;維吾爾語大詞匯語音識別系統(tǒng)識別單元研究[J];北京大學學報(自然科學版);2014年01期
3 魏長春;;資料搜集過程中搜索引擎合理化選擇探討[J];信息通信;2011年05期
4 古麗拉·阿東別克,艾爾肯·伊米爾;維吾爾文校對中常見錯誤分析[J];計算機工程與應用;2005年27期
5 趙永進;郭大慶;盧有飛;李英凡;;維文軟件中排版關鍵技術的研究與實現(xiàn)[J];計算機工程與應用;2007年22期
6 蘇建輝;程晶;蔣同海;;維、哈、柯文版Linux操作系統(tǒng)關鍵技術的設計實現(xiàn)[J];計算機科學;2008年10期
7 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯全文搜索引擎檢索器的關鍵技術[J];計算機工程;2008年21期
8 薛化建;董興華;周喜;吐爾洪·吾司曼;李曉;;基于子字單元的維吾爾語語音識別研究[J];計算機工程;2011年20期
9 張偉;任大明;許曉輝;趙凡;張巖;;維、哈、柯文顯示及排版技術研究[J];計算機應用研究;2008年03期
10 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯多文種全文搜索引擎的設計與實現(xiàn)[J];計算機應用與軟件;2009年06期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 維尼拉·木沙江;吳俊森;吐爾根·依布拉音;;維吾爾文搜索引擎的倒排索引設計與實現(xiàn)[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
2 吐爾地·托合提;維尼拉·木沙江;米吉提·阿不里米提;;維吾爾文搜索引擎Web Server的實現(xiàn)[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
3 米吉提·阿不里米提;艾斯卡爾·艾木都拉;吐爾地·托合提;;維語詞法分析器研究開發(fā)[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
4 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯全文搜索引擎中查詢處理研究與實現(xiàn)[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
5 李文;李淼;張建;陳雷;雪艷;;一種帶權值參數(shù)的非監(jiān)督式形態(tài)切分方法[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
6 海麗且木·艾沙;維尼拉·木沙江;;Web文本分類及其維、哈、柯多文種信息檢索中的應用研究[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
7 王珍;維尼拉·木沙江;趙麗紅;;維、哈、柯文搜索引擎中自動分類技術的應用研究[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
8 倪耀群;許洪波;譚婧霞;唐慧豐;程學旗;孟丹;;基于優(yōu)化維漢雙語詞典的多語言信息檢索系統(tǒng)[A];第六屆全國信息檢索學術會議論文集[C];2010年
9 通拉嘎;;漢、蒙、藏、維分詞與詞性標注技術發(fā)展現(xiàn)狀研究[A];第五屆全國青年計算語言學研討會論文集[C];2010年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 麥熱哈巴·艾力;基于實例的維漢機器翻譯若干關鍵問題研究[D];新疆大學;2014年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 熱依瑪依·買買提;維、哈、柯搜索引擎中基于文本的圖像檢索技術的研究[D];新疆大學;2011年
2 趙倩倩;維吾爾語信息檢索[D];天津大學;2012年
3 陳麗珍;維文網(wǎng)絡中不良文本信息檢索、監(jiān)控系統(tǒng)的研究[D];新疆大學;2006年
4 陳鵬;基于語料庫的維吾爾語詞干提取和詞性標注[D];新疆大學;2006年
5 馬歡;基于不定長拼接單元的維吾爾語文語轉換系統(tǒng)的研究與實現(xiàn)[D];新疆大學;2006年
6 張冉;主題搜索引擎的研究與設計[D];新疆大學;2006年
7 蔡琴;基于HTK的維吾爾語連續(xù)數(shù)字語音識別研究[D];新疆大學;2007年
8 胡顏琪;維、漢多語種農(nóng)村信息化系統(tǒng)研究與實現(xiàn)[D];新疆大學;2008年
9 王珍;維、哈、柯文搜索引擎中的自動分類技術研究[D];新疆大學;2010年
10 劉俊;基于windows7的維文多語種操作系統(tǒng)本地化的研究與實現(xiàn)[D];新疆大學;2012年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 亞森·艾則孜;;基于Hook技術的維吾爾文直接輸入法的設計與實現(xiàn)[J];電腦編程技巧與維護;2006年04期
2 亞森·艾則孜;;基于維文信息的計算機取證輔助工具研究[J];計算機安全;2008年03期
3 亞森·艾則孜;王斌君;;計算機取證中維文信息代碼的分析方法研究[J];中國人民公安大學學報(自然科學版);2007年02期
4 殷建平;漢語自動分詞方法[J];計算機工程與科學;1998年03期
5 古麗拉·阿東別克,米吉提·阿布力米提;維吾爾語詞切分方法初探[J];中文信息學報;2004年06期
6 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學報;2007年03期
7 阿孜古麗·夏力甫;;維吾爾語動詞附加語素的復雜特征研究[J];中文信息學報;2008年03期
8 米熱古麗·艾力;米吉提·阿不力米提;艾斯卡爾·艾木都拉;;基于詞法分析的維吾爾語元音弱化算法研究[J];中文信息學報;2008年04期
9 孫茂松,左正平,鄒嘉彥;高頻最大交集型歧義切分字段在漢語自動分詞中的作用[J];中文信息學報;1999年01期
10 阿布力米提.阿不都熱依木;維吾爾文信息處理平臺Open Type字體制作技術[J];計算機工程與設計;2005年11期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 余川江;;基于Lucene的垂直搜索引擎的研究與實現(xiàn)[J];經(jīng)營管理者;2014年11期
2 孔維亭;閆宏印;;基于Lucene的自動答疑系統(tǒng)的設計[J];電腦開發(fā)與應用;2012年04期
3 喻金平;譚鳴;夏小云;;基于Lucene技術的垂直搜索引擎的研究[J];軟件導刊;2008年03期
4 陳忱;;Lucene排序算法的個性化改進[J];科技與企業(yè);2012年02期
5 阮曙芬;;基于Lucene的全文搜索排序算法的研究與改進[J];武漢紡織大學學報;2013年06期
6 葛振國;李建;何林糠;吳軍;;基于Lucene的Oracle數(shù)據(jù)庫全文檢索[J];信息技術;2010年03期
7 楊元峰;趙敏涯;廖黎莉;;基于Lucene的客服知識庫系統(tǒng)結構設計[J];福建電腦;2012年01期
8 馮宇;;基于模糊層次分析法的Lucene網(wǎng)頁排序算法研究[J];計算機與現(xiàn)代化;2011年01期
9 裴志松;;基于Lucene的畢業(yè)論文相似性檢測[J];長春工程學院學報(自然科學版);2013年04期
10 陳艷春;李雙平;;基于Lucene的企業(yè)級搜索引擎的設計與實現(xiàn)[J];現(xiàn)代圖書情報技術;2007年08期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 朱高平;樂嘉錦;;基于刻面分類和Lucene架構的Web服務發(fā)現(xiàn)技術的研究[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2007年
2 劉壽強;;基于Lucene的分級鑒權企業(yè)搜索引擎研究與設計[A];第二十一次全國計算機安全學術交流會論文集[C];2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 于雪麗;LUCENE中文分詞在科研文檔全文檢索系統(tǒng)的應用研究[D];青島大學;2011年
2 孫靜;基于Lucene的手機查詢軟件的研究與實現(xiàn)[D];重慶大學;2014年
3 文義;基于LUCENE的群體個性化搜索引擎研究[D];武漢理工大學;2010年
4 張彬;基于lucene的搜索引擎[D];上海師范大學;2010年
5 花潔;基于Lucene的搜索引擎應用與研究[D];湖北工業(yè)大學;2009年
6 成銳;基于lucene面向主題的手機搜索引擎的研究與實現(xiàn)[D];電子科技大學;2012年
7 黃江平;基于Lucene的桌面搜索引擎的研究與應用[D];浙江理工大學;2012年
8 張正龍;基于LUCENE的主題搜索引擎研究與實現(xiàn)[D];重慶大學;2008年
9 楊光偉;基于Lucene的個性化搜索引擎的研究與實現(xiàn)[D];內蒙古大學;2009年
10 姜華;基于Lucene面向主題搜索引擎的研究與設計[D];華東師范大學;2007年
,本文編號:1012559
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1012559.html