天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

Hadoop云平臺下Nutch中文分詞的研究與實現(xiàn)

發(fā)布時間:2017-06-14 21:10

  本文關(guān)鍵詞:Hadoop云平臺下Nutch中文分詞的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:Nutch是開源搜索引擎,Hadoop是Apache開發(fā)的類似于Google GFS和MapReduce的開源云平臺.利用Nutch和Hadoop可以設(shè)計高效、可靠、可擴(kuò)展的搜索引擎,然而Nutch的分詞模塊對中文進(jìn)行單字切分,不符合在漢語中以詞語切分的習(xí)慣,為了解決這個問題,采用詞典分詞的中文分詞器IK Analyzer對Nutch的分詞模塊進(jìn)行改進(jìn),首先描述在Nutch上實現(xiàn)IK Analyzer的方法,然后在Hadoop云環(huán)境下對該分詞模塊進(jìn)行測試.測試結(jié)果表明,IK Analyzer的中文分詞效果很符合漢語的習(xí)慣,對Nutch的理論和應(yīng)用研究具有一定的意義.
【作者單位】: 東北大學(xué)軟件學(xué)院;東北大學(xué)信息科學(xué)與工程學(xué)院;
【關(guān)鍵詞】Nutch Hadoop 中文分詞 云計算
【基金】:遼寧省自然科學(xué)基金項目(201202076)資助
【分類號】:TP391.1
【正文快照】: 1引言隨著計算機(jī)與互聯(lián)網(wǎng)的普及與應(yīng)用,人們早已經(jīng)進(jìn)入了信息化時代,我們使用計算機(jī)來完成我們需要做的很多事情,獲取我們需要的有用信息.由于信息數(shù)據(jù)的海量增長,微博和電子商務(wù)的普及,如何從海量的信息中提取有效的信息逐漸引起了人們的關(guān)注.國內(nèi)外眾多學(xué)者都在中文分詞領(lǐng)域

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前5條

1 王東;陳笑蓉;;一種改進(jìn)的高效分詞詞典機(jī)制[J];貴州大學(xué)學(xué)報(自然科學(xué)版);2007年04期

2 雷鳴,劉建國,王建勇,陳葆玨;一種基于詞典的搜索引擎系統(tǒng)動態(tài)更新模型[J];計算機(jī)研究與發(fā)展;2000年10期

3 赫建營;晏海華;金茂忠;劉超;;結(jié)合本體篩選和文本挖掘的垂直搜索引擎研究[J];計算機(jī)科學(xué);2008年02期

4 曹勇剛;曹羽中;金茂忠;劉超;;面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J];軟件學(xué)報;2006年03期

5 趙彥榮;王偉平;孟丹;張書彬;李均;;基于Hadoop的高效連接查詢處理算法CHMJ[J];軟件學(xué)報;2012年08期

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(自然科學(xué)版);2001年05期

2 劉春輝;金順福;劉國華;李穎;;基于優(yōu)化最大匹配與統(tǒng)計結(jié)合的漢語分詞方法[J];燕山大學(xué)學(xué)報;2009年02期

3 章堅民;張自聰;郭峰;谷煒;占震濱;樓堅;王云;;調(diào)度大屏輸電網(wǎng)潮流圖自動生成 (二)自動布線[J];電力系統(tǒng)自動化;2010年01期

4 劉韜;;設(shè)立切分標(biāo)志法在中文地址自動分詞中的改進(jìn)與應(yīng)用[J];電腦知識與技術(shù);2009年11期

5 薛麗敏;趙俊閣;石堯明;;電子郵件安全攔截系統(tǒng)的設(shè)計與實現(xiàn)研究[J];電子工程師;2006年11期

6 馮永;賀迅;唐黎;陳顯勇;陳貞;;面向文本知識管理的自適應(yīng)中文分詞算法[J];重慶大學(xué)學(xué)報;2010年10期

7 謝青峰;淺析高速緩沖存儲器Cache在PC系統(tǒng)中的應(yīng)用[J];福建電腦;2004年09期

8 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2012年06期

9 陽愛民,孫星明,李長云,周序生;可定題的中文網(wǎng)絡(luò)信息自動發(fā)現(xiàn)系統(tǒng)[J];計算機(jī)工程與應(yīng)用;2002年08期

10 朱征宇,朱慶生,張宏森;基于內(nèi)容模塊化的網(wǎng)頁快速瀏覽技術(shù)[J];計算機(jī)工程與應(yīng)用;2002年10期

中國重要會議論文全文數(shù)據(jù)庫 前2條

1 王芳;萬常選;;基于可信度的中文完整詞自動識別[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

2 陽愛民;孫星明;李長云;;可定題的網(wǎng)絡(luò)信息自動發(fā)現(xiàn)和查詢系統(tǒng)的設(shè)計與實現(xiàn)[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前8條

1 張海軍;基于大規(guī)模語料的中文新詞識別技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2011年

2 朱征宇;Web資源組織與服務(wù)性能研究[D];重慶大學(xué);2003年

3 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學(xué);2008年

4 劉剛;面向領(lǐng)域的軟件需求一致性驗證方法研究[D];哈爾濱工程大學(xué);2008年

5 周科松;全文檢索與GIS一體化及在應(yīng)急管理中的應(yīng)用研究[D];華東師范大學(xué);2009年

6 吳煒;密文全文檢索系統(tǒng)中的索引機(jī)制研究[D];華中科技大學(xué);2009年

7 黃建年;農(nóng)業(yè)古籍的計算機(jī)斷句標(biāo)點與分詞標(biāo)引研究[D];南京農(nóng)業(yè)大學(xué);2009年

8 陸前;英、漢跨語言話題檢測與跟蹤技術(shù)研究[D];中央民族大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 劉洋;基于本體的醫(yī)保審計知識庫構(gòu)建研究[D];哈爾濱工程大學(xué);2010年

2 李丹;基于規(guī)則與統(tǒng)計的漢語自動分詞研究[D];長春工業(yè)大學(xué);2010年

3 梁楨;基于尾字詞典的逆向回溯中文分詞技術(shù)研究[D];武漢工業(yè)學(xué)院;2010年

4 魏莎莎;一種中文未登錄詞識別及詞典設(shè)計新方法[D];西南大學(xué);2011年

5 李琚彪;質(zhì)檢輿情監(jiān)控系統(tǒng)中信息檢索的研究[D];北京郵電大學(xué);2011年

6 蔣才智;中文自動分詞及人名識別技術(shù)研究[D];合肥工業(yè)大學(xué);2011年

7 高艷影;中文問答系統(tǒng)中的問題分類研究[D];合肥工業(yè)大學(xué);2011年

8 郭艷芬;林業(yè)主題搜索引擎的設(shè)計與實現(xiàn)[D];北京林業(yè)大學(xué);2011年

9 張晟愷;脈沖中子譜儀的實驗數(shù)據(jù)框架[D];華中師范大學(xué);2011年

10 孟飛燕;保溫隔熱材料熱擴(kuò)散率和熱導(dǎo)率測試技術(shù)的研究[D];南京理工大學(xué);2010年

【二級參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 李向陽,張亞非;一種Hash高速分詞算法[J];解放軍理工大學(xué)學(xué)報(自然科學(xué)版);2004年02期

2 陳桂林,王永成,韓客松,王剛;一種改進(jìn)的快速分詞算法[J];計算機(jī)研究與發(fā)展;2000年04期

3 李振星,徐澤平,唐衛(wèi)清,唐榮錫;全二分最大匹配快速分詞算法[J];計算機(jī)工程與應(yīng)用;2002年11期

4 梁南元;書面漢語自動分詞系統(tǒng)—CDWS[J];中文信息學(xué)報;1987年02期

5 孫茂松,左正平,黃昌寧;漢語自動分詞詞典機(jī)制的實驗研究[J];中文信息學(xué)報;2000年01期

6 楊文峰,陳光英,李星;基于PATRICIA tree的漢語自動分詞詞典機(jī)制[J];中文信息學(xué)報;2001年03期

7 張華平,劉群;基于N-最短路徑方法的中文詞語粗分模型[J];中文信息學(xué)報;2002年05期

8 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J];中文信息學(xué)報;2003年04期

9 黃萱菁;吳立德;;基于向量空間模型的文檔分類系統(tǒng)[J];模式識別與人工智能;1998年02期

10 曹勇剛;曹羽中;金茂忠;劉超;;面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J];軟件學(xué)報;2006年03期

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 蔡小艷;沈巍;胡婷婷;曹永剛;;Nutch中文分詞插件的編寫與實現(xiàn)[J];信息技術(shù);2010年02期

2 張敏;;中文垂直搜索引擎研究與實現(xiàn)[J];福建電腦;2010年06期

3 王仕仲;寧龍兵;;基于Nutch的中文搜索引擎的研究與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2009年07期

4 鄭小波;鄭誠;封軍;;基于Nutch專題搜索引擎的研究[J];微計算機(jī)信息;2010年30期

5 蔡小艷;寇應(yīng)展;沈巍;鄭偉;;Nutch-0.9中JE中文分詞的實現(xiàn)[J];科學(xué)技術(shù)與工程;2008年17期

6 朱瑩芳;;JAVA技術(shù)與人工智能在搜索引擎上的應(yīng)用[J];硅谷;2009年24期

7 蔡小艷;寇應(yīng)展;沈巍;鄭偉;;漢語詞法分析系統(tǒng)ICTCLAS在Nutch-0.9中的應(yīng)用與實現(xiàn)[J];軍械工程學(xué)院學(xué)報;2008年05期

8 陳建鋒;;Nutch的中文問題研究[J];現(xiàn)代計算機(jī)(專業(yè)版);2009年07期

9 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計算機(jī)時代;2007年01期

10 熊桂喜;李政;;基于規(guī)則和語料庫的中文姓名識別研究[J];計算機(jī)與信息技術(shù);2007年12期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計[A];全國第22屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年

2 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

3 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

4 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

5 彭輝;翟翔;;AutoCAD 2008自動翻譯軟件研發(fā)[A];全國冶金自動化信息網(wǎng)2010年年會論文集[C];2010年

6 張佳寶;周斌;吳泉源;;基于Hadoop的并行化命名實體識別技術(shù)研究與實現(xiàn)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年

7 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設(shè)計[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應(yīng)用研究[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2008年

9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

10 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

中國重要報紙全文數(shù)據(jù)庫 前3條

1 記者 吳苡婷;用技術(shù)挖出網(wǎng)絡(luò)信息中“金子”[N];上?萍紙;2009年

2 本報記者 劉洪宇;Hadoop的中國前途[N];中國計算機(jī)報;2009年

3 高雪娟;企業(yè)搜索要為決策服務(wù)[N];中國計算機(jī)報;2006年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實現(xiàn)[D];北京工業(yè)大學(xué);2013年

2 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年

3 孫越恒;基于統(tǒng)計的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年

4 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

5 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年

6 李韌;基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D];重慶大學(xué);2013年

7 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年

8 任飛亮;高適應(yīng)性基于實例的機(jī)器翻譯中關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年

9 張京楣;基于統(tǒng)計方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年

10 張友華;面向智能服務(wù)的Web內(nèi)容計算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 李東海;基于Nutch技術(shù)的主題搜索引擎實現(xiàn)[D];吉林大學(xué);2008年

2 張慧;旅游信息垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2009年

3 馬忠寶;基于支持向量機(jī)的中文文本分類系統(tǒng)研究[D];武漢理工大學(xué);2006年

4 楊彥;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計分詞系統(tǒng)[D];中南大學(xué);2005年

5 戚晶;基于RSS的搜索引擎的研究與實現(xiàn)[D];吉林大學(xué);2006年

6 王圓;文本內(nèi)容過濾的關(guān)鍵技術(shù)研究[D];東北師范大學(xué);2006年

7 孟美華;桌面搜索引擎的設(shè)計與實現(xiàn)[D];大連理工大學(xué);2009年

8 謝照莉;基于Hadoop的機(jī)械故障診斷資源分布式信息檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];湖南科技大學(xué);2011年

9 范晨熙;基于Hadoop的搜索引擎的研究與應(yīng)用[D];浙江理工大學(xué);2013年

10 褚金正;面向特定領(lǐng)域的文本識別和分類[D];湖南大學(xué);2005年


  本文關(guān)鍵詞:Hadoop云平臺下Nutch中文分詞的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號:450544

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/450544.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e9daa***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com