天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

Spark平臺(tái)下的高效Web文本分類系統(tǒng)的研究

發(fā)布時(shí)間:2017-10-27 14:38

  本文關(guān)鍵詞:Spark平臺(tái)下的高效Web文本分類系統(tǒng)的研究


  更多相關(guān)文章: KNN TFIDF 文本分類 Hadoop Spark


【摘要】:針對(duì)KNN分類算法在面對(duì)海量Web文本處理情況時(shí)在單機(jī)上訓(xùn)練和測(cè)試效率低下的問題,提出基于Hadoop分布式平臺(tái)以及Spark并行計(jì)算模型的無中間結(jié)果輸出的改進(jìn)型Web文本分類系統(tǒng)。同時(shí)為了充分利用Spark的迭代計(jì)算能力,在文本向量化階段,在傳統(tǒng)TFIDF文本特征加權(quán)算法的基礎(chǔ)上充分考慮特征項(xiàng)在類內(nèi)和類間的信息分布,提出一種改進(jìn)的特征加權(quán)算法。實(shí)驗(yàn)結(jié)果表明,該文本分類系統(tǒng)結(jié)合Spark計(jì)算模型在提高文本預(yù)處理、文本向量化以及KNN文本分類算法的性能上有著優(yōu)異的表現(xiàn)。
【作者單位】: 南京工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】KNN TFIDF 文本分類 Hadoop Spark
【分類號(hào)】:TP391.1
【正文快照】: 0 引言 隨著大數(shù)據(jù)浪潮的到來,對(duì)海量信息的處理能力已經(jīng)成為一個(gè)相當(dāng)重要的課題。成熟的文本分類系統(tǒng)通常具有很高準(zhǔn)確率,但Web文本信息的實(shí)時(shí)性特點(diǎn)同時(shí)也要求分類系統(tǒng)具有很高的分類效率。目前使用比較廣泛的文本分類算法包括K臨近算法[1]、樸素貝葉斯[2]、最大熵[3]、支

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 李光敏;許新山;熊旭輝;;Web文本情感分析研究綜述[J];現(xiàn)代情報(bào);2014年05期

2 王序臻;;Web文本層次分類方法研究[J];溫州職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年03期

3 鄒志華;田生偉;禹龍;馮冠軍;;改進(jìn)的維吾爾語Web文本后綴樹聚類[J];中文信息學(xué)報(bào);2013年02期

4 王景中;郭兆亮;;基于分層的中文Web文本內(nèi)容過濾研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2012年11期

5 王健;韓廣琳;;基于統(tǒng)計(jì)的Web文本自動(dòng)摘要技術(shù)分析[J];福建電腦;2007年08期

6 翁_g;胡長(zhǎng)軍;席強(qiáng);張學(xué)春;;一種面向e-Science環(huán)境的多領(lǐng)域Web文本特征抽取模型[J];小型微型計(jì)算機(jī)系統(tǒng);2011年01期

7 鐘軍;田生偉;禹龍;;Web文本中維吾爾語領(lǐng)域術(shù)語的自動(dòng)發(fā)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2012年02期

8 古麗娜孜;孫鐵利;;基于二叉樹的多類SVM在Web文本分類中的應(yīng)用研究[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期

9 李士勇;;基于人工免疫的Web文本自動(dòng)摘要方法研究[J];現(xiàn)代計(jì)算機(jī);2013年15期

10 徐麗;伏玉琛;李斯;;一種改進(jìn)的SVM決策樹Web文本分類算法[J];蘇州大學(xué)學(xué)報(bào)(工科版);2011年05期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前3條

1 劉斕冰;魏桂英;;Web文本信息挖掘技術(shù)[A];全國第十屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)年會(huì)論文集[C];2006年

2 于海燕;陳曉江;馮健;房鼎益;;Web文本內(nèi)容過濾方法的研究[A];2006年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(一)[C];2006年

3 袁志堅(jiān);賈焰;;基于誤差反饋的高速Web文本流快速近似分類[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 閆季鴻;基于Web文本和知識(shí)圖譜的實(shí)體摘要[D];華東師范大學(xué);2016年

2 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條

1 于帥;中文Web文本情感傾向性分析技術(shù)的研究[D];哈爾濱工程大學(xué);2013年

2 郭凱;面向Web文本的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年

3 鄧琨;基于Rough集的Web文本分類及其信息抽取研究[D];南昌大學(xué);2007年

4 桂海霞;利用表格等信息的Web文本分類研究與實(shí)現(xiàn)[D];安徽理工大學(xué);2008年

5 張諶奇;支持向量機(jī)在Web文本分類中的分析與應(yīng)用[D];暨南大學(xué);2008年

,

本文編號(hào):1103945

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1103945.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f9bfc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com