Spark平臺(tái)下的高效Web文本分類系統(tǒng)的研究
本文關(guān)鍵詞:Spark平臺(tái)下的高效Web文本分類系統(tǒng)的研究
更多相關(guān)文章: KNN TFIDF 文本分類 Hadoop Spark
【摘要】:針對(duì)KNN分類算法在面對(duì)海量Web文本處理情況時(shí)在單機(jī)上訓(xùn)練和測(cè)試效率低下的問題,提出基于Hadoop分布式平臺(tái)以及Spark并行計(jì)算模型的無中間結(jié)果輸出的改進(jìn)型Web文本分類系統(tǒng)。同時(shí)為了充分利用Spark的迭代計(jì)算能力,在文本向量化階段,在傳統(tǒng)TFIDF文本特征加權(quán)算法的基礎(chǔ)上充分考慮特征項(xiàng)在類內(nèi)和類間的信息分布,提出一種改進(jìn)的特征加權(quán)算法。實(shí)驗(yàn)結(jié)果表明,該文本分類系統(tǒng)結(jié)合Spark計(jì)算模型在提高文本預(yù)處理、文本向量化以及KNN文本分類算法的性能上有著優(yōu)異的表現(xiàn)。
【作者單位】: 南京工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: KNN TFIDF 文本分類 Hadoop Spark
【分類號(hào)】:TP391.1
【正文快照】: 0 引言 隨著大數(shù)據(jù)浪潮的到來,對(duì)海量信息的處理能力已經(jīng)成為一個(gè)相當(dāng)重要的課題。成熟的文本分類系統(tǒng)通常具有很高準(zhǔn)確率,但Web文本信息的實(shí)時(shí)性特點(diǎn)同時(shí)也要求分類系統(tǒng)具有很高的分類效率。目前使用比較廣泛的文本分類算法包括K臨近算法[1]、樸素貝葉斯[2]、最大熵[3]、支
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李光敏;許新山;熊旭輝;;Web文本情感分析研究綜述[J];現(xiàn)代情報(bào);2014年05期
2 王序臻;;Web文本層次分類方法研究[J];溫州職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年03期
3 鄒志華;田生偉;禹龍;馮冠軍;;改進(jìn)的維吾爾語Web文本后綴樹聚類[J];中文信息學(xué)報(bào);2013年02期
4 王景中;郭兆亮;;基于分層的中文Web文本內(nèi)容過濾研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2012年11期
5 王健;韓廣琳;;基于統(tǒng)計(jì)的Web文本自動(dòng)摘要技術(shù)分析[J];福建電腦;2007年08期
6 翁_g;胡長(zhǎng)軍;席強(qiáng);張學(xué)春;;一種面向e-Science環(huán)境的多領(lǐng)域Web文本特征抽取模型[J];小型微型計(jì)算機(jī)系統(tǒng);2011年01期
7 鐘軍;田生偉;禹龍;;Web文本中維吾爾語領(lǐng)域術(shù)語的自動(dòng)發(fā)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2012年02期
8 古麗娜孜;孫鐵利;;基于二叉樹的多類SVM在Web文本分類中的應(yīng)用研究[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
9 李士勇;;基于人工免疫的Web文本自動(dòng)摘要方法研究[J];現(xiàn)代計(jì)算機(jī);2013年15期
10 徐麗;伏玉琛;李斯;;一種改進(jìn)的SVM決策樹Web文本分類算法[J];蘇州大學(xué)學(xué)報(bào)(工科版);2011年05期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前3條
1 劉斕冰;魏桂英;;Web文本信息挖掘技術(shù)[A];全國第十屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)年會(huì)論文集[C];2006年
2 于海燕;陳曉江;馮健;房鼎益;;Web文本內(nèi)容過濾方法的研究[A];2006年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(一)[C];2006年
3 袁志堅(jiān);賈焰;;基于誤差反饋的高速Web文本流快速近似分類[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 閆季鴻;基于Web文本和知識(shí)圖譜的實(shí)體摘要[D];華東師范大學(xué);2016年
2 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 于帥;中文Web文本情感傾向性分析技術(shù)的研究[D];哈爾濱工程大學(xué);2013年
2 郭凱;面向Web文本的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
3 鄧琨;基于Rough集的Web文本分類及其信息抽取研究[D];南昌大學(xué);2007年
4 桂海霞;利用表格等信息的Web文本分類研究與實(shí)現(xiàn)[D];安徽理工大學(xué);2008年
5 張諶奇;支持向量機(jī)在Web文本分類中的分析與應(yīng)用[D];暨南大學(xué);2008年
,本文編號(hào):1103945
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1103945.html