第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合
本文關(guān)鍵詞:哈薩克語文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
《少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集》2010年
基于K-最近距離方法的哈薩克語文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
瑪依來·哈帕爾 古麗拉·阿東別克
【摘要】:本文利用K-最近距離算法對哈薩克語文本進(jìn)行分類,通過統(tǒng)計(jì)詞頻信息和語言信息相結(jié)合的方法選擇特征,實(shí)現(xiàn)了一個(gè)哈薩克語文本分類系統(tǒng)。在計(jì)算特征權(quán)重值時(shí)不僅考慮詞頻,還利用了特征的集中度、分散度,經(jīng)過訓(xùn)練和統(tǒng)計(jì)對每一類哈薩克語文本形成特征的權(quán)重向量,然后根據(jù)K-最近距離算法判斷測試文本的所屬類別,實(shí)驗(yàn)結(jié)果表明此方法可行。
【作者單位】:
【分類號】:TP391.1
【正文快照】:
1引言文本的自動分類是自然語言處理中一個(gè)十分重要的問題,是對大量的自然語言文本按照一定的主題類別進(jìn)行自動分類的過程,即就是在給定的分類體系下,由計(jì)算機(jī)根據(jù)待分類文本的內(nèi)容自動確定文本類別的過程11].文本分類方面的研究是計(jì)算機(jī)信息處理領(lǐng)域的重要內(nèi)容。詞是哈薩
下載全文更多同類文獻(xiàn)
PDF全文下載
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式,AdobeReader僅支持PDF格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前3條
1 孫健,王偉,鐘義信;基于K-最近距離的自動文本分類的研究[J];北京郵電大學(xué)學(xué)報(bào);2001年01期
2 張曉輝,李瑩,王華勇,趙宏;應(yīng)用特征聚合進(jìn)行中文文本分類的改進(jìn)KNN算法[J];東北大學(xué)學(xué)報(bào);2003年03期
3 李國臣;文本分類中基于對數(shù)似然比測試的特征詞選擇方法[J];中文信息學(xué)報(bào);1999年04期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 馮志偉;;信息時(shí)代的翻譯工具[J];北華大學(xué)學(xué)報(bào)(社會科學(xué)版);2007年06期
2 馮志偉;;語音合成中的文本歸一化問題[J];北華大學(xué)學(xué)報(bào)(社會科學(xué)版);2010年02期
3 李燕琴;一種生態(tài)旅游者的識別與細(xì)分方法——以北京市百花山自然保護(hù)區(qū)為例[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年06期
4 孫健,王偉,鐘義信;基于K-最近距離的自動文本分類的研究[J];北京郵電大學(xué)學(xué)報(bào);2001年01期
5 朱姝;張政;;基于多層次句子相似度與向量空間模型的詞義消歧[J];北京工商大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年02期
6 張晨;祁坤鈺;;基于Penn Treebank英語標(biāo)注集對《圣經(jīng)》標(biāo)注集的擴(kuò)充研究[J];才智;2009年20期
7 代勁;胡峰;王國胤;;基于不完備信息系統(tǒng)的文本分類研究與應(yīng)用[J];重慶郵電學(xué)院學(xué)報(bào)(自然科學(xué)版);2006年03期
8 殷宏威;趙偉;楊志偉;;蟻群算法在KNN文本分類中的應(yīng)用[J];長春理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
9 趙俊杰;盛劍鋒;陶新民;;一種基于特征加權(quán)的KNN文本分類算法[J];電腦學(xué)習(xí);2010年02期
10 張莉,康耀紅,王曙光,張春元;中文網(wǎng)頁自動分類現(xiàn)狀的研究[J];福建電腦;2004年05期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 張霄軍;;“長安”的同名地名自動識別與指代消解[A];陜西省社會科學(xué)界第二屆(2008)學(xué)術(shù)年會——青年博士論壇“陜西新起點(diǎn):創(chuàng)新·發(fā)展·民生”專題獲獎(jiǎng)?wù)撐倪x編[C];2008年
2 董學(xué)春;胡學(xué)鋼;謝飛;吳共慶;;基于詞向量空間模型的文本分類方法[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會議論文集(上冊)[C];2006年
3 鐘茂生;;自然語言中的對象及其處理[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
4 王海東;譚魏旋;周國棟;;語義角色在指代消解中的研究[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會會議論文集[C];2008年
5 瑪依來·哈帕爾;古麗拉·阿東別克;;基于K-最近距離方法的哈薩克語報(bào)紙分類初探[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會會議論文集[C];2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李南希;非特定人的自然書寫脫機(jī)中文文本行識別[D];華南理工大學(xué);2010年
2 劉少輝;知識發(fā)現(xiàn)中粗糙集理論的研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2003年
3 王煜;基于決策樹和K最近鄰算法的文本分類研究[D];天津大學(xué);2006年
4 方淼;語義單元自動獲取研究[D];大連理工大學(xué);2008年
5 宣照國;文本挖掘算法及其在知識管理中的應(yīng)用研究[D];大連理工大學(xué);2008年
6 關(guān)曉薇;基于語義語言的機(jī)器翻譯系統(tǒng)中若干關(guān)鍵問題研究[D];大連理工大學(xué);2009年
7 張建梅;基于語料庫的現(xiàn)代蒙古語簡單陳述句句型分析研究[D];內(nèi)蒙古大學(xué);2010年
8 林建方;詞搭配抽取及在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年
9 曾湘祥;脈沖神經(jīng)膜系統(tǒng)的計(jì)算性能研究[D];華中科技大學(xué);2011年
10 代勁;云模型在文本挖掘應(yīng)用中的關(guān)鍵問題研究[D];重慶大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 何向真;多語言電子詞典構(gòu)建[D];西北民族大學(xué);2010年
2 周登;基于N-Gram模型的藏文文本分類技術(shù)研究[D];西北民族大學(xué);2010年
3 張春爐;LSA與SOM相結(jié)合的文本聚類算法應(yīng)用研究[D];解放軍信息工程大學(xué);2010年
4 張煉;基于圖模型的Web文檔分類方法研究[D];內(nèi)蒙古科技大學(xué);2010年
5 代學(xué)武;基于神經(jīng)網(wǎng)絡(luò)的用戶建模和Web信息過濾研究[D];西南師范大學(xué);2003年
6 王漢萍;粗糙集理論在文本挖掘的分類算法中的應(yīng)用研究[D];中國海洋大學(xué);2003年
7 劉軍;基于論點(diǎn)傾向的網(wǎng)絡(luò)信息內(nèi)容實(shí)時(shí)分析研究[D];四川大學(xué);2003年
8 湛燕;K-近鄰、K-均值及其在文本分類中的應(yīng)用[D];河北大學(xué);2003年
9 吳娟;軍用信息自動分類的研究與實(shí)現(xiàn)[D];南京理工大學(xué);2004年
10 張紅霞;漸進(jìn)式中文文本分類技術(shù)研究[D];河北大學(xué);2004年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 李曉黎,劉繼敏,史忠植;概念推理網(wǎng)及其在文本分類中的應(yīng)用[J];計(jì)算機(jī)研究與發(fā)展;2000年09期
2 吳軍,王作英,禹鋒,,王俠;漢語語料的自動分類[J];中文信息學(xué)報(bào);1995年04期
3 李國臣;文本分類中基于對數(shù)似然比測試的特征詞選擇方法[J];中文信息學(xué)報(bào);1999年04期
4 刁倩,張惠惠,王永成,何驥;中文文獻(xiàn)自動分類中的知識庫構(gòu)造及其仿人算法[J];情報(bào)學(xué)報(bào);2000年03期
5 孫麗華,張積東,李靜梅;一種改進(jìn)的kNN方法及其在文本分類中的應(yīng)用[J];應(yīng)用科技;2002年02期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭海,林鴻飛;基于段落匹配的文本分類機(jī)制[J];計(jì)算機(jī)工程與應(yīng)用;2004年28期
2 王丁,運(yùn)海紅,張輝;文本自動分類系統(tǒng)的研究與實(shí)現(xiàn)[J];信息技術(shù);2005年03期
3 杜志文;曾文華;;網(wǎng)格計(jì)算在文本分類中的應(yīng)用[J];微電子學(xué)與計(jì)算機(jī);2006年S1期
4 崔彩霞;王素格;;基于粗集的支持向量機(jī)文本分類方法研究[J];科技廣場;2006年08期
5 祝曉魯;白振興;賈海燕;;自動文本分類技術(shù)研究[J];現(xiàn)代電子技術(shù);2007年03期
6 張桂蕓;劉洋;王元元;;基于模糊認(rèn)知圖的文本分類推理算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年12期
7 陳蓮娜;姚伏天;;用于文本分類的多核SVM算法研究[J];計(jì)算機(jī)工程;2007年09期
8 王倩倩;段震;張燕平;;基于交叉覆蓋算法的文本分類[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年06期
9 董梅;胡學(xué)鋼;;基于多特征選擇的中文文本分類[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年07期
10 鞏知樂;張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 陳克利;宗成慶;王霞;;基于大規(guī)模真實(shí)文本的平衡語料分析與文本分類方法[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
2 杜長海;吉根林;;模糊聚類的最大樹法在文本分類中的應(yīng)用研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2005年
3 海麗且木·艾沙;維尼拉·木沙江;;Web文本分類及其維、哈、柯多文種信息檢索中的應(yīng)用研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
4 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年
5 朱慕華;陳文亮;朱靖波;;詞聚類在文本分類中的應(yīng)用[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會論文集[C];2004年
6 賈會強(qiáng);劉曉麗;于洪志;;基于詞性特征提取的藏文文本分類方法研究[A];CCF NCSC 2011——第二屆中國計(jì)算機(jī)學(xué)會服務(wù)計(jì)算學(xué)術(shù)會議論文集[C];2011年
7 房一飛;張冬茉;;基于boosting的文本分類在股市領(lǐng)域信息抽取系統(tǒng)中的應(yīng)用[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年
8 瑪依來·哈帕爾;古麗拉·阿東別克;;基于K-最近距離方法的哈薩克語文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
9 肖婷;唐雁;;文本分類中特征選擇方法及應(yīng)用[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會論文集[C];2008年
10 趙修湘;石勇;劉瑩;張玲玲;;文本分類在軟件缺陷管理中的應(yīng)用[A];第四屆(2009)中國管理學(xué)年會——管理科學(xué)與工程分會場論文集[C];2009年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 希安;[N];經(jīng)濟(jì)日報(bào);2004年
2 王培森;[N];中國計(jì)算機(jī)報(bào);2003年
3 新自疆;[N];農(nóng)民日報(bào);2007年
4 通訊員高國偉;[N];新疆日報(bào)(漢);2010年
5 新疆電化教育館;[N];中國電腦教育報(bào);2007年
6 ;[N];中國電腦教育報(bào);2007年
7 瀛寰;[N];中國計(jì)算機(jī)報(bào);2006年
8 蔣夫爾;[N];中國教育報(bào);2008年
9 陳昌奇;[N];西部時(shí)報(bào);2008年
10 王慧敏;[N];人民日報(bào);2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 章舜仲;文本分類中詞共現(xiàn)關(guān)系的研究及其應(yīng)用[D];南京理工大學(xué);2010年
2 孟佳娜;遷移學(xué)習(xí)在文本分類中的應(yīng)用研究[D];大連理工大學(xué);2011年
3 李智星;用于文本分類的簡明語義分析技術(shù)研究[D];重慶大學(xué);2011年
4 劉伍穎;面向垃圾信息過濾的主動多域?qū)W習(xí)文本分類方法研究[D];國防科學(xué)技術(shù)大學(xué);2011年
5 王博;文本分類中特征選擇技術(shù)的研究[D];國防科學(xué)技術(shù)大學(xué);2009年
6 馮國忠;文本分類中的貝葉斯特征選擇[D];東北師范大學(xué);2011年
7 祝翠玲;基于類別結(jié)構(gòu)的文本層次分類方法研究[D];山東大學(xué);2011年
8 宋楓溪;自動文本分類若干基本問題研究[D];南京理工大學(xué);2004年
9 郝立柱;漢語文本自動分類[D];吉林大學(xué);2008年
10 郝立麗;漢語文本數(shù)據(jù)挖掘[D];吉林大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張彪;文本分類中特征選擇算法的分析與研究[D];中國科學(xué)技術(shù)大學(xué);2010年
2 張保富;基于粗糙集的中文文本分類算法研究及應(yīng)用[D];江蘇大學(xué);2010年
3 蔣健;文本分類中特征提取和特征加權(quán)方法研究[D];重慶大學(xué);2010年
4 閆晨;KNN文本分類研究[D];燕山大學(xué);2010年
5 蘇小康;基于維基百科構(gòu)建語義知識庫及其在文本分類領(lǐng)域的應(yīng)用研究[D];華中師范大學(xué);2010年
6 李璇;基于坐標(biāo)下降法的半監(jiān)督學(xué)習(xí)算法及其在文本分類中的應(yīng)用[D];華南理工大學(xué);2010年
7 宋志理;基于LDA模型的文本分類研究[D];西安理工大學(xué);2010年
8 郭志毅;基于EM算法的半監(jiān)督文本分類方法研究[D];重慶郵電大學(xué);2010年
9 郭明;基于文本分類技術(shù)的文本情感傾向性研究[D];鄭州大學(xué);2010年
10 段江麗;基于SVM的文本分類系統(tǒng)中特征選擇與權(quán)重計(jì)算算法的研究[D];太原理工大學(xué);2011年
本文關(guān)鍵詞:哈薩克語文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:103719
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/103719.html