維吾爾語(yǔ)單文檔自動(dòng)文摘算法研究
【圖文】:
新疆大學(xué)碩士學(xué)位論文20圖3.1 原文檔圖3.2 轉(zhuǎn)換維吾爾新文后的文本3.3.2 停用詞的過(guò)濾任何語(yǔ)言中都有一些高頻詞,這些詞具有極強(qiáng)的功能性,如完成語(yǔ)法規(guī)則,連慣語(yǔ)氣和語(yǔ)義等。但這些詞卻缺乏表征性,不直接反映文章的主題,這些詞通常稱(chēng)為停用詞(Stop words)。停用詞一般分為兩類(lèi):第一類(lèi)是弱詞性詞,,包括助詞,連詞,副詞,量詞,代詞,數(shù)詞,嘆詞等。這第一類(lèi)詞本身沒(méi)有實(shí)際意義,和類(lèi)別信息一點(diǎn)關(guān)系都沒(méi)有;第二類(lèi)是在各類(lèi)文檔中都會(huì)出現(xiàn)的詞匯,這些詞均勻分布在各類(lèi)文檔,因則區(qū)分類(lèi)別功能很弱。降低特征空間的維數(shù)和減少噪音依靠單詞的過(guò)濾。對(duì)文檔摘要任務(wù)而言,去掉這些缺少分類(lèi)能力的停用詞可以使那些具有語(yǔ)義表征的詞更加突出
20圖3.1 原文檔圖3.2 轉(zhuǎn)換維吾爾新文后的文本3.3.2 停用詞的過(guò)濾任何語(yǔ)言中都有一些高頻詞,這些詞具有極強(qiáng)的功能性,如完成語(yǔ)法規(guī)則,連慣語(yǔ)氣和語(yǔ)義等。但這些詞卻缺乏表征性,不直接反映文章的主題,這些詞通常稱(chēng)為停用詞(Stop words)。停用詞一般分為兩類(lèi):第一類(lèi)是弱詞性詞,包括助詞,連詞,副詞,量詞,代詞,數(shù)詞,嘆詞等。這第一類(lèi)詞本身沒(méi)有實(shí)際意義,和類(lèi)別信息一點(diǎn)關(guān)系都沒(méi)有;第二類(lèi)是在各類(lèi)文檔中都會(huì)出現(xiàn)的詞匯,這些詞均勻分布在各類(lèi)文檔,因則區(qū)分類(lèi)別功能很弱。降低特征空間的維數(shù)和減少噪音依靠單詞的過(guò)濾。對(duì)文檔摘要任務(wù)而言,去掉這些缺少分類(lèi)能力的停用詞可以使那些具有語(yǔ)義表征的詞更加突出
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 傅間蓮;陳群秀;;一種新的自動(dòng)文摘系統(tǒng)評(píng)價(jià)方法[J];計(jì)算機(jī)工程與應(yīng)用;2006年18期
2 紀(jì)文倩;李舟軍;巢文涵;陳小明;;一種基于LexRank算法的改進(jìn)的自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)科學(xué);2010年05期
3 蔣效宇;;基于關(guān)鍵詞抽取的自動(dòng)文摘算法[J];計(jì)算機(jī)工程;2012年03期
4 俞輝;;基于LSA和pLSA的多文檔自動(dòng)文摘[J];計(jì)算機(jī)工程與科學(xué);2009年09期
5 李偉;;中文語(yǔ)句相似度計(jì)算的方法初探[J];蘭州工業(yè)高等專(zhuān)科學(xué)校學(xué)報(bào);2009年04期
6 劉挺,吳巖,王開(kāi)鑄;基于信息抽取和文本生成的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J];情報(bào)學(xué)報(bào);1997年S1期
7 張清軍,朱才連;基于LBS的中文自動(dòng)文摘技術(shù)研究[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2004年04期
8 王珍;維尼拉·木沙江;;基于改進(jìn)TFIDF的文本特征選擇方法[J];現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版);2009年07期
相關(guān)博士學(xué)位論文 前1條
1 韋福如;基于圖模型多文檔自動(dòng)文摘研究[D];武漢大學(xué);2009年
本文編號(hào):2522776
本文鏈接:http://sikaile.net/jingjilunwen/fangdichanjingjilunwen/2522776.html