基于加權(quán)引文的貝葉斯分類研究
本文關(guān)鍵詞:基于加權(quán)引文的貝葉斯分類研究 出處:《南京大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 樸素貝葉斯 文本分類 加權(quán)引文 文本域加權(quán)
【摘要】:文本分類技術(shù)是信息檢索和文本挖掘的重要基礎(chǔ),其主要任務(wù)是在預(yù)先給定的類別標(biāo)記(1abel)集合下,根據(jù)文本內(nèi)容判定它的類別1。通過文本自動分類,系統(tǒng)能夠?qū)π畔⑦M(jìn)行有效的管理,提供便捷的信息服務(wù)。樸素貝葉斯能夠快速高效的完成分類任務(wù),且能夠很好的進(jìn)行增量變化,這使得其在基于自動分類的服務(wù)系統(tǒng)中受到廣泛應(yīng)用。在學(xué)術(shù)文獻(xiàn)中,存在著大量的引用文獻(xiàn),通過其形成的引用網(wǎng)絡(luò)能夠獲得許多原文獻(xiàn)中缺少的信息,利用引用網(wǎng)絡(luò)和引文可以有效的改善分類效果。將引文網(wǎng)絡(luò)以及引文域與貝葉斯算法相結(jié)合,可以構(gòu)建高效的分類器為學(xué)術(shù)研究提供信息服務(wù)。本文主要工作如下:1、本文系統(tǒng)地介紹了文本自動分類的一般流程。之后詳細(xì)分析了貝葉斯的基礎(chǔ)理論模型,總結(jié)分析得出樸素貝葉斯對于屬性特征的敏感性,即其受到噪聲的影響較大。因此特征選擇對于樸素貝葉斯分類十分重要。在其基礎(chǔ)上對不同改進(jìn)模型的研究現(xiàn)狀與性能優(yōu)缺點(diǎn)進(jìn)行了系統(tǒng)綜述。貝葉斯主要改進(jìn)模型通常稱為半樸素貝葉斯分類,該類模型能夠更好地滿足樸素貝葉斯的詞項(xiàng)獨(dú)立性假設(shè),卻會在一定程度上提高時間復(fù)雜度,在使用中需要根據(jù)不同需求選擇不同模型。其主要分為z-依賴分類器、有效特征子集、加權(quán)貝葉斯三種改進(jìn)方式。之后本文對包括引用網(wǎng)絡(luò)在內(nèi)的各種網(wǎng)狀數(shù)據(jù)分類方法進(jìn)行了較為全面的解讀。2、本文參考網(wǎng)狀結(jié)構(gòu)數(shù)據(jù)分類的理論與應(yīng)用成果提出利用引用關(guān)系、引文域詞項(xiàng)特征及不同域加權(quán)對分類方法進(jìn)行改進(jìn)。此外,本文利用學(xué)術(shù)文獻(xiàn)引用中存在的部分引文多次被施引文獻(xiàn)引用的現(xiàn)象,利用引用頻次對引用關(guān)系和引文域詞項(xiàng)進(jìn)行加權(quán),以幫助更好的分類。基于該思路,本文設(shè)計(jì)了4個實(shí)驗(yàn),得到了如下結(jié)論:(1)引文信息可以提升學(xué)術(shù)文獻(xiàn)分類的效果。單獨(dú)使用引用信息(引用關(guān)系、引文域詞項(xiàng))的分類效果在準(zhǔn)確率和召回率指標(biāo)上低于傳統(tǒng)分類器;基于引文域詞項(xiàng)的分類器與正文分類器相結(jié)合可以有效提高分類效果。(2)對題名(title)、摘要(abstract)、正文(body)、引文(reference)題錄詞項(xiàng)賦予4:2:1:2的權(quán)重在眾多加權(quán)方案中可以獲得最優(yōu)的分類效果。(3)引文特征在訓(xùn)練集選取較少的情況下對引文與正文分別建模的分類器準(zhǔn)確率提升的效果更為突出。在多項(xiàng)式、貝葉斯網(wǎng)絡(luò)以及多元伯努利模型等三個分類器中,后者結(jié)合引文域詞項(xiàng)特征的表現(xiàn)最好。(4)不同分類模型的分類效果存在差異。在召回率指標(biāo)上,基于文本域加權(quán)的WNB分類器表現(xiàn)最優(yōu);在準(zhǔn)確率指標(biāo)上,引文域與正文詞項(xiàng)相結(jié)合的(CTNB)分類器準(zhǔn)確率提升更為明顯;綜合準(zhǔn)確率和召回率指標(biāo),CTNB的分類效果更值得期待。(5)引文特征對內(nèi)聚性不同類簇的影響。引用關(guān)系特征在準(zhǔn)確率指標(biāo)上對內(nèi)聚性強(qiáng)的類簇有積極影響,而對召回率指標(biāo)的影響則相反;反之,引用關(guān)系特征在準(zhǔn)確率指標(biāo)上對耦合性強(qiáng)的類簇有積極影響,而對召回率指標(biāo)的影響則相反;引文域詞項(xiàng)分類器整體優(yōu)于引用關(guān)系分類器。
[Abstract]:Text categorization technology is an important foundation for information retrieval and text mining. Its main task is to determine its category 1 according to the text content under the set of predefined category labels (1abel). Through automatic text classification, the system can manage information effectively and provide convenient information service. Naive Bayes can accomplish classification tasks quickly and efficiently, and can make incremental changes very well, which makes it widely applied in automatic classification service system. In the academic literature, there are a lot of references. The citation network can get many information that is missing from the original articles. Using citation network and citation can effectively improve the classification effect. Combining the citation network and the citation domain with Bayesian algorithm, an efficient classifier can be constructed to provide information services for academic research. The main work of this paper is as follows: 1. This paper systematically introduces the general process of automatic text classification. After that, Bias's basic theory model is analyzed in detail, and the sensitivity of naive Bias to attribute characteristics is concluded and analyzed, that is, it is greatly influenced by noise. Therefore, the selection of characteristics is very important for the simple Bias classification. On the basis of it, the research status and performance advantages and disadvantages of different improved models are systematically reviewed. Bias's main improvement model is usually called semi naive Bias classification. This model can better satisfy the hypothesis of Bias's word independence, but it will improve the time complexity to some extent, and needs to choose different models according to different needs. It is mainly divided into three kinds of improved methods: z- dependency classifier, effective feature subset and weighted Bayes. After that, this paper makes a more comprehensive interpretation of the network data classification methods including the reference network. 2, referring to the theory and application of netlike structure data classification, this paper proposes the improvement of classification method based on Citation relation, citation domain term feature and different domain weighting. In addition, in this paper, the citation phenomenon is quoted by some quotations in academic literature, and the citation frequency and citation domain terms are weighted by citation frequency to help better classification. Based on this idea, this paper designs 4 experiments and obtains the following conclusions: (1) the citation information can improve the effect of the classification of academic documents. The classification effect of using citation information alone (Citation relation and citation domain term) is lower than that of traditional classifier in accuracy rate and recall rate. The combination of classifier based on Citation domain term and text classifier can effectively improve classification effect. (2) the title (title), (Abstract), the body (body), citation (Reference) classification results of lexical entry for the 4:2:1:2 weight index can obtain the optimal weighting scheme in many. (3) in the case of less selection of the training set, the effect of the classifier to improve the accuracy of the classifier, which is modeled separately by the text and the text, is more prominent. Among the three classifiers, such as polynomials, Bayesian networks and multiple Bernoulli models, the latter combines the features of the citation domain words best. (4) the classification effects of different classification models are different. In the recall rate index, the WNB classifier based on Text Domain weighting is the best. In the accuracy rate, the accuracy of CTNB classifier is more obvious, and the classification accuracy of CTNB is more worthy of expectation. (5) the influence of the characteristics of the citations on the different clusters of cohesiveness. The reference relationship characteristics in accuracy indicators have a positive impact on the strong cohesion of the cluster, and the impact on the recall rate index is the opposite; on the other hand, the reference relationship characteristics in accuracy indicators have a positive impact on the strong coupling of the cluster, and the impact on the recall rate index is on the contrary; citation domain lexical entry the classifier outperforms the reference classifier.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:G353.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;《醫(yī)學(xué)引文分析研究進(jìn)展》簡介[J];臨床眼科雜志;2000年01期
2 李萍;引文分析的作用及局限[J];平原大學(xué)學(xué)報(bào);2000年01期
3 李玉進(jìn);引文分析存在問題的再認(rèn)識[J];天津外國語學(xué)院學(xué)報(bào);2001年03期
4 栗莉;;90年代我國引文分析的研究與發(fā)展[J];圖書情報(bào)論壇;2001年02期
5 符早雯,侯金川,李韶紅;試析偽引文[J];圖書館;2002年06期
6 吉俊虎;趙旭峰;;試論引文分析的作用[J];當(dāng)代圖書館;2002年03期
7 唐宏偉;從學(xué)報(bào)引文分析談情報(bào)教育——《青海大學(xué)學(xué)報(bào)》1995~2001年引文分析調(diào)查[J];現(xiàn)代情報(bào);2003年10期
8 許志強(qiáng);科學(xué)引文分析[J];西昌師范高等專科學(xué)校學(xué)報(bào);2004年02期
9 宋麗萍;關(guān)于網(wǎng)絡(luò)引文分析研究的幾個問題[J];圖書情報(bào)知識;2004年06期
10 謝亮;《現(xiàn)代圖書情報(bào)技術(shù)》2002~2004年載文的網(wǎng)絡(luò)引文分析[J];情報(bào)探索;2005年06期
相關(guān)會議論文 前10條
1 劉盛博;丁X;;基于引用內(nèi)容的引文評價分析[A];第九屆中國科技政策與管理學(xué)術(shù)年會論文集[C];2013年
2 雷瑜良;黃穎;;《重慶大學(xué)學(xué)報(bào)》(自然科學(xué)版)引文統(tǒng)計(jì)與分析[A];編輯工作論叢[C];1997年
3 繆建蘭;;《中國科學(xué)》引文分析研究——以A輯與B輯為例[A];全國核心期刊與期刊國際化、網(wǎng)絡(luò)化研討會文集[C];2003年
4 王維焱;錢蘇鳴;葉方寅;;《國外醫(yī)學(xué)——分子生物學(xué)分冊》的引文分析[A];全國核心期刊與期刊國際化、網(wǎng)絡(luò)化研討會文集[C];2003年
5 袁永旭;呂仁猛;;《山西醫(yī)科大學(xué)學(xué)報(bào)》2008年載文與引文分析[A];華北地區(qū)高校圖協(xié)第二十四屆學(xué)術(shù)年會論文(文章)匯編[C];2010年
6 冷懷明;張蔚;謝懌;;《第三軍醫(yī)大學(xué)學(xué)報(bào)》1989~1991年引文分析[A];科技期刊編輯研究文集[C];1993年
7 周文松;陳秀英;;化工類學(xué)報(bào)論文的引文分析[A];學(xué)報(bào)編輯論叢(第五集)[C];1994年
8 趙賢瑤;;對引文定義及其相關(guān)術(shù)語的新闡釋[A];學(xué)術(shù)期刊編輯學(xué)理論與實(shí)踐[C];2010年
9 徐昌娟;潘和平;李文先;葉冬青;;《疾病控制雜志》2006-2007年載文、作者及引文分析[A];預(yù)防醫(yī)學(xué)學(xué)科發(fā)展藍(lán)皮書·2008卷[C];2008年
10 李曉紅;陳冀青;馮保初;;由引文分析看國內(nèi)外數(shù)學(xué)期刊的差異[A];學(xué)報(bào)編輯論叢(第九集)[C];2000年
相關(guān)重要報(bào)紙文章 前2條
1 上海大學(xué)圖書情報(bào)檔案系 劉宇;引文首先是一種修辭工具[N];中國社會科學(xué)報(bào);2014年
2 本報(bào)記者 宋曉夢;“引文桂冠獎”科學(xué)家緣何能成諾獎得主[N];光明日報(bào);2010年
相關(guān)博士學(xué)位論文 前5條
1 梁永霞;引文分析學(xué)的知識計(jì)量研究[D];大連理工大學(xué);2009年
2 李運(yùn)景;可視化引文分析在科技史中的應(yīng)用研究[D];南京農(nóng)業(yè)大學(xué);2007年
3 李粵;引文網(wǎng)絡(luò)的可調(diào)優(yōu)先粘貼模型及其應(yīng)用[D];清華大學(xué);2007年
4 尹麗春;科學(xué)學(xué)引文網(wǎng)絡(luò)的結(jié)構(gòu)研究[D];大連理工大學(xué);2006年
5 張金松;基于引文上下文分析的文獻(xiàn)檢索技術(shù)研究[D];大連海事大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 陳雪;基于路徑的引文分析模型研究[D];西南大學(xué);2007年
2 任瀟雨;基于引文的英文文檔文摘自動生成方法研究[D];西安電子科技大學(xué);2014年
3 張美平;科學(xué)引文網(wǎng)絡(luò)分析及其應(yīng)用研究[D];電子科技大學(xué);2015年
4 王雪燕;基于引文分析的期刊保障率研究[D];重慶大學(xué);2015年
5 田盛慧;機(jī)構(gòu)層面的多層次引文分析及其離散性測度[D];華東師范大學(xué);2016年
6 柏晗;基于加權(quán)引文的貝葉斯分類研究[D];南京大學(xué);2016年
7 馬曉佳;網(wǎng)絡(luò)引文分析與傳統(tǒng)引文分析的比較[D];南京大學(xué);2011年
8 龐龍;科學(xué)引文分析的科學(xué)評價功能和意義[D];山西大學(xué);2006年
9 鄧?yán)罹?基于引文分析的開放獲取期刊研究[D];西南大學(xué);2009年
10 鐘鎮(zhèn);錯引現(xiàn)象折射出的科學(xué)家群體引文失范行為[D];河南師范大學(xué);2007年
,本文編號:1341436
本文鏈接:http://sikaile.net/tushudanganlunwen/1341436.html