網(wǎng)絡(luò)信息采集及智能處理技術(shù)研究
本文選題:網(wǎng)絡(luò)信息采集 + KNN算法 ; 參考:《廣東工業(yè)大學(xué)》2012年碩士論文
【摘要】:無論是科研還是學(xué)習(xí)人們都需要通過網(wǎng)絡(luò)去尋找最新的專業(yè)信息和新聞動(dòng)態(tài),但信息的爆炸式增長,也讓人們?cè)絹碓诫y以從信息海洋中快速獲取所需信息。一方面是因?yàn)榫W(wǎng)絡(luò)信息量與日俱增,且更新速度非?,需要投入大量的時(shí)間進(jìn)行信息的搜索;另一方面,網(wǎng)絡(luò)上的信息存在大量重復(fù)的現(xiàn)象,且格式非常不規(guī)范,更加大了用戶搜尋信息的難度。因此,對(duì)網(wǎng)絡(luò)信息進(jìn)行快速采集和智能處理的技術(shù)應(yīng)運(yùn)而生。 用戶可以通過搜索引擎檢索出大量信息,卻不能對(duì)信息進(jìn)行提取、組織和處理,隨著信息化的進(jìn)步,人們對(duì)獲取信息的要求越來越高,信息搜索也從“通用”進(jìn)入“個(gè)性和智能”。目前市面上已經(jīng)出現(xiàn)了很多信息采集的工具,這些工具可以在一定程度上滿足用戶獲取信息的需求,但是對(duì)信息的處理卻不盡人意。由于文本信息占據(jù)網(wǎng)絡(luò)中信息的大部分,因此如何自動(dòng)地分類網(wǎng)絡(luò)中的文本信息成為信息處理的重中之重。 本論文在分析現(xiàn)有信息采集和信息處理技術(shù)的基礎(chǔ)上,首先對(duì)網(wǎng)頁抓取工具網(wǎng)絡(luò)爬蟲進(jìn)行介紹,分析其采集網(wǎng)頁信息的原理及網(wǎng)頁去重和信息抽取的方法;然后對(duì)智能信息處理中的文本分類這一關(guān)鍵技術(shù)進(jìn)行了深入研究,改進(jìn)了現(xiàn)有的特征選擇方法和分類算法,并采用改進(jìn)的KNN算法構(gòu)造了一個(gè)文本自動(dòng)分類器,將搜狗語料庫作分類模型的訓(xùn)練語料庫,通過實(shí)驗(yàn)訓(xùn)練出適應(yīng)于該語料庫的最佳K值和特征維數(shù),同時(shí)驗(yàn)證了改進(jìn)的KNN算法的分類效果。 本論文的創(chuàng)新之處是: (1)對(duì)文本信息處理中的特征選擇方法進(jìn)行了改進(jìn),提出了同義詞合并的思想,引入《同義詞詞林》,在特征選擇之前先對(duì)特征項(xiàng)中的同義詞進(jìn)行替換、統(tǒng)計(jì),有效降低了特征空間的維數(shù)。 (2)提出了一種改進(jìn)的KNN算法,通過引入類中心向量對(duì)相似度計(jì)算公式進(jìn)行了改進(jìn),將待分類的測試文本與類別的距離作為參數(shù)加入到KNN算法的相似度計(jì)算公式中,把兩個(gè)文本中都出現(xiàn)的特征項(xiàng)數(shù)量與各自出現(xiàn)的特征項(xiàng)數(shù)量的最大值的比值作為相似度公式的調(diào)節(jié)因子。 (3)結(jié)合改進(jìn)的KNN算法,構(gòu)造一個(gè)文本自動(dòng)分類器,在分類階段優(yōu)先考慮待分類的測試文本與各類別之間的聯(lián)系,當(dāng)待分類文本與類別之間的關(guān)系不明確時(shí),再將其與所有訓(xùn)練文本比較,根據(jù)比較的結(jié)果判定待分類文本所屬的類別。
[Abstract]:People need to find the latest professional information and news through the Internet, but the explosion of information makes it more and more difficult for people to get the information quickly from the ocean of information.On the one hand, because the amount of information on the network is increasing, and the speed of updating is very fast, it needs a lot of time to search for information; on the other hand, there is a large number of duplicates of information on the network, and the format is very irregular.It also increases the difficulty of searching for information.Therefore, the rapid collection and intelligent processing of network information emerged as the times require.Users can retrieve a great deal of information through search engine, but they can't extract, organize and process information. With the development of information, people are demanding more and more information.Information search has also moved from "universal" to "personality and intelligence."At present, there are many information collection tools in the market, which can meet the needs of users to some extent, but the processing of information is not satisfactory.Because the text information occupies the majority of the information in the network, how to automatically classify the text information in the network becomes the top priority of information processing.Based on the analysis of the existing information collection and information processing technology, this paper first introduces the web crawler, analyzes the principle of web page information collection and the methods of web page removal and information extraction.Then, the paper deeply studies the key technology of text classification in intelligent information processing, improves the existing feature selection methods and classification algorithms, and constructs a text automatic classifier using the improved KNN algorithm.Using Sogou corpus as the training corpus of classification model, the best K value and feature dimension suitable for the corpus are trained through experiments, and the classification effect of the improved KNN algorithm is verified at the same time.The innovations of this thesis are:1) the method of feature selection in text information processing is improved, the idea of synonym merging is put forward, and the synonym forest is introduced to replace the synonym in the feature item before feature selection.The dimension of feature space is reduced effectively.(2) an improved KNN algorithm is proposed. By introducing the class center vector, the similarity calculation formula is improved, and the distance between the test text and the category to be classified is added to the similarity calculation formula of the KNN algorithm.The ratio of the number of feature items in both texts to the maximum value of the number of feature items in each text is taken as the adjustment factor of the similarity formula.In combination with the improved KNN algorithm, an automatic text classifier is constructed, which gives priority to the relationship between the test text to be classified and each category in the classification stage, when the relationship between the text to be classified and the category is not clear.Then compare it with all the training texts, and determine the category of the text to be classified according to the comparison results.
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.1;TP274.2
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄭海,林鴻飛;基于段落匹配的文本分類機(jī)制[J];計(jì)算機(jī)工程與應(yīng)用;2004年28期
2 王丁,運(yùn)海紅,張輝;文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[J];信息技術(shù);2005年03期
3 杜志文;曾文華;;網(wǎng)格計(jì)算在文本分類中的應(yīng)用[J];微電子學(xué)與計(jì)算機(jī);2006年S1期
4 崔彩霞;王素格;;基于粗集的支持向量機(jī)文本分類方法研究[J];科技廣場;2006年08期
5 馬忠寶;劉冠蓉;;基于支持向量機(jī)的中文文本分類模型研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年11期
6 張燕;寒楓;楚紅濤;;文本挖掘簡述[J];中國電力教育;2006年S3期
7 祝曉魯;白振興;賈海燕;;自動(dòng)文本分類技術(shù)研究[J];現(xiàn)代電子技術(shù);2007年03期
8 張桂蕓;劉洋;王元元;;基于模糊認(rèn)知圖的文本分類推理算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年12期
9 陳蓮娜;姚伏天;;用于文本分類的多核SVM算法研究[J];計(jì)算機(jī)工程;2007年09期
10 王倩倩;段震;張燕平;;基于交叉覆蓋算法的文本分類[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年06期
相關(guān)會(huì)議論文 前10條
1 陳克利;宗成慶;王霞;;基于大規(guī)模真實(shí)文本的平衡語料分析與文本分類方法[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
2 杜長海;吉根林;;模糊聚類的最大樹法在文本分類中的應(yīng)用研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
3 劉秉權(quán);李博;孫林;王寶勛;劉遠(yuǎn)超;;標(biāo)簽特征和正文特征融合的SVM博客文本分類算法研究[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
4 海麗且木·艾沙;維尼拉·木沙江;;Web文本分類及其維、哈、柯多文種信息檢索中的應(yīng)用研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識(shí)庫建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
5 商炳章;白清源;;基于特征項(xiàng)權(quán)重改進(jìn)的關(guān)聯(lián)文本分類[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(二)[C];2008年
6 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
7 朱慕華;陳文亮;朱靖波;;詞聚類在文本分類中的應(yīng)用[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年
8 王小華;陸蓓;張國煊;;文本自動(dòng)分類的模糊方法[A];自然語言理解與機(jī)器翻譯——全國第六屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年
9 龐劍鋒;程學(xué)旗;;反饋方法在文本分類系統(tǒng)中的應(yīng)用[A];自然語言理解與機(jī)器翻譯——全國第六屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年
10 賈會(huì)強(qiáng);劉曉麗;于洪志;;基于詞性特征提取的藏文文本分類方法研究[A];CCF NCSC 2011——第二屆中國計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年
相關(guān)重要報(bào)紙文章 前10條
1 ;智能處理各種信息[N];中國計(jì)算機(jī)報(bào);2004年
2 上海 土兔;智能處理大批量掃描照片[N];中國電腦教育報(bào);2004年
3 ;智能處理海量信息[N];中國計(jì)算機(jī)報(bào);2004年
4 新疆 張迎新;讓Excel與IE攜手(三)[N];電腦報(bào);2002年
5 呂曉麗;智能信息挖掘平臺(tái)上線[N];科技日?qǐng)?bào);2007年
6 趙力 記者 張哲浩;看看多少年后自己是什么模樣[N];科技日?qǐng)?bào);2005年
7 ;遼寧移動(dòng)引入智能信息挖掘平臺(tái)[N];人民郵電;2007年
8 劉玉峰;煉珍堂“烹調(diào)”知識(shí)大餐[N];中國現(xiàn)代企業(yè)報(bào);2007年
9 記者 秦志勇;5年后物聯(lián)網(wǎng)產(chǎn)業(yè)產(chǎn)值將超過1萬億元[N];人民政協(xié)報(bào);2010年
10 本報(bào)記者 吳磊;物聯(lián)網(wǎng)關(guān)鍵技術(shù)亟待突破[N];通信產(chǎn)業(yè)報(bào);2009年
相關(guān)博士學(xué)位論文 前10條
1 章舜仲;文本分類中詞共現(xiàn)關(guān)系的研究及其應(yīng)用[D];南京理工大學(xué);2010年
2 孟佳娜;遷移學(xué)習(xí)在文本分類中的應(yīng)用研究[D];大連理工大學(xué);2011年
3 李智星;用于文本分類的簡明語義分析技術(shù)研究[D];重慶大學(xué);2011年
4 劉伍穎;面向垃圾信息過濾的主動(dòng)多域?qū)W習(xí)文本分類方法研究[D];國防科學(xué)技術(shù)大學(xué);2011年
5 王博;文本分類中特征選擇技術(shù)的研究[D];國防科學(xué)技術(shù)大學(xué);2009年
6 馮國忠;文本分類中的貝葉斯特征選擇[D];東北師范大學(xué);2011年
7 平源;基于支持向量機(jī)的聚類及文本分類研究[D];北京郵電大學(xué);2012年
8 程軍;基于統(tǒng)計(jì)的文本分類技術(shù)研究[D];中國科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年
9 萬源;基于語義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D];武漢理工大學(xué);2012年
10 祝翠玲;基于類別結(jié)構(gòu)的文本層次分類方法研究[D];山東大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 張彪;文本分類中特征選擇算法的分析與研究[D];中國科學(xué)技術(shù)大學(xué);2010年
2 張保富;基于粗糙集的中文文本分類算法研究及應(yīng)用[D];江蘇大學(xué);2010年
3 蔣健;文本分類中特征提取和特征加權(quán)方法研究[D];重慶大學(xué);2010年
4 閆晨;KNN文本分類研究[D];燕山大學(xué);2010年
5 蘇小康;基于維基百科構(gòu)建語義知識(shí)庫及其在文本分類領(lǐng)域的應(yīng)用研究[D];華中師范大學(xué);2010年
6 李璇;基于坐標(biāo)下降法的半監(jiān)督學(xué)習(xí)算法及其在文本分類中的應(yīng)用[D];華南理工大學(xué);2010年
7 宋志理;基于LDA模型的文本分類研究[D];西安理工大學(xué);2010年
8 郭志毅;基于EM算法的半監(jiān)督文本分類方法研究[D];重慶郵電大學(xué);2010年
9 郭明;基于文本分類技術(shù)的文本情感傾向性研究[D];鄭州大學(xué);2010年
10 段江麗;基于SVM的文本分類系統(tǒng)中特征選擇與權(quán)重計(jì)算算法的研究[D];太原理工大學(xué);2011年
,本文編號(hào):1739509
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1739509.html