全文檢索系統(tǒng)中文件預(yù)處理技術(shù)研究
本文選題:全文檢索 切入點:消息隊列 出處:《中國科學(xué)技術(shù)大學(xué)》2017年碩士論文
【摘要】:隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,人類社會的數(shù)據(jù)量呈爆發(fā)式增長,信息檢索就是研究如何在這些信息中快速有效地檢索到有用信息。網(wǎng)絡(luò)上獲取的信息形式多樣,其中半結(jié)構(gòu)化和非結(jié)構(gòu)化形式的信息占據(jù)了很大一部分,對于結(jié)構(gòu)化信息的檢索可以使用數(shù)據(jù)庫技術(shù),而對于非結(jié)構(gòu)化信息的檢索卻缺乏有用的工具,因此全文檢索技術(shù)應(yīng)運而生。全文檢索系統(tǒng)主要由文本預(yù)處理、索引建立、索引管理和web檢索平臺等多個部分組成。本文主要對全文檢索系統(tǒng)中文件預(yù)處理模塊用到的相關(guān)技術(shù)進行研究,主要包括文件實時監(jiān)控、文件類型識別、文本內(nèi)容提取等。該模塊使用Inotify機制對數(shù)據(jù)源實時監(jiān)控,將監(jiān)控到的文件路徑提交至基于高級消息隊列協(xié)議實現(xiàn)的消息隊列中,依次識別文件類型,根據(jù)不同文件類型使用不同的接口提取文件的文本內(nèi)容。最后準備大量文件對預(yù)處理模塊的功能和性能進行測試,實驗結(jié)果表明該模塊具有較高的識別正確率和較好的文本提取完整度,基本滿足設(shè)計要求。本文對基于內(nèi)容的文件類型識別算法進行了研究,將文件內(nèi)容按字節(jié)值劃分,使用字節(jié)值和字節(jié)值頻率建立文件的向量空間模型。識別過程使用K近鄰做分類算法,為降低分類過程的計算復(fù)雜度提高分類的效率,引入了主成分分析算法和聚類算法對樣本空間做降維處理。最后對算法進行測試,實驗結(jié)果表明改進后的算法減少了分類時間,具有較高的分類效率和識別正確率。本文最后研究了將信息增益特征選擇算法和TFIDF權(quán)重計算算法用于文件分類過程,針對樣本集分布不均衡時分類正確率下降的情況,在傳統(tǒng)算法的基礎(chǔ)上引入類間集中度和類內(nèi)離散度,并對權(quán)重算法和特征選擇算法進行改進,用支持向量機做分類算法。最后對算法進行實驗驗證,結(jié)果表明,使用改進后的算法分類正確率在一定程度上得到了提高。
[Abstract]:With the development of computer technology and network technology, the amount of data in human society increases explosively. Information retrieval is to study how to retrieve useful information quickly and effectively.The forms of information obtained on the network are various, among which semi-structured and unstructured forms of information occupy a large part. Database technology can be used for the retrieval of structured information.However, there is a lack of useful tools for the retrieval of unstructured information, so full-text retrieval technology emerges as the times require.Full-text retrieval system is mainly composed of text preprocessing, index building, index management and web retrieval platform.This paper mainly studies the related technologies used in the file preprocessing module in the full-text retrieval system, including file real-time monitoring, file type identification, text content extraction and so on.The module uses the Inotify mechanism to monitor the data source in real time. The monitored file path is submitted to the message queue based on the advanced message queue protocol, and the file type is recognized in turn.Use different interfaces to extract the text content of the file according to different file types.Finally, a large number of files are prepared to test the function and performance of the preprocessing module. The experimental results show that the module has higher recognition accuracy and better text extraction integrity, which basically meets the design requirements.In this paper, the content-based file type recognition algorithm is studied. The file content is divided according to the byte value, and the vector space model of the file is established by using the byte value and the byte value frequency.In order to reduce the computational complexity of the classification process, the principal component analysis (PCA) algorithm and the clustering algorithm are introduced to reduce the dimension of the sample space in order to reduce the computational complexity of the classification process.Finally, the experimental results show that the improved algorithm reduces the classification time, and has a higher classification efficiency and recognition accuracy.Finally, the information gain feature selection algorithm and the TFIDF weight calculation algorithm are used in the file classification process.Based on the traditional algorithm, the inter-class concentration and intra-class dispersion are introduced, and the weight algorithm and feature selection algorithm are improved, and the support vector machine is used as the classification algorithm.Finally, the experimental results show that the classification accuracy of the improved algorithm is improved to some extent.
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前10條
1 李偉;;基于知識元細粒度信息檢索研究[J];農(nóng)業(yè)圖書情報學(xué)刊;2017年02期
2 曾忠祿;;大數(shù)據(jù)分析:方向、方法與工具[J];情報理論與實踐;2017年01期
3 石軍;;智能音頻檢索技術(shù)在偵收系統(tǒng)中的應(yīng)用研究[J];通信技術(shù);2016年10期
4 孫亭;丁杰;;異構(gòu)政務(wù)信息資源集成檢索技術(shù)研究[J];計算機工程與應(yīng)用;2017年02期
5 史海蓮;;探析計算機網(wǎng)絡(luò)發(fā)展趨勢[J];科技資訊;2016年13期
6 李建中;王宏志;高宏;;大數(shù)據(jù)可用性的研究進展[J];軟件學(xué)報;2016年07期
7 馮少奇;鞏思亮;陳春明;;一種基于XML的海量視頻監(jiān)控信息檢索技術(shù)[J];計算機技術(shù)與發(fā)展;2016年04期
8 蘇毅娟;鄧振云;程德波;宗鳴;;大數(shù)據(jù)下的快速KNN分類算法[J];計算機應(yīng)用研究;2016年04期
9 耿麗娟;李星毅;;用于大數(shù)據(jù)分類的KNN算法研究[J];計算機應(yīng)用研究;2014年05期
10 郭頌;馬飛;;文本分類中信息增益特征選擇算法的改進[J];計算機應(yīng)用與軟件;2013年08期
相關(guān)碩士學(xué)位論文 前10條
1 梅江澤;基于Solr的海量數(shù)據(jù)并行索引及搜索緩存研究[D];華中師范大學(xué);2016年
2 孟密密;基于HDFS的文件管理系統(tǒng)的設(shè)計與實現(xiàn)[D];東南大學(xué);2016年
3 丁蔚然;基于Solr的企業(yè)異構(gòu)信息搜索平臺的設(shè)計與實現(xiàn)[D];東南大學(xué);2015年
4 葛強;基于大型數(shù)據(jù)庫的智能搜索與摘要提取技術(shù)研究[D];電子科技大學(xué);2015年
5 伍岳;基于SVM的文本分類應(yīng)用研究[D];電子科技大學(xué);2014年
6 樊小超;基于機器學(xué)習的中文文本主題分類及情感分類研究[D];南京理工大學(xué);2014年
7 王盧陽;基于SVM-KNN的文本分類系統(tǒng)的設(shè)計與實現(xiàn)[D];東北大學(xué);2011年
8 曹鼎;文件類型識別技術(shù)研究[D];解放軍信息工程大學(xué);2011年
9 王軍博;基于模式匹配算法的文件類型識別技術(shù)的研究[D];解放軍信息工程大學(xué);2011年
10 劉鶯迎;基于lucene中文全文檢索系統(tǒng)的研究與實現(xiàn)[D];鄭州大學(xué);2009年
,本文編號:1724356
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1724356.html