網(wǎng)絡(luò)環(huán)境下的中文查重系統(tǒng)的研究與實現(xiàn)
發(fā)布時間:2022-08-10 19:56
隨著信息化的不斷發(fā)展,用戶已經(jīng)習(xí)慣通過互聯(lián)網(wǎng)來獲取信息;ヂ(lián)網(wǎng)給我們帶來方便與快捷的同時,也帶來了很多需要解決的問題。針對網(wǎng)絡(luò)中信息篩選和檢索問題,以及互聯(lián)網(wǎng)的內(nèi)容抄襲問題,本文結(jié)合了信息檢索與文本挖掘技術(shù),完成了基于網(wǎng)絡(luò)環(huán)境下的中文查重系統(tǒng)的構(gòu)建。本系統(tǒng)立足于網(wǎng)絡(luò)環(huán)境下,從互聯(lián)網(wǎng)中收集網(wǎng)頁數(shù)據(jù),作為文本查重的對比庫。并且在對數(shù)據(jù)挖掘算法研究的基礎(chǔ)上,借助遺傳算法思想對算法做了優(yōu)化之后,應(yīng)用到了文本挖掘中。本文的研究內(nèi)容可以分為以下幾個方面:1)結(jié)合了網(wǎng)絡(luò)信息檢索系統(tǒng)與查重系統(tǒng),構(gòu)建了系統(tǒng)架構(gòu),把查重系統(tǒng)的不限制查詢字?jǐn)?shù)的特點與互聯(lián)網(wǎng)中大規(guī)模的實時文檔數(shù)據(jù)結(jié)合在一起,以此構(gòu)建了系統(tǒng)。2)提出了相似性對比模型,明確完善了文檔相似性對比的流程。模型中首先通過分詞得到文本特征項,然后將把文本表示成空間向量的形式,通過計算向量夾角余弦的方式計算文本相似度。并且將對比過程分為了初步對比與詳細(xì)對比兩步,初步對比得到相似文檔,然后對相似文檔進(jìn)行詳細(xì)對比,可以處理一對多的相似情況。3)把數(shù)據(jù)挖掘算法應(yīng)用到了文本領(lǐng)域,對數(shù)據(jù)庫中的文本進(jìn)行了文本挖掘。在經(jīng)過了特征提取和文本表示后,運用文本挖掘算法和技術(shù)對...
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景、意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 網(wǎng)絡(luò)檢索概述
2.1 網(wǎng)絡(luò)信息采集技術(shù)
2.2 索引的構(gòu)建
2.3 PageRank
2.4 本章小結(jié)
第三章 相似性對比模型
3.1 引言
3.2 分詞處理
3.2.1 詞典查找算法
3.2.2 基于最長匹配中文分詞
3.2.3 新詞判定
3.3 中文相似度計算
3.3.1 向量空間模型
3.3.2 余弦相似性計算
3.3.3 同義詞處理
3.4 相似性比對模型
3.5 本章小結(jié)
第四章 基于遺傳算法的文本挖掘算法改進(jìn)
4.1 文本挖掘
4.2 遺傳算法
4.3 使用遺傳算法對文本聚類進(jìn)行優(yōu)化
4.3.1 文本特征提取
4.3.2 文本聚類的優(yōu)化
4.3.3 交叉算子確定
4.3.4 變異算子的實現(xiàn)
4.3.5 其它細(xì)節(jié)設(shè)計
4.3.6 文本聚類算法性能測試
4.4 使用遺傳算法對文本分類進(jìn)行優(yōu)化
4.4.1 基于遺傳算法的語義挖掘
4.4.2 分類算法的優(yōu)化
4.4.3 實驗分析
4.5 本章小結(jié)
第五章 網(wǎng)絡(luò)環(huán)境下的中文查重系統(tǒng)實現(xiàn)
5.1 引言
5.2 系統(tǒng)架構(gòu)
5.3 索引的構(gòu)建
5.4 檢索模型
5.5 交互頁面設(shè)計
5.6 本章小結(jié)
第六章 總結(jié)與展望
6.1 全文總結(jié)
6.2 研究展望
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于Lucene全文檢索技術(shù)的優(yōu)化探討[J]. 胡杰,郭喬進(jìn),陳彬. 計算機(jī)時代. 2017(11)
[2]一種改進(jìn)的文本分類算法[J]. 任朋啟,王芳,黃樹成. 電子設(shè)計工程. 2017(18)
[3]自然語言處理在信息檢索中的應(yīng)用研究[J]. 關(guān)白,才讓叁智,才華. 信息與電腦(理論版). 2017(11)
[4]面向中文搜索的垂直搜索引擎的研究[J]. 劉清,齊洪彥,謝彥海. 科技廣場. 2017(05)
[5]人工智能技術(shù)發(fā)展概述[J]. 俞祝良. 南京信息工程大學(xué)學(xué)報(自然科學(xué)版). 2017(03)
[6]同行評審造假 欠缺的是學(xué)術(shù)底氣[J]. 王功孝. 公關(guān)世界. 2017(09)
[7]搜索引擎中的信息抽取技術(shù)[J]. 林炫. 電子技術(shù)與軟件工程. 2017(08)
[8]網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[J]. 朱莉娜,李澤平. 黑龍江科技信息. 2017(10)
[9]基于搜索引擎的慢查詢優(yōu)化系統(tǒng)[J]. 陳倫躍,殷峰. 現(xiàn)代計算機(jī)(專業(yè)版). 2017(08)
[10]人工智能技術(shù)在移動互聯(lián)網(wǎng)發(fā)展中的應(yīng)用[J]. 賀倩. 電信網(wǎng)技術(shù). 2017(02)
博士論文
[1]搜索引擎中查詢處理及結(jié)果緩存技術(shù)研究[D]. 錢立兵.哈爾濱工業(yè)大學(xué) 2016
[2]基于遺傳算法優(yōu)化的中文分詞研究[D]. 何嘉.電子科技大學(xué) 2012
碩士論文
[1]分布式網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[D]. 王敏.東南大學(xué) 2017
[2]云環(huán)境下搜索引擎系統(tǒng)關(guān)鍵技術(shù)研究[D]. 于建坤.南京郵電大學(xué) 2016
[3]分布式智能網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D]. 何國正.中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2016
[4]搜索引擎的研究分析與實現(xiàn)[D]. 湯東東.蘇州大學(xué) 2016
[5]基于向量空間模型的主題爬蟲算法研究[D]. 姚榮寶.山東師范大學(xué) 2016
[6]基于倒排索引的增量更新關(guān)聯(lián)挖掘算法的研究[D]. 徐春.廣西師范學(xué)院 2016
[7]基于Lucene的垂直搜索引擎研究與實現(xiàn)[D]. 胡博.北京工業(yè)大學(xué) 2016
[8]基于神經(jīng)網(wǎng)絡(luò)的文本向量表示與建模研究[D]. 牛力強(qiáng).南京大學(xué) 2016
[9]基于Spark的Web文本挖掘系統(tǒng)的研究與實現(xiàn)[D]. 張馨允.吉林大學(xué) 2016
[10]基于Hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D]. 薛超.鄭州大學(xué) 2016
本文編號:3674265
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景、意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 網(wǎng)絡(luò)檢索概述
2.1 網(wǎng)絡(luò)信息采集技術(shù)
2.2 索引的構(gòu)建
2.3 PageRank
2.4 本章小結(jié)
第三章 相似性對比模型
3.1 引言
3.2 分詞處理
3.2.1 詞典查找算法
3.2.2 基于最長匹配中文分詞
3.2.3 新詞判定
3.3 中文相似度計算
3.3.1 向量空間模型
3.3.2 余弦相似性計算
3.3.3 同義詞處理
3.4 相似性比對模型
3.5 本章小結(jié)
第四章 基于遺傳算法的文本挖掘算法改進(jìn)
4.1 文本挖掘
4.2 遺傳算法
4.3 使用遺傳算法對文本聚類進(jìn)行優(yōu)化
4.3.1 文本特征提取
4.3.2 文本聚類的優(yōu)化
4.3.3 交叉算子確定
4.3.4 變異算子的實現(xiàn)
4.3.5 其它細(xì)節(jié)設(shè)計
4.3.6 文本聚類算法性能測試
4.4 使用遺傳算法對文本分類進(jìn)行優(yōu)化
4.4.1 基于遺傳算法的語義挖掘
4.4.2 分類算法的優(yōu)化
4.4.3 實驗分析
4.5 本章小結(jié)
第五章 網(wǎng)絡(luò)環(huán)境下的中文查重系統(tǒng)實現(xiàn)
5.1 引言
5.2 系統(tǒng)架構(gòu)
5.3 索引的構(gòu)建
5.4 檢索模型
5.5 交互頁面設(shè)計
5.6 本章小結(jié)
第六章 總結(jié)與展望
6.1 全文總結(jié)
6.2 研究展望
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于Lucene全文檢索技術(shù)的優(yōu)化探討[J]. 胡杰,郭喬進(jìn),陳彬. 計算機(jī)時代. 2017(11)
[2]一種改進(jìn)的文本分類算法[J]. 任朋啟,王芳,黃樹成. 電子設(shè)計工程. 2017(18)
[3]自然語言處理在信息檢索中的應(yīng)用研究[J]. 關(guān)白,才讓叁智,才華. 信息與電腦(理論版). 2017(11)
[4]面向中文搜索的垂直搜索引擎的研究[J]. 劉清,齊洪彥,謝彥海. 科技廣場. 2017(05)
[5]人工智能技術(shù)發(fā)展概述[J]. 俞祝良. 南京信息工程大學(xué)學(xué)報(自然科學(xué)版). 2017(03)
[6]同行評審造假 欠缺的是學(xué)術(shù)底氣[J]. 王功孝. 公關(guān)世界. 2017(09)
[7]搜索引擎中的信息抽取技術(shù)[J]. 林炫. 電子技術(shù)與軟件工程. 2017(08)
[8]網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[J]. 朱莉娜,李澤平. 黑龍江科技信息. 2017(10)
[9]基于搜索引擎的慢查詢優(yōu)化系統(tǒng)[J]. 陳倫躍,殷峰. 現(xiàn)代計算機(jī)(專業(yè)版). 2017(08)
[10]人工智能技術(shù)在移動互聯(lián)網(wǎng)發(fā)展中的應(yīng)用[J]. 賀倩. 電信網(wǎng)技術(shù). 2017(02)
博士論文
[1]搜索引擎中查詢處理及結(jié)果緩存技術(shù)研究[D]. 錢立兵.哈爾濱工業(yè)大學(xué) 2016
[2]基于遺傳算法優(yōu)化的中文分詞研究[D]. 何嘉.電子科技大學(xué) 2012
碩士論文
[1]分布式網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[D]. 王敏.東南大學(xué) 2017
[2]云環(huán)境下搜索引擎系統(tǒng)關(guān)鍵技術(shù)研究[D]. 于建坤.南京郵電大學(xué) 2016
[3]分布式智能網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D]. 何國正.中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2016
[4]搜索引擎的研究分析與實現(xiàn)[D]. 湯東東.蘇州大學(xué) 2016
[5]基于向量空間模型的主題爬蟲算法研究[D]. 姚榮寶.山東師范大學(xué) 2016
[6]基于倒排索引的增量更新關(guān)聯(lián)挖掘算法的研究[D]. 徐春.廣西師范學(xué)院 2016
[7]基于Lucene的垂直搜索引擎研究與實現(xiàn)[D]. 胡博.北京工業(yè)大學(xué) 2016
[8]基于神經(jīng)網(wǎng)絡(luò)的文本向量表示與建模研究[D]. 牛力強(qiáng).南京大學(xué) 2016
[9]基于Spark的Web文本挖掘系統(tǒng)的研究與實現(xiàn)[D]. 張馨允.吉林大學(xué) 2016
[10]基于Hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D]. 薛超.鄭州大學(xué) 2016
本文編號:3674265
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3674265.html
最近更新
教材專著