基于元搜索引擎的文本復制檢測方法研究
發(fā)布時間:2017-05-19 04:14
本文關鍵詞:基于元搜索引擎的文本復制檢測方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著計算機技術、通信技術和網(wǎng)絡技術的迅猛發(fā)展,互聯(lián)網(wǎng)已成為人們獲取信息的一種重要途徑。網(wǎng)絡大數(shù)據(jù)背景下,互聯(lián)網(wǎng)中文本數(shù)據(jù)的數(shù)量和價值呈指數(shù)增長,復制網(wǎng)絡中文本的現(xiàn)象越來越多,相同和近似文本也越來越多,不僅極大的浪費了網(wǎng)絡存儲空間、降低檢索效率,而且不利于電子文本知識產(chǎn)權的保護,如何快速檢測文本是否復制于因特網(wǎng)文本已成為急需解決的問題。 本文在對已有文本復制檢測方法進行分析研究的基礎上,提出了一種基于元搜索引擎的文本復制檢測方法,本文主要工作包括: 首先對已有文本復制檢測方法進行研究,主要包括文本復制檢測的基本原理、典型的文本復制檢測系統(tǒng)的實現(xiàn)方法、通用的文本復制的基本流程,并對實現(xiàn)文本復制檢測常用到的關鍵技術以及關鍵問題的解決策略進行分析研究,主要包括中文文本的預處理技術,如中文文本的分詞、詞性標注,文本塊的選擇策略和文本特征的選擇策略等,為設計新的文本復制檢測系統(tǒng)中的關鍵問題提供了解決思路。 然后結合當前復制檢測網(wǎng)絡文本的行為越來越多的狀況,基于元搜索引擎的優(yōu)勢,提出了一種基于元搜索引擎的文本復制檢測方法。其中,為減少請求元搜索引擎的次數(shù)以提高系統(tǒng)效率,結合詞性信息改進TF-ISF算法抽取文本特征句子;為獲取更加全面的疑似復制文本,以特征句子的線索詞作為請求元搜索引擎的查詢詞獲取網(wǎng)絡在線參考文本集;由于傳統(tǒng)基于LCS的句子相似度計算方法忽略了最長公共子序列數(shù)量對句子相似度的影響,,結合最長公共子序列數(shù)量的改進LCS句子相似度計算方法。 最后設計文本復制檢測系統(tǒng)進行實驗驗證。使用SOGOU-T中文數(shù)據(jù)集對改進的TF-ISF方法和基于元搜索引擎的文本復制檢測方法的效率和F1-score進行實驗分析。
【關鍵詞】:文本復制檢測 文本預處理 中文分詞技術 元搜索引擎 TF-ISF 最長公共子序列算法
【學位授予單位】:鄭州大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-10
- 圖目錄10-11
- 表目錄11-12
- 1 緒論12-18
- 1.1 研究背景及意義12-14
- 1.2 國內(nèi)外研究現(xiàn)狀14-16
- 1.2.1 國外研究現(xiàn)狀14-15
- 1.2.2 國內(nèi)研究現(xiàn)狀15-16
- 1.3 本文主要工作16
- 1.4 本文組織安排16-18
- 2 文本復制檢測概述18-27
- 2.1 文本復制檢測原理18
- 2.2 典型的文本復制檢測方法18-24
- 2.2.1 基于特征空間的文本復制檢測方法18-22
- 2.2.2 基于數(shù)字指紋的文本復制檢測方法22-24
- 2.3 文本復制檢測的流程24-26
- 2.4 本章小結26-27
- 3 中文文本復制檢測的關鍵問題與技術27-35
- 3.1 中文自動分詞技術27-28
- 3.2 文本塊的選取策略28-30
- 3.3 文本特征選取30-31
- 3.4 文本相似度計算方法31-33
- 3.5 本章小結33-35
- 4 基于元搜索引擎的文本復制檢測方法35-45
- 4.1 基于元搜索引擎的文本復制檢測方法36-38
- 4.2 文本預處理38-40
- 4.3 改進的 TF-ISF 特征句子提取方法40-41
- 4.4 搜索結果的獲取與融合41-42
- 4.5 基于 LCS 句子相似度計算方法42-44
- 4.6 文章小結44-45
- 5 實驗結果及分析45-52
- 5.1 實驗軟硬件環(huán)境45
- 5.2 元搜索引擎的實現(xiàn)45-48
- 5.3 實驗的性能評估指標48-49
- 5.4 實驗結果及分析49-51
- 5.4.1 改進型 TF-ISF 方法的性能分析49
- 5.4.2 基于元搜索引擎的文本復制檢測方法性能分析49-51
- 5.5 本章小結51-52
- 6 結論與展望52-54
- 6.1 本文工作總結52-53
- 6.2 未來工作展望53-54
- 參考文獻54-56
- 致謝56-57
- 個人簡歷、在學期間發(fā)表的學術論文57
- 個人簡介57
- 在學期間發(fā)表的學術論文57
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 麻會東;劉國華;梁鵬;苑迎;;文檔復制檢測技術[J];燕山大學學報;2007年05期
2 蔣昌金;彭宏;陳建超;馬千里;;基于主題詞權重和句子特征的自動文摘[J];華南理工大學學報(自然科學版);2010年07期
3 劉遷;賈惠波;;中文信息處理中自動分詞技術的研究與展望[J];計算機工程與應用;2006年03期
4 陳平;劉曉霞;李亞軍;;基于字典和統(tǒng)計的分詞方法[J];計算機工程與應用;2008年10期
5 仇壯麗;;在線論文復制檢測系統(tǒng)設計[J];計算機工程與應用;2011年19期
6 宋擒豹,楊向榮,沈鈞毅,齊勇;數(shù)字商品非法復制的檢測算法[J];計算機學報;2002年11期
7 張廷華;Web元搜索引擎的改進[J];計算機應用;2002年02期
8 夏天,樊孝忠,劉林;利用JNI實現(xiàn)ICTCLAS系統(tǒng)的Java調(diào)用[J];計算機應用;2004年S2期
9 李欣,舒風笛;最長公共子序列問題的改進快速算法[J];計算機應用研究;2000年02期
10 劉海峰;王元元;;基于向量模型的文本檢索若干問題研究[J];情報雜志;2006年10期
本文關鍵詞:基于元搜索引擎的文本復制檢測方法研究,由筆耕文化傳播整理發(fā)布。
本文編號:377758
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/377758.html
最近更新
教材專著