基于元搜索引擎的文本復(fù)制檢測(cè)方法研究

發(fā)布時(shí)間：2017-05-19 04:14

本文關(guān)鍵詞：基于元搜索引擎的文本復(fù)制檢測(cè)方法研究，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著計(jì)算機(jī)技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展，互聯(lián)網(wǎng)已成為人們獲取信息的一種重要途徑。網(wǎng)絡(luò)大數(shù)據(jù)背景下，互聯(lián)網(wǎng)中文本數(shù)據(jù)的數(shù)量和價(jià)值呈指數(shù)增長(zhǎng)，復(fù)制網(wǎng)絡(luò)中文本的現(xiàn)象越來(lái)越多，相同和近似文本也越來(lái)越多，不僅極大的浪費(fèi)了網(wǎng)絡(luò)存儲(chǔ)空間、降低檢索效率，而且不利于電子文本知識(shí)產(chǎn)權(quán)的保護(hù)，如何快速檢測(cè)文本是否復(fù)制于因特網(wǎng)文本已成為急需解決的問(wèn)題。本文在對(duì)已有文本復(fù)制檢測(cè)方法進(jìn)行分析研究的基礎(chǔ)上，提出了一種基于元搜索引擎的文本復(fù)制檢測(cè)方法，本文主要工作包括：首先對(duì)已有文本復(fù)制檢測(cè)方法進(jìn)行研究，主要包括文本復(fù)制檢測(cè)的基本原理、典型的文本復(fù)制檢測(cè)系統(tǒng)的實(shí)現(xiàn)方法、通用的文本復(fù)制的基本流程，并對(duì)實(shí)現(xiàn)文本復(fù)制檢測(cè)常用到的關(guān)鍵技術(shù)以及關(guān)鍵問(wèn)題的解決策略進(jìn)行分析研究，主要包括中文文本的預(yù)處理技術(shù)，如中文文本的分詞、詞性標(biāo)注，文本塊的選擇策略和文本特征的選擇策略等，為設(shè)計(jì)新的文本復(fù)制檢測(cè)系統(tǒng)中的關(guān)鍵問(wèn)題提供了解決思路。然后結(jié)合當(dāng)前復(fù)制檢測(cè)網(wǎng)絡(luò)文本的行為越來(lái)越多的狀況，基于元搜索引擎的優(yōu)勢(shì)，提出了一種基于元搜索引擎的文本復(fù)制檢測(cè)方法。其中，為減少請(qǐng)求元搜索引擎的次數(shù)以提高系統(tǒng)效率，結(jié)合詞性信息改進(jìn)TF-ISF算法抽取文本特征句子；為獲取更加全面的疑似復(fù)制文本，以特征句子的線索詞作為請(qǐng)求元搜索引擎的查詢?cè)~獲取網(wǎng)絡(luò)在線參考文本集；由于傳統(tǒng)基于LCS的句子相似度計(jì)算方法忽略了最長(zhǎng)公共子序列數(shù)量對(duì)句子相似度的影響，，結(jié)合最長(zhǎng)公共子序列數(shù)量的改進(jìn)LCS句子相似度計(jì)算方法。最后設(shè)計(jì)文本復(fù)制檢測(cè)系統(tǒng)進(jìn)行實(shí)驗(yàn)驗(yàn)證。使用SOGOU-T中文數(shù)據(jù)集對(duì)改進(jìn)的TF-ISF方法和基于元搜索引擎的文本復(fù)制檢測(cè)方法的效率和F1-score進(jìn)行實(shí)驗(yàn)分析。
【關(guān)鍵詞】：文本復(fù)制檢測(cè) 文本預(yù)處理 中文分詞技術(shù) 元搜索引擎 TF-ISF 最長(zhǎng)公共子序列算法
【學(xué)位授予單位】：鄭州大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類號(hào)】：TP391.1
【目錄】：

摘要4-5
Abstract5-10
圖目錄10-11
表目錄11-12
1 緒論12-18
1.1 研究背景及意義12-14
1.2 國(guó)內(nèi)外研究現(xiàn)狀14-16
1.2.1 國(guó)外研究現(xiàn)狀14-15
1.2.2 國(guó)內(nèi)研究現(xiàn)狀15-16
1.3 本文主要工作16
1.4 本文組織安排16-18
2 文本復(fù)制檢測(cè)概述18-27
2.1 文本復(fù)制檢測(cè)原理18
2.2 典型的文本復(fù)制檢測(cè)方法18-24
2.2.1 基于特征空間的文本復(fù)制檢測(cè)方法18-22
2.2.2 基于數(shù)字指紋的文本復(fù)制檢測(cè)方法22-24
2.3 文本復(fù)制檢測(cè)的流程24-26
2.4 本章小結(jié)26-27
3 中文文本復(fù)制檢測(cè)的關(guān)鍵問(wèn)題與技術(shù)27-35
3.1 中文自動(dòng)分詞技術(shù)27-28
3.2 文本塊的選取策略28-30
3.3 文本特征選取30-31
3.4 文本相似度計(jì)算方法31-33
3.5 本章小結(jié)33-35
4 基于元搜索引擎的文本復(fù)制檢測(cè)方法35-45
4.1 基于元搜索引擎的文本復(fù)制檢測(cè)方法36-38
4.2 文本預(yù)處理38-40
4.3 改進(jìn)的 TF-ISF 特征句子提取方法40-41
4.4 搜索結(jié)果的獲取與融合41-42
4.5 基于 LCS 句子相似度計(jì)算方法42-44
4.6 文章小結(jié)44-45
5 實(shí)驗(yàn)結(jié)果及分析45-52
5.1 實(shí)驗(yàn)軟硬件環(huán)境45
5.2 元搜索引擎的實(shí)現(xiàn)45-48
5.3 實(shí)驗(yàn)的性能評(píng)估指標(biāo)48-49
5.4 實(shí)驗(yàn)結(jié)果及分析49-51
5.4.1 改進(jìn)型 TF-ISF 方法的性能分析49
5.4.2 基于元搜索引擎的文本復(fù)制檢測(cè)方法性能分析49-51
5.5 本章小結(jié)51-52
6 結(jié)論與展望52-54
6.1 本文工作總結(jié)52-53
6.2 未來(lái)工作展望53-54
參考文獻(xiàn)54-56
致謝56-57
個(gè)人簡(jiǎn)歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文57
個(gè)人簡(jiǎn)介57
在學(xué)期間發(fā)表的學(xué)術(shù)論文57

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 麻會(huì)東;劉國(guó)華;梁鵬;苑迎;;文檔復(fù)制檢測(cè)技術(shù)[J];燕山大學(xué)學(xué)報(bào);2007年05期

2 蔣昌金;彭宏;陳建超;馬千里;;基于主題詞權(quán)重和句子特征的自動(dòng)文摘[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年07期

3 劉遷;賈惠波;;中文信息處理中自動(dòng)分詞技術(shù)的研究與展望[J];計(jì)算機(jī)工程與應(yīng)用;2006年03期

4 陳平;劉曉霞;李亞軍;;基于字典和統(tǒng)計(jì)的分詞方法[J];計(jì)算機(jī)工程與應(yīng)用;2008年10期

5 仇壯麗;;在線論文復(fù)制檢測(cè)系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2011年19期

6 宋擒豹,楊向榮,沈鈞毅,齊勇;數(shù)字商品非法復(fù)制的檢測(cè)算法[J];計(jì)算機(jī)學(xué)報(bào);2002年11期

7 張廷華;Web元搜索引擎的改進(jìn)[J];計(jì)算機(jī)應(yīng)用;2002年02期

8 夏天,樊孝忠,劉林;利用JNI實(shí)現(xiàn)ICTCLAS系統(tǒng)的Java調(diào)用[J];計(jì)算機(jī)應(yīng)用;2004年S2期

9 李欣,舒風(fēng)笛;最長(zhǎng)公共子序列問(wèn)題的改進(jìn)快速算法[J];計(jì)算機(jī)應(yīng)用研究;2000年02期

10 劉海峰;王元元;;基于向量模型的文本檢索若干問(wèn)題研究[J];情報(bào)雜志;2006年10期

本文關(guān)鍵詞：基于元搜索引擎的文本復(fù)制檢測(cè)方法研究，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：377758

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/377758.html

上一篇：競(jìng)價(jià)排名模式下搜索引擎商商標(biāo)侵權(quán)行為的認(rèn)定
下一篇：基于Lucene和Heritrix搜索引擎的設(shè)計(jì)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于元搜索引擎的文本復(fù)制檢測(cè)方法研究