天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于元搜索引擎的文本復(fù)制檢測(cè)方法研究

發(fā)布時(shí)間:2017-05-19 04:14

  本文關(guān)鍵詞:基于元搜索引擎的文本復(fù)制檢測(cè)方法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著計(jì)算機(jī)技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)已成為人們獲取信息的一種重要途徑。網(wǎng)絡(luò)大數(shù)據(jù)背景下,互聯(lián)網(wǎng)中文本數(shù)據(jù)的數(shù)量和價(jià)值呈指數(shù)增長(zhǎng),復(fù)制網(wǎng)絡(luò)中文本的現(xiàn)象越來(lái)越多,相同和近似文本也越來(lái)越多,不僅極大的浪費(fèi)了網(wǎng)絡(luò)存儲(chǔ)空間、降低檢索效率,而且不利于電子文本知識(shí)產(chǎn)權(quán)的保護(hù),如何快速檢測(cè)文本是否復(fù)制于因特網(wǎng)文本已成為急需解決的問(wèn)題。 本文在對(duì)已有文本復(fù)制檢測(cè)方法進(jìn)行分析研究的基礎(chǔ)上,提出了一種基于元搜索引擎的文本復(fù)制檢測(cè)方法,本文主要工作包括: 首先對(duì)已有文本復(fù)制檢測(cè)方法進(jìn)行研究,主要包括文本復(fù)制檢測(cè)的基本原理、典型的文本復(fù)制檢測(cè)系統(tǒng)的實(shí)現(xiàn)方法、通用的文本復(fù)制的基本流程,并對(duì)實(shí)現(xiàn)文本復(fù)制檢測(cè)常用到的關(guān)鍵技術(shù)以及關(guān)鍵問(wèn)題的解決策略進(jìn)行分析研究,主要包括中文文本的預(yù)處理技術(shù),如中文文本的分詞、詞性標(biāo)注,文本塊的選擇策略和文本特征的選擇策略等,為設(shè)計(jì)新的文本復(fù)制檢測(cè)系統(tǒng)中的關(guān)鍵問(wèn)題提供了解決思路。 然后結(jié)合當(dāng)前復(fù)制檢測(cè)網(wǎng)絡(luò)文本的行為越來(lái)越多的狀況,基于元搜索引擎的優(yōu)勢(shì),提出了一種基于元搜索引擎的文本復(fù)制檢測(cè)方法。其中,為減少請(qǐng)求元搜索引擎的次數(shù)以提高系統(tǒng)效率,結(jié)合詞性信息改進(jìn)TF-ISF算法抽取文本特征句子;為獲取更加全面的疑似復(fù)制文本,以特征句子的線索詞作為請(qǐng)求元搜索引擎的查詢?cè)~獲取網(wǎng)絡(luò)在線參考文本集;由于傳統(tǒng)基于LCS的句子相似度計(jì)算方法忽略了最長(zhǎng)公共子序列數(shù)量對(duì)句子相似度的影響,,結(jié)合最長(zhǎng)公共子序列數(shù)量的改進(jìn)LCS句子相似度計(jì)算方法。 最后設(shè)計(jì)文本復(fù)制檢測(cè)系統(tǒng)進(jìn)行實(shí)驗(yàn)驗(yàn)證。使用SOGOU-T中文數(shù)據(jù)集對(duì)改進(jìn)的TF-ISF方法和基于元搜索引擎的文本復(fù)制檢測(cè)方法的效率和F1-score進(jìn)行實(shí)驗(yàn)分析。
【關(guān)鍵詞】:文本復(fù)制檢測(cè) 文本預(yù)處理 中文分詞技術(shù) 元搜索引擎 TF-ISF 最長(zhǎng)公共子序列算法
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-10
  • 圖目錄10-11
  • 表目錄11-12
  • 1 緒論12-18
  • 1.1 研究背景及意義12-14
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀14-16
  • 1.2.1 國(guó)外研究現(xiàn)狀14-15
  • 1.2.2 國(guó)內(nèi)研究現(xiàn)狀15-16
  • 1.3 本文主要工作16
  • 1.4 本文組織安排16-18
  • 2 文本復(fù)制檢測(cè)概述18-27
  • 2.1 文本復(fù)制檢測(cè)原理18
  • 2.2 典型的文本復(fù)制檢測(cè)方法18-24
  • 2.2.1 基于特征空間的文本復(fù)制檢測(cè)方法18-22
  • 2.2.2 基于數(shù)字指紋的文本復(fù)制檢測(cè)方法22-24
  • 2.3 文本復(fù)制檢測(cè)的流程24-26
  • 2.4 本章小結(jié)26-27
  • 3 中文文本復(fù)制檢測(cè)的關(guān)鍵問(wèn)題與技術(shù)27-35
  • 3.1 中文自動(dòng)分詞技術(shù)27-28
  • 3.2 文本塊的選取策略28-30
  • 3.3 文本特征選取30-31
  • 3.4 文本相似度計(jì)算方法31-33
  • 3.5 本章小結(jié)33-35
  • 4 基于元搜索引擎的文本復(fù)制檢測(cè)方法35-45
  • 4.1 基于元搜索引擎的文本復(fù)制檢測(cè)方法36-38
  • 4.2 文本預(yù)處理38-40
  • 4.3 改進(jìn)的 TF-ISF 特征句子提取方法40-41
  • 4.4 搜索結(jié)果的獲取與融合41-42
  • 4.5 基于 LCS 句子相似度計(jì)算方法42-44
  • 4.6 文章小結(jié)44-45
  • 5 實(shí)驗(yàn)結(jié)果及分析45-52
  • 5.1 實(shí)驗(yàn)軟硬件環(huán)境45
  • 5.2 元搜索引擎的實(shí)現(xiàn)45-48
  • 5.3 實(shí)驗(yàn)的性能評(píng)估指標(biāo)48-49
  • 5.4 實(shí)驗(yàn)結(jié)果及分析49-51
  • 5.4.1 改進(jìn)型 TF-ISF 方法的性能分析49
  • 5.4.2 基于元搜索引擎的文本復(fù)制檢測(cè)方法性能分析49-51
  • 5.5 本章小結(jié)51-52
  • 6 結(jié)論與展望52-54
  • 6.1 本文工作總結(jié)52-53
  • 6.2 未來(lái)工作展望53-54
  • 參考文獻(xiàn)54-56
  • 致謝56-57
  • 個(gè)人簡(jiǎn)歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文57
  • 個(gè)人簡(jiǎn)介57
  • 在學(xué)期間發(fā)表的學(xué)術(shù)論文57

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 麻會(huì)東;劉國(guó)華;梁鵬;苑迎;;文檔復(fù)制檢測(cè)技術(shù)[J];燕山大學(xué)學(xué)報(bào);2007年05期

2 蔣昌金;彭宏;陳建超;馬千里;;基于主題詞權(quán)重和句子特征的自動(dòng)文摘[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年07期

3 劉遷;賈惠波;;中文信息處理中自動(dòng)分詞技術(shù)的研究與展望[J];計(jì)算機(jī)工程與應(yīng)用;2006年03期

4 陳平;劉曉霞;李亞軍;;基于字典和統(tǒng)計(jì)的分詞方法[J];計(jì)算機(jī)工程與應(yīng)用;2008年10期

5 仇壯麗;;在線論文復(fù)制檢測(cè)系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2011年19期

6 宋擒豹,楊向榮,沈鈞毅,齊勇;數(shù)字商品非法復(fù)制的檢測(cè)算法[J];計(jì)算機(jī)學(xué)報(bào);2002年11期

7 張廷華;Web元搜索引擎的改進(jìn)[J];計(jì)算機(jī)應(yīng)用;2002年02期

8 夏天,樊孝忠,劉林;利用JNI實(shí)現(xiàn)ICTCLAS系統(tǒng)的Java調(diào)用[J];計(jì)算機(jī)應(yīng)用;2004年S2期

9 李欣,舒風(fēng)笛;最長(zhǎng)公共子序列問(wèn)題的改進(jìn)快速算法[J];計(jì)算機(jī)應(yīng)用研究;2000年02期

10 劉海峰;王元元;;基于向量模型的文本檢索若干問(wèn)題研究[J];情報(bào)雜志;2006年10期


  本文關(guān)鍵詞:基于元搜索引擎的文本復(fù)制檢測(cè)方法研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):377758

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/377758.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9c312***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com