天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于元搜索引擎的文本復制檢測方法研究

發(fā)布時間:2017-05-19 04:14

  本文關鍵詞:基于元搜索引擎的文本復制檢測方法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著計算機技術、通信技術和網(wǎng)絡技術的迅猛發(fā)展,互聯(lián)網(wǎng)已成為人們獲取信息的一種重要途徑。網(wǎng)絡大數(shù)據(jù)背景下,互聯(lián)網(wǎng)中文本數(shù)據(jù)的數(shù)量和價值呈指數(shù)增長,復制網(wǎng)絡中文本的現(xiàn)象越來越多,相同和近似文本也越來越多,不僅極大的浪費了網(wǎng)絡存儲空間、降低檢索效率,而且不利于電子文本知識產(chǎn)權的保護,如何快速檢測文本是否復制于因特網(wǎng)文本已成為急需解決的問題。 本文在對已有文本復制檢測方法進行分析研究的基礎上,提出了一種基于元搜索引擎的文本復制檢測方法,本文主要工作包括: 首先對已有文本復制檢測方法進行研究,主要包括文本復制檢測的基本原理、典型的文本復制檢測系統(tǒng)的實現(xiàn)方法、通用的文本復制的基本流程,并對實現(xiàn)文本復制檢測常用到的關鍵技術以及關鍵問題的解決策略進行分析研究,主要包括中文文本的預處理技術,如中文文本的分詞、詞性標注,文本塊的選擇策略和文本特征的選擇策略等,為設計新的文本復制檢測系統(tǒng)中的關鍵問題提供了解決思路。 然后結合當前復制檢測網(wǎng)絡文本的行為越來越多的狀況,基于元搜索引擎的優(yōu)勢,提出了一種基于元搜索引擎的文本復制檢測方法。其中,為減少請求元搜索引擎的次數(shù)以提高系統(tǒng)效率,結合詞性信息改進TF-ISF算法抽取文本特征句子;為獲取更加全面的疑似復制文本,以特征句子的線索詞作為請求元搜索引擎的查詢詞獲取網(wǎng)絡在線參考文本集;由于傳統(tǒng)基于LCS的句子相似度計算方法忽略了最長公共子序列數(shù)量對句子相似度的影響,,結合最長公共子序列數(shù)量的改進LCS句子相似度計算方法。 最后設計文本復制檢測系統(tǒng)進行實驗驗證。使用SOGOU-T中文數(shù)據(jù)集對改進的TF-ISF方法和基于元搜索引擎的文本復制檢測方法的效率和F1-score進行實驗分析。
【關鍵詞】:文本復制檢測 文本預處理 中文分詞技術 元搜索引擎 TF-ISF 最長公共子序列算法
【學位授予單位】:鄭州大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-10
  • 圖目錄10-11
  • 表目錄11-12
  • 1 緒論12-18
  • 1.1 研究背景及意義12-14
  • 1.2 國內(nèi)外研究現(xiàn)狀14-16
  • 1.2.1 國外研究現(xiàn)狀14-15
  • 1.2.2 國內(nèi)研究現(xiàn)狀15-16
  • 1.3 本文主要工作16
  • 1.4 本文組織安排16-18
  • 2 文本復制檢測概述18-27
  • 2.1 文本復制檢測原理18
  • 2.2 典型的文本復制檢測方法18-24
  • 2.2.1 基于特征空間的文本復制檢測方法18-22
  • 2.2.2 基于數(shù)字指紋的文本復制檢測方法22-24
  • 2.3 文本復制檢測的流程24-26
  • 2.4 本章小結26-27
  • 3 中文文本復制檢測的關鍵問題與技術27-35
  • 3.1 中文自動分詞技術27-28
  • 3.2 文本塊的選取策略28-30
  • 3.3 文本特征選取30-31
  • 3.4 文本相似度計算方法31-33
  • 3.5 本章小結33-35
  • 4 基于元搜索引擎的文本復制檢測方法35-45
  • 4.1 基于元搜索引擎的文本復制檢測方法36-38
  • 4.2 文本預處理38-40
  • 4.3 改進的 TF-ISF 特征句子提取方法40-41
  • 4.4 搜索結果的獲取與融合41-42
  • 4.5 基于 LCS 句子相似度計算方法42-44
  • 4.6 文章小結44-45
  • 5 實驗結果及分析45-52
  • 5.1 實驗軟硬件環(huán)境45
  • 5.2 元搜索引擎的實現(xiàn)45-48
  • 5.3 實驗的性能評估指標48-49
  • 5.4 實驗結果及分析49-51
  • 5.4.1 改進型 TF-ISF 方法的性能分析49
  • 5.4.2 基于元搜索引擎的文本復制檢測方法性能分析49-51
  • 5.5 本章小結51-52
  • 6 結論與展望52-54
  • 6.1 本文工作總結52-53
  • 6.2 未來工作展望53-54
  • 參考文獻54-56
  • 致謝56-57
  • 個人簡歷、在學期間發(fā)表的學術論文57
  • 個人簡介57
  • 在學期間發(fā)表的學術論文57

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 麻會東;劉國華;梁鵬;苑迎;;文檔復制檢測技術[J];燕山大學學報;2007年05期

2 蔣昌金;彭宏;陳建超;馬千里;;基于主題詞權重和句子特征的自動文摘[J];華南理工大學學報(自然科學版);2010年07期

3 劉遷;賈惠波;;中文信息處理中自動分詞技術的研究與展望[J];計算機工程與應用;2006年03期

4 陳平;劉曉霞;李亞軍;;基于字典和統(tǒng)計的分詞方法[J];計算機工程與應用;2008年10期

5 仇壯麗;;在線論文復制檢測系統(tǒng)設計[J];計算機工程與應用;2011年19期

6 宋擒豹,楊向榮,沈鈞毅,齊勇;數(shù)字商品非法復制的檢測算法[J];計算機學報;2002年11期

7 張廷華;Web元搜索引擎的改進[J];計算機應用;2002年02期

8 夏天,樊孝忠,劉林;利用JNI實現(xiàn)ICTCLAS系統(tǒng)的Java調(diào)用[J];計算機應用;2004年S2期

9 李欣,舒風笛;最長公共子序列問題的改進快速算法[J];計算機應用研究;2000年02期

10 劉海峰;王元元;;基于向量模型的文本檢索若干問題研究[J];情報雜志;2006年10期


  本文關鍵詞:基于元搜索引擎的文本復制檢測方法研究,由筆耕文化傳播整理發(fā)布。



本文編號:377758

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/377758.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶9c312***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日本深夜福利视频在线| 中文字幕一区二区久久综合| 欧美在线视频一区观看| 大香蕉精品视频一区二区| 91偷拍与自偷拍精品| 国产户外勾引精品露出一区 | 亚洲一区二区欧美激情| 蜜桃传媒视频麻豆第一区| 欧美日韩国产另类一区二区| 婷婷色网视频在线播放| 在线观看视频日韩精品| 激情亚洲内射一区二区三区| 国产精品免费视频视频| 国产目拍亚洲精品区一区| 亚洲一区二区精品免费| 亚洲国产av国产av| 中文字幕高清免费日韩视频| 日韩熟妇人妻一区二区三区 | 日本不卡片一区二区三区| 激情三级在线观看视频| 在线观看视频成人午夜| 久久热麻豆国产精品视频| 日韩欧美国产精品自拍| 色涩一区二区三区四区| 国产不卡视频一区在线| 欧美人与动牲交a精品| 亚洲中文字幕免费人妻| 色一情一伦一区二区三| 久久国产精品熟女一区二区三区| 久久中文字人妻熟女小妇| 熟女高潮一区二区三区| 国产一级性生活录像片| 欧洲亚洲精品自拍偷拍| 日本欧美在线一区二区三区| 女生更色还是男生更色| 欧美日韩国产综合特黄| 久久精品伊人一区二区| 麻豆视传媒短视频免费观看| 亚洲乱码av中文一区二区三区| 免费大片黄在线观看日本| 国产一级不卡视频在线观看|