文本復制比不能超過_wps文檔怎么復制文本_中文文本復制檢測技術的研究.pdf 全文 文檔投稿網
本文關鍵詞:中文文本復制檢測技術研究,由筆耕文化傳播整理發(fā)布。
杭州電子科技大學
碩士學位論文
中文文本復制檢測技術研究
姓名:盧小康
申請學位級別:碩士
專業(yè):計算機軟件與理論
指導教師:王小華
20091101
杭州電子科技大學碩士學位論文
摘
要
在信息社會中,隨著計算機技術、通信技術、網絡技術的快速發(fā)展,網絡已成
為人們獲取信息的一個重要途徑。人們預測,在不久的將來網絡媒體將會取代平
面媒體成為人們獲取信息的主要渠道。面對因特網上信息持續(xù)爆炸式地增長,如
何從中快速找到用戶所需要的信息成為一個難題。
為解決這個難題,搜索引擎技術應運而生。然而,現(xiàn)在的搜索引擎技術并非
十分完善,返回結果集合中存在大量重復網頁。這些重復網頁主要是因為網站間
的轉載引起的,它不但加大了用戶檢索到所需信息的難度,也浪費了存儲空間。
因此,檢測出大量重復網頁,避免重復存儲,使信息檢索做到快速、準確是一項
有意義的工作。另一方面,在因特網電子商務環(huán)境下,數(shù)字商品很容易被非法復
制和擴散,這無疑會妨礙電子商務的健康發(fā)展。復制檢測技術一定程度上能輔助
解決上述問題。目前國內中文文本復制檢測研究還不成熟,沒有一個完善的解決
方案,許多問題需要解決。
本文首先對文本復制檢測技術的現(xiàn)狀和發(fā)展進行了簡要的回顧,對文本復制
檢測技術的相關技術作了研究,并對中文文本預處理過程、文本分塊和特征提取
策略、文本相似度的度量方法、文本復制檢測算法等問題進行了詳細論述。分析
了常用的復制檢測算法,并對
本文關鍵詞:中文文本復制檢測技術研究,,由筆耕文化傳播整理發(fā)布。
本文編號:94639
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/94639.html