excel復(fù)制成文本_手機(jī)復(fù)制軟件內(nèi)文本_中文文本復(fù)制檢測(cè)技術(shù)研究.pdf 全文 文檔投稿網(wǎng)
本文關(guān)鍵詞:中文文本復(fù)制檢測(cè)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
杭州電子科技大學(xué)
碩士學(xué)位論文
中文文本復(fù)制檢測(cè)技術(shù)研究
姓名:盧小康
申請(qǐng)學(xué)位級(jí)別:碩士
專業(yè):計(jì)算機(jī)軟件與理論
指導(dǎo)教師:王小華
20091101
杭州電子科技大學(xué)碩士學(xué)位論文
摘
要
在信息社會(huì)中,隨著計(jì)算機(jī)技術(shù)、通信技術(shù)、網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)已成
為人們獲取信息的一個(gè)重要途徑。人們預(yù)測(cè),在不久的將來(lái)網(wǎng)絡(luò)媒體將會(huì)取代平
面媒體成為人們獲取信息的主要渠道。面對(duì)因特網(wǎng)上信息持續(xù)爆炸式地增長(zhǎng),如
何從中快速找到用戶所需要的信息成為一個(gè)難題。
為解決這個(gè)難題,搜索引擎技術(shù)應(yīng)運(yùn)而生。然而,現(xiàn)在的搜索引擎技術(shù)并非
十分完善,返回結(jié)果集合中存在大量重復(fù)網(wǎng)頁(yè)。這些重復(fù)網(wǎng)頁(yè)主要是因?yàn)榫W(wǎng)站間
的轉(zhuǎn)載引起的,它不但加大了用戶檢索到所需信息的難度,也浪費(fèi)了存儲(chǔ)空間。
因此,,檢測(cè)出大量重復(fù)網(wǎng)頁(yè),避免重復(fù)存儲(chǔ),使信息檢索做到快速、準(zhǔn)確是一項(xiàng)
有意義的工作。另一方面,在因特網(wǎng)電子商務(wù)環(huán)境下,數(shù)字商品很容易被非法復(fù)
制和擴(kuò)散,這無(wú)疑會(huì)妨礙電子商務(wù)的健康發(fā)展。復(fù)制檢測(cè)技術(shù)一定程度上能輔助
解決上述問(wèn)題。目前國(guó)內(nèi)中文文本復(fù)制檢測(cè)研究還不成熟,沒(méi)有一個(gè)完善的解決
方案,許多問(wèn)題需要解決。
本文首先對(duì)文本復(fù)制檢測(cè)技術(shù)的現(xiàn)狀和發(fā)展進(jìn)行了簡(jiǎn)要的回顧,對(duì)文本復(fù)制
檢測(cè)技術(shù)的相關(guān)技術(shù)作了研究,并對(duì)中文文本預(yù)處理過(guò)程、文本分塊和特征提取
策略、文本相似度的度量方法、文本復(fù)制檢測(cè)算法等問(wèn)題進(jìn)行了詳細(xì)論述。分析
了常用的復(fù)制檢測(cè)算法,并對(duì)
本文關(guān)鍵詞:中文文本復(fù)制檢測(cè)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):94637
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/94637.html