搜索引擎營(yíng)銷應(yīng)用范圍_主題搜索引擎的研究與應(yīng)用
本文關(guān)鍵詞:主題搜索引擎的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
了字典占用內(nèi)存4.28M,分詞速度每秒11k字節(jié);本論文中提到的中文分詞子系統(tǒng)實(shí)驗(yàn)平臺(tái)和中文分詞軟;8.學(xué)位論文任海一基于上下文分析的中文分詞算法研;隨著Internet的迅速發(fā)展,網(wǎng)上信息不斷豐富;本文專注于中文分詞的優(yōu)化性的研究,通過研究比對(duì)機(jī);本文的結(jié)構(gòu)如下:第一章首先講述搜索引擎的現(xiàn)狀,由;9.期刊論文李艷欣.LIYan-xin搜索引擎中;針對(duì)目前最
了字典占用內(nèi)存4.28M,分詞速度每秒11k字節(jié)的實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)表明,這個(gè)分詞軟件包可以滿足當(dāng)前校園網(wǎng)搜索引擎課題的使用。
本論文中提到的中文分詞子系統(tǒng)實(shí)驗(yàn)平臺(tái)和中文分詞軟件包是在 JDK 1.4和Oracle9i上實(shí)現(xiàn)的。
8.學(xué)位論文 任海一 基于上下文分析的中文分詞算法研究 2006
隨著Internet的迅速發(fā)展,網(wǎng)上信息不斷豐富和發(fā)展起來(lái)。越來(lái)越多的人習(xí)慣在網(wǎng)上發(fā)布和獲取信息。但是這些信息卻是以各種形式龐雜無(wú)序地散布在無(wú)數(shù)的服務(wù)器上,更新變化快,用戶要得到真正有價(jià)值的東西有很大的困難。因此,網(wǎng)絡(luò)搜索引擎應(yīng)運(yùn)而生。然而,對(duì)于中文來(lái)講,漢語(yǔ)以字為基本的書寫單位。作為能夠獨(dú)立活動(dòng)的有意義的最小語(yǔ)言成分的卻是詞。這與拉丁語(yǔ)系的語(yǔ)言以空格作為詞界不同。在漢語(yǔ)中詞與詞之間沒有明顯的區(qū)分標(biāo)記。因此在搜索引擎的整理加工階段,重點(diǎn)需要解決的問題就在于如何準(zhǔn)確的進(jìn)行詞的切分。
本文專注于中文分詞的優(yōu)化性的研究,通過研究比對(duì)機(jī)械匹配算法和詞頻統(tǒng)計(jì)算法的各自的優(yōu)缺點(diǎn),提出應(yīng)用馬科夫鏈來(lái)表示中文分詞的切分過程,并基于概率論提出語(yǔ)義切分理論,同時(shí)總結(jié)出語(yǔ)義信息函數(shù),針對(duì)目前分詞不準(zhǔn)確,易于產(chǎn)生歧義等主要問題,對(duì)分詞系統(tǒng)進(jìn)行了優(yōu)化處理,并最終提出了基于上下文分析的中文分詞的算法。通過實(shí)驗(yàn)證明了基于上下文分析的中文分詞算法的準(zhǔn)確率提高,是目前較好的中文算法之一。
本文的結(jié)構(gòu)如下:第一章首先講述搜索引擎的現(xiàn)狀,由此進(jìn)行對(duì)比中外搜索引擎的不同,同時(shí)引出中文搜索引擎的分詞問題;第二章介紹中文分詞的相關(guān)概念以及技術(shù)難點(diǎn)和基本狀況;第三章主要闡述中文分詞目前的研究成果和對(duì)主流的中文分詞系統(tǒng)的分析;第四章主要講解本文提出的基于上下文分析的中文分詞算法的基本思想和實(shí)現(xiàn)目標(biāo)。算法實(shí)現(xiàn)的過程,,包括設(shè)計(jì)思想和實(shí)現(xiàn)的方法;第五章總結(jié)算法的不足之處,以及需要今后繼續(xù)提高的部分。
9.期刊論文 李艷欣.LI Yan-xin 搜索引擎中中文分詞的研究 -電腦知識(shí)與技術(shù)(學(xué)術(shù)交流)2007,2(8)
針對(duì)目前最常用的分詞算法--最大匹配算法效率低,長(zhǎng)度受限等缺點(diǎn),在對(duì)中文編碼體系和中文分詞的算法進(jìn)行研究的基礎(chǔ)上,提出了一種新的詞庫(kù)數(shù)據(jù)結(jié)構(gòu).它支持首字Hash和標(biāo)準(zhǔn)二分查找,而且不限制詞條的長(zhǎng)度.然后介紹了基于該詞庫(kù)設(shè)計(jì)的一種快速的分詞算法,并給出了算法的實(shí)現(xiàn)過程.
10.學(xué)位論文 陸宵宏 基于P2P的搜索引擎的關(guān)鍵技術(shù)研究 2009
Peer-to-peer(P2P)技術(shù)的一個(gè)優(yōu)勢(shì)便是開發(fā)出強(qiáng)大的搜索工具。隨著互聯(lián)網(wǎng)的快速發(fā)展,搜索引擎作為一個(gè)網(wǎng)絡(luò)用戶所需的信息檢索工具,其作用性越來(lái)越受到人們的重視。就中文用戶而言,提高搜索引擎的效率的關(guān)鍵因素是中文分詞匹配效率與搜索引擎索引檢索效率的提高。
本文首先對(duì)P2P技術(shù)進(jìn)行了闡述,包括P2P的定義、P2P模式與C/S模式的比較、P2P的特點(diǎn)以及P2P技術(shù)在搜索方面的應(yīng)用及優(yōu)勢(shì);其次對(duì)P2P搜索算法進(jìn)行了分類探討,重點(diǎn)研究和分析了幾種P2P搜索算法,并指出它們的優(yōu)缺點(diǎn)。對(duì)以傳統(tǒng)索引方和倒排索引方這兩種索引方式為核心的基于P2P的搜索引擎和其他幾種典型的搜索引擎也進(jìn)行了各方面的比較。接著,為了克服傳統(tǒng)的集中式搜索引擎的缺點(diǎn),針對(duì)中文分詞本文提出了基于樹狀詞庫(kù)進(jìn)行中文分詞,這種經(jīng)過優(yōu)化的分詞方法使傳統(tǒng)的匹配算法效率得到大大地提高,并結(jié)合XML技術(shù)為中文分詞提出并實(shí)現(xiàn)了可行的解決方案:本文設(shè)計(jì)了基于XML與B+樹的倒排索引算法建立索引器的索引解決了傳統(tǒng)的正、倒排索引模型實(shí)時(shí)更新性能差的缺點(diǎn)。將搜索引擎架設(shè)在P2P分布式網(wǎng)絡(luò)結(jié)構(gòu)之上,利用P2P的良好的分布式特性,使搜索引擎從集中式走向分布式,使搜索引擎能更深度、更廣度地搜索互聯(lián)網(wǎng)上的用戶可用的信息。
基于樹狀詞庫(kù)與XML的中文分詞方法使得搜索引擎對(duì)中文文段進(jìn)行分詞時(shí)更為準(zhǔn)確;赬ML的倒排索引建立解決方案從新的角度探索了中英文混合檢索的底層機(jī)制,使得搜索引擎在索引器中進(jìn)行索引檢索、尋找其相關(guān)的文檔更為快捷。
當(dāng)前,這方向的研究還處于試驗(yàn)、探索階段,某些方面在理論上還需要有所突破,逐步使搜索引擎更好地服務(wù)于用戶。
本文鏈接:
下載時(shí)間:2010年5月14日
下載地址:主題搜索引擎的研究與應(yīng)用_圖文37.Doc
【】最新搜索
主題搜索引擎的研究與應(yīng)用_圖文
梯形軌枕
數(shù)據(jù)與計(jì)算機(jī)通信 中文版 課后答案70
色字開頭的成語(yǔ)接龍
90科普大篷車 觀后感
中國(guó)大地新景觀
58碳化硅多孔陶瓷制備工藝研究
建筑管理的認(rèn)識(shí)
38工 會(huì) 組 建 程 序
淺析我國(guó)精神損害賠償制度的發(fā)展與法律價(jià)值取向
本文關(guān)鍵詞:主題搜索引擎的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號(hào):170306
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/170306.html