天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

提升全文檢索搜索引擎應(yīng)用問題的研究

發(fā)布時間:2016-11-08 15:56

  本文關(guān)鍵詞:中文五大綜合搜索引擎主要性能測評,由筆耕文化傳播整理發(fā)布。


  2012年第15期目錄       本期共收錄文章20篇

2012年第15期

  【摘 要】全文檢索系統(tǒng)中最為關(guān)鍵的部分是全文檢索引擎,各種應(yīng)用程序都需要建立在這個引擎之上。全文檢索的核心是如何從文本中提取主題詞,而如何從單文檔中提取主題詞是本文要重點解決的問題同時也是提升全文檢索引擎的效率即是提升全文檢索應(yīng)用的根本。
中國論文網(wǎng)
  【關(guān)鍵詞】全文檢索;搜索引擎;提取主題詞
  引言
  信息的迅速增長必然需要強大的信息檢索工具,而在信息檢索工具中,全文檢索是最具有通用性和實用性的。迅速發(fā)展的互聯(lián)網(wǎng)帶來的信息增長對全文檢索技術(shù)又提出了新的要求。由此可見全文檢索系統(tǒng)的研究對人們?nèi)粘I畹囊饬x與重要性,能準確地從web數(shù)據(jù)中查找用戶需要的信息、并以有效的形式呈現(xiàn)給用戶的問題勢在必行。
  1.主題詞提取關(guān)鍵技術(shù)
  主題詞提取算法設(shè)計時要保證提取的主題詞能反映文檔的主旨內(nèi)容。因此,采用了全新的主題詞提取算法:基于同義詞詞林的主題詞提取。
  1.1主題詞詞頻與詞語位置
  詞語在文獻中出現(xiàn)的次數(shù)越多,它越可能是主題詞。詞語在文獻中出現(xiàn)的位置對主題詞提取也具有重要的影響,一般來說,詞語會出現(xiàn)在標(biāo)題、正文等不同的位置。出現(xiàn)在正文的詞語,設(shè)它的位置loci=1;出現(xiàn)在標(biāo)題的詞語,設(shè)它的位置值為loci=0。出現(xiàn)在標(biāo)題中的詞語往往就比出現(xiàn)在正文中的詞語重要。
  1.2同義詞權(quán)值設(shè)計
  如果一個詞語的同義詞在文中出現(xiàn),那么這個詞語獲得附加權(quán)重。判斷文章中詞語是否有同義詞,主要的依據(jù)是在同義詞詞林字典中進行查找,如果這個詞語及同義詞在文中都有出現(xiàn),那么同義詞詞林中一定有“=”號標(biāo)記,,標(biāo)記該詞與該詞相關(guān)的同義詞。則將這個詞的權(quán)重(weight)增加;如果一個詞的相關(guān)詞語出現(xiàn)在文中,那么這個詞也獲得附加權(quán)重,在同義詞詞庫中是以“#”作為相關(guān)詞標(biāo)記的。如果文章中的一個詞既沒有同義詞也沒有相關(guān)詞出現(xiàn),那么它很有可能是獨立詞,只需要判斷該詞的TF值就可以了。
  2.主題詞提取算法
  雖然目前很多研究者都采用了像TF-IDF等算法計算主題詞權(quán)重,但這種算法不屬于單文檔主題詞提取算法,而且沒有考慮詞語的其他相關(guān)信息對主題詞權(quán)值判定的影響。在設(shè)計主題詞提取算法時考慮了設(shè)計詞語權(quán)重時的因素:文本中詞語的詞頻、詞語出現(xiàn)的位置、同義詞、相關(guān)詞、獨立詞。設(shè)計權(quán)重算法如下:
  (1)
  首先,Wj是判斷一個詞是否能作為主題詞提取的唯一權(quán)重,Wj的值越高越可能是主題詞。第一個因子與第二個因子分別計算了詞頻和詞語的相關(guān)位置,位置因子算法中第一個fi為詞語在文中第i種位置上出現(xiàn)的次數(shù)。在標(biāo)題中出現(xiàn)的詞,權(quán)重往往比在正文中出現(xiàn)的詞語權(quán)重大。Loci為該詞語的位置因子,Loci=0時,該詞出現(xiàn)的位置是標(biāo)題,則λ值為0.6。如果Loci=1,說明這個詞的位置在正文,則λ值為0.3。第二項是參考了同義詞詞林設(shè)計的因子,h是這個詞語的相關(guān)同義詞種類。同義詞相關(guān)種類指的是同義詞、相關(guān)詞、獨立詞這三種。kind為基于同義詞相關(guān)信息的相關(guān)因子,kind有三種形式,當(dāng)文章中這個詞有同義詞出現(xiàn)時kind值為1,相關(guān)詞出現(xiàn)時kind值為0.6,沒有任何同義詞和相關(guān)詞時該詞kind值不增加。計算出所有詞的權(quán)重后,輸出鏈表中權(quán)重最大的前N個詞,作為文章的主題詞。在這個過程中,設(shè)置了可以提取主題詞個數(shù)是3至6個。
  3. 主題詞提取模塊
  3.1分詞模塊
  分詞模塊處理時:首先設(shè)置了一個函數(shù),作為分詞時的預(yù)處理。所謂預(yù)處理即是對一個待分詞文檔,判斷其要匹配的字段是否含有非中文字符。如果沒有則調(diào)用正向或者反向最大匹配分詞法。如果這個匹配字段中含有非中文字字符,那么在處理時先將char設(shè)置為unsigned char類型,存儲幾乎所有的字符文字。首先用戶選擇載入文件打開待分詞文檔。按下正向最大匹配分詞OnSplitBack()按鈕或者反向最大匹配分詞OnSplitFront()按鈕,調(diào)用事件處理函數(shù)開始進行中文分詞。載入詞庫文件以后,進入SplitWord函數(shù)。它是分詞的開始,bDick參數(shù)是用戶選擇的分詞方式。bDick =1 則進行正向最大匹配分詞,bDick=2則進行反向最大匹配分詞。如果按下正向最大匹配分詞按鈕,則進入MaxFrontMatching()函數(shù),進行正向最大匹配。如果按下反向最大匹配分詞按鈕,則進入MaxFrontMatching()函數(shù),進行反向匹配。通過反復(fù)的調(diào)用這個函數(shù),最終完成中文分詞。
  3.2主題詞提取模塊
  在設(shè)計主題詞權(quán)重算法時,參考了主題詞提取算法的相關(guān)資料,設(shè)計了影響詞語權(quán)重的因子:即該詞詞頻、詞語出現(xiàn)的位置、同義詞、相關(guān)詞、獨立詞。根據(jù)主題詞提取權(quán)重算法,Weight作為判斷一個詞是否能作為關(guān)鍵詞提取的唯一權(quán)重。進入函數(shù)Count_loc判斷該詞語在文本中的詞頻,統(tǒng)計文章中每個詞的詞頻之后調(diào)用位置函數(shù)WordPosition判斷詞語出現(xiàn)的位置。如果該詞出現(xiàn)在正文,那么loci值1。如果該詞語出現(xiàn)的位置是標(biāo)題,那么loci的值為0。將m_WordList鏈表里的文章標(biāo)題中出現(xiàn)的詞匯nPos標(biāo)志改為0之后,統(tǒng)計鏈表中m_WordList的詞匯,放到同義詞匹配詞庫中進行查找,將找到的標(biāo)記(#=&)記錄到address對象中去。調(diào)用CountThesaurus函數(shù),判斷當(dāng)前文章中該詞語是否有同義詞。如果有那么它的權(quán)值加1。該詞存在相關(guān)詞時權(quán)值增加0.6,如果它是獨立詞則該詞的權(quán)值不增加。在主題詞提取設(shè)計中用戶可以根據(jù)自己的需要選擇提取主題詞個數(shù)。
  3.3搜索引擎模塊
  搜索引擎在設(shè)計時直接調(diào)用了現(xiàn)有的基于Google接口的搜索引擎程序,將這段程序代碼與主題詞提取代碼整合到一起,完成了基于搜索引擎的主題詞提取系統(tǒng),在程序調(diào)用時直接調(diào)用了Google接口程序的.exe文件。當(dāng)按下OnSearchEngine按鈕時首先判斷主題詞提取對象是否為空,如果主題詞提取為空將不能向用戶顯示搜索引擎搜索到的結(jié)果。
  總結(jié)
  在設(shè)計全文檢索主題詞算法初期采用了TF算法統(tǒng)計了文本中的詞頻,最終主題詞提取的部分借鑒了同義詞詞林算法,中文分詞部分主要采用正向最大匹配分詞法與反向最大匹配法相結(jié)合的算法進行中文分詞。通過中文分詞程序設(shè)計中算法的不斷改進、調(diào)整,最終將這兩種不同的中文分詞法結(jié)合到一起。同時,本系統(tǒng)還有可以一些需要改進的地方,比如提高主題詞提取的準確性。更快更準永遠是全文檢索技術(shù)的追求。
  參考文獻
  [1]張軍華,韓全會.中文五大綜合搜索引擎主要性能測評[J].情報科學(xué),2008,9:1-4
  [2]宋過,方小璐.基于網(wǎng)頁特征的TF-IDF改進算法.計算機應(yīng)用,2007年1月,第23卷第1期
  [3]程濤等.基于同義詞詞林的中文文本主題詞提取.廣西師范大學(xué)學(xué)報,2007,第25卷第2期

轉(zhuǎn)載請注明來源。:


  本文關(guān)鍵詞:中文五大綜合搜索引擎主要性能測評,由筆耕文化傳播整理發(fā)布。



本文編號:168178

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/168178.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2e65e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com