天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

科技出版社網(wǎng)站圖書檢索中搜索引擎技術(shù)的應(yīng)用研究

發(fā)布時間:2014-09-16 16:04
【摘要】出版社網(wǎng)站建設(shè)的核心價值在于及時、全面、準(zhǔn)確地發(fā)布本社的圖書產(chǎn)品信息,并將其傳遞給目標(biāo)客戶,從而發(fā)揮網(wǎng)絡(luò)營銷作用。隨著出版社網(wǎng)站建設(shè)的深入,產(chǎn)品信息愈加豐富,網(wǎng)站建設(shè)水平將更多的體現(xiàn)在對信息的組織和其所提供的使用功能上,最終目標(biāo)是提高信息傳遞的效率。對于一個大型的科技出版社,其產(chǎn)品涉及的學(xué)科門類紛繁,品種數(shù)量眾多,內(nèi)容層次不一;同時,讀者群體遍布科學(xué)技術(shù)的各個領(lǐng)域,且專業(yè)分工明細(xì),但閱讀能力卻分布于不同層次。因此,讀者在尋找適合自己的圖書產(chǎn)品時,就產(chǎn)生了"多對多"的矛盾,信息傳遞在此出現(xiàn)了"瓶頸"。
 
【關(guān)鍵詞】 網(wǎng)站建設(shè); 圖書產(chǎn)品; 讀者群體; 圖書檢索; 學(xué)科門類; 多對多; 目標(biāo)客戶; 搜索引擎技術(shù); 品種數(shù)量; 科技出版社;

    出版社網(wǎng)站建設(shè)的核心價值在于及時、全面、準(zhǔn)確地發(fā)布本社的圖書產(chǎn)品信息,并將其傳遞給目標(biāo)客戶,從而發(fā)揮網(wǎng)絡(luò)營銷作用。隨著出版社網(wǎng)站建設(shè)的深入,產(chǎn)品信息愈加豐富,網(wǎng)站建設(shè)水平將更多的體現(xiàn)在對信息的組織和其所提供的使用功能上,最終目標(biāo)是提高信息傳遞的效率。
  對于一個大型的科技出版社,其產(chǎn)品涉及的學(xué)科門類紛繁,品種數(shù)量眾多,內(nèi)容層次不一;同時,讀者群體遍布科學(xué)技術(shù)的各個領(lǐng)域,且專業(yè)分工明細(xì),但閱讀能力卻分布于不同層次。因此,讀者在尋找適合自己的圖書產(chǎn)品時,就產(chǎn)生了“多對多”的矛盾,信息傳遞在此出現(xiàn)了“瓶頸”。如何突破這個“多對多”的瓶頸,實現(xiàn)“一對一”,即一位讀者一次性找到符合檢索定義的一類圖書產(chǎn)品的所有信息,成為本研究的目標(biāo)。
  幾年來,我們圍繞網(wǎng)站信息組織和功能技術(shù)兩個方面開展工作,以期實現(xiàn)上述“一對一”的目標(biāo)。在信息組織方面,完成了產(chǎn)品分類與導(dǎo)航體系的建設(shè)。在功能技術(shù)方面,開展了搜索引擎應(yīng)用技術(shù)研究,并對網(wǎng)站內(nèi)容進(jìn)行了結(jié)構(gòu)化處理(碎片化)。這些實踐探索,已經(jīng)取得了初步成果。
  傳統(tǒng)的圖書檢索方式,是基于已知書名的,不外乎書名查詢和組合查詢兩類。其中組合查詢需要明確的查詢條件,一般只適用于條件限制嚴(yán)格和已知信息較豐富的情況,其準(zhǔn)確性與查詢條件的多少成正相關(guān),在并不確知書名或其他條件信息的情況下就不適用;且如果查詢條件之一輸入有誤,就得不到預(yù)期的結(jié)果,因此有較大局本文由筆耕文化傳播http://www.bigengculture.com/收集整理限性。而書名查詢又因為有以下兩類問題,而存在較大的不確定性。
  書名中不一定包含內(nèi)容主題,或是書名與內(nèi)容無直接關(guān)聯(lián)。例如《誰動了我的奶酪》并不是一本關(guān)于食品的書,而《國家健康報告》也與體檢或醫(yī)療無關(guān)。此外,還有許多專業(yè)性的詞匯也不會出現(xiàn)在書名中,因為在確定書名時需要考慮有較廣泛的讀者覆蓋。
  書名中的一些連接字(或符號)輸入的不準(zhǔn)確,會導(dǎo)致檢索沒有結(jié)果,盡管這些并非關(guān)鍵字,如“和、與、及、的”等以及“破折號(——)、頓號(、)、冒號(:) ”等。
  出版社的生存與發(fā)展主要依靠新的出版物,因此出版社網(wǎng)站的宣傳營銷工作應(yīng)該主要圍繞新書展開,所以新書推介功能就顯得尤為重要。但這與已知書名的傳統(tǒng)查詢方式產(chǎn)生了矛盾。如何響應(yīng)讀者基于內(nèi)容主題(而不是書名)的檢索需求,并能夠快速地提供相關(guān)度很高的查詢結(jié)果,是我們潛心鉆研的課題。為此,我們開發(fā)了自己的圖書搜索引擎。
  圖書搜索引擎是一個網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng),它能夠接受用戶通過瀏覽器提交的搜索文本(詞組或短語),在可接受的時間內(nèi)返回一個與該用戶搜索匹配的網(wǎng)頁信息列表,這個列表中的每一個條目至少包含書名及其網(wǎng)址鏈接,同時依其相關(guān)程度自動排序。
  搜索引擎技術(shù)在大型電子商務(wù)網(wǎng)站應(yīng)用的比較普遍,但在出版社網(wǎng)站上卻幾乎沒有看到,讀者比較在這兩類網(wǎng)站上的購書體驗時,明顯感到出版社網(wǎng)站的功能落后。其實,到訪出版社網(wǎng)站的人,大多是受到出版社品牌感召的忠實讀者,奔著獲得更具專業(yè)特色的經(jīng)典圖書而來。為他們提供優(yōu)質(zhì)高效的檢索工具和服務(wù),不僅是出版社品牌的直接體現(xiàn),更起到了留住這部分忠實讀者,同時減少潛在客戶流失的“吸附”作用。努力提高網(wǎng)站的“粘度”是我們的重要理念之一,開發(fā)適用于出版社網(wǎng)站的圖書搜索引擎,是該理念指導(dǎo)下的一個重要技術(shù)措施。這項工作有三個關(guān)鍵要素:
  匹配——相關(guān)性評價。即如何定義和評價我們認(rèn)為內(nèi)容與搜索條件匹配的那些圖書與該搜索條件之間的相關(guān)性程度。這種評價必須是量化的,否則將無法進(jìn)行精確的比較判斷。將書的內(nèi)容(及其他屬性)納入搜索范圍比僅從書名中搜索,準(zhǔn)確程度有了質(zhì)的飛躍,這是決定搜索質(zhì)量的關(guān)鍵要素。量化算法隨之成為搜索引擎的技術(shù)核心。
  可接受的時間——響應(yīng)時間。對于在Web上向廣大用戶提供服務(wù)的軟件來說,響應(yīng)時間不能太長,通?梢越邮艿牧考壥“秒”級。
  取詞——自動分詞(切詞)處理。用戶的搜索條件一般是詞的組合或自然語言短語,搜索引擎必須理解這些對搜索條件的描述。但是漢語不同于英語,英語的詞與詞之間以空格分開,漢語的詞之間沒有分隔符,這對計算機(jī)處理造成了困難,所以必須使用中文信息處理系統(tǒng)——自動分詞系統(tǒng),才能將一串字符分解為若干規(guī)范化的主題詞,同時也過濾掉當(dāng)中的無價值字符。同理,對圖書內(nèi)容的加工處理也是如此。
  由此可知,應(yīng)用搜索引擎技術(shù),必須首先對網(wǎng)站的圖書內(nèi)容等信息,進(jìn)行結(jié)構(gòu)化的加工處理,就是大家常說的“碎片化”,這是不可或缺的基礎(chǔ)性工作。
  下面談?wù)勊阉饕娴降资侨绾喂ぷ鞯,大家就知道它為什么能夠大幅提高搜索的質(zhì)量和效率了。其工作流程依次分為三個步驟:
  信息采集。相對于流通領(lǐng)域的電商網(wǎng)站而言,出版社網(wǎng)站具有得天獨厚的內(nèi)容資源優(yōu)勢,可用于支持自己產(chǎn)品的精確定義。這其中不僅包括內(nèi)容簡介、章節(jié)目錄、樣章(甚至全文)等可以用于詞頻的定量計算,還有CIP數(shù)據(jù)中的主題詞、分類號,以及作者名、自定義分類名等定性資源,這些資源可以為相關(guān)性評價提供完整的數(shù)據(jù)支持。因此,廣泛地采集這些信息,充分利用本社產(chǎn)品的數(shù)據(jù)資源,構(gòu)建全方位的評價體系,是保證和提高搜索引擎質(zhì)量的基礎(chǔ)與前提。同時,通過保持較高的采集頻率,及時將新書信息抓取入庫,還可以達(dá)到宣傳推廣新書的目的。
  預(yù)處理。這是生成中間數(shù)據(jù)的準(zhǔn)備過程,也是運(yùn)算量最大的階段,包括建立內(nèi)容索引庫和倒排索引表。其工作過程是將一本書的可取內(nèi)容和屬性信息,轉(zhuǎn)化為一組權(quán)重不同的索引詞的集合,然后將書到索引詞的映射轉(zhuǎn)化為索引詞到書的映射,生成倒排文件(包括倒排表和索引詞表),用于下一步的檢索服務(wù)。其中由內(nèi)容到索引詞集合的轉(zhuǎn)化,就是我們說的“碎片化”。這一過程既需要中文自動分詞技術(shù)的支持,也需要對分詞對象選擇和權(quán)重設(shè)置等具有一定的經(jīng)驗。
  檢索服務(wù)。這是直接與用戶交互的過程,也是限制搜索引擎性能的瓶頸。該過程包括四個環(huán)節(jié):接受用戶輸入的搜索主題詞或短語,運(yùn)行檢索并獲得相應(yīng)的匹配結(jié)果,計算評價匹配者的相關(guān)性程度,最后依次顯示給用戶。即,首先對用戶輸入的搜索語句進(jìn)行切分取詞,然后分別從索引詞表和倒排索引表中檢索出包含這些主題詞的圖書記錄,再依據(jù)各主題詞的權(quán)重進(jìn)行量化計算和匯總比較,從而確定所有可匹配圖書的相關(guān)性程度排序,最后生成有序的結(jié)果列表頁面顯示給用戶。其中起決定性作用的是相關(guān)性評價算法,它的優(yōu)劣直接關(guān)系到搜索引擎的質(zhì)量和效率。

評價算法與出版物的特性及內(nèi)容有密切關(guān)系,需要結(jié)合本社特點反復(fù)調(diào)試,通過不斷優(yōu)化,一定可以摸索出最具本社產(chǎn)品特色的算法模型。下面介紹一下我社建立相關(guān)性評價算法模型的思路與經(jīng)驗:
  該模型采用計分方式,依得分多少分段排序。得分的計算是依據(jù)所匹配詞的詞頻和權(quán)重,分級的依據(jù)是匹配度,是根據(jù)經(jīng)驗修正后建立起來的統(tǒng)計模型。
  首先,根據(jù)出版社網(wǎng)站的產(chǎn)品數(shù)據(jù)結(jié)構(gòu)和功能架構(gòu),采集盡可能多的可用于描述圖書內(nèi)容的信息,如章節(jié)目錄、內(nèi)容簡介、樣章、CIP數(shù)據(jù)中的主題詞和分類號、作譯者名、自定義分類名等,并將它們分為定量詞和定性詞兩類,分別賦予不同的權(quán)重,而具體的權(quán)重值需根據(jù)經(jīng)驗不斷修正,一個基本原則是定性詞的權(quán)重分略高于定量詞最高詞頻的平均值。
  然后,計算出所匹配詞的權(quán)重與詞頻的乘積之和,同時記錄下匹配度——匹配詞數(shù)與輸入分詞總數(shù)之比,再依據(jù)這兩項數(shù)據(jù)進(jìn)行綜合評價,得到相關(guān)性分級結(jié)果列表,即匹配度為100%的按得分由高到低在前面依次排列,匹配度低于100%的也依得分多少,但排在后面。
  這一模型從我社自身內(nèi)容特點出發(fā),經(jīng)反復(fù)修正和優(yōu)化,已經(jīng)達(dá)到如下三點設(shè)計目標(biāo):
  保證相關(guān)度高的圖書全部出現(xiàn)在列表的第1-2頁;
  在線使用時,每次檢索耗時0.5-2秒,平均耗時1秒;
  相關(guān)度排序基本與客觀實際一致。
  搜索引擎技術(shù)的應(yīng)用開發(fā),至能夠成功上線運(yùn)行的程度,還只是完成了基本任務(wù)。其后續(xù)的優(yōu)化和運(yùn)行維護(hù)工作還有許多,這項長期性工作主要包括兩個方面:
  新書入庫和新詞識別。不斷地推出新書,是出版社網(wǎng)站的任務(wù)使命。除了在相關(guān)頻道進(jìn)行宣傳推薦以外,能夠及時出現(xiàn)在搜索引擎的結(jié)果列表中,也是很有推薦意義的。這就需要我們的預(yù)處理工作必須與新書上線同步進(jìn)行,如果網(wǎng)站每天都有新書發(fā)布,那么,預(yù)處理工作就需要每天進(jìn)行。由于預(yù)處理的運(yùn)算量非常之大,所以一般應(yīng)安排在夜間自動運(yùn)行。以我社在庫品種為例,預(yù)處理得到的索引記錄已達(dá)350多萬條。同時,新書中涌現(xiàn)的新詞也十分重要,只有及時地將這些新詞識別出來,才能保證以后此類新書的內(nèi)容可以被正確切分。
  算法和權(quán)重值的不斷優(yōu)化。隨著社會和科技進(jìn)步以及出版社的發(fā)展,出版領(lǐng)域?qū)⒉粩鄶U(kuò)展。而每當(dāng)出版物涉及一個新的范疇以后,必然帶來內(nèi)容結(jié)構(gòu)和特點的變化。因此之前確定的算法、參數(shù)、權(quán)重值等都需要同步進(jìn)行適應(yīng)性調(diào)整。另外,隨著信息技術(shù)和人工智能的發(fā)展,算法和建模理論正在迅速完善和提高過程中,這將給我們提供許多指導(dǎo)和借鑒,優(yōu)化工作就有了方向。所以,運(yùn)維工作的另一方面內(nèi)容就是應(yīng)當(dāng)根據(jù)產(chǎn)品結(jié)構(gòu)的變化及技術(shù)的發(fā)展,適時地對搜索引擎的效果和效率做出評價,以選擇時機(jī)進(jìn)行優(yōu)化升級,使其不斷完善和提高。
  出版社網(wǎng)站的圖書搜索引擎技術(shù)開發(fā),是我社在數(shù)字出版理念指導(dǎo)下,進(jìn)行的一次改善讀者產(chǎn)品搜索體驗的實踐,從中積累了經(jīng)驗,達(dá)到了預(yù)期目的。但同時也感到,還有許多可以繼續(xù)努力提高的空間,隨著信息技術(shù)的進(jìn)步以及各方面條件的完善,我們有信心取得新的飛躍。

    參考文獻(xiàn):



本文編號:9010

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/9010.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶574a2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com