基于結(jié)構(gòu)化數(shù)據(jù)的搜索引擎
發(fā)布時間:2021-09-04 12:33
[目的/意義]搜索引擎作為互聯(lián)網(wǎng)的核心技術(shù)與應(yīng)用之一,代表了互聯(lián)網(wǎng)發(fā)展的水平。了解當(dāng)前搜索引擎的發(fā)展情況,有利于更好地把握技術(shù)前沿動態(tài)。[方法/過程]文章首先闡述搜索引擎的發(fā)展歷史,然后重點(diǎn)介紹基于結(jié)構(gòu)化數(shù)據(jù)的搜索引擎的原理、應(yīng)用場景,揭示這一類搜索引擎的特征。[結(jié)果/結(jié)論]基于數(shù)據(jù)的搜索引擎是互聯(lián)網(wǎng)發(fā)展過程中的必然結(jié)果,也是互聯(lián)網(wǎng)發(fā)展的一個亮點(diǎn)。搜索引擎會繼續(xù)將互聯(lián)網(wǎng)的精英技術(shù)和理念收攬其中,在人們的學(xué)習(xí)、生活中發(fā)揮更加突出的作用。
【文章來源】:現(xiàn)代情報. 2019,39(02)CSSCI
【文章頁數(shù)】:7 頁
【部分圖文】:
Swoogle檢索界面
LD、RDF/XML、Turtle等格式返回。SPARQL是一種功能強(qiáng)大的查詢語言,允許應(yīng)用程序?qū)Γ褼F數(shù)據(jù)庫進(jìn)行復(fù)雜的查詢。但是它畢竟是一種面向底層的查詢語言,普通用戶掌握起來有很大的困難。因此,最開始的RDF搜索引擎存在搜索界面不友好、結(jié)果顯示界面信息不豐富和欠美觀的情況,并未走入尋常百姓家。圖2RDF搜索引擎檢索結(jié)果[5]隨著語義網(wǎng)的發(fā)展,RDF數(shù)據(jù)庫越來越多,人們希望能夠充分發(fā)揮RDF三元組精準(zhǔn)描述的特性,因此,逐漸出現(xiàn)了一些能夠提供基于半自然語言提問的問答型搜索引擎(QuestionandAnswerSearchEngine)。2.3知識圖譜(KnowledgeGraph)與谷歌、必應(yīng)作為互聯(lián)網(wǎng)搜索引擎巨頭,谷歌不斷推出新的理念、標(biāo)準(zhǔn)和產(chǎn)品。2012年5月,谷歌發(fā)布“知識圖譜(KnowledgeGraph,KG)”,并且將知識圖譜加入到谷歌搜索中。知識圖譜的概念來自于上世紀(jì)60年代,知識圖譜的本質(zhì)是描述真實世界中存在的各種實體或概念及其關(guān)系的網(wǎng)絡(luò)圖。它能夠極大改進(jìn)搜索引擎的效率和效果,為智能應(yīng)用奠定基礎(chǔ)。知識實體的建設(shè)是基于數(shù)據(jù)搜索引擎的基石。實體又被稱作概念(Concept)、事物(Thing)或知識元。知識實體的數(shù)量、準(zhǔn)確性以及詳細(xì)程度決定搜索引器服務(wù)質(zhì)量的基礎(chǔ)。谷歌知識圖譜的實體信息內(nèi)容豐富,包括且不限于CIA的世界概況,F(xiàn)reebase和維基百科[6]等。2012年谷歌知識圖譜已經(jīng)包含了超過5.70億個經(jīng)常被搜索的人、地名和事物[7]。它服務(wù)的方式類似于維基百科(Wikipedia)的InfoBox,在搜索結(jié)果頁面的右邊欄,加上了針對關(guān)鍵詞的一些結(jié)構(gòu)化描述內(nèi)容。與谷?
UERIX為例,它在用戶的提問方式上進(jìn)行了一些限制,要求用戶要以特定的詞匯開始提問,例如What、Which、HowMany、GiveMe等等。接收到用戶的輸入后,搜索引擎首先會對語句進(jìn)行結(jié)構(gòu)分析、語詞依賴性分析、實體識別,力圖“理解”用戶的真實意圖,再轉(zhuǎn)換為內(nèi)部檢索指令。以DBpedia的SPARQLEndpoint服務(wù)為例,如果我們要從維基百科中查詢“有哪些人出生在柏林”,轉(zhuǎn)換成SPAR-QL語句就是:“select?pwhere{?pdbpprop:birth-Place"Berlin"@en.}”。圖3QUERIX用戶檢索界面筆者認(rèn)為,當(dāng)前最為杰出的問答型搜索引擎是由沃爾夫勒姆研究公司(WolframResearch)開發(fā)的WolframAlpha搜索引擎。有人認(rèn)為,WolframAl-pha其實是一個計算知識引擎,而不是搜索引擎。例如,如果想了解美國主要農(nóng)產(chǎn)品的信息,只需要輸入:WhatAretheMainAgriculturalProductsofU.S.,WolframAlpha給出的答案由以下幾部分組成:美國12種主要農(nóng)產(chǎn)品的名稱、美國農(nóng)業(yè)基本信息片段,包括2015年的農(nóng)產(chǎn)品附加值;主要農(nóng)產(chǎn)品類型、年度耕地面積以及氣候類型、主要肉類產(chǎn)品2006年的產(chǎn)量、主要畜牧種群特定年份的數(shù)量。圖4是其中的2個部分:圖4WolframAlpha檢索結(jié)果[13]—07—2019年2月第39卷第2期現(xiàn)代情報JournalofModernInformationFeb.,2019Vol.39No.2
本文編號:3383272
【文章來源】:現(xiàn)代情報. 2019,39(02)CSSCI
【文章頁數(shù)】:7 頁
【部分圖文】:
Swoogle檢索界面
LD、RDF/XML、Turtle等格式返回。SPARQL是一種功能強(qiáng)大的查詢語言,允許應(yīng)用程序?qū)Γ褼F數(shù)據(jù)庫進(jìn)行復(fù)雜的查詢。但是它畢竟是一種面向底層的查詢語言,普通用戶掌握起來有很大的困難。因此,最開始的RDF搜索引擎存在搜索界面不友好、結(jié)果顯示界面信息不豐富和欠美觀的情況,并未走入尋常百姓家。圖2RDF搜索引擎檢索結(jié)果[5]隨著語義網(wǎng)的發(fā)展,RDF數(shù)據(jù)庫越來越多,人們希望能夠充分發(fā)揮RDF三元組精準(zhǔn)描述的特性,因此,逐漸出現(xiàn)了一些能夠提供基于半自然語言提問的問答型搜索引擎(QuestionandAnswerSearchEngine)。2.3知識圖譜(KnowledgeGraph)與谷歌、必應(yīng)作為互聯(lián)網(wǎng)搜索引擎巨頭,谷歌不斷推出新的理念、標(biāo)準(zhǔn)和產(chǎn)品。2012年5月,谷歌發(fā)布“知識圖譜(KnowledgeGraph,KG)”,并且將知識圖譜加入到谷歌搜索中。知識圖譜的概念來自于上世紀(jì)60年代,知識圖譜的本質(zhì)是描述真實世界中存在的各種實體或概念及其關(guān)系的網(wǎng)絡(luò)圖。它能夠極大改進(jìn)搜索引擎的效率和效果,為智能應(yīng)用奠定基礎(chǔ)。知識實體的建設(shè)是基于數(shù)據(jù)搜索引擎的基石。實體又被稱作概念(Concept)、事物(Thing)或知識元。知識實體的數(shù)量、準(zhǔn)確性以及詳細(xì)程度決定搜索引器服務(wù)質(zhì)量的基礎(chǔ)。谷歌知識圖譜的實體信息內(nèi)容豐富,包括且不限于CIA的世界概況,F(xiàn)reebase和維基百科[6]等。2012年谷歌知識圖譜已經(jīng)包含了超過5.70億個經(jīng)常被搜索的人、地名和事物[7]。它服務(wù)的方式類似于維基百科(Wikipedia)的InfoBox,在搜索結(jié)果頁面的右邊欄,加上了針對關(guān)鍵詞的一些結(jié)構(gòu)化描述內(nèi)容。與谷?
UERIX為例,它在用戶的提問方式上進(jìn)行了一些限制,要求用戶要以特定的詞匯開始提問,例如What、Which、HowMany、GiveMe等等。接收到用戶的輸入后,搜索引擎首先會對語句進(jìn)行結(jié)構(gòu)分析、語詞依賴性分析、實體識別,力圖“理解”用戶的真實意圖,再轉(zhuǎn)換為內(nèi)部檢索指令。以DBpedia的SPARQLEndpoint服務(wù)為例,如果我們要從維基百科中查詢“有哪些人出生在柏林”,轉(zhuǎn)換成SPAR-QL語句就是:“select?pwhere{?pdbpprop:birth-Place"Berlin"@en.}”。圖3QUERIX用戶檢索界面筆者認(rèn)為,當(dāng)前最為杰出的問答型搜索引擎是由沃爾夫勒姆研究公司(WolframResearch)開發(fā)的WolframAlpha搜索引擎。有人認(rèn)為,WolframAl-pha其實是一個計算知識引擎,而不是搜索引擎。例如,如果想了解美國主要農(nóng)產(chǎn)品的信息,只需要輸入:WhatAretheMainAgriculturalProductsofU.S.,WolframAlpha給出的答案由以下幾部分組成:美國12種主要農(nóng)產(chǎn)品的名稱、美國農(nóng)業(yè)基本信息片段,包括2015年的農(nóng)產(chǎn)品附加值;主要農(nóng)產(chǎn)品類型、年度耕地面積以及氣候類型、主要肉類產(chǎn)品2006年的產(chǎn)量、主要畜牧種群特定年份的數(shù)量。圖4是其中的2個部分:圖4WolframAlpha檢索結(jié)果[13]—07—2019年2月第39卷第2期現(xiàn)代情報JournalofModernInformationFeb.,2019Vol.39No.2
本文編號:3383272
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3383272.html
最近更新
教材專著