基于結(jié)構(gòu)化數(shù)據(jù)的搜索引擎
發(fā)布時(shí)間:2021-09-04 12:33
[目的/意義]搜索引擎作為互聯(lián)網(wǎng)的核心技術(shù)與應(yīng)用之一,代表了互聯(lián)網(wǎng)發(fā)展的水平。了解當(dāng)前搜索引擎的發(fā)展情況,有利于更好地把握技術(shù)前沿動(dòng)態(tài)。[方法/過(guò)程]文章首先闡述搜索引擎的發(fā)展歷史,然后重點(diǎn)介紹基于結(jié)構(gòu)化數(shù)據(jù)的搜索引擎的原理、應(yīng)用場(chǎng)景,揭示這一類搜索引擎的特征。[結(jié)果/結(jié)論]基于數(shù)據(jù)的搜索引擎是互聯(lián)網(wǎng)發(fā)展過(guò)程中的必然結(jié)果,也是互聯(lián)網(wǎng)發(fā)展的一個(gè)亮點(diǎn)。搜索引擎會(huì)繼續(xù)將互聯(lián)網(wǎng)的精英技術(shù)和理念收攬其中,在人們的學(xué)習(xí)、生活中發(fā)揮更加突出的作用。
【文章來(lái)源】:現(xiàn)代情報(bào). 2019,39(02)CSSCI
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
Swoogle檢索界面
LD、RDF/XML、Turtle等格式返回。SPARQL是一種功能強(qiáng)大的查詢語(yǔ)言,允許應(yīng)用程序?qū)Γ褼F數(shù)據(jù)庫(kù)進(jìn)行復(fù)雜的查詢。但是它畢竟是一種面向底層的查詢語(yǔ)言,普通用戶掌握起來(lái)有很大的困難。因此,最開(kāi)始的RDF搜索引擎存在搜索界面不友好、結(jié)果顯示界面信息不豐富和欠美觀的情況,并未走入尋常百姓家。圖2RDF搜索引擎檢索結(jié)果[5]隨著語(yǔ)義網(wǎng)的發(fā)展,RDF數(shù)據(jù)庫(kù)越來(lái)越多,人們希望能夠充分發(fā)揮RDF三元組精準(zhǔn)描述的特性,因此,逐漸出現(xiàn)了一些能夠提供基于半自然語(yǔ)言提問(wèn)的問(wèn)答型搜索引擎(QuestionandAnswerSearchEngine)。2.3知識(shí)圖譜(KnowledgeGraph)與谷歌、必應(yīng)作為互聯(lián)網(wǎng)搜索引擎巨頭,谷歌不斷推出新的理念、標(biāo)準(zhǔn)和產(chǎn)品。2012年5月,谷歌發(fā)布“知識(shí)圖譜(KnowledgeGraph,KG)”,并且將知識(shí)圖譜加入到谷歌搜索中。知識(shí)圖譜的概念來(lái)自于上世紀(jì)60年代,知識(shí)圖譜的本質(zhì)是描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系的網(wǎng)絡(luò)圖。它能夠極大改進(jìn)搜索引擎的效率和效果,為智能應(yīng)用奠定基礎(chǔ)。知識(shí)實(shí)體的建設(shè)是基于數(shù)據(jù)搜索引擎的基石。實(shí)體又被稱作概念(Concept)、事物(Thing)或知識(shí)元。知識(shí)實(shí)體的數(shù)量、準(zhǔn)確性以及詳細(xì)程度決定搜索引器服務(wù)質(zhì)量的基礎(chǔ)。谷歌知識(shí)圖譜的實(shí)體信息內(nèi)容豐富,包括且不限于CIA的世界概況,F(xiàn)reebase和維基百科[6]等。2012年谷歌知識(shí)圖譜已經(jīng)包含了超過(guò)5.70億個(gè)經(jīng)常被搜索的人、地名和事物[7]。它服務(wù)的方式類似于維基百科(Wikipedia)的InfoBox,在搜索結(jié)果頁(yè)面的右邊欄,加上了針對(duì)關(guān)鍵詞的一些結(jié)構(gòu)化描述內(nèi)容。與谷?
UERIX為例,它在用戶的提問(wèn)方式上進(jìn)行了一些限制,要求用戶要以特定的詞匯開(kāi)始提問(wèn),例如What、Which、HowMany、GiveMe等等。接收到用戶的輸入后,搜索引擎首先會(huì)對(duì)語(yǔ)句進(jìn)行結(jié)構(gòu)分析、語(yǔ)詞依賴性分析、實(shí)體識(shí)別,力圖“理解”用戶的真實(shí)意圖,再轉(zhuǎn)換為內(nèi)部檢索指令。以DBpedia的SPARQLEndpoint服務(wù)為例,如果我們要從維基百科中查詢“有哪些人出生在柏林”,轉(zhuǎn)換成SPAR-QL語(yǔ)句就是:“select?pwhere{?pdbpprop:birth-Place"Berlin"@en.}”。圖3QUERIX用戶檢索界面筆者認(rèn)為,當(dāng)前最為杰出的問(wèn)答型搜索引擎是由沃爾夫勒姆研究公司(WolframResearch)開(kāi)發(fā)的WolframAlpha搜索引擎。有人認(rèn)為,WolframAl-pha其實(shí)是一個(gè)計(jì)算知識(shí)引擎,而不是搜索引擎。例如,如果想了解美國(guó)主要農(nóng)產(chǎn)品的信息,只需要輸入:WhatAretheMainAgriculturalProductsofU.S.,WolframAlpha給出的答案由以下幾部分組成:美國(guó)12種主要農(nóng)產(chǎn)品的名稱、美國(guó)農(nóng)業(yè)基本信息片段,包括2015年的農(nóng)產(chǎn)品附加值;主要農(nóng)產(chǎn)品類型、年度耕地面積以及氣候類型、主要肉類產(chǎn)品2006年的產(chǎn)量、主要畜牧種群特定年份的數(shù)量。圖4是其中的2個(gè)部分:圖4WolframAlpha檢索結(jié)果[13]—07—2019年2月第39卷第2期現(xiàn)代情報(bào)JournalofModernInformationFeb.,2019Vol.39No.2
本文編號(hào):3383272
【文章來(lái)源】:現(xiàn)代情報(bào). 2019,39(02)CSSCI
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
Swoogle檢索界面
LD、RDF/XML、Turtle等格式返回。SPARQL是一種功能強(qiáng)大的查詢語(yǔ)言,允許應(yīng)用程序?qū)Γ褼F數(shù)據(jù)庫(kù)進(jìn)行復(fù)雜的查詢。但是它畢竟是一種面向底層的查詢語(yǔ)言,普通用戶掌握起來(lái)有很大的困難。因此,最開(kāi)始的RDF搜索引擎存在搜索界面不友好、結(jié)果顯示界面信息不豐富和欠美觀的情況,并未走入尋常百姓家。圖2RDF搜索引擎檢索結(jié)果[5]隨著語(yǔ)義網(wǎng)的發(fā)展,RDF數(shù)據(jù)庫(kù)越來(lái)越多,人們希望能夠充分發(fā)揮RDF三元組精準(zhǔn)描述的特性,因此,逐漸出現(xiàn)了一些能夠提供基于半自然語(yǔ)言提問(wèn)的問(wèn)答型搜索引擎(QuestionandAnswerSearchEngine)。2.3知識(shí)圖譜(KnowledgeGraph)與谷歌、必應(yīng)作為互聯(lián)網(wǎng)搜索引擎巨頭,谷歌不斷推出新的理念、標(biāo)準(zhǔn)和產(chǎn)品。2012年5月,谷歌發(fā)布“知識(shí)圖譜(KnowledgeGraph,KG)”,并且將知識(shí)圖譜加入到谷歌搜索中。知識(shí)圖譜的概念來(lái)自于上世紀(jì)60年代,知識(shí)圖譜的本質(zhì)是描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系的網(wǎng)絡(luò)圖。它能夠極大改進(jìn)搜索引擎的效率和效果,為智能應(yīng)用奠定基礎(chǔ)。知識(shí)實(shí)體的建設(shè)是基于數(shù)據(jù)搜索引擎的基石。實(shí)體又被稱作概念(Concept)、事物(Thing)或知識(shí)元。知識(shí)實(shí)體的數(shù)量、準(zhǔn)確性以及詳細(xì)程度決定搜索引器服務(wù)質(zhì)量的基礎(chǔ)。谷歌知識(shí)圖譜的實(shí)體信息內(nèi)容豐富,包括且不限于CIA的世界概況,F(xiàn)reebase和維基百科[6]等。2012年谷歌知識(shí)圖譜已經(jīng)包含了超過(guò)5.70億個(gè)經(jīng)常被搜索的人、地名和事物[7]。它服務(wù)的方式類似于維基百科(Wikipedia)的InfoBox,在搜索結(jié)果頁(yè)面的右邊欄,加上了針對(duì)關(guān)鍵詞的一些結(jié)構(gòu)化描述內(nèi)容。與谷?
UERIX為例,它在用戶的提問(wèn)方式上進(jìn)行了一些限制,要求用戶要以特定的詞匯開(kāi)始提問(wèn),例如What、Which、HowMany、GiveMe等等。接收到用戶的輸入后,搜索引擎首先會(huì)對(duì)語(yǔ)句進(jìn)行結(jié)構(gòu)分析、語(yǔ)詞依賴性分析、實(shí)體識(shí)別,力圖“理解”用戶的真實(shí)意圖,再轉(zhuǎn)換為內(nèi)部檢索指令。以DBpedia的SPARQLEndpoint服務(wù)為例,如果我們要從維基百科中查詢“有哪些人出生在柏林”,轉(zhuǎn)換成SPAR-QL語(yǔ)句就是:“select?pwhere{?pdbpprop:birth-Place"Berlin"@en.}”。圖3QUERIX用戶檢索界面筆者認(rèn)為,當(dāng)前最為杰出的問(wèn)答型搜索引擎是由沃爾夫勒姆研究公司(WolframResearch)開(kāi)發(fā)的WolframAlpha搜索引擎。有人認(rèn)為,WolframAl-pha其實(shí)是一個(gè)計(jì)算知識(shí)引擎,而不是搜索引擎。例如,如果想了解美國(guó)主要農(nóng)產(chǎn)品的信息,只需要輸入:WhatAretheMainAgriculturalProductsofU.S.,WolframAlpha給出的答案由以下幾部分組成:美國(guó)12種主要農(nóng)產(chǎn)品的名稱、美國(guó)農(nóng)業(yè)基本信息片段,包括2015年的農(nóng)產(chǎn)品附加值;主要農(nóng)產(chǎn)品類型、年度耕地面積以及氣候類型、主要肉類產(chǎn)品2006年的產(chǎn)量、主要畜牧種群特定年份的數(shù)量。圖4是其中的2個(gè)部分:圖4WolframAlpha檢索結(jié)果[13]—07—2019年2月第39卷第2期現(xiàn)代情報(bào)JournalofModernInformationFeb.,2019Vol.39No.2
本文編號(hào):3383272
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3383272.html
最近更新
教材專著