面向汽車領(lǐng)域知識(shí)圖譜構(gòu)建的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2024-03-02 05:41
進(jìn)入二十一世紀(jì)以來,人們逐漸意識(shí)到了信息、數(shù)據(jù)的重要性。但是現(xiàn)在網(wǎng)絡(luò)上的數(shù)據(jù)呈井噴式增長,如何從海量數(shù)據(jù)中快速搜索出自己感興趣的數(shù)據(jù)是一個(gè)亟待解決的問題。知識(shí)圖譜的興起能夠幫助我們解決這一難題,知識(shí)圖譜能夠挖掘出實(shí)體間的語義關(guān)系,能夠幫助我們更好地組織數(shù)據(jù)。隨著人們生活水平的提高,汽車已經(jīng)是人們生活中必不可少的一部分了,人們對(duì)于汽車領(lǐng)域相關(guān)信息的需求也越來越大。面向汽車領(lǐng)域的知識(shí)圖譜能夠方便人們查詢汽車領(lǐng)域的相關(guān)資訊、配置、評(píng)論等信息。本文首先介紹了汽車領(lǐng)域知識(shí)圖譜的研究背景和意義,然后闡述了知識(shí)圖譜構(gòu)建技術(shù)的現(xiàn)狀,并分析了存在的問題。目前存在的三元組抽取算法,普遍都是直接從網(wǎng)頁文本中抽取三元組,得到的三元組質(zhì)量不是很高。用代詞來替代上文中提到的對(duì)象是漢語中常用的表達(dá)方式,之前的算法往往會(huì)造三元組中的頭實(shí)體和尾實(shí)體可能是“他”、“他們”等代詞,極大的降低了三元組的質(zhì)量。本文根據(jù)汽車領(lǐng)域數(shù)據(jù)信息的特征,提出了一套完整的汽車領(lǐng)域知識(shí)圖譜構(gòu)建算法,能夠很好的解決這個(gè)問題。首先用Scrapy爬蟲框架爬取新浪汽車網(wǎng)、網(wǎng)易汽車網(wǎng)和太平洋汽車網(wǎng)等汽車領(lǐng)域相關(guān)數(shù)據(jù)信息,其次用決策樹算法對(duì)爬取的文本進(jìn)行...
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文編號(hào):3916418
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.3網(wǎng)頁的DOM樹結(jié)構(gòu)
第1章緒論。正則表達(dá)式是將網(wǎng)頁內(nèi)容當(dāng)做一個(gè)字符串來處理,它優(yōu)點(diǎn)在于,運(yùn)行速度較快,耗時(shí)較少,效率相對(duì)比較高。但是正則表達(dá)式語法比較難,對(duì)于復(fù)雜網(wǎng)頁,寫出正確高效的正則表達(dá)式是一個(gè)考驗(yàn)。BeautifulSoup是python一個(gè)HTML解析庫,我們可以利用Bea....
圖3.3奧迪Q5百度百科詞條
圖3.3奧迪Q5百度百科詞條從詞條半結(jié)構(gòu)化信息中,我們可以獲得的知識(shí)三元組如下表所示。表3.1抽取的知識(shí)三元組頭實(shí)體關(guān)系(屬性)尾實(shí)體奧迪Q5品牌奧迪奧迪Q5生產(chǎn)廠商一汽奧迪/進(jìn)口奧迪奧迪Q5參考價(jià)格35.85-67.80萬奧迪Q5油耗1....
圖5.2系統(tǒng)登錄界面
圖5.2系統(tǒng)登錄界面若用戶忘記了密碼,可以進(jìn)入密碼找回頁面,輸入用戶名,系統(tǒng)會(huì)將新發(fā)送到該用戶的郵箱中。
圖5.3密碼找回界面
圖5.2系統(tǒng)登錄界面若用戶忘記了密碼,可以進(jìn)入密碼找回頁面,輸入用戶名,系統(tǒng)會(huì)將新口發(fā)送到該用戶的郵箱中。
本文編號(hào):3916418
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3916418.html
最近更新
教材專著