多點民族志的探索與實踐——對少數(shù)民族文學(xué)資源的網(wǎng)絡(luò)調(diào)查及保護
【部分圖文】:
通用爬蟲是通用搜索引擎(如谷歌、百度、雅虎、360搜索等)的關(guān)鍵組成部分,其程序結(jié)構(gòu)如圖1所示,主要分為URL(Uniform Resource Locator,統(tǒng)一資源定位器,俗稱網(wǎng)址)種子、網(wǎng)頁下載模塊、網(wǎng)頁解析模塊、數(shù)據(jù)庫幾個部分。通用爬蟲從一個或若干個種子URL作為起始訪問點,調(diào)用下載模塊獲得當(dāng)前URL對應(yīng)的網(wǎng)頁,再調(diào)用解析模塊提取網(wǎng)頁上所包含的超鏈接(即新的URL)并加入“待訪問URL列表”,同時提取網(wǎng)頁內(nèi)容并加入數(shù)據(jù)庫,供搜索引擎使用。然后爬蟲程序繼續(xù)訪問列表中的新URL并進(jìn)一步擴充列表,如此循環(huán)往復(fù)直至程序滿足某種停止準(zhǔn)則;ヂ(lián)網(wǎng)網(wǎng)頁之間的鏈接結(jié)構(gòu)非常復(fù)雜,URL訪問策略直接影響著爬蟲結(jié)果的質(zhì)量。由于通用搜索引擎的目標(biāo)是獲得盡可能高的網(wǎng)頁覆蓋率,通用爬蟲通常采用廣度優(yōu)先策略來訪問網(wǎng)頁。廣度優(yōu)先策略的基本思想是,將新下載網(wǎng)頁中的鏈接插入待訪問URL列表的末尾,即網(wǎng)絡(luò)爬蟲會先訪問起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。通用爬蟲以及基于通用爬蟲的通用搜索引擎在“通用性”方面的極度追求,不可避免地帶來了其他方面的局限性,例如:1.通用爬蟲對網(wǎng)頁內(nèi)容缺乏細(xì)致的分析,通用搜索引擎返回的查詢結(jié)果通常包含大量的與用戶訴求不相關(guān)的網(wǎng)頁,用戶不得不對查詢結(jié)果再加以人工篩選。2.通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢,無法準(zhǔn)確理解用戶的具體需求。3.不同背景、不同領(lǐng)域的用戶的查詢目的不盡相同,而通用搜索引擎返回?zé)o差別的查詢結(jié)果,無法滿足用戶的個性化需求。4.通用爬蟲的運行需要占用大量的網(wǎng)絡(luò)帶寬和計算資源,另外儲存抓取到的網(wǎng)頁信息也需要大量的服務(wù)器資源。中小型企業(yè)、科研機構(gòu)和個人往往無力承擔(dān)相關(guān)花費,并且對于特定用戶而言也沒有必要建立通用數(shù)據(jù)庫。另外,通用爬蟲的運行效率較低,通常需要幾天甚至幾周時間才能完成一次更新。
針對上述不足,主體爬蟲技術(shù)更為適合承擔(dān)少數(shù)民族網(wǎng)絡(luò)文獻(xiàn)的搜集工作。不同于通用爬蟲,聚焦爬蟲不追求廣泛的網(wǎng)頁覆蓋,它專注于抓取和某一主題內(nèi)容相關(guān)的網(wǎng)頁,從而滿足用戶的定制需求。主題爬蟲具有較高的運行效率。此外,由于主題爬蟲的專題性,許多特定的語言處理和語義理解技術(shù)得以應(yīng)用其中,從而進(jìn)一步提高了查詢質(zhì)量。主題爬蟲的程序結(jié)構(gòu)如圖2所示,它與通用爬蟲的主要區(qū)別是在網(wǎng)頁解析模塊之后增加了主題分析模塊。該模塊的功能可細(xì)分為鏈接主題評估和網(wǎng)頁主題辨識,前者用于引導(dǎo)后續(xù)的URL訪問,避免像通用爬蟲那樣陷入大量與主題無關(guān)的網(wǎng)頁,后者用于篩選與主題相關(guān)的網(wǎng)頁內(nèi)容并存入數(shù)據(jù)庫。以下對鏈接主題評估和網(wǎng)頁主題辨識的工作原理做一個概述。首先是鏈接主題評估。相比于通用爬蟲寬泛的訪問策略,主題爬蟲的訪問限于特定的話題,因此鏈接主題評估通常采用同時考慮網(wǎng)頁鏈接結(jié)構(gòu)和文本內(nèi)容的綜合策略,確保待訪問的URL列表與設(shè)定的主題高度相關(guān)。鏈接結(jié)構(gòu)評估是根據(jù)當(dāng)前的網(wǎng)頁來評價對與其有直接或間接鏈接關(guān)系的URL。典型的鏈接結(jié)構(gòu)評估方法有PageRank算法和HITS算法。PageRank算法由谷歌的兩人創(chuàng)始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)提出,其基本思想是假定重要的網(wǎng)頁往往被更多地被其他網(wǎng)頁所引用,即一個被很多網(wǎng)頁的所鏈接的網(wǎng)頁具有較高的重要性。每個網(wǎng)頁的具體PageRank評分可以由數(shù)學(xué)迭代獲得。HITS(Hyperlink-Induced Topic Search)算法由康奈爾大學(xué)的喬恩·克萊因伯格(Jon Kleinberg)提出,該算法以authority屬性和hub屬性和衡量某個網(wǎng)頁的價值,authority值高表示該網(wǎng)頁與某個領(lǐng)域高度相關(guān),hub值高表示該網(wǎng)頁包含了很多指向高authority值的網(wǎng)頁。HITS算法通過迭代計算找到與用戶查詢主題相關(guān)的高Authority值網(wǎng)頁?梢钥吹,PageRank算法不依賴于用戶查詢主題、需要全局信息、計算量較大,更適合于服務(wù)器端采用,HITS算法依賴于用戶查詢主題、只需要網(wǎng)絡(luò)局部信息、計算量較低,更適合用戶端,即本文所開展的少數(shù)民族文學(xué)網(wǎng)絡(luò)文本搜集所采用。
本文采取主題爬蟲技術(shù)對于少數(shù)民族文學(xué)網(wǎng)絡(luò)文本進(jìn)行搜集的示范案例。在微信公眾號平臺中,利用八爪魚數(shù)據(jù)采集器(一款常用爬蟲軟件,支持主題爬蟲模式)進(jìn)行以“壯族小說”為主題的網(wǎng)絡(luò)爬蟲。圖3為爬蟲過程中的軟件界面截圖,爬蟲程序正在循環(huán)搜尋與“壯族小說”相關(guān)的網(wǎng)頁,并自動抓取網(wǎng)頁中的標(biāo)題、作者、公眾號名稱、發(fā)布時間和正文內(nèi)容。其平均采集速度高達(dá)每分鐘13個網(wǎng)頁。四、數(shù)據(jù)庫技術(shù)與少數(shù)民族數(shù)字文化資源的可視化呈現(xiàn)
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 多洛肯;;晚近古代少數(shù)民族文學(xué)研究的新趨向[J];西南民族大學(xué)學(xué)報(人文社科版);2020年02期
2 孫紀(jì)文;;清代“少數(shù)民族文學(xué)”的形成、閱讀與闡釋[J];西南民族大學(xué)學(xué)報(人文社科版);2019年03期
3 盧璽媛;;跨文明研究視域下少數(shù)民族文學(xué)的困境與前景[J];貴州民族研究;2019年01期
4 楊永明;;少數(shù)民族文學(xué)的文化價值建構(gòu)[J];中國民族博覽;2019年05期
5 張永剛;李雨君;;當(dāng)代少數(shù)民族文學(xué)“價值研究”的主要取向[J];曲靖師范學(xué)院學(xué)報;2019年05期
6 李曉偉;;2017年度少數(shù)民族文學(xué)出版盤點[J];中國圖書評論;2018年02期
7 陳平原;;編一冊少數(shù)民族文學(xué)讀本,如何?[J];讀書;2017年08期
8 王莎;;新時代茶文化背景下少數(shù)民族文學(xué)的創(chuàng)新性研究[J];福建茶葉;2018年09期
9 迪麗努爾·阿布都克熱木;;淺析當(dāng)前少數(shù)民族文學(xué)的民族性和現(xiàn)代性[J];中國民族博覽;2016年10期
10 賽娜·伊爾斯拜克;;少數(shù)民族文學(xué)與全球視野——以柯爾克孜族文學(xué)為例[J];新疆藝術(shù)(漢文);2016年05期
相關(guān)博士學(xué)位論文 前10條
1 王志彬;當(dāng)代臺灣少數(shù)民族文學(xué)研究[D];山東師范大學(xué);2011年
2 呂豪爽;文化超越與審美創(chuàng)新[D];山東師范大學(xué);2007年
3 陳祖君;論漢語文學(xué)期刊影響下的中國當(dāng)代少數(shù)民族文學(xué)[D];四川大學(xué);2007年
4 陳玨;鄂溫克文學(xué)的話語轉(zhuǎn)型和建構(gòu)[D];浙江大學(xué);2013年
5 王敏;論新世紀(jì)少數(shù)民族漢語小說的現(xiàn)代性反思[D];中央民族大學(xué);2015年
6 羅四鸰;當(dāng)代少數(shù)民族作家的身份建構(gòu)與小說創(chuàng)作[D];復(fù)旦大學(xué);2011年
7 魏巍;少數(shù)民族視野下的沈從文與老舍比較研究[D];陜西師范大學(xué);2012年
8 吳哈斯塔娜;瑪拉沁夫文學(xué)觀研究[D];中央民族大學(xué);2010年
9 林瑞艷;新時期少數(shù)民族漢語小說與宗教關(guān)系研究[D];福建師范大學(xué);2015年
10 張雪艷;中國當(dāng)代漢族作家的“少數(shù)民族文學(xué)創(chuàng)作”研究[D];陜西師范大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 陳媛;文學(xué)制度與“十七年”時期中國少數(shù)民族文學(xué)創(chuàng)作[D];西南大學(xué);2018年
2 孫阿木;阿庫烏霧《混血時代》意象研究[D];西南民族大學(xué);2018年
3 張超;新時期中國少數(shù)民族文學(xué)作品選集(小說部分)研究[D];湖南大學(xué);2017年
4 魏小惠;晚清至1980年代文學(xué)觀念中“民族性”的話語演變[D];福建師范大學(xué);2017年
5 陳燕;80年代以來內(nèi)蒙古少數(shù)民族文學(xué)中的薩滿教女性觀研究[D];溫州大學(xué);2011年
6 楊凡佳;云南少數(shù)民族文學(xué)的當(dāng)代形態(tài)[D];云南大學(xué);2010年
7 馮超;關(guān)紀(jì)新的少數(shù)民族文學(xué)研究[D];重慶師范大學(xué);2013年
8 李志磊;栗原小荻詩學(xué)思想研究[D];新疆師范大學(xué);2013年
9 李翠香;新時期“中國少數(shù)民族文學(xué)”發(fā)展與文學(xué)思潮演進(jìn)的關(guān)系研究[D];福建師范大學(xué);2011年
10 趙妍;民族性的追尋與訴求[D];廣西民族大學(xué);2007年
本文編號:2874133
本文鏈接:http://sikaile.net/gudaiwenxuelunwen/2874133.html