基于文本挖掘及復(fù)雜網(wǎng)絡(luò)的雜志開放度研究
發(fā)布時間:2020-12-30 05:25
近期,翟天臨學(xué)術(shù)門事件的發(fā)生,以及部分學(xué)者發(fā)現(xiàn)一些超高產(chǎn)的作者在同一本期刊上發(fā)表了大量的論文,這類學(xué)術(shù)事件引發(fā)了社會的熱議。由此,也提出了一個問題:某一領(lǐng)域的學(xué)術(shù)平臺開放度是怎樣的一個狀態(tài)呢?其背后存在什么樣的社會網(wǎng)絡(luò)關(guān)系呢?學(xué)術(shù)雜志是科研成果的一個重要展現(xiàn)平臺。本文主要就通過文本挖掘技術(shù),采集相關(guān)數(shù)據(jù),對雜志期刊的開放度做出探索性研究,對學(xué)術(shù)雜志潛在的合著網(wǎng)絡(luò)進(jìn)行分析研究。本文以統(tǒng)計學(xué)領(lǐng)域較權(quán)威的雜志期刊《數(shù)理統(tǒng)計與管理》及《統(tǒng)計研究》為研究對象,通過Python爬蟲技術(shù)收集1999—2018年的數(shù)據(jù)信息,得到機構(gòu)單位、作者、年份及文章名等信息。通過復(fù)雜網(wǎng)絡(luò)及簡單統(tǒng)計學(xué)方法對雜志開放度做出衡量,主要選取復(fù)雜網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)熵、中心性、網(wǎng)絡(luò)密度等屬性特征對開放度做衡量,并建立新的開放度衡量指標(biāo)“新作者”及“新機構(gòu)單位”,據(jù)此衡量雜志開放度,最后通過UCINET軟件構(gòu)建合著網(wǎng)絡(luò)并做可視化處理。本文主要的研究成果有:(1)統(tǒng)計學(xué)領(lǐng)域基于作者層面開放度整體呈上升趨勢,機構(gòu)單位層面開放度整體呈下降趨勢,《數(shù)理統(tǒng)計與管理》雜志的作者層面開放度整體呈上升趨勢,而《統(tǒng)計研究》雜志的作者層面開放度波動較...
【文章來源】:江西財經(jīng)大學(xué)江西省
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
爬蟲部分代碼在做好準(zhǔn)備工作后,選擇所需要爬取的數(shù)據(jù)信息所在的URL(網(wǎng)頁地址),
第4章基于復(fù)雜網(wǎng)絡(luò)雜志開放度研究---以統(tǒng)計學(xué)兩本雜志為例21圖4-1爬蟲部分代碼在做好準(zhǔn)備工作后,選擇所需要爬取的數(shù)據(jù)信息所在的URL(網(wǎng)頁地址),把URL列入任務(wù)中,從將要爬取的URL任務(wù)中選擇要所需要提取的URL,并對DNS(域名系統(tǒng))做出解釋分析,得到電腦主機的地址,通過URL將相應(yīng)的網(wǎng)頁保存下來,并把以上URL排列進(jìn)將要獲取數(shù)據(jù)內(nèi)容的URL任務(wù),由此循環(huán)往復(fù)。對保存下來的網(wǎng)頁做出解釋分析,獲得所需的具體的數(shù)據(jù)信息。具體步驟如下圖4-2所示。圖4-2爬蟲流程圖(1)初始化網(wǎng)絡(luò)頁面,進(jìn)入網(wǎng)頁,獲取URL。要得到待抓取的中國知網(wǎng)文章的URL,就需要找到一個“切入點”URL,這個“切入點”的URL相對應(yīng)中國知網(wǎng)中網(wǎng)站上的高級檢索界面。入口網(wǎng)址是:https://kns.cnki.net/kns/brief/brief.aspx?curpage=1&RecordsPerPage=50&QueryID=10&ID=&turnpage=1&tpagemode=L&dbPrefix=SCDB&Fields=&DisplayMode=listmode&PageName=ASP.brief_result_aspx&isinEn=1&,這個網(wǎng)址所對應(yīng)的網(wǎng)頁是中國知網(wǎng)的一個高級檢索的界面,curpage=1是指數(shù)據(jù)信息的第一頁,curpage=2則
基于文本挖掘及復(fù)雜網(wǎng)絡(luò)的雜志開放度研究22是指第二頁,依次下去,每頁文章篇幅達(dá)到50篇,RecordsPerPage=50也就是代表網(wǎng)頁的一頁下面共50篇文章。(2)通過Python包request請求響應(yīng),查找源網(wǎng)頁。在數(shù)據(jù)爬取的過程中為了方便爬取知網(wǎng)數(shù)據(jù),需要從中國知網(wǎng)網(wǎng)站的源代碼進(jìn)行分析。圖4-3是中國知網(wǎng)的檢索《統(tǒng)計研究》的部分網(wǎng)頁源代碼,里面給出了論文的鏈接地址及相關(guān)作者。圖4-3是其論文鏈接地址對應(yīng)的部分源代碼,詳細(xì)地給出了論文的題目、附屬機構(gòu)等信息。圖4-3知網(wǎng)數(shù)據(jù)部分源代碼根據(jù)圖4-3可知,title后面是所需的文章標(biāo)題,連接的是該文章的網(wǎng)址鏈接,接下來是所需要提取的文章的作者及附屬機構(gòu)單位等信息,(3)解析網(wǎng)頁為了準(zhǔn)確提取網(wǎng)頁中的信息,能夠通過Python自帶的urllib2庫和正則表達(dá)式來解析網(wǎng)頁。根據(jù)源網(wǎng)頁的網(wǎng)頁標(biāo)簽和屬性,利用正則表達(dá)式中find_all()函數(shù)提取論文的標(biāo)題,作者,附屬機構(gòu)等信息,想要獲取更多的數(shù)據(jù)信息,需要通過編寫代碼抓取更多信息,根據(jù)對readAll函數(shù)的使用將頁面中的文件中的子文件進(jìn)行調(diào)用,并且調(diào)用了parseWeb函數(shù),用來對各個源代碼的數(shù)據(jù)信息做出解釋,并且使用了spiderUtil類中的save方法,保存數(shù)據(jù)。然后利用Xlwt模塊打開Excel工作簿,并將提取出的數(shù)據(jù)信息寫入Excel表格中,數(shù)據(jù)就會保存于.xls的文件中。筆者在對中國知網(wǎng)中爬取數(shù)據(jù)時,遇到了一些障礙,當(dāng)通過re庫中正則表達(dá)式獲取到的內(nèi)容為參數(shù)錯誤或驗證碼,就會結(jié)束爬蟲,其中每次獲取網(wǎng)頁內(nèi)容都會攜帶cookie(儲存在用戶本地終端上的數(shù)據(jù)),一般是利用cookie來驗證訪問網(wǎng)頁的正確性。然后圖4-4是部分代碼。
本文編號:2947073
【文章來源】:江西財經(jīng)大學(xué)江西省
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
爬蟲部分代碼在做好準(zhǔn)備工作后,選擇所需要爬取的數(shù)據(jù)信息所在的URL(網(wǎng)頁地址),
第4章基于復(fù)雜網(wǎng)絡(luò)雜志開放度研究---以統(tǒng)計學(xué)兩本雜志為例21圖4-1爬蟲部分代碼在做好準(zhǔn)備工作后,選擇所需要爬取的數(shù)據(jù)信息所在的URL(網(wǎng)頁地址),把URL列入任務(wù)中,從將要爬取的URL任務(wù)中選擇要所需要提取的URL,并對DNS(域名系統(tǒng))做出解釋分析,得到電腦主機的地址,通過URL將相應(yīng)的網(wǎng)頁保存下來,并把以上URL排列進(jìn)將要獲取數(shù)據(jù)內(nèi)容的URL任務(wù),由此循環(huán)往復(fù)。對保存下來的網(wǎng)頁做出解釋分析,獲得所需的具體的數(shù)據(jù)信息。具體步驟如下圖4-2所示。圖4-2爬蟲流程圖(1)初始化網(wǎng)絡(luò)頁面,進(jìn)入網(wǎng)頁,獲取URL。要得到待抓取的中國知網(wǎng)文章的URL,就需要找到一個“切入點”URL,這個“切入點”的URL相對應(yīng)中國知網(wǎng)中網(wǎng)站上的高級檢索界面。入口網(wǎng)址是:https://kns.cnki.net/kns/brief/brief.aspx?curpage=1&RecordsPerPage=50&QueryID=10&ID=&turnpage=1&tpagemode=L&dbPrefix=SCDB&Fields=&DisplayMode=listmode&PageName=ASP.brief_result_aspx&isinEn=1&,這個網(wǎng)址所對應(yīng)的網(wǎng)頁是中國知網(wǎng)的一個高級檢索的界面,curpage=1是指數(shù)據(jù)信息的第一頁,curpage=2則
基于文本挖掘及復(fù)雜網(wǎng)絡(luò)的雜志開放度研究22是指第二頁,依次下去,每頁文章篇幅達(dá)到50篇,RecordsPerPage=50也就是代表網(wǎng)頁的一頁下面共50篇文章。(2)通過Python包request請求響應(yīng),查找源網(wǎng)頁。在數(shù)據(jù)爬取的過程中為了方便爬取知網(wǎng)數(shù)據(jù),需要從中國知網(wǎng)網(wǎng)站的源代碼進(jìn)行分析。圖4-3是中國知網(wǎng)的檢索《統(tǒng)計研究》的部分網(wǎng)頁源代碼,里面給出了論文的鏈接地址及相關(guān)作者。圖4-3是其論文鏈接地址對應(yīng)的部分源代碼,詳細(xì)地給出了論文的題目、附屬機構(gòu)等信息。圖4-3知網(wǎng)數(shù)據(jù)部分源代碼根據(jù)圖4-3可知,title后面是所需的文章標(biāo)題,連接的是該文章的網(wǎng)址鏈接,接下來是所需要提取的文章的作者及附屬機構(gòu)單位等信息,(3)解析網(wǎng)頁為了準(zhǔn)確提取網(wǎng)頁中的信息,能夠通過Python自帶的urllib2庫和正則表達(dá)式來解析網(wǎng)頁。根據(jù)源網(wǎng)頁的網(wǎng)頁標(biāo)簽和屬性,利用正則表達(dá)式中find_all()函數(shù)提取論文的標(biāo)題,作者,附屬機構(gòu)等信息,想要獲取更多的數(shù)據(jù)信息,需要通過編寫代碼抓取更多信息,根據(jù)對readAll函數(shù)的使用將頁面中的文件中的子文件進(jìn)行調(diào)用,并且調(diào)用了parseWeb函數(shù),用來對各個源代碼的數(shù)據(jù)信息做出解釋,并且使用了spiderUtil類中的save方法,保存數(shù)據(jù)。然后利用Xlwt模塊打開Excel工作簿,并將提取出的數(shù)據(jù)信息寫入Excel表格中,數(shù)據(jù)就會保存于.xls的文件中。筆者在對中國知網(wǎng)中爬取數(shù)據(jù)時,遇到了一些障礙,當(dāng)通過re庫中正則表達(dá)式獲取到的內(nèi)容為參數(shù)錯誤或驗證碼,就會結(jié)束爬蟲,其中每次獲取網(wǎng)頁內(nèi)容都會攜帶cookie(儲存在用戶本地終端上的數(shù)據(jù)),一般是利用cookie來驗證訪問網(wǎng)頁的正確性。然后圖4-4是部分代碼。
本文編號:2947073
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/2947073.html
最近更新
教材專著