基于文本挖掘及復(fù)雜網(wǎng)絡(luò)的雜志開(kāi)放度研究
發(fā)布時(shí)間:2020-12-30 05:25
近期,翟天臨學(xué)術(shù)門(mén)事件的發(fā)生,以及部分學(xué)者發(fā)現(xiàn)一些超高產(chǎn)的作者在同一本期刊上發(fā)表了大量的論文,這類(lèi)學(xué)術(shù)事件引發(fā)了社會(huì)的熱議。由此,也提出了一個(gè)問(wèn)題:某一領(lǐng)域的學(xué)術(shù)平臺(tái)開(kāi)放度是怎樣的一個(gè)狀態(tài)呢?其背后存在什么樣的社會(huì)網(wǎng)絡(luò)關(guān)系呢?學(xué)術(shù)雜志是科研成果的一個(gè)重要展現(xiàn)平臺(tái)。本文主要就通過(guò)文本挖掘技術(shù),采集相關(guān)數(shù)據(jù),對(duì)雜志期刊的開(kāi)放度做出探索性研究,對(duì)學(xué)術(shù)雜志潛在的合著網(wǎng)絡(luò)進(jìn)行分析研究。本文以統(tǒng)計(jì)學(xué)領(lǐng)域較權(quán)威的雜志期刊《數(shù)理統(tǒng)計(jì)與管理》及《統(tǒng)計(jì)研究》為研究對(duì)象,通過(guò)Python爬蟲(chóng)技術(shù)收集1999—2018年的數(shù)據(jù)信息,得到機(jī)構(gòu)單位、作者、年份及文章名等信息。通過(guò)復(fù)雜網(wǎng)絡(luò)及簡(jiǎn)單統(tǒng)計(jì)學(xué)方法對(duì)雜志開(kāi)放度做出衡量,主要選取復(fù)雜網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)熵、中心性、網(wǎng)絡(luò)密度等屬性特征對(duì)開(kāi)放度做衡量,并建立新的開(kāi)放度衡量指標(biāo)“新作者”及“新機(jī)構(gòu)單位”,據(jù)此衡量雜志開(kāi)放度,最后通過(guò)UCINET軟件構(gòu)建合著網(wǎng)絡(luò)并做可視化處理。本文主要的研究成果有:(1)統(tǒng)計(jì)學(xué)領(lǐng)域基于作者層面開(kāi)放度整體呈上升趨勢(shì),機(jī)構(gòu)單位層面開(kāi)放度整體呈下降趨勢(shì),《數(shù)理統(tǒng)計(jì)與管理》雜志的作者層面開(kāi)放度整體呈上升趨勢(shì),而《統(tǒng)計(jì)研究》雜志的作者層面開(kāi)放度波動(dòng)較...
【文章來(lái)源】:江西財(cái)經(jīng)大學(xué)江西省
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
爬蟲(chóng)部分代碼在做好準(zhǔn)備工作后,選擇所需要爬取的數(shù)據(jù)信息所在的URL(網(wǎng)頁(yè)地址),
第4章基于復(fù)雜網(wǎng)絡(luò)雜志開(kāi)放度研究---以統(tǒng)計(jì)學(xué)兩本雜志為例21圖4-1爬蟲(chóng)部分代碼在做好準(zhǔn)備工作后,選擇所需要爬取的數(shù)據(jù)信息所在的URL(網(wǎng)頁(yè)地址),把URL列入任務(wù)中,從將要爬取的URL任務(wù)中選擇要所需要提取的URL,并對(duì)DNS(域名系統(tǒng))做出解釋分析,得到電腦主機(jī)的地址,通過(guò)URL將相應(yīng)的網(wǎng)頁(yè)保存下來(lái),并把以上URL排列進(jìn)將要獲取數(shù)據(jù)內(nèi)容的URL任務(wù),由此循環(huán)往復(fù)。對(duì)保存下來(lái)的網(wǎng)頁(yè)做出解釋分析,獲得所需的具體的數(shù)據(jù)信息。具體步驟如下圖4-2所示。圖4-2爬蟲(chóng)流程圖(1)初始化網(wǎng)絡(luò)頁(yè)面,進(jìn)入網(wǎng)頁(yè),獲取URL。要得到待抓取的中國(guó)知網(wǎng)文章的URL,就需要找到一個(gè)“切入點(diǎn)”URL,這個(gè)“切入點(diǎn)”的URL相對(duì)應(yīng)中國(guó)知網(wǎng)中網(wǎng)站上的高級(jí)檢索界面。入口網(wǎng)址是:https://kns.cnki.net/kns/brief/brief.aspx?curpage=1&RecordsPerPage=50&QueryID=10&ID=&turnpage=1&tpagemode=L&dbPrefix=SCDB&Fields=&DisplayMode=listmode&PageName=ASP.brief_result_aspx&isinEn=1&,這個(gè)網(wǎng)址所對(duì)應(yīng)的網(wǎng)頁(yè)是中國(guó)知網(wǎng)的一個(gè)高級(jí)檢索的界面,curpage=1是指數(shù)據(jù)信息的第一頁(yè),curpage=2則
基于文本挖掘及復(fù)雜網(wǎng)絡(luò)的雜志開(kāi)放度研究22是指第二頁(yè),依次下去,每頁(yè)文章篇幅達(dá)到50篇,RecordsPerPage=50也就是代表網(wǎng)頁(yè)的一頁(yè)下面共50篇文章。(2)通過(guò)Python包request請(qǐng)求響應(yīng),查找源網(wǎng)頁(yè)。在數(shù)據(jù)爬取的過(guò)程中為了方便爬取知網(wǎng)數(shù)據(jù),需要從中國(guó)知網(wǎng)網(wǎng)站的源代碼進(jìn)行分析。圖4-3是中國(guó)知網(wǎng)的檢索《統(tǒng)計(jì)研究》的部分網(wǎng)頁(yè)源代碼,里面給出了論文的鏈接地址及相關(guān)作者。圖4-3是其論文鏈接地址對(duì)應(yīng)的部分源代碼,詳細(xì)地給出了論文的題目、附屬機(jī)構(gòu)等信息。圖4-3知網(wǎng)數(shù)據(jù)部分源代碼根據(jù)圖4-3可知,title后面是所需的文章標(biāo)題,連接的是該文章的網(wǎng)址鏈接,接下來(lái)是所需要提取的文章的作者及附屬機(jī)構(gòu)單位等信息,(3)解析網(wǎng)頁(yè)為了準(zhǔn)確提取網(wǎng)頁(yè)中的信息,能夠通過(guò)Python自帶的urllib2庫(kù)和正則表達(dá)式來(lái)解析網(wǎng)頁(yè)。根據(jù)源網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)簽和屬性,利用正則表達(dá)式中find_all()函數(shù)提取論文的標(biāo)題,作者,附屬機(jī)構(gòu)等信息,想要獲取更多的數(shù)據(jù)信息,需要通過(guò)編寫(xiě)代碼抓取更多信息,根據(jù)對(duì)readAll函數(shù)的使用將頁(yè)面中的文件中的子文件進(jìn)行調(diào)用,并且調(diào)用了parseWeb函數(shù),用來(lái)對(duì)各個(gè)源代碼的數(shù)據(jù)信息做出解釋,并且使用了spiderUtil類(lèi)中的save方法,保存數(shù)據(jù)。然后利用Xlwt模塊打開(kāi)Excel工作簿,并將提取出的數(shù)據(jù)信息寫(xiě)入Excel表格中,數(shù)據(jù)就會(huì)保存于.xls的文件中。筆者在對(duì)中國(guó)知網(wǎng)中爬取數(shù)據(jù)時(shí),遇到了一些障礙,當(dāng)通過(guò)re庫(kù)中正則表達(dá)式獲取到的內(nèi)容為參數(shù)錯(cuò)誤或驗(yàn)證碼,就會(huì)結(jié)束爬蟲(chóng),其中每次獲取網(wǎng)頁(yè)內(nèi)容都會(huì)攜帶cookie(儲(chǔ)存在用戶本地終端上的數(shù)據(jù)),一般是利用cookie來(lái)驗(yàn)證訪問(wèn)網(wǎng)頁(yè)的正確性。然后圖4-4是部分代碼。
本文編號(hào):2947073
【文章來(lái)源】:江西財(cái)經(jīng)大學(xué)江西省
【文章頁(yè)數(shù)】:55 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
爬蟲(chóng)部分代碼在做好準(zhǔn)備工作后,選擇所需要爬取的數(shù)據(jù)信息所在的URL(網(wǎng)頁(yè)地址),
第4章基于復(fù)雜網(wǎng)絡(luò)雜志開(kāi)放度研究---以統(tǒng)計(jì)學(xué)兩本雜志為例21圖4-1爬蟲(chóng)部分代碼在做好準(zhǔn)備工作后,選擇所需要爬取的數(shù)據(jù)信息所在的URL(網(wǎng)頁(yè)地址),把URL列入任務(wù)中,從將要爬取的URL任務(wù)中選擇要所需要提取的URL,并對(duì)DNS(域名系統(tǒng))做出解釋分析,得到電腦主機(jī)的地址,通過(guò)URL將相應(yīng)的網(wǎng)頁(yè)保存下來(lái),并把以上URL排列進(jìn)將要獲取數(shù)據(jù)內(nèi)容的URL任務(wù),由此循環(huán)往復(fù)。對(duì)保存下來(lái)的網(wǎng)頁(yè)做出解釋分析,獲得所需的具體的數(shù)據(jù)信息。具體步驟如下圖4-2所示。圖4-2爬蟲(chóng)流程圖(1)初始化網(wǎng)絡(luò)頁(yè)面,進(jìn)入網(wǎng)頁(yè),獲取URL。要得到待抓取的中國(guó)知網(wǎng)文章的URL,就需要找到一個(gè)“切入點(diǎn)”URL,這個(gè)“切入點(diǎn)”的URL相對(duì)應(yīng)中國(guó)知網(wǎng)中網(wǎng)站上的高級(jí)檢索界面。入口網(wǎng)址是:https://kns.cnki.net/kns/brief/brief.aspx?curpage=1&RecordsPerPage=50&QueryID=10&ID=&turnpage=1&tpagemode=L&dbPrefix=SCDB&Fields=&DisplayMode=listmode&PageName=ASP.brief_result_aspx&isinEn=1&,這個(gè)網(wǎng)址所對(duì)應(yīng)的網(wǎng)頁(yè)是中國(guó)知網(wǎng)的一個(gè)高級(jí)檢索的界面,curpage=1是指數(shù)據(jù)信息的第一頁(yè),curpage=2則
基于文本挖掘及復(fù)雜網(wǎng)絡(luò)的雜志開(kāi)放度研究22是指第二頁(yè),依次下去,每頁(yè)文章篇幅達(dá)到50篇,RecordsPerPage=50也就是代表網(wǎng)頁(yè)的一頁(yè)下面共50篇文章。(2)通過(guò)Python包request請(qǐng)求響應(yīng),查找源網(wǎng)頁(yè)。在數(shù)據(jù)爬取的過(guò)程中為了方便爬取知網(wǎng)數(shù)據(jù),需要從中國(guó)知網(wǎng)網(wǎng)站的源代碼進(jìn)行分析。圖4-3是中國(guó)知網(wǎng)的檢索《統(tǒng)計(jì)研究》的部分網(wǎng)頁(yè)源代碼,里面給出了論文的鏈接地址及相關(guān)作者。圖4-3是其論文鏈接地址對(duì)應(yīng)的部分源代碼,詳細(xì)地給出了論文的題目、附屬機(jī)構(gòu)等信息。圖4-3知網(wǎng)數(shù)據(jù)部分源代碼根據(jù)圖4-3可知,title后面是所需的文章標(biāo)題,連接的是該文章的網(wǎng)址鏈接,接下來(lái)是所需要提取的文章的作者及附屬機(jī)構(gòu)單位等信息,(3)解析網(wǎng)頁(yè)為了準(zhǔn)確提取網(wǎng)頁(yè)中的信息,能夠通過(guò)Python自帶的urllib2庫(kù)和正則表達(dá)式來(lái)解析網(wǎng)頁(yè)。根據(jù)源網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)簽和屬性,利用正則表達(dá)式中find_all()函數(shù)提取論文的標(biāo)題,作者,附屬機(jī)構(gòu)等信息,想要獲取更多的數(shù)據(jù)信息,需要通過(guò)編寫(xiě)代碼抓取更多信息,根據(jù)對(duì)readAll函數(shù)的使用將頁(yè)面中的文件中的子文件進(jìn)行調(diào)用,并且調(diào)用了parseWeb函數(shù),用來(lái)對(duì)各個(gè)源代碼的數(shù)據(jù)信息做出解釋,并且使用了spiderUtil類(lèi)中的save方法,保存數(shù)據(jù)。然后利用Xlwt模塊打開(kāi)Excel工作簿,并將提取出的數(shù)據(jù)信息寫(xiě)入Excel表格中,數(shù)據(jù)就會(huì)保存于.xls的文件中。筆者在對(duì)中國(guó)知網(wǎng)中爬取數(shù)據(jù)時(shí),遇到了一些障礙,當(dāng)通過(guò)re庫(kù)中正則表達(dá)式獲取到的內(nèi)容為參數(shù)錯(cuò)誤或驗(yàn)證碼,就會(huì)結(jié)束爬蟲(chóng),其中每次獲取網(wǎng)頁(yè)內(nèi)容都會(huì)攜帶cookie(儲(chǔ)存在用戶本地終端上的數(shù)據(jù)),一般是利用cookie來(lái)驗(yàn)證訪問(wèn)網(wǎng)頁(yè)的正確性。然后圖4-4是部分代碼。
本文編號(hào):2947073
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/2947073.html
最近更新
教材專著