91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么用python爬取世界大學排行數據

發布時間:2022-05-19 15:17:20 來源:億速云 閱讀:200 作者:iii 欄目:大數據

今天小編給大家分享一下怎么用python爬取世界大學排行數據的相關知識點,內容詳細,邏輯清晰,相信大部分人都還太了解這方面的知識,所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。

數據獲取

我們這里選取的就是上海交通大學的 ARWU 網站

該網站包含了歷年的大學分數以及排名情況。

通過分析頁面可以發現,通過 pandas 的 read_html 函數來獲取相關信息是最為方便的

table = pd.read_html(url)
college = table[0]
 

同時我們還發現,大學所對應的國家數據是圖片,所以需要特殊處理下

def get_country_name(html):
    soup = BeautifulSoup(html,'lxml')
    countries = soup.select('td > a > img')
    lst = []
    for i in countries:
        src = i['src']
        pattern = re.compile('flag.*/(.*?).png')
        country = re.findall(pattern,src)[0]
        lst.append(country)
    return lst
 

最后我們把得到的數據進行下處理,去除掉不需要的字段,再增加年份字段等

for i in range(2005, 2020):
    print('year', i)
    url = 'http://www.shanghairanking.com/ARWU%s.html' % i
    html = requests.get(url).content
    table = pd.read_html(url)
    college = table[0]
    college.columns = ['world rank','university', 2,3, 'score', 5]
    college.drop([2,3,5],axis = 1,inplace = True)
    college['year'] = i
    college['index_rank'] = college.index
    college['index_rank'] = college['index_rank'].astype(int) + 1
    college['country'] = get_country(html)
    college.to_csv(r'College.csv', mode='a', encoding='utf_8_sig', header=True, index=0)

這樣,我們就得到了 College.csv 文件

怎么用python爬取世界大學排行數據  


以上就是“怎么用python爬取世界大學排行數據”這篇文章的所有內容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會為大家更新不同的知識,如果還想學習更多的知識,請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

永顺县| 桦川县| 沅江市| 炉霍县| 达孜县| 瓮安县| 贺州市| 大同县| 广西| 博罗县| 临江市| 美姑县| 阳泉市| 桐梓县| 无为县| 剑河县| 台湾省| 临朐县| 花莲市| 常熟市| 丰城市| 湖北省| 乐业县| 大渡口区| 滨海县| 封丘县| 贺州市| 德昌县| 吴川市| 遂川县| 清水河县| 新建县| 阳泉市| 米林县| 芜湖县| 庆安县| 墨竹工卡县| 濉溪县| 哈巴河县| 波密县| 牙克石市|