91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python怎么爬取B站關注列表及數據庫的設計與操作

發布時間:2022-05-19 08:19:31 來源:億速云 閱讀:206 作者:iii 欄目:開發技術

這篇文章主要介紹了python怎么爬取B站關注列表及數據庫的設計與操作的相關知識,內容詳細易懂,操作簡單快捷,具有一定借鑒價值,相信大家閱讀完這篇python怎么爬取B站關注列表及數據庫的設計與操作文章都會有所收獲,下面我們一起來看看吧。

    一、數據庫的設計與操作

    1、數據的分析

    python怎么爬取B站關注列表及數據庫的設計與操作

    B站的關注列表在

    https://api.bilibili.com/x/relation/followings?vmid=UID&pn=1&ps=50&order=desc&order_type=attention

    中,一頁最多50條信息。

    我們大致分析一下信息,

    {
    	"code": 0,
    	"message": "0",
    	"ttl": 1,
    	"data": {
    		"list": [{……

    首先,列表內容存在data:list里。

    其次,對于列表中每一項,有如下信息

    			"mid": 672353429,
    			"attribute": 2,
    			"mtime": 1630510107,
    			"tag": null,
    			"special": 0,
    			"contract_info": {
    				"is_contractor": false,
    				"ts": 0,
    				"is_contract": false,
    				"user_attr": 0
    			},
    			"uname": "貝拉kira",
    			"face": "http://i2.hdslb.com/bfs/face/668af440f8a8065743d3fa79cfa8f017905d0065.jpg",
    			"sign": "元氣滿滿的A-SOUL舞擔參上~目標TOP IDOL,一起加油!",
    			"official_verify": {
    				"type": 0,
    				"desc": "虛擬偶像團體A-SOUL 所屬藝人"
    			},
    			"vip": {
    				"vipType": 2,
    				"vipDueDate": 1674576000000,
    				"dueRemark": "",
    				"accessStatus": 0,
    				"vipStatus": 1,
    				"vipStatusWarn": "",
    				"themeType": 0,
    				"label": {
    					"path": "",
    					"text": "年度大會員",
    					"label_theme": "annual_vip",
    					"text_color": "#FFFFFF",
    					"bg_style": 1,
    					"bg_color": "#FB7299",
    					"border_color": ""
    				},
    				"avatar_subscript": 1,
    				"nickname_color": "#FB7299",
    				"avatar_subscript_url": "http://i0.hdslb.com/bfs/vip/icon_Certification_big_member_22_3x.png"
    			}

    其中,mid為用戶獨一無二的UID,vipType,0是什么都沒開,1是大會員,2是年度大會員,official_verify中,type 0代表官方認證,-1代表沒有官方認證。

    同時我們發現,如果對方鎖了列表,會返回

    {"code":-400,"message":"請求錯誤","ttl":1}

    2、數據庫設計

    基于這些,我們先設計數據庫,包含兩張表,用戶信息的基本屬性表和關注的關系表。

    def createDB():
        link=sqlite3.connect('BiliFollowDB.db')
        print("database open success")
        UserTableDDL='''
                    create table if not exists user(
                    UID int PRIMARY KEY     NOT NULL,
                    NAME varchar            NOT NULL,
                    SIGN varchar            DEFAULT NULL,
                    vipType int             NOT NULL,
                    verifyType int          NOT NULL,
                    verifyDesc varchar      DEFAULT NULL)
                    '''
        RelationTableDDL='''
                    create table if not exists relation(
                    follower int           NOT NULL,
                    following int          NOT NULL,
                    followTime int         NOT NULL,
                    PRIMARY KEY (follower,following),
                    FOREIGN KEY(follower,following) REFERENCES user(UID,UID)
                    )
                    '''
        # create user table
        link.execute(UserTableDDL)
        # create relation table
        link.execute(RelationTableDDL)
        print("database create success")
        link.commit()
        link.close()

    3、數據庫操作

    其次是插入新用戶的列表,我的思路是爬完一個人的關注列表,把一整個list丟給該函數,判斷是否存在新增用戶,存在則把新增用戶傳回,作為下一次爬蟲的起點。

    def insertUser(infos):
        conn=sqlite3.connect('BiliFollowDB.db')
        link=conn.cursor()
        InsertCmd="insert into user (UID,NAME,vipType,verifyType,sign,verifyDesc) values (?,?,?,?,?,?);"
        ExistCmd="select count(UID) from user where UID='%d';"# % UID
        newID=[]
        for info in infos:
            answer=link.execute(ExistCmd%info['uid'])
            for row in answer:
                exist_ID=row[0]
            if exist_ID==0:
                newID.append(info['uid'])
                link.execute(InsertCmd,(info['uid'],info['name'],info['vipType'],info['verifyType'],info['sign'],info['verifyDesc']))
        conn.commit()
        conn.close()
        return newID

    然后是插入關系的函數,這個比較簡單

    def insertFollowing(uid:int,subscribe):
        conn=sqlite3.connect('BiliFollowDB.db')
        link=conn.cursor()
        InsertCmd="insert into relation (follower,following,followTime) values (?,?,?);"
        for follow in subscribe:
            link.execute(InsertCmd,(uid,follow[0],follow[1]))
        conn.commit()
        conn.close()

    二、爬蟲

    通過觀察,我們發現睿叔叔鎖了5頁的關注列表

    python怎么爬取B站關注列表及數據庫的設計與操作

    即使是人工操作也只能訪問5頁,那沒辦法啦,我們就爬5頁吧。

    def getFollowingList(uid:int):
        url="https://api.bilibili.com/x/relation/followings?vmid=%d&pn=%d&ps=50&order=desc&order_type=attention&jsonp=jsonp"# % (UID, Page Number)
        infos=[]
        subscribe=[]
        for i in range(1,6):
            html=requests.get(url%(uid,i))
            if html.status_code!=200:
                print("GET ERROR!")
            text=html.text
            dic=json.loads(text)
            if dic['code']==-400:
                break
            list=dic['data']['list']
            for usr in list:
                info={}
                info['uid']=usr['mid']
                info['name']=usr['uname']
                info['vipType']=usr['vip']['vipType']
                info['verifyType']=usr['official_verify']['type']
                info['sign']=usr['sign']
                if info['verifyType']==-1:
                    info['verifyDesc']='NULL'
                else :
                    info['verifyDesc']=usr['official_verify']['desc']
                subscribe.append((usr['mid'],usr['mtime']))
                infos.append(info)
        newID=insertUser(infos)
        insertFollowing(uid,subscribe)
        return newID

    三、完整代碼

    #by concyclics
    # -*- coding:UTF-8 -*-
    import sqlite3
    import json
    import requests
    def createDB():
        link=sqlite3.connect('BiliFollowDB.db')
        print("database open success")
        UserTableDDL='''
                    create table if not exists user(
                    UID int PRIMARY KEY     NOT NULL,
                    NAME varchar            NOT NULL,
                    SIGN varchar            DEFAULT NULL,
                    vipType int             NOT NULL,
                    verifyType int          NOT NULL,
                    verifyDesc varchar      DEFAULT NULL)
                    '''
        RelationTableDDL='''
                    create table if not exists relation(
                    follower int           NOT NULL,
                    following int          NOT NULL,
                    followTime int         NOT NULL,
                    PRIMARY KEY (follower,following),
                    FOREIGN KEY(follower,following) REFERENCES user(UID,UID)
                    )
                    '''
        # create user table
        link.execute(UserTableDDL)
        # create relation table
        link.execute(RelationTableDDL)
        print("database create success")
        link.commit()
        link.close()
    def insertUser(infos):
        conn=sqlite3.connect('BiliFollowDB.db')
        link=conn.cursor()
        InsertCmd="insert into user (UID,NAME,vipType,verifyType,sign,verifyDesc) values (?,?,?,?,?,?);"
        ExistCmd="select count(UID) from user where UID='%d';"# % UID
        newID=[]
        for info in infos:
            answer=link.execute(ExistCmd%info['uid'])
            for row in answer:
                exist_ID=row[0]
            if exist_ID==0:
                newID.append(info['uid'])
                link.execute(InsertCmd,(info['uid'],info['name'],info['vipType'],info['verifyType'],info['sign'],info['verifyDesc']))
        conn.commit()
        conn.close()
        return newID
    def insertFollowing(uid:int,subscribe):
        conn=sqlite3.connect('BiliFollowDB.db')
        link=conn.cursor()
        InsertCmd="insert into relation (follower,following,followTime) values (?,?,?);"
        for follow in subscribe:
            try:
                link.execute(InsertCmd,(uid,follow[0],follow[1]))
            except:
                print((uid,follow[0],follow[1]))
        conn.commit()
        conn.close()
    def getFollowingList(uid:int):
        url="https://api.bilibili.com/x/relation/followings?vmid=%d&pn=%d&ps=50&order=desc&order_type=attention&jsonp=jsonp"# % (UID, Page Number)
        infos=[]
        subscribe=[]
        for i in range(1,6):
            html=requests.get(url%(uid,i))
            if html.status_code!=200:
                print("GET ERROR!")
                return []
            text=html.text
            dic=json.loads(text)
            if dic['code']==-400:
                return []
            try:
                list=dic['data']['list']
            except:
                return []
            for usr in list:
                info={}
                info['uid']=usr['mid']
                info['name']=usr['uname']
                info['vipType']=usr['vip']['vipType']
                info['verifyType']=usr['official_verify']['type']
                info['sign']=usr['sign']
                if info['verifyType']==-1:
                    info['verifyDesc']='NULL'
                else :
                    info['verifyDesc']=usr['official_verify']['desc']
                subscribe.append((usr['mid'],usr['mtime']))
                infos.append(info)
        newID=insertUser(infos)
        insertFollowing(uid,subscribe)
        return newID
    def getFollowingUid(uid:int):
        url="https://api.bilibili.com/x/relation/followings?vmid=%d&pn=%d&ps=50&order=desc&order_type=attention&jsonp=jsonp"# % (UID, Page Number)
        for i in range(1,6):
            html=requests.get(url%(uid,i))
            if html.status_code!=200:
                print("GET ERROR!")
                return []
            text=html.text
            dic=json.loads(text)
            if dic['code']==-400:
                return []
            try:
                list=dic['data']['list']
            except:
                return []
            IDs=[]
            for usr in list:
                IDs.append(usr['mid'])
            return IDs
    def work(root):
        IDlist=root
        tmplist=[]
        while len(IDlist)!=0:
            tmplist=[]
            for ID in IDlist:
                print(ID)
                tmplist+=getFollowingList(ID)
            IDlist=tmplist
    def rework():
        conn=sqlite3.connect('BiliFollowDB.db')
        link=conn.cursor()
        SelectCmd="select uid from user;"
        answer=link.execute(SelectCmd)
        IDs=[]
        for row in answer:
            IDs.append(row[0])
        conn.commit()
        conn.close()
        newID=[]
        print(IDs)
        for ID in IDs:
            ids=getFollowingUid(ID)
            for id in ids:
                if id not in IDs:
                    newID.append(id)
        return newID
    if __name__=="__main__":
        createDB()
        #work([**put root UID here**,])

    關于“python怎么爬取B站關注列表及數據庫的設計與操作”這篇文章的內容就介紹到這里,感謝各位的閱讀!相信大家對“python怎么爬取B站關注列表及數據庫的設計與操作”知識都有一定的了解,大家如果還想學習更多知識,歡迎關注億速云行業資訊頻道。

    向AI問一下細節

    免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

    AI

    黄浦区| 松江区| 云林县| 永清县| 安庆市| 甘南县| 星座| 德钦县| 荣昌县| 天津市| 周口市| 同德县| 突泉县| 郧西县| 灵山县| 吴忠市| 高雄市| 白山市| 扬州市| 来安县| 莱西市| 方正县| 卢龙县| 麻阳| 洛川县| 衡山县| 四子王旗| 米林县| 新津县| 余姚市| 澄江县| 百色市| 漠河县| 信宜市| 阜新| 郴州市| 吉木萨尔县| 云梦县| 耿马| 高青县| 双峰县|