91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python怎么采集淘寶車厘子數據

發布時間:2021-11-23 11:17:03 來源:億速云 閱讀:186 作者:iii 欄目:大數據

這篇文章主要介紹“Python怎么采集淘寶車厘子數據”,在日常操作中,相信很多人在Python怎么采集淘寶車厘子數據問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Python怎么采集淘寶車厘子數據”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!

數據獲取

本文利用Python采集了淘寶網1585個商家車厘子銷售數據,獲取到車厘子的商品名稱、商品價格、付款人數、店鋪名稱、發貨地址等字段。限于篇幅,爬蟲代碼僅給出主函數:

def main():
    browser.get('https://www.taobao.com/')
    page = search_product(key_word)
    print(page)
    get_data()
    page_num = 70
    while int(page) != page_num:
        print("-" * 100)
        print("正在爬取第{}頁數據".format(page_num + 1))
        browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))
        browser.implicitly_wait(10)
        get_data()
        page_num += 1
    print("數據抓取完成")

if __name__ == '__main__':
    key_word = "車厘子"
    browser = webdriver.Chrome("./chromedriver")
    main()

數據處理

數據讀取并預覽

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1595 entries, 0 to 1674
Data columns (total 5 columns):
 # Column Non-Null Count Dtype
--- ------ -------------- -----
 0   商品名稱 1595 non-null   object
 1   商品價格 1595 non-null   float64
 2   付款人數 1595 non-null   object
 3   店鋪名稱 1595 non-null   object
 4   發貨地址 1585 non-null   object
dtypes: float64(1), object(4)
memory usage: 74.8+ KB

查看數據信息

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1595 entries, 0 to 1674
Data columns (total 5 columns):
 # Column Non-Null Count Dtype
--- ------ -------------- -----
 0   商品名稱 1595 non-null   object
 1   商品價格 1595 non-null   float64
 2   付款人數 1595 non-null   object
 3   店鋪名稱 1595 non-null   object
 4   發貨地址 1585 non-null   object
dtypes: float64(1), object(4)
memory usage: 74.8+ KB

發現數據存在以下幾個問題:

(1)發貨地址有缺失值

(2)付款人數需做提取

(3)發貨地址需做分割

(4)自定義索引并降序

數據清洗

#剔除缺失記錄
df.dropna(axis=0, how='any', inplace=True)

#從發貨地址字段中切分出省份和城市
df["省份"] = df["發貨地址"].str.split(' ',expand=True)[0] #expand=True可以把用分割的內容直接分列
df["城市"] = df["發貨地址"].str.split(' ',expand=True)[1] #提取城市
df["城市"].fillna(df["省份"], inplace=True) #城市字段空值用省份非空值填充

#用正則表達式從付款人數中提取數字
import re
df['數字'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人數']] # 提取數值
df['數字'] = df['數字'].astype('float') # 轉化數值型
df['單位'] = [''.join(re.findall(r'(萬)', i)) for i in df['付款人數']] # 提取單位(萬)
df['單位'] = df['單位'].apply(lambda x:10000 if x=='萬' else 1)
df['付款人數'] = df['數字'] * df['單位'] # 計算付款人數
df.drop(['發貨地址', '數字', '單位'], axis=1, inplace=True) # 刪除多余的列

#按商品價格降序并重置索引
df = df.sort_values(by="商品價格", axis=0, ascending=False) #降序
df = df.reset_index(drop=True) #重置索引

清洗后,數據預覽如下:

Python怎么采集淘寶車厘子數據

到此,關于“Python怎么采集淘寶車厘子數據”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

高淳县| 青河县| 呼玛县| 固安县| 开平市| 美姑县| 佛坪县| 汤原县| 胶南市| 北海市| 修文县| 五莲县| 揭阳市| 即墨市| 兴城市| 准格尔旗| 遂川县| 广水市| 忻州市| 屏东市| 钦州市| 河津市| 连州市| 方城县| 合作市| 灯塔市| 陆良县| 石楼县| 雷州市| 黄平县| 江华| 鄯善县| 孟连| 汾西县| 武川县| 大田县| 宝应县| 尚义县| 富源县| 峨眉山市| 五华县|