您好,登錄后才能下訂單哦!
這篇文章主要講解了“怎么用Python電商車厘子銷售數據”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“怎么用Python電商車厘子銷售數據”吧!
01 數據獲取
本文利用Python采集了淘寶網1585個商家車厘子銷售數據,獲取到車厘子的商品名稱、商品價格、付款人數、店鋪名稱、發貨地址等字段。限于篇幅,爬蟲代碼僅給出主函數:
def main: browser.get('https://www.taobao.com/') page = search_product(key_word)print(page) get_datapage_num = 70 while int(page) != page_num: print("-" * 100) print("正在爬取第{}頁數據".format(page_num + 1)) browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44)) browser.implicitly_wait(10) get_datapage_num += 1 print("數據抓取完成") if __name__ == '__main__': key_word = "車厘子" browser = webdriver.Chrome("./chromedriver") main
02 數據處理
1.數據讀取并預覽
import pandas as pd import numpy as np df = pd.read_csv('/菜J學Python/淘寶/車厘子.csv',header=None, names=['商品名稱','商品價格','付款人數','店鋪名稱','發貨地址']) #添加字段名稱 df.sample(5)
2.查看數據信息
df.info
<class 'pandas.core.frame.DataFrame'> Int64Index: 1595 entries, 0 to 1674 Data columns (total 5 columns): # Column Non- Count Dtype --- ------ -------------- ----- 0 商品名稱 1595 non- object 1 商品價格 1595 non- float64 2 付款人數 1595 non- object 3 店鋪名稱 1595 non- object 4 發貨地址 1585 non- object dtypes: float64(1), object(4) memory usage: 74.8+ KB
發現數據存在以下幾個問題:
(1)發貨地址有缺失值
(2)付款人數需做提取
(3)發貨地址需做分割
(4)自定義索引并降序
3.數據清洗
#剔除缺失記錄 df.dropna(axis=0, how='any', inplace=True) #從發貨地址字段中切分出省份和城市df["省份"] = df["發貨地址"].str.split(' ',expand=True)[0] #expand=True可以把用分割的內容直接分列 df["城市"] = df["發貨地址"].str.split(' ',expand=True)[1] #提取城市 df["城市"].fillna(df["省份"], inplace=True) #城市字段空值用省份非空值填充 #用正則表達式從付款人數中提取數字import re df['數字'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人數']] # 提取數值 df['數字'] = df['數字'].astype('float') # 轉化數值型 df['單位'] = [''.join(re.findall(r'(萬)', i)) for i in df['付款人數']] # 提取單位(萬) df['單位'] = df['單位'].apply(lambda x:10000 if x=='萬' else 1) df['付款人數'] = df['數字'] * df['單位'] # 計算付款人數 df.drop(['發貨地址', '數字', '單位'], axis=1, inplace=True) # 刪除多余的列 #按商品價格降序并重置索引df = df.sort_values(by="商品價格", axis=0, ascending=False) #降序 df = df.reset_index(drop=True) #重置索引
清洗后,數據預覽如下:
感謝各位的閱讀,以上就是“怎么用Python電商車厘子銷售數據”的內容了,經過本文的學習后,相信大家對怎么用Python電商車厘子銷售數據這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。