91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python中JSON秒變Dataframe的示例

發布時間:2020-12-29 14:32:52 來源:億速云 閱讀:317 作者:小新 欄目:編程語言

小編給大家分享一下Python中JSON秒變Dataframe的示例,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

調用API和文檔數據庫會返回嵌套的JSON對象,當我們使用Python嘗試將嵌套結構中的鍵轉換為列時,數據加載到pandas中往往會得到如下結果:

df = pd.DataFrame.from_records(results [“ issues”],columns = [“ key”,“ fields”])
說明:這里results是一個大的字典,issues是results其中的一個鍵,issues的值為一個嵌套JSON對象字典的列表,后面會看到JSON嵌套結構。

問題在于API返回了嵌套的JSON結構,而我們關心的鍵在對象中確處于不同級別。

嵌套的JSON結構張成這樣的。

而我們想要的是下面這樣的。

下面以一個API返回的數據為例,API通常包含有關字段的元數據。假設下面這些是我們想要的字段。

  • key:JSON密鑰,在第一級的位置。

  • summary:第二級的“字段”對象。

  • status name:第三級位置。

  • statusCategory name:位于第4個嵌套級別。

如上,我們選擇要提取的字段在issues列表內的JSON結構中分別處于4個不同的嵌套級別,一環扣一環。

{
  "expand": "schema,names",
  "issues": [
    {
      "fields": {
        "issuetype": {
          "avatarId": 10300,
          "description": "",
          "id": "10005",
          "name": "New Feature",
          "subtask": False
        },
        "status": {
          "description": "A resolution has been taken, and it is awaiting verification by reporter. From here issues are either reopened, or are closed.",
          "id": "5",
          "name": "Resolved",
          "statusCategory": {
            "colorName": "green",
            "id": 3,
            "key": "done",
            "name": "Done",
          }
        },
        "summary": "Recovered data collection Defraglar $MFT problem"
      },
      "id": "11861",
      "key": "CAE-160",
    },
    {
      "fields": { 
... more issues],
  "maxResults": 5,
  "startAt": 0,
  "total": 160
}

一個不太好的解決方案

一種選擇是直接擼碼,寫一個查找特定字段的函數,但問題是必須對每個嵌套字段調用此函數,然后再調用.applyDataFrame中的新列。

為獲取我們想要的幾個字段,首先我們提取fields鍵內的對象至列:

df = (
    df["fields"]
    .apply(pd.Series)
    .merge(df, left_index=True, right_index = True)
)

從上表看出,只有summary是可用的,issuetype、status等仍然埋在嵌套對象中。

下面是提取issuetype中的name的一種方法。

# 提取issue type的name到一個新列叫"issue_type"
df_issue_type = (
    df["issuetype"]
    .apply(pd.Series)
    .rename(columns={"name": "issue_type_name"})["issue_type_name"]
)
df = df.assign(issue_type_name = df_issue_type)

像上面這樣,如果嵌套層級特別多,就需要自己手擼一個遞歸來實現了,因為每層嵌套都需要調用一個像上面解析并添加到新列的方法。

對于編程基礎薄弱的朋友,手擼一個其實還挺麻煩的,尤其是對于數據分析師,著急想用數據的時候,希望可以快速拿到結構化的數據進行分析。

下面東哥分享一個pandas的內置解決方案。

內置的解決方案

pandas中有一個牛逼的內置功能叫 .json_normalize

pandas的文檔中提到:將半結構化JSON數據規范化為平面表。

前面方案的所有代碼,用這個內置功能僅需要3行就可搞定。步驟很簡單,懂了下面幾個用法即可。

確定我們要想的字段,使用 . 符號連接嵌套對象。

將想要處理的嵌套列表(這里是results["issues"])作為參數放進 .json_normalize 中。

過濾我們定義的FIELDS列表。

FIELDS = ["key", "fields.summary", "fields.issuetype.name", "fields.status.name", "fields.status.statusCategory.name"]
df = pd.json_normalize(results["issues"])
df[FIELDS]

沒錯,就這么簡單。

其它操作

記錄路徑

除了像上面那樣傳遞results["issues"]列表之外,我們還使用record_path參數在JSON對象中指定列表的路徑。

# 使用路徑而不是直接用results["issues"]
pd.json_normalize(results, record_path="issues")[FIELDS]

自定義分隔符

還可以使用sep參數自定義嵌套結構連接的分隔符,比如下面將默認的“.”替換“-”。

### 用 "-" 替換默認的 "."
FIELDS = ["key", "fields-summary", "fields-issuetype-name", "fields-status-name", "fields-status-statusCategory-name"]
pd.json_normalize(results["issues"], sep = "-")[FIELDS]

控制遞歸

如果不想遞歸到每個子對象,可以使用max_level參數控制深度。在這種情況下,由于statusCategory.name字段位于JSON對象的第4級,因此不會包含在結果DataFrame中。

# 只深入到嵌套第二級
pd.json_normalize(results, record_path="issues", max_level = 2)

以上是“Python中JSON秒變Dataframe的示例”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

苏尼特右旗| 尉犁县| 平和县| 丁青县| 涿州市| 修水县| 内丘县| 喜德县| 鹤山市| 永丰县| 介休市| 开江县| 永城市| 新疆| 枝江市| 临高县| 云和县| 中宁县| 霍邱县| 建宁县| 增城市| 永川市| 浏阳市| 紫金县| 镇雄县| 塘沽区| 汉中市| 黎城县| 那曲县| 内江市| 抚州市| 柯坪县| 竹山县| 五常市| 筠连县| 桐庐县| 彩票| 衡东县| 石泉县| 营口市| 珠海市|