91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python如何實現轉換URL詳解

發布時間:2020-09-11 12:49:12 來源:腳本之家 閱讀:249 作者:yaominghui 欄目:開發技術

設計一個算法,將URL轉換成5部分,分別是:schema、netloc、path、query_params、fragment。

問題

URL的中文名叫統一資源定位符,就是咱們常說的網址,設計一個算法,將URL轉換成5部分,分別是:schema、netloc、path、query_params、fragment。

<scheme>://<netloc>/<path>?<query_params>#<fragment>

一圖勝千言:

Python如何實現轉換URL詳解

應用場景

在實際應用場景中,有些聚合網站會把URL里面netloc提取出來。

Python如何實現轉換URL詳解

分析

這里沒有什么特別復雜的算法,因為每部分都有一個特別的字符,所以,如果你熟練Python的字符串操作和正則表達式使用的話那么就很簡單。

知識點

字符串的常用方法split、find、join、lower、切片的使用,re模塊下面的常用方法。另外還有關于如何使用 namedtuple 定義一個簡單類的操作

實現

第一種方式使用字符串提供的方法,就是根據關鍵字符進行切分。整體思路是利用字符串的切片功能不斷進行切分,代碼稍顯復雜。

URL = namedtuple("URL", ["schema", "netloc", "path", "params", "fragment"])
def url_parse1(url):
assert url.startswith("http")
# 初始化每部分為空
schema = netloc = params = fragment = path = None
# 從 :// 切分 url,前面部分是shema
i = url.find('://')
if i > 0:
schema = url[:i]
url = url[i + 3:]
# 獲取netloc
for c in "/?#": # 三個分隔符的順利很重要
a = url.find(c)
if a > 0: # 只要有三個字符中的任意字符,立即切分,前部分就是netloc,剩下的部分進行后續處理
netloc, url = url[0:a], url[a:]
break
else:
netloc, url = url, '' # 如果三個分隔符都不在url中,那么這是一個只包含
# 同樣的方式獲取path
for c in "?#":
a = url.find(c)
if a > 0:
path, url = url[0:a], url[a:]
break
else:
path, url = url or None, ''
if "#" in url:
url, fragment = url.split("#", 1)
if '?' in url:
url, params = url.split('?', 1)
return URL(schema=schema, netloc=netloc, path=path, params=_params_parse(params), fragment=fragment)
def _params_parse(params):
if not params:
return None
pairs = [s for s in params.split('&')]
param_dict = dict()
for pair in pairs:
k, v = pair.split('=', 1)
param_dict[k] = v
return param_dict

第二種方式就是用正則表達式,主要考驗你寫正則的能力

def url_parse2(url):
rex = r'^(http[s]?):\/\/([^\/\s]+)([\/\w\-\.]+[^#?\s]*)?(\?([^#]*))?(#(.*))?$'
schema = netloc = params = fragment = path = ''
pattern = re.compile(rex)
match = pattern.match(url)
if match:
schema = match.group(1)
netloc = match.group(2)
path = match.group(3)
params = match.group(5)
fragment = match.group(7)
return URL(schema=schema, netloc=netloc, path=path, params=_params_parse(params), fragment=fragment)

通過正則表達式的分組功能提取每部分,關于正則表達式推薦兩個資源

在線調試正則表達式

Python中正則表達式介紹, 這是一篇比較完整介紹Python中正則表達式的文章,如果你能讀懂里面的每句話,并且實踐后,你一定能寫出上面這樣的表達式出來。

當然,你也可以直接使用urlparse模塊中現成的方式來實現。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持億速云。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

长沙县| 北碚区| 无棣县| 吉水县| 三亚市| 通辽市| 洛隆县| 辽中县| 蒲江县| 富锦市| 三原县| 厦门市| 万年县| 镇雄县| 扎兰屯市| 嘉定区| 汶上县| 息烽县| 视频| 浮山县| 娱乐| 江北区| 雷山县| 廉江市| 南城县| 卢氏县| 正蓝旗| 古田县| 永济市| 纳雍县| 宁乡县| 丰宁| 攀枝花市| 彰武县| 白水县| 来凤县| 湘西| 兴文县| 军事| 松滋市| 长垣县|