您好,登錄后才能下訂單哦!
這篇文章主要講解了“asp.net怎么采集頁面上所有圖像圖片資源”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“asp.net怎么采集頁面上所有圖像圖片資源”吧!
/// <summary> /// 下載指定URL下的所有圖片 /// </summary> public class WebPageImage { /// <summary> /// 獲取網頁中全部圖片 /// </summary> /// <param name="url">網頁地址</param> /// <param name="charSet">網頁編碼,為空自動判斷</param> /// <returns>全部圖片顯示代碼</returns> public string getImages(string url, string charSet) { string s = getHtml(url, charSet); return getPictures(s, url); } /// <summary> /// 獲取網頁中全部圖片 /// </summary> /// <param name="url">網址</param> /// <returns>全部圖片代碼</returns> public string getImages(string url) { return getImages(url, ""); } string doman(string url) { Uri u = new Uri(url); return u.Host; } /// <summary> /// 獲取網頁內容 /// </summary> /// <param name="url">網站地址</param> /// <param name="charSet">目標網頁的編碼,如果傳入的是null或者"",那就自動分析網頁的編碼 </param> /// <returns></returns> string getHtml(string url, string charSet) { WebClient myWebClient = new WebClient(); //創建WebClient實例myWebClient // 需要注意的: //有的網頁可能下不下來,有種種原因比如需要cookie,編碼問題等等 //這是就要具體問題具體分析比如在頭部加入cookie // webclient.Headers.Add("Cookie", cookie); //這樣可能需要一些重載方法。根據需要寫就可以了 //獲取或設置用于對向 Internet 資源的請求進行身份驗證的網絡憑據。 myWebClient.Credentials = CredentialCache.DefaultCredentials; //如果服務器要驗證用戶名,密碼 //NetworkCredential mycred = new NetworkCredential(struser, strpassword); //myWebClient.Credentials = mycred; //從資源下載數據并返回字節數組。(加@是因為網址中間有"/"符號) byte[] myDataBuffer = myWebClient.DownloadData(url); string strWebData = Encoding.Default.GetString(myDataBuffer); //獲取網頁字符編碼描述信息 Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline); string webCharSet = charSetMatch.Groups[2].Value.Replace("\"", ""); if (charSet == null || charSet == "") charSet = webCharSet; if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default) strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer); return strWebData; } string getPictures(string data, string url) { MatchCollection ps = Regex.Matches(data, @"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>"); string s = string.Empty; for (int i = 0; i < ps.Count; i++) { pictures p = new pictures(ps[i].Value, url); s += p.GetHtml + "<br />" + Environment.NewLine; } return s; } /// <summary> /// 圖片實體 /// 圖片文件屬性處理類 /// </summary> public class pictures { public pictures(string strHtml, string baseUrl) { _html = strHtml; Uri u1 = new Uri(baseUrl); _doman = u1.Host; _baseUrl = u1.Scheme + "://" + _doman; setSrc(); } private string _html = string.Empty; private string _baseUrl = string.Empty; private string _doman = string.Empty; public string GetHtml { get { return _html; } } public string Alt { get { return GetAttribute("alt")[0]; } } public string Src { get { string s = GetAttribute("src")[0]; return s; } } /// <summary> /// 根據基路徑把相對路徑轉換成絕對徑 /// </summary> /// <param name="baseUrl">基礎路徑</param> /// <param name="u">待轉換的相對路徑</param> /// <returns>絕對路徑</returns> public string absUrl(string baseUrl, string u) { Uri ub = new Uri(baseUrl); Uri ua = new Uri(ub, u); return ua.AbsoluteUri; } private void setSrc() { string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?"; string src = GetAttribute("src")[0].ToLower(); if (!(src.IndexOf("http://") == 0 || src.IndexOf("https://") == 0) && _baseUrl.Length > 10) { src = absUrl(_baseUrl, src); string s = "src=\"" + src + "\""; _html = Regex.Replace(_html, strPattern, s); } } /// <summary> /// 獲取HTML代碼中標簽屬性 /// </summary> /// <param name="strHtml">HTML代碼</param> /// <param name="strAttributeName">屬性名稱</param> /// <returns>屬性值集合</returns> private string[] GetAttribute(string strAttributeName) { List<string> lstAttribute = new List<string>(); string strPattern = string.Format( @"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?", strAttributeName ); MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase); foreach (Match m in matchs) { lstAttribute.Add(m.Value.Split('=')[1].Replace("\"", "").Replace("'", "")); } if (lstAttribute.Count == 0) lstAttribute.Add(""); return lstAttribute.ToArray(); } } }
調用:
new WebPageImage().getImages(http://www.sina.com)
感謝各位的閱讀,以上就是“asp.net怎么采集頁面上所有圖像圖片資源”的內容了,經過本文的學習后,相信大家對asp.net怎么采集頁面上所有圖像圖片資源這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。