使用PHP怎么采集抓取淘寶網的單個商品信息

發布時間：2021-02-03 18:26:10 來源：億速云閱讀：230 作者：Leah 欄目：開發技術

使用PHP怎么采集抓取淘寶網的單個商品信息？針對這個問題，這篇文章詳細介紹了相對應的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

思路：

file_get_contents(url) 該函數根據 url 如 http://www.baidu.com 將該網頁內容（源碼）以字符串形式輸出（一個整字符串），然后配合preg_match，preg_replace等這些正則表達式操作就可以實現獲取該url特定div，img等信息了。當然前題是淘寶在單個商品頁面的結構是固定的，如500圖的img中id就是J_ImgBooth！

具體實現方法：（獲取500圖，名稱，價格，屬性及商品描述）

復制代碼代碼如下:

$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //將url地址上頁面內容保存進$text

A.獲取500圖：

復制代碼代碼如下:

preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//運用正則抓取img標簽中id為J_ImgBooth的img，$img[0]為該500圖img標簽，$img[1]為500圖的圖片地址；

B. 獲取名稱：

復制代碼代碼如下:

preg_match('/<title>([^<>]*)<\/title>/', $text, $title);
//因為正文中的商品名稱標簽沒有特殊class或id正則不好抓取，就抓<title>標簽中的內容了，一般來說title中內容就是商品名稱了（實際有些出入），$title[0]整個title標簽 $title[1]標簽中內容；
$title=iconv('GBK','UTF-8',$title);
//如果你的網站是utf8編碼，那么需要進行一下轉碼（淘寶是gbk編碼）

C.獲取價格：

復制代碼代碼如下:

preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);
//同理獲取id為J_StrPrice的標簽內容$price[2], $price[0]是整個標簽， $price[1]為strong標簽名；
$price=floatval($price);//放入數據庫估計還有轉一下變量類型

D.獲取屬性：

這之前獲取的內容都是在單標簽中相對只需一個正則就可搞定，然而如果要獲取如

復制代碼代碼如下:

…

<div id=”xxx”>

…

<ul>

…

</ul>

<div>…

<div>…

</div>

</div>

</div>

…

這樣特定div中有未知n個<>標簽，獲取該特定div將會非常的困難，搜了下網上，最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”這樣使用遞歸抓取標簽對，但是他不能抓特定標簽，所以想要輕松抓取class=”attributes”的div我是沒法辦到了。但是淘寶網頁有其特殊性，就是它的各個標簽結構基本是固定的…<div>…</div>標簽后面不是</div><div id=”description”>就是</div><div>，所以我們可以采用變通法達到獲取屬性標簽內容的目的。

復制代碼代碼如下:

preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);
//這個正則會抓取<div開始到整個頁面最后一個</div>標簽，當然我們屬性標簽就在這個的前面部分。

$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);
//匹配到</div ><div id=”description”>至最后</div>然后用””代替（就是把匹配的刪除了），所以如果attributes的div后面緊跟的是description那么我們已經達到目的了。

$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);
//如果attributes后面緊跟box J_Tbox標簽，那么我們還需要使用以上這步來剔除box J_Tbox標簽，當然如果attributes的div后面緊跟的是description，這一步將不會匹配到任何即什么都不會做。

E.獲取描述：

通過上面方法你肯定覺得淘寶頁面上任何標簽都可以很簡單獲取了吧（我之前也是這么想的），但是使用這個方法獲取描述時得到的內容將會是“描述加載中”，是的，這個描述內容不是在源碼中的，它是打開頁面加載進一大堆js后，不知道從淘寶的哪個角落中加載進來的。

好吧，那么我們也可以模仿它放一些js進去。不知道哪些對加載描述有用？沒事，全加載進來肯定沒錯。不知道需要放那些特定div上去有作用？抓一個源碼，刪掉一些div一步步試試看，你會發現“<div id=”detail”> </div>

復制代碼代碼如下:

<div id="description">

<div id="J_DivItemDesc">描述加載中</div>

</div>

這幾個div是加載描述所必須的，那么下面就是寫代碼了：

復制代碼代碼如下:

preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//頁面js腳本
$content=$content[0];
$description='<div id="detail"> </div>
  <div id="description">
   <div id="J_DivItemDesc">描述加載中</div>
  </div>';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};

關于使用PHP怎么采集抓取淘寶網的單個商品信息問題的解答就分享到這里了，希望以上內容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

使用PHP怎么采集抓取淘寶網的單個商品信息

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

使用PHP怎么采集抓取淘寶網的單個商品信息

猜你喜歡

最新資訊

相關推薦

相關標簽