91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python爬蟲時怎么使用R連續抓取多個頁面

發布時間:2021-08-14 15:53:07 來源:億速云 閱讀:720 作者:小新 欄目:編程語言

這篇文章將為大家詳細講解有關python爬蟲時怎么使用R連續抓取多個頁面,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

當抓取多頁的html數據,但容易被困在通用方法部分的功能上,而導致無法實現連續抓取多個頁面。這個時候可以仔細觀察代碼當轉到網頁收集信息,將其添加到數據框,然后移至下一頁就可以解決了。

示例:

多網頁抓取時會出現以下問題。

#attempt
library(purrr)
url_base <-"https://secure.capitalbikeshare.com/profile/trips/QNURCMF2Q6"
map_df(1:70, function(i) {
cat(".")
pg <- read_html(sprintf(url_base, i))   
data.frame( startd=html_text(html_nodes(pg, ".ed-table__col_trip-start-date")), 
endd=html_text(html_nodes(pg,".ed-table__col_trip-end-date")),
duration=html_text(html_nodes(pg, ".ed-table__col_trip-duration"))
)
}) -> table

#attempt 2 (with just one data column)
url_base <-"https://secure.capitalbikeshare.com/profile/trips/QNURCMF2Q6"
map_df(1:70, function(i) {
page %>% html_nodes(".ed-table__item_odd") %>% html_text()
}) -> table

解決方案:

library(rvest)pgsession<-html_session(login)pgform<-html_form(pgsession)[[2]]filled_form<-set_values(pgform, email="*****", password="*****")submit_form(pgsession, filled_form)#pre allocate the final results dataframe.results<-data.frame()  for (i in 1:5){
  url<-"http://stackoverflow.com/users/**********?tab=answers&sort=activity&page="
  url<-paste0(url, i)
  page<-jump_to(pgsession, url)

  #collect question votes and question title
  summary<-html_nodes(page, "div .answer-summary")
  question<-matrix(html_text(html_nodes(summary, "div"), trim=TRUE), ncol=2, byrow = TRUE)

  #find date answered, hyperlink and whether it was accepted
  dateans<-html_node(summary, "span") %>% html_attr("title")
  hyperlink<-html_node(summary, "div a") %>% html_attr("href")
  accepted<-html_node(summary, "div") %>% html_attr("class")

  #create temp results then bind to final results 
  rtemp<-cbind(question, dateans, accepted, hyperlink)
  results<-rbind(results, rtemp)}#Dataframe Clean-upnames(results)<-c("Votes", "Answer", "Date", "Accepted", "HyperLink")results$Votes<-as.integer(as.character(results$Votes))results$Accepted<-ifelse(results$Accepted=="answer-votes default", 0, 1)

以上就是連續抓取多個頁面的使用方法,營銷推廣、爬蟲數據采集、廣告補量等ip問題,可以嘗試下太陽http代理,助力解決多行業ip問題,免費送10000ip試用。

關于“python爬蟲時怎么使用R連續抓取多個頁面”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

宁晋县| 津南区| 高密市| 平远县| 渭南市| 吉林市| 丹凤县| 镇安县| 义马市| 杭锦后旗| 建宁县| 开封县| 苍山县| 江华| 德江县| 舒城县| 大邑县| 尤溪县| 湛江市| 河北省| 曲阜市| 大荔县| 伊金霍洛旗| 温宿县| 德清县| 宜黄县| 天全县| 石家庄市| 临澧县| 达州市| 错那县| 阿图什市| 梅河口市| 鲁山县| 枣庄市| 电白县| 谷城县| 嵊泗县| 黎城县| 玛曲县| 仲巴县|