如何用R語言XML包獲得html文件中的表格

發布時間：2021-07-10 14:35:19 來源：億速云閱讀：244 作者：chen 欄目：大數據

本篇內容主要講解“如何用R語言XML包獲得html文件中的表格”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“如何用R語言XML包獲得html文件中的表格”吧!

需求

使用snpEff軟件對vcf格式文件進行注釋后會生成一個snpEff_summary.html;這個文件是對vcf格式文件中的內容進行的統計，結果會以表格和圖片的形式在html文件里展示。我現在想把html中的數據提取出來，自己來做圖。

參考文章

https://stackoverflow.com/questions/14517732/how-to-get-table-data-from-html-table-in-xml
How to get table data from html table in xml

使用R語言的 XML包

使用到的R語言代碼

library(XML)
doc<-htmlParse("snpEff_summary.html")
total_table<-getNodeSet(doc,"//table")
# 以上代碼是固定的寫法
# 下面的代碼想獲得第幾個表格，中括號中的數字就改成幾
df3<-readHTMLTable(total_table[[3]])
df3
class(df3)

結果以數據框的形式存儲

以上功能使用python的BeautifulSoup模塊應該也可以實現，如果有時間回頭看一下自己之前寫的利用python的BeautifulSoup模塊抓取火箭當家球星哈登數據的那篇筆記，爭取利用python的BeautifulSoup模塊也來實現一下本文提到的這個需求。
另外vcftools工具只保留vcf文件中的二等位基因

vcftools --vcf input.vcf --min-alleles 2 --max-alleles 2 --recode --recode-INFO-all --out output_vcf_prefix

vcftools的幫助文檔

--min-alleles <integer> --max-alleles <integer> Include only sites with a number of alleles greater than or equal to the "--min-alleles" value and less than or equal to the "--max-alleles" value. One of these options may be used without the other. For example, to include only bi-allelic sites, one could use: vcftools --vcf file1.vcf --min-alleles 2 --max-alleles 2

到此，相信大家對“如何用R語言XML包獲得html文件中的表格”有了更深的了解，不妨來實際操作一番吧！這里是億速云網站，更多相關內容可以進入相關頻道進行查詢，關注我們，繼續學習！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何用R語言XML包獲得html文件中的表格

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何用R語言XML包獲得html文件中的表格

猜你喜歡

最新資訊

相關推薦

相關標簽