91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何用R語言XML包獲得html文件中的表格

發布時間:2021-07-10 14:35:19 來源:億速云 閱讀:244 作者:chen 欄目:大數據

本篇內容主要講解“如何用R語言XML包獲得html文件中的表格”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“如何用R語言XML包獲得html文件中的表格”吧!

 需求

使用snpEff軟件對vcf格式文件進行注釋后會生成一個snpEff_summary.html;這個文件是對vcf格式文件中的內容進行的統計,結果會以表格和圖片的形式在html文件里展示。我現在想把html中的數據提取出來,自己來做圖。

 參考文章
  • https://stackoverflow.com/questions/14517732/how-to-get-table-data-from-html-table-in-xml
    How to get table data from html table in xml

 使用R語言的 XML包

使用到的R語言代碼

library(XML)
doc<-htmlParse("snpEff_summary.html")
total_table<-getNodeSet(doc,"//table")

# 以上代碼是固定的寫法
# 下面的代碼想獲得第幾個表格,中括號中的數字就改成幾

df3<-readHTMLTable(total_table[[3]])
df3
class(df3)
 


  • 結果以數據框的形式存儲


 以上功能使用python的BeautifulSoup模塊應該也可以實現,如果有時間回頭看一下自己之前寫的利用python的BeautifulSoup模塊抓取火箭當家球星哈登數據的那篇筆記,爭取利用python的BeautifulSoup模塊也來實現一下本文提到的這個需求。
 另外vcftools工具只保留vcf文件中的二等位基因
vcftools --vcf input.vcf --min-alleles 2 --max-alleles 2 --recode --recode-INFO-all --out output_vcf_prefix
 


  • vcftools的幫助文檔



 --min-alleles <integer>
 --max-alleles <integer>
Include only sites with a number of alleles greater than or equal to the "--min-alleles" value and less than or equal to  the  "--max-alleles" value. One of these options may be used without the other.
For example, to include only bi-allelic sites, one could use:
vcftools --vcf file1.vcf --min-alleles 2 --max-alleles 2




到此,相信大家對“如何用R語言XML包獲得html文件中的表格”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

平安县| 古交市| 沾益县| 淮北市| 关岭| 衡阳市| 南平市| 陇西县| 山丹县| 同德县| 漠河县| 天水市| 衡阳市| 库尔勒市| 阿荣旗| 迁安市| 分宜县| 苍溪县| 灵丘县| 甘德县| 太和县| 琼结县| 元氏县| 泾源县| 盐池县| 出国| 东安县| 汝州市| 阳朔县| 陇川县| 保德县| 济源市| 淮滨县| 梁平县| 富蕴县| 博兴县| 汉源县| 尖扎县| 桃源县| 治多县| 大化|