91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么用Python對gff3格式進行處理

發布時間:2022-03-02 09:42:15 來源:億速云 閱讀:634 作者:iii 欄目:開發技術

這篇文章主要介紹“怎么用Python對gff3格式進行處理”的相關知識,小編通過實際案例向大家展示操作過程,操作方法簡單快捷,實用性強,希望這篇“怎么用Python對gff3格式進行處理”文章能幫助大家解決問題。

1.平常從下載的植物基因組注釋文件,以gff3格式為例

      從JGI上下載的玉米基因組的注釋文件(gff3格式),第一例通常為基因的定位信息。1則表示位于玉米的1號染色體上,第二例表示注釋的版本信息,第三列通常為gene,mRNA,CDS等信息,同時一個基因可能對應多個mRNA,對生物有些了解的也知道,一個mRNA即是一個轉錄信息, 這個和注釋過后的序列文件也是一一對應的。第四列和第五列分別為基因的第三列信息在染色體上的物理位置。第七列則表示基因位于正鏈上還是負鏈上。第八列是相位信息。第九列則是基因注釋的一些ID信息。而本次數據處理主要是提取第一列、第三列、第四列、第五列和第九列的信息。

2.利用程序處理后的結果

      處理后的格式一共有五列,第一列為基因所在的染色體上,第二列是利用gene的起始位點和終止位點進行排序的邏輯順序而生成的新的ID信息,第三列和第四列就是基因的起始位點和終止位點了。第五列就是從原始的注釋信息第九列提取出來的,必須個序列文件一一對應才行。下面直接上代碼。

3.代碼信息
#!usr/bin/python
import re,io
from operator import itemgetter
input_file = io.open('Zmays_284_Ensembl-18_2010-01-MaizeSequence.gene.gff3','r',encoding='UTF-8')
# 基因的注釋信息,GFF3格式的文件
out_file = open('Zm.newid.gff', 'w', encoding='UTF-8')
# 輸出文件的名字
list_two = []
chr_name = []
de_list = ('#','M','P','s') # 需要修改
for line in input_file:
    if line.startswith(de_list):
        continue
    list_one = line.strip().split()
    if list_one[2] == 'mRNA':
        # gene_id = list_one[8].split(';')[2] # 需要修改
        gene_id = list_one[8]
        gene_id = ''.join(re.findall(r'pacid=(.+?);longest',gene_id)) # 需要修改
		# 獲取gene的id信息
        list_one[0] = re.sub(r'\D',"",list_one[0])
        # list_two.append(gene_na_st_end)
        list_two.append((int(list_one[0]), int(list_one[3]), int(list_one[4]), int(gene_id)))
        chr_name.append(int(list_one[0]))
        # print (gene_id)
    else:
        continue
chr_name = list(set(chr_name))
chr_name.sort()

number = 0
list_thrre = sorted(list_two,key = itemgetter(0,1,2))
next_chr = 0
for i in list_thrre:
    new_i = "\t".join('%s' %id for id in i)
    # print (new_i)
    lp = str(new_i).strip().split()
    # chr_id = re.sub('\[',"",lp[0])
    if str(lp[0])== str(chr_name[next_chr]):
        number = number + 1
    else:
        number = 1
        next_chr = next_chr + 1
    # newid = "Zm"+'%02'%lp[0]+'G'+'%05'%number
    newid = "Zm"+str(lp[0]).zfill(2)+"G"+str(number).zfill(5) # 需要修改 
    print (newid)
    out_file.write('Zm'+str(lp[0])+"\t"+newid+"\t"+str(lp[1])+"\t"+str(lp[2])+"\t"+str(lp[3])+'\n')
input_file.close()
# make by ligaojie from North China University of Technology

關于“怎么用Python對gff3格式進行處理”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識,可以關注億速云行業資訊頻道,小編每天都會為大家更新不同的知識點。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

沂南县| 哈尔滨市| 镇巴县| 科技| 夏河县| 新巴尔虎左旗| 陵水| 瓮安县| 潼关县| 太康县| 芦溪县| 梅河口市| 台中县| 黑水县| 定陶县| 山东| 内乡县| 万山特区| 铁岭市| 奉节县| 兴安盟| 保康县| 玛多县| 准格尔旗| 临安市| 永丰县| 临澧县| 民权县| 福清市| 友谊县| 巴林右旗| 酉阳| 孝感市| 调兵山市| 特克斯县| 呈贡县| 芜湖市| 志丹县| 光山县| 曲沃县| 神农架林区|