泓泰

关于vcf_converter的信息

admin

本文目录一览

生信格式之vcf格式

如下图一般可分为三大类变异

(2) AD :allele depths,表示sample中该位点里不同allele的覆盖度,一般有两个,逗号分隔,分别表示REF(0)、ALT(1)的覆盖度。如果ALT有两种可能,则就有三个值。
(3) DP :表示sample中该位点的总覆盖度,一般为 AD 所有值的和。
(4) GQ :Genotype的质量值,类似第6列的含义,不过这里是针对每个样本的计算。
(5) PL :genotype likelihoods,指定的三种基因型(0/0,0/1,1/1)的质量值(provieds the likelihoods of the given genotypes);这三种基因型的原始概率总和为1,再经过 -log10 转换。值得注意就是该值越大,表明为该种基因型的可能性越小。所以最有可能的genotype的值为0(参考下图)。

参考文档链接
1、基因组变异检测概述 http://www.360doc.com/content/18/1213/11/52645714_801492183.shtml
2、The Variant Call Format (VCF) Version 4.2 Specification https://github.com/samtools/hts-specs
3、VCF格式的学习及对VCF文件的统计 https://www.jianshu.com/p/38f734ae47f5
PS:部分来自网上,侵删~

基于VCF文件做基因渗入分析(Dsuite)

关于vcf_converter的信息-第1张-游戏信息-泓泰

Dsuite软件文章:Malinsky, M., Matschiner, M. and Svardal, H. (2021) Dsuite ‐ fast D‐statistics and related admixture evidence from VCF files. Molecular Ecology Resources 21, 584–595. doi: https://doi.org/10.1111/1755-0998.13265

Dsuite主要包含三个:“Dtrios”,“DtriosCombine”和“Dinvestigate”不同命令。
Dtrios计算所有可能的种群/物种的D(ABBA-BABA)统计和f4统计,主要的参数是-j,用于设定计算窗口的大小范围:

可以用gzip或bgzip压缩,它可以包含多等位基因座和插入/缺失,但仅使用双等位基因SNP。

一个文本文件,每行一个样本,一个制表符将该样本的名字与其所属的物种/种群的名称分开,如下所示:

Dtrios需要将至少一个样本指定为outgroup。
Dquartets对所有物种/种群均一视同仁,不应指定任何外群。

树文件应具有与物种/种群名称相对应的叶子标签,不使用枝长,树必需有根。

每行三个种群/物种,以制表符按P1 P2 P3的顺序分隔

带有后缀BBAA.txt,Dmin.txt和可选的tree.txt(如果使用了-t选项)的输出文件包含以下结果:D统计量,Zscore,未矫正的p值,f4-比率以及 BBAA,BABA和ABBA模式的计数情况。
带有后缀Combine.txt和Combine_stderr.txt的输出文件用作DtriosCombine的输入。 如果不需要使用DtriosCombine,则可以删除这些文件。
(1) samples_combine.txt文件

在这里,每一行显示分析一个三个物种的分析结果,例如在第一行中,altfas用作P1,neobri被认为是P2,而neocan被放置在P3。然后该行的第五和第六列中的数字分别代表着:ABBA位点在该三个物种中的数量(C-ABBA)(其中衍生的等位基因由“neobri”和“neocan”共享)和BABA位点的计数,C-BABA(衍生的等位基因由“altfas”和“neocan”共享)。除了第5和第6列中BABA和ABBA位点的数量之外,第4列列出了“BBAA”位点的数量(C-BBAA),P1和P2共享衍生的等位基因(因此通过“altfas”和“ neobri“共享)。

ABBA-BABA测试基于P1和P2是姊妹物种的假设,当计算给定三个物种的D-统计量时,Dsuite首先重新排列分配给P1,P2和P3的物种(因此ABBA,BABA和BBAA位点的数量也重新排列),这是根据某些规则:

samples_Dmin.txt

第四列现在显示每一个给定三个物种的的D-统计量,第五列显示基于对D = 0 的零假设的归一化的p值。

让我们选择一个给定三个物种的例子,看看它是如何出现在三个不同的文件samples_combine.txt中samples_Dmin.txt,和samples_BBAA.txt。我们将选择第一个给定三个物种的例子,包括“altfas”,“neocan”和“neobri”的那一行。要仅从三个文件中查看此给定三个物种的例子的行,可以使用此命令:

这应该会分别输出以下三行:

这里简单解析一下结果,首先samples_combine.txt品种名字母排序的方式与其它两个文件有点不同,P1在三个文件中保持相同(“altfas”),但是P2和P3的顺序被交换了(“neocan”和“neobri”)。此交换还暗示ABBA,BABA和BBAA模式的计数相应地交换。因此在交换之后并且P1 =“altfas”,P2 =“neocan”,P3 =“neobri”,计数如下:C-ABBA = 4066.95,C-BABA = 1378.2,C-BBAA = 13479.6。因此,“neocan”和“neobri”共享4066.95个衍生位点,“altfas”和“neobri”共享1378.2个衍生位站,“altfas”和“neocan”共享13479.6个衍生位站。有了这些数量,D=(4066.95 - 1378.2)/(4066.95 + 1378.2)= 0.493787。这个数字与Dsuite在这两个文件(samples_Dmin.txt和samples_BBAA.txt。)生成的报告一致。

重复与上一步相同的操作,但这一次使用给定开头为neo的三个物种的,文件samples__Dmin.txt和重新排列不同samples__BBAA.txt。三个“neobri”,“neocra”和“neogra”就是这样一个例子。使用这些命令可以在所有三个文件中查看此给定开头为neo的行:

结果会分别输出以下的行:

article class="_2rhmJa"

文件中的结果 samples_BBAA.txt 表明,当P1 =“neocra”,P2 =“neobri”,P3 =“neogra”时,则C-BBAA = 3788.23,C-ABBA = 3552.38,C-BABA = 2992.93,因此D =(3552.38 - 2992.93)/(3552.38 + 2992.93)= 0.0854723。

然而,文件中的结果samples_Dmin.txt显示,这次发生了另一次重新排列(因此C-BBAA不大于其他两个计数的重新排列)产生较低的D-统计:P1 =“neogra”,P2 =“neocra” ,并且P3 =“neobri”,则C-BBAA = 2992.93,C-ABBA = 3788.23,并且C-BABA = 3552.38,因此D =(3788.23-3552.38)/(3788.23 + 3552.38)= 0.0321294。

这说明了D-min值,报告了可能的最低D值对于给定三物种的统计,有时选择该三个物种的重新排列,其中P1和P2实际上彼此共享较少的派生位点,而不是它们两者与P3共享。这与ABBA-BABA测试的原始假设相冲突,即P1和P2彼此之间的关系比P3更紧密。在解释Dsuite分析的结果时,应该记住, 在文件中报告的D min值_Dmin.txt实际上是D -statistic的保守估计 文件中报告的值以_BBAA.txt结尾为基础,这些值基于确保C-BBAA C-ABBA C-BABA的重新排列,通常可以更好地测量D -statistic ,但是,最好的选择可能是使用--tree选项运行分析,提供一个输入树,直接告诉Dsuite如何重新排列所有三个物种。
参考:
https://github.com/millanek/Dsuite
https://www.jianshu.com/p/e97eb7b4b2ca

微信如何打开vcf格式的文件

1.运行VCF通讯录编辑器软件,单击“文件”菜单中的“打开”命令。
/iknow-pic.cdn.bcebos.com/80cb39dbb6fd52661d430bb0a618972bd407362d"target="_blank"title="点击查看大图"class="ikqb_img_alink"/iknow-pic.cdn.bcebos.com/80cb39dbb6fd52661d430bb0a618972bd407362d?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_600%2Ch_800%2Climit_1%2Fquality%2Cq_85%2Fformat%2Cf_auto"esrc="https://iknow-pic.cdn.bcebos.com/80cb39dbb6fd52661d430bb0a618972bd407362d"/
2.弹出“打开通讯录文件”的对话框,在左侧文件夹列表中浏览到要打开通讯录文件的位置,选中后单击“确定”按钮。
/iknow-pic.cdn.bcebos.com/a1ec08fa513d26977ab33ff958fbb2fb4316d835"target="_blank"title="点击查看大图"class="ikqb_img_alink"/iknow-pic.cdn.bcebos.com/a1ec08fa513d26977ab33ff958fbb2fb4316d835?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_600%2Ch_800%2Climit_1%2Fquality%2Cq_85%2Fformat%2Cf_auto"esrc="https://iknow-pic.cdn.bcebos.com/a1ec08fa513d26977ab33ff958fbb2fb4316d835"/
3.接着再单击“文件”菜单中的“以明码另存通讯录为”。
/iknow-pic.cdn.bcebos.com/314e251f95cad1c80ce5c883723e6709c93d5133"target="_blank"title="点击查看大图"class="ikqb_img_alink"/iknow-pic.cdn.bcebos.com/314e251f95cad1c80ce5c883723e6709c93d5133?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_600%2Ch_800%2Climit_1%2Fquality%2Cq_85%2Fformat%2Cf_auto"esrc="https://iknow-pic.cdn.bcebos.com/314e251f95cad1c80ce5c883723e6709c93d5133"/
4.弹出“另存通讯录文件为”对话框,选择要保存通讯录文件的位置,单击“确定”按钮。
/iknow-pic.cdn.bcebos.com/8ad4b31c8701a18b826625eb932f07082938fe80"target="_blank"title="点击查看大图"class="ikqb_img_alink"/iknow-pic.cdn.bcebos.com/8ad4b31c8701a18b826625eb932f07082938fe80?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_600%2Ch_800%2Climit_1%2Fquality%2Cq_85%2Fformat%2Cf_auto"esrc="https://iknow-pic.cdn.bcebos.com/8ad4b31c8701a18b826625eb932f07082938fe80"/

GATK4 SelectVariants ——vcf文件提取SNP和indel

在生成raw vcf后,进行SNP和indel提取,便于后续分析。
GATK4——gVCF转VCF - (jianshu.com)

输入文件:

报错:A USER ERROR has occurred: -selectType is not a recognized option

查了一下资料,不同版本的gatk提取SNP和indel的命令不同。

各版本GATK的说明书,大家可以根据自己的GATK的版本查看命令:
https://gatk.broadinstitute.org/hc/en-us/categories/360002369672-Tool-Index

修改如下:

参考材料:
https://gatk.broadinstitute.org/hc/en-us/articles/4404604678299-SelectVariants

maf2vcf maf与vcf格式之间的转换

突变软件call出突变之后,一般是VCF的格式,通常要把不同的病人的VCF文件整合成一个maf文件,其中maf文件的格式可以参考TCGA给出的maf格式【1】.

利用vcf2maf【2】 进行maf和vcf之间的转换。

1、maf转成vcf文件

参考文献:
【1】maf格式说明: https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/?tdsourcetag=s_pcqq_aiomsg
【2】 vcf2maf: https://github.com/mskcc/vcf2maf
~~~外完待续~~~~

标签: #关于vcf_converter的信息