REALPHY

使用REALPHY构建SNP进化树有两种渠道,一种通过在线网站 https://realphy.unibas.ch/realphy/ 该网站可以上传基因组或GBK文件直接进行分析,具体参考示例可以参考网址Suplementary materials不分

或者可以使用本地软件进行分析 使用本地软件需要在输出文件目录下配置一个config.txt文件

BOWTIE2 /PUBLIC/software/public/Alignment/bowtie2-2.0.6/bowtie2
BOWTIE2BUILDER /PUBLIC/software/public/Alignment/bowtie2-2.0.6/bowtie2-build
TREEPUZZLE /TJPROJ5/META_ASS/script/yuxi/Share/tree-puzzle-5.3/bin/puzzle
RAXML /TJPROJ1/META_ASS/soft/standard-RAxML-8.2.12/raxmlHPC-HYBRID-SSE3
Rscript /PUBLIC/software/public/System/R-2.15.3/bin/Rscript
MaxPars /TJPROJ5/META_ASS/script/yuxi/Share/phylip-3.697/exe/dnapars
PhyML /TJPROJ5/META_ASS/script/yuxi/Share/PhyML-3.1/PhyML-3.1_linux64

软件均已成功按照直接复制即可,或者以后涉及到分析需求可以直接貂绒该分析软件

使用方法

构建进化树 软件安装在conda下,首先激活环境

source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate REALPHY

最基本用法,将参考基因组 reference(最好是完成的基因组) 放入 input 文件夹,可以是 fasta 和 genbank 格式,如果放置多个 fasta/gbk 文件,软件会随机选择其中一个作为参考基因组,并将其他序列作为比对序列。如果指定某个序列作为参考基因组,用 -ref 参数指定。fastq 数据作为比对数据放入 input 文件夹,如果是PE测序的数据,双端的fastq文件名要用 *_R1.fastq/*_R2.fastq 区分。fastq 数据建议先对测序数据进行一定的QC操作,尽可能减少测序错误引入的 SNP 位点。

 realphy input output -ref ref_genome

对核心基因组构建进化树。默认的方式是对参比基因组全部区域比对,包括非编码区。如果希望仅对CDS进行比对,就可以通过添加 -genes 参数。如果添加了 -genes 参数,那么参考基因组文件格式必须是含有 CDS 的 genbank 格式数据。

 realphy input output -ref ref_genome -genes

使用多个参考基因组。这是 REALPHY 的一个“卖点”,作者认为当参考基因组与比对基因组差异较大时,如>5%,就会造成进化树构建的偏差。所以通过选择多个参考基因组,平衡不同型别的基因组,减少远源基因组带来的比对差异。通过设置 -refN 来实现多个参考基因组,并用 -merge 参数合并结果。由于计算量较大,不建议使用太多参考基因组。

 realphy input output -ref1 ref1_genome -ref2 ref2_genome -ref3 ref3_genome -merge

建议使用 RAxML 来构建基于 ML 的进化树。因此生成的进化树图为 “PolySeqOut/RAxML_bestTree.raxml”,将其复制到带 GUI 的计算机上,用画树软件生成树图。

#figtree需要独立安装
 figtree RAxML_bestTree.raxml

也可以不选择参考基因组,会随机选择一条输入序列进行比对

REALPHY_v113 <sequence folder> <output folder> [options]
#参考数据路径
/TJPROJ1/META_ASS/script_Advanced_analysis/REALPHY

更多使用方法可以参考官方网址 https://realphy.unibas.ch/docs/Realphy_manual.pdf 或下载以下文档 realphy_manual.pdf