====== 一、软件介绍 ====== OrthoFinder是一种用于鉴定和比较生物学物种之间的同源基因组学的工具。同源基因是在不同物种之间由共同祖先继承的基因。OrthoFinder旨在帮助研究人员理解基因组学数据中的同源关系,以及这些同源关系在进化和功能上的意义。 以下是OrthoFinder的一些主要功能: **同源基因鉴定**:OrthoFinder通过比较多个物种的基因组数据,识别出同源基因,即在不同物种之间具有共同祖先的基因。这些同源基因集合可用于进行物种间的基因组比较和分析。 **物种关系树构建**:OrthoFinder可以利用同源基因集合来重建物种关系树(phylogenetic tree),这有助于揭示不同物种之间的演化关系。 **基因家族分析**:OrthoFinder还能够将同源基因分组成不同的基因家族,这些家族代表在进化过程中相互关联的基因集合,有助于理解基因家族的功能和进化历史。 ====== 二、数据准备 ====== 输入数据:一个文件夹,该文件夹包含不同物种的蛋白序列 参考路径:/TJPROJ7/META_ASS/16s/yaoyuanyuan/X101SC23072678-Z02-gxh/X101SC23072678-Z02-F004/gxh-20240617/Protein2 注:物种的pep文件名要与蛋白序列ID名保持一致 ====== 三、流程执行 ====== 执行脚本路径:/TJPROJ7/META_ASS/16s/yaoyuanyuan/X101SC23072678-Z02-gxh/X101SC23072678-Z02-F004/gxh-20240617/run.sh 脚本内容: source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate /TJPROJ1/META_ASS/soft/anaconda3/envs/orthofinder_2.3.12 /TJPROJ1/META_ASS/soft/anaconda3/envs/orthofinder_2.3.12/bin/orthofinder -f Protein2 -t 100 -a 100 -o /TJPROJ7/META_ASS/16s/yaoyuanyuan/X101SC23072678-Z02-gxh/X101SC23072678-Z02-F004/gxh-20240617/protein_orthofinder.2 参数介绍: -f:指定所用文件夹,默认使用blastp进行蛋白序列的比对 -t: Number of parallel sequence search threads [Default= 16] #并行搜索序列线程数 -a: Number of parallel analysis threads [Default = 1] #并行分析线程数 -o:输出路径 ====== 四、分析结果 ====== **1.官网结果文件解读**:https://davidemms.github.io/orthofinder_tutorials/exploring-orthofinders-results.html **2.结果文件展示** {{:结果文件夹-yyy.png?400|}} **3.重要结果文件解读** 3.1 Orthogroups Orthogroups.csv:这是一个以制表符分隔的文本文件,每一行代表一个同源基因组,即在不同物种中具有同源性的一组基因。每个同源基因组中的基因按照物种进行组织,每个物种对应一列。这种格式方便了在每个同源基因组内跨物种比较基因的存在或缺失情况。 Orthogroups UnassignedGenes.csv:这个文件与Orthogroups.csv具有相同的制表符分隔文本格式。然而,它包含了未分配到任何同源基因组的基因。这些未分配的基因可能代表着独特的基因或者在分析的物种中没有同源基因的基因。 Orthogroups.txt(旧版格式):这个文件包含了与Orthogroups.csv文件描述的同源基因组相同的内容,但使用了OrthoMCL的输出格式。 3.2 Single-copy orthogroups & gene counts SingleCopyOrthogroups.txt:这个文件包含了每个物种中仅包含一个基因的同源基因组的列表。这种单拷贝同源基因组非常有用,因为它们允许跨物种进行简单的比较。例如,单拷贝同源基因组的序列比对通常用于几乎所有物种树推断方法。 Orthogroups.GeneCount.csv:这个文件提供了每个同源基因组中来自每个物种的基因数量。 3.3 Orthogroup Statistics Statistics Overall.csv:这是一个以制表符分隔的文本文件,提供了同源基因组分析的一些有用统计数据。这些统计数据可能涉及整个数据集的概要信息,如同源基因组数量、平均基因组大小等。 Statistics PerSpecies.csv:这是一个以制表符分隔的文本文件,提供了与“Statistics Overall.csv”文件中相同的统计数据,但是以每个物种为单位进行列出。这个文件可能包含了每个物种的同源基因组数量、平均基因组大小等信息。 Orthogroups SpeciesOverlaps.csv:这是一个以制表符分隔的文本文件,包含了一个矩阵,显示了每对物种之间共享的同源基因组数量。换句话说,它展示了每对物种之间至少包含一种基因的同源基因组数量。