用户工具

站点工具


ecdna

简介

环状外染色体DNA(extrachromosomal DNA,简称ecDNA)是一类存在于细胞核外但不属于线性染色体的DNA分子。ecDNA的研究近年来引起了广泛关注,特别是在癌症研究领域。以下是ecDNA研究的一些背景信息: 1.ecDNA的发现和定义:ecDNA并不是新的概念,早在20世纪中期,科学家们就已经发现了细胞中存在一些环状的DNA分子。与线性染色体不同,ecDNA是环状的,并且可以携带基因信息。

2.癌症中的ecDNA:近年来的研究表明,许多类型的癌细胞中存在高水平的ecDNA。这些ecDNA通常携带着驱动癌症发展的致癌基因(oncogenes),并可以在癌细胞中复制和扩增。由于ecDNA不受染色体端粒的限制,它们可以在细胞中快速增殖,促进癌症的进展和耐药性。

3.基因扩增和异质性:ecDNA可以在癌细胞中形成基因扩增,增加特定基因的拷贝数,从而增强这些基因的表达。这种机制可以导致癌细胞对药物的耐药性增加。此外,ecDNA的非整合性和可变性使得癌细胞内的基因组更加异质,增加了肿瘤的复杂性。

4.诊断和治疗的潜力:由于ecDNA在癌症中的特殊作用,研究人员正在探索其作为诊断标志物和治疗靶点的潜力。例如,检测血液中的ecDNA片段可能帮助早期诊断癌症或监测治疗效果。同时,针对ecDNA的特定药物可能提供新的治疗策略。

5.技术进展:随着测序技术和单细胞基因组学的发展,研究人员可以更精确地检测和分析ecDNA。这些技术进步为深入研究ecDNA的功能和机制提供了工具。

总之,ecDNA研究正在快速发展,并有望为癌症的诊断和治疗带来新的突破。通过进一步了解ecDNA的生物学特性和功能机制,科学家们希望能够开发出新的策略来对抗癌症。

使用软件

QMotif 是一种用于识别和分析基因组数据中重复序列和基序(motif)的生物信息学工具。它的主要功能包括:

1.识别基序:QMotif 可以在大量的序列数据中快速识别出特定的基序,这对于理解基因调控和功能区域非常重要。 2.基序搜索:用户可以输入特定的基序,QMotif 会在提供的序列数据中搜索这些基序的位置和频率。 3.可视化:工具通常提供可视化功能,以便用户可以直观地查看基序在基因组中的分布情况。 4.统计分析:QMotif 能够进行各种统计分析,如基序的富集分析,帮助用户理解基序在不同条件下的显著性和功能。 支持多种输入格式:通常支持多种常见的生物信息学数据格式,如FASTA、BED等,方便用户进行数据输入和输出

github地址:https://github.com/AmpliconSuite/AmpliconArchitect

注意!!!192.168.50.4节点无法运行该软件,会报错,目前推测是集群环境的影响,所以目前天津跑用rnashouhou账号;上海可正常运行;

数据准备

第一种:N样本和T样本的成对bam数据(成对)。 第二种:任何样本的bam数据(单样本运行)

数据分析

1 示例路径

天津集群: 成对样本:/TJPROJ6/AFS_RESEQ/Proj/hanyue/03.CANCER/AmpliconArchitect/X101SC24012414-Z01_AmpliconArchitect_20241206 单样本:/TJPROJ6/AFS_RESEQ/Proj/hanyue/03.CANCER/AmpliconArchitect/P2016060060_AmpliconArchitect_20241206

上海集群: 成对样本:/SHPROJ1/AFSRESEQ/Proj/hanyue/AmpliconArchitect/X101SC24110671-Z01_ecDNA_1227

2 分析脚本

export PATH="/TJPROJ6/AFS_RESEQ/Proj/hanyue/miniconda/envs/ampsuite/bin:$PATH"
export AA_DATA_REPO=/TJPROJ6/AFS_RESEQ/Proj/hanyue/miniconda/envs/ampsuite/data_repo
 /TJPROJ6/AFS_RESEQ/Proj/hanyue/miniconda/envs/ampsuite/bin/AmpliconSuite-pipeline.py -o /TJPROJ6/AFS_RESEQ/Proj/hanyue/03.CANCER/AmpliconArchitect/X101SC24012414-Z01_AmpliconArchitect_20241206/T_20_615 -s T_20_615 -t 16 --ref GRCh37 --bam /TJPROJ6/AFS_RESEQ/Proj/hongxiang/01.Cancer/WES.X101SC24012414-Z01_msi_mt_qMotif.20241015/bam/T_20_615.final.bam --normal_bam /TJPROJ6/AFS_RESEQ/Proj/hongxiang/01.Cancer/WES.X101SC24012414-Z01_msi_mt_qMotif.20241015/bam/P_20_615.final.bam --run_AA --AA_src /TJPROJ6/AFS_RESEQ/Proj/hanyue/miniconda/envs/ampsuite/AmpliconArchitect/src --run_AC  --AC_src /TJPROJ6/AFS_RESEQ/Proj/hanyue/miniconda/envs/ampsuite/AmpliconClassifier  

交付结果

GC_303_amplicon1_cycles.txt
GC_303_amplicon1_graph.txt
GC_303_amplicon1.pdf
GC_303_amplicon1.png
GC_303_summary.txt

readme

/SHPROJ1/AFSRESEQ/Proj/hanyue/AmpliconArchitect/X101SC24110671-Z01_ecDNA_1227/readme

*_summary.txt 该文件为AA检测到所有扩增子的摘要
*_amplicon{id}_graph.txt 每个扩增子的结果文件,文件中列出了断点图中的染色体起始位置,分类(sequence, discordant, concordant, source)和拷贝计数
*_amplicon{id}_cycle.txt 每个扩增子的文本文件,文件中列出了样本的环及其拷贝数
*_amplicon{id}.png/pdf 每个扩增子的SV可视化图

1、*_summary.txt
AmpliconID:扩增子的ID。
#Intervals:扩增子包含的区间间隔个数。
Intervals:表示扩增子所在的基因组位置,位于染色体*的***到***区间。
OncogenesAmplified:这项为空,说明在这个扩增区域内没有检测到已知的致癌基因(oncogenes)。
TotalIntervalSize:该区间的总长度为***个碱基对。
AmplifiedIntervalSize:表示该区间内实际扩增的长度为***个碱基对。
AverageAmplifiedCopyCount:平均扩增的拷贝数约为***,表明这个区域存在显著的拷贝数增加。
#Chromosomes:表示该扩增子涉及的染色体数目为*。
#SeqenceEdges:这是序列边界的数量,指的是检测到的序列变化的边界数量。
#BreakpointEdges:断裂点边界的数量为*,表示在该区域内可能存在*个断裂点。
#CoverageShifts:覆盖度变化的数量为*,为0表示在该区域内没有显著的覆盖度变化。
#MeanshiftSegmentsCopyCount>5:平均变化段的拷贝数大于5的数量为*,为0表明在该区域内没有检测到拷贝数大于5的显著段。
#Foldbacks:回折数量为*,0表示没有检测到回折结构。
#CoverageShiftsWithBreakpointEdges:覆盖度变化与断裂点边界相关的数量为*,0说明覆盖度变化没有与断裂点相关联。

2、*_amplicon{id}_graph.txt
每个扩增子的图形文件由 2 个部分组成:
1)序列边缘(Sequence edges)
StartPosition:该字段表示拷贝数变异(CNV)或感兴趣区域(如扩增子)的起始位置;
EndPosition:该字段表示拷贝数变异(CNV)或感兴趣区域的结束位置;
PredictedCopyCount:该字段表示在指定区域内预测的DNA拷贝数。拷贝数变异可以是增多(扩增)或减少(缺失)。
AverageCoverage:该字段表示在指定区域内测序读数的平均覆盖度。
Size该字段表示指定区域的大小,通常以碱基对(bp)为单位。
NumberReadsMapped:该字段表示在指定区域内映射到参考基因组的测序读数数量。
2)断点边缘(Breakpoint edges)。每个部分的第一行以该部分的标题开始。其余行以与边缘类别相对应的关键字开头,后跟边缘坐标、拷贝数、覆盖率/读取数和其他信息。
StartPosition->EndPosition:起始位置 -> 结束位置。
PredictedCopyCount:该字段表示在指定区域内预测的DNA拷贝数。
NumberOfReadPairs:该字段表示在指定区域内成功映射的测序读对的数量。
HomologySizeIfAvailable(<0ForInsertions):同源序列大小(若为插入则为负数)
Homology/InsertionSequence:该字段表示在变异区域内的同源序列或插入序列的具体核苷酸序列。
discordant:两个非连续位置之间的连接。
concordant:参考基因组中已连接的连续位置之间的连接。
source:已知基因组位置与未知位置或扩增子间隔集之外的位置之间的连接。


3、*_amplicon{id}_cycle.txt
该文件以简单循环的形式描述了AA预测的扩增子结构。该文件由3个部分组成
1)间隔部分(Intervals):扩增子中的间隔列表。
第一列:Interval: 关键字。
第二列:IntervalID:间隔 1、2 等的 ID。
第三列:CHROM: 染色体名称。
第四列:START:第一个碱基对的坐标。
第五列:END:最后一个碱基对的坐标。
2)Segments 部分:结构中使用的段列表。
第一列:Segment: 关键字。
第二列:IntervalID: 1、2 等的 ID。
第三列:CHROM: 染色体名称。
第四列:START:第一个碱基对的坐标。
第五列:END:最后一个碱基对的坐标。
3)环状部分(Cycles):预测出环的表格。
第一列:Cycle=CycleID:循环的 ID,最大的拷贝数在前。
第二列:Copy_count=CopyCount:环的复制次数
第三列:Segments={Segment1}{Strand1},{Segment2}{Strand2},...:Segments列表及其在结构中的方向。最后Segments连接到第一个Segments。

4、*_amplicon{id}.png/pdf
SV视图文件是一个PNG/PDF文件,显示扩增子的基础序列:
x轴:扩增子Intervals  
y轴(左):以直方图(灰色垂直条)表示的间隔内基于窗口的覆盖深度 
y轴(右):拷贝数。基于这些片段的覆盖范围和拷贝数估计对间隔进行分割(跨越片段的水平黑线) 
比对不一致的reads用弧线连接,其中颜色代表reads的方向:
    红色:预期方向长度不一致(正向-反向)
    棕色:外翻reads对(反向-正向)
    青色:两个读数都映射到正向链
    洋红色:两个读数都映射到反向链
    到达图顶部的垂直彩色线表示与源顶点的连接
    弧线的厚度定性地描述了双端读取支持的数量
底部面板可以表示扩增子间隔上的各种注释,其中默认视图显示癌基因注释。
ecdna.txt · 最后更改: 2024/12/31 07:19 由 hanyue