=====定量问题===== 1、老师敲除gene,验证以敲除,转录组该gene有表达量(且有可能fpkm高于对照组)? 这种情况可以,找到老师敲除的位置,先查看igv,是否该位置reads以被敲除,如果已经敲除,则igv可以证明老师的敲除已经成功了,gene的fpkm高,则可能是该gene的其他位置存在大量的reads;如果igv显示老师敲除的位置就是存在大量reads,则可能需要重建库,如果需要定量结果,则将老师敲除位置整理成gtf格式(exon)进行定量即可。 根据老师提供的引物查找在染色体上的位置(使用与引物与gene序列没有错配的情况),可使用以下脚本: /TJPROJ6/RNA_SH/script_dir/genome/find_chr_location_of_primer.py -h usage: find_chr_location_of_primer.py [-h] [-T TRANSCRIPT] [-G GTF] [-P PRIMER] [-O OUTFILE] find location on chr optional arguments: -h, --help show this help message and exit -T TRANSCRIPT, --transcript TRANSCRIPT the transcript fa #参考基因组的转录本序列,在参考基因组目录中有 -G GTF, --gtf GTF the gtf file #参考基因组的GTF文件,在参考基因组目录中有 -P PRIMER, --primer PRIMER the primer file ,3 column(primer_name left_primer right_primer) #老师提供的引物信息,整理成3列,Tab分隔 -O OUTFILE, --outfile OUTFILE the out file #输出文件 2、老师关注gene在igv中存在大量reads,但是定量结果为0? 可以先使用samtools从bam中拿到比对到该位置的reads,命令如下: samtools view abc.bam scaffold1:30000-100000 > abc_30000_100000.sam 然后查看abc_30000_100000.sam中是否的唯一比对(hisat2比对看NH:i:1),看是否是成对比对(bam中第7列为=),查看GTF中该区域是否有存在多个gene重复位置的情况。 以上情况可以使用RSEM软件定量避免,脚本如下: /TJPROJ6/RNA_SH/script_dir/RSEM/RSEM/RSEM.py -h usage: RSEM [opthions] [value] This program is used to generate scripts for quantification by RSEM! optional arguments: -h, --help show this help message and exit --fa the fa of genenome #染色体fa文件 --gtf the gtf of genenome #GTF注释文件 --sample sample name #样品名 --ss ss :fr-unstranded:0.5,fr-firststrand:1,fr-secondstrand:0 #普转建库0.5(默认),链特建库0(1链(reverse)) --readtype single,paired #单端 or 双端 --rootdir the directory of the project #分析目录 --cleanfq_dir the dir of clean.fq.gz #clean目录 --count the count level,gene or transcript,default:transcript #转录本水平(默认)或者基因水平