从本周开始,我们公众号开始转载生信媛徐洲更的一组推文,推出一组转录组生信分析入门教程。基本是从零开始,希望对刚入门生信或者想入门生信分析的同学有所帮助。
首先,你需要准备好两件事情:1.Linux环境,实验室有服务器或者自己有个配置比较好的电脑;2.能根据网上教程,自学些生信基础知识(文件管理,软件安装,R语言基本命令,后面要画图)。比如有个PCR仪和自学PCR引物设计原理。不要害怕,不会让你从头造一个PCR仪,也不会让你自己合成引物。熟悉一个新的操作系统和软件使用,并不是一个可怕的事情,但是学习也从来不是一个轻松的过程。好了,我们开始吧。
我们第一周目标有三个:
-
熟悉Linux环境
-
登录服务器
-
Linux基本命令
-
PATH的意义
-
学习conda管理环境
-
如何在conda中添加channel
-
如何用conda安装和卸载软件
-
如何创建新的环境和切换环境
-
数据准备
-
参考序列
-
注释信息
-
测序数据
首先,对于Linux环境,能有服务器最好。实在不行Windows10用户可以安装WSL,MacOS请在应用程序中搜索终端,参照下面链接进行配置:
-
Windows10配置
WSL: https://linux.cn/article-9545-1.html
-
MacOS的环境配置:
https://blog.csdn.net/orangleliu/article/details/47357339
然后,你需要学一些基础的Linux的命令操作,如下是鸟哥的Linux私房菜的对应链接
-
目录管理:
http://linux.vbird.org/linux_basic/0210filepermission.php
-
vim使用说明:
http://linux.vbird.org/linux_basic/0310vi.php
-
shell基础:
http://linux.vbird.org/linux_basic/0320bash.php 中的10.1,10.2,10.3和10.4
再接着你需要用conda安装如下软件
-
sra-tools: 数据下载
-
fastqc: 查看数据质量
-
cutadapt trimmomatic: 数据质控
-
star hisat2: 数据比对
-
samtools: SAM/BAM文件处理
-
subread htseq: 基因计数
conda的教程推荐看https://www.jianshu.com/p/edaa744ea47d
学有余力: 整理网络上关于这些软件的资源
接着你得下载如下数据:
-
参考基因组序列: 在 http://www.ensembl.org/ 上下载 GRCh38的参考基因组序列
-
注释文件:在 http://www.ensembl.org/ 上下载 GRCh38 对应的注释GFF文件
-
SRR数据:编号为 SRR4820707 SRR4820708 SRR4820709 SRR4820710 SRR4820727 SRR4820728 SRR4820729 SRR4820730 (我上传了微云,链接:https://share.weiyun.com/5lFLZzL)
以上就是第一周的内容了,按照链接自学为主,做好准备工作。
这里是用的人类的基因组数据,而不是小麦的,根据我的经验,任何基因组的分析,不要上来就用小麦基因组,手中常备拟南芥、水稻、人类基因组。先用小的基因组,确保能跑通流程了再来小麦基因组。要不然,三周或者一个月后,你才发现某个参数可能需要调整,多来几遍,可能都快要毕业了,软件还没跑完。
附原文链接:https://mp.weixin.qq.com/s/P5Rw_WQw1Wz7Tb2pXgcnHQ
SRA数据的下载以及在线blast--或许与你了解的不一样
SRA快速转fastq---即多核版fastq-dump——另外找一枚小麦育种方面的童鞋
(伪)从零开始学转录组:读文章拿到测序数据
(伪)从零开始学转录组:了解参考基因组及基因注释
转录组入门(3):了解fastq测序数据
(伪)从零开始学转录组:软件安装
(伪)从零开始学转录组(5) 序列比对
评估salmon和kallisto在小麦RNA-seq定量中的异同
使用salmon和sleuth进行小麦RNA-seq差异表达分析
〖特别声明〗:本文内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。如有侵犯您的原创版权或者图片、等版权权利请告知 wzz#tom.com,我们将尽快删除相关内容。