五月初正式开始上班,工作的第一个任务,就算搭建一个外显子和转录组突变的分析平台。而开始就是,什么都没有。没有电脑,没有服务器,也没有任何软件和经验。我们的工作就是一步步搭建起突变分析及定制化分析平台。
下面我从硬件和软件两个角度,整理下平台搭建的细节和思路。出于费用限制,我这里采用的是GATK4的开源流程,并于本地计算。若下面有相关费用支持,则继续测试Google Cloud平台和Sentieon的流程,云加商业化Pipeline也是现在商业化快服务需求的标准配置吧。
服务器/工作站/主机采购
外显子及转录组的突变分析流程,需要较大的计算通量和高并行计算支持。我手头只有一台12年的mbp,显然无法完成流程搭建。只能另辟蹊径,由于公司的新员工可以配新的办公电脑,在同事们将近两周的支持下,我配了一台20核40线程,64GB内存加4T机械,256G固态的“办公电脑”,作为我们分析硬件平台。
我们首先按INTEL的GATK最佳实践白皮书中配置,向下调整,进行初步询价。但新款硬件配置的主机价格在三万以上,由于预算有限,我们只能针对外显子转录分析的需求,对配置进行调整。
CPU我们选择E5-2680,10核20线程,单个CPU价格在一千多,相当于CORE I5的价格,主频较低,但是线程数量可以满足少量样本外显子分析高并行需求。在主频对计算速度影响不大情况下,双2680是我们CPU的选择。针对该CPU,我们选购对应INTEL S2600主板,支持双CPU,和32个内存扩展插槽。内存我们选择服务器DDR3内存。尽管相对DDR4主频较低,但是稳定性更高,性能损失并不大,并能够在同等预算下实现更大内存容量,以应对转录组STAR等软件几十G一个样本的内存需求。加上硬盘,以及最普通独立显卡(主板也有集显),显示器,国产机箱,全套配置不到10000元。相当于国内游戏主机价格,已经能够应对主要的生信分析流程,并且能够在内存(扩大到256G)和硬盘(再加1-7个4T机械盘做raid或另购买储存节点)上预留扩展空间。
系统及软件安装
系统和软件的配置及其琐碎,因此自动化流程比详细的教程会是更好的解决方案。自动化流程现正在开发过程中,等开发完成,希望以conda或者docker包的形式在此发布。