用云开裂基因组码
随着世界上有一半的人口的基因组预计将被2025年被测序,科学家正在为他们需要处理的数据量交错。
预测每年30个菌尿率的基因组数据已经被丹尼斯鲍尔等研究人员使用,以解锁疾病的疾病等疾病的基因组代码,这影响着名的英国理论物理学家斯蒂芬霍金。
嘎吱嘎吱的基因组数据可能是一个繁琐的过程。随着含有30亿DNA“字母”的人类基因组,单挑出导致诸如大型样品大小的疾病的基因类似于在大海捞针中寻找针。
据鲍尔介绍,澳大利亚英联邦科学和工业研究组织(CSIRO)的国际认可的生物信息学研究员和团队领导者,以前的机器学习技术无法应对纯粹的基因组数据。
例如,谷歌的行星算法擅长解决涉及数十万个样本的机器学习任务,比如每种样品,比如每种样本的1,000个数据点,“Bauer说。“但我们每个样本有30亿数据点。”
为了克服CSIRO创建Variantspark的鲍尔和她的团队,一种机器学习库,可用于使用Apache Spark Engine实时分析基因组数据以进行大数据处理。VariantSpark还可用于在其他应用中进行分裂数据,例如转录。
通过鉴定和分析疾病引起的基因,下一步是测试使用称为Crispr的基因组工程技术,以编辑导致人类某些疾病的基因。这种微妙的任务必须以高水平的精度进行,没有错误的空间。
为了提高成功率,Bauer表示有必要加快识别可以进行基因编辑的位置的过程。
“这样做对于一个基因很容易,并且可以通过平行化在几秒钟内完成。但是,对于使用Web服务的人类基因组中的所有基因很难这样做,“她说,并指出与亚马逊Web服务(AWS)Lambda无法计算服务,现在可以”触发许多函数并行触发并且足够便宜“。
那个说,鲍尔,谁会在Yow讲话!2017年在悉尼的会议上,承认兰姆达服务有局限性。“只有那么多的数据和请求,您可以使用Lambda函数来处理,因此我们必须提出替代方法,并将其并行为工作量,”她说。
Bauer的团队必须找到巧妙的方式来使他们的复杂研究工作适应AWS和其他人提供的,因为云提供商大多迎合了通用用例。
除了嘎吱嘎吱的基因组数据外,Bauer还使用AWS以安全的方式与世界各地的其他研究人员共享数据。
“我们上传到S3存储的数据被加密并保持加密,它只在计算节点上解密。我们还可以拥有日志文件和记录审计报告,以证明没有人可以访问处理管道,“Bauer说。
向前迈进,鲍尔不会认为,AWS的喜欢将开始提供专业的云服务,该专业云服务往往是往往是知识和技术的最前沿。
“即使云提供商要满足我们的需求,我们明天会有很大的要求。这也是为什么我们是第一个采用云并租用最新技术的原因是我们所做的事情,“她说。