计算机如何帮助生物学家打破人生的秘密

一旦三十亿字母的人类基因组测序,我们就冲进了一个新的“组学“生物研究的时代。 科学家们正在竞相对各种生物体的基因组(所有基因)或蛋白质组(所有的蛋白质)进行测序,并且正在编写大量的数据。

例如,科学家可以使用“组学”工具(如DNA测序)来梳理出病毒感染中哪些人类基因受到影响。 但是因为人类基因组总共至少有25,000基因,所以即使在这样简单的情况下,基因的数量也可能会有数千个。

虽然测序和鉴定基因和蛋白质给了他们一个名字和一个地方,但它并没有告诉我们他们做了什么。 我们需要了解这些基因,蛋白质和蛋白质 所有的东西之间 在不同生物过程中相互作用

今天,即使是基础实验也能产生大量的数据,而最大的挑战之一就是从背景噪音中解开相关的结果。 电脑正在帮助我们克服这个数据高峰; 但他们甚至可以更进一步,帮助我们提出科学的假设,并解释新的生物过程。 数据科学从本质上来说可以实现尖端的生物学研究。

计算机的救援

计算机具有处理海量数据的独特能力,因为它们可以同时记录分析所需的所有重要条件。


内在自我订阅图形


虽然他们 可以反映人的错误 他们用程序设计,计算机可以有效地处理大量的数据,而且不会像人类研究人员那样偏向于熟悉的东西。

计算机也可以被教导去寻找实验数据集中的特定模式 - 一种被称为机器学习的概念,首先在1950s中提出,最着名的是由数学家 阿兰·图灵。 然后可以要求从数据集中学习模式的算法根据之前从未遇到的新数据进行预测。

机器学习已经彻底改变了生物学研究,因为我们现在可以利用大数据集并且要求计算机帮助理解潜在的生物学。

培养计算机通过模拟大脑过程来思考

我们在自己的实验室中使用了一种有趣的机器学习,称为人工神经网络(ANN)。 大脑是高度相互关联的神经元网络,通过神经布线发送电脉冲进行通信。 类似地,人工神经网络在计算机中模拟神经元网络,当它们响应于其他神经元的信号而打开和关闭时。

通过应用模仿真实神经元的过程的算法,我们可以使网络学习解决许多类型的问题。 谷歌现在使用强大的人工神经网络 深度梦想项目 电脑可以分类甚至创建图像。

我们小组研究免疫系统,目标是 搞清楚癌症的新疗法。 我们使用人工神经网络的计算模型来研究我们的免疫细胞使用的短表面蛋白质密码来确定是否对我们的身体有异物,因此应该受到攻击。 如果我们更了解我们的免疫细胞(如T细胞)如何区分正常/自我和异常/外来细胞,我们可以设计出更好的疫苗和治疗方法。

我们搜集了数以千计的由研究人员多年来确定的蛋白质代码的公开可用目录。 我们将这个大数据集分成两部分:健康人细胞的正常自身蛋白质代码和来自病毒,肿瘤和细菌的异常蛋白质代码。 然后我们转向我们实验室开发的人工神经网络。

一旦我们将蛋白质代码输入到ANN中,算法就能够识别 根本的区别 在正常和异常蛋白质代码之间。 人们很难追踪这些生物学现象 - 这些大数据集中有数以千计的这些蛋白质代码需要分析。 这需要一台机器来解决这些复杂的问题,并定义新的生物学。

通过机器学习预测

机器学习在生物学中最重要的应用是在大数据的基础上进行预测。 基于计算机的预测可以理解大数据,测试假设并节省宝贵的时间和资源。

例如,在我们的T细胞生物学领域,了解哪种病毒蛋白编码靶向在开发疫苗和治疗方面至关重要。 但是任何病毒都有这么多的单独的蛋白质代码,因此非常昂贵,而且很难通过实验来测试每一种病毒。

相反,我们训练了人工神经网络来帮助机器学习两种蛋白质代码 - 正常与异常的所有重要的生化特征。 然后,我们要求模型“预测”哪些新的病毒蛋白质编码类似于“异常”类别,并且可以被T细胞和免疫系统看到。 我们测试了以前从未研究的不同病毒蛋白的ANN模型。

果然,就像一个渴望取悦老师的勤奋的学生,神经网络能够准确地识别出这种病毒中大多数这种T细胞激活蛋白质代码。 我们还通过实验测试了标记的蛋白质代码来验证ANN的预测的准确性。 使用这个神经网络模型,科学家可以这样做 迅速预测 来自有害病毒的所有重要的短蛋白质代码,并测试它们开发治疗或疫苗,而不是单独猜测和测试它们。

明智地实施机器学习

由于不断完善,大数据科学和机器学习越来越成为任何一种科学研究不可或缺的工具。 使用计算机训练和预测生物学的可能性几乎是无止境的。 从确定哪些生物标志物组合最适合检测疾病到理解为什么只有 一些患者从特定的癌症治疗中受益采用计算机挖掘大数据集已经成为一种有价值的研究路线。

当然,有限制。 大数据科学最大的问题是数据本身。 如果通过组学研究获得的数据是错误的,或者是以低劣的科学为基础,机器将接受不良数据的培训 - 导致 糟糕的预测。 学生只和老师一样好。

因为电脑不感人(),他们可以在他们寻求模式的过程中提出它们,即使它们不存在,也会再次出现,不良数据和不可重复的科学。

还有一些研究人员对电脑的成长感到担忧 黑匣子的数据 对于那些没有清楚地理解他们为他们所做的操纵和诡计的科学家来说。

尽管存在这些问题,大数据和机器的好处将继续使它们成为科学研究中有价值的合作伙伴。 记住这些注意事项,我们独特地准备通过机器的眼睛来理解生物。

关于作者谈话

亚利桑那州立大学生物和卫生系统工程学院生物设计博士候选人Sri Krishna亚利桑那州立大学应用数学博士Diego Chowell博士

这篇文章最初发表于 谈话。 阅读 原创文章.


相关图书:

at InnerSelf 市场和亚马逊