好的数据应该是怎样的？AI药物发现数据的5V原则

好的数据应该是怎样的？AI药物发现数据的5V原则

2024-11-10 23:01

如果你相信机器学习在药物发现和开发方面具有巨大潜力，那就很难绕*的难题——数据。

关于AI药物研发，很多人都意识到数据的重要性，但更多的细节却很难谈起。

本篇文章，LabGenius的首席技术官Leo Wossnig尝试用5V框架定义什么是好的数据，可以生成此类数据的技术堆栈，以及需要哪些思维方式、团队和文化来实现。希望能够对读者有一些启发。

“好”数据是什么样的？

“好的”数据有两个关键要求：数据的相关性，或者数据转化为临床结果的程度，以及数据的质量。

后者是一个宽泛的术语，但实际上问题在于细节——数据收集、存储、协议、再现性和标准化等不太理想的工作。

但如果这项工作做得不好，那么机器学习模型不会工作得特别好，最坏的情况可能会完全丧失数据完整性，从而导致致命的结果。

探索性数据分析以建立对数据的基本理解和严格的模型验证对于机器学习、生物统计学和生物信息学建模至关重要。这些因素会影响模型的预测准确性。

虽然不正确的统计分析也会影响计算机方法的准确性或可靠性，但不准确的化学和生物数据仍然是数据驱动的药物发现方法的核心问题。因此，减少数据生成过程中的噪声并提高一致性是生成高质量数据的关键方面。

然而，随着化学、基因组和蛋白质数据集的增长，原始研究中的一些步骤（例如手动数据管理）已变得不切实际。由于数据准备和建模没有在整个行业中标准化，因此出现了进一步的挑战。

底层流程和工作流程的标准化程度较低，从而施加了更基本的限制。构建数据处理方法以对收集的数据进行一致的管理和标准化是生成高质量数据的另一个重要部分。

但要了解如何收集高质量数据，就得明白什么是高质量的数据，并且定义它。作者开发一个框架来评估数据本身的质量，并引入 5 个关键属性来评估。

药物发现数据的5V原则

在处理用于训练药物发现中的机器学习模型的数据时，需要考虑5个属性。

药物发现数据的 5V定义如下：

1、正确的数据准确性：生成或可用数据的质量、完整性、准确性和一致性

2、正确的数据种类：数据的平衡程度如何？它涵盖什么动态范围？我们有哪些不同类型的数据可用？例如，对于蛋白质来说，这可能意味着训练数据中的高序列或结构多样性。

3、正确的数据量：可用于训练模型的数据量

4、正确的数据速度：用于分析目的的数据生成、积累和管理的速度有多快、成本有多低？这会影响我们验证或重新训练模型的容易程度

5、正确的数据价值：数据如何转化为临床结果（通常与生物复杂性相关）？

一般来说，数据准确性、多样性和数量是数据本身的品质，而速度有助于评估获取新数据的难易程度因此我们要使用什么流程和方法。

如果公共领域的数据很少，或者如果想使用基于主动学习的方法，那么后者尤其重要。数据的准确性基于生物复杂性及其与临床结果的相关性，这会影响数据读出的预测有效性。

数据真实性

使用生物学相关功能测定生成的一致、准确、高质量、标记的数据在药物发现的许多领域很少见，或者根本不存在。大型企业数据集通常没有用处，因为它们没有以一致的方式收集或数字化。同样，来自 CRO 的数据可能不包括机器学习所需的 (ML) 相关控制和元数据。

如果公共数据已经存在，它通常包含大量噪音、重复和错误，这需要仔细分析、过滤、标准化和其他预处理步骤才能使用。

图：来自不同活动标准化前（左）和标准化后（右）的基于细胞的测定中评估的两种不同对照分子的重复测量数据。标准化可以显着改变图像。

同样重要的是，与传统药物发现数据相比，机器学习级数据要求不同且更加严格。即使测量相同的化合物，不同实验室的读数也具有很大的可变性。这又是因为在不同条件下进行实验时会产生截然不同的结果。

另外，公共数据还包含大量错误，但大多数机器学习或化学/生物信息学论文（基本假设是输入数据的正确性。然而，数据库中的错误率可能很高。研究表明，平均每个药物化学出版物有两个错误，导致某些数据库中的总体错误率高达 8%，数据错误会显著降低任何模型的预测能力，并且在用于模型构建时需要特别小心。

图：在 ChEMBL 数据库中，研究了大规模独立细胞毒性测量的可比性在独立实验室测量的重叠复合细胞系系统中，可以观察到相关性较差。这部分是由于注释错误，指出了提取或积累公共数据时数据管理的重要性。

为了确保这种情况，应该花费大量的精力和资源来相应地建立实验室流程和数据处理管道，这反过来又能够创建真实的数据。

数据多样性

一般来说，这个方面指的是正数据和负数据的可用性，以及整个数据集跨越的范围。文献中用于描述大型且多样化的集合的通用术语是“代表性”。

“代表性”数据通常不存在，因为通常科学家选择不将所有化合物进行实验测试或丢弃失败的数据。无论是通过模拟、机器学习还是人类评估来确定优先级，通常的做法仍然是只发展具有*预测性能的分子，这意味着可能不会以最适合学习的方式选择数据。

所有这些限制都会极大地限制模型的学习能力。缺乏反例将限制预测表现不佳的化合物的能力，而缺乏动态范围将导致难以外推到感兴趣的区域并限制模型的适用范围。

数据多样性也可能导致更高的实验成本。例如，围绕特定支架合成分子通常比探索各种随机结构更容易。但序列/结构、物理化学和功能角度的多样性都可以推动模型做出更好的整体预测的能力。

除了某一指标的多样性之外，数据的“多样性”在各种分析中也很重要。例如，测量同一蛋白质的活化、选择性、热稳定性、聚集和产量对于推动项目向前发展至关重要。

为了对药物发现产生有意义的影响，我们需要了解多维优化空间，并在我们执行的分析和捕获的数据中拥有足够多的多样性。

数据量

当然，数量仍然很重要。如果质量合适，数据越多越好。训练机器学习模型所需的数据量可能差异很大。

例如，AlphaFold之所以成功，部分原因是它训练了 1971 年以来在 PDB 中收集的约 100,000 个蛋白质结构的训练，并且数据清楚地涵盖了所有折叠（见 PDB 中的下图）。机器学习能够解决这个问题也就不足为奇了，因为问题空间已被全面覆盖。

图：2018年8月1日添加到PDB的独特折叠数量，使用CATH计算。显示了每年独特褶皱的总数（红色）以及每年添加的新褶皱（蓝色）。资料来源：PDB

相比之下，预测较小范围的抗体序列的结构则更具挑战性。对于小型数据集，覆盖问题空间比较困难，传统的机器学习模型或包含大量先验信息的专用模型通常更好。对于更大的数据集，基于神经网络/深度学习的方法越来越好用。

图：PDB中所有蛋白质（蓝色）、抗体（红色）和黄色单域抗体（“VHH”）的晶体结构数量。资料来源：PDB

数据速度

获取高质量数据的速度和成本对于生成大型数据集、使用主动学习和微调我们的模型至关重要。更容易测量的生物学数据通常获取也更快，但数据价值也降低了。

在两者之间找到正确的权衡通常取决于生物技术公司可以使用哪些方法以及他们如何有效地推进其项目。与临床终点高度相关的更高速度方法的创新可以在人工智能和机器学习时代带来根本优势。例如，主动学习需要快速的循环时间和足够高的吞吐量来完成设计-构建-测试-学习循环并快速迭代化合物。

数据价值

虽然我们可以控制数据的准确性、数量和多样性，但很难获得体内的复杂数据。过去，通过简单的测定流程能够获得大量的数据，例如高通量亲和力筛选，但这些数据很少能够全面直观地反映药物在体内的表现。

因此，对优质数据的追求不仅包括更多、更好质量的数据，还包括对体内行为具有本质上更高预测性的新颖信息和数据。这也主要包括几个方面。

情境化：有利于在尽可能最自然的环境中进行测量的方法，或者更合理的是，在更类似于体内环境的环境中进行测量的方法。例如，肿瘤微环境 (TME) 中的条件很难在 2D 甚至 3D 细胞培养物中重现。

功能性：直接评估活动而不是依赖退而求其次的方法。例如，抗体活动通常追求高亲和力结合物，但文献中的许多其他例子可以明显看出，较低的亲和力对于所需的功能（如激活或选择性）来说通常是足够的，甚至是必需的。

在这些情况下，更重要的是找到不仅是强结合剂而且具有选择性或具有其他治疗价值特性的化合物。亲和力驱动的选择性试图实现这一目标（参见此处HER2 的背景）。

多尺度：整合不同数据模式来推断因果关系的方法，像TCGA这样的大规模计划提供了跨越临床、基因组、表达和成像模式的多样化数据收集的*示例。

转化：认识到其固有局限性并努力将转化相关性作为设计目标的方法，无论是体内药物活性还是扩大的工业过程。复杂的体外模型正在逐步展示预测能力。也就是说，还有很长的路要走，并且仍然存在许多悬而未决的问题。

5V框架总结

数据资源通常需要专家进行广泛的管理和预处理，提取有价值的数据，并减少错误和噪音。

更应该考虑的是：生成有意义的数据，即与目标结果更相关的数据。

了解5V框架意味着人们可以积极地在成本和生成速度/数据可用性、数据质量和可翻译性之间取得平衡。还可以利用这个框架来评估我们的数据生成管道可以在哪里改进，以*限度地提高数据的质量和效用。

如何获得良好的数据？

在对所需数据的属性有了解的基础上，重点开始关注如何处理数据，主要分为两个方面。

1. 机器学习驱动的药物发现的完整技术栈

所谓技术栈，是指某项工作或某个职位需要掌握的一系列技能组合的统称。

一般来说，我们需要区分用于训练程序内机器学习模型的数据（即仅用于特定程序的模型）和用于训练程序间机器学习模型的数据（即使用的模型跨多个程序）。

对于程序间模型，数据的条件性通常会导致进一步的复杂性，因为程序和流程之间的差异使得数据标准化变得更加困难。例子包括不同的适应症或疾病特异性细胞系，或不同的测定条件。

程序内模型数据标准化的步骤和要求大大简化，但在实践中仍需要大量工作。对于更复杂的生物学尤其如此。

下面的金字塔捕获了构成药物发现中机器学习过程的完整栈。每一层都是必需的，任何一层中的错误或噪声都会降低机器学习数据分析的最终性能。

图：整个数据栈。较低层通常对药物发现计划的实际结果影响*。如果没有良好的基础（即预测分析、数据生成、数据捕获和数据预处理步骤），*的分析也只能实现这么多。数据分析和机器学习可以进一步细分为数据表示和机器学习模型。

在设计数据分析或机器学习管道时，了解每一层并仔细评估噪声、错误和不一致的来源非常重要。在评估技术栈生成的数据时，重要的是要认识到在每一层所做的任何更改都需要技术和科学团队之间的密切合作。确定哪些层对数据质量影响*对于维护堆栈的完整性至关重要，因此应持续进行评估。

下面列出了技术堆栈中的基本层，最终构成了一个完整的技术栈：

向数据驱动的生物技术公司转型需要在人员、流程和系统方面进行战略变革。以下是在技术方面的方法。

创建良好的药物发现技术栈：

总结一下：我们总是需要问自己一个问题：通过以较低精度预测复杂的特性或生物学，还是以较高精度预测更简单的生物学，我们是否更有可能实现设计更好药物的目标？

一旦我们做出了这个因项目而异的决定，我们就可以以*方式优化整个技术栈（包括实验）的所有参数，以训练能够回答有意义的生物学问题的模型。

2. 支持数据驱动方法的公司文化和团队组织

如前所述，公司文化和团队将在创建数据驱动型组织时发挥关键作用。

企业文化：

组织结构：

参考链接：

https://medium.com/@leowossnig/the-right-data-for-good-results-introducing-the-5-vs-of-drug-discovery-data-331e29c683c5

以上就是本篇文章【好的数据应该是怎样的？AI药物发现数据的5V原则】的全部内容了，欢迎阅览！文章地址：http://ktsh.xhstdz.com/quote/70774.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://ktsh.xhstdz.com/mobile/ , 查看更多