分子属性预测的数据集描述_第1页
分子属性预测的数据集描述_第2页
分子属性预测的数据集描述_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新分子设计的模型:(1)分子生成,(2)分子评分方法,(3)针对评分函数优化或搜索更好分子的方法1、ogbn-proteins:Protein-ProteinAssociationNetworkogbn-proteins:无向,带权重,多种边类型的图结构。节点代表着蛋白质分子,边表示蛋白质之间不同类型的有生物学意义的联系,例如物理相互作用、共表达或同源性。所有的边都有8维特征,每个维度代表一个关联类型的强度,取值范围在0到1之间(值越大,关联越强)。蛋白质来源于8种物种。其任务是在一个多标签二元分类系统中预测蛋白质功能的存在,该系统中总共有112种标签需要预测。这一表现是根据这112项任务中ROC-AUC的平均分来衡量的。2、ogbl-ddi:Drug-DrugInteractionNetworkogbl-ddi:是无权重无向的同质图,代表药物-药物相互作用网络。每个节点都代表着一个专业的药物。边表示药物之间的相互作用。这个作用可以解释为一种现象,当这两种药物同时使用时所产生的联合效应与这两种药物单独使用时所产生的的预期效应有很大的不同。其任务是在已知的药物-药物相互作用信息的基础上预测药物-药物的相互作用。评估指标与ogbl-collab相似,该模型将真实药物相互作用的排名高于非相互作用药物对。3、ogbl-biokg:BiomedicalKnowledgeGraphogbl-biokg:ogbl-biokg数据集是一个知识图谱(KG),它是使用来自大量生物医学数据存储库的数据创建的。它包含五种实体:疾病(10687个节点),蛋白质(17499个节点),药物(10533个节点),副作用(9969个节点),蛋白质功能(45085个节点)。有51种类型的有向关系将两种类型的实体联系起来,包括39种药物相互作用,8种蛋白质相互作用,以及药物,药物副作用,药物,功能,功能关系。所有关系均建模为有向边,其中连接相同实体类型(例如蛋白质-蛋白质,药物-药物,功能-功能)的关系始终是对称的,即,边是双向的。这个数据集与生物医学和基础医学研究相关。在生物医学方面,该数据集使我们能够更好地了解人类生物学,并产生预测,从而指导下游的生物医学研究。在基本的ML方面,数据集显示了在处理噪声、不完整的KG时可能存在矛盾的挑战。这是因为ogblbiokg数据集涉及从分子尺度(例如,细胞内的蛋白质-蛋白质相互作用)到整个人群的异质相互作用(例如,某个国家的患者所经历的有害副作用的报告)。此外,KG中的三元组来自具有各种置信水平的来源,包括实验性的读数、人工编制的注释和自动提取的元数据。任务是根据给定的训练三元组来预测新的三元组。3、ogbg-ppa:Protein-ProteinAssociationNetworkogbg-ppa:ogbg-ppa数据集是从1581个不同物种的蛋白质-蛋白质关联网络中提取的一组无方向的蛋白质关联邻域,这些蛋白质关联网络覆盖了37个广泛的分类类群(如哺乳动物、细菌科、古生菌),并横跨生命之树。为了构建邻域,我们从每种物种中随机选择了100种蛋白质,并以每个选定的蛋白质为中心构建了2跳蛋白关联邻域.然后,我们从每个邻域中移除中心节点,并对邻域进行下采样,以确保最终的蛋白关联图足够小(小于300个节点)。每个蛋白质关联图中的节点表示蛋白质,边表示蛋白质之间有生物学意义的关联。边缘与7维特征相关联,其中每个元素取0到1之间的值,表示特定类型蛋白质的强度蛋白质关联,如基因共现、基因融合事件和共表达。给定一个蛋白质关联邻域图,该任务是一个37向多分类方法,以预测该图源自哪个分类学组。成功解决该问题的能力对于理解跨物种的蛋白质复合物的进化,随着时间的推移重新建立蛋白质相互作用,发现基因之间的功能性关联(甚至对于其他方面未被研究的生物)也具有意义,并且将使我们对关键的生物信息学有深刻的认识诸如生物网络对齐之类的任务4、GDBGDBGDB-11:遵循简单的化学稳定性和合成可行性规则,列举了最多11个C,N,O和F原子的有机小分子。GDB-13:遵循简单的化学稳定性和合成可行性规则,列举了最多13个C,N,O,S和Cl原子的有机小分子。GDB-13具有977468314种结构,是迄今为止最大的可公开获得的小型有机分子数据库。GDB-17:药物分子由几十个通过共价键连接的原子组成。这些分子总共可能有多少个,它们的结构是什么?这个问题在药物化学中引起了人们的紧迫兴趣,以帮助解决药物效价,选择性和毒性的问题,并通过指出新的分子系列来降低损耗率。为了更好地定义未知的化学空间,我们列举了1664亿个碳原子,碳原子,氮原子,氧原子,硫原子和卤素原子的17个原子组成的分子,形成了化学宇宙数据库GDB-17,涵盖的范围涵盖了许多药物和典型的铅化合物。GDB-17包含数百万种已知药物的异构体,包括与母体药物具有高度形状相似性的类似物。与PubChem中的已知分子相比,GDB-17分子在非芳族杂环,季中心和立体异构体中含量更高,在形状空间的第三维中密集分布,并代表了更多的支架类型5、QM7/QM7bQM7/QM7b数据集是GDB-13数据库的子集:使用二元密度泛函理论(PBE0/tier2基集)确定每个分子的最稳定构象和电子特性(原子化能,HOMO/LUMO特征值等)的3D直角坐标。在稳定的构象坐标下,以QM7/QM7b为基准的学习方法负责预测这些电子特性。QM7b该数据集是用于多任务学习的QM7数据集的扩展,其中必须在不同的理论水平(ZINDO,SCS,PBE0,GW)下预测13个其他属性(例如极化率,HOMO和LUMO特征值,激发能)。还包括其他含氯原子的分子,总计7211个分子。6、QM8QM8数据集来自最近对电子光谱的量子力学计算和小分子激发态能量建模的研究,是GDB-17的子集。在2.2万个样本上,用三种不同的方法计算了四种激发态性质。7、QM9QM9是一个全面的数据集,为GDB-17数据库的一个子集提供几何、能量、电子和热动力学特性。该数据库包含431.4万个稳定有机分子每个分子最多含有9个重原子。所有分子均使用密度泛函理论(基于B3LYP/6-31G(2df,p)的DFT)建模。在我们的基准测试中,将几何属性(原子坐标)集成到特征中,然后将其应用于预测其他属性。上述介绍的数据集(QM7,QM7b,QM8,QM9)是作为量子机器工作的一部分进行策划的,该工作已经处理了大量数据集,以衡量机器学习方法在量子化学方面的有效性ESOLESOL是一个由1128种化合物的水溶性数据组成的小型数据集,该数据集已用于训练直接从化学结构(如SMILES字符串中编码)估算溶解度的模型。请注意,这些结构不包含3D坐标,因为溶解度是分子的属性,而不是特定构象的属性FreeSolv自由溶剂化数据库(FreeSolv)提供了实验和计算的小分子在水中的水化自由能。计算值是由分子动力学模拟的化学自由能计算得出的。我们将实验值包含在基准测试集合中,并使用计算值进行比较。Lipophilicity亲脂性是影响膜通透性和溶解性的药物分子的重要特征。该数据集来自ChEMBL数据库,提供了4200种化合物的辛醇/水分配系数(pH7.4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论