基于大语言模型的蛋白质工程系统、平台的制作方法

未命名 08-26 阅读:99 评论:0


1.本发明属于生物技术领域,特别涉及一种基于大语言模型的蛋白质工程系统、平台。


背景技术:

2.通过扩大预训练语言模型的参数量和数据量,大语言模型(large language model)能够在效果显著提升的同时,展示出许多小模型不具备的特殊能力(如上下文学习能力、逐步推理能力等)。大语言模型应用已经展现出了超强的人机对话能力和任务求解能力。
3.通常来说,大语言模型指的是那些在大规模文本语料上训练、包含百亿级别参数的语言模型。目前的大语言模型采用与小模型类似的transformer架构和预训练目标(如language modeling),与小模型的主要区别在于增加模型大小、训练数据和计算资源。大语言模型的表现对于某些能力,只有当语言模型规模达到某一程度才会显现,这些能力被称为涌现能力,代表性的涌现能力包括上下文学习、指令遵循、逐步推理等。由于大语言模型的这些进展,使其在对于理解和执行较为困难的蛋白质工程任务领域的应用成为可能。


技术实现要素:

4.本技术实施例之一,一种基于大语言模型的蛋白质工程ai平台。该平台旨在增强现有通用大语言模型在蛋白质工程任务上的表现能力,实现一款基于大语言模型的蛋白质工程ai平台,以解决更广泛的复杂蛋白质工程任务。该平台蛋白质工程领域包括蛋白质折叠、蛋白质逆折叠、蛋白质定向进化、蛋白质结合预测、蛋白质化学属性预测、蛋白质3d结构的可视化、蛋白质领域知识问题回答,使得原本只能在和用户对话的大语言模型可以实现和执行蛋白质工程的任务。
5.本技术在大语言模型上实现,但是本技术不受到具体大语言模型的模型种类的影响,只需要大语言模型具有上下文学习(in-context learning)的能力即可。
附图说明
6.通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
7.图1根据本发明实施例之一的蛋白质工程平台示意图。
具体实施方式
8.根据一个或者多个实施例,一种基于大语言模型的蛋白质工程ai平台。基于上下文学习,实现理解和用户需求、调用相关的蛋白质工程包、软件、工具和api,最终实现通过自然语言输入作为可以执行调用蛋白质工程工具。
9.具体而言,通过给定不同的上下文,为大语言模型分配了三个关键角色:ai项目经理、ai领域专家和ai展示者。在这里,角色是拟人化的,实际是ai算法软件模块。这个设计解决了传统大语言模型无法调用蛋白质工程工具的局限性。其中,
10.ai项目经理充当主要协调者的角色,解释用户以自然语言表达的输入,并确保正确提供所有必要的输入、配置、参数和条件。随后,ai项目经理将用户给定的复杂任务分解为更小、更可管理的子任务,并将这些子任务委派给适当的ai领域专家。在本发明中通过使用多个ai领域专家来分别解决蛋白质工程中不同种类的任务,ai领域专家会把执行后的结果传输给ai展示者,将专业术语转化成易读的自然语言反馈给用户。
11.总结的来说,在推理阶段,ai项目经理根据当前任务的性质选择并分配一部分ai领域专家来执行相关的api。最后,ai展示者负责向用户呈现由ai领域专家生成的单模态或多模态结果,以清晰、简明易懂的方式呈现结果,从而有助于用户理解并有效地传达结果。
12.根据一个或者多个实施例,一种基于大语言模型的蛋白质工程ai平台。包括ai项目经理、ai领域专家和ai展示者模块。每个模块的功能的设计如下:1.ai项目经理,充当用户和ai领域专家之间交互的主要接口,桥接用户与本发明底层蛋白质工程工具。主要负责解释用户以自然语言表达的输入,确定需要执行的任务。
13.具体来说,基于大语言模型本身和上下文学习中给出的蛋白质案例,理解用户对于蛋白质序列、蛋白质关键词、蛋白质术语,并且转化成ai领域专家可执行命令。
14.除此之外,ai领域专家还确保正确提供所有所需的输入、参数、配置和条件。这通过两种不同的操作模式来实现:
15.(1)开发者模式:在这种模式下,必须显式提供所有必需的参数,然后将子任务委派给ai领域专家来执行。如果缺少任何参数,ai项目经理会提示用户提供必要的信息。此外,在启动执行过程之前,ai项目经理会向用户呈现划分的子任务列表,以供最终确认。这种模式适用于熟悉api并希望对任务执行过程有细致控制的用户。用户可以使用命令如“切换到开发者模式”轻松从默认的用户模式切换到开发者模式。
16.(2)用户模式:在这种用户友好的模式下,ai领域专家会自动填充任何缺失的参数,以提供无缝的用户体验。这种默认模式适用于偏好更简单、交互方式直接的用户。
17.为了准确解析和解构用户的查询,ai项目经理使用上下文学习(在上下文学习中,给出一些蛋白质任务,并且给出对应的ai领域专家),这是一种更高效的方法,相比于计算密集的大语言模型微调过程更为高效。通过将复杂任务系统地分解为较小、可管理的子任务,ai项目经理确保充分理解用户的要求。一旦定义了子任务,ai项目经理将它们委派给适当的ai领域专家,考虑到它们各自的专业领域。
18.2.ai领域专家,专门设计用于管理与蛋白质工程相关的不同类别的任务。本发明的一共包含7个ai领域专家,分是用于执行蛋白质折叠、蛋白质逆折叠、蛋白质定向进化、蛋白质结合预测、蛋白质化学属性预测、蛋白质3d结构的可视化、蛋白质领域知识问题回答这些任务。每个专家都配备了执行其指定任务所需的领域特定知识和工具。这些工具包括相关的api、相应的规则和详细的描述。
19.为了确保ai领域专家高效自适应地执行任务,这里包括实现了一个新颖的自我反馈通信循环机制,该机制在ai领域专家和ai项目经理之间进行。这种自主机制无需人工干预,使得ai领域专家能够逐步改进对执行过程中可能出现的新挑战的理解,并在需要时向
其他ai领域专家寻求帮助。ai领域专家会向ai项目经理沟通确定给定的蛋白质信息(诸如蛋白质二级结构、三级结构或者物化属性),确定蛋白质的设计/改造目标,以及最终的输出形式(诸如一级结构或三级结构、是否要可视化)。因此,ai领域专家可以动态调整和响应任务的不断变化需求,从而保持蛋白质设计任务高度准确性和有效性。
20.3.ai展示者,以清晰、简明和用户友好的方式汇总和呈现ai领域专家生成的结果,确保用户可以轻松解释和利用生成的见解,促进更深入的理解。为了有效地向用户传达结果,ai展示者能够可视化多模态数据,包括但不限于蛋白质序列信息(文本)、蛋白质结构可视化(图片)。此演示针对不同用户偏好进行了定制,并增强了数据的可理解性,使用户能够快速掌握ai领域专家提供的关键见解和结果。
21.如图1所示,本实施例中的一个蛋白设计平台。在支持模型和任务中包括蛋白质折叠、蛋白质逆折叠、蛋白质相互作用、蛋白质可视化、全新序列设计和大规模语言模型,以及相应的工具包,在底层技术中包括transforner、图神经网络、扩散模型和gpt,数据库包括cath数据库、alphafold蛋白结构数据库、pdb数据库。
22.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
23.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种蛋白质工程系统,用以实现蛋白质工程,其特征在于,该系统包括,项目经理模块,该模块用于解释、确定用户提出的以自然语言表达的蛋白质工程任务;领域专家模块,该模块将收到的用户提出的蛋白质任务分解为多个子任务,按照子任务的不同类型,分派给不同类型的子领域专家模块,以解决不同的子任务;展示者模块,该模块接收由所述领域专家模块输出的任务完成结果,将该结果转化为易读的自然语言展示给用户。2.根据权利要求1所述的蛋白质工程系统,其特征在于,所述系统包括多个蛋白质工程工具。3.根据权利要求2所述的蛋白质工程系统,其特征在于,所述系统的项目经理模块、领域专家模块或展示者模块的实现基于大语言模型。4.根据权利要求3所述的蛋白质工程系统,其特征在于,用户提出的表达蛋白质工程任务的自然语言包括蛋白质序列、蛋白质关键词和/或蛋白质术语,所述项目经理模块基于大语言模型理解、解释、确定用户提出的蛋白质工程任务。5.根据权利要求3所述的蛋白质工程系统,其特征在于,所述领域专家模块包括多个子领域专家模块,分别是蛋白质折叠、蛋白质逆折叠、蛋白质定向进化、蛋白质结合预测、蛋白质化学属性预测、蛋白质3d结构的可视化、蛋白质领域知识问答。6.根据权利要求3所述的蛋白质工程系统,其特征在于,所述展示者模块将所述领域专家模块输出的结果以包括蛋白质序列信息和/或蛋白质结构图的形式展示给用户。7.一种蛋白质工程平台,其特征在于,所述平台包括服务器,服务器包括项目经理模块、领域专家模块和展示者模块,以及多个蛋白质工程工具,项目经理模块,用于解释、确定用户提出的以自然语言表达的蛋白质工程任务;领域专家模块,将收到的用户提出的蛋白质任务分解为多个子任务,按照子任务的不同类型,分派给不同类型的子领域专家模块,以解决不同的子任务;展示者模块,接收由所述领域专家模块输出的任务完成结果,将该结果转化为易读的自然语言展示给用户。8.根据权利要求7所述的蛋白质工程平台,其特征在于,所述项目经理模块、领域专家模块或展示者模块的实现基于大语言模型。9.一种终端设备,其特征在于,用户通过所述终端设备向如权利要求7所述的蛋白质工程平台提出蛋白质工程任务,并接收所述平台反馈的任务完成结果。

技术总结
本发明公开了一种蛋白质工程系统,用以实现蛋白质工程。该系统包括,项目经理模块,该模块用于解释、确定用户提出的以自然语言表达的蛋白质工程任务;领域专家模块,该模块将收到的用户提出的蛋白质任务分解为多个子任务,按照子任务的不同类型,分派给不同类型的子领域专家模块,以解决不同的子任务;展示者模块,该模块接收由所述领域专家模块输出的任务完成结果,将该结果转化为易读的自然语言展示给用户。户。户。


技术研发人员:沈逸卿 周冰心 朱厚英 王宇光
受保护的技术使用者:上海途深智合人工智能科技有限公司
技术研发日:2023.06.06
技术公布日:2023/8/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐