灵感来自下棋博弈,华大智造研发团队发布强化学习算法登Nature子刊
灵感来自下棋博弈,华大智造研发团队发布强化学习算法登Nature子刊
Plant_ihuman
专注前沿科学动态,传递科普信息。
蛋白质工程发展,
从定向进化到“从头设计”
图1. EvoPlay 与 AlphaZero
在与人的交流反馈中进行强化学习——RLHF(
Reinforcement Learning from Human Feedback
),是强化学习领域的一个重要和热门的研究方向。
DeepMind, Microsoft Research, Google Brain
等机构都在积极投入RLHF的研究。RLHF是一种以人类反馈为训练基础的强化学习策略,也属于基于模型(
model based
)的强化学习策略。
RLHF是通过在与人互动的过程中获取人类的反馈,训练一个奖励模型( reward model )并据此优化智能体( agent )的策略。目前流行的训练策略( policy )的算法包括ChatGPT使用的近端策略优化( PPO[15] Proximal Policy Optimization ),该算法也在EvoPlay基线实验中有应用。与RLHF通过人类反馈训练奖励模型不同,EvoPlay的强化学习模式可以被称为RLPF( Reinforcement Learning from Protein Feedback ),即通过蛋白质的反馈训练奖励模型。在EvoPlay的RLPF中,环境奖励同样由一个模型来模拟,这个模型通常被称为代理模型( surrogate )。通过训练蛋白质的功能或者结构相关的数据集得到代理模型,这些数据集和已训练环境模型都包含了蛋白质序列与功能或者结构的对应关系,相当于强化学习的智能体通过改变蛋白质序列与蛋白质进行“交流”,获取功能以及结构反馈信息。
图2. EvoPlay与超大空间蛋白质设计
一张19×19的围棋棋局变数的空间是
3
361
,相当于序列长度为132的蛋白质的设计空间
20
132
, 这个空间远大于宇宙中的粒子数
10
80
。如此庞大的组合空间为蛋白质设计任务带来了巨大的挑战。以本研究的PAB1(Poly(A)-结合蛋白,全长75个氨基酸)和GFP(绿色荧光蛋白,全长237个氨基酸)为例,人们难以为每一个设计的蛋白质序列做实验验证。在强化学习框架下,研究人员需要解决的问题是如何构建模拟环境奖励的代理模型
,以及如何在不做或者少做实验的情况下验证该环境奖励的可靠性
。
图3. 荧光素酶设计
图4. 多肽设计
图5.DeepMind与OpenAI发展路线图对比
-
2023年血糖新标准公布,不是3.9-6.1,快来看看你的血糖正常吗? 2023-02-07
-
2023年各省最新电价一览!8省中午执行谷段电价! 2023-01-03
-
GB 55009-2021《燃气工程项目规范》(含条文说明),2022年1月1日起实施 2021-11-07
-
PPT导出高分辨率图片的四种方法 2022-09-22
-
2023年最新!国家电网27家省级电力公司负责人大盘点 2023-03-14
-
全国消防救援总队主官及简历(2023.2) 2023-02-10
-
盘点 l 中国石油大庆油田现任领导班子 2023-02-28
-
我们的前辈!历届全国工程勘察设计大师完整名单! 2022-11-18
-
关于某送变电公司“4·22”人身死亡事故的快报 2022-04-26
