36、强化学习的部署与实践

强化学习的部署与实践

1. 强化学习的预测与决策解释

在强化学习中,可以通过考虑反事实情况,即相反的行动或可能发生的事情,来拓展全局方法的预测性质。有人通过训练一个模型来表示一个近似环境转换动态的因果图来实现这一点,但这种方法仅适用于离散状态。

类似地,指出状态的哪些部分影响决策也很有用。对于有视觉观察或具有位置、邻接概念的状态问题,可以使用显著性图来突出对动作选择重要的区域。

2. 评估结论

评估是生活中固有的一部分。在工业应用中,评估工作有助于确定何时完成任务。在软件工程中,通常是验收测试通过时;在机器学习中,可接受的性能通常由评估指标定义。但在强化学习中,由于决策的战略性,很难确定何时达到足够好的状态。

一般来说,智能体的性能由策略获得的奖励以及获得奖励的速度来定义。但如果想在生产环境中训练和使用稳定、健壮的策略,还应考虑一系列其他指标,包括解释策略决策的能力,这在高影响应用中可能至关重要。

3. 部署概述

部署指的是将应用投入生产或实现运营化的阶段。项目发展到一定阶段,大家都认可其可行性和价值,但要持续保持这种状态,就需要保证可靠性。这部分内容主要探讨如何将初步的强化学习概念验证转化为能服务真实用户的项目。

由于关于强化学习应用的运营经验较少,很多内容需要从运行软件和机器学习应用的经验中推断,同时结合个人的实践经验。

4. 部署目标

在深入探讨部署细节之前,考虑这一阶段的目标很重要,因为没有一种通用的理念或架构适用于所有情况。

4.1 不同开发阶段的目标

在开发过程中,有三个阶段

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值