AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

TRFL 强化学习构建模块库

程序名称：TRFL

授权协议: Apache-2.0

操作系统: 跨平台

开发语言: Python

TRFL 介绍

TRFL（发音为“truffle”）建立在 TensorFlow 之上，它是一个强化学习构建模块库。

它是 DeepMind 内部大量用于诸如 DQN、DDPG 和 Importance Weighted Actor Learner Architecture
这些成功的代理如的关键算法组件的集合。

TRFL 库包括实现经典 RL 算法以及更尖端技术的功能，提供的损失函数和其它操作在纯 TensorFlow
中实现。它们不是完整的算法，而是实现了在构建全功能强化学习代理时需要的数学运算。

对于基于值的强化学习，TRFL 提供了 TensorFlow 操作用于在离散动作空间中学习，例如 TD-learning、Sarsa、Q-learning
及其变体，同时也提供了用于实现连续控制算法的操作，例如 DPG。此外 TRFL 还包括用于学习分配值功能的操作。

使用示例

import tensorflow as tf
import trfl

# Q-values for the prevIoUs and next timesteps, shape [batch_size, num_actions].
q_tm1 = tf.constant([[1, 1, 0], [1, 2, 0]], dtype=tf.float32)
q_t = tf.constant([[0, 1, 0], [1, 2, 0]], dtype=tf.float32)

# Action indices, pcontinue and rewards, shape [batch_size].
a_tm1 = tf.constant([0, 1], dtype=tf.int32)
pcont_t = tf.constant([0, 1], dtype=tf.float32)
r_t = tf.constant([1, 1], dtype=tf.float32)

loss, q_learning = trfl.qlearning(q_tm1, a_tm1, r_t, pcont_t, q_t)

大多数情况下，您可能只对损失感兴趣：

loss, _ = trfl.qlearning(q_tm1, a_tm1, r_t, pcont_t, q_t)

# You can also do this, which returns the identical `loss` tensor:
loss = trfl.qlearning(q_tm1, a_tm1, r_t, pcont_t, q_t).loss

reduced_loss = tf.reduce_mean(loss)

optimizer = tf.train.AdamOptimizer(learning_rate=0.1)
train_op = optimizer.minimize(reduced_loss)

该模块中的所有损失函数使用上述约定返回损失张量和额外信息。

TRFL 官网

https://github.com/deepmind/trfl

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

机器学习/深度学习

相关推荐

欧盟第7框架计划(FP7)的LarKC项目的目标是开发大规模知识加速器(LarKC，其发音为“lark”)，LarKC被设计为一个大规模分布式不完备推理平台，该平台用于突破语义万维网(Semantic Web)推理系统目前面临的知识处理规

作者：编程之家时间：2022-07-31

Salad 是一种有效且灵活的实现著名的异常检测方法回文构词法王et al . 2006(RAID)。Salad

作者：编程之家时间：2022-07-31

multilanguage 是一个多语开发工具包，用于缓存多语系统的多语值，它拥有良好的性能，并且能防止内存泄露。

作者：编程之家时间：2022-07-31

go-cortex 是一个服务，通过倾听你的句子，并视图理解你的意思，然后执行相应的动作。它使用 Wit.ai

作者：编程之家时间：2022-07-31

DKPro Core 是基于 Apache UIMA 框架之上的自然语言处理（NLP）的软件组件。DKPro Core 提供了这样的第三方工具以及原NLP组件的包装。

作者：编程之家时间：2022-07-31

NLTK 会被自然地看作是具有栈结构的一系列层，这些层构建于彼此基础之上。那些熟悉人工语言（比如

作者：编程之家时间：2022-07-31

ERNIE 是基于持续学习的语义理解预训练框架，使用多任务学习增量式构建预训练任务。

作者：编程之家时间：2022-07-31

Algorithm research AC 编译及使用方法实例1返回值实例2返回值

Algorithm research 基于 AC 有限状态自动状态机的过滤服务。 AC 编译及使用方法 1. 编译之前请先确认安装好 libevent

作者：编程之家时间：2022-07-31

spaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。示例代码： >>> import spacy.en

作者：编程之家时间：2022-07-31

Lango 是自然语言处理库，类似乐高游戏，可以把各个语言块构建在一起工作。

作者：编程之家时间：2022-07-31