微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python – 从谷歌ml-engine(tensorflow)读取桶中的数据

我在从Google托管的存储桶中读取数据时遇到问题.
我有一个桶,包含我需要访问的~1000个文件,保存在(例如)
  GS://我的桶/数据

使用命令行或其他Google Python客户端中的gsutil,我可以访问存储桶中的数据,但认情况下,google-cloud-ml-engine不支持导入这些API.

我需要一种方法来访问数据和文件名称,使用认的python库(即os)或使用tensorflow.我知道tensorflow在某个地方内置了这个功能,我很难找到

理想情况下,我正在寻找一个命令的替换,如os.listdir()和另一个命令为open()

train_data = [read_training_data(filename) for filename in os.listdir('gs://my-bucket/data/')]

read_training_data使用张量流读取器对象

谢谢你的帮助! (还有p.s.我的数据是二进制的)

解决方法:

如果您只想将数据读入内存,那么this answer将提供您需要的详细信息,即使用file_io模块.

也就是说,您可能需要考虑使用TensorFlow的内置读取机制,因为它们可以更高效.

有关阅读的信息可以在here找到.最新和最好的(但尚未成为官方“核心”TensorFlow的一部分)是数据集API(更多信息here).

要注意的一些事项:

>您使用的格式TensorFlow可以读取吗?它可以转换为那种格式吗?
>“喂养”的开销是否足以影响训练表现?
>训练设置得太大而无法记忆吗?

如果对一个或多个问题的答案是肯定的,尤其是后两个问题,请考虑使用读者.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐