微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

tensorflow.python.framework.errors_impl.UnavailableError: OS Error

今天在做分布式实例搭建的时候出现了上述问题。

出现现象:1.当只有1台参数服务器,1台计算服务器的时候,程序是没有问题的(也可能只是我尝试的那次没有问题)

2.当使用1台参数服务器,2台计算服务器的时候,程序就出现了上述的问题。

一开始以为是gRPC的问题,因为一开始出现的问题是

tensorflow.python.framework.errors_impl.UnkNownError: Could not start gRPC server

后来将计算节点的端口号改为一致之后才没有问题。

之后我看了看有可能是tf.train.Supervisor()函数的问题,后来修改成tf.train.MonitoredTrainingSession()后也是不行,但是也是一个方向。

找了好久都找不到原因,最后我是看到该博客上的方法才可以。

https://github.com/tensorflow/tensorflow/issues/17852

一开始原博主说的是将gRPC的版本恢复成旧版本,我找了下可能要好老的版本,现在是gprcio.1.19,后来也不行。

后来说了可能是由于gRPC的环境变量问题,GRPC_POLL_STRATEGY=poll

通过设置这个即可。

文件中编辑即可。

import os
os.environ['GRPC_POLL_STRATEGY'] = "poll"

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐