我希望快速将约10-20M ISO日期时间字符串以微秒精度投射到datetime64,以用作pandas中的DataFrame索引.
我在大熊猫0.9上,已经尝试过在git上建议的解决方案,但我发现它花了20到30分钟,或者从未完成.
我想我已经找到了问题.比较这两个的速度:
rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y-%m-%d %H:%M:%s.%f') for x in rng]
timeit to_datetime(strings)
在我的笔记本电脑上,约300毫秒.
rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y%m%dT%H%M%s.%f') for x in rng]
timeit to_datetime(strings)
在我的笔记本电脑上,永远和一天.
我可能只是改变生成时间戳的c代码,暂时将它们放在更详细的ISO格式中,因为循环并修复数千万枚邮票的格式可能相当慢……
解决方法:
快速解析器代码只处理带有破折号和冒号的标准ISO-8601 – 正如您所看到的,当字符串是正确的格式时,它会超快.如果你可以说服代码在GitHub上,并且肯定可以改进以处理更多的情况(最好不要太慢地减慢标准格式).
作为部分令人满意的解决方法,您可以使用datetime.strptime将字符串转换为datetime.datetime,然后将该结果传递给to_datetime:
In [4]: paste
rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y%m%dT%H%M%s.%f') for x in rng]
## -- End pasted text --
In [5]: iso_strings = [x.strftime('%Y-%m-%d %H:%M:%s.%f') for x in rng]
In [6]: %timeit result = to_datetime(iso_strings)
1 loops, best of 3: 479 ms per loop
In [7]: f = lambda x: datetime.strptime(x, '%Y%m%dT%H%M%s.%f')
In [8]: f(strings[0])
Out[8]: datetime.datetime(2000, 1, 1, 0, 0)
In [9]: %time result = to_datetime(map(f, strings))
cpu times: user 48.47 s, sys: 0.01 s, total: 48.48 s
Wall time: 48.54 s
它是100倍不同但比1000%慢得多.我敢打赌to_datetime可以改进使用更快的C语言strptime.我想,演习留给了读者
有一天的待办事项:http://github.com/pydata/pandas/issues/2213
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。