我有一个非计算机相关的数据记录器,它从现场收集数据.这些数据存储为文本文件,我手动将文件放在一起并组织它们.当前格式是每个记录器每年通过一个csv文件.每个文件大约4,000,000行x 7个记录器x 5年=大量数据.一些数据被组织为bin,item_type,item_class,item_dimension_class,其他数据更加独特,例如item_weight,item_color,date_collected等等……
目前,我使用我编写的python / numpy / matplotlib程序对数据进行统计分析.它工作正常,但问题是,我是唯一可以使用它的人,因为它和数据存在于我的计算机上.
我想使用postgres db在网上发布数据;但是,我需要找到或实施一个统计工具,它将采用一个大的postgres表,并在适当的时间范围内返回统计结果.我不熟悉网络的python;但是,我在网络方面精通PHP,在线下方面精通python.
应该允许用户创建自己的直方图,数据分析.例如,用户可以搜索在第x周和第y周之间发送蓝色的所有项目,而另一个用户可以搜索按年份按小时对所有项目的权重分布进行排序.
我正在考虑创建和索引我自己的统计工具,或者以某种方式自动化流程以模拟大多数查询.这似乎效率低下.
我期待着听到你的想法
谢谢
解决方法:
我认为如果用户数量不是太大,你可以充分利用你当前的组合(python / numpy / matplotlib).我做了一些类似的工作,我的数据大小超过10克.数据存储在几个sqlite文件中,我使用numpy分析数据,PIL / matplotlib生成图表文件(png,gif),cherrypy作为网络服务器,mako作为模板语言.
如果您需要更多服务器/客户端数据库,那么您可以迁移到postgresql,但如果您使用python Web框架(如cherrypy),您仍然可以完全使用当前程序.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。