我有一个一维数值数据集(但我的问题也适用于一个n维数值数据集)我想要聚类,我已经知道了聚类中心的值.所以我只想将每个数据点映射到其关联的聚类中心(最接近数据点的聚类中心).
我可以编写一个ad hoc函数,但我真的更喜欢使用优化的Python科学库来处理pandas.Series或numpy.arrays,因为我的数据集非常大(数亿个数据点).
我怎样才能做到这一点?
谢谢!
解决方法:
你正在寻找scipy vq
function.
第一个参数是要聚类的数据,第二个参数是聚类坐标.返回值的第一个元素是每个集群的索引(标签),这是您想要的:
>>> vq( array([0,5,5]), array([1,2,3]) )
(array([0, 2, 2]), array([ 1., 2., 2.]))
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。