AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

MLF 大数据机器学习框架（弥勒佛）

程序名称：MLF

授权协议: Apache

操作系统: 跨平台

开发语言: Google Go

MLF 介绍

让天下没有难做的大数据模型！

功能

下面是弥勒佛框架解决的问题类型，括号中的斜体代表尚未实现以及预计实现的时间

监督式学习：最大熵分类模型（max entropy classifier），决策树模型（decision tree based models， 2014 Q1 ）
非监督式学习：聚类问题（k-means， 2014 Q1 ）
在线学习：在线梯度递降模型（online stochastic gradient descent）
神经网络（ 2014 Q2/3 ）

项目实现了下面的组件

多种数据集（in-mem，skip）
多种评价器（precision，recall，f-score，accuracy，confusion）和交叉评价（cross-validation）
多种优化器：协程并发L-BFGS，梯度递降（batch, mini-batch, stochastic），带退火的学习率（learning rate），L1/L2正则化（regularization）
稀疏向量（sparse vector）以存储和表达上亿级别的特征
特征辞典（feature dictionary）在特征名和特征ID之间自动翻译

现有的机器学习框架/软件包存在几个问题：

无法处理大数据：多数Python，Matlab和R写的训练框架适合处理规模小的样本，没有为大数据优化。
不容易整合到实际生产系统：standalone的程序无法作为library嵌入到大程序中。
模型单一：一个软件包往往只解决一个类型的问题（比如监督式或者非监督式）。
不容易扩展：设计时没有考虑可扩展性，难以添加新的模型和组件。
代码质量不高：代码缺乏规范，难读懂、难维护。

弥勒佛项目的诞生就是为了解决上面的问题，在框架设计上满足了下面几个需求：

处理大数据 ：可随业务增长scale up，无论你的数据样本是1K还是1B规模，都可使用弥勒佛项目。
为实际生产 ：模型的训练和使用都可以作为library或者service整合到在生产系统中。
丰富的模型 ：容易尝试不同的模型，在监督、非监督和在线学习等模型间方便地切换。
高度可扩展 ：容易添加新模型，方便地对新模型进行实验并迅速整合到生产系统中。
高度可读性 ：代码规范，注释和文档尽可能详尽，适合初学者进行大数据模型的学习。

MLF 官网

https://github.com/huichen/mlf

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

大数据相关

相关推荐

RedHadoop 是一个持续优化的企业级Hadoop基础软件平台,让Hadoop大数据更简单! RedHadoop大数据工场企业版是RedHadoop公司第一款产品，简称BWE(RedHadoop BigData Works

作者：编程之家时间：2022-07-25

来自 Mozilla 的 Heka 是一个用来收集和整理来自多个不同源的数据的工具，通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析。

作者：编程之家时间：2022-07-25

Apache HBase HFileHLogFile

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC

作者：编程之家时间：2022-07-25

Mincemeat-node 是使用Node.js实现的极简MapReduce框架，可以快速的部署投入工作，免去Hadoop繁琐的配置，享受随心大数据。

作者：编程之家时间：2022-07-25

REEF 是微软开发的一个大数据框架。 REEF运行在YARN的上层。YARN是新一代Hadoop资源管理器，通过YARN，用户可以运行和管理同一个物理集群机上的多种作业，例如MapReduce批处理和图形处理作业。这样不仅可以巩固一个

作者：编程之家时间：2022-07-25

Scribe旨在帮助Facebook处理服务器上的大量数据，正像Scribe网页所述“如经常访问Facebook，请使用Scribe。”具体而言，Scribe就是一台服务器，实时收集用网站日志信息。

作者：编程之家时间：2022-07-25

HTools是一款专业的Hadoop管理工具，不管您是非专业IT人士，还是多年经验的技术人员，本工具都会为您提供优质的管理服务和轻松的操作过程，

作者：编程之家时间：2022-07-25

hive让大数据飞了起来，不再需要专人写MR。平常我们都可以用基于thrift的任意语言来调用hive。

作者：编程之家时间：2022-07-25

MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。概念”Map（映射）”和”Reduce（化简）”，和他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。

作者：编程之家时间：2022-07-25

Netflix 开源了一个叫做Suro的工具，它能够在数据被发送到不同的数据平台（如Hadoop、Elasticsearch）之前，收集不同应用服务器上的事件数据，这项创新技术具备成为大数据主流实践的潜力

作者：编程之家时间：2022-07-25