有人可以推荐一个好的解决方案(框架)来从Scala(或Java)应用程序访问Hadoop集群上的HBase吗?
到现在为止,我正朝scalding方向前进.我获得的原型允许我将scalding库与Maven相结合,并将’scilding job JAR与’library’代码包分开.这反过来又允许我从外部集群运行基于scalding的Hadoop作业,每个作业的开销最小(‘库’代码只在更改时才会发布到集群’分布式缓存'(很少需要),因此我可以快速加载作业代码) .
现在我实际上开始玩HBase本身,我看到烫伤是好的,但它不是那么“原生”的HBase.是的,有一些像hbase-scalding这样的东西,但是我还是有一点点计划未来的行动,我想知道我可能错过的其他好的解决方案.
预期结果:
>从头开始的应用程序(作业)应该很低.我需要经营很多.
>应该可以(更容易 – 更好)在没有任何SSH的情况下从外部集群运行作业(仅基于’hadoop jar’命令,甚至仅仅通过应用程序执行).
>乔布斯语言本身应该允许简短的逻辑语义.理想情况下,此代码应足够简单,以便自动生成.
>此解决方案应该在足够大的HBase表(最初高达100.000.000个条目)上高效.
>好的,解决方案应该是’活的'(正在积极开发),但在总体稳定性方面相对较好.
我认为这里的论证可能比解决方案本身更有用,这个问题应该为许多人添加一些想法.
任何和平的建议?
解决方法:
HPaste http://www.gravity.com/labs/hpaste/可能正是您所需要的.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。