微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

.Net和Hadoop – 知道/学习什么和可用的?

信息

我的问题是关于.Net中的BigData。 BigData用于存储和查询大量数据(Facebook,Google,Twitter,…)。 BigData的例子有MapReduce,Hadoop,Dryad,…

微软放弃了他们的Dryad(DryadLinq)替代方式,以支持Hadoop( Dryad和文章 ),所以我想为它做好准备以及与它有关的一切。

我已经知道了

现在有什么可用的?

Hadoop连接器

从Windows媒体库获取目录列表

“资源监视器”显示了比我在程序上写的两个更多的线程

在Windows Mobile应用程序中存储应用程序设置的首选方法是什么?

如何比较两个不同的文本文件

SSL证书预取.NET

sql Server 2012 RC(不要在生产中使用:))

微软大数据信息

了解更多关于发布和开发的内容

在TechPreview上注册

问题

问题1 :我应该了解哪些与.Net平台不同的Hadoop? (如何查询,特定的模式,架构,…),将是有用的(在.net环境中)

问题2 :在.Net平台上有没有关于Hadoop的更多信息,比我已经知道的多?

Windows应用程序的风格化安装程序

如何摆脱循环服务参考?

ASP.NET中的Windows时区缩写

让Windows决定如何打开/运行该文件

.NET:发送文本消息到同一个应用程序的所有实例并读取它

这是一个模糊的问题,所以这里是一个模糊的答案:)

Hadoop本身就是一个在集群中运行map-reduce作业的工具,它对性能进行了高度优化,并且通过以一种方式分发数据来完成大量的优化,这种方式使得它易于使用而不会产生I / O处罚。

为此,您应该阅读HDFS和内部解释如何完成,简而言之,会发生什么情况是输入数据聚集在节点中以便在本地运行进程并顺序读取(这是HDFS的属性/限制) 。

这样你输入你的“BigData”,它在集群内以最有效的方式被拆分和处理。

现在“Hadoop本身就有了,所有的工具都可以在它上面工作,使您可以对数据执行高级抽象(map-reduce是最简单的过程之一)。

这些包括

猪http://pig.apache.org/这是一种语言,与map-reduce进程一起工作,并构建更复杂的操作

Hive http://hive.apache.org/类似于以前的但更多的以sql为导向

层叠http://www.cascading.org/ ,另一个更侧重于数据流而不是查询

Cascalog基于Cascading的https://github.com/nathanmarz/cascalog ,用Clojure编写

HBase http://hbase.apache.org/是HDFS上的一种Nosql数据库

ElephantDB https://github.com/nathanmarz/elephantdb另一个用于Hadoop的Nosql数据库

.Net的细节

对于Azure上的Hadoop(.Net),这里有一个关于msdn的介绍, 这里有更多的信息 。 与通过平台构建Hadoop应用程序相关。 现在只有CTP,但是当然这个会改变的。

这是另外一个关于Hadoop和MapReduce的博客

此外,还有一家公司经常提供有关Hadoop的信息: Cloudera ,您应该经常查看以获取更多信息。 有关更多信息,请查看上面链接的cloudera页面,您可以查看有关Hadoop的所有概念(虽然这很先进)

我很确定这不是你要找的,但我不知道你想要什么,所以至少我希望你能检查一些可能有帮助的新项目。

还查看Storm: https : //github.com/nathanmarz/storm它与Hadoop无关,但可用于Hadoop不适合的实时场景。

目前,Hadoop并没有太多.NET特有的东西。 您只需遵循常规的Hadoop教程。 sql server连接器允许您只导入输入数据并将结果导出为更容易访问其余应用程序的格式。

你可以在Windows上运行Hadoop。 但是,它需要Cygwin (类似于Unix的环境和用于Microsoft Windows的命令行界面)。

基本上,要使用Hadoop,您将需要学习Linux。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐