解决了

Nutanix上的分布式对象存储

  • 2018年1月10
  • 2回答
  • 1084的浏览量

徽章 +3
嗨,我们开始在我们的Nutanix集群上使用Spark。不是很大,而是并行运行一些ETL进程。我承受着在集群上安装Hadoop,或者至少是HDFS的压力,但是在Nutanix已经提供的文件系统之上添加一个分布式的、有弹性的“文件系统”(实际上我认为它更像是一个对象存储)的整个概念似乎有点不太合适。

有什么推荐的方法吗?我知道容器是通过NFS导出到ESXi的。这有用吗?那能利用星际之门从任何地方进入吗?我真正需要的是一个在所有节点之间共享的全局可用容量。
图标

最佳答案乔恩2018年1月10日,23:04

\nI've moved your post from the CE forums to our production product forums.
\n
\n
\nIn general, for Hadoop on Nutanix, I'd recommend checking out these three assets which you can cherry pick data from
\nhttps:\/\/portal.nutanix.com\/#\/page\/solutions\/details?targetId=RA-2078-Cloudera-with-Nutanix:RA-2078-Cloudera-with-Nutanix<\/a>
\n
https:\/\/portal.nutanix.com\/#\/page\/solutions\/details?targetId=RA-2030_Hadoop_with_AHV:RA-2030_Hadoop_with_AHV<\/a>
\n
\n
\n
\nWe dont specifically have a Spark on Nutanix guide out yet; however, those two are rich with content for the type of solution that you might want to roll out.
\n
\n
\nThat said, you are correct that HDFS (in general) is designed for non-redundant storage (like bare metal), so it has a lot of the same constructs that Nutanix does already. It is worth nothing that you can (or should be able to) configure the replication copies of Hadoop itself, such that you dont have many copies in Hadoop on top of many copies on Nutanix. Thats generally where \"the rub\" comes from when we discuss this with customers.
\n
\nThat said, we've got customers doing Hadoop RF2 + Nutanix RF2 (such as in the Cloudera case) and it works just fine, it just imposes a bit of an overhead.
\n
\n
\nTo be clear though, you can't expose HDFS directly from stargate, so you'd always have something like a Hadoop data node (or data nodes plural) in between Nutanix and Spark","className":"post__content__best_answer"}">
查看原始

2回答

Userlevel 6
徽章 + 29
嗨,凯文,
我已经把你的帖子从CE论坛转移到我们的生产产品论坛。


一般来说,对于Nutanix上的Hadoop,我建议检查这三个资产,您可以从中挑选数据
https://portal.nutanix.com/#/page/solutions/details?targetId=RA-2078-Cloudera-with-Nutanix:RA-2078-Cloudera-with-Nutanix
https://portal.nutanix.com/#/page/solutions/details?targetId=RA-2030_Hadoop_with_AHV:RA-2030_Hadoop_with_AHV



我们还没有明确的火星上Nutanix指南出来;但是,这两种方法包含了您可能希望推出的解决方案类型的丰富内容。


也就是说,HDFS(通常)是为非冗余存储(如裸金属)而设计的,所以它有很多与Nutanix相同的结构。如果您能够(或者应该能够)配置Hadoop本身的复制副本,那么在Nutanix上有许多副本,而在Hadoop中没有许多副本,这是毫无价值的。当我们与客户讨论这个问题时,这通常就是“摩擦”的来源。

也就是说,我们已经有客户在做Hadoop RF2 + Nutanix RF2(比如在Cloudera的例子中),它们工作得很好,只是增加了一些开销。


需要明确的是,您不能直接从stargate公开HDFS,因此在Nutanix和Spark之间总是会有类似Hadoop数据节点(或多个数据节点)的东西
徽章 +3
谢谢你,。我希望现在还不需要安装完整的Hadoop集群。目前,它只适用于一些Spark工作。看起来我可以通过Spark自己运行它,但需要一个完整的Hadoop设置,可能在不久的将来会用到HDP。我害怕的只是它的颤抖。这只是我们所做的工作的一小部分,我只有7个NX300伟德国际 3910节点可以使用,而且它们已经几乎满了。

回复


Baidu