Spring for Apache Hadoop 1.0.0 M2 版本亮点
我很高兴地宣布,Spring for Apache Hadoop 项目的第二个里程碑版本 (1.0.0.M2) 已经发布。在这篇博文中,我想快速介绍 M2 版本中的主要新功能。
HBase DAO 支持
Spring Framework 中最通用和强大的功能之一是数据访问对象(或 DAO)支持。在 Spring for Hadoop 1.0.0 M2 中,为 HBase 添加了相同的功能。流行的模板和回调模式的用户应该会感到宾至如归,因为框架会处理表查找、资源清理和异常转换,让开发人员专注于真正重要的事情。有关更多信息,请参阅 API 和参考文档。顺便说一句,我们还在分发包中包含了一个新的示例,
hbase-crud,以帮助您立即开始。
Cascading Taps
在 M2 中,我们通过
Taps for Spring Framework 和 Spring Integration 资源,扩展了与
Cascading 库的集成。Spring Integration 适配器的丰富性(无论是入站还是出站),例如 File、TCP、Twitter、FTP、RSS(仅举几例)现在可用于 Cascading(及其扩展,例如
Cascalog 或
Scalding)。我们才刚刚开始 - 期待更多关于这方面的新闻。
Hadoop 安全
使用 M2,从 vanilla Hadoop 安装(例如开发机器)迁移到完全 Kerberos 安全的 Hadoop 集群是透明的。文件系统、Map/Reduce 和 Pig 组件都具有安全意识,在正确的凭据下执行并支持用户模拟。有关更多信息,请参阅专用
章节。
增强的 vanilla Map/Reduce 支持
从一开始,Spring for Apache Hadoop 就为 Map/Reduce 作业提供了广泛的支持 - 无论是 vanilla 还是传统的 Java Map/Reduce,
streaming 还是
tooling。在 M2 中,我们添加了对 Hadoop
通用选项的
支持,从而使作业配置(无论是通过单独命名资源还是通过模式匹配)变得非常简单。此外,我们还增强了基于 jar 的作业的引导 - 作业可以完全从 jar 中加载,而无需类位于类路径中。这些类(及其依赖项)不会
泄露到应用程序中,从而避免了各种版本冲突和依赖项
蔓延。工具声明已得到改进,可以自动读取 Jar 元数据及其
Main-Class,从而为 Hadoop shell 提供了一个强大、完全托管的
替代方案jar调用。
两个新的示例
最后但并非最不重要的一点是,在分发包中添加了两个新示例
hbase-crud,我之前提到过,展示了声明式和程序化的 HBase 支持,以及
pig-scripting,演示了 JVM 和 Pig 脚本:前者在 HDFS 中进行数据准备,后者进行数据分析。管道中还有更多示例,如果您想看到任何特定的示例,请
告诉我们。
我希望您喜欢这个新的里程碑版本。继续,获取 1.0.0 M2,试用一下,让我们知道您的想法!
其他新闻:Serengeti 项目
就新版本而言,Spring for Apache Hadoop 1.0.0 M2 并不是 Hadoop 方面的唯一新闻。今天,VMware 揭开了 Serengeti 项目的帷幕,用于虚拟化和高可用性 Hadoop。请参阅 Richard McDougall 的 博客文章,了解其背后的动机、当前状态和路线图。