我很高兴地宣布 Spring for Apache Hadoop 项目的第二个里程碑版本 (1.0.0.M2) 可用。在这篇博文中,我想快速强调 M2 中的主要新功能。
HBase DAO 支持
Spring Framework 中最通用和最强大的功能之一是数据访问对象(或 DAO)支持。通过 Spring for Hadoop 1.0.0 M2,HBase 也添加了相同的功能。流行的模板和回调模式的用户会感到宾至如归,因为该框架处理表查找、资源清理和异常转换,让开发人员专注于真正重要的事情。有关更多信息,请参阅 API 和参考文档。顺便说一下,我们还在发行版中包含了一个新示例,
hbase-crud,以帮助您立即开始。
级联 Taps
在 M2 中,我们通过
Cascading 库,扩展了与
Tap 的集成。Spring Integration 适配器的丰富性(无论是入站还是出站),例如文件、TCP、Twitter、FTP、RSS(仅举几例),现在可用于 Cascading(及其扩展,例如
Cascalog 或
Scalding)。我们才刚刚开始——预计在这方面会有更多消息。
Hadoop 安全
通过 M2,从普通的 Hadoop 安装(例如开发机器)迁移到完全 Kerberos 安全的 Hadoop 集群是透明的。文件系统、Map/Reduce 和 Pig 组件都具有安全意识,在适当的凭证下执行并支持用户模拟。有关更多信息,请参阅专用
章节。
增强的普通 Map/Reduce 支持
从一开始,Spring for Apache Hadoop 就为 Map/Reduce 作业提供了广泛的支持——无论是普通或传统的 Java Map/Reduce、
流式处理还是
工具。在 M2 中,我们全面添加了对 Hadoop
通用选项的
支持,通过单独命名资源或通过模式匹配来使作业配置成为一行代码。此外,我们增强了基于 jar 的作业的引导——作业可以完全从 jar 中隔离加载,而无需将类放在类路径上。这些类(及其依赖项)不会“泄漏”到应用程序中,这避免了各种版本冲突和依赖项“蔓延”。工具声明已得到改进,可以自动读取 Jar 元数据及其
Main-Class,为 Hadoop shell
jar调用提供了强大、完全托管的
替代方案。
两个新示例
最后但同样重要的是,发行版中添加了两个新示例
hbase-crud,我之前提到过,它们展示了声明式和编程式 HBase 支持以及
pig-scripting,演示了 JVM 和 Pig 脚本:前者在 HDFS 中进行数据准备,后者进行数据分析。还有更多的示例正在开发中,如果您想看到任何特定的内容,请
告诉我们。
我希望您喜欢这个新的里程碑。赶快下载 1.0.0 M2,试用一下,让我们知道您的想法!
其他新闻:Serengeti 项目
就新版本而言,Spring for Apache Hadoop 1.0.0 M2 并不是 Hadoop 方面的唯一新闻。今天,VMware 推出了 Serengeti 项目,用于虚拟化和高可用性的 Hadoop。请参阅 Richard McDougall 的博文,了解其背后的动机、当前状态……