我很高兴地宣布Spring for Apache Hadoop项目的第二个里程碑版本 (1.0.0.M2)已可用。在这篇博文中,我想快速介绍一下 M2 中的主要新功能。
HBase DAO 支持
Spring 框架中最通用和最强大的功能之一是数据访问对象 (DAO) 支持。借助 Spring for Hadoop 1.0.0 M2,为 HBase 添加了相同的功能。流行的模板和回调模式的用户应该会感觉很熟悉,因为框架会处理表查找、资源清理和异常转换,让开发人员专注于真正重要的事情。请参阅 API 和参考文档以了解更多信息。顺便说一下,我们还在发行版中包含了一个新的示例,
hbase-crud,以帮助您立即开始。
级联 Tap
在 M2 中,我们通过
Tap来扩展了与
Cascading库的集成,用于 Spring 框架和 Spring Integration 资源。Spring Integration 适配器(无论是入站还是出站)的丰富性(例如文件、TCP、Twitter、FTP、RSS(仅举几例))现在可用于 Cascading(及其扩展,例如
Cascalog或
Scalding)。我们才刚刚开始 - 期待更多这方面的新闻。
Hadoop 安全性
使用 M2,从普通 Hadoop 安装(例如开发机器)迁移到完全 Kerberos 安全的 Hadoop 集群是透明的。文件系统、Map/Reduce 和 Pig 组件都具有安全意识,在正确的凭据下执行并支持用户模拟。请参阅专门的
章节以了解更多信息。
增强的普通 Map/Reduce 支持
从一开始,Spring for Apache Hadoop 就提供了对 Map/Reduce 作业的广泛支持——无论是传统的 Java Map/Reduce、
流式处理还是
工具。在 M2 版本中,我们增加了对 Hadoop
通用选项的
全面支持,使作业配置(无论是通过单独命名资源还是通过模式匹配)只需一行代码即可完成。此外,我们改进了基于 jar 的作业的引导程序——作业无需将类放在类路径中,即可从 jar 中完全独立地加载。类(及其依赖项)不会
泄漏到应用程序中,从而避免了各种版本冲突和依赖
蔓延。工具声明已改进为自动读取 Jar 元数据及其
Main-Class,提供了一个功能强大的、完全托管的
替代方案来替代 Hadoop shell
jar调用。
两个新的示例
最后但并非最不重要的是,我们在发行版中添加了两个新的示例
hbase-crud,我之前提到过,展示了声明式和编程式的 HBase 支持以及
Pig 脚本编写,演示了 JVM 和 Pig 脚本:前者在 HDFS 中为后者进行数据准备,后者进行数据分析。我们还有更多示例正在开发中,如果您想看到任何特定内容,请
告诉我们。
我希望您喜欢这个新的里程碑。继续,获取 1.0.0 M2 版本,试用一下,并让我们知道您的想法!
其他新闻:Serengeti 项目
就新版本而言,Spring for Apache Hadoop 1.0.0 M2 并不是 Hadoop 领域的唯一新闻。今天,VMware 推出了Serengeti 项目,用于虚拟化和高可用性 Hadoop。请参阅 Richard McDougall 的博文,了解其背后的动机、当前状态……