【Dolphinscheduler安装与部署】一、简介
摘要:本文介绍个人开发者如何通过部署Apache DolphinScheduler开源调度平台来替代商业大数据产品(如阿里云DataWorks)。作为一款分布式可视化DAG工作流任务调度系统,DolphinScheduler能够解决复杂的大数据任务依赖关系,提供任务监控、重试、暂停等完整生命周期管理功能。相比商业产品,它既避免了长期租赁的费用压力,也优于其他开源调度方案(Azkaban、AirFl
引言:
笔者因为个人原因,需要搭建一套像阿里云dataworks那样的大数据开发治理平台,若直接租一套阿里云dataworks配置,长期以往,很不划算。在所有开源的大数据产品里,我选择了国内小有名气的海豚调度dolphinscheduler。既然不推荐租阿里云的大数据产品,那其实也不推荐租云服务器。对于大多数个人开发者而言,组装一台属于自己的物理服务器是一个不错的选择,只需要一定的技术成本和硬件成本。
一、简介
Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。
Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。 解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。 DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG)流式方式组装任务,可以及时监控任务的执行状态,支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。
如果你是公司,不想花大价钱购买商业ETL工具及调度器,第二公司也没规划人力自研调度器,那么DolphinScheduler将是不错的选择;因为确实也存在很优秀的商业调度器,唯一的缺点就是贵嘛;而DolphinScheduler在目前的开源调度器中,如Azkaban,XXL-Job,Ozzie,AirFlow等对比,确实略胜一筹,如果自研开源调度器,人力成本也是需要估量的,因为DolphinScheduler完全开源,也可以借鉴DolphinScheduler。

更多推荐



所有评论(0)