提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
腾讯云弹性MapReduce是结合云技术和 Hadoop、Hive、Spark、Hbase、Presto、Flink、Druid、ClickHouse 等社区开源技术,提供安全、低成本、高可靠、可弹性伸缩的云端泛 Hadoop 大数据架构。
一、弹性MapReduce产品架构
EMR 主要由开源组件、腾讯云基础设施和集群管理三部分构成:
1) 开源组件;
2) 腾讯云基础设施
3) 集群管理
二、弹性MapReduce 应用功能
弹性 MapReduce 结合云技术和 Hadoop、Hive、Spark、Storm 等社区开源技术,为您提供安全、低成本、高可靠、可弹性伸缩的云端 Hadoop 服务。其主要功能体现在以下方面:
1.弹性伸缩:
(1)分钟级集群创建
(2)分钟级集群扩缩容
(3)API 支持
2.存储计算分离:
(1) 集群内存储计算分离
(2) 基于 COS 的存储计算分离
3.运维支撑:
(1) 监控与多渠道告警
(2)技术服务支持
(3)安全
三、弹性MapReduce优势
与自建 Hadoop 集群相比,弹性 MapReduce 能提供更方便、更安全、更可靠的云端 Hadoop 服务。
1.灵活;
2.可靠;
3.安全;
4.易用;
5. 节约成本;
四、弹性MapReduce试用场景
1.离线数据分析
把游戏、Web 应用、手机 App 等业务服务器上的海量日志同步到 EMR 的数据节点或 COS 后,可借助于 Hue 等工具,使用 Hive、Spark、Presto 等主流计算框架快速获取数据洞察力。可使用 Sqoop 等工具加载分散于各 TencentDB 或其他存储引擎的数据,并把分析后的数据同步到 TencentDB,为 RayData 这样的数据可视化产品提供数据支撑。
在程序/工具中通过 API、SDK 把位于业务服务器上实时产生的数据 Push 到 CMQ 消息中间件之后,可在 EMR 产品中选择合适的流式数据处理引擎来分析数据,以实现对业务变动的实时告警;还可以把分析结果实时同步到 TencentDB 等存储引擎,以便于通过 RayData 等数据可视化产品对业务状态进行实时可视化检测。
2.流式计算
把游戏、Web 应用、手机 App 等业务服务器上的海量日志同步到 EMR 的数据节点或 COS 后,可借助于 Hue 等工具,使用 Hive、Spark、Presto 等主流计算框架快速获取数据洞察力。可使用 Sqoop 等工具加载分散于各 TencentDB 或其他存储引擎的数据,并把分析后的数据同步到 TencentDB,为 RayData 这样的数据可视化产品提供数据支撑。
3.分析COS数据
可通过 EMR 产品快速分析存储于 COS 上的海量数据,以实现彻底的存储计算分离。通过这样的设计,可充分利用 COS 提供的丰富数据同步工具,同时还可以让多个不同版本 Hadoop 集群分析同一份数据,以满足数据一致性及历史原因导致的多版本 Hadoop 集群共存的问题。
总结
本文大概介绍了EMR产品,后面会把搭建过程分享出来。
原创文章,作者:优速盾-小U,如若转载,请注明出处:https://www.cdnb.net/bbs/archives/32161