在企业数字化转型的当下,数据仓库的云端构建成为主流趋势,Gartner 预测,到2023年全球3/4的数据库都会跑在云上。
12月20日,腾讯2020 Techo Park开发者大会大数据分论坛在北京召开。腾讯数据平台部数据中心技术总监于洋、腾讯云大数据首席产品架构师高廉墀以及腾讯云大数据团队 Ozone 项目技术负责人陈怡等嘉宾出席大会,并探讨了数据仓库的多元技术,聚焦云端数据仓库的热潮,展现腾讯数据仓库技术架构演进与未来发展。
云原生数据仓库成为风口,助力解决企业数据仓库转型升级
从企业数字化转型看,现有数据仓库拥有诸多问题。传统数据仓库采用软硬件一体架构,硬件规模和物理属性限制了存储与计算资源的利用,扩容难,成本高。而以开源软件Hadoop、Hive、Spark 为代表的数据仓库,虽然适应海量数据计算,可灵活扩展,但仍依托线下机房,运维成本高,且易用性差,速度慢,效率低。
随着云计算技术的逐渐成熟,云原生技术的兴起,云原生数据仓库成为企业更靠谱的选择。
为了助力中小企业快速构建数据仓库,今年9月11日,腾讯云全新发布了云数据仓库 CDW,对于企业常见的运维操作进行高度封装,屏蔽底层复杂的逻辑细节,同时提供多维度全方位智能化的监控体系。
在云原生数据仓库混合算力技术实践中,高廉墀透露:“腾讯推出的弹性MapReduce (EMR)结合云技术和 Hadoop、Hive、Spark、Hbase、Storm 等社区开源技术,提供安全、低成本、高可靠、可弹性伸缩的云端托管Hadoop服务。”
腾讯云全新升级的弹性 MapReduce,将企业大数据构建成本降低 30%。同时实现了异构算力的融合,能够在计算高峰期通过云原生的弹性资源或者在线业务的空闲资源快速补充算力。
在助力企业数据仓库转型过程中,腾讯也始终积极创新,今年9月,腾讯主导的 Ozone 1.0.0版本在 Apache Hadoop 社区正式发布。Ozone 项目的技术负责人陈怡指出:“Ozone 是面向大数据领域的新一代分布式存储系统,它的推出解决了 Hadoop 分布式文件系统在可扩展性上限方面的缺陷问题,能够支持百亿甚至千亿级文件规模的存储。”
目前,以TBDS为主腾讯私有云和以EMR、WeData为主的腾讯公有云,共同构成了腾讯云大数据产品生态。
从引进到开源,腾讯云大数据平台走过10年不凡之路
于洋透露:“在过去10年间,腾讯大数据平台已经经历了四代演进。从开始的技术引进、局部优化到如今的自主创新,腾讯的大数据技术在实践中不断优化、不断完善,腾讯走出了一条技术引进+改造+自研的道路。”
目前,腾讯云大数据技术的算力弹性资源池达500万核,算力国内最强,每日分析任务数达1500万,每日实时计算次数超过40万亿,能支持超过一万亿维度的数据训练。
2009年1月,腾讯搭建起第一个Hadoop集群,开始做数据规模化。这是一个由Apache基金会所开发的分布式系统基础架构,它实现了一个分布式文件系统(简称HDFS)。
HDFS有高容错性的特点,适于设计用来部署在低廉的(low-cost)硬件上;它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了算力。
2012年,移动互联网爆发,腾讯大数据平台发展进入第二阶段——从Hadoop转向Spark和Storm体系。在吸收开源技术的基础上,该平台结合业务需求进行了重写。期间,腾讯开始探索流式计算、秒级采集系统的建设,并构建企业级的实时数据分析体系。
大数据平台的在线分析和实时计算功能在实时报表、实时查询、实时监控等诸多场景下得以应用。
2015年至今,为了支持业务数据挖掘的需求,开始主要建设机器学习平台。从数据分析到数据挖掘的转变,是大数据平台“智能化”的体现。
2016年,腾讯自研机器学习平台Angel,专攻复杂计算场景,可进行大规模的数据训练,支撑内容推荐、广告推荐等AI应用场景。
谈到第四个阶段,于洋透露:“目前,腾讯云正在研究以批流融合、ABC 融合以及数据湖和联邦学习为方向的下一代大数据平台的研究,该平台将具备混合部署、跨域数据共享和边缘计算等能力。”
在技术不断创新的同时,腾讯坚持开源开放战略,从2014开始,腾讯将第一代大数据平台的核心,腾讯版的Hive进行了开源,2017年,更是把第三代平台的核心Angel开源并捐献给Linux基金会。2个月前,在ApacheCon 2019上,腾讯面向全球开发者正式宣布开源实时数据采集平台TubeMQ,并捐献给Apache社区。
而最新发布的Ozone,作为腾讯大数据团队首个参与和主导的开源项目,已得到全球Apache技术专家的一致认可,成为世界顶级的存储开源项目之一。
当下,全球头部云服务商均在大力布局云原生领域,不断推动云原生的落地进程。作为国内服务开发者最多的云原生平台,腾讯云原生产品API每日调用量已经超过100亿次,拥有超过100万的开发者,同时服务超过50万的客户。
未来,腾讯云将坚持构建开源开放的数据生态战略,通过创新的云原生技术,助力企业数据仓库加速数字化转型。
关注“腾讯云大数据”公众号,技术交流、最新活动、服务专享一站Get~
原文链接:https://www.cnblogs.com/TXcloudbigdata/p/14237796.html
原创文章,作者:优速盾-小U,如若转载,请注明出处:https://www.cdnb.net/bbs/archives/8025