学生教材网 >程序设计 > 程序资讯 > 云计算 > 浏览文章

eBay的Connected Commerce大数据平台实践

来源:网络编辑:佚名时间:2015-10-27人气:

泯灭乾坤,章筱琰,上官凤笠

eBay, 全球最大的在线交易平台,由程序员Pierre Omidyar于1995年劳动节周末在美国创立,起初叫AuctionWeb,于1997年7月正式改名为eBay,今年九月将迎来其20周年纪念。

eBay第一笔交易是一只破损的激光笔,成交价14.83美元,Pierre主动联系买家以确信其知道这是一只破损的激光笔,而买家则回复“我是一个破损激光笔收藏家”。从此,eBay 20年的发展正式开始了,带领了电子商务产业的极速成长,如今,eBay已经成为全球最大的在线交易网站,买家分布于全球190多个国家,超过2500万活跃卖家,1.57亿活跃买家,8亿活跃商品,通过Connected Commerce连接着全球各地的买家和买家,2014年产生超过2550亿美元的GMV,其中来自移动端的GMV超过280亿美元。据统计,在美国每五秒售出一个手袋,在澳大利亚每分钟通过移动端售出一双鞋,在德国每10分钟通过移动端售出一辆汽车或卡车。

如此大量的用户及交易下,数据成为eBay的重中之中,从点击流到搜索,商品查看,交易以及愿望清单等不断进行收集。在eBay数据平台中存储着超过100PB的数据,其关键是如何获取、存储、加工和分析数据,并释放数据的价值使之成为行动指南,而各个大数据平台,则在各个方面为上万名分析师及业务用户提供了坚实的保障和基础,并不断创新以满足日新月异的变革和需求。

eBay目前的大数据平台分为三层,数据整合层:负责数据获取,处理及清洗等ETL工作,包括批处理及实时处理能力,包括相关的商业产品和开源产品;数据平台层:主要由传统数据仓库(EDW),基于Teradata集群,总容量超过10PB;奇点(Singularity),存放半结构化及深层次结构化数据存储,总容量超过36PB;以及Hadoop集群,总容量超过100PB;数据访问层:通过各种工具,平台为业务用户和分析师提供访问和分析相关数据的能力,包括各种商业工具,开源产品及自研的各种平台等。本文将着重介绍eBay在相关领域的发展,平台及未来发展趋势。

Connect with Hadoop

1. Hadoop在eBay的发展历史 


eBay最早的Hadoop应用是在eBay研究实验室(eBay Research Lab, eRL)构建,主要用作日志分析,以期提高每天的日志处理速度。最初的版本是0.18.2,4个节点,存储并处理约几百GB的日志,最大的处理能力为44个Map。

随后,eBay搜索团队构建了10个节点的集群开始了Hadoop在eBay搜索领域的发展,并在2012年上线了基于HBase的搜索平台:Cassini。

2010年,eBay 上线了基于CDH2的集群,拥有532个节点,超过5PB的存储容量,并于2012年上线了基于HDP的集群,超过3000个节点,容量超过50PB。2014年,总节点数据超过10000多个,存储容量超过170PB,活跃用户超过2000多,现在,相关规模还在不断增长中。随之带来的管理、监控、分析和存储的挑战越来越严峻。


基础架构的创新主导了Hadoop 的进化,从最初的基于HDFS和MapReduce的批处理应用不断演变,第一代的Hadoop提供了灵活和可扩展的数据结构和处理能力,并在大数据兴起之时满足了公司各种大小数据处理需求提供了民主化需求。然而毕竟其只是第一步,有着各种限制,如果将其对比于操作系统的话, 第一代Hadoop就如操作系统和应用,例如记事本捆绑在一起,且仅有一个应用,即MapReduce。然而随之而来的大量任务导致了调度瓶颈,从而促成了YARN(Yet Another Resource Negotiator)项目的成立和发展,其解决了JobTracker在超大规模集中成为瓶颈等问题,并支持各种应用通过YARN来进行资源调度和管理从而将Hadoop带入了下一个时代,

下一代的Hadoop取得了巨大的跃进,从面向批处理到提供交互式的处理能力。并提供了战略性的决定以支持独立的执行模式,例如MapReduce可以作为YARN上的一个应用运行。从此,通过YARN,Hadoop变成一个真正的数据操作系统。

现在,从交易型数据库,文档数据库及图数据库的数据都可以存储在Hadoop之上,通过基于YARN的应用可以访问数据而无需复制或者在不同的应用中移动数据,包括MapReduce、Hive、HBase以及Spark等各种应用。从而提供了非常丰富的数据处理和创新能力。一个统一的数据存储,利用的平台将是确定的趋势。


2. 分层存储

当前普遍的认知是使用廉价硬件组建Hadoop集群以存储超大容量数据及提供计算能力,例如,一个1000节点的集群,每个节点附带20TB的存储能力,则整个集群可以存储20PB的数据。所有的机器都有足够的计算能力以实现Hadoop的名言:“Moving Computation is Cheaper than Moving Data”。


Redis整合Spring项目搭建实例

本文介绍了如何使用注解的方式,将Redis缓存整合到你的Spring项目。

Spring/Hibernate 应用性能优化的7种方法

【编者按】对于大多数典型的Spring/Hibernate企业应用而言,其性能表现几乎完全依赖于持久层的性能。此篇文章中将介绍如何确认应用是否受数据库约束,同时介绍七种常用的提高应用性能的速成法,由工程师翻译。

热门推荐