热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

今年的“双11”无惊无险,每日优鲜的运维团队是怎么做到的?

今年,美国知名项目管理研究杂志PMNetwork将“天猫双11”与互联网、阿波罗登月、人类基因组计划等并列,共称为世界上TOP50最有影响力的项目。“双

今年,美国知名项目管理研究杂志PM Network将“天猫双11”与互联网、阿波罗登月、人类基因组计划等并列,共称为世界上TOP50最有影响力的项目。“双11”不仅改变了人们购物的方式,而且打通了商业与娱乐。

因为可以带来数倍于平常的流量和销售额,所以每年的“双11”到来时,各路零售商们都会“如临大敌”,严阵以待。在极限高并发访问的情况下,在线交易系统、支付系统等能否经受得住考验呢?

每日优鲜运维总监周锋在分享经验

最初几年,因为对“剁手党们”在“双11”期间的购买程度估计不足,曾经出现过个别商家的系统不堪重负而宕机的情况。近几年 “双11”期间这种系统宕机的新闻越来越少,因为各商家在“双11”到来前已经做好了充足的准备。被誉为“最懂吃货心的电商”——每日优鲜,在今年的“双11”到来前差不多两个月就开始了各项准备工作,所以真正在“双11”期间,其业务系统没有出现任何问题,安然度过。在UCloud于11月23日举行的UClub新零售技术沙龙上,每日优鲜运维总监周锋用8个字概括了他今年的“双11”体验:无惊无险,风平浪静。

01

外松内紧,不打无准备之仗

真的是无惊无险,风平浪静吗?其实,正是因为每日优鲜公司高层的充分重视,运维、研发、业务等各个部门协调一致,以及云服务商UCloud的支持,每日优鲜在面对“双11”这场大考时才会气定神闲。

或许,用“外松内紧”四个字来形容每日优鲜备战“双11”会更恰当。俗话说,兵马未动,粮草先行,为了从容应对“双11”,资源准备必须先行。最近两年,每日优鲜都是按照周六日交易峰值的4倍为“双11”设定余量。为了消除不同区域在不同时间段的交易峰值,运维团队还要时刻准备着,根据实时交易情况削峰填谷。

从9月20到10月31日,每日优鲜针对“双11”期间可能出现的各种情况和需求,从业务运营、架构运营、系统运营等多个维度进行了全面梳理,并针对可能会出现瓶颈的地方进行了详细了解,准备预案,尤其是进行了一系列高强度、全方位的压力测试。据周锋介绍,从9月20日起,每隔三天就会进行一次大的压测,而且每天都会有小压测,包括全链路的压测、写压测,以及故障演练、第三方服务出现问题后的应对等。因为做好了全面的准备工作,所以今年“双11”到来时,每日优鲜上上下下心里非常有底。

“双11”活动期间,每日优鲜特意在北京总部大楼的11层设立了作战室,从总指挥到研发团队的架构师、所有运维人员,以及运营、技术和产品的对接人,从早上8点就全部到岗,一份分工明细的保障时间表,不仅包括所有一线参战人员和备战人员,而且按照每个小时分批次排定工作内容,在办公室的、在路上的、在各个分支构的人员,都遵照既定的节奏,有条不紊地处理自己手中的工作

因为每日优鲜的IT系统100%托管在公有云平台上,所以每日优鲜的“双11”之战,也有云服务商UCloud紧密配合与协作。除了充足资源的准备,UCloud协助将每日优鲜云资源打散,避免业务过于集中承载而出现问题;同时将一些历史的监控数据、风险分析和评估数据给到每日优鲜作为参考,双方共同研判在“双11”期间可能会出现哪些意外状况和风险,提前进行优化、迁移、加固等工作,以降低风险。此外UCloud还派专人提供驻场服务,确保在问题发生时能够第一时间响应和解决。

 “在今年之前,每次‘双11’来临时,我们都会比较紧张,整个过程中会消耗大量人力物力资源,感觉身心比较疲惫。”周锋坦言,“但是今年有很大不同,‘双11’技术保障再次升级,公司内部各业务部门之间充分沟通和配合,提前做好准备,为所有工作设定优先级,并确定每项工作的深度,归纳出方法论。正因为如此,今年的‘双11’保障工作才会游刃有余。”

02

背后的技术准备

每年的“5·17”“6·18”“双11”“双12”,再加上商家的店庆,还有各种各样的节假日,现在的大促似乎变成了常态。这些促销日对“剁手党”来说是一场场的狂欢,而对于商家的IT运维团队来说则是一场又一场不能有丝毫松懈的战斗,会耗费大量精力和体力。

在大促前的准备阶段,IT运维团队要根据业务部门提出的要求,比如要做多少波秒杀、发多少张券等,研究如何分配现有资源,是否需要扩容并且扩多少,最大流量洪峰可能出现在何时,如何针对复杂架构实现统一监控,以及如何快速定位问题并顺利解决。

商家平时的销售和一般的促销活动,用户访问量通常是线性的或可以预测的。而像“双11”这样的大促,通常流量是很难提前预估的。另外,为了达到预定的业绩目标,业务部门可能会在某一关键时间点上临时抛出一个新的营销手段,比如在晚上11点发出一波红包,这时可有会引发瞬间流量激增。这些临时出现的情况,随意性大,很可能导致技术瓶颈出现,所以作为IT运维人员,必须和业务部门保持密沟通,确保在几分钟内解决问题。

“瓶颈总是存在的,这就需要不同的部门之间相互磨合,及时沟通,才能在瓶颈出现前,消峰填谷,及时化解。”周锋表示。

在“双11”之前,UCloud对每日优鲜的运营活动计划有了充分了解,提前优化IT架构的承载能力,这是应对瞬时高并发流量的前提条件。从9月20日开始,每日优鲜的运维部门召集运营部门一起梳理促销活动指标,预估发券、流量等数据。每日优鲜的运维团队负责把这些“业务语言”翻译成“技术语言”,如哪些代码、模块、服务、系统需要特别关注或者优化,然后再由云服务商UCloud将其翻译成“云端资源语言”,比如需要扩容多少云主机、多大带宽、负载均衡,以及交付节奏等,从而保证在“双11”期间,一切交易尽在掌握。

每日优鲜2019“双11”战报

每日优鲜发布的今年“双11”的战报显示:销售额为去年同期的2.7倍,最快的一笔订单配送到用户仅用时5分51秒,刷新了纪录,而运维部门的零故障完美地支撑了业务的“巅峰时刻”。

03

当“双11”成了“新常态”

无论是从知名度、影响力,还是带来的流量、销售额来看,其他的促销活动还不可能与“双11”相提并论。所以,每年的“双11”,每日优鲜都会提前做好一切准备措施,但紧张的运维工作也会让周锋和他的团队一度“忙到跳脚”。

从长远来看,各种促销会变成“新常态”,而每日优鲜通过像“双11”这样的大促,可以不断积累经验,并形成一套涵盖技术、流程和管理的方法论,使之标准化、自动化,并可在每个促销活动时复制,尽量采用标准化、自动化的流程、配置,减少人为参与的环节,这样不仅可以提高效率,而且减轻了运维等团队的工作负担。这对周锋和他的团队来说又是一个新课题。

长按二维码识别关注云报

云报

小编微信:Taogebj

联系邮箱:15327768@qq.com


推荐阅读
  • 服务网关与流量网关
    一、为什么需要服务网关1、什么是服务网关传统的单体架构中只需要开放一个服务给客户端调用,但是微服务架构中是将一个系统拆分成多个微服务,如果没有网关& ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 14亿人的大项目,腾讯云数据库拿下!
    全国人 ... [详细]
  • TiDB | TiDB在5A级物流企业核心系统的应用与实践
    TiDB在5A级物流企业核心系统的应用与实践前言一、业务背景科捷物流概况神州金库简介二、现状与挑战神州金库现有技术体系业务挑战应对方案三、TiDB解决方案测试迁移收益问题四、说在最 ... [详细]
  • 智慧博物馆信息系统建设方案
    3.信息化系统建设3.1博物馆RFID藏品管理系统3.1.1系统概述博物馆藏品保管是一项十分复杂又繁琐的工作。从事保管工作除了经常、及时地进行藏品的登记、分类、编目、保养和修 ... [详细]
  • 提供:ZStack云计算原创2016-12-26张鑫讲师介绍张鑫ZStack总架构师、联合创始人《系统虚拟化》主要作者,曾任职Intel开源软件技术中心 ... [详细]
  • 朱晔的互联网架构实践心得S1E7:三十种架构设计模式(上)【下载本文PDF进行阅读】设计模式是前人通过大量的实践总结出来的一些经验总结和最佳实践。在经过多年的软件开发实践之后,回过头 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • flowable工作流 流程变量_信也科技工作流平台的技术实践
    1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ... [详细]
  • 从高级程序员到CTO的4次能力跃迁!如何选择适合的技术负责人?
    本文讲解了从高级程序员到CTO的4次能力跃迁,以及如何选择适合的技术负责人。在初创期、发展期、成熟期的每个阶段,创业公司需要不同级别的技术负责人来实现复杂功能、解决技术难题、提高交付效率和质量。高级程序员的职责是实现复杂功能、编写核心代码、处理线上bug、解决技术难题。而技术经理则需要提高交付效率和质量。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 熟练掌握Spring Cloud,终于成为Java工程师的面试门槛 ... [详细]
  • 物联网、工业互联网大数据的特点-随着数据通讯成本的急剧下降,以及各种传感技术和智能设备的出现,从手环、共享出行、智能电表、环境监测设备到电梯、数控机床、挖掘机、工业生产线等都在源 ... [详细]
  • 什么是网关服务器初学linux服务器开发时,我们的服务器是很简单的,只需要一个程序完成与客户端的连接,接收客户端数据,数据处理,向客户端发送数据。但是在处理量很大的情况下,一 ... [详细]
  • Kubernetes(k8s)基础简介
    Kubernetes(k8s)基础简介目录一、Kubernetes概述(一)、Kubernetes是什么(二& ... [详细]
author-avatar
等一场-花开花落
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有