大话数据中心之UPS电源发展

2015-08-03 |  作者:陈炎昌、韩玉 |  来源:cnw.com.cn

摘要数据中心已经发展近20年,其供配电和电力电源方式也发展迅速。本文通过数据中心领域UPS(不间断电源)发展的历史,从供应商、用户、技术发展背景等多个角度进行剖析,让读者明白不间断电源UPS发展背后的因素和推动力,...

【网络世界独家约稿】

1、前言

数据中心已经发展近20年,其供配电和电力电源方式也发展迅速。本文通过数据中心领域UPS(不间断电源)发展的历史,从供应商、用户、技术发展背景等多个角度进行剖析,让读者明白不间断电源UPS发展背后的因素和推动力,未来可能的发展方向。需要特别指出的是,本文虽然涉及较多电源相关专业知识,但并非针对具体技术细节讨论电源专业问题,笔者主要想分享两点:

1) 从数据中心关键ICT负载的需求角度,怎么看待UPS电源产业,并非UPS电源行业怎样设计UPS。

2) 用最基本逻辑的角度去分析不同UPS方案、剖析互联网定制UPS、推导给出UPS系统架构方法论。

笔者在国内外工作期间,研究了不少中大型数据中心,这些数据中心的UPS电源架构包括传统的双变换塔式UPS、中大型模块化UPS、以及飞轮UPS等等。与此同时,大型互联网数据中心正掀起一阵电源改革风,包括Facebook的OCP电源架构,微软LES电源架构,国内240V直流集中电源抑或天蝎机架电源等。笔者想通过本文分享以下问题的理解:

各种UPS电源架构,究竟差别在哪里?

互联网公司那些“创新”电源方案,有什么奥妙?

哪种方案适合什么用户?

怎么判别和衡量各种方案优劣?

为什么互联网公司偏好定制UPS电源?

未来UPS技术方向探究

本文观点仅为笔者个人想法,不代表所在公司和其他公司的相关技术观点。相关素材图片均为笔者原创或来自网络上公开图片和素材。因笔者水平有限,文中若有谬误,请各位专家同行指正,欢迎探讨。

2 数据中心UPS物理逻辑属性

业界对UPS的划分有多种方式和维度,包括拓扑结构,动态和静态等。顾名思义,UPS是不间断供电,那到底什么是UPS的本质物理逻辑属性呢?在此,笔者提供了一张典型的双变换UPS供电系统简化全链条图,从市电引入到IT设备用电:

图1 传统双变换UPS供电系统图

典型的电力流向,是市电经过变压器(通常是交流10kV变换成380V交流,经过交流UPS进行交流转直流、直流转交流的双变换后,通过列头配电柜配电,最后把380V交流电分配到每个服务器。而服务器内部的电源,是把220V单相交流电转换成12V直流电,然后在电源内部有多路直流电压变换VR,变换成适合CPU、内存、硬盘等工作的电压。笔者认为,UPS本质物理逻辑属性只有三点,提供稳定的工作电压变换、储能设备、储能设备位置。最本质的东西往往并不复杂,对于交流的UPS,就是提供负载端所需要的交流工作电压,然后需要有储能设备,如蓄电池。下面以互联网公司目前主流应用的240V直流电源举例:

图2 240V高压直流供电系统图

比较交流UPS和直流UPS之间就可以看出,两者本质是一致,这里也拿380V直流比较,和240V除电压外,其余是一致的。

在此,笔者提出一种不同于现有理论体系的观点,称为UPS三要素法,工作电压、储能设备和储能设备位置。而这三者的逻辑关系是,储能设备在某个位置变换恒定的工作电压给负载,例如上面例子提及的双变换UPS和高压直流。

下一章,笔者将对业界的UPS电源架构用三要素法进行讲解。

3 从本质看各种UPS电源架构发展形态

上一章笔者提出三要素法,本章笔者会通过电力流向图结合三要素法分析各种业界的UPS方案。同时以380V双变换交流UPS为例子做对比,使读者更清晰理解各种UPS方案的区别。

3.1 Facebook的48V电源架构

图3 Facebook的48V电源

普及一下Facebook的电源设计背景,是基于双电源2N供电的服务器电源架构;Facebook采用定制电源架构,是市电直供电源加 48V的DC供电电源架构。整个电力流向图如下:

图4 Facebook的48V供电系统图

通过对Facebook的定制电源供电架构剖析,定制服务器电源里面,有N容量的电源,是直接277V单相交流电(北美是480V交流三相,277V交流单相),转换成12V的服务器电源,而另外一路N,是48V DC转换成12V DC。

同时,为了更加节能,Facebook进一步地把服务器电源设计成AC/DC和DC/DC之间是热备份关系,即平时主要用AC/DC的回路,市电直接供电。电池柜回路仅为电池充电用,当市电失效时,服务器电源PSU内部的48V DC/DC模块会启动,实现电池直接放电。这种热备份式后备供电模式,使得Facebook在绝大多数时间使用市电直接供电,系统效率高。

比较380V双变换交流UPS,我们可以发现,Facebook电源差别如下:

下图是Facebook定制48V电源的整机架,感兴趣的读者可以查找其他资料深入了解,在此笔者不作深入的技术分析。

图5 Facebook的OCP机架和供电方案图

3.2 240V高压直流电源+天蝎PSU后备电源架构

国内互联网企业,在天蝎电源基础上,在参考Facebook的电源架构后进行借鉴,改造成类似Facebook的电源架构方案。

天蝎机架和电源相关信息和spec,读者可以查看下面开放数据中心的链接:

http://www.opendatacenter.cn/uploads/soft/141202/1_2227411231.pdf

笔者用下图电力流向解释

图6 240V高压直流电源和天蝎PSU供电系统图

和Facebook采用相同的电源架构,不同的只是电压等级,可以看看下表比较总结:

和原有240V高压直流供电相比,可以看下表:

在线式和后备式这个差别,对设备最大影响是,在线式240V设计,电源模块数量配置≥负载需求,而后备式240V设计,电源模块配置容量≥电池充电量。举一个配置的例子,100kW的负载配置高压直流,10kW一个高压直流模块,充电功率为C10(10%输出负载,即10kW),使用后备式和在线式的240V高压直流配置差别:

可以看出,采用后备式供电架构,电源模块配置数量会大大减少,高压直流仅需要配置充电模块和冗余模块,采购成本能够大幅降低。

3.3 微软整机架电源+锂电池架构

自微软加入Facebook主导的OCP组织后,公布了其最新服务器电源相关设计是整机架电源+分布式本地化锂电池LES(local energy storage)。根据国外相关公开信息,微软的方案如下:

微软机架电源LES

对于服务器的PSU内部,在PSU的做AC/DC整流之前,加入了380V直流的锂电池,电力流向图如下:

图7 微软380V DC服务器电源供电系统图

微软的设计和Facebook不同,Facebook的48V设计使用铅酸电池,而微软把储能设备改成锂电池,电压变成380V直流。比较Facebook和微软的电源做法,我们可以比较差异

同样,微软的电源架构,改变了工作电压,必须定制服务器PSU电源适配。和国内240V直流集中电源不同,微软把380V DC直接做到每一个机架里面,而不是做一个大的380V高压直流电源设计,就是集中式改成分布式,这样的好处是简化供配电系统。为什么高压直流做分布式更好一点?

因为直流的开关成本高,和直流电压配电安全性在全球很多国家仍未被广泛验证测试而得到普遍认可,集中式高压直流设备难以全球推广。同时380V DC比480V三相交流电压(不经过带变压器的PDU列头柜直接变换,如Facebook,北美典型电气设计通过带隔离变压器的PDU列头柜转变为220V三相交流电,对应120V单相交流电)更低,同样功率下,电流更大,损耗也大一些。因此微软采用分布式设计,可以大大简化供配电系统,而380V DC做在机架内部,不需要集中式电气开关和安全保护装置。根据微软公布的资料,一般数据中心机电设计如下:

图8 传统数据中心机电架构

低压变压器电力进线输出到低压配电柜和集中式UPS,然后通过列头配电柜分配到每个机架;改成微软LES电源架构后,变成下图:

图9 使用微软新一代机电架构(AHU+LES电源)

从上图看到,改成LES方案后,IT负载直接通过交流母线排供电,取消传统集中式UPS方案的电池柜、电池室、输入输出配电柜等。

同时,笔者认为国内240V直流电源设计对比微软的架构仍较复杂,交付速度和兼容性仍要改善,主要有几个方面:

1) 微软架构不需要使用含有任何电能监测的列头配电柜,只需普通配电柜即可/母线;

2) 微软架构对电池管理更加集成化,传统方案安装需要更多设备和部件,集成时间长;

3) 微软架构输入是交流电,通用性更高,适合自建IDC或租赁IDC;

3.4 储能设备

目前的储能方案,大概分为机械储能、物理储能、电化学储能,基本分类如下:

储能设备的形态也影响着UPS电源的发展,笔者给出常见组合,以便读者了解

3.5 飞轮UPS

目前市场上销售的动态飞轮UPS,主要来自欧美生产商。这类UPS销售最多是发电机同轴飞轮UPS,英文术语是Dynamic rotary UPS。简单来说,就是平常利用电能使得飞轮一直在旋转储能,然后在市电故障后,飞轮会继续旋转把动能,利用法拉第电磁感应定律转换为电能输出。同时所谓发电机同轴飞轮UPS,就是当飞轮旋转时候,由于发电机的发动机和飞轮同一转轴,使得飞轮在旋转放电时,顺便把发电机启动了,实现整个不间断供电的过程。读者感兴趣可以参考下面飞轮UPS的工作状态介绍:

http://www.hitecpower.com/assets/6_Downloads/6-2_Products/Diesel%20Rotary%20UPS%20systems%20V1_00%20_jan2008_PPT.pdf

飞轮UPS的结构图如下:其中左边红色是柴油机组和发动机,中间蓝色部分是飞轮。

图10 飞轮UPS结构图

使用飞轮UPS的同样好处是,配电系统也大大简化,电力流向图如下所示:

图 11 飞轮UPS配电架构图

使用飞轮UPS,服务器电源不需要任何改造即可支持。 通过UPS三要素法分析如下:

3.6 中压UPS

大家从电力流向图看出,大部分UPS都是低压UPS,能否把UPS电源设计在中压如10kV或6.6kV,电池集中放呢?于是,派生出另外一种UPS,就是中压UPS,下图简要讲解中压UPS的结构:

图12 中压UPS系统图

可以从上图看出,中压UPS也是后备式设计,正常工作时候市电直供电,不同点在于电池耦合变压器通过电池逆变升压做补偿。参看下面电力流向图:

图13 中压UPS电力架构图

具体介绍也可以参看下面视频:

http://v.youku.com/v_show/id_XNzI3OTMzMzgw.html

中压UPS参数可以参考下图官方性能表,需要注意到以下几点:

1) 正常使用效率可达99.5%,由于后备式的市电直供设计,而且电压较高,使得效率非常高

2) 电池直流电压在750V,系统通过把直流低压逆变成交流然后耦合变压器升压到中压输出。

3) 输出电压精度误差比低压UPS“高”不少,但实际上由于是中压本身电压较高,当经过变压器后,基本上电压误差就变成±0.3%。

我们看到中压UPS设计后,可以看出基本正常状态下采取市电直供方式,电池后备。同样对比常见低压双变换UPS的ECO模式,其实两者道理非常接近,关于UPS电源架构效率分析,会在下一章节介绍。

图14 低压双变换UPS的ECO模式

对中压UPS进行UPS三要素分析,可得:

4 UPS电源架构效率和经济性

4.1 PUE计算的“作弊”

本节开始前,笔者先说一个故事。几年前有一个朋友和笔者探讨,双路UPS是2N供电,怎么可能PUE做到1.08呢?这些屡创PUE新低的公司,到底怎么做到的?按道理应该没可能,下面是当年的笔者推导的计算过程:

PUE=总耗电/IT功率;正常变压器1%左右耗电,UPS双路,单台最高效率95~96%,即使最好也是97%,照明损耗1%,电力线路损耗1~2%,基本加起来就7~8%损耗的,还没算日常人员办公用电,没算通风、排烟、制冷等暖通制冷设备损耗,谷歌和Facebook、雅虎等怎么做到PUE=1.07,1.08的?

看完这个故事,相信读者也能明白当时笔者困惑,在解释这些极致PUE背后,笔者引用权威的Green Grid白皮书内容,回顾PUE计算定义和测量方式。以下是Green Grid白皮书相关链接:

http://www.thegreengrid.org/~/media/WhitePapers/WP49-PUE%20A%20Comprehensive%20Examination%20of%20the%20Metric_v6.pdf?lang=en

Green Grid对PUE的定义公式:PUE=Total Facility Engergy/IT Equipment Energy,

虽然PUE的定义很简单,但是具体Total Facility总输入如何取测量点,IT设备如何取测量点,业界使用时候比较模糊。根据Green Grid的定义,对Total Facility总机电功率和IT设备功率测量点如下:

图15 Green Grid白皮书对PUE测量点的定义

从上图看出,PUE的计算,对于IT设备,最精确的测量方法是计算IT设备的输入功率,即在IT设备的输入侧测量,而较好的方式是测量PDU(指列头配电柜)处测量。而对应总机电输入,需要在电力进线测量。针对这个表格,Green Grid给出一个测量取样点图供读者更容易理解。

图16 Green Grid对PUE测量计算的一个示意图

在上图中,左上角黄色区域L1/L2/L3(utility metering point)为总机电输入的功耗测量点,必须在中压变压器一次侧(高压一侧),典型是中压进线的计量柜设备。绿色L3对应是最终机电设备和IT设备的测量点,对于IT设备为PDU列头柜输出到每个服务器。通过下面简化的电力流向图,笔者给出Green Grid推荐的IT设备测量方式。

图17 Green Grid对PUE测量点

从上图看出,IT功耗测量点是在IT设备的输入端,而如果类似Facebook方案的后备式UPS电源、或者微软的机架式UPS电源,这个功率测量又会变成如何呢?笔者按照Green Grid的测量点定义把Facebook和微软电源架构给出测量点图,如下所示:

图18 Facebook方案的测量点图

图19 微软方案的测量点图

从上图可以看出,对于这种后备式方案或者机架级电源方案,实际上相当于仅有市电直供,根据 PUE测量点定义,效率计算并不包含服务器内部电源的损耗值。这时候,整个配电链路的耗电,仅有变压器以及沿途线缆损耗。谷歌也清晰知道这点差异,所以他们宣称低PUE的时候,在PUE算法上实际是包含了服务器电源PSU损耗值。

笔者认为,这种PUE的“作弊”,更多是由于PUE测量方式定义的不完善导致。

4.2 UPS电源架构效率剖析

对UPS电源和整体供电架构效率进行分析之前,笔者须要提及效率的公式和定义。效率是指有用功率对驱动功率的比值。在数据中心里,什么是有用功率,怎样定义?可以想象,数据中心是给什么负载供电?有人说是ICT负载。进一步地,ICT负载里面,是ICT内部的核心设备,例如网络通讯模块、CPU、内存、硬盘。那么实际上从效率的定义,应该是从最终的用电设备耗电/最前端输入的电力,这就是数据中心电源架构效率的定义。借着这个定义,我们看看业界的一些分析并且推导总结出高效UPS电源架构的几大关键点:

图20 Facebook的供电架构对比传统电源架构效率

上图给出的是Facebook自身48V电源设计对比传统双变换UPS量化分析并给出三点能效提升手段。在这个量化分析里面,对传统UPS的效率取值是有失偏颇。实际上现代的高效能双变换UPS,在正常在线模式下,可以达到95~96%效率,但读者须关注以下几点:

1) Facebook的量化分析,是从市电输入,到最终服务器里面的负载设备进行每个环节的分析(如CPU、主板、内存等)。这就是笔者认为的效率定义应该是最终用电设备全供电链路分析。

2) Facebook提到第一点,使用机架级别的电池方式消除传统UPS双变换从而提高效率。笔者认为是否机架级别都并不重要,重要的是简化电力变化。无论服务器级别,甚至主板级别等,这些都是解决方案的一种方式。例如谷歌可以做服务器级别的方案,但是核心逻辑是,消除不必要的电力变换,减少变换次数。

3) Facebook提到第二点,使用277V AC输入的PSU代替PDU降压变压器损失。这里面包含的逻辑和第一点其实并无差别,只不过第一点的消耗是交流和直流之间电压变换。而第二点交流与交流之间电压变换。

4) Facebook提到第三点,由于最终负载的供电电压和输入的电压存在较大差别,必须使用PSU和VR转换成工作电压,选择更高效的PSU和VR。这相当于,传统的双变换UPS技术,有的老设备只能做到88~92%的效率,而新的设备可以做到95~96%效率。核心逻辑是每次电压变换需要更高效率。

总结这四点,我们就可以得出高效率核心方法论:

整个供电链路,减少从上游电力到最终用电负载的电压变换次数,每次电压变换尽可能高效。不难发现,为了达到高效率的目的,Facebook、微软等公司做法都是尽可能少的电压变换,而正常时候最好运行在市电直供电模式。传统UPS的高效ECO模式,也是基于这种逻辑思想。基于传统双变换UPS的ECO模式提高效率,也可以演变成其他更复杂的模式,具体量化分析比较笔者引用施耐德APC的No.157白皮书,相关链接如下:

http://www.apcmedia.com/salestools/NRAN-8CU665/NRAN-8CU665_R3_CH.pdf?sdirect=true

对于全链路效率的理解,可以用一个稍微“极端”例子说明。工频UPS的数据中心供电效率一定比用高频UPS效率低,这个未必正确。因为如果工频UPS配合高效白金级PSU的IT设备,对比高频UPS配合普通PSU的IT设备,很可能是工频UPS的数据中心效率更高。根据80PLUS的认证标准,对应效率如下表:

我们可以看出,能效高PSU对比能效差PSU,效率差距有7~10%。例如2N供电,一台92%半载效率的工频机,对比95%半载效率高频UPS,我们可以得出下表简单能效对比:

UPS类型和50%负载效率PSU类型与50%负载效率简易综合能效计算

同样,引用施耐德APC关于直流和交流的白皮书,相关链接如下:

http://www.apc.com.cn/pdf/SADE-5TNRLG_R6_CH.pdf

此白皮书虽然使用全链路分析的方法,但笔者认为对比分析并不完整,原因在于此白皮书关注点仅在UPS电源本身,忽略了全链路上其他电源优化设计。实际上,Facebook或者国内天蝎电源可以支持后备式供电的模式(参见3.2节)。由于使用整机架服务器,PSU电源容量更大,效率会更高,可以做到92~94%。笔者认为较完整的比较方法,应该把正常运行模式量化分析,大概有以下几个场景(效率取值按照50%的负载率,线路的损耗忽略不计):

通过这些对比分析,读者会发现,单从供电链条内的某个设备比较效率并非反应最真实的能效数据,只有全供电链条分析才得到更全面量化比较。

5 解读行业市场发展

5.1 高频UPS为什么故障率对比工频UPS较高?

答:曾经笔者入行的时候,也很大困惑,在国内,高频UPS“似乎”比工频UPS的故障率高,是什么原因?首先要说明,这里高频UPS的容量段定位在从20kVA及以上的塔式UPS。

当大容量高频UPS开始进入市场的时候,有很多来自UPS市场宣传,生产商之间也各执一词。读者不妨网上搜索工频UPS和高频UPS对比,会发现UPS生产商在工频或高频UPS各种引导。经过这几年的应用,高频UPS已经被大多数客户接受,同时那些当年“固执”的生产商,也因为市场竞争因素而转向推高频UPS。实际上,大概在2010年,国外已经开始接受并规模应用高频UPS。可以看看全球领先的几大UPS生产商,从2010年起发布的新UPS,都是高频UPS。由此可见,高频UPS是代表技术方向,而近2年发布的新型UPS,基本上效率高达96%甚至有97%。相关技术上的讨论,业界也有很多专家解读,读者不妨可以参考下面链接:

http://datacenter.chinabyte.com/474/11433974_5.shtml

笔者观点,要非常客观公正讨论故障率,需要有多个维度,例如故障率定义,故障等级定义,故障部件批次质量,安装失误,使用环境恶劣等等。这些敏感的故障信息只有生产商内部才有完善记录,作为用户基本了解甚少。笔者认为,从产业链和设计成熟度分析,工频UPS由于老旧拓扑架构设计,经过几十年的发展,设计和生产成熟度是很高的。从90年代初国外引进的工频UPS,到目前为止在近20年内,工频UPS技术并没有特别的变化。工频UPS技术也经历了国外进口,到本地生产,到国产本土品牌的崛起,不断市场考验和改进,所以工频UPS给业界的印象是成熟稳定,可靠。而反过来,中大容量高频UPS的发展基本从2005年开始慢慢从20kVA塔式,到目前高达MVA级别容量,从产业链,技术成熟度来讲,这些大容量高频UPS经历市场成熟度考验时间相对工频UPS不长,当时用量少,加上工频UPS生产商市场各种宣传对高频UPS“竞争性优势”,用户会产生高频UPS不够成熟可靠的印象,特别是传统的金融客户接受度不高。以国内几大银行为例,对工频UPS的可靠性情有独钟,也使得人们产生大型UPS还是工频UPS更可靠的印象。从效率和架构上,笔者认为高频UPS肯定比工频UPS更好,而国内高频UPS的故障率较高有很大程度上是国内不健康的竞争环境。很多供应商疲于应对价格战,多数专注于成本下降而不是形成技术壁垒和产品壁垒。于是高频UPS还没迈向成熟的阶段,就受累于价格战而让人们产生低质低价印象。一分钱一分货,同样国外的高频UPS,接受度高,而且普遍用户的认可度较高,任何新技术都有从小规模到大规模成熟应用的阶段,良好的市场环境很大程度影响着技术更成熟稳定。国内客户对于高频UPS选择时,除了参考国内案例,不妨关注国外应用案例(欧洲和中东,因为电压一样,设备基本一致),关注产品质量和技术实现这些最基本的因素。

5.2 模块化UPS比塔式UPS并机更加可靠?

答:这个问题,同样业界各执一词,例如1MVA的UPS做N+1配置,可以采取2+1的500kVA塔式UPS并机,也可以采用模块化UPS,例如25kVA一个模块,40+X(X≥1)并机;我们不妨看一看市场供应商宣传自身优势的常用说辞对比:

这些可靠性都是感性分析,市场上几乎难以看到量化分析的结果,而且供应商各执一词证明自己更好,用户难以判断。即使看到量化分析结果,大多数是无从考究的宣传数字。例如给出一个很高深复杂的数学模型,给出一些业界的设备数据进行故障率分析,这种软件逻辑算法和数据来源真实性本身就值得推敲,而且每个生产商设备的控制逻辑,故障保护等都略有不同,所以这种量化分析用户基本难以明白。又例如生产商宣传中常见的MTBF平均无故障时间超过10万小时,这个基本是业界笑话。一台UPS的平均无故障时间超过10万小时,就是一台UPS平均可以用12年。在国内,基本UPS设备淘汰周期是8年,做得好的是10年左右。有些生产商甚至宣称MTBF有20万小时,这种夸大数据本身背后是不符合逻辑和常识。

站在用户角度,怎么识别?笔者认为从最基本的可用性公式来解读更好,可用性公式如下:

MTBF=MTTR+MTTF,可用性%=MTTF/MTBF,MTBF是两次故障之间的平均时间,MTTR是故障平均维护时间,MTTF是平均无故障时间,

具体解释如下面链接:

http://www.elecfans.com/baike/cunchushebei/cidaiku/20100109156891.html

一个是维护时间,一个是无故障时间,从这两个参数很明显可以推导出如下结论:

要么系统非常可靠,平均无故障时间非常长(MTTF非常大);要么系统很容易维护,平均维护时间非常短(MTTR非常小)。

要从MTTF来考虑,生产商的数据通常难以考证,这里面至少包含几个影响MTTF的因素,如

1) 电气系统冗余架构,究竟是2N系统还是N+1系统,或者分布式冗余等?

2) 设备自身批次、元器件良率、生产工艺;

3) 设备现场安装是否正确;

4) 设备运行环境是否满足要求

对于上述4点要理性量化分析,第一点从数学上是可行的,而第二、三点,并不现实。笔者观点是,选择一个可靠的电气系统远比选择可靠的设备更加合适。而国外国内,绝大多数的客户都是选择业界Top品牌设备,而且有一定成熟应用案例,规模,和市场时间验证。并非其他生产商的设备就一定不可靠,而是出货量和安装量这种规模的数字经过多年市场和多方检验。大型公司生产流程体系有ISO认证,6sigma等不断优化质量,有规模生产经验,运维体系,产品应用多年等,让用户更放心。

反过来看MTTR,塔式UPS目前绝大多数都必须依赖设备厂商售后人员维护保养,特别出现故障时候,售后响应时间是一个非常关键项。传统的维护模式,是由用户打电话给生产商的售后服务部门处理相关故障事情。而模块化UPS的好处在于模块热插拔,即使生产商人员未必能马上赶到,也能通过自行更换模块修复,当然前提是有备用模块。这样可以大大减少MTTR。实际上很多大型塔式UPS用户,很早也实施缩减MTTR措施。例如金融行业的大型数据中心,大部分都要求UPS生产商提供原厂维保,并且现场响应时间不超过4小时甚至更短。也要求UPS生产商在当地有常驻技术人员,备品备件库等。

特别地,近年业界不少设备供应商为了更快进入中大容量高频塔式UPS市场并具备规模成本和成熟度优势,使用模块化UPS的功率模块内部并机,设备外观采用和塔式UPS相近。典型做法可以把60kVA的功率段,可以用6个10kVA的UPS模块内部并机实现,抑或对于大容量的UPS如400kVA,可以用10个40kVA或者16个25kVA模块并机实现。这些做法从理论上并非不可,但若这些内部已经模块化并机后的UPS,再多台UPS并机情况,到底均流能力如何,设备稳定性如何,大部分客户都难以甄别。这个例子好比,特斯拉成功地用业界认为“不可思议”多的18650锂电池串联后并联用于电动车。所以笔者认为,在用户角度要考察这类新技术成熟应用年限,相关第三方权威测试报告,业界应用案例和实际使用情况。

对于用户而言,是考虑系统整体可用性,笔者的观点是:在成本允许和可用性要求较高情况下,优先选择合适的电气冗余系统,设备选用市场验证较多成熟度产品和大品牌,优选易维护的模块化设备或选择合适的维保策略。

5.3 为什么国外有一些Colo租赁数据中心使用动态飞轮UPS,而国内几乎全部使用静态电池UPS?

答:这个问题看似简单,但其实牵扯面很广,也有不少中国“特色”因素。动态UPS的一些好处,之前章节有相关陈述解释过,笔者认为国内产业链并不合适使用动态飞轮UPS。主要有2个原因:

1) 运营风险——大部分客户面对飞轮UPS最大困惑是,万一这几十秒后备时间发电机不能起来怎么办?这个“万一”是技术人员心理绊脚石,特别国内极少案例参考 。

2) 产业链和成本——制造商宣传的无电池设计飞轮UPS的TCO比静态电池UPS低。但设备价格在不同市场有较大差异,例如飞轮UPS供应商设备基本需要进口,考虑关税等整体成本比静态UPS较高。国外很多国家,对于铅酸电池生产是需要收很高的环境保护费用,铅酸电池成本比国内就高不少。而国内,铅酸电池和静态UPS产业链丰富,从供应链供货周期、多供应商采购原则等更容易操作。尤其是国内经常出现设计和运营脱离情况下,以及数据中心的发展阶段,国内考核成本是更多是Capex而不是TCO,在采购模式和成本结构两个因素驱使下,静态UPS就变得大行其道。

3) 工程建设——能很好确保工程质量安装的公司资源并不丰富。

4) 调试运维——和工程建设一样,整个产业链技术情况并不完善。而且飞轮UPS的运营是另外一个体系,专业的技术人员并不丰富。

笔者在此并非鼓励用飞轮UPS或者静态UPS(+关注网络世界),更想分享一些方案趋势背后的市场技术环境因素。具体选择每种方案背后都有TCO模型和运营策略,商业权衡。例如国内互联网使用较多的240V高压直流,符合国内的规范要求,是一种主流应用,但在国际市场上属于非主流应用,这种电压还没有获得UL/欧盟等电气安规认可;国际那些同样“巨无霸”级别互联网公司如谷歌、微软、亚马逊、Facebook的数据中心等,都针对自身定制服务器技术开发相应的电源技术。

5.4 为什么大型全球性Colo公司偏好静态UPS而非动态UPS?

答:大型全球性Colo租赁数据中心公司,主要有Equinix,Digital Realty Trust(DRT)、Interxion、Telecity等。这些公司很早就定义了全球IDC建设的标准,同时运营流程和标准已经和设计建设标准结合一起。对技术架构进行大更改将会对现有模式影响较大。为了让不同国家不同类型的机架租户更加放心托管,这些公司更愿意统一成一个机电设计标准给客户全球一致的体验和形象,于是其标准化电气设计就使用了占有率认识度高的静态UPS。同时主流的动态UPS厂商的分布还是主要在欧洲、北美,从生产,售后服务等难以覆盖全球区域。下面链接是Equinix的全球数据中心描述,其中电气系统Power部分,就是使用静态UPS+发电机的做法。

http://www.equinix.com/services/data-centers-colocation/environment/

Colo公司选择技术时,都有其商业和技术结合的出发点。例如Equinix,其竞争力在于互联互通的网络接入平台,这些全球性Colo公司的数据中心卖点并不再使用“独特”的机电设计差异化自身的定位,也许使用动态UPS,或者其他方案有更多效益,但是站在全球标准化服务,管理看,要从静态UPS方案转换到动态UPS方案,并不合适。即使有一定成本收益,对于整个租赁IDC利益,就变得微不足道。简而言之,站在商业价值角度,如果数据中心机电设计和建设标准更容易吸引客户,更容易卖给价值客户群。又何必把精力用于折腾另外一套方案却收益不大呢?何况有技术风险。好比房东能用大众精装修方案吸引高端租客获取可观的租金,就没必要花时间做一套经济适用房装修方案,抑或做一套另类风格装修方案差异化了。对Colo来说,数据中心机电方案和网络互联接入这些基础设施是他们生意的直接产品,而对于互联网公司,是卖各种服务(直接产品),数据中心只是生产资料。这也解释了互联网公司喜欢定制各种基础设施设备,只要提供的服务产品一致体验和性能,生产资料越少越便宜越高效,互联网产品就越有成本竞争力。

5.5 为什么互联网公司偏好定制电源?

答:最大驱动力是TCO成本和可用性。我们不妨看看Facebook的电源架构,微软电源架构,无一例外都是简化供电架构,提高端到端全供电链条上的效率。由于互联网行业数据产生几何级别上升,每年ICT设备和数据中心支出巨大。所以互联网公司凭借规模巨大优势,要求上下游供应链针对自身需求定制从而持续降低成本,提高硬件性价比。下图Facebook的数据中心和Google的数据中心,机架服务器经过解耦和标准化后,类型几乎一模一样。

图21 Facebook数据中心

图22 Google数据中心

读者必须明白,互联网公司通过标准化和精简服务器类型,硬件设计,利用自身服务器采购规模,定制电源才变得可能且更容易衡量价值。

至于可用性,互联网公司是在从硬件到软件整体架构的基础上考虑可用性而非只有硬件可用性,有的公司设计为单电源,有的公司设计为双电源;但无论何种方案,大规模,低成本,高效率,可复制这些基本原则和信条是互联网公司认可的,互联网公司提高可用性均通过选择规模量产的部件提高器件可用性MTBF,然后热插拔易更换/维护的方案缩短MTTR,通过分布式软件架构、灾备方案以及智能化管控来输出整体服务可用性。有兴趣的读者可以比较一下传统IT服务器和OCP的服务器,互联网公司的服务器等硬件设计,在可用性上,各种通用的接口,各种热插拔更换方式,都是为易维护而生。

5.6 为什么不少互联网公司偏好直流UPS?

答:回顾各种互联网公司的方案,所有电源方案,最后都是用于服务器相关元器件供电。把UPS电源黑盒处理,可以看出元器件的工作电压,如下图 23: Intel当年标准化了直流电压为12V,通过VR变换给CPU,内存,硬盘,甚至风机,其他辅助芯片等需要各种工作电压。其他电压虽然技术可行,但产业链没有这些标准产品,定制开发的成本和收益的商业价值并不理想。互联网公司的UPS电源创新,基本都是围绕ICT设备的12V的工作电压。

互联网公司偏好直流电源,总结下来就是能效高、成本低、易维护三点。

在此,笔者也点评一下高压直流在国内的应用,很多行业客户想尝试240V高压直流的应用。这里面有几个方面要考虑:

1) 服务器是否兼容?——笔者认为,尽管很多新型服务器的输入电源PSU都支持240V直流,但要切换到240V高压直流,需要对所有设备做电源兼容性测试,并且同样享受到服务器厂家的同等质保。这时候,企业的IT部门需要和基础设施部门进行合作并协同才能实现这个目标,如果服务器和交换机类型和品牌繁多,加上很多老旧设备不兼容,这样240V的高压直流的改造将会伤筋动骨。现在产业链问题并不在于240V直流UPS电源厂商成熟度,而是在于ICT设备商能否兼容并提供同等维保服务。在技术上,电源是否兼容无非是器件耐压和安全处理措施,并非是很高的壁垒,问题在于服务器类型繁多,没有足够规模支撑情况下,服务器供应商从标准化生产角度并无意愿全部设备支持240V高压直流。

2) 效率提高?——高压直流一般是1000~1200A,对应210V DC最低放电电压时,扣除相关冗余和充电模块,一般只能做180~200kW负载。上面提及高效交流UPS和高压直流的效率基本没有差别,但高压直流采购成本会低一些,而目前模块化UPS成本差异较大,一线品牌的价格较高,比同等容量塔式UPS高。

3) 运维问题?——互联网公司由于大量的服务器应用,传统UPS的问题在于需要依赖UPS厂商来维护,而直流电源模块化设计,维护非常简单,可以减少MTTR,不需要依赖厂商。

所以,综上几点,单从直流UPS设备而言(不考虑天蝎机架),笔者认为国内互联网公司用240V直流电,主要目的并非为了单机效率,而是一路市电一路高压直流的整体架构在可用性上能满足要求,但是效率比2N的UPS架构有5%左右的效率提升(效率和一路市电一路模块化UPS差不多),更多是为了采购成本,运维上缩短MTTR而更简单。

6 未来电源发展的方向

在本章开始时,笔者先提一个问题——数据中心为什么需要UPS?

UPS在数据中心作用是为了保障关键应用/任务(application)能够无中断进行。如果未来趋势是云计算技术,一个云平台上,数据中心之间实时相互备份,做到异地多活,那么还需要UPS嘛?云计算的公司都追求服务可用性SLA上,数据中心电气系统追求极简高效和TCO最优设计。笔者做个脑洞大开的推测,未来云计算平台上,数据在不同数据中心同步备份,而单个数据中心的UPS重要性将会降低,也许2N设计最后变成N+1,甚至最后只有N,储能设备仅需确保数据在不同设备/数据中心之间同步时间(极短延时,秒级别),满足业务切换和光缆传输备份数据时间即可。我们可以打个比喻,一个数据中心比喻为发电站,用户需要电,如果有一个电网把所有发电站连接,实际上当一个发电站不供电,用户侧也不会感受到有电力中断,单个数据中心可用性标准降低,架构极其简化,UPS的电池容量会变为超级电容等少容量方案,甚至后备发电机会减少配置或不必要。

笔者会采用开篇提及的UPS电源本质物理属性来推导所有可能方案。我们回顾一下UPS的三大核心逻辑工作电压、储能设备、储能设备位置。笔者推导的方法是把整个数据中心从输入到最后负载的全供电链路重绘,读者看完后就能自我推导各种方案和可能性。

图24 供电系统全链路

上图推导是用三要素法穷举方式,笔者对每个位置进行若干标注,其他方式读者可以用笔者思路推导即可。需要注意的原则是,工作电压可以多个位置,可以增加或减少电压变换的环节,同时储能设备的位置未必要和同一位置,工作电压也可以改变。储能设备在3.4章节有描述,可以随便替换。

于是可以出现下面常见多种架构:

可以看出,笔者这套理论是能够解释业界各种UPS电压架构,下面给出一些可能的组合方式,各种未来的猜测。

至于对各种方案怎么衡量价值,笔者在4.2章节已经有相关论述。

7 结语

不同UPS技术背后都有不同的市场技术环境因素,都有TCO模型和运营策略,商业权衡。笔者回顾一下文章的总体逻辑,先提出UPS关键属性三要素——用三要素分析各种电源架构——怎样衡量电源架构价值——市场和行业一些因素和现象解释——推导未来电源发展方向。笔者认为,未来电源的发展更多看数据中心整体技术趋势,因为电源直接服务对象是服务器和网络设备。云计算发展,软硬结合以及软件定义硬件的流行,改写了服务器市场格局,而底层支撑的数据中心产业链也受到影响并发生着变革。翻看数据中心发展史,从90年代末互联网开始,引发数据中心第一波浪潮,大量中小型数据中心兴起,小型数据中心和网络间建设量巨大。随着信息化发展,大中小型数据中心建设出现在企业不同机构,例如银行行业的支行有网络间,一级分行有小型数据中心,总行有大型数据中心,而异地三中心等政策发布后,引发银行业超大型数据中心建设浪潮。近年集中化,IDC租赁,IT外包等发展,极大促进了国内外Colo租赁数据中心建设,这类数据中心变得越来越高效。这些ICT产业变化,使各种各样UPS电源得到很大发展。看最近国内外互联网企业迅猛发展,互联网云计算又使得电源的设计有了更多可能。也就是,什么样的数据中心设计,什么样的电源架构设计,才适合云计算数据中心?国内240V直流电源近几年的兴起就是例子,属于国内互联网行业的一次探索和尝试。

特斯拉电动车,电池和充电器出现,汽车格局会有所改变;iphone等智能手机出现,彻底改变了触摸屏,摄像头,芯片等手机产业链。未来这些大型互联网公司,是否会影响和改变这个行业,我们拭目以待。一个生态系统进化和改变,不是一个生命体变化而引起,而且生命体与生命体之间的连接,互相影响而共同进化形成。数据中心行业就是一个生态系统,UPS电源只是其中一个生命体。电源从业者应更开阔眼界看待变化和发展,时刻关注国内外的发展趋势并做出合适的变化和转型。

【名词解释】

UPS:不间断电源,uninterruptable power supply

PSU:供电单元,power supply unit

BBU:电池后备单元,battery backup unit

VR:电源调节变换,voltage regulator

Colo:数据中心租赁公司,全称Colocation,

相关文章