数据中心验证测试是数据中心建设中不可或缺的一个环节,是检验数据中心基础设施安全性、可靠性、冗余能力和承载能力的一个十分重要的手段。本文以深圳某数据中心为例,通过数据中心验证测试的过程,探索数据中心单机测试、单系统测试、综合系统测试的方法,论述数据中心验证测试的重要性。
数据中心验证测试概念
严格意义上的数据中心基础设施验证测试是指从“设计图纸验证、工厂验证测试、安装检查及见证调试、单机测试(预检查、功能测试)、单系统测试、综合系统测试”等一个完整的验证测试过程。目前,很多项目由于前期时间紧张,部分建设单位重视程度不够等原因,往往忽视了“设计图纸审查、工厂验证测试、安装检查及见证调试”这三个阶段,而更侧重于“单机测试、单系统测试、联合系统测试”等环节。实际上,以上各个步骤完整的执行对项目的顺利交付及后续稳定运行是有非常大的意义。
一般来说,验证测试是由建设单位聘请经验丰富的第三方专业测试机构主导,项目的各参建方,包括设计单位、施工单位、监理单位、设备供应商等各单位配合执行的一项系统工程。第三方专业测试机构通常提供测试所需要的各种仪器、仪表、工具、测试用假负载、测试方案、测试流程等,并主导具体的测试过程。各施工单位、供应商对自己承担的施工安装、设备性能、调试质量负责,在执行测试时由其提供设备专用工具并进行具体的设备及系统操作,在发现安装问题、设备质量问题、调试等其他问题时及时进行整改,以便支持后续验证测试计划。设计单位对设计意图、设计图纸负责,遇到问题时需参与解决。项目建设单位、监理单位需见证测试过程,并召集各方参与测试,及时协调解决测试过程中发现的问题。验证测试的核心是通过假负载模拟“数据中心正常运行时、故障运行时”的各种状态是否与设计意图符合,包括验证施工质量、设备质量、调试质量、各种逻辑功能等。
案例——深圳某数据中心验证测试
0 1
项目概况
深圳某数据中心(扩建)项目总用地面积约1727㎡,总建筑面积 11200㎡,主要功能为数据中心机房、配电房及其相应配套附属用房,该项目为一类高层公共建筑,数据机房按数据中心机房A级标准设计,共设置九个数据机房,机柜总数926个,单机柜功率为5kW。
电气系统: 设置6台2500KVA变压器及2台2000KVA变压器,变压器总装设容量为19000KVA,分别设置在6层及2层;设置6台10kV的柴油发电机,单机功率为2200kw,设置在一层柴发室。
智能化系统: 综合布线系统、电力监控系统、动环监控系统、冷源群控系统、建筑设备管理系统(BA)、计算机网络系统、视频监控系统、入侵报警系统、出入口控制系统、访客系统、DCIM(数据中心集成管理系统)。
制冷系统: 空调冷源采用3台650冷吨的磁悬浮冷水机组,设置于地下一层制冷机房,设置2台蓄水量有效容积为70立方米的闭式蓄冷罐,配置7套制冷量300kW的蒸发冷却机组,电池间、通信间、柴发并机室采用多联式空调。
消防系统: 机房楼的模块机房、电力室、电池室及高压配电室消防自动灭火系统采用气体灭火系统;采用预作用喷淋系统。
冷冻站柴发室
柴发并机室低压配电室
高压配电室UPS室
电池室模块机房
屋面冷却塔ECC监控室
0 2
项目测试实施过程
该数据中心基础设施建设期间,建设单位委托第三方测试单位进行验证测试及等级认证。第三方测试单位按设计图纸验证、现场踏勘、预检查及单机功能测试、单系统测试、综合系统测试五个阶段对数据中心场地基础设施进行全方位“质量检验”。
设计图纸验证
设计图纸验证相关工作内容如下:
(1)通过对该数据中心相关设计文件的复核,分析并理解业主方的使用需求与设计意图;
(2)对数据中心相关设计文件进行可测试性评审,以确保为数据中心的关键设备与系统具备测试所需的接口和条件,主要设计参数可以被验证;
(3)对数据中心设计文件中各个系统的运行、控制逻辑进行审核,确保其合理性与适用性。
依据CQC1324-2018 《数据中心场地基础设施认证技术规范》进行设计图纸符合性审查,出具《数据中心场地基础设施现场审核记录表》。
图2-1 数据中心场地基础设施现场审核记录表
安装检查及见证调试(现场踏勘)
在验证测试进场前对数据中心的施工现场进行一次详细的勘察,了解项目的实际施工进度,项目实体工程施工界面是否符合验证测试要求,实体工程是否与设计图纸相一致,是否存在较大的设计变更,了解项目供电计划,并收集数据中心基础设施相关的设备资料及BA控制逻辑、电气系统的切换逻辑,判断现实体工程现状是否满足验证测试的实施条件。关键设备开机调试见证。
对数据中心的施工现场进行详细踏勘,出具《数据中心项目现场踏勘报告》。
图2-2 数据中心项目现场踏勘报告
预检查及单机功能测试
验证测试预检查的工作方式以目视检查方式为主,结合仪器检测对实体工程的安装及工艺符合验证测试进行检查。
在对数据中心实施单系统验证测试工作之前,第三方测试单位将对数据中心各基础设施单系统进行验证测试预检查工作,核查单系统验证测试的相关要求、数据,提出验证测试意见与建议,包括:设备的随机资料、设备及系统的调试资料、设备及系统的设置及状态、静态配置要求。
验证测试预检查主要工作包括:
(1)核查各系统的相关工程资料及调试资料是否完成、其内容是否满足验证测试的要求;
(2)抽检、复核相关性能、功能指标的真实性与确定性,核对设备规格、型号、数量及安装、施工工艺是否与竣工图纸相符、是否满足国家相关标准及规范要求;
(3)对部分主要的功能指标与性能指标进行抽检、复核;
(4)核查数据中心各子系统设备、系统设计要求及工程实施的规范性是否符合设备招标要求及标准规范的规定、是否满足可靠性验证及测试服务验收的要求;
(5)验证测试预检查日报编制及提交;
(6)验证测试预检查发现问题列表编制及提交;
(7)在预检查阶段发现项目工程尚未满足验证测试前置条件时,第三方测试单位将书面向建设单位说明情况,由建设单位督促施工单位完成相关工作达到验证测试前置条件后,方可进行本项目的验证测试工作。
单机功能测试是单系统测试前的一项重要工作,单机功能测试依据设计文件、技术要求、产品手册等相关资料,在供货商技术人员的配合下,完成供配电设备、空调设备、智能化系统设备及消防设备的基本功能测试、保护告警功能测试、冗余功能测试、控制功能测试及其他功能测试。
验证测试单机功能测试主要工作包括:
(1)暖通设备(含冷冻机组、循环水泵、板式换热器、冷却塔、定压补水装置、自动加药装置、蓄冷罐、精密空调、列间空调、蒸发冷却背板空调、新风机组、恒湿机等)的基本功能、运行功能、保护告警功能等。
(2)电气设备及系统(含柴油发电机、供油系统、变压器、高低压柜、各控制箱、UPS、电池组,PDU等)基本功能、保护告警功能、冗余功能、运行功能等。
(3)智能化系统(含视频监控、门禁、电力监控、动环、入侵报警系统等)显示功能、基本功能、告警功能、数据一致性、状态一致性等。
(4)消防报警系统告警功能、联动功能等;
预检查和单机功能测试是在设备空载运行的情况下,对数据中心基础设施的施工安装质量、设备质量、设计质量的验证测试,通过设备厂商的操作、功能展示、告警模拟,验证设备的安装质量、基本功能、保护告警功能是否符合设计和标准规范的要求。
在深圳某数据中心预检查和单机功能测试阶段,第三方测试团队发现的一些施工质量和设备质量的问题,例如:
(1)发电机组机体接地线缺失
(2)柴发室日用油箱间油箱液位显示不准确
(3)空调送风口被线缆遮挡
(4)模块机房消防管漏水
(5)弱电井设备电源线未贴标签
单系统测试
在完成现场验证测试的预检查,并就预检查发现的问题由施工单位完成整改后,将进入现场单系统验证测试阶段的工作。
单系统的测试方法主要是通过假负载模拟单系统真实运行时的各种状态及故障模式时的各种状态,通过一定时间的运行,验证系统是否合格。主要的单系统测试包括:高压系统、低压系统、不间断电源系统、发电机系统、冷却系统、冷冻系统、控制系统等的测试。具体测试包括 25%带载、50%带载、75%带载、100%带载,突发加减载,关闭冗余设备等。在单机测试、单系统测试完成后,经整改合格后方可进行联合测试。
本数据中心的基础设施划分为以下单系统进行验证测试:
(1)供配电系统
(2)柴油发电机系统
(3)UPS系统(含蓄电池)
(4)配电末端系统
(5)空调冷源系统
(6)水冷精密空调系统
(7)间接蒸发冷却背板空调系统系统
(8)新、排风系统(含加、除湿机)
(9)智能化系统:包括BA控制系统、动力环境监控系统、蓄电池监控系统、安全防范系统(视频监控、门禁、入侵)等。
(10)消防联动系统
(11)机房环境测试
在单系统测试阶段,通过模拟机房带载运行真实状态,验证数据中心基础设施的承载能力和安全冗余能力,发现了一些设备运行性能的问题,例如:
1.UPS带载测试时,UPS报逆变器模块故障
2.UPS 的电池组放电 4-35节端子高温
3.模块机房满载带载时,11FB-23 B路 PDU接线端子高温
4.机房带载过程中,空调送风高温
5.CH-01冷机报警冷凝压力高
6.柴发带载过程中触发柴发室温感探测器报警
综合系统测试
综合系统验证测试数据中心基础设施综合联动测试的一个重要节点,通过模拟市电供电中断,设备故障等场景来检验数据中心应对突发状况的冗余备份,安全保护能力。
本数据中心市电与旧楼共用三路进线,考虑到旧楼业务的安全,根据CQC1324-2018《数据中心场地基础设施认证技术规范》要求,进行了以下场景演练:
场景1:1#、2#市电正常供电,3#市电备用正常情况下,2#市电中断的系统切换3#备用测试
场景2:1#、3#市电供电情况下,2#市电恢复的系统切换测试
场景3:1#、2#市电正常供电,3#市电备用情况下,1#市电中断的系统切换3#备用测试
场景4:2#、3#市电正常供电情况下,1#市电恢复的系统切换测试
场景5:1#市电中断,3#备份市电失败,1ATS 控制柴发带载运行,取代1#市电供电
场景6:1#柴发带载、2#市电正常供电情况下,手动恢复 1#市电
0 3
验证测试典型问题分析
数据中心验证测试的目的是验证数据中心基础设施的系统能力(承载能力、冗余能力、故障切换能力等)以满足数据中心基础设施安全运行、有效维护为目的,同时也是验证数据中心基础设施建造与设计要求、国标规范的符合性。
数据中心的建设是一个系统工程,实施过程应该把规划、设计、施工和运维紧密联系起来。一个高可靠,高标准的数据中心从规划、设计、施工到运营,各个环节的统筹管理变得相当重要,而第三方验证测试可以在其中起到桥梁纽带的作用,对不合理、不符合规范的问题在过程当中进行纠偏,以确保工程项目的最终落地满足规划设计以及规范要求,有效降低在运营阶段的隐患风险,提高数据中心的安全可靠性。
深圳某数据中心项目引入了专业的第三方测试公司对数据中心基础设施进行验证测试,从图纸验证、现场踏勘、预检查、单系统功能及性能测试、综合系统测试,分五个阶段进行了验证测试,发现了包括安装工艺、设备质量、设计缺陷、设备调试等类型的问题共779条,其中电气382条,暖通273条,弱电124条。
下面每个专业筛选一些典型问题进行分析:
电气专业:
机房PDU零火接反
变压器没有开门跳闸功能
开关整定值现场与设计不一致
柴发烟管密封性差,导致带载过程中烟管漏烟
低压逻辑错误
电池放电过程中,接线端子高温
带载过程中,智能小母线插接箱空开跳闸
配电路由错误
带载过程中,PDU接线端子高温
带载过程中,PDU跳闸
暖通专业:
空调送风口被遮挡
n管道漏水
冷却塔底座漏水
风管漏风
过滤网堵塞告警
送风阀无法正常打开
洞口未封堵
水分配单元排水不畅,地面积水较多
末端空调送风温度异常
BA系统阀门信号反馈有误
智能化专业:
动环系统无法监测插接箱开关状态
UPS主路异常状态测点值反馈错误
UPS旁路异常状态测点值反馈错误
UPS电池未接状态错误
动环系统机房列间空调编号与实际不一致
电力监控系统未监测变压器温控仪,变压器告警无法传输至电力监控系统
动环系统设备告警信息缺失
柴发带载过程中触发柴发室温感探测器报警
动环系统电池组放电电流与实际不符
机柜电流、功率与实际不一致
验证测试出现的问题大多数是设计和施工的问题,这些问题如果不被发现,就会给数据中心运行带来较大的安全隐患,只有通过验证测试才能更深入的从设备外观、功能和性能各方面进行检测,才能发现传统施工过程验收发现不了的问题,确保数据中心安全可靠运行。
0 4
验证测试典型问题整改
验证测试过程中,第三方测试单位通过预检查、单系统测试、综合系统测试各阶段的验证测试,发现并记录问题,形成问题清单。根据对数据机房使用功能影响的严重程度,将问题划分高、中、低三个风险等级;每个风险等级中又按照专业进行划分。高风险问题一般是指与技术要求、合同、图纸或规范存在严重不符或严重质量问题,影响机房正常的功能使用,或存在对人员、设备的重大安全隐患。该类问题必须立刻整改销项,否则系统正式投用后将无法整改或者整改难度较大。中风险问题一般是与技术要求、合同、图 纸或规范存在不符或质量问题。该类问题可能影响到系统的稳定运行,但是后期整改不影响业务正常运行。低风险问题一般集中在对后期维修维护影响较小,易维修维护的问题。该类问题一般集中在施工细节方面。
项目测试团队对本项目测试验证问题进行梳理和分析,归纳出典型问题,并给出相应的整改建议。典型问题及整改建议如下表:
序号
专业
典型问题
整改措施
1
电气
机房PDU零火接线错误
调整零火线
2
变压器没有开门跳闸功能
完善功能
3
开关整定值现场与设计不一致
整定值按设计调整
4
柴发烟管密封性差,导致带载过程中烟管漏烟
补打密封胶
5
低压逻辑错误
调整低压逻辑
6
电池放电过程中,接线端子高温
检查接线端子,规范接线
7
带载过程中,智能小母线插接箱空开跳闸
检查智能小母线插接箱,排除故障
8
配电路由错误
更正路由
9
带载过程中,PDU接线端子高温
检查PDU接线端子,拧紧松动的接线端子
10
带载过程中,PDU跳闸
检查PDU开关整定值是否符合设计要求
1
暖通
空调送风口被遮挡
调整送风口位置或更改遮挡物位置
2
管道漏水
检查管道漏水点,采取补焊措施
3
冷却塔底座漏水
底座打胶
4
风管漏风
补打密封胶
5
过滤网堵塞告警
清理过滤网
6
送风阀无法正常打开
检查风阀开关,排除故障
7
洞口未封堵
洞口封堵
8
水分配单元排水不畅,地面积水较多
地面找坡
9
末端空调送风温度异常
检查空调水阀,管路异常,排除故障
10
BA系统阀门信号反馈有误
调整阀门信号绑点
1
智能化
动环系统无法监测插接箱开关状态
完善功能
2
UPS主路异常状态测点值反馈错误
更正信号反馈
3
UPS旁路异常状态测点值反馈错误
更正信号反馈
4
UPS电池未接状态错误
更正信号反馈
5
动环系统机房列间空调编号与实际不一致
更正信号反馈
6
电力监控系统未监测变压器温控仪,变压器告警无法传输至电力监控系统
完善功能
7
动环系统设备告警信息缺失
完善功能
8
柴发带载过程中触发柴发室温感探测器报警
检查是否误报警或者探测器位置是否太靠近高温区域
9
动环系统电池组放电电流与实际不符
更正信号反馈
10
机柜电流、功率与实际不一致
更正信号反馈
测试验证的价值
数据中心测试验证是数据中心建设质量把关的重要环节,数据中心投入使用前,需要经过一系列的测试环节,就像汽车制造下线交付客户使用前,需要经过一系列质检环节一样。数据中心测试验证主要通过目视安装检查、单机功能测试、单系统测试验证、综合系统测试验证各个环节对建成的数据中心进行质量检查,通过模拟机房设计满载工况,检验数据中心的承载能力。数据中心未经测试直接投入运行,其中的隐患和风险是不言而喻的,而经过测试验证的数据中心,能够提前发现问题,解决问题,减少后期运维的风险和隐患。以深圳某数据中心测试验证项目为例,测试验证给本数据中心带来的价值主要有以下几点:
1.发现包括安装施工质量,设计缺陷,运维安全隐患等问题共计776条,为数据中心提前降低或消除运行风险隐患。
2.通过测试验证推动项目建设更加完善,如发现冷冻水泵DDC控制箱电源非UPS供电、机房末端空调无双电源切换装置(ATS)、动力监控系统无法监测变压器温控仪状态等缺陷问题。
3.测试验证所实施的大量测试及故障切换等工作,为运维团队提供提前参与项目管理的机会,使得运维团队对系统更加熟悉,并且掌握了一定的解决问题能力,便于后期对数据中心的全面管理。
4.多场景应急综合演练,模拟数据中心市电中断、备份系统故障切换、不同带载情况下数据中心承载能力测试等,验证数据中心多场景应急,事故灾害应对能力,为数据中心后期运维提供事故应急预案参考。
5.针对关键设备、系统内、系统间及基于故障模拟的集成测试的测试验证过程,为建设单位提供了大量真实有效的测试数据,为将来数据中心的各项操作提供了全面的数据支持,也为使用单位完成标准化管理流程和运维预案提供了价值素材。
结语
深圳某数据中心项目建设单位引入第三方测试服务公司,对项目的施工质量、安装工艺、设备功能、系统性能、综合性能等进行测试,实现了对该数据中心基础设施全面、系统、全过程的验证,发现了包括设计缺陷、施工质量等问题,为数据中心提前消除风险隐患、确保安全可靠运行起到了重要作用。同时通过第三方验证测试,该数据中心取得了数据中心场地基础设施认证证书,认证等级为增强级(GB50174-2017 A级)。
数据中心验证测试是确保数据中心各系统设计、施工、单机功能测试、综合系统联调、运行状态与设计目标相符合的验证过程,是数据中心潜在运营风险检验、控制和消除的过程,对数据中心的安全、可靠和稳定运行具有十分重要的意义。
| 文章来源:深圳市建筑工务署文体和水务工程管理中心