解密云计算背后的挑战:字节跳动是如何进行大规模服务器集群质量运营的?
伴随近些年云计算行业的蓬勃发展,各大云厂商运营的服务器集群迎来了快速增长,庞大的服务器集群不仅仅是数字的堆砌,更是数字化时代的基石。然而,随着服务器运营数量增加和硬件技术复杂度增大,对线上服务的稳定性构成了严峻挑战,服务器质量管理工作的重要性日益凸显。
特别是近两年AI大模型应用的兴起,为保障千卡甚至万卡以上GPU集群的训练任务连续性,服务器运营质量工作面临着前所未有的挑战和机遇。
在这个背景下,探讨如何有效运营大规模服务器集群成为了云计算行业的热点话题。从硬件的选型到日常的维护,从质量的监控到故障的应对,都需要精心规划和扎实开展。
如何未雨绸缪、精益求精地开展大规模服务器集群的线上硬件运营质量工作?
2024年6月28日-29日,第二十三届 GOPS 全球运维大会暨 XOps 技术创新峰会2024 · 北京站即将举行。
来自字节跳动服务器运营质量工程师,陈海超老师将带来《大规模服务器集群的线上质量运营实践》主题演讲,结合多年服务器运营工作经验,对大规模服务器集群线上质量运营实践进行分享和探讨。
演讲主题:大规模服务器集群的线上质量运营实践
陈海超
字节跳动
服务器运营 质量工程师
听众收益
1、了解线上质量在服务器运营中的重要性
2、了解服务器线上质量体系的建立
3、了解线上质量运营实践和重点专项介绍
4、展望线上质量运营的发展趋势
议题简介
近些年,随着互联网迅猛发展,特别是云计算爆发式增长,各大云计算厂商的服务器运营总量剧增,陆续形成多家超过百万级服务器的大规模集群。在数量增长的同时,服务器型号和配置也随着业务应用场景多样化而层出不穷,服务器底层硬件器件也在快速迭代。
因此,难免遇到各类服务器相关的质量问题,严重时甚至威胁业务的稳定性。特别是近两年的AI大模型应用的兴起,集群规模在千卡甚至万卡以上规模,为保障整个训练任务的连续性,对服务器稳定性提出更高要求,线上硬件运营质量工作尤为重要。
本主题,将结合多年服务器运营工作经验,对大规模服务器集群线上质量运营实践进行分享和探讨。
个人简介
陈海超,在字节负责服务器线上运营质量工作,包括质量体系建设、数据分析、以及质量问题处理和改进。
曾负责大规模服务器集群的硬件监控标准制定与运营流程建设、故障分析平台搭建;主导过CPU网卡硬盘GPU等关键部件的质量数据分析与专项质量提升;深度参与A100/A800/H800等大模型训练集群的质量重保;具备丰富的大规模服务器集群的运营和质量提升经验。
曾担任华为服务器兼容性测试工程师、售后支持负责人,组织并攻关解决国内外运营商、互联网、金融等领域重点客户的服务器疑难问题;具备丰富的服务器硬件、OS兼容性问题处理经验。