OpenAI发布ChatGPT宕机故障详细报告：源于一处细微改动

11个月前发布AI俱乐部

摘要：

截至12月11日，OpenAI的ChatGPT和Sora服务出现中断，影响始于美国太平洋时间4时10分，导致用 […]

截至12月11日，OpenAI的ChatGPT和Sora服务出现中断，影响始于美国太平洋时间4时10分，导致用户无法正常使用。据称，OpenAI正在调查ChatGPT服务中断的具体原因。

考虑到近期大量涌现的应用需求，目前的服务中断可能是由服务器负载过高引起的，尤其是在高峰时段。根据现有消息，OpenAI的工程师正在积极诊断并尝试解决问题，涉及扩展算力资源、优化Kubernetes集群API的操作等。为了确保及时响应，工程师正密切监控Kubernetes相关组件的运行状态，以便快速恢复K8S应用的服务。

早在最近的一次事件（始于3小时12分钟前）中，工程师便意识到Kubernetes（K8S）集群内部的网络连接存在不稳定的情况。最初，问题似乎与K8S API终端有关。一旦确认API组件出现问题，相关团队就会迅速投入，诊断K8S API调用的根本原因。

事实上，K8S平台通常依赖于多种网络技术来维持服务发现，例如DNS。这些技术对于服务的正常运行至关重要，因此必须全天候进行监控。在过去的3小时内，工程师一直致力于检查并修复K8S API连接，初步判断问题可能源于“单点故障”。修复过程包括诊断并缓解影响整体集群健康的潜在问题。

OpenAI的工程师们正努力稳定各种依赖底层算力资源的服务。他们正深入研究K8S的API调用模式，以识别潜在瓶颈并优化API的操作，从而提升整体服务性能。同时，他们也在积极评估K8S API流量的运行状况，以便检测异常模式。

总之，OpenAI正致力于解决由底层组件引起的潜在连接问题，优先保障用户能够流畅地使用服务。目前工程师正在积极进行缓解工作，并与上游供应商沟通，以确保尽快恢复“健康”。

问题详情：https://status.openai.com/incidents/ctrsv3lwd797