

截至12月11日,OpenAI的ChatGPT和Sora服务出现中断,影响始于美国太平洋时间4时10分,导致用户无法正常使用。据称,OpenAI正在调查ChatGPT服务中断的具体原因。
考虑到近期大量涌现的应用需求,目前的服务中断可能是由服务器负载过高引起的,尤其是在高峰时段。根据现有消息,OpenAI的工程师正在积极诊断并尝试解决问题,涉及扩展算力资源、优化Kubernetes集群API的操作等。为了确保及时响应,工程师正密切监控Kubernetes相关组件的运行状态,以便快速恢复K8S应用的服务。
早在最近的一次事件(始于3小时12分钟前)中,工程师便意识到Kubernetes(K8S)集群内部的网络连接存在不稳定的情况。最初,问题似乎与K8S API终端有关。一旦确认API组件出现问题,相关团队就会迅速投入,诊断K8S API调用的根本原因。
事实上,K8S平台通常依赖于多种网络技术来维持服务发现,例如DNS。这些技术对于服务的正常运行至关重要,因此必须全天候进行监控。在过去的3小时内,工程师一直致力于检查并修复K8S API连接,初步判断问题可能源于“单点故障”。修复过程包括诊断并缓解影响整体集群健康的潜在问题。
OpenAI的工程师们正努力稳定各种依赖底层算力资源的服务。他们正深入研究K8S的API调用模式,以识别潜在瓶颈并优化API的操作,从而提升整体服务性能。同时,他们也在积极评估K8S API流量的运行状况,以便检测异常模式。
总之,OpenAI正致力于解决由底层组件引起的潜在连接问题,优先保障用户能够流畅地使用服务。目前工程师正在积极进行缓解工作,并与上游供应商沟通,以确保尽快恢复“健康”。
问题详情:https://status.openai.com/incidents/ctrsv3lwd797
关键要点:
⚠️ 问题概述:核心组件的网络连接问题影响了K8S API终端,导致服务中断。
📢 应对措施:正在检查服务的网络连接,以排除潜在故障,保证服务恢复。
⏳ 当前状态:工程师正在研究算力和网络连接,以保障服务的运行。