Ngày 20/10/2025 (giờ Việt Nam), nhiều tổ chức công nghệ trên toàn cầu ghi nhận sự cố nghiêm trọng tại vùng US-EAST-1 của Amazon Web Services (AWS), dẫn đến lỗi API, độ trễ tăng cao và dịch vụ tạm thời không phản hồi. Sự cố kéo dài gần 15 giờ, ảnh hưởng đến hàng nghìn doanh nghiệp nhưng không gây mất dữ liệu, nhờ quá trình khắc phục nhanh chóng và có trình tự của AWS.
Bối Cảnh
US-EAST-1 (Bắc Virginia) là vùng hạ tầng trọng yếu, nơi vận hành phần lớn workload của nhiều doanh nghiệp toàn cầu. Sự cố bắt nguồn từ lỗi phân giải DNS tại endpoint của Amazon DynamoDB, gây ảnh hưởng dây chuyền đến nhiều dịch vụ như EC2, Lambda, CloudWatch, ECS và SQS. Dù chỉ xảy ra tại một region, mức độ phổ biến của US-EAST-1 khiến tác động lan rộng trên quy mô toàn cầu.
Diễn Biến Sự Cố
Sự cố khởi phát vào đêm 19/10 (giờ Mỹ), khi AWS bắt đầu ghi nhận các dấu hiệu bất thường về lỗi API và độ trễ tại nhiều dịch vụ…
Timeline Chi Tiết (Giờ PDT / Giờ Việt Nam)
| Thời điểm | Diễn biến chi tiết |
|---|---|
| 19/10 – 11:49 PM PDT (20/10 – 13:49 VN) |
AWS bắt đầu ghi nhận tăng lỗi API và độ trễ cao tại nhiều dịch vụ trong vùng US-EAST-1. |
| 20/10 – 12:11 AM PDT (14:11 VN) |
AWS xác nhận sự cố ảnh hưởng nhiều dịch vụ, bao gồm DynamoDB, Lambda, EC2 và IAM. Kích hoạt quy trình SEV (Service Event) khẩn cấp. |
| 12:51–1:26 AM PDT (14:51–15:26 VN) |
Xác nhận lỗi tập trung tại DynamoDB, gây ảnh hưởng đến các dịch vụ phụ thuộc. Nhiều API timeout hoặc không thể truy cập. |
| 2:01 AM PDT (16:01 VN) |
AWS xác định nguyên nhân gốc là DNS resolution error trong endpoint của DynamoDB. Triển khai nhiều luồng khắc phục song song (DNS routing, cache flushing). |
| 2:24 AM PDT (16:24 VN) |
Khôi phục thành công DNS DynamoDB, lưu lượng truy cập bắt đầu ổn định. Tuy nhiên, các dịch vụ như EC2, Lambda và SQS vẫn có backlog lớn. |
| 3:35 AM PDT (17:35 VN) |
Hầu hết các API đã hoạt động trở lại. AWS khuyến nghị khách hàng flush DNS cache nếu vẫn gặp lỗi kết nối DynamoDB. |
| 4:08–5:10 AM PDT (18:08–19:10 VN) |
Phát hiện lỗi thứ cấp trong EC2 launch subsystem (do phụ thuộc vào DynamoDB). AWS tạm giảm tốc độ khởi tạo EC2 để tránh bão tải. |
| 5:48 AM PDT (19:48 VN) |
Một số Availability Zone đã có thể khởi tạo EC2 thành công trở lại. Các dịch vụ phụ thuộc như ECS, Glue, RDS bắt đầu phục hồi. |
| 7:14–8:04 AM PDT (21:14–22:04 VN) |
AWS phát hiện vấn đề mới trong hệ thống health check của Network Load Balancer (NLB) khiến một số kết nối nội bộ bị gián đoạn. |
| 8:43 AM PDT (22:43 VN) |
AWS triển khai biện pháp giảm tải, tạm throttle yêu cầu khởi tạo EC2, và bắt đầu phục hồi kết nối mạng nội bộ. |
| 9:38 AM PDT (23:38 VN) |
Khôi phục hoàn toàn hệ thống kiểm tra tình trạng NLB, các dịch vụ Lambda, CloudWatch và DynamoDB hoạt động ổn định trở lại. |
| 10:03–1:52 PM PDT (22:03–04:52 VN 21/10) |
AWS giảm dần throttle, xử lý backlog SQS, EventBridge, CloudTrail, và Lambda invocations. |
| 3:01 PM PDT (05:01 VN 21/10) |
AWS xác nhận toàn bộ dịch vụ US-EAST-1 đã khôi phục hoàn toàn, chỉ còn backlog nhỏ của Redshift, Config, Connect đang xử lý nốt. |
Chiến Lược Khắc Phục
- Phản ứng nhanh và chính xác: Xác định lỗi và phạm vi ảnh hưởng trong vòng 37 phút.
- Tự động hóa phục hồi nhiều lớp: Khắc phục đồng thời từ tầng DNS đến EC2, NLB và Lambda.
- Giảm tải có kiểm soát: Throttle các tác vụ tải cao như khởi tạo EC2 và polling Lambda.
- Khôi phục theo trình tự ưu tiên: Ưu tiên subsystem cốt lõi trước khi dỡ throttle.
- Cập nhật minh bạch: Thông tin tiến độ phục hồi được đăng tải đều đặn trên trang trạng thái chính thức.
Phản Ứng Từ Cộng Đồng Kỹ Thuật

Sự cố tại vùng US-EAST-1 của AWS ngày 20/10/2025 đã thu hút sự quan tâm lớn từ cộng đồng kỹ thuật toàn cầu. Nhiều chuyên gia hạ tầng và quản trị hệ thống đánh giá đây là một trong những thử thách nghiêm trọng nhất trong năm, nhưng đồng thời cũng là ví dụ điển hình về cách một nhà cung cấp dịch vụ đám mây quy mô lớn phản ứng với sự cố.
Điều được đánh giá cao nhất là khả năng vận hành vững vàng của AWS trong tình huống khẩn cấp. Mặc dù sự cố lan rộng và ảnh hưởng đến hơn 140 dịch vụ, hệ thống vẫn duy trì được tính nhất quán về dữ liệu và trạng thái. Không có hiện tượng ghi đè dữ liệu, mất trạng thái giao dịch hoặc rollback sai – những lỗi thường xảy ra khi có gián đoạn ở tầng hạ tầng cốt lõi.
Ngoài ra, cộng đồng cũng ghi nhận sự minh bạch trong truyền thông của AWS. Trong suốt quá trình khắc phục, hãng liên tục cập nhật trạng thái chi tiết trên trang chính thức, với tần suất từ 30–45 phút/lần. Các bản cập nhật không chỉ thông báo tình trạng phục hồi theo từng lớp dịch vụ, mà còn giải thích rõ nguyên nhân gốc rễ và hướng xử lý kỹ thuật đang được triển khai. Điều này giúp khách hàng, đặc biệt là các nhóm vận hành DevOps và SRE, có căn cứ rõ ràng để đưa ra quyết định trong lúc hệ thống của họ chịu ảnh hưởng.
Một điểm sáng khác là phản ứng từ các hệ thống kiến trúc đa vùng (multi-region). Nhiều tổ chức cho biết workload của họ không bị ảnh hưởng nhờ đã triển khai chiến lược failover sang các vùng khác như US-WEST-2 hoặc EU-CENTRAL-1. Điều này được xem là minh chứng thực tế cho giá trị của kiến trúc phân tán và khả năng chống chịu lỗi cao (high availability) khi được thiết kế đúng chuẩn.
Trên các nền tảng thảo luận như Reddit, Hacker News hay các diễn đàn chuyên sâu về Cloud/SRE, nhiều bình luận bày tỏ sự tin tưởng vào cách AWS xử lý. Dù sự cố kéo dài gần 15 giờ – một con số đáng kể trong thế giới vận hành 24/7 – nhưng nhờ cách tiếp cận có trình tự, không hoảng loạn và đặt trọng tâm vào phục hồi an toàn, AWS đã bảo vệ được uy tín về độ tin cậy dịch vụ ở quy mô toàn cầu.

