AWS, Azure ও Google আউটেজ: ২০২৫-এর ক্লাউড বিপর্যয়ের অন্তরালে (Bangla)

যখন “পুরো ইন্টারনেট” স্থবির হয়ে যায়

২০২৫ সালটি ক্লাউড কম্পিউটিংয়ের ইতিহাসে একটি স্মরণীয় বছর। আমরা প্রায়ই ভাবি ক্লাউড মানেই “High Availability” আর “Unbreakable”। কিন্তু ২০২৫-এর অক্টোবর বা ডিসেম্বরের বড় আউটেজগুলো আমাদের চোখে আঙুল দিয়ে দেখিয়ে দিয়েছে—আধুনিক ইন্টারনেটের ভিত্তি আসলে কতটা ভঙ্গুর হতে পারে।

আপনি কি কখনো ভেবে দেখেছেন, কেন শত শত ডেটা সেন্টার আর হাজার হাজার ইঞ্জিনিয়ার থাকা সত্ত্বেও AWS বা Azure-এর মতো সার্ভিসগুলো কয়েক ঘণ্টা বা দিনের জন্য বন্ধ হয়ে যায়? আজকের ব্লগে আমরা ২০২৫-এর কিছু রিয়েল-টাইম ডেটা এবং আউটেজ কেস স্টাডি নিয়ে আলোচনা করবো।

Outage

১. AWS US-EAST-1: একটি DNS ভুল এবং ডমিনো ইফেক্ট (অক্টোবর ২০২৫)

২০২৫ সালের ২০ অক্টোবর AWS-এর সবচেয়ে বড় রিজিয়ন us-east-1 (Northern Virginia)-এ একটি ভয়াবহ আউটেজ ঘটে। এটি প্রায় ১৫ ঘণ্টা স্থায়ী ছিল এবং Slack, Atlassian, Reddit-এর মতো জনপ্রিয় প্ল্যাটফর্মগুলো পুরোপুরি অচল হয়ে যায়।

কী ঘটেছিল? (The Root Cause) সমস্যাটি ছিল DynamoDB-এর অটোমেটেড DNS ম্যানেজমেন্ট সিস্টেমে। একটি “DNS race condition” বা টেকনিক্যাল ত্রুটির কারণে অ্যাপ্লিকেশনগুলো DynamoDB-এর আইপি অ্যাড্রেস খুঁজে পাচ্ছিল না।

শিখনীয় বিষয়: DynamoDB হলো একটি “Foundational Service”। AWS-এর অন্যান্য প্রায় সব সার্ভিস (যেমন Lambda, EC2 Metadata) অভ্যন্তরীণভাবে এর ওপর নির্ভর করে। ফলে ডাটাবেসের একটি ছোট DNS সমস্যা “জলপ্রপাতের মতো” (Waterfall effect) পুরো ইকোসিস্টেমকে ডুবিয়ে দিয়েছিল।

২. Cloudflare: একটি ডাটাবেস পারমিশন এবং ২০% ইন্টারনেটের পতন (নভেম্বর ২০২৫)

২০২৫ সালের ১৮ নভেম্বর Cloudflare-এর একটি বড় আউটেজ ঘটে যা আধুনিক ইন্টারনেটের জটিলতা এবং “Centralized Control”-এর ঝুঁকিকে পুনরায় আমাদের সামনে নিয়ে আসে।

কী ঘটেছিল? (The ‘Panic’ Moment) সবচেয়ে অবাক করা বিষয় হলো, এই বিপর্যয়ের পেছনে কোনো হ্যাকার হানা দেয়নি। ইঞ্জিনিয়াররা তাদের ClickHouse ডাটাবেসে একটি অত্যন্ত সাধারণ “Permission Change” করেছিলেন। এই পরিবর্তনের ফলে Cloudflare-এর Bot Management সিস্টেমের একটি কনফিগারেশন ফাইলের সাইজ দ্বিগুণ হয়ে যায়।

টেকনিক্যাল কারণ: ফাইলের সাইজ বেড়ে যাওয়ায় তা Cloudflare-এর প্রক্সি সফটওয়্যারের একটি “Hard-coded limit” অতিক্রম করে ফেলে। এর ফলে পুরো গ্লোবাল নেটওয়ার্কে একটি “System Panic” তৈরি হয় এবং শত শত সার্ভার একসাথে ক্র্যাশ করে।

বিশাল প্রভাব (The Catch): Cloudflare বিশ্বের প্রায় ২০% ইন্টারনেট ট্রাফিক সামলায়। এই একটি ছোট ভুলের কারণে ChatGPT, Spotify, Discord এবং এমনকি Downdetector-এর মতো সার্ভিসগুলো কয়েক ঘণ্টার জন্য বন্ধ হয়ে যায়।

শিখনীয় বিষয়: সিস্টেম যতই ডিস্ট্রিবিউটেড হোক না কেন, যদি তার Configuration Management বা Control Plane কেন্দ্রীয়ভাবে কাজ করে, তবে একটি ছোট ভুল পুরো গ্লোবাল নেটওয়ার্ককে অকেজো করে দিতে পারে।

৩. Microsoft Azure ও Azure Front Door বিপর্যয় (অক্টোবর ২০২৫)

অক্টোবর ২৯, ২০২৫-এ Microsoft Azure একটি গ্লোবাল আউটেজের মুখোমুখি হয়। এর ফলে Xbox Live থেকে শুরু করে মাইক্রোসফট ৩৬৫ এবং বিভিন্ন এয়ারলাইন্স বুকিং সিস্টেম বন্ধ হয়ে যায়।

কেন শত শত রিজিয়ন একসাথে আক্রান্ত হলো? সমস্যাটি ছিল Azure Front Door (AFD)-এ—যা মাইক্রোসফটের গ্লোবাল রাউটিং এবং কন্টেন্ট ডেলিভারি নেটওয়ার্ক। একটি ছোট “Inadvertent Configuration Change” বা ভুল কনফিগারেশন আপডেট স্বয়ংক্রিয়ভাবে গ্লোবালি প্রোফাগেট হয়ে যায়।

যেহেতু সব রিজিয়ন একই গ্লোবল রাউটিং লজিক ব্যবহার করছিল, তাই ইঞ্জিনিয়ারদের করা একটি ছোট ভুল কয়েক সেকেন্ডের মধ্যে পুরো পৃথিবীর ট্রাফিক রাউটিং ভেঙে দেয়।

৩. Google Cloud: কোটা পলিসি ও নাল-পয়েন্টার এক্সেপশন (জুন ২০২৫)

২০২৫ সালের ১২ জুন Google Cloud-এর একটি গ্লোবাল আউটেজ ঘটে যা Gmail, Discord এবং Spotify-কে আক্রান্ত করে।

কী ঘটেছিল? এটি ছিল একটি পিওর সফটওয়্যার বাগ। Google-এর “Service Control” সিস্টেমে একটি নতুন ফিচার যোগ করা হয়েছিল। সেই ফিডব্যাক লুপে একটি “Malformed Quota Policy” (ফাঁকা ফিল্ডসহ ডেটা) চলে আসে। সিস্টেমে পর্যাপ্ত Error Handling না থাকায় এটি একটি Null-pointer exception তৈরি করে এবং Google-এর সার্ভিস কন্ট্রোল বাইনারিগুলো বিশ্বজুড়ে ক্র্যাশ করতে থাকে।

৪. AI-এর প্রভাব এবং নতুন চ্যালেঞ্জ (২০২৫-এর নতুন প্রবণতা)

২০২৫ সালে ক্লাউড আউটেজের একটি নতুন কারণ হিসেবে আবির্ভূত হয়েছে AI Workloads।

Capacity Constraint: ChatGPT বা Sora-এর মতো AI মডেলের আকাশচুম্বী চাহিদার কারণে ক্লাউড প্রোভাইডাররা অনেক সময় GPU এবং ব্যান্ডউইথ সংকটে পড়ে।
AI Outages: ২০২৫-এর জুন এবং ডিসেম্বরে ChatGPT বেশ কয়েকবার ডাউন হয়। এর অন্যতম কারণ ছিল ঐতিহাসিক “Traffic Peak” (প্রতি মিনিটে ৪.২ মিলিয়ন রিকোয়েস্ট), যা ক্লাউডের অটো-স্কেলিং লিমিটকে ছাড়িয়ে গিয়েছিল।

Zero SPOF কি সম্ভব? (একটি তিতা সত্য)

ইঞ্জিনিয়ারিংয়ের ভাষায় Single Point of Failure (SPOF) মানে এমন একটি পয়েন্ট যার ব্যর্থতায় পুরো সিস্টেম বন্ধ হয়ে যায়। আমরা যতই “Multi-Region” ব্যবহার করি না কেন, আধুনিক ক্লাউড আর্কিটেকচারে ৩টি জায়গায় কেন্দ্রীয় SPOF রয়ে গেছে:

Global DNS: সব রেকর্ড শেষ পর্যন্ত একটি নির্দিষ্ট ম্যানেজড সার্ভিসের ওপর নির্ভর করে।
Global IAM (Identity & Access Management): আপনার লগইন পারমিশন চেক করার সিস্টেমটি যদি গ্লোবালি রিপ্রেজেন্ট করে তবে সেটি একটি বড় ঝুঁকি।
Global Control Plane: এই মস্তিষ্কেই ২০২৫-এর অধিকাংশ আউটেজ ঘটেছে।

আমরা কী শিখলাম? (Actionable Advice)

২০২৫-এর এই বিপর্যয়গুলো থেকে আমাদের ৩টি মূল শিক্ষা:

১. Blast Radius নিয়ন্ত্রণ করুন: আপনার আর্কিটেকচারকে ছোট ছোট স্বাধীন “Cells”-এ ভাগ করুন (Cell-based Architecture)। একটি সেল ভাঙলেও যেন পুরো সিস্টেম না ডোবে। ২. Multi-Cloud Backups: অন্তত আপনার ক্রিটিক্যাল ডেটা এবং সার্ভিসগুলোর জন্য দ্বিতীয় একটি ক্লাউড প্রোভাইডারে (Fallback) ব্যবস্থা রাখুন। ৩. Reliability > Speed: অটোমেশন কোড বা কনফিগারেশন আপডেট সরাসরি গ্লোবালি না পাঠিয়ে “Canary Deployment” বা ধীরে ধীরে রোল-আউট করার সংস্কৃতি গড়ে তুলুন।

শেষ কথা: ক্লাউড প্রোভাইডাররা যতই বড় হোক, তারা ভুলের ঊর্ধ্বে নয়। ২০২৫ সাল আমাদের শিখিয়েছে যে, সিস্টেম “কখনোই ভাঙবে না” এই চিন্তার চেয়ে “সিস্টেম ভাঙলে আমরা কত দ্রুত ফিরবো”—এই চিন্তাই একজন ভালো ইঞ্জিনিয়ারের পরিচয়।

তথ্যসূত্র:

AWS US-EAST-1 Post-mortem Summary (Oct 2025)
Azure Front Door Incident Report (Oct 2025)
Google Cloud Service Control Post-mortem (June 2025)
OpenAI ChatGPT Resilience Analysis (2025)