قطعی گسترده در گروه CME، بزرگترین بازار معاملات مشتقه جهان، زنگ خطری جدی برای مدیران فناوری اطلاعات به صدا درآورد. این رویداد که در روز شکرگزاری رخ داد، ناشی از نقص در سیستم خنکسازی یک مرکز داده بود و برای ساعتها سیستم مالی جهانی را مختل کرد. این حادثه درسهای مهمی در زمینه مدیریت ریسک، اهمیت زیرساختهای فیزیکی و لزوم آمادگی برای بحرانها به ما میآموزد.
چه اتفاقی افتاد؟
به گزارش بلومبرگ، مشکل اصلی در سیستم خنکسازی یک مرکز داده متعلق به شرکت CyrusOne در نزدیکی شیکاگو رخ داد. این مرکز داده، هاب اصلی معاملات مشتقات به ارزش تریلیونها دلار است. با وجود هوای سرد بیرون، دمای داخل مرکز داده به شدت افزایش یافت و از ۱۰۰ درجه فارنهایت فراتر رفت.
واکنشها به بحران خنکسازی CME
سانچیت ویر گوگیا، تحلیلگر ارشد Greyhound Research، این حادثه را یک مطالعه موردی دانست که نشان میدهد چگونه یک نقص فیزیکی ساده در یک مرکز داده میتواند به یک اختلال جهانی در بازار تبدیل شود. او تاکید کرد که این اتفاق یک “قوی سیاه” (رویدادی غیرقابل پیشبینی) نبود، بلکه نتیجه یک الگوی شکست قابل پیشبینی بود که ریشه در فیزیک سیستمهای خنکسازی، بار حرارتی رو به افزایش محاسبات مدرن و عادت دیرینه برخورد با سیستمهای خنککننده و محیطی به عنوان سیستمهای جانبی به جای سیستمهای حیاتی دارد.
چرا سیستم پشتیبان کار نکرد؟
گوگیا اشاره کرد که مشکل اساسی تنها نقص در سیستم خنکسازی نبود، بلکه ناتوانی سیستمهای پشتیبان نیز در این بحران نقش داشت. به گفته او، این شکست در واحدهای افزونه رخ داد که باید به طور مستقل از هم طراحی و آزمایش میشدند. افزایش سریع دما تا سطوح ناامن باعث شد که CME نتواند موتورهای تطبیق خود را آنلاین نگه دارد.
لزوم ارزیابی مجدد افزونگی توسط سازمانها
گوگیا معتقد است که نگرانی عمیقتر این است که CME یک مرکز داده ثانویه برای جایگزینی بار داشت، اما آستانه انتقال به آن مرکز بسیار بالا تنظیم شده بود و فعالسازی آن به صورت دستی انجام میشد. تصمیم به انتظار برای اصلاح خودکار مشکل خنکسازی به جای فعال کردن فوری سایت پشتیبان، نشاندهنده یک مدل حکمرانی است که با سرعت عملیاتی بازارهای مدرن همگام نبوده است. خرابیهای حرارتی در بازههای زمانی که در طرحهای سنتی بازیابی فاجعه فرض میشوند، رخ نمیدهند. آنها در عرض چند دقیقه تشدید میشوند و نیاز به پاسخهای خودکار دارند که به اطمینان انسان در مورد اینکه آیا یک مرکز در زمان مناسب بازیابی خواهد شد یا خیر، وابسته نیستند.
شکاف ارتباطی بین مدیران IT و اپراتورهای مرکز داده
مت کیمبال، معاون و تحلیلگر اصلی Moor Insights Strategy، معتقد است که حادثه آرورا شکاف ارتباطی بین مدیران IT و اپراتورهای مرکز داده را برجسته میکند. اغلب، عناصر عملیاتی محیط مرکز داده، مانند خنکسازی، برق، خطرات آتشسوزی و امنیت فیزیکی، خارج از حوزه توجه یک مدیر IT قرار میگیرند که بر ارائه خدمات IT به کسبوکار تمرکز دارد.
درسهایی در مدیریت ریسک
جان آناند، مشاور فنی ارشد Info-Tech Research Group، تاکید میکند که تجربه CME نشان میدهد که تداوم کسبوکار یک موضوع “اگر” نیست، بلکه یک موضوع “چه زمانی” است. او معتقد است که درس مهم این حادثه، آمادگی نیست، بلکه مدیریت ریسک در اجرای طرحها است. به گفته او، در نقطهای از زمان، فرمانده حادثه CME تصمیم گرفت که به جای انتقال به سایت ثانویه، به CyrusOne اجازه دهد به تلاش برای رفع مشکل ادامه دهد. این انتخاب باعث شد که یک اختلال جزئی (اما قطعی) به یک قطعی طولانی مدت (بسیار نامشخص) تبدیل شود که حدود ۱۰ ساعت به طول انجامید. برای جلوگیری از بروز مشکلات احتمالی در این مسیر، میتوانید از راهکارهای پیشنهادی در مقاله هوش مصنوعی اپل: تغییرات مدیریتی، مدیر سابق Microsoft نیز بهرهمند شوید.
صنعت داغتر از همیشه
کیمبال اضافه میکند که هنگام تعامل با مدیران IT، سعی میکند اهمیت نگاه جامع به محیطهای IT را تقویت کند، که به معنای تمرکز بر محیط “خارج از رک” (Power budget, power cleanliness, cooling) و اطمینان از وجود افزونگی در هر سطح از پشته است. این شامل اطمینان از این است که افزونگی تمام سناریوها، حتی در سطح شبکه برق را نیز در نظر میگیرد.
بحران خنکسازی CME و اهمیت زیرساختهای فیزیکی
گوگیا معتقد است که نکته اصلی برای مدیران ارشد اطلاعات و سایر مدیران فناوری اطلاعات این است که انعطافپذیری دیگر یک هدف طراحی انتزاعی نیست که در یک اسلاید استراتژی قرار دارد، بلکه به یک مسئولیت عملیاتی روزمره تبدیل شده است. به گفته او، صنعت به معنای واقعی کلمه و به معنای مجازی داغتر از همیشه در حال فعالیت است. سرورها برق بیشتری مصرف میکنند، تراشهها گرمای بیشتری تولید میکنند و سیستمهای خنکسازی در حد نهایی خود کار میکنند. این کاهش حاشیه ایمنی به این معنی است که فرض قدیمی مبنی بر اینکه خرابیهای خنکسازی نادر هستند یا به آرامی رخ میدهند، دیگر معتبر نیست.
سرمایهگذاری و بررسی دقیق سیستمهای محیطی
گوگیا تاکید میکند که سیستمهای محیطی اکنون به اندازه باگهای نرمافزاری، قطعی برق یا خرابی شبکه اهمیت دارند و شایسته همان سطح سرمایهگذاری و بررسی دقیق هستند. تیمهایی که زمانی خنکسازی را به عنوان یک زیرساخت پسزمینه میدیدند، اکنون باید آن را به عنوان بخشی از معادله زمان کار در نظر بگیرند. به عبارت ساده، محیط فیزیکی اطراف پشته محاسباتی به همان اندازه قادر به آفلاین کردن یک کسبوکار است که هر جزء دیجیتالی دیگری.
نتیجهگیری
بحران گروه CME یک یادآوری قدرتمند از اهمیت زیرساختهای فیزیکی، مدیریت ریسک و برنامهریزی برای تداوم کسبوکار است. سازمانها باید به طور منظم سیستمهای خنکسازی، سیستمهای پشتیبان و فرآیندهای بازیابی فاجعه خود را ارزیابی کنند و از وجود افزونگی کافی در هر سطح از پشته اطمینان حاصل کنند. علاوه بر این، باید ارتباطات بین مدیران IT و اپراتورهای مرکز داده را بهبود بخشند و فرهنگ آگاهی از ریسک را در کل سازمان ترویج کنند. با انجام این اقدامات، سازمانها میتوانند از خود در برابر اختلالات احتمالی در آینده محافظت کنند.
منبع اصلی: networkworld



