Home اقتصاد ترامب يقول هيلتزيك: دروس من انهيار AWS

ترامب يقول هيلتزيك: دروس من انهيار AWS

13
0

في يوم الاثنين، حصل الملايين من مستخدمي الإنترنت على إجابة مؤلمة لسؤال لم يكن سوى قليل من الناس يعلم بوجوده. كان السؤال هو: ما هو الشيء المشترك بين شركات الطيران Snapchat وRoblox وFortnite وSignal وUnited وDelta وعدد لا يحصى من المواقع والخدمات الأخرى المستندة إلى الويب؟

الجواب هو: لقد تم إسقاطها جميعًا بسبب خلل متتالي في مركز بيانات في شمال فيرجينيا تملكه وتديره شركة Amazon Web Services، وهي ذراع شركة التجارة الإلكترونية العملاقة.

تعد AWS واحدة من أفضل ثلاث منصات سحابية، مما يعني أنها تحتفظ ببيانات عملائها على خوادمها الخاصة وتدير نقل تلك البيانات ونقلها داخل الشركات العميلة وفيما بينها وبين المستخدمين النهائيين.

تصميم للفشل (لأنه سيحدث).

– ليديا ليونج، جارتنر

عندما تعطل مركز بيانات AWS بشمال فرجينيا قبل دقائق قليلة من منتصف ليل الأحد، بتوقيت المحيط الهادئ الصيفي، توقفت 141 خدمة من خدمات AWS، جنبًا إلى جنب مع الشركات العميلة التي تعتمد على مركزها، مما أدى إلى سلسلة من الانقطاعات التي أثرت على المستخدمين في جميع أنحاء العالم. تأثر مستخدمو أجهزة أمان المنزل Ring الخاصة بأمازون مثل أجراس الأبواب التي تدعم الفيديو.

ولم تعلن أمازون أن المشكلة قد تم حلها حتى 3:53 مساءً بتوقيت المحيط الهادئ يوم الاثنين، على الرغم من أن بعض العملاء ما زالوا يبلغون عن المشكلات حتى يوم الثلاثاء.

احصل على الأحدث من مايكل هيلتزيك

إن الضرر الذي لحق بعملاء AWS وملايين المستخدمين لا يحصى. مثل ذكرت ذلك زميلتي كويني وونغ، لم يتمكن مستخدمو الويب من الوصول إلى خدماتهم أو حساباتهم. لم يتمكن عملاء بعض البنوك، بالإضافة إلى شركة الوساطة عبر الإنترنت Robinhood، من إكمال المعاملات. ركاب دلتا ويونايتد لم يتمكنوا من تتبع الحجوزات أو تسجيل الوصول عبر الإنترنت أو استرداد تخصيصات مقاعدهم؛ واضطر موظفو شركات الطيران إلى اللجوء إلى البدائل اليدوية، كما كان الحال في عصور ما قبل التاريخ (أي ما قبل الإنترنت).

يستخدم أصحاب أغطية مراتب Eight Sleep، التي تكلف آلاف الدولارات وتتطلب رسومًا سنوية قدرها 300 أو 400 دولار، تطبيق ويب لضبط درجة الحرارة والانحدار، وأفادوا بأنهم عالقون في أوضاع غير مريحة ويشعرون بالحرارة تحت حرارة لا يمكن السيطرة عليها. أصدر الرئيس التنفيذي للشركة اعتذار عبر الإنترنت وقال إن شركة Eight Sleep ستطرح ميزة تسمح للمالكين بالاتصال بأسرتهم عبر البلوتوث في حالة فشل الاتصال بالإنترنت.

من المؤكد أن انقطاع الخدمة يثير تساؤلات حول ما إذا كانت أمازون – وزملاؤها في شركات التكنولوجيا الكبرى – يشرفون على أنظمتهم بالدقة المناسبة للخدمات الحيوية ذات البصمة العالمية. وكما يقول المحامون، “الشيء يتحدث عن نفسه”. الجواب الذي يقدمه هو “لا”.

في الأيام الخوالي، عندما كانت “خدمة الهاتف القديمة البسيطة”، أو POTS، تحت سيطرة شركة واحدة بالكامل، وهي AT&T، كان التزام الشركة بموثوقية “التسعات الخمس”، مما يعني أنها تعمل بنسبة 99.999% من الوقت، أو لا تتحمل أكثر من 5.26 دقيقة تقريبًا من التوقف سنويًا. نظرًا لأن أنظمة AWS تعطلت هذا الأسبوع لمدة 15 ساعة على الأقل، أو 900 دقيقة، فقد تم إلقاء هذا المعيار في سلة المهملات.

يعكس معيار “التسعات الخمس” الاقتناع بأن خدمة الهاتف مهمة جدًا بحيث لا يمكن تشغيلها دائمًا. ويبدو أن مقدمي خدمات التكنولوجيا الفائقة اليوم يتخذون في كثير من الأحيان موقفاً مفاده أن مجرد الخير بما فيه الكفاية ينبغي أن يكون جيداً بما فيه الكفاية لأي شخص.

مثل لاحظت العام الماضي، تحقق بعض أغنى الشركات اليوم أرباحًا بمليارات الدولارات ولكنها لا تنفق ما يكفي لحماية البيانات الشخصية الخاصة بعملائها من المتسللين – على سبيل المثال، كانت شركة AT&T، التي حققت ربحًا قبل الضريبة بقيمة 16.7 مليار دولار في العام الماضي، غير متقنة للغاية بشأن حماية المعلومات الخاصة لعملائها لدرجة أن بيانات جميع هؤلاء العملاء تقريبًا – 110 مليون مستخدم – انتهى به الأمر في أيدي قراصنة “ذوي دوافع مالية”..

صرحت أمازون، بشكل مقنع حتى الآن، أن انقطاع الخدمة لم يكن بسبب المتسللين أو غيرهم من الجهات المعادية. لقد جاء بالكامل من داخل المنزل، إذا جاز التعبير.

وللحفاظ على الحد الأدنى من الثرثرة التقنية، دعنا نقول فقط أن شيئًا ما فشل في نظام اسم المجال الخاص به، والذي يمكّن النظام من ترجمة عنوان الويب الذي تكتبه في متصفحك للتواصل مع موقع الويب نفسه. امتد الارتباك التكنولوجي في جميع أنحاء هيكل AWS، مما أدى إلى معاناة موقع الويب والمستخدمين. تقول أمازون إنها ستقدم في النهاية “ملخصًا بعد الحدث” يحدد سبب الانقطاع.

من الواضح أن أمازون تستحق معظم اللوم عن الفشل الذريع. وتوقع بعض مراقبي أمازون أن يكون هذا الخلل مرتبطًا بعمليات تسريح جماعية للعمال نفذتها الشركة في الصيف في وحدة الحوسبة السحابية الخاصة بها، مع استبدال الوظائف بالذكاء الاصطناعي. الشركة وأكد تسريح العمال لكنه لم يذكر عدد الوظائف التي تم إلغاءها؛ وذكرت رويترز أنه كان بالمئات.

وتنفي أمازون التكهنات بأن الانقطاع كان مرتبطًا بتسريح العمال. أشار لي أحد المتحدثين إلى مقابلة ازدرى فيها مات جارمان، الرئيس التنفيذي لشركة AWS، فكرة استبدال الموظفين المبتدئين بروبوتات الذكاء الاصطناعي، واصفًا إياها بأنها “واحدة من أغبى الأشياء التي سمعتها على الإطلاق”. ومع ذلك، فمن غير الواضح من الذي تم تسريحه من الوحدة السحابية.

أصدر بعض خبراء التكنولوجيا تحذيرات لسنوات حول فشل مشغلي مواقع الويب في الحصول على خطة بديلة في متناول اليد بخصوص نوع الانقطاع الذي حدث هذا الأسبوع. AWS ليست المنصة السحابية الوحيدة الموجودة. مايكروسوفت وجوجل هم الأعضاء الآخرون في المراكز الثلاثة الأولى.

كما أن مستخدمي AWS ليسوا ملزمين بالاعتماد على مركز بيانات الشركة في شمال فيرجينيا. تمتلك AWS مراكز بيانات في جميع أنحاء البلاد، وقد نصحت المستخدمين بالتبديل إلى أي من المراكز الأخرى – ولكن مع خروج مركز فيرجينيا من الخدمة، فقد ترك ذلك المستخدمين محظوظين إذا لم ينفذوا حلاً بديلاً قبل حدوث هذا الخلل.

يجب على أقسام تكنولوجيا المعلومات “تصميم للفشل (لأنه سيحدث)نصحت ليديا ليونج من شركة جارتنر للاستشارات التقنية هذا الأسبوع: “يجب أن تقوم التطبيقات السحابية الأصلية الحديثة بتوزيع أعباء العمل عبر مناطق توافر متعددة وأن تكون جاهزة للفشل بسرعة إلى منطقة أخرى عند الحاجة”، وبعبارة أخرى، يجب أن يتم إعدادها لنقل بياناتها تلقائيًا بعيدًا عن بؤر المشاكل. “لا يتعلق الأمر بالقضاء على المخاطر؛ يتعلق الأمر بتقليل نصف قطر الانفجار ووقت التعافي.

قد تكون هذه المشكلة من صنع تاريخ الإنترنت، كما أشار يورج ديكر من شركة أريليون الأساسية للإنترنت. تم تصميم الإنترنت كنظام محايد يثق في أن تكون جميع البيانات المتدفقة عبر شبكاته المتصلة جديرة بالثقة. “وهذا يعني أنه يفترض كل شيء التحديثات صالحةوأشار إلى أن الشبكة يمكنها أن تعلن عن أي شيء تريده، ولا يمكن التحقق من الموارد المتاحة.

وقد تعامل مصممو الشبكة الأصليون مع هذا النقص من خلال تمكين الشبكة من توجيه البيانات بعيدًا عن العوائق أو المشكلات الأخرى. “يدور الإنترنت حول الضرر” هو الشعار، لكن هذا لا ينجح دائمًا، خاصة عندما يكون الضرر في وظيفة أساسية. وفي بعض الأحيان لا ينبغي الوثوق بالتحديثات الموثوقة.

كان هذا هو الحال مع انقطاع خدمة CrowdStrike العام الماضي. تحديث مصمم بشكل غير كفؤ لبرنامج ما التي أطلقتها شركة الأمن السيبراني وتم تثبيته تلقائيًا على أجهزة المستخدمين مما أدى على الفور إلى تعطل ملايين أجهزة الكمبيوتر التي تشغل برامج Microsoft وتركها معطلة حتى يمكن إجراء الإصلاحات اليدوية.

لقد تم اختراق تطبيق CrowdStrike الخاطئ بعمق داخل نظام التشغيل Microsoft – كما تم تصميمه ليكون – لدرجة أنه في كل مرة تتم إعادة تشغيل الجهاز، فإنه يواجه نفس الخلل ويتوقف عن العمل مرة أخرى في حلقة الموت اللانهائية. وكما كتبت آنذاك: “تم إلغاء آلاف الرحلات الجوية. ولم يتمكن الأطباء من إجراء العمليات الجراحية. وتم تجميد المعاملات المصرفية. وتوقفت خطوط الطوارئ 911”.

لا شك أن هناك فوائد في وضع الركائز الأساسية للإنترنت تحت سيطرة ثلاث من أغنى شركات التكنولوجيا في العالم. بعد كل شيء، لديهم الموارد المالية للحفاظ على الجودة والموثوقية. الجانب السلبي هو أن أنظمتهم تعمل بشكل مثالي تمامًا حتى اللحظة التي تتوقف فيها عن العمل؛ وذلك عندما يتحول الاعتماد العالمي على عدد قليل من المشغلين الكبار إلى انهيار عالمي.

السمة التي لا مفر منها للحياة الحديثة هي أنه إلى حد متزايد، بالنسبة لأي شخص يعيش في العالم الحديث لا يوجد مكان للاختباء من أخطاء خدمة الويب. لا يقتصر الأمر على أن مكالماتنا الهاتفية الصوتية والبيانات، والبريد الإلكتروني، والترفيه عبر الفيديو تأتي عبر الويب فحسب، بل تتطلب بعض الأجهزة اتصالاً بالإنترنت لتعمل على الإطلاق.

لا أستطيع ضبط وضع إلغاء الضوضاء في سماعات Bose الخاصة بي إلا من خلال تطبيق الهاتف؛ وينطبق الشيء نفسه على ماكينة صنع القهوة الأوتوماتيكية فائقة الفخامة وكوب القهوة ذاتي التسخين. في أحد الأيام، عندما كنت أحاول إضافة خط إلى حساب T-Mobile العائلي، أصرت T-Mobile على تحميل تطبيق T-mobile على جهاز iPhone الخاص بي (غير التابع لـ T-Mobile) لإكمال الصفقة – وكنت جالسًا في متجر T-mobile مع مندوب T-mobile في ذلك الوقت.

ومع ذلك، يتم تسويق المزيد والمزيد من الأجهزة ذات القدرة غير الضرورية على الإنترنت، مما يعكس السعادة القصوى لإنترنت الأشياء التي يروج لها مروجي الويب وصانعي الأجهزة. قد تكون القاعدة الأساسية الجيدة هي أنه إذا كانت الثلاجة أو الموقد الخاص بك لا يحتاج إلى اتصال بالإنترنت للعمل، فلا تقم بتوصيله. وبهذه الطريقة، لن يتحول إلى لبنة دماغية بسبب خطأ بشري في مكان ما في شمال فيرجينيا.

لقد جلب لنا الاتصال بالإنترنت فوائد لا يمكن تصورها حتى في مطلع القرن الأخير. ولكن كما هو الحال مع أي شيء، مع النعم تأتي الأعباء. يمكن لبضعة أسطر من التعليمات البرمجية المتمردة أن تعيد حياتنا في القرن الحادي والعشرين إلى عالم الخمسينيات أو الستينيات.

في ذلك الوقت، عندما كانت أجهزتنا المنزلية ميكانيكية أو كهربائية، وليست إلكترونية، كان من السهل تشخيص الأعطال وإصلاحها – قم بإيقاف تشغيل الأنبوب المفرغ أو ربط المسمار. اليوم، إذا أصبح تلفزيونك معتمًا ولا يمكنك الحصول على HBO Max، فلن يكون لديك أي فكرة عن مكان المشكلة – داخل التلفزيون، أو مع صندوق الكابل الخاص بك، أو في HBO Max.

كل ما عليك فعله هو الانتظار حتى يقوم شخص ما بإصلاح المشكلة، على أمل أن لا تكون المشكلة في منزلك أو حيك فقط، ولكنها منتشرة على نطاق واسع بما يكفي حتى يتمكن مقدمو الخدمة من ملاحظة ذلك وتشغيل الشاحنة. نحن جميعًا نعيش في حالة من التوازن: فتكنولوجيا اليوم رائعة عندما تعمل. عندما لا يحدث ذلك، فنحن لوحدنا. هناك درس هناك في مكان ما.