למרות ההערכה הגדולה שיש לי לאמזון ושרותי ה – AWS שלה, ברגעים אלו ממש יש מספר לא קטן של System Administrators, באמזון עצמה ובעשרות חברות, גדולות וקטנות, שמורטים שערות בגלל ששרותי AWS בחוף המזרחי נפלו הבוקר. התקלה, שהחלה לקראת 12 בצהריים שעון ישראל, טרם תוקנה לחלוטין, למרות שעברו יותר מ – 4 שעות מאז שדווח עליה לראשונה. נכון לרגעים אלו, אמזון הצליחו לשחזר את השרותים באחד מתוך שלושת החוות בחוף המזרחי (us-east-1d), בעוד שלשתי החוות האחרות אין כרגע גישה.
הצוותים של אמזון מדווחים על התקדמות הטיפול בעמוד הסטאטוס של השרות ומי שרוצה להתעדכן בזמן אמתי, מוזמן להיכנס ולבדוק את מצב השרות. אמזון לא מוסרים מידע מלא אילו אזורים עובדים ואילו לא, מידע זה מגיע מבדיקת שרתים שונים שיש לי באזורים שונים.
הענן הוא דבר נפלא כל עוד הכל עובד כמו שצריך, אבל תקלה, כמו שיש לאמזון היום, היא סוג של "הנורא מכל" לאלפי אתרים ושרותים, הנהנים ביום יום מהיתרונות העצומים של AWS. התקלה היום גרמה למספר לא מבוטל של אתרי ענק להפסיק את שרותיהם. בין הנפגעים העיקריים היו Reddit, Foursquare ו – Quora, שנאלצו להעלות דפי התנצלות בגלל אי זמינות השרותים. מי שלא ראה Check in של חברים בארבעת השעות הארונות יכול להירגע, כולם בסדר ואף אחד לא הלך לאיבוד, בסך הכל Foursquare היו למטה.
הדבר הטוב היחיד שאפשר להגיד על התקלה של היום הוא שהיתרון הגדול בהוצאת שרותי מיחשוב לספקי ענן תמון בעובדה שבמקרים כאלו יש את מי להאשים (ולא חסרים לקוחות עצבניים). רק תחשבו על מאות אלפי לקוחות Heroku (שכנראה חלקם לפחות נפגעו גם) ומליוני משתמשי Foursquare ותבינו עד כמה תקלה מסוג זה, משנה את כללי המשחק בעולם ה – IT. זה לא שלא נפלו חוות שרתים ענקיות, של הספקים הגדולים ביותר, בעבר, אבל עד היום Dissuster Recovery היה באחריות צוותי ה – IT בחברות השונות, היום אנחנו סומכים (לפחות חלקית) על הענן.
נכון לעכשיו יש עדיין תקלות ב – US-East. אמזון לא מפרטים מה התקלות בדיוק אבל מכמה בלוגים אפשר ללמוד שכנראה מדובר בבעיות רשת בין שרתי EC2 ושרותים כגון RDS ו – EBS.
עושה רושם ששרתים שלא משתמשים בשרותים אלו לא נפגעו (למרות שרוב מי שמשתמש ב – EC2 ל – Production עושה שימוש ב – EBS).
מוזר, אני לא רואה ב-Status History בדף הסטטוס איזו בעיה מתועדת. מעניין למה הם לא פירטו שם את הבעיה?