מנהיגות בהייטק #19—תפקיד המנהל/ת בניהול אירוע

הנוף מבניין הקפיטול של מדינת לואיזיאנה

באמצע הארוחה המשפחתית הטלפון מצלצל. המערכת נפלה ושום דבר לא עובד. חנה מנסה להבין מה הבעיה אבל עדיין תקועה וצריכה עזרה. מה עושים?

בפוסט הפעם אתרכז בתפקיד המנהל/ת *בזמן* ניהול האירוע, כאשר הפוסט הבא יתרכז בתפקיד המנהל/ת בזמן תחקור האירוע. ההפרדה בין שני השלבים היא קריטית, וערבוב ביניהם הוא מקור לטעויות קשות מאוד. בזמן האירוע, יש לנו מטרה אחת מעל לכל:להחזיר את המערכת לפעולה כמה שיותר מהר. בזמן תחקור האירוע, המטרה שלנו לימוד בצורה רחבה כמה שיותר – למנוע תקלות עתידיות.

ישנן שתי מטריקות רלוונטיות:

  1. הזמן שלוקח להתאושש מתקלות, MTTR, או Mean Time to Recover.
  2. הזמן שעובר בין תקלות, MTBF, או Mean Time Between Failures.

בזמן האירוע אנחנו מתרכזים אך ורק בהתאוששות מהתקלה. כל דבר אחר הוא הסחת דעת ותגרור בהכרח עליה בזמן ההתאוששות. לאחר שהחזרנו את המערכת לפעילות, ניתן לבצע תחקיר מעמיק, להבין איך ניתן לשפר בעתיד הן את זמני ההתאוששות (MTTR) והן את הזמנים בין תקלות (MTBF). על כך, כאמור, בגיליון הבא.

הפוסט פתוח לרשומים בלבד. ההרשמה בחינם.