מנהיגות בהייטק #20—תפקיד המנהל/ת בתחקור אירוע

חרקים, חרקים ועוד חרקים

תפקיד המנהל.ת בתחקור אירוע

בגיליון הקודם דיברתי על תפקיד המנהל.ת בניהול אירוע – מצב שבו המערכת לא מתפקדת כרגיל. כזכור, במצב זה ישנה מטרה אחת בלבד: החזיר את המערכת לתפקוד תקין כמה שיותר מהר. לצורך כך, לא משנה בכלל מדוע המערכת איננה מתפקדת כרגיל. אבל, לאחר שהחזרנו את המערכת למצב תקין ורמת הלחץ ירדה, אנחנו יכולים לחקור את נסיבות האירוע כדי לשפר את ביצועי המערכת – המערכת הטכנית והמערכת הארגונית. כמו בגיליון הקודם, נתחיל בסקירה כללית של איך לבצע תחקור אפקטיבי ונסיים בדגשים מנקודת המבט הספציפית של המנהל.ת.

בתחקור האירוע אנחנו רוצים לשפר את המערכת. ישנן כמה מטריקות קלאסיות שיכולות לעזור לנו לכמת את השיפור:

  1. הזמן שלוקח להתאושש מתקלות, MTTR, או Mean Time to Recover.
  2. הזמן שעובר בין תקלות, MTBF, או Mean Time Between Failures.

בהחלט ניתן להשתמש במטריקות אחרות, אבל חשוב שיהיה לנו מדד כלשהו כדי שנוכל להבין האם התחקורים בכלל עוזרים לנו, והאם הם שווה להשקיע בכלל בשיפור המערכת. בהחלט יכול להיות מצב שבו הגדרנו מטריקה כSLA, Software License Agreement, או כהסכם ביננו לבין הלקוח, לגבי רמת הזמינות של המערכת. אם המערכת עומדת בתנאי ההסכם, גם בהינתן התקלה האחרונה, בהחלט יכול להיות שניתן תיעדוף נמוך יותר למשימות ספציפיות שיצוצו בתחקור האירוע. אולם, פרמטר אחד שקשה מאוד לכמת אותו הוא ההשפעה התרבותית של ביצוע תחקיר רציני. (ויש עוד המון מה לומר על תרבות ארגונית בעתיד). לכן, אני ממליץ תמיד לבצע תחקיר מעמיק בכל מקרה שבו המערכת לא מתפקדת.

הפוסט פתוח לרשומים בלבד. ההרשמה בחינם.