فرآیند مدیریت رویداد (Event management)
روزانه هزاران رویداد IT در زیرساخت فناوری اطلاعات تمامی کشورها اتفاق میافتد. در شرکتهای بزرگ این رویدادها میتوانند هزینههای زیادی داشته باشند. هدف فرآیند مدیریت رویداد، شناسایی رویدادها، تجزیه و تحلیل آنها و تعیین اقدام کنترلی صحیح (در صورت وجود) با بهرهگیری از تجربیات و دانش قبلی است. فرآیند مدیریت رویداد پایه و اساسی قوی برای ضمانت خدمات، گزارشدهی و بهبود خدمات فراهم میکند.
در مرحلهی طراحی خدمات فناوری اطلاعات خود، باید انواع رویدادهایی که ممکن است اتفاق بیافتند و نحوۀ اتفاق افتادن آنها را پیشبینی کنید و برای مقابله با آنها اقداماتی را از پیش در نظر داشته باشید (برای مثال بیمه کردن). چرخۀ حیات مدیریت رویداد در ادامه آمده است.
- ثبت (اعلان) رویداد: پس از اتفاق افتادن رویداد و شناسایی آن توسط کاربر، راهبر سیستم با استفاده از ابزارهایی که توسط مدیران شرکت در نظر گرفته شده رویداد را ثبت میکند. ثبت رویداد ممکن است توسط برنامههای کاربردی / سختافزارها به صورت خودکار انجام شود.
- ارتباط و فیلتر کردن رویداد: رویدادهای اطلاعاتی را نباید نادیده گرفت. هشدارها و رویدادهای استثنائی اغلب به اقدامات دیگری نیاز دارند. بنابراین، اولین مرحله از این فرآیند به نام ارتباط و فیلتر کردن سطح رویدادها میباشد. یک راهبر سیستم، از قوانین کسبوکارِ از پیش تعریفشده، برای تعیین اهمیت هشدارها و رویدادها استفاده میکند و در مورد گامهای مناسب بعدی تصمیمگیری میکند.
- پاسخ رویداد: همۀ رویدادها به همراه پاسخهایشان باید ثبت شوند. براساس نوع و شدت رویداد، ممکن است راهبر سیستم تشخیص دهد که بهتر است این رویداد را به یک تیم یا فرد با مهارت بیشتر ارجاع دهد. در مواردی که هشدارها شدیدتر هستند، حتی ممکن است به صورت خودکار، یک رخداد، مشکل یا تغییر را ایجاد کند.
- خاتمهی رویداد: اگر یک رویداد منجر به ایجاد یک حادثه شود، خاتمۀ رویداد باید از طریق فرآیندهای مربوطه انجام شود. با اطمینان از ثبت صحیح رویدادها و همچنین اقدامات بعدی، از جمله پیوند به رخداد، مشکل یا درخواست تغییر متناظر، میتوان آنها را در سیستم مدیریت رویداد «خاتمه» داد. مانند بیشتر فرآیندهای ITIL، فرآیند مدیریت رویدادها هم در یک حباب اتفاق نمیافتد و با سایر فرآیندها در ارتباط است.
فرآیند مدیریت حادثه (Incident Management)
حادثه یا Incident به هر رویدادی گفته میشود که جزو رویدادهای عادی و استاندارد سیستم اطلاعاتی ما نبوده و میتواند بر روی فرآیند سرویسدهی سازمان ما اثر منفی بگذارد Incidentیا حادثه باعث میشود کیفیت سرویسدهی یا مختل شود و یا کارایی خود را از دست بدهد و کاهش پیدا کند. در فرآیند مدیریت حوادث، مجموعهای از فرآیندها را داریم که توسط آنها حوادث احتمالی را شناسایی، تحلیل و اولویتبندی میکنیم و برای برطرف کردن آنها و بازگردانی سیستم به حالت عادی برنامهریزی میکنیم. در واقع هدف اصلی از مدیریت حادثه در یک سازمان موارد زیر را شامل میشود:
- بالا بردن کیفیت سرویسدهی
- تشخیص و حل مشکلات فعلی موجود در سیستم اطلاعاتی
- پیشبینی نیازهای مربوط به سرویسها و اطلاعات مربوط به آنها
- بهبود بهرهوری و کارایی کارکنان به دلیل عملکرد بهینه سیستم
- بهبود رضایتمندی مشتری (کاربران) با اطمینانبخشی از پایداری سرویسها
- کمک به رسیدگی بهتر به حوادث احتمالی آینده
یک حادثه ممکن است بر اثر یک خطا یا اشتباه، خراب شدن و یا سرویس ندادن یا حتی کاهش کیفیت یک سرویس اتفاق بیفتد. حوادث معمولا از طریق کاربران، ابزارها و یا اشخاصی که از سرویسهای مانیتورینگ استفاده میکنند، به اطلاع ما میرسند. اصلیترین هدف Incident Management این است که سرویس یا عملیات مورد نظر را در سریعترین زمان ممکن به حالت عادی برگردانیم تا سرویسی که کاربران از آن انتظار داشتهاند ارائه شود. در عین حال باید دسترسیپذیری و کیفیت سرویسدهی ما نیز به درستی مدیریت و نگهداری شوند. مراحل زیر به عنوان گامهای اصلی در فرآیند Incident management هستند:
- آمادهسازی برای رسیدگی و پاسخگویی به حادثه
- شناسایی و تجزیه و تحلیل حادثه
- اطلاع رسانی
- مهار کردن
- کشف آثار و بقایا
- از بین بردن دلایل بروز حادثه و بازیابی از حادثه
- انجام فعالیتهای بعد از حادثه
بهروشهای مختلف در بهبود مدیریت حوادث
در ادامه برخی از فعالیتها جهت بهبود مدیریت حوادث آمده است.
- شناسایی مسئله به صورت شفاف:
- : طبقهبندی موضوع یک حادثه ضروری است. به طور معمول مسائل با اولویت بالا به اشتباه به عنوان حوادث مهم دیده میشوند. این سوءتفاهم به احتمال زیاد به دلیل عدم وجود چارچوب ITIL در سازمان است. برای دورماندن از هرگونه سردرگمی، باید یک واقعه مهم را براساس عناصر دسترسپذیری، محرمانگی و یکپارچهگی تعریف کرد.
- منابع درست ایجاد کنید:اطمینان حاصل کنید بهترین منابع شما برای حل مسائل مهم قابل استفاده باشند. به همین ترتیب، تعیین نقشها و مسئولیتهای آنها در حوادثی که در کسبوکارها بوجود میآیند، تأثیر خواهد گذاشت. هدف اساسی شما باید درگیر کردن منابع خود و حفظ فاصله استراتژیک از تضاد زمان و نیازها باشد.
- آموزش کارمندان و تجهیز آنان با ابزار مناسب:یک حادثه میتواند هر لحظه در بخش IT اتفاق بیفتد. اولین مرحله برای مراقبت از آن، آمادگی برای حوادث است. تیم مدیریت حوادث خود را به چندین تیم تقسیم کنید و به آنها آموزشهای لازم را ارائه دهید. مسئولیتها را با نگاشت مهارتهای مورد نیاز تعیین کنید.
- در جریان گذاشتن مدیران و ذینفعان ارشد: اطمینان حاصل کنید ذینفعان در طول چرخۀ رفع مسائل مهم در مورد مدیریت مسائل مطلع هستند.
- حوادث عمده را با سایر فرآیندهای ITIL گره بزنید: پس از رفع حوادث عمده، با استفاده از استراتژیهای مدیریت حوادث، تحلیل علت اصلی را انجام دهید. سپس برای جلوگیری از وقوع حوادث مشابه در آینده، با پیروی از روش مدیریت تغییر و یا تغییرات را در کل سازمان پیادهسازی کنید.
- پایگاه دانش خود را تعبیه کنید: : الگوی تحریریه پایگاه اطلاعات را بیان کنید که جزئیات مهم را ضبط میکند. به عنوان مثال، نوع حادثه قابل توجهی که مقاله شناسایی میکند، آخرین مسئله با استفاده از گزارش، صاحب مقاله و منابعی که انتظار میرود مساله را حل کند
- بررسی و گزارش در مورد حوادث مهم: تمام حوادث مهم را با این هدف مستند و تجزیه و تحلیل کنید که بتوانید زمینههای بهبود را تشخیص دهید. این به گروه شما کمک میکند تا بعداً به طور مستقل مسائل قابل مقایسه را مدیریت کند.
- مستند کردن پروسه حوادث مهم جهت بهبود مستمر خدمات: مدیرعامل باید فرمها را همیشه ارزیابی کند تا هر زمان که روی سطح اجرایی در مدیریت حادثه متمرکز بود، بتواند در جهت بهبود، آنها را بررسی کند. این امر میتواند به رفع نقص کمک کرده و در بهبود مستمر خدمات موثر باشد.
جمعبندی
حوادث مهم غیرقابل اجتناب هستند و هر مرحله برای گروه شما یک چالش جدید برای یادگیری است. ادامه دادن این روشها میتواند حرکت مهمی از شما درجهت مراقبت از حوادث مهم در کسبوکار شما باشد.