مدیریت رویداد

فرآیند مدیریت رویداد

فرآیند مدیریت رویداد (Event management)

روزانه هزاران رویداد IT در زیرساخت فناوری اطلاعات تمامی کشورها اتفاق می‌افتد. در شرکت‌های بزرگ این رویدادها می‌توانند هزینه‌های زیادی داشته باشند. هدف فرآیند مدیریت رویداد، شناسایی رویدادها، تجزیه و تحلیل آن‌ها و تعیین اقدام کنترلی صحیح (در صورت وجود) با بهره‌گیری از تجربیات و دانش قبلی است. فرآیند مدیریت رویداد پایه و اساسی قوی برای ضمانت خدمات، گزارش‌دهی و بهبود خدمات فراهم می‌کند.

در مرحله‌ی طراحی خدمات فناوری اطلاعات خود، باید انواع رویدادهایی که ممکن است اتفاق بیافتند و نحوۀ اتفاق افتادن آن‌ها را پیش‌بینی کنید و برای مقابله با آن‌ها اقداماتی را از پیش در نظر داشته باشید (برای مثال بیمه کردن). چرخۀ حیات مدیریت رویداد در ادامه آمده است.

  • ثبت (اعلان) رویداد: پس از اتفاق افتادن رویداد و شناسایی آن توسط کاربر، راهبر سیستم با استفاده از ابزارهایی که توسط مدیران شرکت در نظر گرفته شده رویداد را ثبت می‌کند. ثبت رویداد ممکن است توسط برنامه‌های کاربردی / سخت‌افزارها به صورت خودکار انجام شود.
  • ارتباط و فیلتر کردن رویداد: رویدادهای اطلاعاتی را نباید نادیده گرفت. هشدارها و رویدادهای استثنائی اغلب به اقدامات دیگری نیاز دارند. بنابراین، اولین مرحله از این فرآیند به نام ارتباط و فیلتر کردن سطح رویدادها می‌باشد. یک راهبر سیستم، از قوانین کسب‌وکارِ از پیش تعریف‌شده، برای تعیین اهمیت هشدارها و رویدادها استفاده می‌کند و در مورد گام‌های مناسب بعدی تصمیم‌گیری می‌کند.
  • پاسخ رویداد: همۀ رویدادها به همراه پاسخ‌هایشان باید ثبت شوند. براساس نوع و شدت رویداد، ممکن است راهبر سیستم تشخیص دهد که بهتر است این رویداد را به یک تیم یا فرد با مهارت بیشتر ارجاع دهد. در مواردی که هشدارها شدیدتر هستند، حتی ممکن است به صورت خودکار، یک رخداد، مشکل یا تغییر را ایجاد کند.
  • خاتمه‌ی رویداد: اگر یک رویداد منجر به ایجاد یک حادثه شود، خاتمۀ رویداد باید از طریق فرآیندهای مربوطه انجام شود. با اطمینان از ثبت صحیح رویداد‌ها و همچنین اقدامات بعدی، از جمله پیوند به رخداد، مشکل یا درخواست تغییر متناظر، می‌توان آن‌ها را در سیستم مدیریت رویداد «خاتمه» داد. مانند بیشتر فرآیندهای ITIL، فرآیند مدیریت رویدادها هم در یک حباب اتفاق نمی‌افتد و با سایر فرآیندها در ارتباط است.

فرآیند مدیریت حادثه (Incident Management)

حادثه یا Incident به هر رویدادی گفته می‌شود که جزو رویدادهای عادی و استاندارد سیستم اطلاعاتی ما نبوده و می‌تواند بر روی فرآیند سرویس‌دهی سازمان ما اثر منفی بگذارد  Incidentیا حادثه باعث می‌شود کیفیت سرویس‌دهی یا مختل شود و یا کارایی خود را از دست بدهد و کاهش پیدا کند. در فرآیند مدیریت حوادث، مجموعه‌ای از فرآیندها را داریم که توسط آن‌ها حوادث احتمالی را شناسایی، تحلیل و اولویت‌بندی می‌کنیم و برای برطرف کردن آن‌ها و بازگردانی سیستم به حالت عادی برنامه‌ریزی می‌کنیم. در واقع هدف اصلی از مدیریت حادثه در یک سازمان موارد زیر را شامل می‌شود:

  • بالا بردن کیفیت سرویس‌دهی
  • تشخیص و حل مشکلات فعلی موجود در سیستم اطلاعاتی
  • پیشبینی نیازهای مربوط به سرویس‌ها و اطلاعات مربوط به آن‌ها
  • بهبود بهره‌وری و کارایی کارکنان به دلیل عملکرد بهینه سیستم
  • بهبود رضایتمندی مشتری (کاربران) با اطمینان‌بخشی از پایداری سرویس‌ها
  • کمک به رسیدگی بهتر به حوادث احتمالی آینده
مدیریت رویداد
فرآیند مدیریت حادثه

یک حادثه ممکن است بر اثر یک خطا یا اشتباه، خراب شدن و یا سرویس ندادن یا حتی کاهش کیفیت یک سرویس اتفاق بیفتد. حوادث معمولا از طریق کاربران، ابزارها و یا اشخاصی که از سرویس‌های مانیتورینگ استفاده می‌کنند، به اطلاع ما می‌رسند. اصلی‌ترین هدف Incident Management این است که سرویس یا عملیات مورد نظر را در سریع‌ترین زمان ممکن به حالت عادی برگردانیم تا سرویسی که کاربران از آن انتظار داشته‌اند ارائه شود. در عین حال باید دسترسی‌پذیری و کیفیت سرویس‌دهی ما نیز به درستی مدیریت و نگهداری شوند. مراحل زیر به عنوان گام‌های اصلی در فرآیند Incident management هستند:

  • آماده‌سازی برای رسیدگی و پاسخگویی به حادثه
  • شناسایی و تجزیه و تحلیل حادثه
  • اطلاع رسانی
  • مهار کردن
  • کشف آثار و بقایا
  • از بین بردن دلایل بروز حادثه و بازیابی از حادثه
  • انجام فعالیت‌های بعد از حادثه

به‌روش‌های مختلف در بهبود مدیریت حوادث

در ادامه برخی از فعالیت‌ها جهت بهبود مدیریت حوادث آمده است.

  • شناسایی مسئله به صورت شفاف:
  • : طبقه‌بندی موضوع یک حادثه ضروری است. به طور معمول مسائل با اولویت بالا به اشتباه به عنوان حوادث مهم دیده می‌شوند. این سوءتفاهم به احتمال زیاد به دلیل عدم وجود چارچوب ITIL در سازمان است. برای دورماندن از هرگونه سردرگمی، باید یک واقعه مهم را براساس عناصر دسترس‌پذیری، محرمانگی و یکپارچه‌گی تعریف کرد.
  • منابع درست ایجاد کنید:اطمینان حاصل کنید بهترین منابع شما برای حل مسائل مهم قابل استفاده باشند. به همین ترتیب، تعیین نقش‌ها و مسئولیت‌های آن‌ها در حوادثی که در کسب‌وکارها بوجود می‌آ‌یند، تأثیر خواهد گذاشت. هدف اساسی شما باید درگیر کردن منابع خود و حفظ فاصله استراتژیک از تضاد زمان و نیازها باشد.
  • آموزش کارمندان و تجهیز آنان با ابزار مناسب:یک حادثه می‌تواند هر لحظه در بخش IT اتفاق بیفتد. اولین مرحله برای مراقبت از آن، آمادگی برای حوادث است. تیم مدیریت حوادث خود را به چندین تیم تقسیم کنید و به آن‌ها آموزش‌های لازم را ارائه دهید. مسئولیت‌ها را با نگاشت مهارت‌های مورد نیاز تعیین کنید.
  • در جریان گذاشتن مدیران و ذینفعان ارشد: اطمینان حاصل کنید ذینفعان در طول چرخۀ رفع مسائل مهم در مورد مدیریت مسائل مطلع هستند.
  • حوادث عمده را با سایر فرآیند‌های ITIL گره بزنید: پس از رفع حوادث عمده، با استفاده از استراتژی‌های مدیریت حوادث، تحلیل علت اصلی را انجام دهید. سپس برای جلوگیری از وقوع حوادث مشابه در آینده، با پیروی از روش مدیریت تغییر و یا تغییرات را در کل سازمان پیاده‌سازی کنید.
  • پایگاه دانش خود را تعبیه کنید: : الگوی تحریریه پایگاه اطلاعات را بیان کنید که جزئیات مهم را ضبط می‌کند. به عنوان مثال، نوع حادثه قابل توجهی که مقاله شناسایی می‌کند، آخرین مسئله با استفاده از گزارش، صاحب مقاله و منابعی که انتظار می‌رود مساله را حل کند
  • بررسی و گزارش در ‌مورد حوادث مهم: تمام حوادث مهم را با این هدف مستند و تجزیه و تحلیل کنید که بتوانید زمینه‌های بهبود را تشخیص دهید. این به گروه شما کمک می‌کند تا بعداً به طور مستقل مسائل قابل مقایسه را مدیریت کند.
  • مستند کردن پروسه حوادث مهم جهت بهبود مستمر خدمات: مدیرعامل باید فرم‌ها را همیشه ارزیابی کند تا هر زمان که روی سطح اجرایی در مدیریت حادثه متمرکز بود، بتواند در جهت بهبود، آن‌ها را بررسی کند. این امر می‌تواند به رفع نقص کمک کرده و در بهبود مستمر خدمات موثر باشد.

جمع‌بندی

حوادث مهم غیرقابل اجتناب هستند و هر مرحله برای گروه شما یک چالش جدید برای یادگیری است. ادامه دادن این روش‌ها می‌تواند حرکت مهمی از شما درجهت مراقبت از حوادث مهم در کسب‌وکار شما باشد.