5 cách thực hành tốt nhất để tự động hóa quản lý sự cố lớn

Tác Giả: Roger Morrison
Ngày Sáng TạO: 27 Tháng Chín 2021
CậP NhậT Ngày Tháng: 21 Tháng Sáu 2024
Anonim
5 cách thực hành tốt nhất để tự động hóa quản lý sự cố lớn - Công Nghệ
5 cách thực hành tốt nhất để tự động hóa quản lý sự cố lớn - Công Nghệ

NộI Dung



Nguồn: Pixtum / iStockphoto

Lấy đi:

Với chiến lược tự động hóa thông minh, bạn có thể thực hiện phản ứng sự cố nhanh hơn và dễ dàng hơn bao giờ hết - giảm thiểu thời gian chết và các vi phạm an ninh tiềm ẩn.

Sự cố CNTT lớn diễn ra trong các công ty mỗi ngày. Mặc dù chỉ một số ít làm tiêu đề, các sự kiện như mất điện và vi phạm an ninh có thể làm tê liệt nghiêm trọng năng suất của nhân viên, ảnh hưởng tiêu cực đến nhận thức của khách hàng và quan trọng nhất là dẫn đến doanh thu bị mất.

Vì vậy, khi nói đến việc quản lý các sự cố CNTT lớn, tốt nhất là tập trung vào tác động kinh doanh và điểm mấu chốt. Theo Viện Ponemon, chi phí trung bình của thời gian chết trong năm 2016 là 8,851 đô la mỗi phút - đó là hơn 500.000 đô la mỗi giờ và thời gian ngừng hoạt động điển hình trung bình hơn 90 phút. Và đây chỉ là chi phí ngay lập tức! Tác động lâu dài như thiệt hại danh tiếng và sự mất khách hàng là không thể đoán trước và có khả năng gây ra thảm họa.


Mặc dù bạn hoàn toàn có thể tránh được tất cả các sự cố lớn, nhưng bạn có thể giúp tổ chức của mình sẵn sàng nhất có thể để giải quyết chúng khi chúng phát sinh. Và một thành phần chính trong chiến lược của bạn nên là kết hợp tự động hóa. Các tổ chức tối đa hóa việc sử dụng tự động hóa trong các quy trình giải quyết sự cố chính của họ đạt được phục hồi dịch vụ nhanh hơn và ít sai sót hơn do lỗi của con người. Điều này là do tự động hóa ảnh hưởng trực tiếp đến khả năng thu hẹp thời gian của cửa sổ tác động kinh doanh - hoặc khoảng thời gian tốn kém mà người dùng và hoạt động kinh doanh của bạn thực sự cảm thấy tác động của sự cố. (Để tìm hiểu thêm về tự động hóa, hãy xem Tự động hóa: Tương lai của Khoa học dữ liệu và Học máy?)

Để tối đa hóa lợi ích của tự động hóa, bạn nên kiểm tra những hoạt động nào cần diễn ra trong cửa sổ tác động và tìm ra cách chuyển tất cả các hoạt động khác sang trước khi sự cố bắt đầu hoặc sau khi doanh nghiệp trở lại hoạt động bình thường. Dưới đây là năm cách hữu ích để bắt đầu.


1. Phát triển và xác định một quy trình

Xác định một quy trình quản lý sự cố chính là về việc xác định chính xác những gì có thể được lên kế hoạch, phối hợp hoặc thực hiện trong một sự cố. Điều này có thể có nghĩa là xác định các thành viên nhóm hỗ trợ chính bằng kỹ năng và lịch trình, ví dụ, để bàn dịch vụ của bạn có thể thu hút họ nhanh chóng và hiệu quả nhất có thể. Điều đó cũng có nghĩa là tìm ra cách bạn sẽ chuyển thông tin liên quan đến nhóm của mình để họ có thể bắt đầu giải quyết vấn đề ngay lập tức, cũng như giữ cho các bên liên quan được thông báo và cập nhật.

Tự động hóa là rất quan trọng cho các khía cạnh quan trọng của quá trình này. Ví dụ: bạn có thể tự động hóa việc bao gồm thông tin có liên quan từ các công cụ giám sát của bạn vào vé bàn dịch vụ hoặc bao gồm thông tin từ bàn dịch vụ trong thông báo cho người giải quyết sự cố. Bạn cũng có thể ghi lại toàn bộ sự việc cho một nguồn sự thật toàn diện có thể truy cập được bởi tất cả mọi người. Hãy nhớ rằng bạn có thể thực hành quy trình này để làm cho đúng - bạn không cần phải chờ đợi một sự cố trong thế giới thực để kiểm tra phương pháp của mình.

2. Nhận cơ sở hạ tầng của bạn ngay

Trong thời đại của sự mệt mỏi cảnh báo, điều cần thiết là bạn không nên tiếp tục bắn phá các đội của mình bằng các thông báo và thông tin không liên quan mà áp dụng cho họ. Áp dụng các bộ lọc cho các cảnh báo giám sát của bạn sẽ giúp các đội của bạn dễ dàng hơn trong việc xử lý kim trong tiếng ồn thường xuyên. Đây là chìa khóa để làm cho tất cả những hiểu biết và dữ liệu của bạn thực sự có thể thực hiện được, thay vì chỉ thêm vào quá tải thông tin.

Các cách tốt để tự động hóa bao gồm sử dụng giải pháp APM để thu thập dữ liệu tất cả các ứng dụng và hệ thống của bạn để chủ động xác định nguyên nhân gốc rễ tại bất kỳ sự suy giảm hiệu suất nào, trước khi gây ra sự cố ngừng dịch vụ lớn. Bạn cũng có thể tích hợp giám sát, bàn dịch vụ, ứng dụng cộng tác và công cụ trò chuyện để chia sẻ thông tin liên quan trong thời gian thực.

Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn

Bạn không thể cải thiện kỹ năng lập trình của mình khi không ai quan tâm đến chất lượng phần mềm.

3. Đo chính xác MTTR

Làm thế nào để bạn đo thời gian trung bình để sửa chữa (MTTR)? Bạn có căn cứ vào tổng thời gian mà các nhóm CNTT tham gia hay tổng thời gian mà doanh nghiệp thực sự bị ảnh hưởng không? Nếu câu trả lời của bạn là trước đây, bạn nên xem xét lại việc đo cửa sổ tác động bằng cách sử dụng quan điểm kinh doanh thay thế. Đây là một con lừa chính xác hơn nhiều cho các nỗ lực tối ưu hóa của bạn, bởi vì mục tiêu của bạn là giảm thiểu tác động của các sự cố và không chỉ đơn giản là trình bày các báo cáo phản hồi tốt hơn cho hội đồng của bạn. (Để tìm hiểu thêm về thời gian chết và cách xử lý, hãy xem Thời gian có nghĩa là gì giữa các lần thất bại thực sự có nghĩa là gì.)

Bạn có thể tự động hóa bằng cách cung cấp khả năng hiển thị đầy đủ vào các ứng dụng để khởi động lại đồng hồ, nếu cần thiết và lưu giữ bản ghi đầy đủ các hoạt động và thông tin liên lạc để phân tích và kiểm toán để cải thiện quy trình của bạn.

4. Thông báo cho các bên liên quan - Nhưng không làm gián đoạn Nghị quyết

Các bên liên quan mong đợi thông tin liên lạc hiệu quả và kịp thời trong khi cũng mong các chuyên gia về chủ đề tập trung vào việc khắc phục sự cố bằng laser. Mặc dù bạn có thể chỉ định một điểm liên lạc để theo dõi và thu hút người dùng doanh nghiệp, một chiến lược hiệu quả hơn sẽ là tạo một trang web tự phục vụ với các cập nhật trạng thái. Điều này trao quyền cho các bên liên quan tự kiểm tra mà không bắn phá nhóm của bạn bằng các cuộc gọi và s tiếp theo. Chỉ cần nhớ cập nhật các bên liên quan của bạn theo định kỳ để họ luôn nhận được và biết để mong đợi, báo cáo trạng thái mới nhất. Đừng quên rằng truyền thông không nên dừng lại đơn giản vì dịch vụ được khôi phục! Các bên liên quan quan trọng của Nhật Bản có được một bản tóm tắt về những gì đã xảy ra, những gì đã học được và làm thế nào để ngăn chặn tình huống này trong tương lai.

Tự động hóa trong trường hợp này có thể được triển khai để tạo trang trạng thái tự động, thời gian thực cho các bên liên quan, cũng như xây dựng các lệnh gạch chéo vào công cụ trò chuyện của bạn để cập nhật trang đó.

5. Thu thập dữ liệu để hỗ trợ quản lý vấn đề

Phục hồi dịch vụ không đại diện cho sự kết thúc của quản lý sự cố! Trong thực tế, một số hoạt động có giá trị nhất xảy ra sau khi giải quyết. Bằng cách thu thập dữ liệu chẩn đoán và tác động và thực hiện phân tích nguyên nhân gốc rễ, bạn có thể thực hiện kiểm toán toàn bộ một sự cố lớn bao gồm áp dụng các biện pháp phòng ngừa để tránh các sự cố tương tự trong tương lai. Ngoài ra, ngay cả khi sự cố có thể nhận ra lại xảy ra, bạn có thể tạo quy trình xác định cho loại dữ liệu nào bạn cần thu thập và các bước cần xảy ra để giải quyết ổ đĩa. Bằng cách này, nhóm của bạn chỉ cần tham khảo một danh sách kiểm tra và tập trung vào mục tiêu cốt lõi của họ là khôi phục dịch vụ, thay vì lo lắng về những gì họ cần và khi nào.

Tự động hóa ở đây có thể nắm bắt và bảo tồn các hoạt động phân giải, bao gồm những thứ như bảng điểm trò chuyện, trong một hệ thống hồ sơ duy nhất để phân tích. Ngoài ra, nó sẽ giúp bạn xây dựng một danh mục các sự cố hoặc sự cố quen thuộc, củng cố các thực tiễn tốt nhất cho từng vấn đề và do đó tăng tốc độ giải quyết trong tương lai.

Kết luận: Tự động hóa thông minh hơn, không hơn

Hãy cẩn thận rằng tự động hóa nhiều hơn không nhất thiết là cách tiếp cận tốt hơn! Điều quan trọng hơn là bạn hiểu khi nào, ở đâu và làm thế nào để kết nối các hệ thống CNTT của bạn với nhau để hỗ trợ quản lý sự cố. Bạn không muốn thêm bất kỳ sự phức tạp không cần thiết nào để tăng quy trình tự động. Hãy nhớ mục tiêu là đơn giản hóa và củng cố các hoạt động càng nhiều càng tốt để làm cho các nhóm của bạn cảm thấy được trao quyền để giải quyết vấn đề một cách hiệu quả. Nó nói về việc thực hiện tự động hóa một cách thông minh để tạo điều kiện cho một bộ quy trình được phối hợp tốt, đội ngũ nhân viên am hiểu và truyền thông các bên liên quan hiệu quả, để giảm thiểu tác động kinh doanh chung của các sự cố lớn.