Data center resiliency là gì? Ví dụ về data center resiliency
BÀI LIÊN QUAN
Data center infrastructure management (DCIM) là gì? Lợi ích của DCIM là gì?Data Center Chiller là gì? Cách lựa chọn chiller phù hợp cho trung tâm dữ liệuData center management là gì? Những thách thức của việc quản lý trung tâm dữ liệuData center resiliency là gì?
Data center resiliency hay Khả năng phục hồi của trung tâm dữ liệu là khả năng của máy chủ, mạng, hệ thống lưu trữ hoặc toàn bộ trung tâm dữ liệu phục hồi nhanh chóng và tiếp tục hoạt động ngay cả khi xảy ra sự cố thiết bị, mất điện hoặc các gián đoạn khác.
Khả năng phục hồi của trung tâm dữ liệu là một phần được lên kế hoạch trong kiến trúc của cơ sở và thường được liên kết với kế hoạch khắc phục thảm họa cũng như các cân nhắc phương án bảo vệ khác của trung tâm dữ liệu, chẳng hạn như bảo vệ dữ liệu.
Khả năng phục hồi của trung tâm dữ liệu thường đạt được thông qua việc sử dụng các thành phần, hệ thống và phương tiện dự phòng. Khi một phần tử bị lỗi hoặc gặp sự cố gián đoạn, phần tử dự phòng sẽ tiếp quản liền mạch và tiếp tục cung cấp các dịch vụ điện toán cho cơ sở người dùng.
Tính liên tục trong kinh doanh (BC), ứng phó sự cố và ứng phó khẩn cấp, tất cả đều là yếu tố tạo nên khả năng phục hồi tổng thể của một tổ chức. Mục tiêu của khả năng phục hồi là giảm thiểu thời gian chết. Lý tưởng nhất là người dùng của một hệ thống có khả năng phục hồi không bao giờ biết rằng sự gián đoạn đã bị xảy ra.
Ví dụ về khả năng phục hồi của trung tâm dữ liệu
Sau đây là một số cách mà khả năng phục hồi dữ liệu được tích hợp vào các trung tâm dữ liệu.
Dự phòng máy chủ
Nếu nguồn điện của máy chủ bị lỗi, máy chủ cũng bị lỗi. Điều đó có nghĩa là tất cả khối lượng công việc trên máy chủ đó sẽ không khả dụng cho đến khi máy chủ được sửa chữa và khởi động lại hoặc khối lượng công việc có thể được khởi động lại trên một máy chủ phù hợp khác.
Máy chủ thường kết hợp với nguồn điện dự phòng, duy trì liên tục (UPS). Nếu đúng như vậy, nguồn điện dự phòng sẽ tự động bật khi nguồn điện bị lỗi và giữ cho máy chủ hoạt động cho đến khi kỹ thuật viên có thể thay thế nguồn điện bị lỗi.
Các kỹ thuật, chẳng hạn như phân cụm máy chủ, hỗ trợ khối lượng công việc dự phòng trên nhiều máy chủ vật lý. Khi một máy chủ trong cụm bị lỗi, một nút khác sẽ tiếp quản khối lượng công việc dự phòng của nó.
Dự phòng trung tâm dữ liệu
Khái niệm dự phòng tương tự cũng đúng ở cấp độ của chính cơ sở trung tâm dữ liệu. Ví dụ: một tổ chức có thể cung cấp năng lượng cho trung tâm dữ liệu của mình bằng hai nguồn cấp tiện ích riêng biệt từ các nhà cung cấp tiện ích khác nhau để có sẵn nhà cung cấp dự phòng khi nhà cung cấp đầu tiên gặp sự cố.
Thuê vị trí
Các tổ chức hỗ trợ các trang web nóng có thể sử dụng vị trí trung tâm dữ liệu. Với cách tiếp cận này, các nhà quản lý trung tâm dữ liệu di chuyển toàn bộ hoạt động từ cơ sở này sang cơ sở khác để đối phó với sự gián đoạn cục bộ hoặc thảm họa khu vực.
Dịch vụ quan trọng
Các kỹ thuật dự phòng được sử dụng trong trung tâm dữ liệu có thể thay đổi tùy theo mức độ quan trọng của khối lượng công việc tương ứng và dự phòng đó là yếu tố chính trong kế hoạch phục hồi. Các tổ chức có khối lượng công việc điện toán quan trọng hoặc ứng dụng có tính sẵn sàng cao sử dụng các kỹ thuật linh hoạt hơn ở nhiều cấp độ hơn trong trung tâm dữ liệu của họ vì chi phí không bảo toàn các dịch vụ điện toán quan trọng thường cao hơn trong thời gian ngừng dịch vụ kéo dài.
Ví dụ: các dịch vụ kinh doanh quan trọng, chẳng hạn như hệ thống cơ sở dữ liệu hoặc xử lý giao dịch trực tuyến, có thể được thiết kế với khả năng phục hồi trung tâm dữ liệu toàn diện, bao gồm phân cụm, ảnh chụp nhanh và dự phòng ngoài trang web. Khối lượng công việc không cần thiết có thể chịu được một số mức độ gián đoạn có thể nhận được ít khả năng phục hồi hoặc đơn giản là vẫn ngoại tuyến cho đến khi có thể khôi phục.
Khả năng phục hồi so với dự phòng
Cách dễ nhất để phân biệt giữa thuật ngữ khả năng phục hồi và dự phòng là hiểu rằng, để đạt được khả năng phục hồi, trước tiên người ta phải có dự phòng. Tuy nhiên, mặc dù khả năng dự phòng tương đối dễ đạt được bằng cách thêm các thành phần sao lưu các thành phần của trung tâm dữ liệu chính, nhưng điều đó vẫn không có nghĩa là trung tâm dữ liệu có khả năng phục hồi.
Người quản lý trung tâm dữ liệu có thể xác định xem trung tâm dữ liệu có khả năng phục hồi hay không bằng một trong hai cách sau:
- Họ có thể ngắt nguồn điện của trung tâm dữ liệu và xem điều gì sẽ xảy ra. Hầu hết các CIO và người quản lý của họ sẽ không thử thử nghiệm này, ngay cả khi có nguồn lực dư thừa. Rủi ro là quá lớn, đặc biệt là trong quá trình sản xuất hàng ngày.
- Họ có thể khởi chạy một số mức độ tắt máy vào cuối tuần hoặc ngày lễ khi các hoạt động chậm hơn và ít quan trọng hơn. Kết quả của phương pháp này cung cấp cái nhìn sâu sắc về khả năng phục hồi của tổ chức sau sự gián đoạn lớn đối với cơ sở hạ tầng CNTT. Nó cũng xác định các khu vực cần thêm tài nguyên để tăng cường khả năng phục hồi của các hệ thống quan trọng.
Các nhà cung cấp, chuyên gia tư vấn và nhóm nghiên cứu trong ngành trung tâm dữ liệu cung cấp dịch vụ đánh giá và thông tin chi tiết để giúp các nhà quản lý doanh nghiệp hiểu rõ hơn nhu cầu về các trung tâm dữ liệu linh hoạt hơn.
Làm thế nào để đạt được khả năng phục hồi của trung tâm dữ liệu?
Để phát triển kế hoạch phục hồi, các nhóm vận hành trung tâm dữ liệu phải đánh giá cơ sở hạ tầng CNTT hiện có của họ và quyết định yếu tố nào là quan trọng đối với nhiệm vụ. Từ đó, họ phải xác định mức độ phục hồi mà mỗi người cần. Để làm được điều này, họ nên xem xét cả yếu tố kinh doanh và kỹ thuật.
Chi phí cho khả năng phục hồi có thể cao vì khả năng phục hồi cao hơn đòi hỏi đầu tư nhiều hơn.
Sơ đồ dưới đây giới thiệu khái niệm dự phòng N+ như một yếu tố của khả năng phục hồi. Một trung tâm dữ liệu không có dự phòng là một cơ sở N. Các thành phần dự phòng được thêm vào cho đến khi có mức độ dự phòng một đối một. Tại thời điểm đó, trung tâm dữ liệu có dự phòng N+1.
Một số tổ chức thêm nhiều yếu tố dự phòng, chẳng hạn như trung tâm dữ liệu thứ hai của công ty, trung tâm dữ liệu được đặt tại chỗ hoặc cấu hình trung tâm dữ liệu sao chép dựa trên đám mây. Những cách tiếp cận này đưa tổ chức đến gần hơn với khả năng phục hồi thực sự hoặc khả năng phục hồi N+X. Ví dụ: cách tiếp cận điện toán đám mây có thể mang lại lợi ích khi nhà cung cấp đám mây có nhiều trung tâm dữ liệu của riêng mình để cung cấp khả năng phục hồi theo thời gian thực hơn nữa.
Các bước khác có thể giúp làm cho trung tâm dữ liệu linh hoạt hơn và tối đa hóa thời gian hoạt động như sau:
- Giám sát điều kiện hoạt động của trung tâm dữ liệu. Hầu hết các trung tâm dữ liệu đều có màn hình nhiệt độ và độ ẩm. Các nhà điều hành trung tâm dữ liệu nên có thiết bị giám sát bổ sung để theo dõi hoạt động của máy chủ, xử lý ứng dụng, sao lưu dữ liệu và mức năng lượng. Việc theo dõi các hoạt động này sẽ xác định các tình huống có khả năng gây gián đoạn trước khi chúng leo thang thành sự cố ngừng hoạt động.
- Có mạng dự phòng và bảo mật. Một ví dụ quan trọng về điều này là có hai hoặc nhiều nhà cung cấp dịch vụ internet sử dụng các đường dẫn truy cập internet được định tuyến riêng biệt. Dự phòng trong cấu hình chu vi mạng giúp tăng cường bảo mật.
- Triển khai báo động và các thiết bị cảnh báo khác. Những tín hiệu này khi ngưỡng hiệu suất cụ thể đã bị vượt quá.
- Tiến hành các bài tập và mô phỏng. Mất điện và các mô phỏng sự cố khác có thể giúp xác định nơi tồn tại các lỗ hổng có thể gây ra sự cố thực sự.
Việc đảm bảo một trung tâm dữ liệu có khả năng phục hồi là một hoạt động đang diễn ra và phải là một phần trong các hoạt động hàng ngày của trung tâm dữ liệu chứ không chỉ là một phần của hoạt động không thường xuyên.
Data center resiliency hay Khả năng phục hồi của trung tâm dữ liệu giúp cho dữ liệu được bảo đảm an toàn trong trường hợp xảy ra sự cố. Data center resiliency là giải pháp rất cần thiết cho doanh nghiệp.