Dữ liệu lớn trong đám mây - Dữ liệu của chúng tôi an toàn đến mức nào? - Công Nghệ

NộI Dung

Các vấn đề bảo mật trong các khung lập trình phân tán
Hầu hết các khung dữ liệu dựa trên đám mây đều sử dụng cơ sở dữ liệu NoQuery. Cơ sở dữ liệu NoQuery có lợi cho việc xử lý các tập dữ liệu khổng lồ, không có cấu trúc nhưng từ góc độ bảo mật, nó được thiết kế kém. NoQuery ban đầu được thiết kế với hầu như không có sự cân nhắc về bảo mật. Một trong những điểm yếu lớn nhất của NoQuery là tính toàn vẹn trong giao dịch. Nó có cơ chế xác thực kém, khiến nó dễ bị tấn công bởi người trung gian hoặc phát lại. Để làm cho mọi thứ tồi tệ hơn, NoQuery không hỗ trợ tích hợp mô-đun của bên thứ ba để tăng cường cơ chế xác thực. Vì các cơ chế xác thực khá lỏng lẻo, dữ liệu cũng bị phơi bày trước các cuộc tấn công nội bộ. Các cuộc tấn công có thể không được chú ý và không bị theo dõi vì cơ chế phân tích nhật ký và ghi nhật ký kém.

Vấn đề về Nhật ký Dữ liệu và Giao dịch
Vấn đề xác thực dữ liệu
Giám sát an ninh dữ liệu lớn theo thời gian thực
Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn
Chiến lược đối mặt với các mối đe dọa an ninh
Cải thiện độ tin cậy trong các khung lập trình phân tán
Chính sách bảo vệ dữ liệu mạnh
Phân tích
Phát hiện các ngoại lệ trong khi thu thập dữ liệu
Phần kết luận

Nguồn: Cuteimage / Dreamstime.com

Lấy đi:

Khám phá các mối đe dọa lớn nhất đối với dữ liệu lớn trên đám mây và tìm hiểu các cách để bảo vệ chống lại chúng.

Khối lượng dữ liệu lớn đang tăng lên từng ngày. Từ 2.500 exabyte vào năm 2012, dữ liệu lớn dự kiến sẽ tăng lên 40.000 exabyte vào năm 2020. Do đó, lưu trữ dữ liệu là một thách thức nghiêm trọng mà chỉ có cơ sở hạ tầng đám mây mới có khả năng xử lý. Đám mây đã trở thành một lựa chọn phổ biến chủ yếu vì dung lượng lưu trữ khổng lồ và các điều khoản và điều kiện sử dụng không áp đặt bất kỳ nghĩa vụ nào đối với người đăng ký. Lưu trữ đám mây có thể được cung cấp dưới dạng đăng ký và dịch vụ kéo dài trong một khoảng thời gian định trước. Sau đó, không có nghĩa vụ về phía khách hàng để gia hạn nó.

Tuy nhiên, việc lưu trữ dữ liệu lớn trong đám mây sẽ mở ra những thách thức bảo mật mới không thể đối mặt với các biện pháp bảo mật được áp dụng cho dữ liệu tĩnh, thông thường. Mặc dù dữ liệu lớn không phải là một khái niệm mới lạ, bộ sưu tập và sử dụng của nó đã bắt đầu tăng tốc chỉ trong những năm gần đây. Trước đây, việc lưu trữ và phân tích dữ liệu lớn chỉ giới hạn cho các tập đoàn lớn và chính phủ có thể đủ khả năng cơ sở hạ tầng cần thiết cho việc lưu trữ và khai thác dữ liệu. Cơ sở hạ tầng như vậy là độc quyền và không tiếp xúc với các mạng chung. Tuy nhiên, dữ liệu lớn hiện có sẵn với giá rẻ cho tất cả các loại hình doanh nghiệp thông qua cơ sở hạ tầng đám mây công cộng. Do đó, các mối đe dọa an ninh mới, tinh vi đã xuất hiện và chúng tiếp tục nhân lên và phát triển.

Các vấn đề bảo mật trong các khung lập trình phân tán

Các khung lập trình phân tán xử lý dữ liệu lớn với các kỹ thuật tính toán và lưu trữ song song. Trong các khung như vậy, các trình ánh xạ không được xác thực hoặc đã sửa đổi - phân chia các tác vụ lớn thành các tác vụ phụ nhỏ hơn để các tác vụ có thể được tổng hợp để tạo đầu ra cuối cùng - có thể thỏa hiệp dữ liệu. Các nút worker bị lỗi hoặc bị sửa đổi - lấy các đầu vào từ trình ánh xạ để thực thi các tác vụ - có thể làm tổn hại dữ liệu bằng cách nhấn vào giao tiếp dữ liệu giữa trình ánh xạ và các nút worker khác. Các nút worker Rogue cũng có thể tạo các bản sao của các nút worker hợp pháp. Thực tế là rất khó để xác định các trình ánh xạ hoặc nút giả mạo trong một khung lớn như vậy làm cho việc đảm bảo an ninh dữ liệu thậm chí còn khó khăn hơn.

Hầu hết các khung dữ liệu dựa trên đám mây đều sử dụng cơ sở dữ liệu NoQuery. Cơ sở dữ liệu NoQuery có lợi cho việc xử lý các tập dữ liệu khổng lồ, không có cấu trúc nhưng từ góc độ bảo mật, nó được thiết kế kém. NoQuery ban đầu được thiết kế với hầu như không có sự cân nhắc về bảo mật. Một trong những điểm yếu lớn nhất của NoQuery là tính toàn vẹn trong giao dịch. Nó có cơ chế xác thực kém, khiến nó dễ bị tấn công bởi người trung gian hoặc phát lại. Để làm cho mọi thứ tồi tệ hơn, NoQuery không hỗ trợ tích hợp mô-đun của bên thứ ba để tăng cường cơ chế xác thực. Vì các cơ chế xác thực khá lỏng lẻo, dữ liệu cũng bị phơi bày trước các cuộc tấn công nội bộ. Các cuộc tấn công có thể không được chú ý và không bị theo dõi vì cơ chế phân tích nhật ký và ghi nhật ký kém.

Vấn đề về Nhật ký Dữ liệu và Giao dịch

Dữ liệu thường được lưu trữ trong phương tiện lưu trữ nhiều tầng. Nó tương đối dễ dàng để theo dõi dữ liệu khi âm lượng tương đối nhỏ và tĩnh. Nhưng khi âm lượng tăng theo cấp số nhân, các giải pháp tự động phân tầng được sử dụng. Các giải pháp tự động phân tầng lưu trữ dữ liệu theo các tầng khác nhau nhưng không theo dõi các vị trí. Đây là một vấn đề bảo mật. Ví dụ, một tổ chức có thể có dữ liệu bí mật hiếm khi được sử dụng. Tuy nhiên, các giải pháp tự động phân tầng sẽ không phân biệt giữa dữ liệu nhạy cảm và không nhạy cảm và chỉ lưu trữ dữ liệu hiếm khi được truy cập vào tầng thấp nhất. Các tầng thấp nhất có bảo mật thấp nhất hiện có.

Vấn đề xác thực dữ liệu

Trong một tổ chức, dữ liệu lớn có thể được thu thập từ nhiều nguồn khác nhau, bao gồm các thiết bị đầu cuối như ứng dụng phần mềm và thiết bị phần cứng. Đó là một thách thức lớn để đảm bảo rằng dữ liệu được thu thập không độc hại. Bất cứ ai có ý định độc hại đều có thể can thiệp vào thiết bị cung cấp dữ liệu hoặc với ứng dụng thu thập dữ liệu. Ví dụ, tin tặc có thể thực hiện một cuộc tấn công Sybil vào hệ thống và sau đó sử dụng danh tính giả mạo để cung cấp dữ liệu độc hại cho máy chủ hoặc hệ thống thu thập trung tâm. Mối đe dọa này đặc biệt có thể áp dụng trong kịch bản mang theo thiết bị của bạn (BYOD) vì người dùng có thể sử dụng thiết bị cá nhân của họ trong mạng doanh nghiệp.

Giám sát an ninh dữ liệu lớn theo thời gian thực

Giám sát dữ liệu theo thời gian thực là một thách thức lớn vì bạn cần giám sát cả cơ sở hạ tầng dữ liệu lớn và dữ liệu mà nó đang xử lý. Như đã chỉ ra trước đó, cơ sở hạ tầng dữ liệu lớn trong đám mây liên tục phải đối mặt với các mối đe dọa. Các thực thể độc hại có thể sửa đổi hệ thống để nó truy cập dữ liệu và sau đó không ngừng tạo ra các kết quả dương tính giả. Nó là cực kỳ rủi ro để bỏ qua dương tính giả. Trên hết, những thực thể này có thể cố gắng trốn tránh sự phát hiện bằng cách xây dựng các cuộc tấn công trốn tránh hoặc thậm chí sử dụng ngộ độc dữ liệu để giảm độ tin cậy của dữ liệu đang được xử lý.

Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn

Bạn không thể cải thiện kỹ năng lập trình của mình khi không ai quan tâm đến chất lượng phần mềm.

Chiến lược đối mặt với các mối đe dọa an ninh

Các chiến lược bảo mật dữ liệu lớn vẫn còn ở giai đoạn non trẻ, nhưng chúng cần phát triển nhanh chóng. Các câu trả lời cho các mối đe dọa bảo mật nằm trong chính mạng. Các thành phần mạng cần sự tin cậy tuyệt đối và điều đó có thể đạt được với các chiến lược bảo vệ dữ liệu mạnh mẽ. Không nên dung sai cho các biện pháp bảo vệ dữ liệu lỏng lẻo. Cũng cần có một cơ chế mạnh mẽ, tự động để thu thập và phân tích nhật ký sự kiện.

Cải thiện độ tin cậy trong các khung lập trình phân tán

Như đã chỉ ra trước đó, các trình ánh xạ và nút công nhân không tin cậy có thể ảnh hưởng đến bảo mật dữ liệu. Vì vậy, sự đáng tin cậy của người lập bản đồ và các nút là cần thiết. Để làm điều này, người lập bản đồ cần thường xuyên xác thực các nút worker. Khi một nút worker là một yêu cầu kết nối đến một master, yêu cầu đó sẽ được chấp thuận cho worker đó có một tập các thuộc tính tin cậy được xác định trước. Sau đó, công nhân sẽ được xem xét thường xuyên để tuân thủ các chính sách tin cậy và bảo mật.

Chính sách bảo vệ dữ liệu mạnh

Các mối đe dọa bảo mật đối với dữ liệu do bảo vệ dữ liệu vốn đã yếu trong khung phân tán và cơ sở dữ liệu NoQuery cần được xử lý. Mật khẩu nên được băm hoặc mã hóa bằng các thuật toán băm an toàn. Dữ liệu trong phần còn lại phải luôn được mã hóa và không bị bỏ sót ngoài trời, ngay cả sau khi xem xét tác động hiệu suất. Mã hóa phần cứng và hàng loạt có bản chất nhanh hơn và điều đó có thể giải quyết các vấn đề về hiệu suất ở một mức độ nào đó, nhưng mã hóa thiết bị phần cứng cũng có thể bị kẻ tấn công xâm phạm. Xem xét tình huống, cách tốt nhất là sử dụng SSL / TLS để thiết lập kết nối giữa máy khách và máy chủ và để liên lạc qua các nút cụm. Ngoài ra, kiến trúc NoQuery cần cho phép các mô-đun xác thực của bên thứ ba có thể cắm được.

Phân tích

Phân tích dữ liệu lớn có thể được sử dụng để giám sát và xác định các kết nối đáng ngờ đến các nút cụm và liên tục khai thác nhật ký để xác định bất kỳ mối đe dọa tiềm ẩn nào. Mặc dù hệ sinh thái Hadoop không có bất kỳ cơ chế bảo mật tích hợp nào, các công cụ khác có thể được sử dụng để giám sát và xác định các hoạt động đáng ngờ, tuân theo các công cụ này đáp ứng các tiêu chuẩn nhất định. Ví dụ: các công cụ như vậy phải tuân thủ các nguyên tắc của Dự án bảo mật ứng dụng web mở (OWASP). Dự kiến việc theo dõi các sự kiện theo thời gian thực sẽ được cải thiện với một số diễn biến đã diễn ra. Ví dụ: Giao thức tự động hóa nội dung bảo mật (SCAP) đang dần được áp dụng cho dữ liệu lớn. Apache Kafka và Storm hứa hẹn sẽ là những công cụ giám sát thời gian thực tốt.

Phát hiện các ngoại lệ trong khi thu thập dữ liệu

Hiện vẫn chưa có hệ thống chống xâm nhập có sẵn để ngăn chặn hoàn toàn các cuộc xâm nhập trái phép tại thời điểm thu thập dữ liệu. Tuy nhiên, sự xâm nhập có thể được giảm đáng kể. Đầu tiên, các ứng dụng thu thập dữ liệu phải được phát triển để bảo mật nhất có thể, hãy ghi nhớ kịch bản BYOD khi ứng dụng có thể chạy trên một số thiết bị không tin cậy. Thứ hai, những kẻ tấn công quyết tâm sẽ có khả năng vi phạm ngay cả những người mạnh nhất về phòng thủ và dữ liệu độc hại cho hệ thống thu thập trung tâm. Vì vậy, cần có các thuật toán để phát hiện và lọc ra các đầu vào độc hại như vậy.

Phần kết luận

Lỗ hổng dữ liệu lớn trong đám mây là duy nhất và không thể giải quyết bằng các biện pháp bảo mật truyền thống. Bảo vệ dữ liệu lớn trong đám mây vẫn còn là một lĩnh vực non trẻ bởi vì một số thực tiễn tốt nhất như giám sát thời gian thực vẫn đang phát triển và các biện pháp hoặc biện pháp tốt nhất hiện có sẽ không được sử dụng nghiêm ngặt. Tuy nhiên, xem xét làm thế nào dữ liệu lớn sinh lợi, các biện pháp bảo mật chắc chắn sẽ bắt kịp trong tương lai gần.