Có thể có quá nhiều dữ liệu trong dữ liệu lớn?

NộI Dung

Q:

A:

Câu trả lời cho câu hỏi là CÓ CÓ. Hoàn toàn có thể có quá nhiều dữ liệu trong một dự án dữ liệu lớn.

Có rất nhiều cách để điều này có thể xảy ra, và nhiều lý do tại sao các chuyên gia cần hạn chế và quản lý dữ liệu theo bất kỳ cách nào để có được kết quả đúng. (Đọc 10 huyền thoại lớn về dữ liệu lớn.)

Nói chung, các chuyên gia nói về việc phân biệt "tín hiệu" với "nhiễu" trong một mô hình. Nói cách khác, trong một biển dữ liệu lớn, dữ liệu thông tin chi tiết có liên quan trở nên khó nhắm mục tiêu. Trong một số trường hợp, bạn đang tìm kiếm một cây kim trong đống cỏ khô.

Ví dụ: giả sử một công ty đang cố gắng sử dụng dữ liệu lớn để tạo ra những hiểu biết cụ thể về một phân khúc của cơ sở khách hàng và mua hàng của họ trong một khung thời gian cụ thể. (Đọc dữ liệu lớn làm gì?)

Việc sử dụng một lượng lớn tài sản dữ liệu có thể dẫn đến việc nhập dữ liệu ngẫu nhiên không liên quan hoặc thậm chí có thể tạo ra sự sai lệch làm lệch dữ liệu theo hướng này hay hướng khác.

Nó cũng làm chậm quá trình một cách đáng kể, vì các hệ thống máy tính phải vật lộn với các tập dữ liệu lớn hơn và lớn hơn.

Trong rất nhiều loại dự án khác nhau, các kỹ sư dữ liệu rất quan trọng trong việc sắp xếp dữ liệu thành các tập dữ liệu cụ thể và bị hạn chế - trong trường hợp trên, đó sẽ chỉ là dữ liệu cho phân khúc khách hàng đó được nghiên cứu, chỉ là dữ liệu cho thời điểm đó khung đang được nghiên cứu và một cách tiếp cận loại bỏ các định danh bổ sung hoặc thông tin cơ bản có thể gây nhầm lẫn mọi thứ hoặc làm chậm hệ thống. (Vai trò ReadJob: Kỹ sư dữ liệu.)

Để biết thêm, hãy xem cách nó hoạt động ở biên giới của máy học. (Đọc máy học 101.)

Các chuyên gia về máy học nói về một thứ gọi là "quá mức" trong đó một mô hình quá phức tạp dẫn đến kết quả kém hiệu quả hơn khi chương trình học máy bị mất dữ liệu sản xuất mới.

Quá mức xảy ra khi một tập hợp các điểm dữ liệu phức tạp khớp với tập huấn luyện ban đầu quá tốt và không cho phép chương trình dễ dàng thích ứng với dữ liệu mới.

Bây giờ về mặt kỹ thuật, quá mức được gây ra không phải do sự tồn tại của quá nhiều mẫu dữ liệu, mà là do sự đăng quang của quá nhiều điểm dữ liệu. Nhưng bạn có thể lập luận rằng việc có quá nhiều dữ liệu cũng có thể là một yếu tố góp phần vào loại vấn đề này. Đối phó với lời nguyền về chiều hướng liên quan đến một số kỹ thuật tương tự đã được thực hiện trong các dự án dữ liệu lớn trước đó khi các chuyên gia cố gắng xác định chính xác những gì họ đang cung cấp cho các hệ thống CNTT.

Điểm mấu chốt là dữ liệu lớn có thể rất hữu ích cho các công ty, hoặc nó có thể trở thành một thách thức lớn. Một khía cạnh của việc này là liệu công ty có dữ liệu phù hợp hay không. Các chuyên gia biết rằng không nên đơn giản là đổ tất cả các tài sản dữ liệu vào một phễu và đưa ra những hiểu biết theo cách đó - trong các hệ thống dữ liệu mới và có nguồn gốc trên đám mây, có một nỗ lực để kiểm soát và quản lý và quản lý dữ liệu để có được chính xác hơn và sử dụng hiệu quả tài sản dữ liệu.