Ngày mai Thử thách dữ liệu lớn bắt nguồn từ sự đa dạng, không phải khối lượng hay vận tốc

Tác Giả: Judy Howell
Ngày Sáng TạO: 28 Tháng BảY 2021
CậP NhậT Ngày Tháng: 1 Tháng BảY 2024
Anonim
Ngày mai Thử thách dữ liệu lớn bắt nguồn từ sự đa dạng, không phải khối lượng hay vận tốc - Công Nghệ
Ngày mai Thử thách dữ liệu lớn bắt nguồn từ sự đa dạng, không phải khối lượng hay vận tốc - Công Nghệ

NộI Dung


Lấy đi:

Quá nhiều bộ phận CNTT ném mọi thứ họ có vào các vấn đề về khối lượng và tốc độ dữ liệu, quên mất việc giải quyết vấn đề cơ bản của sự đa dạng của dữ liệu.

Thách thức của việc quản lý và tận dụng dữ liệu lớn đến từ ba yếu tố, theo Doug Laney, phó chủ tịch nghiên cứu tại Gartner. Laney lần đầu tiên lưu ý hơn một thập kỷ trước rằng dữ liệu lớn gây ra vấn đề như vậy cho doanh nghiệp vì nó giới thiệu khối lượng, vận tốc và sự đa dạng khó quản lý. Vấn đề là, quá nhiều bộ phận CNTT ném mọi thứ họ có vào các vấn đề về khối lượng và vận tốc dữ liệu, quên mất việc giải quyết vấn đề cơ bản của sự đa dạng của dữ liệu.

Trở lại năm 2001, Laney đã viết rằng "các doanh nghiệp hàng đầu sẽ ngày càng sử dụng kho dữ liệu tập trung để xác định vốn từ vựng kinh doanh phổ biến giúp cải thiện sự hợp tác bên trong và bên ngoài." Vấn đề của từ vựng đó - và tính biến đổi khiến các công ty không tạo ra nó - vẫn là khía cạnh ít được giải quyết nhất của câu hỏi hóc búa dữ liệu lớn hiện nay. (Kiểm tra những gì các chuyên gia khác nói. Kiểm tra các chuyên gia dữ liệu lớn để theo dõi.)


Ba Vs của dữ liệu lớn

Nhiều doanh nghiệp đã tìm thấy các phương pháp để khai thác khối lượng và tốc độ dữ liệu tăng lên. , ví dụ, có thể phân tích khối lượng dữ liệu khổng lồ. Tất nhiên, dữ liệu đó thường được trình bày nhiều lần trong cùng một tham số. Điều này đã thúc đẩy các đổi mới công nghệ như cơ sở dữ liệu cột, hiện đang được sử dụng rộng rãi bởi các công ty khác phải đối mặt với các cửa hàng tương tự của các mục dữ liệu tương tự.

Về tốc độ thuần hóa, các nhà cung cấp như Splunk giúp doanh nghiệp phân tích dữ liệu được tạo nhanh chóng thông qua các tệp nhật ký thu được hàng nghìn sự kiện mỗi giây. Phân tích các sự kiện khối lượng lớn này được nhắm mục tiêu vào các trường hợp sử dụng giám sát hiệu suất và bảo mật. Như với thách thức về khối lượng dữ liệu, thử thách vận tốc đã được giải quyết chủ yếu thông qua các kỹ thuật lập chỉ mục tinh vi và phân tích dữ liệu phân tán cho phép khả năng xử lý mở rộng với tốc độ dữ liệu tăng.


Tuy nhiên, khi nói đến sự đa dạng, quá nhiều doanh nghiệp vẫn phải đối mặt với một vấn đề lớn trong cách tiếp cận phân tích dữ liệu lớn. Vấn đề này được thúc đẩy bởi ba yếu tố: Thứ nhất, do tăng trưởng, mua lại và đổi mới công nghệ bổ sung hệ thống mới vào môi trường, các doanh nghiệp bị nhốt trong một môi trường không đồng nhất và sự không đồng nhất này chỉ tăng theo thời gian. Các doanh nghiệp cần theo dõi rất nhiều loại hệ thống và quản lý hàng chục ngàn loại dữ liệu, cũng như cùng một dữ liệu được biểu diễn bằng cách sử dụng danh pháp và định dạng khác nhau.

Thứ hai, các hệ thống và loại dữ liệu này trong nhiều trường hợp báo cáo cả thông tin và thông tin có liên quan có thể được lọc một cách an toàn là không liên quan đến vấn đề đang được giải quyết. Có một nhu cầu đáng tin cậy để xác định thông tin có ảnh hưởng.

Chiều thứ ba cho thách thức đa dạng là sự biến đổi hoặc thay đổi liên tục trong môi trường. Các hệ thống được nâng cấp, các hệ thống mới được giới thiệu, các loại dữ liệu mới được thêm vào và danh pháp mới được giới thiệu. Điều này càng làm tăng khả năng của chúng tôi để chế ngự thách thức đa dạng dữ liệu. Điều này thêm một lớp bổ sung cho các thách thức đa dạng. (Để có cái nhìn sâu sắc hơn, hãy xem Dữ liệu lớn: Cách thức nó được chụp, giòn và được sử dụng để đưa ra quyết định kinh doanh.)

Giải quyết vấn đề đa dạng dữ liệu

Để giải quyết vấn đề đa dạng dữ liệu, các doanh nghiệp phải bắt đầu với lĩnh vực CNTT, vì nó thường đại diện cho cả những người phạm tội tồi tệ nhất và nạn nhân tồi tệ nhất của vấn đề giống. Bước đầu tiên là bắt đầu với một định nghĩa toàn diện hoặc phân loại tất cả các yếu tố hoặc tài sản CNTT. Điều này cung cấp một đường cơ sở hoặc nền tảng để đề cập đến bất cứ điều gì trong hoặc về CNTT và cho phép các doanh nghiệp quản lý sự không đồng nhất ngày càng tăng đối với một phân loại hoặc thuật ngữ đã biết.

Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn

Bạn không thể cải thiện kỹ năng lập trình của mình khi không ai quan tâm đến chất lượng phần mềm.

Bước tiếp theo là xác định nhiều cách mà cùng một đối tượng được thể hiện trên các hệ thống bản ghi khác nhau. Điều này cho phép các chuyên gia CNTT nhìn qua môi trường không đồng nhất của họ và lọc và nén dữ liệu thành các phần có liên quan và có thể quản lý được.

Cuối cùng, các nhà quản lý CNTT phải áp dụng quy trình kiểm tra môi trường liên tục để biết các thay đổi, chẳng hạn như các loại yếu tố mới được giới thiệu hoặc danh pháp mới để đề cập đến cùng một yếu tố.

Với các bước này, các tổ chức CNTT có thể quản lý vấn đề đa dạng và rút ra những hiểu biết sâu sắc đã từng lảng tránh các đội CNTT trong lịch sử. Hơn nữa, việc quản lý vấn đề đa dạng giúp cải thiện đáng kể lợi tức đầu tư của họ vào các công cụ và kỹ thuật nhằm giải quyết các vấn đề dữ liệu lớn truyền thống hơn về khối lượng và vận tốc.