Danh mục dữ liệu và sự trưởng thành của thị trường máy học

NộI Dung

Các mệnh lệnh kinh tế
Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn
Danh mục dữ liệu có thể làm gì cho doanh nghiệp
Thêm vào máy học
Cách chọn

Nguồn: Nmedia / Dreamstime.com

Lấy đi:

Thị trường MLDC đang phát triển và các doanh nghiệp đang tìm cách tận dụng hiệu quả dữ liệu lớn bằng máy học nên nhận thức được những tên tuổi hàng đầu trong lĩnh vực và thứ hạng cá nhân của họ.

Đây là thời đại của dữ liệu lớn. Chúng tôi bị ngập trong thông tin và các doanh nghiệp thấy đó là một thách thức để quản lý và trích xuất giá trị từ nó.

Dòng chảy của dữ liệu lớn đòi hỏi không chỉ khối lượng, sự đa dạng và vận tốc, mà còn cả sự phức tạp. Như được xác định bởi SAS trong Lịch sử dữ liệu lớn và các cân nhắc hiện tại là một yếu tố của các luồng "từ nhiều nguồn, điều này gây khó khăn cho việc liên kết, khớp, làm sạch và chuyển đổi dữ liệu trên các hệ thống." (Bạn muốn tìm hiểu thêm về dữ liệu lớn? Hãy xem (Lớn) Datas Tương lai lớn.)

Tìm kiếm cái nhìn sâu sắc có giá trị không phải là một câu hỏi đơn giản là tích lũy càng nhiều dữ liệu càng tốt, mà là tìm kiếm dữ liệu phù hợp. Nó không thể làm việc thông qua tất cả với các quy trình thủ công. Đây là lý do tại sao ngày càng nhiều doanh nghiệp "chuyển sang danh mục dữ liệu để dân chủ hóa quyền truy cập dữ liệu, cho phép kiến thức dữ liệu của bộ lạc quản lý thông tin, áp dụng chính sách dữ liệu và kích hoạt tất cả dữ liệu cho giá trị doanh nghiệp một cách nhanh chóng".

Đây là nơi danh mục dữ liệu (đôi khi còn được gọi là danh mục thông tin) nhập vào hình ảnh. Như được định nghĩa ở đây, họ trao quyền cho "người dùng khám phá các nguồn dữ liệu cần thiết của họ và hiểu các nguồn dữ liệu được khám phá, đồng thời hỗ trợ các tổ chức đạt được nhiều giá trị hơn từ các khoản đầu tư hiện tại của họ." Một trong những cách thực hiện là bằng cách cho phép truy cập dữ liệu lớn hơn nhiều, giữa các loại người dùng khác nhau có thể sử dụng hoặc đóng góp cho dữ liệu đó.

Các mệnh lệnh kinh tế

Ghi nhận nhu cầu gia tăng đáng kể đối với các danh mục dữ liệu vào cuối năm 2017, Gartner gọi chúng là "màu đen mới". Họ đã được công nhận là một giải pháp nhanh chóng và kinh tế "để kiểm kê và phân loại các tổ chức ngày càng phân phối và vô tổ chức tài sản dữ liệu và lập bản đồ chuỗi cung ứng thông tin của họ." Sự cần thiết cho điều này đã nảy sinh do sự gia tăng của "kinh tế học", đòi hỏi phải áp dụng sự tỉ mỉ tương tự để theo dõi thông tin như người ta làm để quản lý các tài sản kinh doanh khác. (Để biết thêm về chuỗi cung ứng, hãy xem Cách Machine Machine có thể cải thiện hiệu quả của chuỗi cung ứng.)

Những người tham gia trò chơi với The Forrester Wave ™: Danh mục dữ liệu học máy, quý 2 năm 2018. Hơn một nửa số người tham gia khảo sát trong báo cáo đó cho biết họ đang lên kế hoạch xây dựng triển khai danh mục dữ liệu của họ. Có khả năng họ chủ yếu bị thúc đẩy bởi thực tế là mỗi nơi có ít nhất bảy hồ dữ liệu trong tổ chức của họ. Như Gartner đảm nhận các danh mục dữ liệu giải thích, các danh mục dữ liệu đặc biệt hữu ích để lấy ra "con, ý nghĩa và giá trị của dữ liệu" thường được để lại ở dạng không được phân loại trong hồ dữ liệu.

Forrester báo cáo rằng hơn một phần ba dữ liệu và người ra quyết định phân tích đã xử lý 1.000TB hoặc nhiều dữ liệu hơn trong năm 2017, một số tiền chỉ được báo cáo từ 10 đến 14% vào năm trước. Quản lý dữ liệu theo thang đo đó là một thách thức ngày càng tăng, hay cụ thể là hai thách thức:

Phần 1) hợp nhất các quy trình kinh doanh hiện tại với dữ liệu nguồn để phân tích và thực hiện các hiểu biết và 2) tìm nguồn cung ứng, thu thập, quản lý và quản lý dữ liệu khi nó phát triển.

Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn

Bạn không thể cải thiện kỹ năng lập trình của mình khi không ai quan tâm đến chất lượng phần mềm.

Danh mục dữ liệu có thể làm gì cho doanh nghiệp

Gartner xác định các cách cụ thể trong đó danh mục dữ liệu có thể cải thiện luồng thông tin và năng suất của tổ chức:

Đối chiếu và truyền đạt bản kiểm kê tài sản thông tin cập nhật có sẵn cho tổ chức.
Tạo thuật ngữ chung cho các thuật ngữ kinh doanh xác định cách hiểu và ý nghĩa ngữ nghĩa của dữ liệu của các tổ chức, từ đó cung cấp các phương tiện để hòa giải và giải quyết các mâu thuẫn xác định.
Kích hoạt môi trường cộng tác năng động và nhanh nhẹn để cho phép các đồng nghiệp CNTT và doanh nghiệp nhận xét, ghi lại và chia sẻ dữ liệu.
Cung cấp tính minh bạch trong sử dụng dữ liệu với dòng dõi và phân tích tác động.
Giám sát, kiểm toán và truy tìm dữ liệu hỗ trợ các quy trình quản trị thông tin.
Nắm bắt siêu dữ liệu để tăng cường phân tích nội bộ về sử dụng và tái sử dụng dữ liệu, tối ưu hóa truy vấn và chứng nhận dữ liệu.
Kết hợp thông tin trong việc sử dụng kinh doanh của mình bằng cách nắm bắt, truyền đạt và phân tích dữ liệu nào tồn tại, nguồn gốc từ đâu, sử dụng vào mục đích gì, tại sao cần thiết, cách thức lưu chuyển giữa các quy trình và hệ thống, ai chịu trách nhiệm về nó, ý nghĩa của nó và nó có giá trị gì.

Nhận được dữ liệu được xác định đúng và có thể truy cập được cho những người chủ chốt trong tổ chức là rất quan trọng, báo cáo của Gartner nói, không chỉ để tìm cách "kiếm tiền từ tài sản dữ liệu cho kết quả kinh doanh kỹ thuật số", mà còn tuân thủ các quy định, cho dù họ là ngành công nghiệp- cụ thể như Đạo luật Trách nhiệm và Khả năng Giải quyết Bảo hiểm Y tế (HIPAA) hoặc có tính chất chung hơn như Quy định Bảo vệ Dữ liệu Chung (GDPR).

Thêm vào máy học

Nhưng không có gì là không có nhược điểm của nó. Đối với các danh mục dữ liệu, vấn đề là quá trình chậm chạp và tẻ nhạt đòi hỏi phải tự xây dựng chúng với tất cả các siêu dữ liệu cần được đưa vào vị trí. Đây là nơi mà các thành phần máy học đến.

Các danh mục dữ liệu mà Forrester đánh giá được gọi là MLDC vì chúng khai thác sức mạnh của máy học, một trong những thành phần của AI. Như blog Podium Data đã giải thích, điều đó cho phép "xây dựng kho lưu trữ siêu dữ liệu liên tục và sau đó áp dụng ML / AI để loại bỏ và phơi bày những hiểu biết hữu ích tiềm ẩn về tài sản dữ liệu cơ bản".

Cách chọn

Để giúp các tổ chức đánh giá một doanh nghiệp nào nên chọn, Forrester đã áp dụng 29 điểm đánh giá cho 12 MLDC hàng đầu. Nó xác định các nhà lãnh đạo trong thị trường này là: IBM, Relito, Unifi Software, Alation và Collibra. Những người biểu diễn mạnh mẽ mà nó tìm thấy là Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics và Cloudera. Hortonworks đứng một mình trong hàng ngũ "ứng cử viên".

Tuy nhiên, một người không nên đi bằng bảng xếp hạng tổng thể một mình. Báo cáo không phân tích điểm mạnh và điểm yếu riêng của từng người. Theo đó, nếu một tính năng cụ thể, như nghiên cứu và phát triển, có tầm quan trọng lớn nhất đối với một tổ chức, thì nó có thể coi Hortonworks là ngang hàng với IBM và Colilbra về khía cạnh đó bởi vì ba người này chia sẻ điểm số cao nhất năm cho chất lượng đó, đó là hai điểm tốt hơn Alation và Coloudera và bốn điểm tốt hơn so với Cambridge Semantics.

Theo đó, báo cáo của Forrester khuyên những người sử dụng báo cáo của mình để được hướng dẫn để không cho rằng công ty được xếp hạng hàng đầu là sự lựa chọn tốt nhất cho mọi người. Họ nên chú ý đến việc phân tích đánh giá để tìm ra những gì đáp ứng yêu cầu cụ thể của họ.