Kudu: Người thay đổi trò chơi trong hệ sinh thái Hadoop?

NộI Dung

Kudu là gì?
Tình trạng hiện tại của Kudus là gì?
Làm thế nào Kudu có thể bổ sung HDFS / HBase?
Các tính năng của Khung Kudu
Làm thế nào Kudu có thể thay đổi hệ sinh thái Hadoop?
Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn
Phần kết luận

Nguồn: Agsandrew / Dreamstime.com

Lấy đi:

Kudu là một dự án nguồn mở giúp quản lý lưu trữ hiệu quả hơn.

Kudu là một dự án nguồn mở mới cung cấp lưu trữ có thể cập nhật. Nó là phần bổ sung cho HDFS / HBase, cung cấp lưu trữ tuần tự và chỉ đọc. Kudu phù hợp hơn cho việc phân tích nhanh trên dữ liệu nhanh, hiện đang là nhu cầu của doanh nghiệp. Vì vậy, Kudu không chỉ là một dự án hệ sinh thái Hadoop khác, mà còn có tiềm năng thay đổi thị trường. (Để biết thêm về Hadoop, hãy xem 10 Điều khoản Hadoop quan trọng nhất bạn cần biết và hiểu.)

Kudu là gì?

Kudu là một loại hệ thống lưu trữ đặc biệt lưu trữ dữ liệu có cấu trúc dưới dạng bảng. Mỗi bảng có số lượng cột được xác định trước. Mỗi một trong số chúng có một khóa chính thực sự là một nhóm gồm một hoặc nhiều cột của bảng đó. Khóa chính này được tạo để thêm hạn chế và bảo mật các cột, đồng thời hoạt động như một chỉ mục, cho phép dễ dàng cập nhật và xóa. Các bảng này là một chuỗi các tập hợp dữ liệu được gọi là máy tính bảng.

Tình trạng hiện tại của Kudus là gì?

Kudu thực sự được phát triển tốt và đã được kết hợp với rất nhiều tính năng. Tuy nhiên, nó vẫn sẽ cần một số đánh bóng, có thể được thực hiện dễ dàng hơn nếu người dùng đề xuất và thực hiện một số thay đổi.

Kudu là nguồn mở hoàn toàn và có Giấy phép Phần mềm Apache 2.0. Nó cũng dự định được gửi tới Apache, để nó có thể được phát triển như một dự án Vườn ươm Apache. Điều này sẽ cho phép sự phát triển của nó tiến triển nhanh hơn và tăng thêm khán giả. Sau một khoảng thời gian nhất định, việc phát triển Kudu sẽ được thực hiện công khai và minh bạch. Nhiều công ty như AtScale, Xiaomi, Intel và Splice Machine đã cùng nhau đóng góp để phát triển Kudu. Kudu cũng có một cộng đồng lớn, nơi một lượng lớn khán giả đã cung cấp các đề xuất và đóng góp của họ. Vì vậy, nó là những người đang thúc đẩy sự phát triển của Kudu.

Làm thế nào Kudu có thể bổ sung HDFS / HBase?

Kudu isn mệnh có nghĩa là một sự thay thế cho HDFS / HBase. Nó thực sự được thiết kế để hỗ trợ cả HBase và HFDS và chạy cùng với chúng để tăng tính năng của chúng. Điều này là do HBase và HDFS vẫn có nhiều tính năng giúp chúng mạnh hơn Kudu trên một số máy nhất định. Nhìn chung, các máy như vậy sẽ nhận được nhiều lợi ích hơn từ các hệ thống này.

Các tính năng của Khung Kudu

Các tính năng chính của khung Kudu như sau:

Quét cực nhanh các cột Bảng - Các định dạng dữ liệu tốt nhất như Parquet và ORCFile cần các quy trình quét tốt nhất, được Kudu xử lý hoàn hảo. Các định dạng như vậy cần quét nhanh, chỉ có thể xảy ra khi dữ liệu cột được mã hóa chính xác.
Độ tin cậy của hiệu suất - Khung Kudu tăng độ tin cậy tổng thể của Hadoop bằng cách đóng nhiều lỗ hổng và lỗ hổng có trong Hadoop.
Tích hợp dễ dàng với Hadoop - Kudu có thể dễ dàng tích hợp với Hadoop và các thành phần khác nhau của nó để có hiệu quả cao hơn.
Nguồn mở hoàn toàn - Kudu là một hệ thống nguồn mở có giấy phép Apache 2.0. Nó có một cộng đồng lớn các nhà phát triển từ các công ty và nguồn gốc khác nhau, họ cập nhật nó thường xuyên và cung cấp các đề xuất cho các thay đổi.

Làm thế nào Kudu có thể thay đổi hệ sinh thái Hadoop?

Kudu được xây dựng để phù hợp với hệ sinh thái Hadoop, và tăng cường các tính năng của nó. Nó cũng có thể tích hợp với một số thành phần quan trọng của Hadoop, như MapReduce, HBase và HDFS. Các công việc MapReduce có thể cung cấp dữ liệu hoặc lấy dữ liệu từ các bảng Kudu. Những tính năng này cũng có thể được sử dụng trong Spark. Một lớp đặc biệt làm cho một số thành phần Spark như Spark SQL và DataFrame có thể truy cập được với Kudu. Mặc dù Kudu đã được phát triển rất nhiều để thay thế các tính năng này, nhưng ước tính sau một vài năm, nó sẽ được phát triển đủ để làm như vậy. Cho đến lúc đó, sự tích hợp giữa Hadoop và Kudu thực sự rất hữu ích và có thể lấp đầy những khoảng trống lớn của hệ sinh thái Hadoop. (Để tìm hiểu thêm về Apache Spark, hãy xem Cách Apache Spark giúp phát triển ứng dụng nhanh chóng.)

Kudu có thể được thực hiện ở nhiều nơi. Một số ví dụ về những nơi như vậy được đưa ra dưới đây:

Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn

Bạn không thể cải thiện kỹ năng lập trình của mình khi không ai quan tâm đến chất lượng phần mềm.

Truyền đầu vào trong thời gian gần như thực - Ở những nơi cần nhận đầu vào càng sớm càng tốt, Kudu có thể thực hiện một công việc đáng chú ý. Một ví dụ về một địa điểm như vậy là trong các doanh nghiệp, nơi một lượng lớn dữ liệu động tràn vào từ các nguồn khác nhau và cần được cung cấp nhanh chóng trong thời gian thực.
Các ứng dụng chuỗi thời gian với các mẫu truy cập khác nhau - Kudu hoàn hảo cho các ứng dụng dựa trên chuỗi thời gian vì việc thiết lập bảng và quét chúng bằng cách sử dụng nó đơn giản hơn. Một ví dụ về việc sử dụng như vậy là trong các cửa hàng bách hóa, nơi dữ liệu cũ phải được tìm thấy nhanh chóng và được xử lý để dự đoán mức độ phổ biến của sản phẩm trong tương lai.
Các hệ thống kế thừa - Nhiều công ty nhận dữ liệu từ nhiều nguồn khác nhau và lưu trữ chúng ở các máy trạm khác nhau sẽ cảm thấy như ở nhà với Kudu. Kudu cực kỳ nhanh và có thể tích hợp hiệu quả với Impala để xử lý dữ liệu trên tất cả các máy.
Mô hình dự đoán - Các nhà khoa học dữ liệu muốn có một nền tảng tốt cho mô hình hóa có thể sử dụng Kudu. Kudu có thể học hỏi từ mọi bộ dữ liệu được đưa vào nó. Nhà khoa học có thể chạy và chạy lại mô hình nhiều lần để xem điều gì xảy ra.

Phần kết luận

Mặc dù Kudu vẫn đang trong giai đoạn phát triển, nhưng nó có đủ tiềm năng để trở thành một bổ trợ tốt cho các thành phần Hadoop tiêu chuẩn như HDFS và HBase. Nó có đủ tiềm năng để thay đổi hoàn toàn hệ sinh thái Hadoop bằng cách điền vào tất cả các khoảng trống và cũng thêm một số tính năng khác. Nó cũng rất nhanh và mạnh mẽ và có thể giúp phân tích và lưu trữ nhanh chóng các bảng dữ liệu lớn. Tuy nhiên, vẫn còn một số công việc phải làm để nó được sử dụng hiệu quả hơn.