Hadoop hoạt động trong kiến ​​trúc dữ liệu thế hệ tiếp theo

Tác Giả: Roger Morrison
Ngày Sáng TạO: 20 Tháng Chín 2021
CậP NhậT Ngày Tháng: 1 Tháng BảY 2024
Anonim
Hadoop hoạt động trong kiến ​​trúc dữ liệu thế hệ tiếp theo - Công Nghệ
Hadoop hoạt động trong kiến ​​trúc dữ liệu thế hệ tiếp theo - Công Nghệ

NộI Dung



Nguồn: Romeo1232 / Dreamstime.com

Lấy đi:

Hadoop sẽ là người chơi chính trong kiến ​​trúc dữ liệu thế hệ tiếp theo nhờ khả năng xử lý lượng dữ liệu khổng lồ.

Tiện ích Hadoop sườn đang bắt đầu vượt ra ngoài việc xử lý và phân tích dữ liệu lớn khi ngành công nghiệp đòi hỏi nhiều hơn từ nó. Hadoop đang dần phục vụ các yêu cầu đa dạng liên quan đến kiến ​​trúc dữ liệu doanh nghiệp trong khi vẫn giữ được thế mạnh ban đầu. Danh sách những gì Hadoop có thể làm và hiện đang làm khá dài. Hadoop hiện có thể xử lý khối lượng công việc giao dịch khổng lồ, một nhiệm vụ trước đây được mong đợi của các công nghệ truyền thống. Sắp tới, có rất nhiều khả năng cho Hadoop trong tương lai. Ví dụ: các hệ thống giao dịch dựa trên SQL có thể sử dụng công cụ SQL Hadoop và Hadoop cũng sẽ thêm rất nhiều khả năng RDBMS. Bạn có thể nói rằng Hadoop đang trở thành sự kết hợp giữa khả năng xử lý dữ liệu và phân tích với khả năng kiến ​​trúc doanh nghiệp.


Kiến trúc dữ liệu thế hệ tiếp theo là gì?

Nói một cách đơn giản, kiến ​​trúc dữ liệu thế hệ tiếp theo là một dạng kiến ​​trúc dữ liệu phát triển. Mọi thứ, bao gồm mô hình dữ liệu, chính sách dữ liệu, quy tắc và tiêu chuẩn chi phối cách thu thập, lưu trữ, sắp xếp, phân tích hoặc xử lý, tích hợp, sử dụng và phân phối dữ liệu, đã phát triển theo kiến ​​trúc dữ liệu thế hệ tiếp theo.

Sự khác biệt chính giữa kiến ​​trúc dữ liệu trước đó và kiến ​​trúc dữ liệu thế hệ tiếp theo là khả năng thu thập, lưu trữ và xử lý khối lượng dữ liệu khổng lồ, còn được gọi là dữ liệu lớn, trong thời gian thực. Kiến trúc thực hiện tất cả các nhiệm vụ phức tạp này mà không ảnh hưởng đến các tiêu chuẩn quản trị dữ liệu, quyền riêng tư và bảo mật.


Kiến trúc dữ liệu thế hệ tiếp theo phải đối mặt với nhiều thách thức. Không dễ để xử lý khối lượng, vận tốc và sự đa dạng của dữ liệu lớn. Thêm vào đó là các yêu cầu tối ưu hóa khối lượng công việc của hệ thống, cải thiện hiệu suất, tốc độ và độ chính xác và giảm chi phí. Không cần phải nói, kiến ​​trúc dữ liệu trước đó không phải quản lý các nhu cầu như vậy.

Vì vậy, CIO và kiến ​​trúc sư thông tin muốn tìm một giải pháp giúp họ đạt được mục tiêu của mình. Hoạt động Hadoop đã được tập trung một thời gian trong con này. Các phần sau đây sẽ thảo luận về cách hoạt động của Hadoop có thể giải quyết vấn đề.

Kỳ vọng từ Hadoop trong Con kiến ​​trúc thế hệ tiếp theo

Các công ty đang chịu áp lực ngày càng tăng để cung cấp kết quả tốt hơn và các hiệu ứng đang giảm dần theo mong đợi của các công nghệ. Vì vậy, Hadoop không còn mong đợi chỉ xử lý dữ liệu. CIO và CTO muốn nhiều hơn từ Hadoop. Đưa ra dưới đây là một danh sách các kỳ vọng từ Hadoop. Trên thực tế, Hadoop đã đưa ra một vài trong số những kỳ vọng này.

Hadoop dự kiến ​​sẽ làm việc với các hệ thống giao dịch dựa trên SQL và có khả năng tạo, đọc, cập nhật và xóa. Các hệ thống giao dịch sẽ tận dụng công cụ SQL. Các hệ thống cũng sẽ có tuân thủ đầy đủ Giao diện hệ điều hành di động (POSIX) và khả năng xử lý khối lượng giao dịch cao.

Hadoop dự kiến ​​sẽ hỗ trợ các tính năng như sao lưu, chống lỗi, phục hồi và khắc phục thảm họa. Để Hadoop phát triển thành một hệ thống có khả năng RDBMS, nó cần tương thích với các công cụ CNTT hiện có.

Hadoop đã làm việc để đáp ứng sự mong đợi, như hiển nhiên từ một số phát triển. Hadoop có thể cung cấp phân tích thời gian thực và phản hồi nhanh dựa trên hỗ trợ quản lý tài nguyên do YARN cung cấp. YARN là một hệ điều hành phân tán và quy mô lớn cho các ứng dụng dữ liệu lớn ngoài việc là người quản lý tài nguyên. Các phát triển khác như Apache Storm, các kiến ​​trúc trong bộ nhớ phân tán như Apache Spark, Apache Hive, Drill và MapR-FS (một sự thay thế HDFS hiệu suất cao), được biết là đang hoạt động, để cung cấp nhiều khả năng cơ sở dữ liệu khác nhau, chẳng hạn như sao lưu, khắc phục thảm họa, khả năng chịu lỗi, v.v. (Để biết thêm về YARN, hãy xem Ưu điểm của Khung Hadoop 2.0 (YARN) là gì?)

Những giá trị nào Hadoop có thể thêm vào kiến ​​trúc dữ liệu thế hệ tiếp theo?

Các giá trị hoạt động mà Hadoop có thể thêm vào kiến ​​trúc dữ liệu thế hệ tiếp theo có thể được xem xét từ hai khía cạnh: một, cho dù nó có đáp ứng các kỳ vọng được mô tả ở trên và hai, cho dù nó đang làm gì thêm. Đưa ra dưới đây là các giá trị nổi bật mà Hadoop hoạt động có thể mang lại.

Hadoop hiện có thể cung cấp khả năng mở rộng và quản lý dữ liệu nhiều hơn trong nền tảng của mình thông qua HDFS. Và hệ điều hành dữ liệu đã được kích hoạt thông qua các ứng dụng YadoN của Hadoop. Chiến lược này thể hiện sự thay đổi trong kiến ​​trúc dữ liệu ở cấp độ cơ bản. Giờ đây, Hadoop có thể lưu trữ nhiều loại dữ liệu khác nhau như cơ sở dữ liệu hướng giao dịch, cơ sở dữ liệu đồ thị và cơ sở dữ liệu tài liệu và những dữ liệu này có thể được truy cập thông qua các ứng dụng YARN. Không cần phải sao chép hoặc di chuyển dữ liệu đến các vị trí khác.

Cải thiện hiệu suất như một kiến ​​trúc dữ liệu doanh nghiệp

Hoạt động Hadoop đang trên đường trở thành hệ thống cốt lõi của kiến ​​trúc dữ liệu doanh nghiệp. Khi Hadoop nhận được nhiều hơn vào kiến ​​trúc dữ liệu doanh nghiệp, các silo dữ liệu sẽ bị loại bỏ khi các đường giữa chúng bị loại bỏ. Sẽ có sự cải thiện nhanh chóng trong hầu hết các khía cạnh. Các cải tiến sẽ diễn ra dưới dạng các định dạng tệp hiệu quả hơn, hiệu suất công cụ SQL tốt hơn, hệ thống tệp được cải thiện và độ mạnh sẽ đáp ứng nhu cầu của các ứng dụng doanh nghiệp.

Sự khác biệt giữa Hadoop và các công nghệ khác

Trước đây, sự khác biệt chính giữa Hadoop và công nghệ doanh nghiệp dữ liệu là khả năng xử lý, báo cáo và phân tích dữ liệu lớn của Hadoop. Giờ đây, khi Hadoop hoạt động ngày càng trở thành một phần của kiến ​​trúc dữ liệu doanh nghiệp, sự khác biệt giữa các thực thể ngày càng mờ nhạt. Vì vậy, Hadoop hoạt động đang nổi lên như một sự thay thế vượt trội cho kiến ​​trúc dữ liệu doanh nghiệp hiện có.

Phần kết luận

Với những kỳ vọng và tiến bộ, Hadoop sẽ trở thành tâm điểm của ngành trong một thời gian khá dài. Nhưng nó có ý nghĩa để không tập trung quá nhiều vào Hadoop và chỉ cần bỏ qua các công nghệ khác. Điều này là do các công nghệ khác sẽ đạt được tiến bộ trên cùng một tham số và thậm chí có thể vượt qua Hadoop. Không bao giờ là tốt khi có độc quyền trên thị trường. Thật tốt khi các nhà sản xuất công nghệ khác ngoài Hadoop có thể được thúc đẩy để cung cấp các sản phẩm tốt hơn và thậm chí các plugin giúp Hadoop cải thiện hiệu suất của nó.