Tại sao chạy đào tạo ML trên máy cục bộ và sau đó chạy thực thi thường xuyên trên máy chủ?

NộI Dung

Q:

Tại sao chạy đào tạo máy học (ML) trên máy cục bộ và sau đó chạy thực thi thường xuyên trên máy chủ?

A:

Câu hỏi làm thế nào để cấu trúc một dự án máy học và các giai đoạn đào tạo và kiểm tra của nó có liên quan nhiều đến cách chúng ta di chuyển qua vòng đời MLợi và đưa chương trình từ môi trường đào tạo vào môi trường sản xuất.

Một trong những lý do đơn giản nhất để sử dụng mô hình nêu trên về việc đưa đào tạo ML vào máy cục bộ và sau đó chuyển thực thi sang hệ thống dựa trên máy chủ là lợi ích của việc phân tách nhiệm vụ thiết yếu. Nói chung, bạn muốn tập huấn được tách biệt, để bạn có một bức tranh rõ ràng về nơi bắt đầu và dừng đào tạo, và nơi bắt đầu thử nghiệm. Bài báo KDNuggets này nói về nguyên tắc theo một cách thức thô thiển trong khi cũng đi qua một số lý do khác để cô lập các bộ huấn luyện trên một máy cục bộ. Một đề xuất giá trị cơ bản khác cho mô hình này là, với các bộ huấn luyện và thử nghiệm trên các kiến trúc rất khác nhau, bạn sẽ không bao giờ bị nhầm lẫn về phân bổ thử nghiệm / đào tạo chung!

Một lợi ích thú vị khác có liên quan đến an ninh mạng. Các chuyên gia chỉ ra rằng nếu bạn có các quy trình đào tạo ban đầu trên một máy cục bộ thì không cần phải kết nối với internet! Điều này mở rộng bảo mật theo một cách cơ bản, trực tiếp tổ chức quy trình cho đến khi nó xâm nhập vào thế giới sản xuất, khi đó bạn phải xây dựng bảo mật đầy đủ vào mô hình máy chủ.

Ngoài ra, một số mô hình của các dòng biệt lập trên thế giới này có thể giúp giải quyết các vấn đề như trôi dạt khái niệm và nhược điểm ẩn giấu - nguyên tắc của không phải văn phòng phẩm Cảnh báo các nhà phát triển rằng dữ liệu không giữ nguyên cùng một thời gian (tùy thuộc vào những gì được đo) và rằng nó có thể mất rất nhiều khả năng thích ứng để tạo ra một giai đoạn thử nghiệm phù hợp với một giai đoạn xe lửa. Hoặc, trong một số trường hợp, các quá trình đào tạo và kiểm tra hòa trộn với nhau, tạo ra sự nhầm lẫn.

Lần đầu tiên triển khai giai đoạn thử nghiệm trên máy chủ có thể tạo điều kiện cho các mô hình hộp đen khác nhau của Wikipedia, nơi bạn khắc phục vấn đề về khả năng thích ứng dữ liệu. Trong một số trường hợp, nó loại bỏ quá trình dư thừa của việc đặt các đơn đặt hàng thay đổi trên nhiều nền tảng.

Sau đó, môi trường máy chủ rõ ràng phục vụ các quy trình động hoặc thời gian thực trong đó các kỹ sư sẽ muốn truy cập vào các mô hình truyền dữ liệu và mã hoạt động tốt nhất để sản xuất trong ML. Ví dụ, AWS Lambda có thể là một lựa chọn hấp dẫn để xử lý các vi lệnh sản xuất (hoặc kết hợp lưu trữ đối tượng Lambda và S3) và không có kết nối (không có máy chủ) trở nên không thể.

Đây là một số vấn đề mà các nhà phát triển có thể nghĩ đến khi họ xem xét cách phân vùng đào tạo các giai đoạn ML từ thử nghiệm và sản xuất.