Học tăng cường Vs. Học tập củng cố sâu: Điều gì khác biệt?

NộI Dung

Học tăng cường là gì?
Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn
Học tăng cường sâu là gì?

Lấy đi:

Chúng tôi đã đến các chuyên gia và yêu cầu họ trả lời những khác biệt quan trọng giữa học tăng cường và học tăng cường sâu

Các thuật toán học máy có thể làm cho cuộc sống và công việc trở nên dễ dàng hơn, giải phóng chúng ta khỏi các nhiệm vụ dư thừa trong khi làm việc nhanh hơn - và thông minh hơn - so với toàn bộ các nhóm người. Tuy nhiên, có nhiều loại máy học khác nhau. Ví dụ, có học tập củng cố và học tập củng cố sâu.

Mặc dù học tăng cường và học tăng cường sâu là cả hai kỹ thuật học máy tự học, nhưng có một số khác biệt, theo Tiến sĩ Kiho Lim, trợ lý giáo sư khoa học máy tính tại Đại học William Paterson ở Wayne, New Jersey. Học tăng cường cốt lõi là học tập linh hoạt với phương pháp thử và sai để tối đa hóa kết quả, trong khi học tăng cường sâu là học từ kiến thức hiện có và áp dụng nó vào một bộ dữ liệu mới.

Nhưng chính xác thì điều đó có nghĩa là gì? Chúng tôi đã đi đến các chuyên gia - và yêu cầu họ cung cấp nhiều ví dụ!

Học tăng cường là gì?

Như Lim nói, học tăng cường là thực hành học bằng thử và sai - và thực hành. Theo chuyên gia khoa học dữ liệu tại Data Science Dojo ở Redmond, WA, theo mô hình này, một mô hình học được cách triển khai bằng cách tăng dần cho phần thưởng dự đoán chính xác và bị phạt vì dự đoán không chính xác. (Đọc Học tăng cường có thể mang lại một động lực tốt cho tiếp thị.)

Học tăng cường cốt lõi thường thấy trong các trò chơi AI và cải thiện việc chơi trò chơi theo thời gian.

Ba thành phần thiết yếu trong học tập củng cố là một tác nhân, hành động và phần thưởng. Học tập Củng cố của Tuân thủ một phương pháp cụ thể và xác định phương tiện tốt nhất để có được kết quả tốt nhất, theo Tiến sĩ Ankur Taly, trưởng khoa học dữ liệu tại Fiddler Labs ở Mountain View, CA. Phần mềm này rất giống với cấu trúc của cách chúng ta chơi trò chơi điện tử, trong đó nhân vật (đặc vụ) tham gia vào một loạt các thử nghiệm (hành động) để đạt được điểm số cao nhất (phần thưởng).

Tuy nhiên, nó là một hệ thống tự dạy tự chủ. Sử dụng ví dụ về trò chơi video, Taly nói rằng phần thưởng tích cực có thể đến từ việc tăng điểm hoặc điểm và phần thưởng tiêu cực có thể dẫn đến việc chạy vào chướng ngại vật hoặc thực hiện các động tác bất lợi.

Chris Nicholson, Giám đốc điều hành của San Francisco, Skymind dựa trên CA xây dựng dựa trên ví dụ về cách các thuật toán học bằng thử nghiệm và lỗi. Lần đầu tiên hãy tưởng tượng chơi Super Mario Brothers và cố gắng tìm ra cách để giành chiến thắng: bạn khám phá không gian, bạn vịt, nhảy, đánh một đồng xu, đáp xuống một con rùa và sau đó bạn thấy điều gì xảy ra.

Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn

Bạn không thể cải thiện kỹ năng lập trình của mình khi không ai quan tâm đến chất lượng phần mềm.

Bằng cách học những hành động tốt và hành động xấu, trò chơi dạy cho bạn cách cư xử. Học tập Củng cố thực hiện điều đó trong mọi tình huống: trò chơi điện tử, trò chơi trên bàn cờ, mô phỏng các trường hợp sử dụng trong thế giới thực. Nich Trên thực tế, tổ chức của ông sử dụng học tập củng cố và mô phỏng để giúp các công ty tìm ra con đường quyết định tốt nhất trong tình huống phức tạp.

Trong học tập củng cố, một tác nhân đưa ra một số quyết định nhỏ hơn để đạt được mục tiêu lớn hơn. Một ví dụ khác là dạy robot đi bộ. Thay vì các hướng mã hóa cứng để nhấc một chân, uốn cong đầu gối, đặt nó xuống, v.v., phương pháp học tăng cường có thể có thí nghiệm robot với các chuỗi chuyển động khác nhau và tìm ra sự kết hợp nào thành công nhất trong việc tạo ra nó Tiến về phía trước, Stephen nói Stephen Bailey, nhà khoa học dữ liệu và chuyên gia công cụ phân tích tại Immuta ở College Park, MD.

Ngoài các trò chơi video và robot, có những ví dụ khác có thể giúp giải thích cách học tăng cường hoạt động. Brandon Haynie, nhà khoa học dữ liệu trưởng tại Babel Street ở Washington, DC, so sánh nó với việc con người học lái xe đạp. Voi Nếu bạn đứng yên và nhấc chân mà không đạp, một cú ngã - hoặc phạt - sắp xảy ra.

Tuy nhiên, nếu bạn bắt đầu đạp, thì bạn sẽ vẫn ở trên xe đạp - phần thưởng - và tiến tới trạng thái tiếp theo.

Học tập cốt thép có các ứng dụng trải rộng trên một số lĩnh vực, bao gồm các quyết định tài chính, hóa học, sản xuất, và tất nhiên, robotics, Hay Haynie nói.

Học tăng cường sâu là gì?

Tuy nhiên, nó có thể khiến các quyết định trở nên quá phức tạp đối với phương pháp học tập được củng cố. Haynie nói rằng thuật toán có thể áp đảo từ tất cả các trạng thái và xác định đường dẫn phần thưởng. Đây là nơi học tập củng cố sâu có thể hỗ trợ: phần ‘sâu về đề cập đến việc áp dụng mạng lưới thần kinh để ước tính các trạng thái thay vì phải lập bản đồ mọi giải pháp, tạo ra một không gian giải pháp dễ quản lý hơn trong quá trình ra quyết định.

Nó không phải là một khái niệm mới. Haynie nói nó đã tồn tại từ những năm 1970. Tuy nhiên, với sự ra đời của điện toán giá rẻ và mạnh mẽ, những lợi thế bổ sung của mạng nơ-ron giờ đây có thể hỗ trợ giải quyết các khu vực để giảm độ phức tạp của một giải pháp, ông giải thích. (Đọc Sự khác biệt giữa trí tuệ nhân tạo và mạng lưới thần kinh là gì?)

Vì vậy, làm thế nào để làm việc này? Theo Peter MacKenzie, trưởng nhóm AI, Châu Mỹ tại Teradata, nó có quá nhiều thông tin để lưu trữ trong các bảng và các phương thức dạng bảng sẽ yêu cầu tác nhân truy cập vào mọi kết hợp trạng thái và hành động.

Tuy nhiên, học tăng cường sâu thay thế các phương pháp dạng bảng để ước tính các giá trị trạng thái bằng xấp xỉ hàm. Phép tính gần đúng của hàm không chỉ loại bỏ nhu cầu lưu trữ tất cả các cặp trạng thái và giá trị trong một bảng, nó cho phép tác nhân tổng quát hóa giá trị của các trạng thái mà nó chưa từng thấy trước đây hoặc có một phần thông tin về, bằng cách sử dụng các giá trị của các trạng thái tương tự MacKenzie nói.

Phần lớn những tiến bộ thú vị trong học tập củng cố sâu đã xuất hiện nhờ vào khả năng mạnh mẽ của mạng lưới thần kinh để khái quát hóa trên các không gian nhà nước rộng lớn. 271 Và MacKenzie lưu ý rằng học tập củng cố sâu đã được sử dụng trong các chương trình đánh bại một số đối thủ cạnh tranh tốt nhất của con người trong các trò chơi như Cờ vua và Cờ vây, và cũng chịu trách nhiệm cho nhiều tiến bộ trong chế tạo robot. (Đọc 7 nhà lãnh đạo phụ nữ về AI, học máy và robot.)

Bailey đồng ý và cho biết thêm, vào đầu năm nay, một đặc vụ AI tên AlphaStar đã đánh bại người chơi StarCraft II tốt nhất thế giới - và điều này đặc biệt thú vị vì không giống như các trò chơi như Chess và Go, người chơi trong StarCraft không biết đối thủ của họ đang làm gì. Thay vào đó, ông nói rằng họ phải thực hiện một chiến lược ban đầu sau đó thích nghi khi họ tìm ra những gì đối thủ của họ đang lên kế hoạch.

Nhưng làm thế nào là thậm chí có thể? Nếu một mô hình có mạng lưới thần kinh gồm hơn năm lớp, Hameed nói rằng nó có khả năng phục vụ dữ liệu chiều cao. Do đó, mô hình có thể tự học cách xác định các mẫu mà không cần kỹ sư con người quản lý và chọn các biến cần nhập vào mô hình để tìm hiểu, anh ấy giải thích.

Trong các kịch bản kết thúc mở, bạn thực sự có thể thấy vẻ đẹp của việc học tập củng cố sâu. Taly sử dụng ví dụ về việc đặt bàn tại nhà hàng hoặc đặt hàng cho một mặt hàng - các tình huống mà đại lý phải phản hồi với bất kỳ đầu vào nào từ đầu kia.

Học tập củng cố sâu có thể được sử dụng để đào tạo một tác nhân đàm thoại trực tiếp từ tín hiệu âm thanh từ đầu bên kia, ông nói. Khi sử dụng tín hiệu âm thanh, tác nhân cũng có thể học cách thu nhận các tín hiệu tinh tế trong âm thanh như tạm dừng, ngữ điệu, et cetera - đây là sức mạnh của việc học tăng cường sâu.

Và các ứng dụng mới của học tập củng cố sâu tiếp tục xuất hiện. Khi xác định hành động tốt nhất tiếp theo để thu hút khách hàng, MacKenzie cho biết, trạng thái và hành động có thể bao gồm tất cả các kết hợp sản phẩm, ưu đãi và nhắn tin trên tất cả các kênh khác nhau, với mỗi kênh được cá nhân hóa - từ ngữ, hình ảnh, màu sắc, phông chữ.

Một ví dụ khác là tối ưu hóa chuỗi cung ứng, ví dụ, cung cấp các sản phẩm dễ hỏng trên khắp Hoa Kỳ. Các quốc gia có thể bao gồm vị trí hiện tại của tất cả các loại vận chuyển khác nhau, hàng tồn kho trong tất cả các nhà máy, kho và cửa hàng bán lẻ và dự báo nhu cầu cho tất cả các cửa hàng, nói MacKenzie nói.

Sử dụng học tập sâu để thể hiện trạng thái và không gian hành động cho phép đại lý đưa ra quyết định hậu cần tốt hơn dẫn đến việc giao hàng kịp thời hơn với chi phí thấp hơn.