7 bước để học khai thác dữ liệu và khoa học dữ liệu

Tác Giả: Eugene Taylor
Ngày Sáng TạO: 12 Tháng Tám 2021
CậP NhậT Ngày Tháng: 22 Tháng Sáu 2024
Anonim
7 bước để học khai thác dữ liệu và khoa học dữ liệu - Công Nghệ
7 bước để học khai thác dữ liệu và khoa học dữ liệu - Công Nghệ

NộI Dung


Nguồn: Hạm đội Paul / Dreamstime.com

Lấy đi:

Khoa học dữ liệu được học tốt nhất bằng cách làm, nhưng một nền tảng tốt về thống kê và vấn đề học máy cũng vậy.

Tôi thường được hỏi làm thế nào để học khai thác dữ liệu và khoa học dữ liệu. Dưới đây là tóm tắt của tôi.

Bạn có thể học tốt nhất việc khai thác dữ liệu và khoa học dữ liệu bằng cách thực hiện, vì vậy hãy bắt đầu phân tích dữ liệu ngay khi bạn có thể! Tuy nhiên, đừng quên học lý thuyết, vì bạn cần một nền tảng thống kê và học máy tốt để hiểu những gì bạn đang làm và tìm ra những giá trị thực sự trong tiếng ồn của dữ liệu lớn.

Dưới đây là bảy bước để học khai thác dữ liệu và khoa học dữ liệu. Mặc dù chúng được đánh số, bạn có thể thực hiện chúng song song hoặc theo thứ tự khác.


  1. Ngôn ngữ: Tìm hiểu R, Python và SQL
  2. Công cụ: Tìm hiểu cách sử dụng các công cụ khai thác dữ liệu và trực quan hóa
  3. sách: Đọc sách giới thiệu để hiểu các nguyên tắc cơ bản
  4. Giáo dục: Xem hội thảo trên web, tham gia các khóa học và xem xét chứng chỉ hoặc bằng cấp về khoa học dữ liệu (Đọc thêm về Ben Loricas Cách nuôi dưỡng một nhà khoa học dữ liệu.)
  5. Dữ liệu: Kiểm tra tài nguyên dữ liệu có sẵn và tìm thứ gì đó ở đó
  6. Các cuộc thi: Tham gia vào các cuộc thi khai thác dữ liệu
  7. Tương tác với các nhà khoa học dữ liệu khác, thông qua các mạng xã hội, các nhóm và các cuộc họp

Trong bài viết này, tôi sử dụng khai thác dữ liệu và khoa học dữ liệu thay thế cho nhau. Xem bản trình bày của tôi, Tổng quan về ngành của Analytics, nơi tôi xem xét sự phát triển và mức độ phổ biến của các thuật ngữ khác nhau như thống kê, khám phá kiến ​​thức, khai thác dữ liệu, phân tích dự đoán, khoa học dữ liệu và dữ liệu lớn.


1. Học ngôn ngữ

Một cuộc thăm dò của KDnuggets gần đây đã phát hiện ra rằng các ngôn ngữ phổ biến nhất để khai thác dữ liệu là R, Python và SQL. Có nhiều tài nguyên cho mỗi ví dụ:

  • Sách điện tử miễn phí về Khoa học dữ liệu với R
  • Bắt đầu với Python cho khoa học dữ liệu
  • Python để phân tích dữ liệu: Các công cụ linh hoạt cho dữ liệu trong thế giới thực
  • Một Python không thể thiếu: Tìm nguồn dữ liệu cho Khoa học dữ liệu
  • Trường học W3 SQL

2. Công cụ: Khai thác dữ liệu, Khoa học dữ liệu và Phần mềm trực quan hóa

Có nhiều công cụ khai thác dữ liệu cho các tác vụ khác nhau, nhưng tốt nhất là học cách sử dụng bộ khai thác dữ liệu hỗ trợ toàn bộ quá trình phân tích dữ liệu. Bạn có thể bắt đầu với các công cụ nguồn mở (miễn phí) như KNIME, RapidMiner và Weka.

Tuy nhiên, đối với nhiều công việc phân tích, bạn cần biết SAS, đây là công cụ thương mại hàng đầu và được sử dụng rộng rãi. Các phần mềm phân tích và khai thác dữ liệu phổ biến khác bao gồm MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler và Rattle.

Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn

Bạn không thể cải thiện kỹ năng lập trình của mình khi không ai quan tâm đến chất lượng phần mềm.

Hình dung là một phần thiết yếu của bất kỳ phân tích dữ liệu. Tìm hiểu cách sử dụng Microsoft Excel (tốt cho nhiều tác vụ đơn giản hơn), đồ họa R, (đặc biệt là ggplot2) và Tableau - một gói tuyệt vời để trực quan hóa. Các công cụ trực quan tốt khác bao gồm TIBCO Spotfire và Miner3D.

3. sách

Có rất nhiều sách khai thác dữ liệu và khoa học dữ liệu có sẵn, nhưng bạn có thể kiểm tra những điều sau:

  • Khai thác và phân tích dữ liệu: Các khái niệm và thuật toán cơ bản, tải xuống PDF miễn phí (bản nháp), bởi Mohammed Zaki và Wagner Meira Jr.
  • Khai thác dữ liệu: Các công cụ và kỹ thuật máy học thực tế, của Ian Witten, Eibe Frank và Mark Hall, từ các tác giả của Weka, và sử dụng Weka rộng rãi trong các ví dụ
  • Các yếu tố của học thống kê, khai thác dữ liệu, suy luận và dự đoán, bởi Trevor Hastie, Robert Tibshirani, Jerome Friedman. Giới thiệu tuyệt vời cho định hướng toán học
  • LIONbook: Tối ưu hóa học tập và thông minh, của Roberto Battiti và Mauro Brunato, có sẵn miễn phí trên Web, từng chương một
  • Khai thác sách dữ liệu khổng lồ, của A. Rajaraman, J. Ullman
  • Sách thống kê điện tử StatSoft (miễn phí), bao gồm nhiều chủ đề khai thác dữ liệu

4. Giáo dục: Hội thảo trên web, Khóa học, Chứng chỉ và Bằng cấp

Bạn có thể bắt đầu bằng cách xem một số nhiều hội thảo và webcast miễn phí về các chủ đề mới nhất trong phân tích, dữ liệu lớn, khai thác dữ liệu và khoa học dữ liệu.

Ngoài ra còn có nhiều khóa học trực tuyến, ngắn và dài, nhiều khóa học miễn phí. (Xem thư mục giáo dục trực tuyến của KDnuggets.)

Kiểm tra cụ thể các khóa học này:

  • Học máy, tại Coursera, được giảng dạy bởi Andrew Ng
  • Học từ dữ liệu tại edX, được giảng dạy bởi giáo sư Caltech Yaser Abu-Mostafa
  • Khóa học trực tuyến mở về khoa học dữ liệu ứng dụng, từ Syracuse iSchool
  • Khai thác dữ liệu với Weka, khóa học trực tuyến miễn phí
  • Kiểm tra các slide trực tuyến miễn phí từ Khóa khai thác dữ liệu của tôi, một khóa học giới thiệu kéo dài một học kỳ về khai thác dữ liệu

Cuối cùng, hãy xem xét nhận chứng chỉ về khai thác dữ liệu và khoa học dữ liệu hoặc bằng cấp cao, chẳng hạn như bằng thạc sĩ về khoa học dữ liệu.

5. Dữ liệu

Bạn sẽ cần dữ liệu để phân tích - xem thư mục KDnuggets của Bộ dữ liệu để khai thác dữ liệu, bao gồm:

  • Các trang web và cổng thông tin của chính phủ, liên bang, tiểu bang, thành phố, địa phương và công cộng
  • API dữ liệu, trung tâm, thị trường, nền tảng, cổng và công cụ tìm kiếm
  • Bộ dữ liệu công cộng miễn phí

6. Thi đấu

Một lần nữa, bạn sẽ học tốt nhất bằng cách làm, vì vậy hãy tham gia vào các cuộc thi Kaggle. Bắt đầu với các cuộc thi dành cho người mới bắt đầu, chẳng hạn như Dự đoán Titanic Survival bằng Máy học.

7. Tương tác: Các cuộc họp, nhóm và mạng xã hội

Bạn có thể tham gia nhiều nhóm đồng đẳng. Xem 30 nhóm LinkedIn hàng đầu về Phân tích, Dữ liệu lớn, Khai thác dữ liệu và Khoa học dữ liệu.

Phân tích là một cộng đồng tích cực cho phân tích và khoa học dữ liệu.

Bạn có thể tham dự một số Cuộc họp và Hội nghị về Phân tích, Dữ liệu lớn, Khai thác dữ liệu, Khoa học dữ liệu và Khám phá tri thức.

Ngoài ra, hãy xem xét tham gia ACM SIGKDD, nơi tổ chức hội nghị KDD hàng năm - hội nghị nghiên cứu hàng đầu trong lĩnh vực này.

Bài viết này là sậy từ KDNuggets.com. Nó đã được sử dụng với sự cho phép từ tác giả.