5 lĩnh vực chính mà dữ liệu lớn đang tạo ra tác động lớn

NộI Dung

Nó xảy ra như thế nào
Dữ liệu lớn, cơ hội lớn
Một cái gì đó để xem

Nguồn: Nmedia /Dreamstime.com

Lấy đi:

Dữ liệu lớn là doanh nghiệp lớn ở khắp mọi nơi, nhưng một vài lĩnh vực cụ thể tận dụng công nghệ này nhiều nhất.

Khi tôi bắt đầu bài viết này, tôi đã dự định liệt kê các loại nền tảng dữ liệu lớn khác nhau. Nhưng, sau ba ngày cố gắng hợp nhất tất cả các dịch vụ dữ liệu lớn khác nhau - quan hệ so với không liên quan, SQL so với NoQuery và cơ sở dữ liệu so với khung - vào một số vấn đề trật tự, tôi quyết định tránh sự lộn xộn đó.

Để thêm sự xúc phạm đến thương tích, tôi đã hy vọng giới thiệu người đặt ra thuật ngữ "dữ liệu lớn" như một phần của bài viết. Nhưng, tôi thậm chí có thể làm điều đó. Không có câu trả lời theo thỏa thuận. Trên thực tế, có một dự án nghiên cứu toàn diện đang tìm kiếm người đã đưa ra dữ liệu lớn ban đầu. Thay vào đó, tôi sẽ xem xét một số cách chính mà dữ liệu lớn được sử dụng. Đó là quan trọng hơn nhiều. Và nó thú vị và đáng ngạc nhiên hơn bạn nghĩ.

Nó xảy ra như thế nào

Các nhà phân tích sử dụng khai thác dữ liệu truyền thống đã thao túng dữ liệu trong nhiều năm. Các nhà phân tích tương tự hiện đang gặp khó khăn để đối phó với số lượng và sự đa dạng của dữ liệu được lưu bởi các doanh nghiệp, tổ chức tư nhân và các cơ quan chính phủ.

Nhập dữ liệu lớn, bước tiến hóa tiếp theo trong khai thác dữ liệu. Dữ liệu lớn được thiết kế để xử lý các cơ sở dữ liệu khổng lồ và vô số loại dữ liệu được tạo ra trong thế giới kỹ thuật số ngày nay. Nếu "đồ sộ" khiến bạn nghĩ về Google và tất cả dữ liệu mà nó thu thập, bạn sẽ ở trong sân bóng. Điều có thể làm bạn ngạc nhiên là Google chỉ đứng thứ tư trong Danh sách mười cơ sở dữ liệu lớn nhất thế giới. Kể từ tháng 1 năm 2014, Trung tâm Dữ liệu Thế giới về Khí hậu đứng đầu danh sách với 220 terabyte dữ liệu và nó có thể bất cứ ai đoán được kích thước của cơ sở dữ liệu được kiểm soát bởi các cơ quan chính phủ nhất định.

Tất nhiên, dữ liệu lớn đã tắt vì nó có thể điều khiển một lượng lớn dữ liệu không giống nhau, và khám phá những điều tuyệt vời - và chi tiết và cá nhân - tuyệt vời. John Sumser, nhà phân tích ngành nhân sự, cung cấp ví dụ sau:

"Hôm nay chúng tôi tạo ra các giả thuyết và thu thập dữ liệu. Ngày mai chúng tôi sẽ thực hiện ngược lại. Việc tích lũy dữ liệu liên tục, đều đặn sẽ cho phép chúng tôi xem xét dữ liệu trước khi chúng tôi đặt câu hỏi. Điều đó có nghĩa là chúng tôi sẽ nhận được câu trả lời cho câu hỏi mà chúng tôi đã làm ' Chúng tôi sẽ biết để hỏi. Chúng tôi sẽ suy nghĩ về một loạt những điều chúng tôi cho là sự thật. "

Tất nhiên, tất cả chúng ta đều đã nghe về một số cách đáng sợ mà dữ liệu này đã được sử dụng, chẳng hạn như khả năng Mục tiêu để phân biệt một phụ nữ trẻ mang thai trước khi gia đình cô ấy phát hiện ra. Nhưng dữ liệu lớn cũng đang được sử dụng cho các nguyên nhân ít độc ác hơn nhiều. Dưới đây là một vài tổ chức đang tận dụng nó nhiều nhất:

Bạn không thể cải thiện kỹ năng lập trình của mình khi không ai quan tâm đến chất lượng phần mềm.

Một lĩnh vực rõ ràng dữ liệu lớn sẽ giúp là xử lý hồ sơ sức khỏe điện tử một cách an toàn và chính xác giữa các tổ chức y tế. Có hồ sơ chính xác sẽ cung cấp cho bệnh nhân dịch vụ tốt hơn và giảm lỗi. Lĩnh vực chăm sóc sức khỏe, vì những lý do rõ ràng, đang điều chỉnh dữ liệu lớn với tốc độ chậm hơn để tuân thủ các quy định của chính phủ liên quan đến bảo mật của bệnh nhân.

Như đã đề cập trước đó, dữ liệu lớn được biết đến với việc cung cấp câu trả lời cho các câu hỏi không được nêu. Trong lĩnh vực chăm sóc sức khỏe, điều này có thể có nghĩa là tìm ra một loại thuốc hoặc phương pháp điều trị mới mà không được tìm thấy theo cách khác. Theo McKinsey & Company, dữ liệu lớn có thể biến những điều sau thành hiện thực trong tương lai không xa:

Mô hình dự đoán các quá trình sinh học và thuốc trở nên tinh vi và phổ biến hơn.
Bệnh nhân được xác định để ghi danh vào các thử nghiệm lâm sàng dựa trên nhiều nguồn thông tin hơn, chẳng hạn như phương tiện truyền thông xã hội.
Các thử nghiệm được theo dõi trong thời gian thực để nhanh chóng xác định các vấn đề an toàn hoặc vận hành.
Thay vì các silo dữ liệu cứng nhắc khó khai thác, dữ liệu được thu thập bằng điện tử và dễ dàng di chuyển giữa các đơn vị khác nhau.

Dữ liệu lớn, cơ hội lớn

Mặc dù dữ liệu lớn đang được tận dụng trong một số lĩnh vực cụ thể, nó mang lại cơ hội cho tất cả các tổ chức trong các lĩnh vực sau:

Chỉ cần về bất kỳ máy tính và thiết bị mạng ghi dữ liệu. Lượng dữ liệu được ghi lại nhanh chóng trở nên khó sử dụng. Dữ liệu lớn có thể dễ dàng quản lý lượng dữ liệu đó, cho phép quản trị viên giám sát hoạt động mạng, chẩn đoán sự cố hoặc, trong ví dụ Rubin đưa cho tôi, tìm kiếm các mẫu lưu lượng truy cập mạng nhất định cho biết hoạt động của phần mềm độc hại.

Nếu bạn đang đọc bài viết này, thì đó là một cách đặt cược khá an toàn mà bạn có thể biết về vấn đề Heartbleed xung quanh OpenSSL. Bên cạnh vấn đề kỹ thuật, có mối lo ngại rằng lỗ hổng đã tồn tại trong vài năm. Rubin đã đề cập rằng dữ liệu lớn cho phép các quản trị viên mạng, làm việc với các nhà phân tích dữ liệu, tạo ra một chương trình sẽ tìm kiếm tất cả các nhật ký mạng để tìm nhịp tim độc hại. Bài đăng EFF này đề cập:

"Bất kỳ nhà khai thác mạng nào có nhật ký gói mở rộng đều có thể kiểm tra nhịp tim độc hại, thường có tải trọng TCP là 18 03 02 00 03 01 hoặc 18 03 01 00 03 01 (hoặc thậm chí là 18 03 03 00 03 01)."

Ví dụ sau đây là đầu ra mẫu từ lệnh hiển thị kiểm toán:

Bộ định tuyến # hiển thị kiểm toán

* 14 tháng 9 18: 37: 31.535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Người dùng:

* 14 tháng 9 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Người dùng:

* 14 tháng 9 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC Người dùng:

* 14 tháng 9 18: 37: 32.107:% AUDIT-1-FILESYSTEM: Hash:

330E7111F2B526F0B850C24ED5774EDE Người dùng:

* Ngày 14 tháng 9 18: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Người dùng:

Nếu bạn theo dấu thời gian, khoảng thời gian cho tất cả các mục đó là ít hơn một giây. Tôi thậm chí sẽ không muốn ngoại suy điều đó trong một ngày, chứ đừng nói là hai năm!

Một cái gì đó để xem

Nếu bạn kiểm tra các quảng cáo việc làm, có một nhu cầu rất lớn đối với các chuyên gia dữ liệu lớn. Tôi hỏi Rubin về điều này. Ông đồng ý, đề cập đến các sinh viên của mình rất vui mừng về triển vọng của họ. Sau đó tôi nhận ra rằng các nền tảng dữ liệu lớn, đặc biệt là các nền tảng được coi là nguồn mở, đang tuân theo dòng thời gian rất giống với cách Linux trở thành xu hướng.

Các trường đại học chấp nhận các phiên bản nguồn mở của các nền tảng dữ liệu lớn, đặc biệt là Hadoop, vì chúng miễn phí và sinh viên có thể thao tác mã nguồn. Vì vậy, những sinh viên tốt nghiệp lấp đầy tất cả các cơ hội việc làm đó sẽ thích làm việc với các nền tảng nguồn mở, vì đó là những gì họ biết rõ nhất. Nó sẽ rất thú vị để xem.