Chìa khóa để phân tích dữ liệu lớn chất lượng: Hiểu khác nhau - Bảng điểm tập 4 của TechWise

Tác Giả: Roger Morrison
Ngày Sáng TạO: 17 Tháng Chín 2021
CậP NhậT Ngày Tháng: 21 Tháng Sáu 2024
Anonim
Chìa khóa để phân tích dữ liệu lớn chất lượng: Hiểu khác nhau - Bảng điểm tập 4 của TechWise - Công Nghệ
Chìa khóa để phân tích dữ liệu lớn chất lượng: Hiểu khác nhau - Bảng điểm tập 4 của TechWise - Công Nghệ

NộI Dung


Nguồn: Jakub Jirsak / Dreamstime.com

Lấy đi:

Người dẫn chương trình Eric Kavanagh thảo luận về phân tích dữ liệu lớn với các chuyên gia trong ngành.

Eric: Thưa quý vị, đó là cuối năm 2014 - ít nhất, gần như vậy. Nó là webcast cuối cùng của chúng tôi trong năm, folks! Chào mừng đến với TechWise! Vâng, thực sự! Tên tôi là Eric Kavanagh. Tôi sẽ là người điều hành của bạn cho một webcast tuyệt vời, folks. Tôi thực sự, thực sự rất phấn khích. Chúng tôi có hai nhà phân tích tuyệt vời trực tuyến và hai công ty tuyệt vời - những nhà đổi mới thực sự trong toàn bộ hệ sinh thái dữ liệu lớn này. Và chúng tôi sẽ nói về chìa khóa để phân tích dữ liệu lớn là sự khác biệt. Vì vậy, hãy để Lốc đi trước và lặn ngay vào, mọi người.



Chúng tôi có một vài người thuyết trình. Như bạn có thể thấy, có bạn của bạn thật sự đứng đầu. Mike Ferguson đang kêu gọi mọi cách từ Vương quốc Anh, nơi anh phải nhận được những đặc quyền đặc biệt để ở trong tòa nhà văn phòng của mình muộn thế này. Điều đó làm thế nào muộn cho anh ấy. Chúng tôi đã có được Tiến sĩ Robin Bloor, Nhà phân tích trưởng rất riêng của chúng tôi tại Tập đoàn Bloor. Và chúng tôi sẽ có George Corugedo, Giám đốc điều hành và đồng sáng lập RedPoint Global, và Keith Renison, Kiến trúc sư giải pháp cao cấp của Viện SAS. Đây là những công ty tuyệt vời, folks. Đây là những công ty đang thực sự đổi mới. Và chúng tôi sẽ đào sâu vào một số thứ hay ho của những gì mà hiện đang diễn ra ở đó trong toàn bộ thế giới dữ liệu lớn. Và hãy để đối mặt với nó, dữ liệu nhỏ đã biến mất. Và với điều đó, hãy để tôi đưa ra bản tóm tắt điều hành của tôi ở đây.



Vì vậy, có một biểu hiện cũ của Pháp: "Càng nhiều thứ thay đổi, chúng càng giữ nguyên." Và hãy để đối mặt với một số sự thật ở đây - dữ liệu lớn sẽ không giải quyết được các vấn đề của dữ liệu nhỏ. Dữ liệu nhỏ của công ty vẫn còn đó. Nó vẫn còn ở khắp mọi nơi. Nó là nhiên liệu của hoạt động cho nền kinh tế thông tin ngày nay. Và dữ liệu lớn cung cấp một lời khen cho những dữ liệu được gọi là dữ liệu công ty nhỏ này, nhưng nó không thay thế dữ liệu nhỏ. Nó vẫn sẽ ở xung quanh. Tôi thích rất nhiều thứ về dữ liệu lớn, đặc biệt là những thứ như dữ liệu do máy tạo ra.


Và hôm nay, chúng tôi có thể nói một chút về dữ liệu truyền thông xã hội, đây cũng là thứ rất mạnh mẽ. Và nếu bạn nghĩ về, ví dụ, xã hội đã thay đổi doanh nghiệp như thế nào, thì hãy nghĩ về ba trang web nhanh ở đây: LinkedIn và. Hãy nghĩ về thực tế rằng năm năm trước, không ai làm những thứ đó. là một sự tung hứng tuyệt đối những ngày này. , tất nhiên, là rất lớn. Nó gargantuan. Và sau đó, LinkedIn là tiêu chuẩn thực tế cho mạng và truyền thông doanh nghiệp. Các trang web này rất hài hước và để có thể tận dụng dữ liệu mà Lít trong đó, nó sẽ hồi sinh một số chức năng thay đổi trò chơi. Nó thực sự sẽ làm rất nhiều điều tốt cho nhiều tổ chức - ít nhất là những tổ chức tận dụng lợi thế của nó.


Không lỗi, không căng thẳng - Hướng dẫn từng bước của bạn để tạo ra phần mềm thay đổi cuộc sống mà không phá hủy cuộc sống của bạn

Bạn không thể cải thiện kỹ năng lập trình của mình khi không ai quan tâm đến chất lượng phần mềm.

Vì vậy, quản trị - quản trị vẫn còn vấn đề. Một lần nữa, dữ liệu lớn không làm vô hiệu hóa nhu cầu quản trị. Thẳng thắn mà nói, có một nhu cầu hoàn toàn mới để tập trung vào cách quản lý thế giới dữ liệu lớn. Làm thế nào để bạn chắc chắn rằng bạn có các thủ tục và chính sách của bạn tại chỗ; rằng đúng người đang có quyền truy cập vào đúng dữ liệu; bạn có liên hệ với bạn, bạn có liên quan đến dòng dõi ở đây không? Bạn thực sự biết dữ liệu đến từ đâu, những gì đã xảy ra với nó. Và đó là tất cả thay đổi.


Tôi thực sự ấn tượng bởi một số điều mà tôi đã thấy ở đó trong thế giới hoàn toàn mới này thúc đẩy hệ sinh thái Hadoop, tất nhiên, nhiều hơn rất nhiều so với việc lưu trữ về chức năng. Hadoop là một công cụ tính toán là tốt. Và công ty phải tìm ra cách khai thác sức mạnh tính toán đó, khả năng xử lý song song đó. Họ sẽ làm những điều thực sự, thực sự tuyệt vời. Chúng tôi sẽ học về điều đó ngày hôm nay.


Một điều khác cần đề cập, đây là điều mà Tiến sĩ Bloor đã nói đến trong thời gian gần đây, đó là làn sóng đổi mới chưa kết thúc. Vì vậy, tất nhiên, chúng tôi đã thấy rất nhiều sự chú ý xung quanh Hadoop. Chúng tôi đã thấy các công ty như Cloudera và Hortonworks, bạn biết đấy, thực sự tạo ra một số sóng. Và họ đã phát triển mối quan hệ đối tác với, tốt, các công ty đang kêu gọi ngày hôm nay, khá thẳng thắn. Và họ đang phát triển quan hệ đối tác với nhiều người. Nhưng làn sóng đổi mới vẫn chưa kết thúc. Có nhiều dự án quay ra từ Quỹ Apache đang thay đổi không chỉ là điểm cuối, nếu bạn sẽ - các ứng dụng mà mọi người sử dụng - mà là chính cơ sở hạ tầng.


Vì vậy, toàn bộ sự phát triển này của YARN - một nhà đàm phán tài nguyên khác - thực sự giống như một hệ điều hành cho dữ liệu lớn. Và nó là một vấn đề lớn, lớn. Vì vậy, chúng tôi sẽ học cách thay đổi mọi thứ. Vì vậy, chỉ cần một vài lời khuyên rõ ràng ở đây, hãy cảnh giác với những hợp đồng dài hạn sắp tới, bạn biết đấy, hợp đồng năm, mười năm sẽ là làn sóng, con đường dường như với tôi. Bạn sẽ muốn tránh bị khóa bằng mọi giá. Chúng tôi sẽ tìm hiểu về tất cả những điều đó ngày hôm nay.


Vì vậy, nhà phân tích đầu tiên của chúng tôi phát biểu hôm nay - diễn giả đầu tiên của chúng tôi về toàn bộ chương trình là Mike Ferguson, gọi từ Vương quốc Anh. Với điều đó, tôi sẽ đưa cho bạn chìa khóa, Mike và để bạn mang nó đi. Mike Ferguson, sàn là của bạn.


Mike, bạn ở đó? Bạn có thể bị câm. Tôi không nghe thấy anh ấy. Chúng tôi có thể phải gọi lại cho anh ta. Và chúng tôi sẽ nhảy ngay lên các slide của Robin Bloor. Robin, tôi sẽ tăng thứ hạng cho Mike Ferguson tội nghiệp ở đây. Tôi sẽ đi trong một giây.


Có phải anh không, Mike? Bạn có nghe thấy chúng tôi không? Không Tôi nghĩ rằng chúng tôi sẽ phải đi trước và đi với Robin trước. Vì vậy, chờ một chút, folks. Tôi sẽ kéo một số liên kết đến các slide ở đây trong vài phút nữa. Vì vậy, với điều đó, hãy để tôi đưa chìa khóa cho Robin Bloor. Robin, bạn có thể đi trước thay vì Mike, và tôi sẽ gọi Mike sau một giây.


Robin: Được rồi.


Eric: Giữ lấy, Rob. Hãy để tôi đi trước và đưa slide của bạn lên đây, Rob. Nó sẽ mất một giây.


Robin: Được rồi.


Eric: Vâng. Mặc dù vậy, bạn có thể nói về những gì chúng tôi đang xử lý, mặc dù, ở đây về mặt quản trị. Tôi biết bạn sẽ nói về quản trị. Điều đó thường được nghĩ đến trong các dữ liệu nhỏ của công ty. Vì vậy, bây giờ, tôi đã trượt lên, Robin. Don lồng di chuyển bất cứ điều gì. Và ở đây bạn đi. Sàn là của bạn. Mang nó đi.


Robin: Được rồi. Vâng. Ý tôi là, tốt, chúng tôi sắp xếp trước đó, Mike sẽ nói về khía cạnh phân tích, và tôi sẽ nói về phía quản trị. Ở một mức độ nhất định, quản trị tuân theo các phân tích theo nghĩa rằng đó là lý do mà bạn đang thực hiện các công cụ dữ liệu lớn và lý do bạn lắp ráp tất cả các phần mềm để thực hiện phân tích là, đó là nơi có giá trị.


Có một vấn đề. Và vấn đề là, bạn biết đấy, dữ liệu phải bị xáo trộn. Các dữ liệu phải được sắp xếp theo thứ tự. Dữ liệu phải được kết hợp và quản lý theo cách cho phép các phân tích diễn ra với sự tự tin hoàn toàn - tôi đoán, là từ. Vì vậy, tôi nghĩ rằng tôi đã nói về khía cạnh quản trị của phương trình. Tôi đoán, điều cần nói, thực sự, là, bạn biết đấy, quản trị đã là một vấn đề. Quản trị đã là một vấn đề, và nó bắt đầu trở thành một vấn đề trong toàn bộ trò chơi kho dữ liệu.


Điều mà thực sự xảy ra là nó đã biến thành một vấn đề lớn hơn nhiều. Và lý do nó đã biến thành một vấn đề lớn hơn cũng như nhiều dữ liệu hơn, nhưng ý tôi là, đây thực sự là những lý do. Số lượng nguồn dữ liệu đã được mở rộng đáng kể. Trước đây, các nguồn dữ liệu chúng ta có và được xác định bởi bất kỳ thứ gì được cung cấp cho kho dữ liệu. Kho dữ liệu thường được cung cấp bởi các hệ thống RTP. Nó có thể có một ít dữ liệu bên ngoài, không nhiều.


Bây giờ, chúng tôi đã đi đến một thế giới nơi mà bạn biết rằng, một thị trường dữ liệu đang hình thành ngay bây giờ, và do đó, sẽ có giao dịch dữ liệu. Bạn đã có rất nhiều và rất nhiều nguồn dữ liệu truyền phát khác nhau mà bạn thực sự có thể mang vào tổ chức. Chúng tôi đã có dữ liệu truyền thông xã hội đã lấy chúng, lấy ra từ tài khoản của chính nó, có thể nói như vậy. Ý tôi là, rất nhiều, giá trị trong các trang truyền thông xã hội thực sự là thông tin họ tổng hợp và do đó có thể cung cấp cho mọi người.


Chúng tôi cũng đã phát hiện ra, bạn biết đấy, nó giống như họ đã tồn tại. Chúng tôi đã có những tệp nhật ký đó, bạn biết đấy, trong sự ra đời của Splunk. Và ngay sau đó, rõ ràng là có giá trị trong một tệp nhật ký. Vì vậy, có dữ liệu trong tổ chức - mà chúng ta có thể gọi các nguồn dữ liệu mới cũng như các nguồn bên ngoài. Vì vậy, đó là một điều. Và điều đó thực sự có nghĩa là, bạn biết, bất kỳ quy tắc quản lý dữ liệu nào chúng ta có trước đây, chúng sẽ phải, bằng cách này hay cách khác được mở rộng, và sẽ tiếp tục cần được mở rộng để thực sự chi phối dữ liệu. Nhưng chúng tôi hiện đang bắt đầu lắp ráp theo cách này hay cách khác.


Và đi xuống danh sách này, chúng tôi đã phát trực tuyến và tốc độ đến của dữ liệu. Một trong những, tôi nghĩ, lý do cho sự phổ biến của Hadoop là nó có thể được sử dụng khá nhiều để bắt được nhiều dữ liệu. Nó cũng có thể ăn tốc độ dữ liệu, nếu bạn thực sự cần sử dụng nó ngay lập tức, thì đó là một môi trường song song lớn, song song tốt đẹp. Nhưng bạn cũng có một thực tế là có một số lượng lớn các phân tích phát trực tuyến đang diễn ra. Nó từng chỉ là lĩnh vực ngân hàng quan tâm đến các ứng dụng phát trực tuyến, nhưng bây giờ nó đã biến thành một loại toàn cầu. Và mọi người đang xem xét các ứng dụng phát trực tuyến bằng cách này hay cách khác, một phương tiện tiềm năng để lấy giá trị từ dữ liệu và thực hiện phân tích cho tổ chức.


Chúng tôi đã có dữ liệu phi cấu trúc. Thống kê, thường là một phần của 10% dữ liệu trên toàn thế giới trong các cơ sở dữ liệu quan hệ. Bây giờ, một trong những lý do chính cho điều đó chủ yếu là nó thực sự không có cấu trúc, và đó là - rất nhiều trong số đó đã có trên Web, nhưng khá nhiều thông tin về các trang web khác nhau. Dữ liệu đó đã được chứng minh là cũng có thể phân tích, cũng có thể sử dụng được. Và với sự ra đời của công nghệ Symantec đang dần len lỏi vào tình hình, ngày càng trở nên như vậy.Vì vậy, có một nhu cầu thực sự thu thập và quản lý dữ liệu phi cấu trúc, và điều đó có nghĩa là nó đã lớn hơn nhiều so với trước đây. Chúng tôi đã có một dữ liệu xã hội mà tôi đã đề cập, nhưng quan điểm về điều đó, điểm chính về điều đó, có lẽ là nó cần được làm sạch.


Chúng tôi đã có dữ liệu Internet of Things. Đó là một loại tình huống khác. Ở đó, có khả năng rất nhiều trong số đó, nhưng rất nhiều trong số đó sẽ phải được phân phối ở đâu đó gần nơi nó chạy. Nhưng bạn cũng sẽ muốn, bằng cách này hay cách khác, hãy kéo nó vào để thực hiện phân tích trong tổ chức về dữ liệu. Vì vậy, điều đó đã thêm một yếu tố nữa. Và dữ liệu đó sẽ được cấu trúc theo cách khác, bởi vì nó có thể sẽ - nó có thể sẽ được định dạng bằng JSON hoặc bằng XML, để nó tự khai báo. Và không chỉ, bằng cách này hay cách khác, chúng ta thực sự đang kéo dữ liệu vào và có thể thực hiện loại lược đồ khi đọc trên phần dữ liệu cụ thể đó.


Chúng tôi đã có vấn đề về xuất xứ và đây là vấn đề phân tích. Các kết quả trong bất kỳ phân tích nào mà bạn thực hiện dữ liệu thực sự không thể - nếu bạn muốn - được chấp thuận, được coi là hợp lệ, trừ khi bạn biết xuất xứ dữ liệu. Ý tôi là, đó chỉ là sự chuyên nghiệp về mặt hoạt động của các nhà khoa học dữ liệu. Nhưng bạn có biết, để có nguồn gốc dữ liệu, điều đó có nghĩa là chúng ta thực sự phải quản lý dữ liệu và ghi chú cho dòng dõi của nó.


Chúng tôi có vấn đề về sức mạnh máy tính và tương đồng và tất cả những gì làm là làm cho mọi thứ diễn ra nhanh hơn. Vấn đề là rõ ràng, một số quy trình nhất định mà chúng tôi đã thực hiện có thể quá chậm so với mọi thứ khác. Vì vậy, có thể có sự không phù hợp về mặt tốc độ.


Chúng tôi đã có sự ra đời của máy học. Thực tế, máy học có tác dụng biến phân tích thành một trò chơi khác so với trước đây. Nhưng bạn chỉ có thể thực sự sử dụng nó nếu bạn có sức mạnh.


Chúng tôi đã nhận được thực tế của khối lượng công việc phân tích mới. Chúng tôi đã có một thế giới song song và một số thuật toán phân tích cần được thực hiện song song để đạt hiệu quả tối đa. Và do đó, vấn đề thực sự là điều chỉnh cách bạn thực sự, bằng cách này hay cách khác, đẩy dữ liệu xung quanh, tạo ra dữ liệu nếu chúng có sẵn. Và nơi bạn thực sự thực hiện các khối lượng công việc phân tích, bởi vì bạn có thể đang làm điều đó trong cơ sở dữ liệu. Vì vậy, bạn có thể làm điều đó trong các ứng dụng phân tích.


Vì vậy, có một loạt các thách thức quản trị. Những gì chúng tôi đã làm trong năm nay - nghiên cứu chúng tôi đã làm trong năm nay thực sự xoay quanh kiến ​​trúc dữ liệu lớn. Và khi chúng tôi thực sự cố gắng khái quát hóa nó, kết luận mà chúng tôi đã đưa ra - sơ đồ mà chúng tôi đã đưa ra trông rất giống như thế này.


Tôi sẽ không đi sâu vào vấn đề này, đặc biệt là khi Mike sẽ thực hiện một số tiền khá lớn về kiến ​​trúc dữ liệu để phân tích. Nhưng điều tôi thực sự thích mọi người chỉ tập trung vào là khu vực dưới cùng này, nơi chúng ta, bằng cách này hay cách khác, lắp ráp dữ liệu. Chúng tôi có một cái gì đó mà tôi muốn đề cập đến là nhà máy lọc dữ liệu hoặc trung tâm xử lý dữ liệu. Và đó là nơi mà quản trị diễn ra. Vì vậy, bạn biết đấy, nếu chúng ta tập trung vào, có vẻ như thế. Bạn biết đấy, nó được nuôi dưỡng bởi dữ liệu từ các nguồn bên trong và bên ngoài. Về mặt lý thuyết, trung tâm nên lấy tất cả dữ liệu mà Lũ được tạo ra. Nó nên được truyền phát và quản lý khi nó được truyền phát nếu bạn cần phân tích và truyền dữ liệu, sau đó được chuyển đến trung tâm. Hoặc nếu không, tất cả đi vào trung tâm. Và có một số điều mà Vượt lên - đang diễn ra trong trung tâm. Và bạn có thể có một số lượng phân tích và SQL nhất định đang diễn ra trong trung tâm. Nhưng bạn cũng có nhu cầu ảo hóa dữ liệu trong mỗi ô để đẩy dữ liệu sang các khu vực khác. Nhưng trước khi bất kỳ điều đó xảy ra, bạn thực sự cần, bằng cách này hay cách khác, để thực hiện việc tinh chỉnh chuẩn bị dữ liệu. Bạn có thể gọi nó là chuẩn bị dữ liệu. Nó lớn hơn thế nhiều. Đây là những điều mà tôi nghĩ rằng nó bao gồm.


Theo một nghĩa nào đó, chúng tôi có quản lý hệ thống và quản lý dịch vụ, đây là phần chính của lớp dữ liệu, sau đó chúng tôi thực sự phải áp dụng tất cả các hệ thống quản lý nỗ lực quản lý hệ thống vận hành mà theo truyền thống chúng tôi đã thực hiện cho hầu hết các hệ thống vận hành. Nhưng bằng cách này hay cách khác, chúng ta cũng cần giám sát những thứ khác đang diễn ra để đảm bảo các mức dịch vụ khác nhau này được đáp ứng, bởi vì chắc chắn sẽ được xác định các mức dịch vụ hoặc bất kỳ loại phân tích nào khi được xử lý hoặc dữ liệu BI là bị hành động.


Chúng tôi cần giám sát và quản lý hiệu suất. Nếu có bất cứ điều gì khác, chúng tôi cần điều đó để biết thêm những tài nguyên máy tính nào chúng tôi có thể cần phân bổ tại nhiều thời điểm khác nhau. Nhưng ngoài ra, thực tế, rất nhiều khối lượng công việc ở đây trong thực tế, khá phức tạp và cạnh tranh với nhau về tài nguyên. Có một cái gì đó khá tinh vi cần phải được thực hiện trong khu vực đó.


Bây giờ chúng tôi đã có vòng đời dữ liệu theo cách mà chúng tôi chưa từng có trước đây. Thỏa thuận ở đây thực sự là trên hết và hơn bất cứ điều gì khác, rằng chúng tôi đã không thu thập dữ liệu và vứt nó đi trước đó. Chúng tôi có xu hướng thu thập dữ liệu mà chúng tôi cần và có thể giữ nó, và sau đó chúng tôi lưu trữ nó. Nhưng rất nhiều điều chúng ta sẽ làm từ đây là khám phá dữ liệu. Và nếu bạn không muốn dữ liệu, hãy để chôn nó đi. Vì vậy, vòng đời dữ liệu là điều khác nhau tùy thuộc vào tình huống, nhưng cũng sẽ là sự tổng hợp dữ liệu khủng khiếp hơn rất nhiều. Do đó, bạn biết đấy, việc biết một tập hợp đến từ đâu là những gì mà nguồn tổng hợp là gì, v.v. Đó là tất cả những gì cần thiết.


Dòng dữ liệu tự nhiên cho vay. Nếu không có nó, bạn phải biết các vấn đề, vì vậy dữ liệu Vượt qua Chúng tôi phải biết dữ liệu là hợp lệ, nhưng với độ tin cậy thực sự của nó.


Chúng tôi cũng có bản đồ dữ liệu, bởi vì rất nhiều dữ liệu thực sự sẽ xảy ra, bằng cách này hay cách khác. Và đây là, nếu bạn thích, điều này liên quan đến một mức độ nhất định tại MDM. Bây giờ nó phức tạp hơn nhiều, bởi vì khi bạn có rất nhiều dữ liệu được xác định bởi JSON hoặc dựa trên lược đồ XML của chúng tôi khi đọc, thì bạn sẽ cần, theo cách này hay cách khác, rất tích cực hoạt động lập bản đồ dữ liệu đang diễn ra.


Có một tình huống quản lý siêu dữ liệu nhiều hơn MDM, bởi vì bằng cách này hay cách khác, cần phải xây dựng những gì tôi muốn nghĩ bây giờ là một kho siêu dữ liệu của mọi thứ mà bạn quan tâm. Có siêu dữ liệu khám phá, vì một số dữ liệu sẽ không nhất thiết phải khai báo siêu dữ liệu của nó và chúng tôi muốn sử dụng nó ngay lập tức. Và sau đó, có dữ liệu làm sạch dữ liệu, đó là một điều rất lớn như cách mà hàng loạt thứ mà người ta có thể làm ở đó. Và có bảo mật dữ liệu trên mạng. Tất cả các dữ liệu này phải được bảo mật ở mức chấp nhận được và điều đó thậm chí có thể có nghĩa trong một số trường hợp nhất định - ví dụ, mã hóa rất nhiều giá trị.


Vì vậy, tất cả khối lượng công việc này thực sự là đế chế quản trị. Tất cả điều này, bằng cách này hay cách khác, phải diễn ra cùng lúc hoặc trước đó, tất cả các hoạt động phân tích của chúng tôi. Đây là một số lượng lớn các ứng dụng phối hợp. Nó có một hệ thống theo đúng nghĩa của nó. Và sau đó, những người không làm điều đó tại nhiều thời điểm sẽ bị thiếu nó khi họ tiến lên, bởi vì rất nhiều điều trong số này không thực sự là tùy chọn. Bạn kết thúc với việc chỉ tăng entropy nếu bạn không làm chúng.


Vì vậy, về mặt phân tích dữ liệu và quản trị, điều mà tôi đã nói là, thực sự, một tay rửa tay kia. Không có quản trị, phân tích và BI đã giành được cá bơn trong thời gian. Và không có phân tích và BI, dù sao cũng sẽ rất cần quản lý dữ liệu. Vì vậy, hai điều thực sự đi tay trong tay. Như họ nói ở Trung Đông, "Một tay rửa tay kia". Và đó thực sự là tất cả những gì tôi đã nói. Tôi hy vọng - hy vọng, giờ đây chúng tôi đã đưa Mike trở lại.


Eric: Chúng tôi làm. Mike, tôi đoán bạn là người ở đó. Tôi sẽ đẩy slide của bạn lên.


Mike: Tôi đây. Được rồi, bạn có nghe thấy tôi không?


Eric: Vâng, tôi có thể nghe thấy bạn. Bạn có vẻ tuyệt vời. Vì vậy, hãy để tôi giới thiệu về Có bạn đi. Và bạn bây giờ là người trình bày. Mang nó đi.


Mike: Được rồi, cảm ơn bạn! Chào buổi sáng, chào buổi chiều, chào buổi tối tất cả các bạn ngoài kia. Tha thứ cho tiếng nấc lúc đầu. Vì một số lý do, tôi đã tự tắt tiếng và có thể nhìn thấy tất cả mọi người nhưng họ không thể nghe thấy tôi.


Ổn thỏa. Vì vậy, những gì tôi muốn làm một cách nhanh chóng là nói về hệ sinh thái phân tích dữ liệu lớn. Nếu bạn muốn hỏi tôi câu hỏi, tôi sẽ nói, trong phiên này hoặc sau đó, bạn có thể giữ tôi về chi tiết liên lạc của tôi ở đây. Như tôi đã nói, vào giữa đêm ở đây tại Vương quốc Anh.


Vâng, hãy để tôi có được những gì tôi muốn nói về. Rõ ràng, trong vài năm qua, chúng ta đã thấy sự xuất hiện của tất cả các loại dữ liệu mới được tìm thấy mà các doanh nghiệp hiện muốn phân tích - mọi thứ từ dữ liệu nhấp chuột để hiểu hành vi trực tuyến, dữ liệu truyền thông xã hội mà Eric đang nói về bắt đầu chương trình tại đây. Tôi nghĩ Robin đã đề cập đến JSON, BSON, XML - vì vậy, dữ liệu bán cấu trúc mà tự mô tả. Tất nhiên, chúng tôi cũng có cả đống thứ khác - mọi thứ từ dữ liệu phi cấu trúc, nhật ký cơ sở hạ tầng CNTT, dữ liệu cảm biến. Tất cả các nguồn dữ liệu tương đối mới này mà các doanh nghiệp hiện đã quan tâm vì nó chứa thông tin chi tiết có giá trị có khả năng làm sâu sắc thêm những gì chúng ta biết.


Vì vậy, điều đó về cơ bản có nghĩa là cảnh quan phân tích đã vượt ra ngoài kho dữ liệu truyền thống. Chúng tôi vẫn cấu trúc dữ liệu vào thế giới của sự kết hợp của dữ liệu có cấu trúc và đa cấu trúc, trong đó nhiều dữ liệu có cấu trúc có thể đến từ bên trong hoặc bên ngoài doanh nghiệp trong nhiều trường hợp. Và do kết quả của các loại dữ liệu mới này và nhu cầu mới để phân tích, chúng ta đã thấy sự xuất hiện của khối lượng công việc phân tích mới - mọi thứ từ phân tích dữ liệu chuyển động, phần nào biến kiến ​​trúc kho dữ liệu truyền thống trên đầu của nó, phần nào, nơi chúng ta , trong các vòng tròn truyền thống, tích hợp dữ liệu, làm sạch nó, biến đổi nó, lưu trữ và phân tích nó. Nhưng phân tích dữ liệu trong chuyển động, chúng tôi đã thu thập dữ liệu, tích hợp dữ liệu, chuẩn bị dữ liệu thông qua phân tích dữ liệu và sau đó lưu trữ dữ liệu. Vì vậy, có phân tích về dữ liệu diễn ra trên dữ liệu trước khi nó được lưu trữ ở bất cứ đâu.


Chúng tôi phân tích phức tạp dữ liệu có cấu trúc, có lẽ để phát triển mô hình, phát triển mô hình thống kê và dự đoán, rằng không có gì mới đối với một số người trong không gian lưu trữ dữ liệu truyền thống. Chúng tôi đã phân tích thăm dò dữ liệu trên mô hình. Đó là số lượng dữ liệu có cấu trúc ở đó. Chúng tôi đã có khối lượng công việc mới dưới dạng phân tích biểu đồ mà đối với khách hàng của tôi trong các dịch vụ tài chính bao gồm những thứ như gian lận. Nó cũng bao gồm an ninh mạng. Nó bao gồm các mạng xã hội, tất nhiên, hiểu những người có ảnh hưởng và những thứ như thế ở đó. Tôi thậm chí còn thành thạo nó trong quản lý, có một số năm phân tích biểu đồ.


Chúng tôi đã tối ưu hóa kho dữ liệu hoặc giảm tải xử lý ETL, đây là một trường hợp sử dụng CNTT, CIO có thể tài trợ cho việc đó. Và thậm chí lưu trữ dữ liệu và kho dữ liệu để giữ cho nó trực tuyến trong những thứ như Hadoop. Vì vậy, tất cả các khối lượng công việc phân tích mới này đã thêm các nền tảng mới, nền tảng lưu trữ mới, vào bối cảnh phân tích. Vì vậy, thay vì chỉ có kho dữ liệu truyền thống, dữ liệu, những gì chúng tôi hiện có là Hadoop. Chúng tôi đã có cơ sở dữ liệu NoQuery như cơ sở dữ liệu đồ thị thường được sử dụng cho khối lượng công việc phân tích. Tất nhiên, bây giờ chúng ta có thể thực hiện phân tích biểu đồ trên chính Hadoop cũng như trong các DBMS đồ thị NoQuery. Chúng tôi đã có các phân tích phát trực tuyến mà Robin đã đề cập. Và chúng tôi đã có - nếu bạn thích - xây dựng các mô hình, có lẽ trên các thiết bị kho dữ liệu phân tích là tốt. Nhưng tất cả những điều đó đã làm phức tạp bối cảnh phân tích, nhiều nền tảng hiện đang cần thiết. Và tôi đoán thách thức từ, đối với bất kỳ doanh nghiệp nào có văn phòng chính hoặc văn phòng hỗ trợ, hoặc tài chính, mua sắm, nhân sự và một số loại hoạt động, là tìm ra dự án phân tích nào có liên quan đến bối cảnh lưu trữ dữ liệu truyền thống. Và một khi bạn biết các dự án phân tích được liên kết với các nền tảng dữ liệu lớn mới này và chạy ở đâu, bạn sẽ biết, khối lượng công việc phân tích đó, nhưng không để mất tầm nhìn của doanh nghiệp theo nghĩa là - bây giờ bạn sẽ thấy đó là sự kết hợp của lớn các dự án phân tích dữ liệu và các dự án lưu trữ dữ liệu lớn truyền thống cùng nhau là cần thiết để tăng cường bên trong xung quanh khách hàng hoặc xung quanh các hoạt động, xung quanh rủi ro, hoặc tài chính hoặc tính bền vững. Và do đó, chúng tôi muốn tất cả những điều này được liên kết với các ưu tiên kinh doanh chiến lược của chúng tôi, mà chúng tôi luôn theo dõi, bạn biết đấy, đẩy kim tiêm cần được đẩy vào, bạn biết đấy, để cải thiện hiệu quả kinh doanh, để giảm chi phí, để giảm thiểu rủi ro, v.v., bạn biết đấy, đối với toàn bộ công ty chúng tôi. Vì vậy, nó không phải là một trong những thay thế khác ở đây với dữ liệu lớn và truyền thống. Cả hai đều được sử dụng cùng nhau. Và điều đó làm thay đổi đáng kể kiến ​​trúc, bạn biết đấy.


Vì vậy, những gì tôi có ở đây là một kiến ​​trúc tương đối mới mà tôi sẽ sử dụng với các khách hàng của mình. Và như vậy, như bạn có thể thấy bây giờ dọc theo đáy, một loạt các nguồn dữ liệu, không chỉ được cấu trúc nữa. Một số trong số đó đang truyền dữ liệu trực tiếp như cảm biến, như dữ liệu thị trường, loại điều đó. Nó thậm chí có thể là dữ liệu nhấp chuột trực tiếp. Nó có thể là dữ liệu truyền phát video trực tiếp. Vì vậy, nó đã không được cấu trúc. Vì vậy, chúng ta có thể thực hiện xử lý luồng trên dữ liệu đó để thực hiện các hành động tự động trong thời gian thực và mọi dữ liệu quan tâm có thể được lọc và chuyển vào một công cụ quản lý thông tin doanh nghiệp có thể được sử dụng để lưu trữ dữ liệu phân tích. Trừ khi bạn có thể thấy trong hỗn hợp ở đây, bây giờ chúng tôi đã có kho dữ liệu truyền thống, cơ sở dữ liệu Hadoop và NoQuery. Chúng tôi cũng đã quản lý dữ liệu tổng thể trong hỗn hợp. Và điều đó gây áp lực lớn hơn cho toàn bộ bộ công cụ quản lý dữ liệu, không chỉ để đưa vào các kho lưu trữ dữ liệu này mà còn di chuyển dữ liệu giữa chúng.


Trên hết, chúng ta phải đơn giản hóa các công cụ truy cập. Chúng tôi không thể chỉ quay sang người dùng và nói, "lấy tất cả các kho dữ liệu này, giữ các API này - vấn đề của bạn." Những gì bạn đã làm là đơn giản hóa việc truy cập. Và do đó, trong các đường chấm chấm ở đó, bạn sẽ thấy ảo hóa và tối ưu hóa dữ liệu là loại che giấu sự phức tạp của nhiều bộ lưu trữ dữ liệu, hãy thử và giúp người dùng cuối dễ dàng truy cập hơn. Và tất nhiên, có một loạt các công cụ ở trên cùng, bạn biết đấy - mọi thứ từ các công cụ BI truyền thống đã bắt đầu ở đầu kho dữ liệu, dần dần di chuyển về phía bên trái của biểu đồ của bạn để kết nối với Hadoops và sau đó là cơ sở dữ liệu NoQuery của thế giới.


Chúng tôi đã tìm kiếm một hợp đồng thuê mới cho cuộc sống, đặc biệt là xung quanh cơ thể, dữ liệu không có cấu trúc mà dữ liệu thường được lưu trữ trong Hadoop. Chúng tôi đã có các ứng dụng phân tích tùy chỉnh được thực hiện trên nền tảng Hadoop với MapReduce, ví dụ như khung Spark. Chúng tôi đã có các công cụ phân tích biểu đồ để tập trung vào khối lượng công việc rất cụ thể ở đó. Vì vậy, một loạt các công cụ và luồng dữ liệu cũng phức tạp hơn. Nó không còn chỉ là con đường một chiều trong kho dữ liệu. Nó bây giờ làm chủ dữ liệu.


Chúng tôi đã có các nguồn dữ liệu mới, hoặc bị bắt trong NoQuery, bạn biết đấy, các kho lưu trữ dữ liệu như MongoDB, như Cassandra, như HBase. Chúng tôi đã có dữ liệu được đưa trực tiếp vào Hadoop để phân tích và chuẩn bị dữ liệu tại đó. Chúng tôi đã có những hiểu biết mới từ Hadoop và kho dữ liệu. Chúng tôi đã lưu trữ kho lưu trữ dữ liệu vào Hadoop. Bây giờ chúng tôi đã có nguồn cấp dữ liệu, bạn biết đấy, tất cả các cơ sở dữ liệu và dữ liệu của NoQuery cũng vậy. Vì vậy, những gì bạn có thể thấy ở đây là, có nhiều hoạt động khác đang diễn ra trong quản lý dữ liệu. Và nó có nghĩa là nó đặt phần mềm quản lý dữ liệu dưới áp lực đáng kể. Nó không còn chỉ là con đường một chiều. Nó phong trào dữ liệu hai chiều. Nó có rất nhiều hoạt động đang diễn ra, và do đó, khả năng mở rộng rất quan trọng trên mặt trận công cụ quản lý dữ liệu cũng như trên nguồn dữ liệu.


Vì vậy, biểu đồ này quay trở lại kiến ​​trúc mà tôi đã đề cập một lúc trước. Nó cho bạn thấy khối lượng công việc phân tích khác nhau chạy trong các phần khác nhau của kiến ​​trúc này. Sắp xếp ở phía dưới bên trái ở đó, bạn có thể phát trực tuyến theo thời gian thực, xử lý luồng đang diễn ra trên dữ liệu đi ra, bạn biết đấy, bất kỳ loại lưu trữ dữ liệu trực tiếp nào. Chúng tôi đã phân tích lớp xảy ra trên cơ sở dữ liệu đồ thị NoQuery. Nó cũng có thể xảy ra trên Hadoop. Ví dụ, với khung Spark, và GraphX ​​ở đó, chúng tôi đã có được phân tích điều tra và nhà máy lọc dữ liệu mà Robin đang nói về việc xảy ra trên Hadoop. Chúng tôi đã có khối lượng công việc truyền thống vẫn đang diễn ra và lưu trữ dữ liệu, bạn biết đấy, người dùng năng lượng xây dựng các mô hình thống kê và dự đoán, có lẽ trên các thiết bị kho dữ liệu. Và chúng tôi vẫn đang cố gắng đơn giản hóa việc truy cập vào tất cả những điều này để giúp người dùng cuối dễ dàng sử dụng.


Vì vậy, thành công xung quanh toàn bộ thiết lập này không chỉ là khía cạnh phân tích. Bạn biết đấy, chúng ta có thể đặt các nền tảng phân tích vào vị trí, nhưng nếu chúng ta có thể nắm bắt và ăn vào, bạn biết đấy, dữ liệu tốc độ cao và khối lượng lớn, ở quy mô, có rất nhiều điểm. Bạn biết đấy, tôi không có gì để phân tích. Và do đó, thành công của phân tích dữ liệu lớn đòi hỏi các hệ thống hoạt động phải mở rộng quy mô. Điều đó có nghĩa là, để có thể hỗ trợ các giao dịch mới, bạn biết đấy, đỉnh điểm. Bạn biết đấy, bất kỳ dữ liệu phi giao dịch nào được ghi lại ở đó đều có thể, bất kỳ tỷ lệ đến mới nào, tỷ lệ đến rất cao trên dữ liệu tốc độ cao như cảm biến hoặc bất kỳ sự xâm nhập nào. Chúng tôi phải có khả năng phục vụ cho tất cả những điều đó - để có thể thu thập loại dữ liệu này và mang nó đi phân tích. Chúng tôi cũng phải tự mở rộng quy mô phân tích, đơn giản hóa việc truy cập dữ liệu mà tôi đã đề cập. Và sau đó, buộc nó. Bạn biết đấy, chúng ta phải có khả năng tinh chỉnh trở lại các hệ điều hành đó để tạo cho nó một vòng khép kín.


Vì vậy, việc mở rộng quy mô hoạt động của ngôi nhà để thu thập dữ liệu, bạn biết đấy, sẽ đưa vào thế giới của cơ sở dữ liệu NoQuery. Ý tôi là, ở đây bạn thấy năm loại cơ sở dữ liệu NoQuery. Đây là thể loại sẽ được mô hình hóa chỉ là sự kết hợp của bốn người khác ở trên. Nói chung, bạn biết, các giá trị chính của nó, các tài liệu được lưu trữ và cơ sở dữ liệu họ cột - ba giá trị đầu tiên ở đó - là loại được sử dụng cho nhiều loại dữ liệu giao dịch và phi giao dịch.


Một số cơ sở dữ liệu hỗ trợ như tài sản; một số trong số họ không. Nhưng tuy nhiên, bạn biết đấy, chúng tôi đã thấy sự giới thiệu của những người đó để mở rộng các loại ứng dụng đó. Và như vậy, chẳng hạn, khi chúng tôi chuyển từ những nhân viên tham gia giao dịch tại bàn phím sang khách hàng và đại chúng sử dụng các thiết bị mới để có thể làm điều đó. Chúng tôi đã thấy sự gia tăng mạnh mẽ về số lượng giao dịch được nhập vào các doanh nghiệp. Và vì vậy, chúng ta cần mở rộng các ứng dụng giao dịch để làm điều đó.


Bây giờ, nói chung, điều đó có thể được thực hiện trên cơ sở dữ liệu NewQuery như một cơ sở dữ liệu quan hệ như NuoDB và VoltDB được hiển thị ở đây. Hoặc một số cơ sở dữ liệu NoQuery có thể hỗ trợ các thuộc tính ACID có thể đảm bảo xử lý giao dịch có thể đang hoạt động. Điều này cũng áp dụng cho dữ liệu phi giao dịch, chẳng hạn như dữ liệu giỏ hàng trước khi giao dịch, bạn biết, trước khi mọi người mua đồ, dữ liệu cảm biến, bạn biết, vì tôi mất cảm biến đọc giữa hàng trăm triệu lần đọc cảm biến. Nó không phải là một vấn đề lớn đâu. Các nhấp chuột, bạn biết đấy, trong thế giới nhấp chuột - nếu tôi sử dụng một nhấp chuột, thì nó không có vấn đề gì lớn.Vì vậy, bạn biết đấy, chúng tôi không nhất thiết phải có các thuộc tính ACID ở đó, và đó thường là nơi các cơ sở dữ liệu NoQuery hoạt động, đó là khả năng xử lý rất cao, đúng quy mô để thu thập các loại dữ liệu mới này.


Đồng thời, chúng tôi muốn phân tích quy mô. Và do đó, việc kéo dữ liệu từ các kho lưu trữ dữ liệu sang các nền tảng phân tích sẽ không còn bị hack nữa vì dữ liệu quá lớn. Điều chúng tôi thực sự muốn là đẩy phân tích theo cách khác, xuống kho dữ liệu doanh nghiệp vào Hadoop, xử lý luồng để có thể đẩy phân tích vào dữ liệu. Tuy nhiên, chỉ vì ai đó nói rằng nó trong phân tích cơ sở dữ liệu hoặc trong phân tích Hadoop, không nhất thiết có nghĩa là phân tích chạy song song. Và thật lòng mà nói, nếu bạn sẽ đầu tư vào các công nghệ có khả năng mở rộng song song mới này như Hadoop, như các thiết bị kho dữ liệu và không có gì, như các công cụ xử lý luồng phân cụm, chúng ta cần phân tích để chạy song song.


Vì vậy, mà chỉ có việc thanh toán. Bạn biết đấy, nếu chúng tôi đã phân tích để giúp dự đoán mọi thứ cho khách hàng, cho các hoạt động, cho rủi ro, v.v., chúng tôi muốn họ chạy song song, không chỉ chạy trong nền tảng. Chúng tôi muốn cả hai. Và điều đó bởi vì, bạn biết đấy, công nghệ cũng giống như những công cụ khám phá hình ảnh mới này như SAS. Nó thực sự là một trong những nhà tài trợ của chúng tôi ở đây.


Một điều mọi người muốn là ít nhất là khai thác những người trong Hadoop và sau đó trong phân tích cơ sở dữ liệu. Và chúng tôi muốn những cái đó chạy song song để có thể cung cấp hiệu suất cần thiết trên khối lượng dữ liệu cao như vậy. Đồng thời, chúng tôi đã cố gắng đơn giản hóa việc truy cập vào tất cả những điều này. Và vì vậy, SQL đã trở lại trong chương trình nghị sự. Bạn biết đấy, SQL là - SQL trên Hadoop đang nóng ngay bây giờ. Tôi đang theo dõi nó trong 19 sáng kiến ​​SQL và Hadoop ngay bây giờ. Ngoài ra, bạn có thể thấy, chúng ta có thể lấy dữ liệu này, bằng một số cách để truy cập trực tiếp SQL trên chính Hadoop, chúng ta có thể chuyển SQL sang chỉ mục tìm kiếm. Theo cách đó, như bạn biết, một số nhà cung cấp dịch vụ tìm kiếm trong không gian đó, chúng ta có thể có quyền truy cập SQL vào cơ sở dữ liệu quan hệ phân tích có bảng Excel đến Hadoop.


Bây giờ chúng ta có thể có quyền truy cập SQL vào một máy chủ ảo hóa dữ liệu mà sau đó chính nó có thể được kết nối với kho dữ liệu trên Hadoop. Bây giờ tôi bắt đầu thấy sự xuất hiện của quyền truy cập SQL vào dữ liệu phát trực tiếp. Vì vậy, SQL truy cập vào tất cả những điều này đang phát triển nhanh chóng. Và một phần của thách thức là, chỉ vì quyền truy cập SQL đang được bán trên thị trường. Câu hỏi là, SQL có thể xử lý dữ liệu phức tạp không? Và điều đó không nhất thiết phải đơn giản. Có tất cả các loại phức tạp ở đây, bao gồm cả dữ liệu JSON có thể được lồng vào nhau. Chúng ta có thể có các bản ghi biến thể lược đồ. Vì vậy, bản ghi đầu tiên đã có một lược đồ. Bản ghi thứ hai đã có một lược đồ khác. Những điều này rất khác với những gì xảy ra trong một thế giới quan hệ.


Vì vậy, chúng ta cần đặt câu hỏi về loại dữ liệu nào mà chúng ta đang cố gắng phân tích và loại đặc điểm phân tích là gì. Có phải, bạn biết đấy, bảng điều khiển mà bạn muốn làm? Có phải là máy học? Có phải là phân tích đồ thị? Bạn có thể làm điều đó từ SQL? Bạn có biết, đó là bất khả xâm phạm từ SQL? Có bao nhiêu người dùng đồng thời chúng tôi đã làm điều này? Bạn biết đấy, chúng tôi đã có hàng trăm người dùng đồng thời. Có thể trên dữ liệu phức tạp? Bạn biết đấy, tất cả những điều này là những câu hỏi chính. Vì vậy, tôi đã lập một danh sách một vài thứ ở đây mà tôi nghĩ bạn nên xem xét. Bạn biết, loại định dạng tập tin? Những loại dữ liệu chúng ta đang nói về? Loại hàm phân tích nào chúng ta có thể gọi từ SQL để lấy dữ liệu phức tạp? Và loại chức năng chạy song song. Ý tôi là, họ đã phải chạy song song nếu chúng ta có thể mở rộng quy mô này. Và tôi có thể tham gia dữ liệu trong Hadoop hôm nay ngoài dữ liệu đó không, hay điều đó không thể thực hiện được? Và tôi sẽ làm gì với tất cả các loại khối lượng công việc truy vấn khác nhau này?


Và như chúng tôi đã thấy, từ những gì tôi đã thấy, có rất nhiều sự khác biệt trong bản phân phối SQL và Hadoop. Đây là tất cả những cái tôi theo dõi. Và nhân tiện, SQL thuần túy đó trên Hadoop. Điều đó thậm chí không bao gồm ảo hóa dữ liệu tại thời điểm này. Và vì vậy, rất nhiều thứ ngoài kia và rất nhiều chỗ cho sự hợp nhất, mà tôi nghĩ sẽ xảy ra trong năm tới, mười tám tháng hoặc lâu hơn. Nhưng nó cũng mở ra một điều nữa, đó là tôi có thể có nhiều công cụ SQL trên cùng một dữ liệu trong Hadoop. Và đó là một thứ gì đó mà bạn không thể làm được trong mối quan hệ.


Tất nhiên, điều đó có nghĩa là bạn phải biết, bạn biết, tôi đang chạy loại công việc truy vấn nào? Tôi có nên chạy hàng loạt trên một SQL cụ thể trên sáng kiến ​​Hadoop không? Tôi có nên chạy khối lượng công việc truy vấn tương tác thông qua một SQL khác trên sáng kiến ​​Hadoop, v.v., để tôi biết nên kết nối với cái nào không? Lý tưởng nhất, tất nhiên, chúng ta không nên làm điều đó. Chúng ta chỉ nên có một câu hỏi về nó. Bạn biết đấy, một số tối ưu hóa tìm ra cách tốt nhất để làm điều đó. Nhưng theo tôi thì chúng tôi chưa hoàn toàn ở đó.


Nhưng tuy nhiên, ảo hóa dữ liệu, tôi đã đề cập trước đó có một vai trò rất quan trọng để đơn giản hóa việc truy cập vào nhiều cửa hàng dữ liệu. Và nếu chúng ta tạo ra những hiểu biết mới về Hadoop, thì chắc chắn chúng ta sẽ hợp lý khi chúng ta tham gia kho dữ liệu truyền dữ liệu và dữ liệu truyền thống đó thông qua ảo hóa dữ liệu, mà không nhất thiết phải chuyển dữ liệu từ Hadoop sang kho dữ liệu truyền thống. Tất nhiên, bạn cũng có thể làm điều đó. Nó cũng hợp lý nếu tôi lưu trữ dữ liệu từ kho dữ liệu truyền thống vào Hadoop. Tôi vẫn có thể lấy nó và tham gia trở lại những thứ mà trong kho dữ liệu của chúng tôi để ảo hóa dữ liệu. Vì vậy, đối với tôi, tôi nghĩ ảo hóa dữ liệu đã có một tương lai lớn trong kiến ​​trúc tổng thể này và đơn giản hóa việc truy cập vào tất cả các cửa hàng dữ liệu này.


Và đừng quên rằng khi chúng tôi tạo ra những hiểu biết mới này, cho dù đó là trên các hệ thống quan hệ hay NoQuery, chúng tôi vẫn muốn đưa những hiểu biết đó trở lại hoạt động của mình, để chúng tôi có thể tối đa hóa giá trị của những gì chúng tôi đã tìm thấy, để chúng tôi có thể tận dụng để có những quyết định hiệu quả hơn, kịp thời hơn trong môi trường đó để tối ưu hóa hoạt động kinh doanh của chúng tôi.


Vì vậy, để kết thúc sau đó, những gì tôi đã thấy, sau đó, là chúng ta cần, bạn biết đấy, các nguồn dữ liệu mới đang nổi lên. Chúng tôi đã có các nền tảng mới trên một kiến ​​trúc phức tạp hơn, nếu bạn muốn, để xử lý điều đó. Và Hadoop trở nên rất, rất quan trọng, đủ để chuẩn bị dữ liệu cho các hộp cát lỏng của chúng tôi, cho truy vấn lưu trữ, lưu trữ từ kho dữ liệu, quản lý dữ liệu lan rộng ra ngoài việc lưu trữ dữ liệu vào việc quản lý dữ liệu trên tất cả các nền tảng này và các công cụ mới có thể phân tích và truy cập dữ liệu trong các môi trường này, để có thể có các công nghệ có thể mở rộng để nhập dữ liệu tốt hơn và nhân rộng các phân tích bằng cách đẩy chúng xuống các nền tảng để làm cho chúng song song hơn. Và sau đó, hy vọng, cũng để đơn giản hóa việc truy cập vào tất cả thông qua SQL xuất hiện ở phía trên. Vì vậy, nó cung cấp cho bạn một ý tưởng về loại nơi chúng tôi hướng tới. Vì vậy, với điều đó, tôi sẽ quay trở lại, tôi đoán, bây giờ Eric, phải không?


Eric: Được rồi, điều đó thật tuyệt vời. Và mọi người, tôi phải nói rằng, giữa những gì bạn vừa nhận được từ Robin và Mike, có lẽ nó là toàn diện và ngắn gọn về tổng quan của toàn bộ cảnh quan từ khi bạn nhìn vào bất cứ nơi nào. Hãy để tôi đi trước và xếp hàng George Corugedo trước. Và nó đây Hãy để tôi thực hiện điều này trong một giây nhanh chóng. Được rồi, George, tôi sẽ đưa chìa khóa cho bạn và mang nó đi. Sàn là của bạn.


George: Tuyệt vời! Cảm ơn bạn rất nhiều, Eric, và cảm ơn bạn, Rob và Mike. Đó là thông tin tuyệt vời và rất nhiều mà chúng tôi đồng tình. Vì vậy, quay trở lại cuộc thảo luận về Robin, bởi vì, bạn biết đấy, đó không phải là sự trùng hợp ngẫu nhiên khi RedPoint ở đây và SAS ở đây. Vì RedPoint, chúng tôi thực sự tập trung vào khía cạnh dữ liệu của nó về quản trị, vào việc xử lý dữ liệu và chuẩn bị sử dụng trong phân tích. Vì vậy, hãy để tôi chỉ lướt qua hai slide này. Và thực sự nói về và tìm hiểu về Robin Robin về MDM và tầm quan trọng của nó, và mức độ hữu ích, tôi nghĩ - và chúng tôi nghĩ - Hadoop có thể trong thế giới của MDM và chất lượng dữ liệu.


Bạn biết đấy, Robin đã nói một chút về, bạn biết đấy, điều này có liên quan như thế nào đến thế giới kho dữ liệu doanh nghiệp và tôi đến - bạn biết đấy, tôi đã dành một số năm tại Accdvisor. Và điều thú vị là có bao nhiêu lần chúng tôi phải vào các công ty và cố gắng tìm hiểu phải làm gì với kho dữ liệu về cơ bản đã bị bỏ rơi. Và rất nhiều điều đó đã xảy ra vì nhóm kho dữ liệu không thực sự gắn kết bản dựng của họ với người dùng doanh nghiệp hoặc người tiêu dùng dữ liệu. Hoặc, nó chỉ mất quá nhiều thời gian để đến lúc họ xây dựng nên thứ, việc sử dụng kinh doanh hoặc cơ sở kinh doanh cho nó đã phát triển.


Và một trong những điều mà tôi nghĩ là, tôi rất phấn khích, ý tưởng sử dụng Hadoop để quản lý dữ liệu chủ, cho chất lượng dữ liệu và chuẩn bị dữ liệu, là thực tế là bạn luôn có thể quay lại dữ liệu nguyên tử trong một Hồ dữ liệu Hadoop hoặc kho dữ liệu, hoặc kho lưu trữ dữ liệu hoặc trung tâm hoặc bất kỳ hình thức buzz nào bạn muốn sử dụng. Nhưng vì bạn luôn giữ dữ liệu nguyên tử đó, nên bạn luôn có cơ hội sắp xếp lại với người dùng doanh nghiệp. Bởi vì, với tư cách là một nhà phân tích - bởi vì tôi thực sự bắt đầu sự nghiệp của mình như một nhà thống kê - bạn biết đấy, không có gì tệ hơn, bạn biết đấy, kho dữ liệu doanh nghiệp rất tuyệt vời để điều khiển các báo cáo, nhưng nếu bạn muốn phân tích dự đoán thực sự, thì chúng thực sự không hữu ích, bởi vì những gì bạn thực sự muốn là dữ liệu hành vi chi tiết bằng cách nào đó đã được tóm tắt và tổng hợp trong kho dữ liệu. Vì vậy, tôi nghĩ đó thực sự là một tính năng quan trọng và đó là một điều mà tôi nghĩ rằng tôi có thể không đồng ý với Robin là cá nhân tôi sẽ để dữ liệu trong hồ dữ liệu hoặc trung tâm dữ liệu càng lâu càng tốt, vì miễn là dữ liệu ở đó và nó sạch sẽ, bạn có thể nhìn nó từ hướng này, hướng khác. Bạn có thể hợp nhất nó với dữ liệu khác. Bạn luôn có cơ hội đó để quay lại với nó và tái cấu trúc, sau đó tự sắp xếp lại với một đơn vị kinh doanh và nhu cầu mà đơn vị này có thể có.


Một trong những điều thú vị khác về điều này là bởi vì nó là một nền tảng tính toán mạnh mẽ như vậy, rất nhiều khối lượng công việc mà chúng tôi đã nói đến, chúng tôi thấy tất cả đều đi thẳng vào Hadoop. Và trong khi, tôi nghĩ rằng, Mike đã nói về tất cả các công nghệ khác nhau trên thế giới - trong loại hệ sinh thái dữ liệu lớn này, chúng tôi nghĩ rằng Hadoop thực sự là công cụ để thực hiện quy mô lớn đó trong xử lý chuyên sâu tính toán dữ liệu chủ và chất lượng dữ liệu yêu cầu. Bởi vì nếu bạn có thể làm điều đó ở đó, bạn biết đấy, chỉ là tính kinh tế tuyệt đối của việc chuyển dữ liệu ra khỏi cơ sở dữ liệu đắt tiền của bạn và vào cơ sở dữ liệu kinh tế, điều này thực sự đang thúc đẩy rất nhiều sự hấp dẫn ngay bây giờ trong các doanh nghiệp lớn.


Bây giờ, tất nhiên, có một số thách thức, phải không? Có những thách thức xung quanh các công nghệ. Rất nhiều người trong số họ rất non nớt. Tôi nói, bạn biết đấy, tôi không biết có bao nhiêu, nhưng một số công nghệ mà Mike đề cập vẫn còn trên các bản phát hành không có điểm, phải không? Vì vậy, những công nghệ này còn rất trẻ, rất non nớt, vẫn dựa trên mã. Và điều đó thực sự tạo ra một thách thức cho các doanh nghiệp. Và chúng tôi thực sự tập trung vào giải quyết các vấn đề cấp doanh nghiệp. Và vì vậy, chúng tôi nghĩ rằng phải có một cách khác, và đó là những gì chúng tôi đề xuất là một cách khác để thực hiện một số công cụ sử dụng một số công nghệ rất non trẻ này.


Và vì vậy, và vấn đề thú vị khác ở đây, đã được đề cập trước đây, đó là khi bạn có dữ liệu mà bạn đang chụp trong môi trường Hadoop thuộc bất kỳ loại nào, bạn biết, đó thường là lược đồ về đọc thay vì lược đồ ghi với một số ngoại lệ. Và việc đọc đó, rất nhiều trong số đó đang được thực hiện bởi các nhà thống kê. Và vì vậy, các nhà thống kê phải có các công cụ cho phép họ cấu trúc dữ liệu đúng cho mục đích phân tích, vì vào cuối ngày, để làm cho dữ liệu trở nên hữu ích, nó phải được cấu trúc theo một số hình thức để xem một số hoặc trả lời một câu hỏi hoặc một doanh nghiệp, một số loại hình kinh doanh, tạo ra giá trị kinh doanh.


Vì vậy, nơi chúng tôi đến, là chúng tôi có ứng dụng quản lý và khóa chính chất lượng dữ liệu ELT, ELT rất rộng và trưởng thành. Nó đã có mặt trên thị trường trong nhiều năm. Và nó có tất cả các chức năng hoặc phần lớn chức năng mà Robin liệt kê trong biểu đồ tròn đó - mọi thứ từ việc thu thập dữ liệu thô thuần túy trong toàn bộ các định dạng và cấu trúc XML và whatnots, cho đến khả năng làm sạch tất cả, hoàn thành dữ liệu, hiệu chỉnh dữ liệu, các bit lõi không gian địa lý của dữ liệu. Đó là một thứ gì đó mà ngày càng trở nên quan trọng hơn với Internet of Things. Bạn biết đấy, địa lý có liên quan đến phần lớn những gì chúng ta làm hoặc phần lớn dữ liệu đó. Và vì vậy, tất cả các phân tích cú pháp, mã thông báo, làm sạch, chỉnh sửa, định dạng, cấu trúc, v.v., tất cả điều đó được thực hiện trong nền tảng của chúng tôi.


Và sau đó, và có lẽ, chúng tôi nghĩ quan trọng nhất là ý tưởng về sự trùng lặp. Bạn biết, ở cốt lõi, nếu bạn nhìn vào bất kỳ định nghĩa nào về quản lý dữ liệu chủ, cốt lõi của nó là sự trùng lặp. Nó có khả năng xác định các thực thể qua các nguồn dữ liệu khác nhau và sau đó tạo một bản ghi chính cho thực thể đó. Và thực thể đó có thể là một người. Các thực thể có thể là một phần của một chiếc máy bay, ví dụ. Các thực thể có thể là một thực phẩm như chúng tôi đã thực hiện cho một trong những khách hàng câu lạc bộ sức khỏe của chúng tôi. Chúng tôi đã tạo ra một cơ sở dữ liệu thực phẩm tổng thể cho họ. Vì vậy, bất kể thực thể chúng ta đang làm việc là gì - và tất nhiên, ngày càng có nhiều người và proxy cho danh tính của họ, đó là những thứ như tay cầm xã hội hoặc tài khoản, bất kỳ thiết bị nào có liên quan đến con người, một số thứ như ô tô và điện thoại, và bất cứ điều gì khác bạn có thể tưởng tượng.


Bạn biết đấy, chúng tôi làm việc với một khách hàng, người đã đưa tất cả các loại cảm biến vào trang phục thể thao. Vì vậy, dữ liệu đến từ mọi hướng. Và bằng cách này hay cách khác, nó phản ánh hoặc phản ánh thực thể cốt lõi. Và ngày càng nhiều hơn, đó là con người và khả năng xác định mối quan hệ giữa tất cả các nguồn dữ liệu này và cách chúng liên quan đến thực thể cốt lõi đó, sau đó có thể theo dõi thực thể cốt lõi đó theo thời gian để bạn có thể phân tích và hiểu các thay đổi giữa thực thể đó và tất cả những yếu tố khác có trong các đại diện của thực thể đó, một ví dụ thực sự quan trọng đối với phân tích dài hạn và dài hạn của con người. Và đó thực sự là một trong những lợi ích thực sự quan trọng mà theo tôi, dữ liệu lớn có thể mang lại cho chúng ta sự hiểu biết tốt hơn về con người, và về lâu dài, và hiểu được con người và cách mọi người cư xử khi họ cư xử thông qua thiết bị nào, v.v. .


Vì vậy, hãy để tôi di chuyển qua đây một cách nhanh chóng. Eric đã đề cập đến YARN. Bạn biết đấy, tôi ném nó chỉ trong một chút giây, bởi vì trong khi YARN - mọi người nói về YARN. Ở đó, vẫn còn rất nhiều sự thiếu hiểu biết, về YARN. Và không có nhiều người thực sự - ở đó, vẫn còn rất nhiều hiểu lầm về YARN. Và thực tế là nếu ứng dụng của bạn đã được kiến ​​trúc theo đúng cách và bạn có mức độ phù hợp hoặc song song trong kiến ​​trúc ứng dụng của mình, thì bạn có thể tận dụng YARN để sử dụng Hadoop làm nền tảng mở rộng. Và đó chính xác là những gì chúng tôi đã làm.


Bạn biết, một lần nữa, chỉ để chỉ ra một số định nghĩa xung quanh YARN. Đối với chúng tôi, thực sự những gì YARN đã cho phép chúng tôi và chính các tổ chức khác trở thành đồng nghiệp của MapReduce và Spark, và tất cả các công cụ khác hiện có. Nhưng thực tế là các ứng dụng của chúng tôi điều khiển mã được tối ưu hóa trực tiếp vào YARN vào Hadoop. Và có một nhận xét thực sự thú vị mà Mike đã đề cập, bởi vì, bạn biết đấy, câu hỏi về phân tích và phân tích của chúng tôi, chỉ vì họ ở trong cụm, họ có thực sự chạy song song không? Bạn có thể đặt câu hỏi tương tự về rất nhiều công cụ chất lượng dữ liệu hiện có.


Hầu hết thời gian, các công cụ chất lượng ngoài kia hoặc phải lấy dữ liệu ra hoặc chúng đang đẩy mã vào. Và trong nhiều trường hợp, đó là một luồng dữ liệu duy nhất được xử lý vì cách bạn phải so sánh các bản ghi, đôi khi trong loại hoạt động chất lượng dữ liệu. Và thực tế là bởi vì chúng tôi sử dụng YARN, chúng tôi đã có thể thực sự tận dụng lợi thế của sự song song hóa.


Và chỉ để cung cấp cho bạn một cái nhìn tổng quan nhanh chóng, bởi vì một nhận xét khác được đưa ra về tầm quan trọng của việc có thể mở rộng cơ sở dữ liệu truyền thống, cơ sở dữ liệu mới, v.v., chúng tôi thực hiện hoặc chúng tôi cài đặt bên ngoài cụm. Và chúng tôi đẩy các nhị phân của mình trực tiếp vào trình quản lý tài nguyên, YARN. Và điều đó, và sau đó YARN phân phối nó trên các nút trong cụm. Và điều đó là, đó là YARN - chúng tôi cho phép YARN quản lý và thực hiện công việc của mình, đó là tìm ra dữ liệu ở đâu và đưa công việc vào dữ liệu, mã vào dữ liệu và không di chuyển dữ liệu xung quanh. Khi bạn nghe thấy các công cụ chất lượng dữ liệu và họ đã nói với bạn cách thực hành tốt nhất là chuyển dữ liệu ra khỏi Hadoop, chạy theo cuộc sống của bạn, bởi vì đó không phải là như vậy. Bạn muốn đưa công việc vào dữ liệu. Và đó là những gì mà YARN làm trước tiên. Nó đưa các nhị phân của chúng ta ra các nút nơi dữ liệu cư trú.


Và cũng bởi vì chúng tôi ở ngoài cụm, chúng tôi cũng có thể truy cập tất cả các cơ sở dữ liệu truyền thống và quan hệ để chúng tôi có thể có các công việc là máy chủ 100% trên cơ sở dữ liệu truyền thống, 100% Hadoop hoặc các công việc lai đi qua máy chủ của Hadoop , Oracle, Teradata - bất cứ điều gì bạn muốn và tất cả trong cùng một công việc, bởi vì một triển khai có thể truy cập cả hai mặt của thế giới.


Và sau đó, quay trở lại toàn bộ ý tưởng về tính không minh bạch của các công cụ, bạn thấy ở đây, đây chỉ là một đại diện đơn giản. Và những gì chúng tôi đang cố gắng làm là đơn giản hóa thế giới. Và cách chúng tôi làm là bằng cách mang một bộ chức năng rất rộng xung quanh HDFS để biến nó thành VÒNG Và nó không phải vì chúng tôi đang cố gắng loại bỏ tất cả các công nghệ tiên tiến ngoài kia. Nó chỉ là doanh nghiệp cần sự ổn định, và họ không thích các giải pháp dựa trên mã. Và vì vậy, những gì chúng tôi cố gắng làm là mang lại cho doanh nghiệp một môi trường ứng dụng nhất quán, có thể lặp lại, cho phép họ xây dựng và xử lý dữ liệu theo cách rất dễ đoán.


Nhanh chóng, đây là loại tác động chúng ta có được với ứng dụng của mình. Bạn thấy MapReduce so với Pig so với RedPoint - không có dòng mã nào trong RedPoint. Sáu giờ phát triển tại MapReduce, ba giờ phát triển ở Pig và 15 phút phát triển trong RedPoint. Và đó, nơi mà chúng tôi thực sự có một tác động rất lớn. Thời gian xử lý cũng nhanh hơn, nhưng thời gian của mọi người, thời gian năng suất của mọi người, được tăng lên đáng kể.


Và slide cuối cùng của tôi ở đây, tôi muốn quay trở lại ý tưởng này, bởi vì đây là việc chúng ta sử dụng một hồ dữ liệu hoặc một trung tâm dữ liệu, hoặc một nhà máy lọc dữ liệu làm điểm trung tâm. Không thể đồng ý nhiều hơn với ý tưởng đó. Và chúng tôi hiện đang thảo luận với nhiều nhân viên dữ liệu của các ngân hàng lớn trên toàn cầu và đây là kiến ​​trúc được lựa chọn.Nhập dữ liệu từ tất cả các nguồn để xử lý chất lượng dữ liệu và quản lý dữ liệu chủ trong hồ dữ liệu, sau đó, đẩy dữ liệu cần đến các ứng dụng hỗ trợ, để hỗ trợ BI, bất cứ điều gì có thể. Và sau đó, nếu bạn có phân tích trong BI, chúng có thể chạy trực tiếp bên trong hồ dữ liệu, nơi tốt hơn, có thể bắt đầu ngay lập tức. Nhưng rất nhiều trên tàu với ý tưởng này. Cấu trúc liên kết này ở đây là một - đó là chúng tôi tìm thấy đang thu được rất nhiều lực kéo ra thị trường. Và, đó là nó.


Eric: Được rồi, tốt. Hãy để di chuyển ngay dọc theo đây. Tôi sẽ đi trước và giao nó cho Keith. Và Keith, bạn có khoảng 10, 12 phút để khuấy động ngôi nhà ở đây. Chúng tôi đã đi một chút lâu trong các chương trình này. Và chúng tôi đã quảng cáo 70 phút cho cái này. Vì vậy, chỉ cần tiếp tục và nhấp vào bất cứ nơi nào trên slide đó và sử dụng mũi tên xuống và mang nó đi.


Keith: Chắc chắn rồi. Không sao, Eric. Tôi rât cảm kich. Tôi sẽ đi trước và chỉ gặp một vài phần về SAS, sau đó tôi sẽ di chuyển vào, ngay vào các kiến ​​trúc công nghệ nơi mà SAS giao với thế giới dữ liệu lớn. Có rất nhiều điều để giải thích trong tất cả những thứ này. Chúng tôi có thể dành hàng giờ để xem qua nó rất chi tiết, nhưng mười phút - bạn sẽ có thể bỏ qua chỉ với một sự hiểu biết ngắn gọn về việc SAS đã đưa các công nghệ phân tích, quản lý dữ liệu và công nghệ thông minh vào thế giới dữ liệu lớn này.


Đầu tiên, chỉ một chút về SAS. Nếu bạn không quen thuộc với tổ chức này, thì trong suốt 38 năm qua, chúng tôi đã làm phân tích nâng cao, thông minh kinh doanh và quản lý dữ liệu với không chỉ dữ liệu lớn, mà cả dữ liệu nhỏ và sự giàu có dữ liệu trong 38 năm qua. Chúng tôi có một lượng khách hàng lớn hiện có, khoảng 75.000 trang web trên toàn thế giới, làm việc với một số tổ chức hàng đầu ngoài kia. Chúng tôi là một tổ chức tư nhân với khoảng 13.000 nhân viên và doanh thu 3 tỷ đô la. Và thực sự, tôi đoán, phần quan trọng là theo truyền thống chúng ta đã có một lịch sử lâu dài về việc tái đầu tư một lượng đáng kể doanh thu của chúng tôi vào tổ chức R & D của chúng tôi, nơi thực sự mang lại nhiều công nghệ và nền tảng tuyệt vời này cho bạn ' sẽ đi xem hôm nay


Vì vậy, tôi sẽ nhảy ngay vào các sơ đồ kiến ​​trúc thực sự đáng sợ này. Chúng tôi sẽ làm việc từ trái sang phải trong các slide của tôi. Vì vậy, có những thứ quen thuộc mà bạn sẽ thấy bên trong nền tảng này. Ở phía bên trái, tất cả các nguồn dữ liệu mà chúng tôi đang nói về việc ăn sâu vào các nền tảng dữ liệu lớn này. Và sau đó, bạn đã có nền tảng dữ liệu lớn này.


Tôi thiên đường chỉ đặt chữ Hadoop lên hàng đầu, bởi vì cuối cùng, những ví dụ mà tôi sẽ đưa ra hôm nay là đặc biệt xung quanh tất cả các công nghệ mà chúng ta giao nhau với các nền tảng dữ liệu lớn này. Hadoop tình cờ là một trong những người chúng tôi có một số tùy chọn triển khai mạnh mẽ nhất, nhưng chúng tôi cũng giao thoa khá nhiều và đã phát triển rất nhiều công nghệ này trong một thời gian với một số đối tác kho dữ liệu doanh nghiệp khác của chúng tôi như Teradata, Oracle, Pivotal và tương tự. Vì vậy, tôi không thể đi sâu vào chi tiết vì tất cả các công nghệ khác nhau đều được hỗ trợ trên nền tảng nào, nhưng hãy yên tâm rằng tất cả những công nghệ tôi mô tả hôm nay hầu hết đều là Hadoop và một lượng lớn chúng giao với các đối tác công nghệ khác chúng ta có. Vì vậy, chúng tôi đã có nền tảng lớn mà ngồi ở đó.


Cái tiếp theo ở bên phải, chúng ta có Máy chủ Phân tích SAS LASR của chúng tôi. Bây giờ, về cơ bản, là một song song ồ ạt trong máy chủ ứng dụng phân tích bộ nhớ. Chúng tôi nói rõ rằng nó không phải là một cơ sở dữ liệu trong bộ nhớ. Nó thực sự được thiết kế từ mặt đất lên. Nó không phải là công cụ truy vấn, mà được thiết kế để phục vụ các yêu cầu phân tích ở quy mô lớn theo cách song song ồ ạt. Vì vậy, đó là các ứng dụng chính của dịch vụ mà bạn thấy ở phía bên tay phải.


Chúng tôi sẽ nhận được một chút về nhiều lượt thích hơn, bạn biết đấy, cách mọi người triển khai những thứ này. Nhưng về cơ bản, ứng dụng - bạn có thấy ở đó - ứng dụng đầu tiên, là phân tích hiệu suất cao của chúng tôi. Điều đó sẽ xảy ra - Tôi đang sử dụng rất nhiều công nghệ và nền tảng hiện có của chúng tôi như Enterprise Miner hoặc chỉ là một SAS, và không chỉ thực hiện đa luồng với một số thuật toán mà chúng tôi đã tích hợp vào những công cụ mà chúng tôi đã thực hiện năm, nhưng cũng để ồ ạt song song những người. Vì vậy, để di chuyển dữ liệu từ nền tảng dữ liệu lớn đó vào không gian bộ nhớ đến Máy chủ Phân tích LASR, để chúng tôi có thể thực hiện các thuật toán phân tích - bạn biết đấy, rất nhiều phương pháp học máy mới, mạng lưới thần kinh, hồi quy rừng ngẫu nhiên, các loại điều - một lần nữa, dữ liệu ngồi trong bộ nhớ. Vì vậy, thoát khỏi nút thắt mô hình MapReduce nhất định nơi chúng tôi được gửi xuống các nền tảng đó, đó không phải là cách bạn muốn làm công việc phân tích. Vì vậy, chúng tôi muốn có thể nâng dữ liệu một lần vào không gian bộ nhớ và lặp qua nó, đôi khi hàng ngàn lần. Vì vậy, đó là khái niệm về việc sử dụng Máy chủ LASR phân tích hiệu suất cao đó.


Chúng tôi cũng - các ứng dụng khác bên dưới nó, các phân tích trực quan, cho phép chúng tôi duy trì dữ liệu đó trong bộ nhớ và phục vụ dân số lớn hơn trên cùng một dữ liệu. Vì vậy, cho phép mọi người thực hiện thăm dò dữ liệu lớn. Vì vậy, trước khi thực hiện công việc phát triển mô hình của chúng tôi, chúng tôi đang tìm hiểu dữ liệu, tìm hiểu nó, chạy các mối tương quan, thực hiện dự báo hoặc xu hướng cây quyết định - những thứ đó - nhưng theo cách tương tác, trực quan trên dữ liệu nằm trong bộ nhớ nền tảng. Điều đó cũng phục vụ cộng đồng BI của chúng tôi khi có một lượng người dùng rất rộng có thể truy cập vào nền tảng đó để thực hiện các loại bản ghi tiêu chuẩn mà bạn thấy - mà hầu như bất kỳ, bạn biết, nhà cung cấp BI ngoài đó.


Bước tiếp theo, chúng tôi di chuyển sau đó vào dịch vụ. Và để giúp các nhà thống kê và người phân tích của chúng tôi có thể thực hiện kiểu mô hình đặc biệt đó với dữ liệu nằm trong bộ nhớ, xóa khỏi phân tích trực quan và thăm dò vào ứng dụng thống kê trực quan của chúng tôi. Đây là cơ hội để mọi người thực hiện, không chạy các số liệu thống kê theo đợt đã sử dụng để lặp lại, chạy các mô hình, xem kết quả. Vì vậy, có thể chạy mô hình, xem kết quả. Điều này là để trực quan kéo và thả vào mô hình thống kê tương tác. Vì vậy, dịch vụ này giúp các nhà thống kê và các nhà khoa học dữ liệu của chúng tôi thực hiện rất nhiều công việc thống kê trực quan khám phá ban đầu đó.


Và sau đó, chúng tôi đã quên mất các lập trình viên của chúng tôi - những người thực sự muốn có, có thể bóc lớp giao diện đối diện, để viết các ứng dụng và viết cơ sở mã của riêng họ trong SAS. Và đó là số liệu thống kê trong bộ nhớ của chúng tôi cho Hadoop. Và đó là - về cơ bản là lớp mã cho phép chúng tôi tương tác với Máy chủ Phân tích LASR đó để phát lệnh trực tiếp và tùy chỉnh các ứng dụng đó dựa trên yêu cầu của chúng tôi. Đó là mảnh phân tích.


Làm thế nào những thứ này được thiết lập lên Oops, tôi xin lỗi các bạn. Chúng tôi đi đây.


Vì vậy, có rất nhiều cách để chúng ta làm điều này. Một là làm điều đó với dữ liệu lớn - trong trường hợp này, với Hadoop. Và đó, nơi chúng tôi có Máy chủ Phân tích SAS LASR đang chạy trong một cụm máy riêng biệt được tối ưu hóa cho các phân tích khó. Điều này được lồng vào tốt đẹp và gần với nền tảng dữ liệu lớn, cho phép chúng tôi mở rộng quy mô riêng biệt với nền tảng dữ liệu lớn. Vì vậy, chúng ta thấy mọi người làm điều này khi họ không muốn có những thứ mà tôi mô tả giống như phần mềm ma ​​cà rồng ăn ở mỗi nút trong cụm Hadoop của họ. Và họ không nhất thiết phải quy mô nền tảng dữ liệu lớn phù hợp để thực hiện các phân tích trong bộ nhớ nặng. Vì vậy, bạn có thể có 120 nút của cụm Hadoop của họ, nhưng họ có thể có 16 nút máy chủ phân tích được thiết kế để thực hiện loại công việc đó.


Chúng tôi vẫn được phép duy trì sự song song đó từ nền tảng dữ liệu lớn để kéo dữ liệu vào bộ nhớ. Vì vậy, nó thực sự là một sử dụng SAS với nền tảng Hadoop. Một mô hình cuộc hẹn khác là để nói, tốt, chúng ta cũng có thể sử dụng nền tảng hàng hóa đó và thúc đẩy nó - về cơ bản chạy Máy chủ Phân tích LASR trên nền tảng Hadoop. Vì vậy, đó là nơi mà chúng tôi có thể bạn đang hoạt động bên trong nền tảng dữ liệu lớn. Đó cũng là một số nhà cung cấp thiết bị khác của chúng tôi. Vì vậy, điều đó cho phép chúng tôi sử dụng nền tảng hàng hóa đó để thực hiện công việc đó.


Chúng tôi thấy điều đó thường xuyên hơn với những thứ như phân tích hiệu suất cao trong đó là loại phân tích sử dụng một lần hoặc sử dụng một lần, nhiều loại được định hướng theo lô trong đó - bạn không nhất thiết phải sử dụng không gian bộ nhớ tại Hadoop nền tảng. Chúng tôi rất linh hoạt với loại mô hình triển khai này, chắc chắn trong quá trình làm việc với YARN trong rất nhiều trường hợp này để đảm bảo rằng chúng tôi đã chơi các cụm tốt đẹp.


Được rồi, vì vậy mà thế giới phân tích, chỉ cần làm rõ ở đó với ứng dụng phân tích. Nhưng tôi đã đề cập rằng ngay từ đầu, SAS cũng là một nền tảng quản lý dữ liệu. Và có những thứ phù hợp để đẩy logic vào nền tảng đó khi thích hợp. Vì vậy, có một vài cách mà chúng tôi làm điều đó. Một là trong thế giới tích hợp dữ liệu, thực hiện chuyển đổi dữ liệu trên dữ liệu có thể không có ý nghĩa để kéo nó trở lại như chúng ta đã nghe trước đây, chạy các thói quen chất lượng dữ liệu mà LỚN. Chúng tôi muốn chắc chắn đẩy những thứ như chất lượng dữ liệu thường xuyên xuống nền tảng đó. Và sau đó, những thứ như mô hình ghi bàn. Vì vậy, tôi đã có mô hình của tôi phát triển. Tôi không muốn viết lại điều đó trong MapReduce và gây khó khăn và mất thời gian cho tôi để làm lại công việc đó vào nền tảng cơ sở dữ liệu riêng.


Vì vậy, nếu bạn nhìn vào, ví dụ, máy gia tốc ghi điểm của chúng tôi cho Hadoop, cho phép chúng tôi cơ bản lấy một mô hình và đẩy logic toán học SAS xuống nền tảng Hadoop đó và thực hiện nó ở đó, sử dụng song song bên trong nền tảng dữ liệu lớn đó. Sau đó, chúng tôi có trình tăng tốc mã cho các nền tảng khác nhau bao gồm Hadoop và điều đó cho phép chúng tôi chạy mã bước dữ liệu SAS bên trong nền tảng theo cách song song ồ ạt - vì vậy, thực hiện các loại công việc chuyển đổi dữ liệu trong nền tảng. Và sau đó, bộ tăng tốc chất lượng dữ liệu SAS của chúng tôi cho phép chúng tôi có một nền tảng kiến ​​thức chất lượng có thể làm những việc như khớp giới tính, mã khớp tiêu chuẩn hóa - tất cả những điều chất lượng dữ liệu khác nhau mà bạn đã nghe thấy ngày hôm nay.


Và sau đó, phần cuối cùng, có Trình tải dữ liệu. Chúng tôi biết người dùng doanh nghiệp của chúng tôi sẽ phải có khả năng không phải viết mã, thực hiện chuyển đổi dữ liệu trong các nền tảng dữ liệu lớn này. Trình tải dữ liệu là một GUI WYSIWYG đẹp cho phép chúng ta kết hợp các công nghệ khác đó lại với nhau. Nó giống như một trình hướng dẫn đi bộ để nói, chạy truy vấn Hive hoặc chạy một thói quen chất lượng dữ liệu và không phải viết mã trong trường hợp đó.


Điều cuối cùng tôi đề cập đến là phần trước này. Chúng ta có - như tôi đã đề cập trước đây - một bước chân khổng lồ trên thế giới. Và điều này, chúng ta có thể chỉ cần thực hiện tất cả các nền tảng ngoài đó để có mặt trong không gian này ngay lập tức. Vì vậy, chúng tôi chắc chắn có một lượng người dùng hiện có cần lấy dữ liệu trong các nền tảng dữ liệu lớn này như lấy dữ liệu ra khỏi Teradata và đưa nó trở lại Hadoop và ngược lại. Chạy các mô hình tôi đã biết cách chạy trên các máy chủ SAS của mình, nhưng tôi cần lấy dữ liệu mà hiện tại đang được đặt trong nền tảng Hadoop. Vì vậy, có một biểu tượng nhỏ khác có tên "từ", và cho phép chúng tôi kết nối bằng cách sử dụng các công cụ truy cập SAS của chúng tôi - các công cụ truy cập đến Hadoop tới Cloudera ở Pola, đến Teradata, với Greenplum tới, Và danh sách này vẫn tiếp tục. Điều này cho phép chúng tôi sử dụng các nền tảng SAS trưởng thành hiện có để lấy dữ liệu từ các nền tảng này, thực hiện công việc chúng tôi cần hoàn thành, đẩy kết quả trở lại vào các khu vực này.


Điều cuối cùng tôi đề cập đến là tất cả các công nghệ mà bạn thấy đều bị chi phối bởi cùng một siêu dữ liệu chung tiêu chuẩn. Vì vậy, chúng tôi nói về việc làm cho công việc chuyển đổi, quy tắc chất lượng dữ liệu tại nơi làm việc, chuyển nó vào bộ nhớ để có thể thực hiện phân tích, phát triển mô hình trong việc ghi điểm. Chúng tôi đã có được toàn bộ lối sống phân tích, vòng đời bị chi phối bởi siêu dữ liệu thông thường, bởi quản trị, bởi an ninh, bởi tất cả những điều mà chúng ta đã nói trước đó.


Vì vậy, chỉ là một bản tóm tắt, có thật sự ba thứ to lớn đó sẽ mang đi. Một là, chúng ta có thể đối xử với nền tảng dữ liệu giống như bất kỳ nguồn dữ liệu nào khác, lấy từ chúng, đẩy sang chúng khi nó phù hợp và thuận tiện. Chúng ta có thể làm việc với các nền tảng dữ liệu lớn đó, liệt kê dữ liệu vào một phân tích nâng cao được xây dựng có mục đích trong nền tảng bộ nhớ. Vì vậy, đó là máy chủ LASR.


Và cuối cùng, chúng ta có thể làm việc trực tiếp trong các nền tảng dữ liệu lớn đó, tận dụng khả năng xử lý phân phối của chúng mà không cần di chuyển dữ liệu xung quanh.


Eric: Vâng, đó là công cụ tuyệt vời, folks. Vâng, điều này thật tuyệt! Vì vậy, hãy để Lặn lặn ngay vào một số câu hỏi. Chúng tôi thường đi khoảng 70 phút hoặc lâu hơn một chút về các sự kiện này. Vì vậy, tôi thấy chúng ta vẫn có một lượng khán giả tuyệt vời ngồi ngoài đó. George, tôi đoán tôi sẽ ném câu hỏi đầu tiên của chúng tôi cho bạn. Nếu bạn nói về việc đẩy âm thanh nhị phân của bạn vào Hadoop, tôi nghĩ rằng âm thanh đó với tôi như bạn đã thực sự tối ưu hóa quy trình tính toán. Và đó là toàn bộ chìa khóa để có thể thực hiện các loại quản trị dữ liệu thời gian thực, thành tựu phong cách chất lượng dữ liệu, bởi vì đó là giá trị bạn muốn nhận được, phải không? Nếu bạn không muốn quay trở lại thế giới MDM cũ, nơi mà nó rất cồng kềnh và nó rất tốn thời gian, và bạn thực sự phải buộc mọi người hành động theo những cách nhất định, điều này gần như không bao giờ hoạt động. Và vì vậy, những gì bạn đã làm là, bạn cô đọng chu kỳ của những gì đã được. Hãy gọi Lừa gọi đó là ngày, tuần, đôi khi thậm chí vài tháng xuống vài giây, phải không? Có phải đó là những gì đang diễn ra?


George: Điều đó hoàn toàn chính xác, bởi vì quy mô chúng tôi đạt được và hiệu suất chúng tôi đạt được từ một cụm thực sự đáng kinh ngạc về mặt, chỉ là, bạn biết đấy, tôi đã luôn do dự một chút về điểm chuẩn. Nhưng chỉ theo thứ tự độ lớn, khi chúng tôi sẽ chạy một tỷ, 1,2 tỷ bản ghi và thực hiện chuẩn hóa địa chỉ hoàn chỉnh - tôi đang nói rằng máy HP tầm trung - bạn sẽ biết, như tám máy xử lý, bạn biết đấy , 2 hợp đồng RAM cho mỗi lõi, bạn biết đấy, sẽ mất 20 giờ để chạy. Chúng tôi có thể làm điều đó trong khoảng tám phút bây giờ trên một cụm 12 nút. Và do đó, quy mô xử lý mà chúng ta có thể làm bây giờ rất khác biệt - và nó rất phù hợp với ý tưởng rằng bạn có tất cả dữ liệu này theo ý của bạn. Vì vậy, nó không nguy hiểm khi xử lý. Nếu bạn làm sai, bạn có thể làm lại. Bạn đã có thời gian, bạn biết đấy. Nó thực sự đã thay đổi quy mô của điều này, ở đó, bạn biết đấy, những loại rủi ro đó thực sự đã trở thành vấn đề kinh doanh thực sự cho mọi người khi họ đang cố gắng vận hành các giải pháp MDM. Bạn phải có 30 người ở nước ngoài làm quản trị dữ liệu và mọi thứ. Và vì vậy, bạn vẫn phải có một số thứ đó, nhưng tốc độ và quy mô mà bạn có thể xử lý nó bây giờ, thực sự mang lại cho bạn nhiều phòng thở hơn.


Eric: Vâng, đó là một điểm thực sự, thực sự tốt. Tôi thích nhận xét đó. Vì vậy, bạn có thời gian để làm lại nó một lần nữa. Điều đó thật tuyệt.


George: Vâng.


Eric: Chà, nó thay đổi động lực, phải không? Nó thay đổi cách bạn nghĩ về những gì bạn sẽ thử. Ý tôi là, tôi nhớ điều này 18 năm trước trong ngành công nghiệp thực hiện các hiệu ứng đặc biệt, bởi vì tôi có một khách hàng ở trong không gian đó. Và bạn sẽ nhấn các nút để hiển thị nó và bạn về nhà. Và bạn đã trở lại, có thể vào chiều thứ bảy, để xem mọi thứ diễn ra như thế nào. Nhưng nếu bạn hiểu sai, điều đó rất, rất, rất đau đớn. Và bây giờ, nó không gần như - nó thậm chí không gần như là đau đớn để bạn có cơ hội thử nhiều thứ hơn. Tôi phải nói rằng, tôi nghĩ rằng điểm đó thực sự rất tốt.


George: Điều đó hoàn toàn chính xác. Vâng, và bạn thổi thêm chân của bạn. Bạn biết đấy, bạn đã đi được một nửa công việc trong những ngày xưa và nó thất bại, bạn đã thổi bay SOS của bạn. Đó là nó.


Eric: Phải. Và bạn gặp rắc rối lớn, yeah. Đúng rồi.


George: Đúng vậy. Đúng rồi.


Eric: Keith, hãy để tôi ném cho bạn. Tôi nhớ đã thực hiện một cuộc phỏng vấn với CIL của bạn, Keith Collins, tôi tin rằng, trở lại, tôi nghĩ, có lẽ năm 2011. Và ông đã nói rất nhiều về hướng mà SAS đang thực hiện đặc biệt liên quan đến việc hợp tác với khách hàng để đưa các phân tích có nguồn gốc từ SAS vào các hệ thống hoạt động. Và tất nhiên, chúng tôi đã nghe Mike Ferguson nói về tầm quan trọng của việc ghi nhớ. Toàn bộ ý tưởng ở đây là bạn muốn có thể kết nối công cụ này vào hoạt động của mình. Bạn không muốn phân tích trong chân không, ngắt kết nối với doanh nghiệp. Điều đó không có giá trị gì.


Nếu bạn muốn phân tích có thể trực tiếp tác động và tối ưu hóa hoạt động. Và nếu tôi nhìn lại - và tôi phải nói rằng, tôi đã nghĩ rằng đó là một ý tưởng hay hồi đó - có vẻ như đó là một ý tưởng thực sự, thực sự thông minh khi nhìn lại. Và tôi đoán, đó là một lợi thế thực sự mà các bạn có. Và tất nhiên, di sản tuyệt vời này, cơ sở cài đặt khổng lồ này và thực tế là bạn đã tập trung vào việc nhúng các phân tích này vào các hệ điều hành, có nghĩa là bây giờ - và được cho phép, nó sẽ hoạt động - tôi chắc chắn rằng bạn ' đã làm việc trên nó khá khó khăn. Nhưng bây giờ, bạn có thể tận dụng tất cả những cải tiến mới này và thực sự ở khía cạnh có thể vận hành tất cả những thứ đó với khách hàng của bạn. Đo co phải la đanh gia khach quan không?


Keith: Vâng, hoàn toàn. Khái niệm này là, bạn có ý tưởng về thiết kế quyết định hoặc khoa học quyết định, ở một mức độ nào đó mà thám hiểm, loại khoa học-y. Trừ khi bạn có thể thực hiện kỹ thuật theo quy trình để thực sự thành công Nếu bạn nghĩ về việc phát triển một chiếc xe hơi, bạn đã có những nhà thiết kế tạo ra chiếc xe đẹp này, nhưng phải đến khi các kỹ sư đưa ra kế hoạch đó và tạo ra một sản phẩm khả thi thực sự trước bạn thực sự có thể đặt mọi thứ vào vị trí, và đó chính là những gì SAS đã làm. Nó đã hợp nhất các quyết định - quy trình thiết kế quyết định với quy trình kỹ thuật quyết định với nhau, để khi bạn nói về máy gia tốc, cụ thể là máy gia tốc ghi điểm, bạn biết, nếu bạn lấy một mô hình mà bạn đã phát triển và có thể đẩy nó ra đến Teradata, hoặc đẩy nó ra Oracle hoặc Hadoop, với thời gian chết không để phát triển mô hình, để triển khai mô hình. Chìa khóa đó, bởi vì các mô hình xuống cấp theo thời gian, độ chính xác của các mô hình đó. Vì vậy, bạn càng mất nhiều thời gian hơn để đưa nó vào sản xuất, mất độ chính xác của mô hình.


Và sau đó, phần khác là, bạn muốn có thể theo dõi và quản lý quá trình đó theo thời gian. Bạn muốn loại bỏ các mô hình khi chúng cũ và không chính xác. Bạn muốn xem xét nó, kiểm tra độ chính xác của chúng theo thời gian và xây dựng lại chúng. Và do đó, chúng tôi đã có các công cụ quản lý mô hình cũng nằm trên đó, thực sự theo dõi siêu dữ liệu xung quanh quy trình được mô hình hóa. Và mọi người đã nói rằng mô hình hóa, bạn biết đấy, loại khái niệm đó giống như một nhà máy mô hình, hoặc bất cứ điều gì bạn muốn gọi nó. Vấn đề là, nó đã đưa siêu dữ liệu và quản lý vào quá trình và đó là nơi mà ba điều lớn lao chúng ta đạt được - chúng ta giúp mọi người kiếm tiền, tiết kiệm tiền và giữ họ ra khỏi tù.


Eric: Cái cuối cùng cũng khá lớn. Tôi tìm kiếm để tránh tất cả điều đó. Vì vậy, hãy để nói chuyện về ...Tôi đã đưa ra một câu hỏi cuối cùng, có lẽ mỗi bạn đều có thể nhảy vào vấn đề này. Sự không đồng nhất trong thế giới của chúng ta sẽ chỉ tăng lên, dường như đối với tôi. Tôi nghĩ rằng chúng tôi chắc chắn sẽ thấy một số kết tinh xung quanh môi trường đám mây lai. Nhưng dù sao, bạn sẽ thấy rất nhiều người chơi chính đang ở xung quanh. IBM sẽ không đi đâu cả. Oracle không đi đâu cả. SAP không đi đâu cả. Và có rất nhiều nhà cung cấp khác có liên quan đến trò chơi này.


Ngoài ra, về phía hoạt động, nơi bạn đã có hàng ngàn và hàng ngàn loại ứng dụng khác nhau. Và tôi đã nghe - hầu hết các bạn nói về điều này, nhưng tôi nghĩ cả hai bạn sẽ đồng ý với những gì tôi đã nói. Chúng tôi đã thấy xu hướng này bây giờ về mặt sức mạnh tính toán trong các công cụ phân tích, kiến ​​trúc. Các công ty đã nói chuyện nhiều năm nay về việc có thể khai thác các động cơ khác ngoài kia và phục vụ một loại điểm phối hợp. Và tôi đoán, George, tôi sẽ ném nó cho bạn trước. Dường như với tôi rằng, một thứ gì đó mà không thể thay đổi. Chúng tôi sẽ có môi trường không đồng nhất này, điều đó có nghĩa là có những thứ khác như CRM thời gian thực và chất lượng dữ liệu và quản trị dữ liệu. Bạn sẽ cần, như một nhà cung cấp, để giao tiếp với tất cả các công cụ khác nhau đó. Và đó là những gì khách hàng sẽ muốn. Họ sẽ không muốn một cái gì đó ổn với những công cụ này và không ổn với những công cụ đó. Họ sẽ muốn Thụy Sĩ của MDM và CRM, phải không?


George: Đúng vậy. Và nó rất thú vị, bởi vì chúng tôi đã chấp nhận điều đó. Một phần của nó là lịch sử chúng ta đã có trong không gian. Và rõ ràng, chúng tôi đã làm việc trên tất cả các cơ sở dữ liệu khác, Teradatas và các phần của thế giới. Và sau đó, thực hiện - trong quá trình thực hiện, cụ thể là cách chúng tôi đã làm, chỉ để nó - bạn có khoảng đó trên tất cả các cơ sở dữ liệu khác nhau. Một trong những điều mà tôi thấy thú vị là, chúng tôi có một số khách hàng hoàn toàn không muốn loại bỏ tất cả các cơ sở dữ liệu quan hệ. Và điều đó thật thú vị. Bạn biết đấy, ý tôi là, nó tốt. Thật thú vị. Nhưng tôi chỉ không thấy nó thực sự xảy ra ở quy mô doanh nghiệp lớn. Tôi không thấy nó xảy ra trong một thời gian dài. Vì vậy, tôi nghĩ rằng hybrid đã ở đây trong một thời gian dài và ở phía bên kia của ứng dụng của chúng tôi, nơi chúng tôi có nền tảng nhắn tin trong nền tảng quản lý chiến dịch của mình. Chúng tôi thực sự đặc biệt thiết kế nó. Bây giờ, chúng tôi đã phát hành một phiên bản thực hiện điều đó và có thể kết nối ngay bây giờ với môi trường dữ liệu lai và truy vấn Hadoop hoặc truy vấn bất kỳ cơ sở dữ liệu nào, bất kỳ cơ sở dữ liệu phân tích nào. Vì vậy, tôi nghĩ rằng Lợn chỉ là làn sóng của tương lai. Và tôi đồng ý rằng ảo hóa chắc chắn sẽ đóng một vai trò lớn trong việc này, nhưng chúng tôi chỉ là - chúng tôi sẽ tiếp cận dữ liệu trên tất cả các ứng dụng của mình.


Eric: Được rồi, tuyệt. Và, Keith, tôi sẽ ném nó cho bạn. Bạn nghĩ gì về thế giới không đồng nhất mà chúng ta phải đối mặt khi hoạt động như một bước chân?


Keith: Yeah, nó thật sự hấp dẫn. Tôi nghĩ, những gì chúng ta tìm thấy nhiều hơn - không chỉ ở khía cạnh quản lý dữ liệu - mà điều mà thực sự hấp dẫn ngay bây giờ là bản chất nguồn mở của cơ sở phân tích. Vì vậy, chúng tôi thấy các tổ chức như, hoặc các công nghệ như Spark xuất hiện và mọi người sử dụng Python và R và tất cả các công nghệ nguồn mở khác này. Tôi nghĩ rằng nó có thể được hiểu là một loại xung đột hoặc đe dọa ở một mức độ nào đó. Nhưng thực tế là, chúng ta có một số lời khen thực sự tuyệt vời với tất cả những công nghệ nguồn mở đó. Ý tôi là, đối với một người, chúng tôi đã hoạt động trên nền tảng nguồn mở, cho các loại rượu God God.


Nhưng cũng như khả năng tích hợp, ví dụ, một mô hình R vào mô hình SAS cho phép bạn sử dụng tốt nhất cả hai thế giới, phải không? Giống như, vì vậy chúng tôi biết rằng một số điều thử nghiệm trong thế giới học thuật và một số công việc phát triển mô hình là phi thường và siêu hữu ích trong quá trình phát triển mô hình. Nhưng ngoài ra, nếu bạn có thể ghép nối nó với một loại công cụ của lớp sản xuất, nó sẽ làm sạch rất nhiều và chất lượng và kiểm tra và đảm bảo dữ liệu đưa vào mô hình, nó đã được chuẩn bị trước để nó không bị lỗi thực hiện. Và sau đó, có thể làm những việc như các mô hình thách thức vô địch với các mô hình nguồn mở. Đó là những điều mà chúng tôi đang tìm kiếm để kích hoạt và là một phần của hệ sinh thái thực sự không đồng nhất của tất cả các công nghệ này. Vâng, vì vậy, nó nhiều hơn - đối với chúng tôi, nó có nhiều hơn về việc nắm bắt những công nghệ đó và tìm kiếm những lời khen ngợi.


Eric: Chà, đây là một thứ tuyệt vời, thưa các bạn. Chúng tôi đã đi hơi lâu ở đây, nhưng chúng tôi muốn nhận được càng nhiều câu hỏi càng tốt. Chúng tôi sẽ chuyển tiếp tệp Hỏi & Đáp cho người thuyết trình hôm nay. Vì vậy, nếu bất kỳ câu hỏi nào bạn hỏi không được trả lời, chúng tôi sẽ đảm bảo rằng nó sẽ được trả lời. Và mọi người, điều này kết thúc nó vào năm 2014. Bạn thực sự ở DM Radio vào ngày mai và tuần tới, và sau đó, nó đã hoàn thành và nó nghỉ một kỳ nghỉ.


Rất cảm ơn tất cả các bạn đã dành thời gian và sự quan tâm của bạn, vì đã gắn bó với tất cả các webcast tuyệt vời này. Chúng tôi đã có một năm tuyệt vời xếp hàng vào năm 2015. Và chúng tôi sẽ sớm nói chuyện với bạn. Cảm ơn một lần nữa. Chúng tôi sẽ chăm sóc. Tạm biệt.