Big Data/Analytics là gì? Ứng dụng dữ liệu lớn trên Thế giới và Việt Nam 2014

Theo báo cáo Top 10 xu hướng công nghệ của Gartner 2012 thì #BigData là một trong những công nghệ quan trọng nhất. Có rất nhiều điều thú vị về #BigData và cũng có rất nhiều sự nhầm lẫn về nó. Bài này sẽ cung cấp một định nghĩa “5Vs” về Big Data và các ví dụ ứng dụng của dữ liệu lớn qua các sản phẩm thực tế trên Thế giới và Việt Nam để bạn có được những hiểu biết ban đầu về một số khả năng của BigData.

Mục Bài viết hay hôm nay xin giới thiệu bài phân tích của Tiến sỹ Đinh Lê Đạt. Bạn có thể xem bài viết gốc tại đây.

Định nghĩa Big Data.

Trên thế giới có nhiều định nghĩa về Big Data. Vào năm 2001, nhà phân tích Doug Laney của hãng META Group (bây giờ chính là công ty nghiên cứu Gartner) đã nói rằng những thách thức và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mô tả bằng ba chiều “3V”: tăng về số lượng lưu trữ (volume), tăng về tốc độ xử lý (velocity) và tăng về chủng loại (variety). Giờ đây, Gartner cùng với nhiều công ty và tổ chức khác trong lĩnh vực công nghệ thông tin tiếp tục sử dụng mô hình “3V” này để định nghĩa nên Big Data. Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngoài ba tính chất trên thì còn phải “cần đến các dạng xử lí mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự vật/sự việc và tối ưu hóa các quy trình làm việc”.

Mô hình “5Vs” – năm tính chất của Big Data

Mô hình “5Vs” – năm tính chất của Big Data

Sau đây là khái niệm mới về Big Data 2014 của Gartner về mô hình “5Vs” – năm tính chất quan trọng nói lên Big Data:

Volume (Số lượng lưu trữ)

Big Data (“dữ liệu lớn”) là tập hợp dữ liệu có dung lượng lưu trữ vượt mức đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà thôi.

Velocity (Tốc độ xử lý)

Dung lượng gia tăng của dữ liệu rất nhanh và tốc độ xử lý đang tiến tới real-time. Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế – Sức khỏe ngày hôm nay phần lớn dữ liệu lớn đc xử lý real-time. Công nghệ xử lý dữ liệu lớn ngày một tiên tiến cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu.

Variety (Đa dạng chủng loại)

Hình thức lưu trữ và chủng loại dữ liệu ngày một đa dạng hơn. Trước đây chúng ta hay nói đến dữ liệu có cấu trúc thì ngày nay hơn 80% dữ liệu trên thế giới được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, voice v.v.). Công nghệ Big Data cho phép chúng ta ngày nay liên kết và phân tích đa dạng chủng loại dữ liệu với nhau như comments/post của một nhóm người dùng nào đó trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter.

Veracity (Độ chính xác)

Một trong những tính chất phức tạp nhất của BigData là độ chính xác của dữ liệu. Với xu hướng Social Media và Social Network ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của BigData.

Value (Giá trị thông tin)

Giá trị thông tin là tính chất quan trọng nhất của xu hướng công nghệ Big Data. Ở đây doanh nghiệp phải hoạch định được những giá trị thông tin hữu ích của BigData cho vấn đề, bài toán hoặc mô hình hoạt động kinh doanh của mình. Có thể nói việc đầu tiên là phải xác định được tính chất “Value” thì mới nên bắt tay vào BigData.

Việt Nam đang ngày càng gia tăng tốc độ phát triển và hội nhập với các xu hướng công nghệ thế giới. Với hơn 30 triệu người dùng Internet và hơn 15 triệu ngươi dùng Mobile Internet làm cho Việt Nam đang đứng trước một cơ hộ vô cùng lớn về khai thác dữ liệu lớn. Sẽ có những doanh nghiệp Việt Nam khai thác thành công dữ liệu lớn với doanh số hàng trăm triệu USD trong vòng 5 năm tới. Đặc biệt, giai đoạn 2014-2016, xu hướng Mobile và lượng người dùng Internet 3G sẽ tiếp tục tăng mạnh. Các dịch vụ kết nối OTT (Over-the-top) và truyền thông xã hội đóng góp hơn 80% phương thức giao tiếp online, video online và nội dung số mobile. Điều này góp phần đẩy mạnh xu hướng truyền thông số đa phương tiện, đa màn hình (PC, smartphone , tablet, smart TV) sẽ bùng nổ với độ phủ hơn 50% dân số Việt Nam. Việt Nam là một kho “vàng” dữ liệu vô cùng lớn cho việc ứng dụng Big Data.

Sau đây là slide trình bầy “Big data/Analytics 5Vs – View from World to Vietnam 2014” qua góc nhìn của chuyên gia công nghệ FPTTS. Đinh Lê Đạt:

Big data 5Vs 2014 – View from World to Vietnam by Dinh Le Dat from Dat Dinh Le

  1. 5Vs of Big Data/Analytics
    • Volume
    • Variety
    • Velocity
    • Veracity
    • Value
  2. Big Data in the World:
    • Internet: Google, FB, Twitter, Amazon, eBay
    • Mobile: Nokia-MS, Uber app
    • Healthcare: IBM Watson, Google Flu
    • Transport: Fedex, Boeing, F1,
    • Cloud: Amazon Web Service
    • National and Social Security: PRISM (Edward Snowden)
    • Political: Digital President Obama 2012
    • Finance: New Stock Exchange, JP Morgan
    • Sport: English Premier League, Manchester United FC
  3. Big Data in Vietnam 2014-2016:
    • Internet: FPT, VNG, VCCorp
    • Telecom: FPT Telecom, Viettel
    • Banking: Vietcombank
    • Media: VnExpress, eClick.vn
    • Retail & Distribution: TheGioiDiDong, FPT Retail/FPT Shop
    • Transport: Vietnam Airline
  4. Your Future Starts Now!
    • Q&A

Triển khai dữ liệu lớn bắt đầu từ đâu?

Dựa trên mô hình “5Vs” doanh nghiệp có thể xác định các yếu tố dữ liệu của mình xem có liên quan tới Big Data không? Điều quan trọng nhất để triển khai hiệu quả Big Data thì doanh nghiệp cần xác định được tính chất “Value” trong mô hình “5Vs“. Để làm rõ hơn nhu cầu và tính khả thi của việc triển khai Big Data trong doanh nghiệp của mình bạn cần trả lời cho 3 câu hỏi sau:

  1. Vấn đề doanh nghiệp đang gặp là gì?

Doanh nghiệp cần xác định rất rõ vấn đề hoặc bài toán trong kinh doanh mà cần giải quyết hoặc tối ưu. Ví dụ: bạn là một cty bán lẻ, phân phối hay eCommerce cần gia tăng số lượng đơn hàng/tháng.

  1. Bạn có gặp nhiều vấn đề liên quan tới dữ liệu ko?

Trong vận hành kinh doanh bạn có gặp các vấn đề liên quan tới dữ liệu không? Hoặc nói cách khác là trong quy trình hệ thống bán hàng của bạn có tận dụng nhiều dữ liệu ko? Bạn cần làm rõ các tính chất “5Vs” Big Data trong hoạt động kinh doanh của mình. Ví dụ: Một trang web bán hàng online thì hầu hết dữ liệu hoạt động của dịch vụ và thông tin khách hàng đều được lưu trữ lại, bài toán marketing cho eCommerce có liên quan tới rất nhiều dữ liệu khách hàng và thị trường (Online/Offline).

  1. Phân tích dữ liệu lớn có giúp bạn giải quyết vấn đề đó không?

Thường thì để trả lời cho câu hỏi này bạn cần một nhóm chuyên gia BigData cho lĩnh vực hoạt động kinh doanh của bạn. Vấn đề được đặt ra là phải trả lời và hoạch định rõ tính chất “Value” Big Data đối với vấn đề hoặc bài toán bạn quan tâm. Đây cũng là chữ “V” quan trọng nhất trong mô hình “5Vs”. Hãy đừng vội vàng triển khai Big Data trong doanh nghiệp nếu bạn chưa có câu trả lời cho câu hỏi này. Ví dụ: Amazon là một web Commerce đã đặt ra mục tiêu thay vì “Làm sao để bán hàng?” thì họ xác định luôn là “Làm sao để bán mặt hàng tiếp theo?”. Và với mô hình kinh doanh Online/Offline này Amazon đã tận dụng Big Data rất hiệu qua cho việc tối ưu hóa các quy trình vận hành từ tự động cho đến bán tự động. Hệ thống website, affiliate, marketing và CRM của cty hoạt động trên Big Data để thấu hiểu nhu cầu khách hàng khi mua sắm trên Amazon. Hệ thống Recommendation của Amazon được xem là một trong những hệ thống khuyến nghị người dùng mua sắm tốt nhất thế giới với lợi thế vượt trội hơn Google. Facebook ở dữ liệu mua bán của người tiêu dùng.

 

Big Data thay đổi thế giới.

Mọi khía cạnh trong đời sống của chúng ta đều sẽ bị ảnh hưởng bởi dữ liệu lớn. Linkedin chỉ ra các ứng dụng dữ liệu lớn được sử dụng phổ biến nhất cũng như tạo ra được những lợi ích cao nhất trong 10 lĩnh vực.

  1. Sự hiểu biết và khách hàng mục tiêu (Internet, Mobile và Digital Marketing)

Đây là một trong những lĩnh vực lớn nhất và được công bố công khai nhất cách dữ liệu lớn được sử dụng ngày nay. Ở đây, dữ liệu lớn được sử dụng để hiểu rõ hơn về khách hàng và hành vi cũng như sở thích của họ.

Các công ty đều mong muốn mở rộng tập hợp dữ liệu truyền thống với các dữ liệu truyền thông xã hội, trình duyệt web cũng như phân tích văn bản và dữ liệu cảm biến để có được một bức tranh hoàn chỉnh hơn về khách hàng của họ. Trong nhiều trường hợp, mục tiêu lớn hơn là để tạo ra mô hình dự báo.

Nhờ dữ liệu lớn, nhà bán lẻ Target (Mỹ), những người có thể dự đoán rất chính xác khi nào một khách hàng của họ sẵn sàng mang thai. Ảnh: CBSnews.

Nhờ dữ liệu lớn, nhà bán lẻ Target (Mỹ), những người có thể dự đoán rất chính xác khi nào một khách hàng của họ sẵn sàng mang thai. Ảnh: CBSnews.

Bạn có thể ghi nhớ về ví dụ của nhà bán lẻ Target (Mỹ), những người có thể dự đoán rất chính xác khi nào một khách hàng của họ sẵn sàng mang thai. Sử dụng dữ liệu lớn, các công ty viễn thông có thể dự đoán tốt hơn về việc khách hàng rời mạng. Hay Wal-Mart có thể dự đoán sản phẩm gì sẽ được bán ra, và các công ty bảo hiểm xe hơi hiểu khách hàng của họ thực sự lái xe như thế nào.

Ngay cả chiến dịch bầu cử của Mỹ cũng có thể được tối ưu hóa bằng việc sử dụng phân tích dữ liệu lớn. Các chuyên gia cho rằng, ông Obama giành chiến thắng trong chiến dịch bầu cử năm 2012 là do khả năng vượt trội của đội ngũ sử dụng khả năng phân tích dữ liệu lớn.

  1. Sự hiểu biết và tối ưu hóa quy trình kinh doanh

Dữ liệu lớn cũng ngày càng được sử dụng để tối ưu hóa quy trình kinh doanh. Các nhà bán lẻ có thể tối ưu hóa giá cả và lượng hàng hóa của họ dựa trên các dự đoán được tạo ra từ dữ liệu phương tiện truyền thông xã hội, xu hướng tìm kiếm web và dự báo thời tiết. Một quy trình kinh doanh với rất nhiều phân tích dữ liệu lớn là chuỗi cung ứng hoặc cung cấp lộ trình tối ưu hóa. Ở đây, cảm biến nhận dạng tần số vô tuyến định vị và địa lý được sử dụng để theo dõi hàng hóa, phương tiện giao hàng và các tuyến đường tối ưu bằng cách tích hợp dữ liệu giao thông trực tiếp.

Lĩnh vực nhân sự cũng đang được cải thiện bằng cách sử dụng phân tích dữ liệu lớn. Điều này bao gồm việc tối ưu hóa của việc ‘săn’ tài năng, cũng như đánh giá nền văn hóa công ty và sự tham gia của nhân viên trong việc sử dụng công cụ dữ liệu lớn.

  1. Định lượng cá nhân và tối ưu hóa hiệu suất

Dữ liệu lớn không chỉ dành cho các công ty và chính phủ mà còn cho từng cá nhân. Ngày nay chúng ta có thể được hưởng lợi từ dữ liệu được tạo ra từ các thiết bị đeo như đồng hồ thông minh hoặc vòng đeo tay thông minh.

Lấy sợi dây Up của Jawbone làm ví dụ: Sợi dây thu thập dữ liệu về việc tiêu thụ calo của chúng ta, mức độ hoạt động, và mô hình giấc ngủ. Ngoài việc mang lại cho cá nhân những hiểu biết phong phú, giá trị hơn cả là trong việc phân tích các dữ liệu thu thập được.

Trong trường hợp Jawbone, công ty hiện thu thập giá trị của dữ liệu giấc ngủ mỗi đêm trong vòng 60 năm. Phân tích khối lượng dữ liệu lớn này sẽ mang lại cái nhìn hoàn toàn mới để phản hồi cho người dùng cá nhân. Các lĩnh vực khác, nơi mà chúng ta được hưởng lợi từ phân tích dữ liệu lớn chính là việc tìm kiếm tình yêu trực tuyến. Các trang web hẹn hò trực tuyến lớn nhất đang áp dụng công cụ dữ liệu lớn và các thuật toán để tìm thấy người phù hợp nhất cho chúng ta.

  1. Cải thiện chăm sóc sức khỏe và y tế công

Khả năng tính toán, phân tích dữ liệu lớn cho phép chúng ta giải mã toàn bộ chuỗi DNA trong vài phút và tìm ra những phương pháp chữa trị mới, nhằm hiểu rõ hơn cũng như dự đoán mô hình bệnh. Hãy nghĩ về điều gì sẽ xảy ra khi tất cả các dữ liệu cá nhân, từ đồng hồ thông minh và các thiết bị đeo, có thể được sử dụng để áp dụng cho hàng triệu người và các căn bệnh khác nhau của họ. Các thử nghiệm lâm sàng trong tương lai sẽ không bị giới hạn bởi kích thước mẫu nhỏ mà sẽ có khả năng bao quát tất cả mọi người!

Kỹ thuật dữ liệu lớn đã được sử dụng để giám sát trẻ sơ sinh trong chuyên khoa chăm sóc trẻ sinh non và khoa bệnh nhi. Bằng cách ghi lại và phân tích từng nhịp tim và mô hình thở của mỗi bé, các nhà khoa học đã có thể phát triển những thuật toán có thể dự đoán nhiễm trùng trong vòng 24 giờ trước khi các triệu chứng vật lý xuất hiện. Bằng cách đó, nhóm nghiên cứu có thể can thiệp sớm và giữ lại mạng sống cho những đứa trẻ mà thời gian sống chỉ tính bằng giờ.

Hơn nữa, phân tích dữ liệu lớn cho phép chúng ta theo dõi, dự đoán sự phát triển của dịch bệnh và sự bùng phát dịch bệnh. Tích hợp dữ liệu từ hồ sơ y tế với phân tích phương tiện truyền thông xã hội cho phép chúng ta giám sát dịch cúm trong thời gian thực, chỉ đơn giản bằng cách lắng nghe những gì mọi người đang đề cấp đến, ví dụ như: “Cảm giác như người thừa hôm nay – trên giường với bệnh cảm lạnh”.

  1. Cải thiện hiệu suất thể thao

Hầu hết các môn thể thao hiện đại đều áp dụng phân tích dữ liệu lớn. Chúng ta có công cụ SlamTracker của IBM dành cho các giải đấu quần vợt. Chúng ta sử dụng phân tích video để theo dõi hiệu suất của mỗi cầu thủ trong bóng đá hoặc bóng chày, và công nghệ cảm biến trong các thiết bị thể thao như bóng rổ hay các câu lạc bộ golf cho phép chúng ta có được thông tin phản hồi (thông qua điện thoại thông minh và các máy chủ điện toán đám mây) về hiệu suất thi đấu của mình và làm thế nào để cải thiện nó.

Big Data được áp dụng trong thể thao, chẳng hạn công cụ SlamTracker của IBM dành cho các giải đấu quần vợt. Ảnh: AFP.

Big Data được áp dụng trong thể thao, chẳng hạn công cụ SlamTracker của IBM dành cho các giải đấu quần vợt. Ảnh: AFP.

Nhiều đội thể thao có tiếng còn theo dõi các vận động viên bên ngoài của môi trường thể thao, như sử dụng công nghệ thông minh để theo dõi chế độ dinh dưỡng và giấc ngủ, cũng như các cuộc hội thoại truyền thông xã hội để nhận biết tâm tư, tình cảm.

  1. Nâng cao khoa học và nghiên cứu

Khoa học và nghiên cứu hiện đang biến đổi rất nhanh bởi các khả năng mới mà dữ liệu lớn mang lại. Lấy ví dụ, CERN, phòng thí nghiệm vật lý hạt nhân Thụy Sĩ với chiếc máy gia tốc hạt lớn nhất và mạnh nhất thế giới, Large Hadron Collider. Với những thí nghiệm để mở khóa những bí mật của vũ trụ, cách hình thành và vận hành ra sao, đã tạo ra một lượng lớn dữ liệu.

Các trung tâm dữ liệu của CERN có 65.000 bộ vi xử lý để phân tích 30 petabyte dữ liệu. Tuy nhiên, nó sử dụng các quyền hạn tính toán của hàng nghìn máy tính phân phối tại 150 trung tâm dữ liệu trên toàn thế giới để phân tích. Quyền hạn tính toán như vậy có thể được thừa hưởng và làm biến đổi rất nhiều lĩnh vực khác của khoa học và nghiên cứu.

  1. Tối ưu hóa hiệu suất máy móc và thiết bị

Phân tích dữ liệu lớn giúp máy móc và thiết bị trở nên thông minh và độc lập hơn. Ví dụ, các công cụ dữ liệu lớn được sử dụng để vận hành xe hơi tự lái của Google. Toyota Prius được trang bị máy ảnh, GPS cũng như các máy tính mạnh mẽ và bộ cảm biến để lái xe an toàn trên đường mà không có sự can thiệp của con người. Công cụ dữ liệu lớn cũng được sử dụng để tối ưu hóa lưới điện năng lượng sử dụng dữ liệu từ công-tơ thông minh. Chúng ta thậm chí có thể sử dụng công cụ dữ liệu lớn để tối ưu hóa hiệu suất của máy tính và các kho dữ liệu.

  1. Cải thiện an ninh và thực thi pháp luật

Dữ liệu lớn được áp dụng rất nhiều trong việc cải thiện an ninh và cho phép thực thi pháp luật. Cơ quan An ninh Quốc gia Mỹ (NSA) sử dụng phân tích dữ liệu lớn để chống âm mưu khủng bố (và có thể gián điệp trên tất cả chúng ta). Các đơn vị khác sử dụng kỹ thuật dữ liệu lớn để phát hiện và ngăn chặn các cuộc tấn công không gian mạng. Lực lượng cảnh sát sử dụng các công cụ dữ liệu lớn để bắt tội phạm và thậm chí dự đoán hoạt động tội phạm, và những công ty thẻ tín dụng sử dụng dữ liệu lớn dùng nó để phát hiện các giao dịch gian lận.

 

Large Hadron ColliderCERN, chiếc máy gia tốc hạt lớn nhất và mạnh nhất thế giới. Ảnh: CERN.

Large Hadron ColliderCERN, chiếc máy gia tốc hạt lớn nhất và mạnh nhất thế giới. Ảnh: CERN.

  1. Cải thiện và tối ưu hóa các thành phố, quốc gia

Dữ liệu lớn được sử dụng để cải thiện nhiều khía cạnh của các thành phố và quốc gia. Ví dụ như nó cho phép các thành phố tối ưu hóa luồng giao thông dựa trên thông tin giao thông trong thời gian thực cũng như dữ liệu trên các phương tiện truyền thông xã hội và dữ liệu thời tiết. Một số thành phố đang thực hiện thí điểm phân tích dữ liệu lớn với mục đích biến mình thành thành phố thông minh, nơi mà cơ sở hạ tầng giao thông và các quy trình tiện ích đều được kết nối với nhau. Nơi một chiếc xe buýt sẽ chờ một đoàn tàu đến trễ và nơi tín hiệu giao thông dự đoán khối lượng giao thông và hoạt động để giảm thiểu ùn tắc.

  1. Kinh doanh tài chính

Thể loại cuối cùng về ứng dụng dữ liệu lớn đến từ các giao dịch tài chính. Tần số giao dịch cao (HFT) là một lĩnh vực nơi dữ liệu lớn được sử dụng rất nhiều ngày nay. Ở đây, thuật toán dữ liệu lớn được sử dụng để đưa ra các quyết định giao dịch. Ngày nay, phần lớn các giao dịch cổ phiếu diễn ra thông qua các thuật toán dữ liệu dựa ngày càng nhiều vào tín hiệu tài khoản từ các mạng truyền thông xã hội và các trang web tin tức để đưa ra quyết định mua và bán trong từng giây.

About Nguyễn Cường

Nguyễn Cao Cường là một nhà báo, giảng viên chuyên ngành truyền hình tại Trường Đại học Khoa học Xã hội & Nhân văn, ĐH Quốc gia Hà Nội. Các hướng nghiên cứu chính: truyền hình, truyền thông xã hội và quản trị truyền thông.

Bình luận

bình luận