Monday, 4 June 2018

Trend 1: Big data: Dữ liệu lớn

Big Data - Dữ liệu lớn
Cuối tuần của bạn vui chứ? Bạn đã làm gì? Đi xem phim, chạy bộ, đi du lịch, đi bơi? Hồi cấp 3 mình học xa nhà bằng xe đạp, mỗi chiều gần 10km, nắng cũng như mưa. Thời đó không có điện thoại di động hay mạng mẽo gì, có hôm trời mưa to, đường lụt, trường bị ngập nặng quá và thông báo nghỉ học, mà mãi tới lúc đến trước cổng trường mình mới đọc được tin, lại lóc cóc đạp xe về. 
Giờ thì hội cấp 2, cấp 3, các nhóm bạn, chỉ cần bất cứ lúc nào có hứng là hẹn hò. Ta sẽ lên mạng tìm một hồi xem quán nào gần Bờ Hồ view đẹp, đồ uống ngon, có ăn trưa, giá cả phải chăng, review tốt, rồi đặt chỗ online, xong gửi địa chỉ cho cả nhóm. Trên FB mình còn tạo plan kèm reminder trước 1 tiếng (chỉ trên mobile). Xong xuôi, tới nơi không quên chụp ảnh, check in, về nhà còn lên Google Guide để đánh giá. Vụ nào hót mình còn livestream, và hồi hộp chờ xem bao nhiêu like, share, xem ai bình luận gì. 
Chỉ một ví dụ nhỏ thôi có thể thấy khối lượng dữ liệu số mà từng cá nhân tạo ra và bổ sung vào chuỗi trong ngành tăng nhiều và nhanh đến thế nào. Nhưng thật sự có nghiên cứu nào đánh giá hoặc lượng hóa được mức độ gia tăng dữ liệu này hay không?

Tốc độ tăng của dữ liệu

Tốc độ tăng của dữ liệu. Nguồn: BCG & IDC

Theo nghiên cứu của BCG, trong những năm 80 và 90, dung lượng lưu trữ (data storage) toàn cầu tăng đều đặn khoảng 20% ​​mỗi năm. Thật thú vị vào thời điểm đó, hơn 95% là analog và chỉ 5% là kỹ thuật số (digital). Analog cơ bản là băng cassette, ảnh âm bản, phim chiếu rạp chiếu chiếu bóng, v.v. Sau đó một sự chuyển biến xảy ra. Kỹ thuật số bắt đầu trở thành định dạng lưu trữ mặc định cho thông tin. Trong năm 2000 dữ liệu dạng số đã chiếm 25% của tổng số thông tin được lưu trữ, vào khoảng 55 exabyte (EB), tức là 55 nghìn tỷ megabyte. Nếu bạn nhớ 3 định luật cơ bản chúng ta đã nói tới, bạn có thể dự đoán nó tiếp diễn thế nào. Rất nhanh chóng vào năm 2003, khoảnh khắc kỳ diệu mà dữ liệu số bằng với dữ liệu analog. Năm 2007, thông tin dạng số bùng nổ và chiếm tới 94% tổng dung lượng lưu trữ toàn cầu. 

Data storage (lưu trữ dữ liệu) 
Điều thú vị là thông tin ngày càng được lưu trữ nhiều trên máy tính, thiết bị di động, máy chủ hay địa chỉ IP và tất cả đều được kết nối toàn cầu. Nó giúp khả năng liên kết các phần thông tin khác nhau, trích dẫn, suy luận ngày càng dễ dàng và từ đó giá trị đem lại cho người dùng cũng tăng. Năm 2007, chúng ta đã có 300EB và hôm nay (2017), chúng ta đã vượt quá 4.000 EB. IDC dự đoán ​​con số này sẽ đạt 40 zettabyte hay 40.0000 EB vào năm 2020.

Định nghĩa

4V big data: Volume, Variety, Velocity, Value. Nguồn: BCG

Vậy dữ liệu lớn thực sự là gì? BCG định nghĩa dữ liệu lớn với 3 chữ V. Trước hết nó được xác định bởi khối lượng của nó (volume). Mỗi phút có khoảng 156 triệu email và 452.000 tweet được gửi trên toàn cấu. Hãy nhớ rằng chúng ta đang nói đến zettabyte dữ liệu. Ngoài ra dữ liệu còn có nhiều loại, nên dữ liệu lớn còn được xác định bởi sự đa dạng của nó (variety). Dữ liệu không chỉ được thu thập trong các tương tác có cấu trúc như khi bạn điền vào mẫu trực tuyến hay thanh toán bằng thẻ tín dụng của mình. Ngày càng có nhiều dữ liệu được lưu trữ trong các định dạng khó, không có cấu trúc, các hình ảnh, bài phát biểu bằng nhiều ngôn ngữ hoặc video khác nhau. Cuối cùng nhưng không kém phần quan trọng là dữ liệu lớn được xác định bởi vận tốc của nó (velocity). Bạn có nhớ thời bồ câu đưa thư? Mất bao lâu để gửi cho một người bạn ở nước ngoài? Ngày nay, chúng ta liên lạc với bạn bè, gia đình, người lạ... trên khắp thế giới trực tiếp ngay lúc đó qua whatsapp, viber, skype, messenger, không chỉ bằng thoại mà cả video. Tóm lại, dữ liệu lớn có nghĩa là nói tới các zettabyte dữ liệu có định dạng không cấu trúc và có thể được trao đổi nhanh chóng, ngay lập tức, góp phần vào sự tăng trưởng của dữ liệu và do đó đến khối lượng của nó. Giờ thì hẳn bạn có thể nhận ra dữ liệu lớn khi thấy nó ít nhất về mặt kỹ thuật? Nếu đội chiếc mũ kinh doanh, ta sẽ thấy thêm chữ V thứ tư. Nếu công ty chỉ có một loạt các máy chủ lưu trữ tất cả các dữ liệu cũng không làm cho nó trở thành một doanh nghiệp dữ liệu lớn. Một công ty cần có khả năng dịch dữ liệu đó thành lợi thế cạnh tranh để tạo ra giá trị (value) và tác động kinh doanh từ nó.

Tác động kinh doanh 

Tác động kinh doanh của dữ liệu lớn (big data)
Có rất nhiều khả năng sử dụng dữ liệu lớn để đem lại giá trị kinh doanh cho doanh nghiệp, cho xã hội mà ta có thể dễ dàng kể ra. Theo BCG thì 3 ứng dụng phổ biến nhất là 
  1. Cá nhân hóa cung cấp sản phẩm dịch vụ
  2. Giảm gian lận
  3. Dự đoán để bảo trì
Chúng ta cùng đi vào một số ví dụ.

Cá nhân hóa sản phẩm dịch vụ (personalization of offerings/ recommendation)

Hẳn bạn có biết Netflix là đơn vị streaming trực tuyến. Lợi thế cạnh tranh của Netflix không chỉ là tạo video trực tuyến, mà còn cải thiện toàn bộ trải nghiệm khám phá các video đó ngay từ đầu. Trên thực tế, Netflix thu thập lượng dữ liệu khổng lồ và phân tích thói quen xem của khách hàng để tạo các đề xuất và dịch vụ được cá nhân hóa. Và họ đi xa hơn nữa, họ phân tích những gì mọi người thích xem và lý do tại sao, và sử dụng dữ liệu này làm cơ sở để sản xuất hàng loạt video của riêng mình.
Bank of America có một chương trình thưởng tên là BankAmeriDeals dành các ưu đãi đặc biệt cho khách hàng bằng việc bồi hoàn tiền thông qua phân tích lịch sử giao dịch thẻ (credit & debit) của họ.
Các công ty thương mại điện tử như Amazon, Lazada, Zalora, Adayroi, Thegioididong, Tiki, Chotot... cũng áp dụng rất triệt để. Thấy Amazon còn tuyên bố sẽ trả $5 cho mỗi khách hàng bước vào cửa hàng mà không mua gì cả. Hẳn bạn nhận ra các quảng cáo gửi cho mình không tình cờ chứ?

Giảm gian lận (fraud reduction)

Giảm gian lận là một ví dụ khác về cách có thể sử dụng dữ liệu lớn để tạo ra giá trị. Các công ty thẻ tín dụng như Visa phân tích hàng tỷ giao dịch để xác định các mẫu bất thường và do đó giảm gian lận trong thời gian thực. Visa chia sẻ họ tiết kiệm được 2 tỷ đô la mỗi năm.

Mảng rủi ro tín dụng tại nhiều ngân hàng tại Việt Nam có vẻ cũng đã tích cực áp dụng khi xem xét hồ sơ cho vay dựa trên các dữ liệu xoay quanh khách hàng? Hay các hãng bảo hiểm cũng đã tích cực áp dụng trước khi bán cho khách. Chẳng vậy mà Ngân hàng nhà nước, cục phòng chống rửa tiền có chỉ đạo về Báo cáo giao dịch tiền mặt, giao dịch đáng ngờ? (thế mà không bắt được mấy vụ như Eximbank nhỉ?) Không biết ở Cục ứng dụng big data đến đâu? 

Khoảng năm 2014-2015, mình có nghe Trung Quốc thực thi chính sách "citizen credit" (xếp hạng tín dụng người dân). Họ thu thập các dữ liệu lớn trên toàn quốc, yêu cầu bắt buộc các nhà mạng và internet lớn (Alibaba, Tecent, Huawei...) phải cung cấp thông tin, kết hợp với các bình luận trên mạng và sau đó xếp người dân theo mức độ "phản động", từ đó đưa ra các chính sách phù hợp để "cai trị". Mình đọc từ bài báo là nhóm người "có nguy cơ bạo loạn" thậm chí không được cấp hộ chiếu để cấm trốn ra nước ngoài, không được vay ngân hàng và gặp rất nhiều khó khăn cả khi đi xin việc. Không rõ ông anh láng giềng triển khai nó tới đâu, nhưng mình thấy thật là "rợn tóc gáy". 

Dự đoán để bảo trì

Dữ liệu lớn cũng có thể được sử dụng để dự đoán nhằm tiến hành các bảo trì. Nghĩa là một công ty có thể sử dụng dữ liệu mà công ty thu thập về các hoạt động để dự đoán các vấn đề khi vận hành trước khi chúng xảy ra. Nó có ý nghĩa rất lớn với các ngành công nghiệp nhiều tài sản lớn như dầu khí, điện, nước, hàng không, v.v.
Ví dụ, một tập đoàn dầu khí có hàng trăm dàn khoan trên ba lục địa được kết nối với một nền tảng phân tích, tích hợp dữ liệu và tạo ra cảnh báo để tiến hành bảo trì, giúp tiết kiệm hơn 200.000 đô la mỗi năm.
Nghe nói PVEP cũng mới thuê FPT để đầu tư (10/2017) vào dữ liệu lớn, IOT, AI... nhằm chuyển đổi hiệu quả vận hành khai thác? Hồi trước cũng có khách hàng trong mảng dầu khí chia sẻ: nếu sử dụng được dữ liệu lớn nhằm tăng độ chính xác khi khoan thăm dò thì tiết kiệm cho mỗi mũi có thể lên tới vài triệu đô, chưa kể là tăng độ an toàn và bảo vệ tính mạng cho những người ở dàn khoan. Nếu EVN và các công ty con mà cũng áp dụng được cho các tuabin để tránh "xả lũ đột ngột" thì lợi ích đem lại cho bà con dọc hạ nguồn thủy điện sẽ lớn chừng nào?
Hãng hàng không Delta Airlines cũng sử dụng dữ liệu để phân tích, dự đoán, nhưng là để hỗ trợ và tăng sự hài lòng của khách hàng. Họ theo dõi các tweet chia sẻ xem khách hàng cảm thấy thế nào khi bị trễ chuyến, khi được thăng hạng bay hay về các chương trình giải trí trên chuyến bay, v.v. Ví dụ khi khách chia sẻ cảm giác khó chịu khi bị mấy hành lý trước khi chuyển chuyến, hãng sẽ chuyển tiếp cho đội ngũ hỗ trợ, cử người đại diện tới sân bay đến của khách và tặng vé thăng hạng nhất (miễn phí) cho chiều vế, cùng với thông tin hành lý ký gửi được theo dõi và khách sẽ được nhận ngay sau đó. Khách hàng lại đăng bài chia sẻ về niềm vui trong suốt chuyến bay về và đem lại nhận diện tích cực cho hãng. 
BCG đưa ra ước tính các đơn vị đi đầu trong dữ liệu lớn tạo ra doanh thu trung bình cao hơn 12% so với những công ty không phân tích tốt dữ liệu của họ.

Thách thức trong khai thác dữ liệu lớn

Xin chia sẻ một câu chuyện thú vị từ năm 2012. Một người đàn ông đến cửa hàng tạp hóa địa phương phàn nàn rằng con gái anh, đang ở tuổi vị thành niên, nhận được rất nhiều phiếu giảm giá kỳ lạ về các sản phẩm bỉm sữa cho em bé. Người quản lý cửa hàng tất nhiên đã xin lỗi và không chắc tại sao trụ sở lại gửi các tờ rơi đó. Mấy ngày sau, cửa hàng gọi lại cho anh xin lỗi và được biết rằng con gái anh ta đúng là đang có bầu.
Có nhiều ví dụ như thế, trong đó các công ty đã thực hiện việc phân tích rất tuyệt nhưng cuối cùng lại mất đi thứ có giá trị hơn nhiều, đó là niềm tin của khách hàng. Nếu bạn muốn biến dữ liệu khách hàng của mình trở thành lợi thế cạnh tranh, sự tin tưởng là điều bạn không muốn mất. Một nghiên cứu của BCG chỉ ra rằng phản ứng của khách hàng đối với việc bị lạm dụng dữ liệu có thể khiến họ giảm chi tiêu với một công ty khoảng 1/3.
Ở Việt Nam, dường như việc bán dữ liệu người dùng quá phổ biến, và cũng quá rẻ luôn, nên chắc các anh chị cũng như Huệ, nhiều khi phát rồ lên vì bị gọi điện bán dịch vụ ngân hàng, bảo hiểm, v.v. Nếu tìm ra được nhà mạng hay ngân hàng hay công ty nào bán thông tin, chắc mình ngừng dùng dịch vụ ở đó liền. 
Các anh chị còn thấy thách thức nào trong việc áp dụng, triển khai dữ liệu lớn tại doanh nghiệp mình, hoặc trong xã hội? Xin mời chia sẻ! 

Nguồn tham khảo 

Chuỗi bài về xu hướng công nghệ

Share: