0

Big Data: Một đề tài nóng, một câu chuyện đơn giản

Theo dự báo mới nhất của IDC, dữ liệu lớn (Big Data) sẽ là một trong những công nghệ chủ đạo của năm 2012, với khối lượng dữ liệu số lên tới 2,7 zettabytes, tăng 48% so với năm 2011. Dữ liệu lớn được đề cập đến như là khối dữ liệu được liên tục sản sinh, dưới mọi hình thức và định dạng khác nhau và được cho là sẽ tạo ra cho doanh nghiệp nhiều thách thức.

big dataDữ liệu lớn đang là một đề tài nóng, thu hút rất nhiều sự quan tâm của giới công nghệ thông tin, nhưng theo ông Phạm Thế Trường, Giám đốc kinh doanh, khối giải pháp công nghệ của Oracle Việt Nam, đằng sau sự hào nhoáng đó lại là một câu chuyện đơn giản.
Kho báu dữ liệu phi truyền thống

Trong nhiều thập kỷ qua, các công ty thực hiện việc ra quyết định kinh doanh dựa trên những dữ liệu giao dịch được lưu trữ trong các cơ sở dữ liệu quan hệ.

Tuy nhiên, ngoài dữ liệu quan trọng đó còn có một kho báu tiềm ẩn của những dữ liệu phi truyền thống và ít có tính cấu trúc hơn, như weblogs, mạng xã hội, e-mail, các dữ liệu cảm biến và các bức ảnh mà có thể được khai thác nhằm tìm ra những thông tin hữu ích. Ngày nay, nhiều công ty tìm cách lồng các dữ liệu phi truyền thống này với dữ liệu doanh nghiệp truyền thống vào hoạt động phân tích thông tin trong doanh nghiệp của mình nhằm chọn lọc những thông tin quan trọng, có ý nghĩa cho việc kinh doanh.

Ông Phạm Thế Trường nói rằng, các trường hợp sử dụng dữ liệu lớn trong thực tế có rất nhiều và xuất hiện ở hầu như tất cả các ngành. Trong việc cung cấp các dịch vụ y tế chẳng hạn, việc quản lý bệnh mãn tính kèm theo các điều kiện điều trị dài hạn sẽ trở nên đắt đỏ. Việc sử dụng các thiết bị giám sát tại nhà riêng để đo lường những biểu hiện bệnh lý quan trọng và giám sát sự tiến triển của bệnh là cách thức sử dụng dữ liệu cảm biến để tăng cường sức khỏe cho bệnh nhân, giảm được số lần đi khám bệnh và nhập viện.

Trong khi đó, các công ty sản xuất triển khai các chip cảm biến trong sản phẩm của họ để thu thập số liệu đo lường từ xa. Đôi khi các kết quả thu được được sử dụng để cung cấp các dịch vụ như là OnStar cho các dịch vụ truyền thông, an ninh và tìm đường. Điều quan trọng hơn là việc đo lường từ xa này còn bộc lộ các hình mẫu gợi ý, tỷ lệ hỏng hóc và các cơ hội khác để cải tiến sản phẩm, giúp hạ thấp chi phí phát triển và lắp ráp.

Các đơn vị bán lẻ thường không biết nhiều về những người mua hàng của họ. Việc sử dụng mạng xã hội và các tập tin từ nhật ký web trên các trang web thương mại điện tử có thể giúp họ biết được những ai không mua hàng và lý do không mua. Điều đó có thể hỗ trợ cho việc phân loại khách hàng cùng với các chiến dịch tiếp thị chi tiết, hữu hiệu hơn và đồng thời nâng cao hiệu quả của chuỗi cung ứng. Các cửa hàng không thể đạt được những thành tựu đó nếu vẫn thu thập thông tin theo kiểu truyền thống.

Nói một cách khác, khi kết hợp các dữ liệu phi truyền thống với dữ liệu doanh nghiệp truyền thống trong hoạt động phân tích thông tin trong doanh nghiệp, các doanh nghiệp có thể có được những khối lượng thông tin có giá trị sử dụng, từ đó giúp họ mở rộng sự hiểu biết một cách thấu đáo và toàn diện về doanh nghiệp của mình, giúp nâng cao năng suất, cải thiện năng lực cạnh tranh và đẩy mạnh sự sáng tạo – tất cả những điều đó có thể tạo ra ý nghĩa lớn đối với doanh thu trong hoạt động kinh doanh.

Tuy nhiên, theo ông Thiều Phương Nam, Phó tổng giám đốc IBM Việt Nam, dữ liệu lớn tạo ra trong các hoạt động kinh doanh mang lại cho các doanh nghiệp không chỉ cơ hội mà còn sự thách thức. Doanh nghiệp nào quản lý thành công dữ liệu lớn sẽ có nhiều cơ hội trong việc rút ngắn thời gian đưa ra các sản phẩm, dịch vụ mới, trong mục tiêu phục vụ khách hàng nhanh chóng và chính xác hơn và tạo được lợi thế cạnh tranh lớn trên thị trường.

Mặt khác, các doanh nghiệp cũng phải đối mặt với sự thách thức là làm thế nào để có thể thu lợi từ hàng loạt nguồn dữ liệu gia tăng, bao gồm nhiều dạng dữ liệu – dữ liệu có cấu trúc, dữ liệu phi cấu trúc và bán cấu trúc (80% dữ liệu trên thế giới hiện ở dạng phi cấu trúc). Sự thách thức không chỉ nằm ở khả năng quản lý và xử lý dữ liệu, mà còn ở tốc độ và sự lựa chọn cách thức xử lý có hiệu quả nhất (Xem thêm bài viết “Ba bước quan trọng để khai thác dữ liệu doanh nghiệp”).

Doanh nghiệp Việt Nam với dữ liệu lớn

Vị đại diện IBM Việt Nam cho biết, ở Việt Nam việc giải quyết thách thức về dữ liệu lớn cũng đang là một điều ưu tiên trong việc đầu tư công nghệ thông tin của các tổ chức và doanh nghiệp có tầm nhìn chiến lược, đặc biệt là các doanh nghiệp trong các lĩnh vực hướng mạnh tới người dùng cuối và các ngành có khối lượng giao dịch, dữ liệu lớn như ngân hàng, bán lẻ, chứng khoán… Có điểm hơi khác trong nhận định của mình khi ông Phạm Thế Trường của Oracle cho rằng các chương trình triển khai xử lý dữ liệu lớn chỉ mới bắt đầu trên toàn cầu trong khi các doanh nghiệp Việt Nam mới đang ở giai đoạn cân nhắc.

Tuy vậy, các vị đại diện của IBM và Oracle đều thống nhất rằng, dữ liệu lớn là một xu hướng tất yếu. Và trước khối lượng dữ liệu kinh doanh và dữ liệu khách hàng gia tăng mạnh mẽ đi cùng với sự phát triển của doanh nghiệp, cùng với môi trường cạnh tranh gay gắt, thì yêu cầu đặt ra với các doanh nghiệp là phải quản lý hữu hiệu nguồn dữ liệu, xử lý thành thông tin chiến lược, làm nền tảng để đưa ra những chiến lược kinh doanh đúng đắn.

“Trong nền kinh tế toàn cầu, dữ liệu lớn có tiềm năng tăng trưởng rất lớn, trong đó thị trường Việt Nam sẽ theo kịp các quốc gia khác trong việc ứng dụng dữ liệu lớn phục vụ việc phát triển kinh doanh. Hiện nay, các nhà mạng viễn thông tại Việt Nam cần phải phân tích không chỉ những dữ liệu trong nội bộ từ các nguồn dữ liệu truyền thống mà còn những thông tin thu thập được từ những môi trường mới như các trang mạng xã hội và môi trường di động. Đó sẽ chỉ là vấn đề thời gian để các nhà mạng viễn thông ứng dụng các nền tảng xử lý dữ liệu lớn nhằm tồn tại và phát triển trong một môi trường có mức độ cạnh tranh khốc liệt”, ông Phạm Thế Trường nói.
Những thông tin ghi nhận được từ IBM cho thấy, đã có một số công ty Việt Nam bắt đầu có suy nghĩ nghiêm túc về dữ liệu lớn, như Công ty cổ phần Chứng khoán KIS Việt Nam với việc lựa chọn hệ thống đĩa lưu trữ tầm trung IBM Storwize V7000 để tăng cường khả năng lưu trữ, xử lý và quản lý nguồn dữ liệu ngày càng gia tăng. Còn Ngân hàng Á Châu (ACB) là một trong những ngân hàng đầu tiên ở Việt Nam xây dựng một trung tâm dữ liệu dạng mô-đun theo tiêu chuẩn quốc tế để đón xu hướng dữ liệu lớn.

Không chỉ có các doanh nghiệp nhận thấy tầm quan trọng trong việc ưu tiên cho chiến lược CNTT dữ liệu lớn, nhiều tổ chức chính phủ cũng đã triển khai những giải pháp CNTT tiên tiến nhất để quản lý dữ liệu có hiệu quả và an toàn. Điển hình trong số này có Tổng cục Hải quan (Bộ Tài chính) hay Cục Công nghệ Thông tin (Bộ Tài nguyên và Môi trường) với giải pháp quản lý dữ liệu IBM DB2 để tập trung một cách có hiệu quả và quản lý thành công nguồn dữ liệu to lớn về biển.

Ông Hoàng Lam Sơn, Phó cục trưởng CNTT của Bộ Tài nguyên và Môi trường, cho biết giải pháp CNTT của IBM đã và đang giúp cục nâng cao hơn nữa việc quản lý thông tin không gian địa lý bằng thông tin chuẩn hóa và đáng tin cậy, cung cấp một cái nhìn đồng nhất về dữ liệu “Biển và Hải đảo” cho người dùng cuối, và cung cấp cho họ cả thông tin không gian địa lý và những dữ liệu khác liên quan đến các lĩnh vực tài nguyên môi và trường như tài nguyên đất, tài nguyên nước, môi trường, khí tượng thủy văn và biến đổi khí hậu, địa chất khoáng sản.

Cần một chiến lược về dữ liệu lớn

Nói đến dữ liệu lớn, không thể không nói đến các công cụ phân tích dữ liệu. Thực tế cho thấy chỉ những doanh nghiệp sử dụng dữ liệu lớn cùng với các biện pháp phân tích dữ liệu biến đổi mới tạo ra những cơ hội mới trong kinh doanh. Để giải quyết vấn đề dữ liệu lớn, doanh nghiệp được cho là không chỉ cần một giải pháp CNTT đơn lẻ, mà còn cần chiến lược dữ liệu lớn, gồm nhiều giai đoạn quản lý và xử lý dữ liệu ở các mức độ khác nhau như lưu trữ dữ liệu, kho dữ liệu, bảo mật dữ liệu, tích hợp dữ liệu và phân tích dữ liệu.

Chiến lược này có thể được thực hiện trong nhiều năm, với các mức đầu tư ở mỗi giai đoạn khác nhau, tùy vào mức độ ưu tiên và nhu cầu của doanh nghiệp tại mỗi thời điểm.

Big Data là gì?

Trong công nghệ thông tin, thuật ngữ Big Data (dữ liệu lớn) chỉ những tập hợp dữ liệu phát triển nhanh chóng và rộng khắp dưới nhiều hình thức khác nhau, làm cho chúng vượt quá khả năng xử lý của những hệ thống cơ sở dữ liệu truyền thống. Mỗi ngày, chúng ta tạo ra 2,5 quintillion (1030) bytes dữ liệu. Khối lượng dữ liệu mới được tạo ra nhiều và nhanh đến mức mà hai năm gần đây nhất chiếm đến 90% khối lượng dữ liệu trên thế giới hiện nay. Những dữ liệu này tới từ mọi nơi – ví dụ như từ những chiếc cảm biến để thu thập thông tin thời tiết, những thông tin được cập nhật trên các trang web mạng xã hội, những bức ảnh và video kỹ thuật số được đưa lên mạng, dữ liệu giao dịch của các hoạt động mua sắm trên mạng… – dưới mọi hình thức khác nhau (có cấu trúc, phi cấu trúc, bán cấu trúc). Đó chính là dữ liệu lớn.

Dữ liệu lớn có ba đặc trưng cơ bản: dung lượng lớn, vận tốc lớn và tính đa dạng.

Dữ liệu lớn không chỉ là thách thức dành cho tổ chức và doanh nghiệp; hơn thế, dữ liệu lớn là cơ hội để tìm kiếm những thông tin chiến lược từ những dạng dữ liệu mới, để bảo đảm rằng công việc kinh doanh bền vững, có hiệu quả hơn, và cũng là cơ hội để tìm ra câu trả lời cho những vấn đề mà trước đây chưa có lời giải đáp.

Theo IBM

Nguồn Thời báo Kinh tế Sài Gòn

dred