0

Đại dữ liệu: Thử thách lớn, cơ hội lớn

Lượng thông tin khổng lồ ẩn chứa trong các đại dữ liệu sẽ là vũ khí cạnh tranh cho doanh nghiệp trong thời đại mới.

Yahoo Hadoop

Trung tâm dữ liệu của yahoo! ở La Vista.

Trong vài năm trở lại đây, những đại gia công nghệ Mỹ như Oracle, IBM, Microsoft, EMC và Đức như SAP đã chi hơn 20 tỉ USD để mua lại những công ty phần mềm chuyên về quản trị và phân tích dữ liệu, lĩnh vực đang được định giá vào khoảng 100 tỉ USD và có tốc độ tăng trưởng trung bình 10%/năm, gấp đôi mức tăng trưởng của ngành phần mềm nói chung. Điều gì đang xảy ra?

Từ cuộc cách mạng dữ liệu…

Tốc độ phát triển thông tin, dữ liệu trên toàn cầu đang diễn ra với tốc độ chóng mặt. Chỉ trong 2 năm trở lại đây, nhân loại đã sản sinh ra 90% lượng dữ liệu mà chúng ta hiện có. Có một so sánh vui rằng nếu tổng dung lượng dữ liệu vào đầu thế kỷ XX là một hộp đựng giày thì ngày nay, chiếc hộp đó đã nở đến kích thước bằng 20 sân vận động cộng lại.

Hiện nay, cứ mỗi giờ, nhà bán lẻ Mỹ Wal-Mart phải xử lý hơn 1 triệu giao dịch. Mạng xã hội Facebook phải quản lý hơn 50 tỉ bức ảnh và xử lý 30 tỉ nội dung thông tin được chia sẻ mỗi tháng. Google phải xây dựng hàng ngàn nhà xưởng chỉ dùng để chứa hệ thống máy chủ, phục vụ quá trình xử lý các lệnh tìm kiếm. Trong năm 2010, thế giới có hơn 6,8 tỉ người nhưng đã có đến 5 tỉ điện thoại di động mà 12% trong số đó là điện thoại thông minh. Và mức tăng trưởng dữ liệu toàn cầu hiện đạt trung bình 40%/năm. Đó là những “big data” (đại dữ liệu) mà con người đang phải xử lý.

Theo hãng nghiên cứu Mỹ McKinsey, big data là một gói dữ liệu có kích thước lớn hơn khả năng lưu trữ, quản lý và phân tích của các loại phần mềm dữ liệu. Hiện tại, không có giới hạn cố định về kích thước của big data. Khi công nghệ thông tin ngày càng phát triển, giới hạn kích thước để một gói dữ liệu được gọi là big data cũng tăng theo. Giới hạn này cũng khác nhau giữa các ngành do đặc thù của từng ngành. Ước tính, các big data hiện nay thường có kích thước từ vài chục đến vài ngàn terabyte.

Kích thước của big data càng lớn thì thách thức liên quan đến việc loại bỏ những dữ liệu xấu ra khỏi hệ thống càng khiến nhiều công ty hết sức đau đầu. Vì thế, thay vì sửa dữ liệu xấu, các công ty, cơ quan chính phủ và viện nghiên cứu cần xây dựng một hệ thống cho phép họ theo dõi và truy xuất big data dễ dàng và chính xác. Thông qua hệ thống này, người sử dụng có thể theo dõi tính xác thực cũng như chất lượng của thông tin. Bên cạnh đó, khi quản trị big data một cách có chiến lược và sử dụng chúng như tài sản chung, công ty có thể phản ứng nhanh chóng hơn trước các xu hướng so với đối thủ cạnh tranh. Đối với các viện nghiên cứu, hệ thống thông tin này có thể giúp họ phát hiện ra các cơn bão, dịch bệnh hay các biến cố quan trọng ngay trong giai đoạn đầu.

Theo McKinsey, việc khai thác hiệu quả big data sẽ giúp ngành y tế Mỹ tiết kiệm được hơn 300 tỉ USD/năm, trong đó khoảng 200 tỉ USD cho việc cắt giảm 8% chi phí y tế. Còn tại châu Âu, lĩnh vực quản lý hành chính cũng hứa hẹn sẽ tiết kiệm được hơn 100 tỉ euro, tương đương 149 tỉ USD/năm nếu tận dụng hiệu quả sức mạnh của big data.

… Đến thành công của Tesco

Một trong những điển hình thành công nhờ quản trị dữ liệu hiệu quả là Tesco, chuỗi siêu thị – cửa hàng bán lẻ hàng đầu của Anh.

Nhờ nhìn thấy những thông điệp tiềm ẩn đằng sau hệ thống dữ liệu khách hàng, Tesco đã đáp ứng nhu cầu của họ nhanh chóng và chính xác hơn các đối thủ. Nhờ đó, giá trị thị trường của tập đoàn này đã tăng hơn 10 lần chỉ sau 8 năm.

Theo Terry Leahy, Giám đốc Điều hành của Tesco, năm 2002, Marks & Spencer và Sainsbury’s là 2 cái tên dẫn đầu thị trường với giá trị thị trường ngang ngửa nhau, khoảng 7,5 tỉ bảng Anh. Lúc đó, Tesco đứng thứ 3, nhưng có giá trị chưa bằng một nửa công ty này. Vậy mà hiện nay, giá trị thị trường của Tesco đã tăng hơn 10 lần, đạt 34 tỉ bảng Anh, trong khi giá trị của Marks & Spencer và Sainsbury’s chỉ còn tương ứng là 5,5 tỉ bảng và 6,5 tỉ bảng.

Bí quyết thành công của Tesco chính là hệ thống xử lý thông tin hiệu quả, giúp tập đoàn này nhận ra được những thông điệp ẩn trong các dữ liệu về khách hàng. Ông Leahy đúc kết: “Đầu tư vào những khách hàng trung thành mang lại lợi nhuận cao hơn nhiều so với các khoản chi cho việc thu hút khách hàng của đối thủ. Khi dữ liệu về khách hàng được chia sẻ càng hiệu quả, chúng tôi càng phát hiện ra nhiều sự thật. Và trong kinh doanh, sự thật chính là loại hàng hóa có hiệu quả cao nhất”.

Cuộc chiến Hadoop và những quan ngại

Trong lúc nhiều người vẫn đang làm quen với khái niệm big data thì cuộc chiến giành thị trường dịch vụ lưu trữ và xử lý khối lượng lớn các dữ liệu chưa được hệ thống đã trở nên gay cấn hơn bao giờ hết.

Sản phẩm tiên phong của thị trường này là phần mềm mã nguồn mở Hadoop được Yahoo! giới thiệu từ vài năm trước đây. Từ đó đến nay, thị trường các sản phẩm được phát triển dựa trên nền tảng Hadoop ngày càng trở nên chật chội với sự tham gia của Apache, Cloudera, Amazon, EMC, IBM và hàng loạt các công ty mới thành lập như Hadapt và DataStax. Hiện tượng này cho thấy triển vọng của lĩnh vực này. Nhưng cách các công ty đang băm nhỏ thị trường khiến không ít người lo ngại về một thị trường manh mún và bị pha loãng trong tương lai. Cũng liên quan đến những quan ngại về tốc độ phát triển nóng của thị trường big data, câu hỏi đặt ra là làm thế nào để sử dụng big data một cách đúng đắn. Và ai sẽ chịu trách nhiệm trong trường hợp xử lý big data sai gây ra hậu quả xấu?

Khi thông tin tràn ngập và không ngừng gia tăng với tốc độ chóng mặt như hiện nay, việc tận dụng được sức mạnh của big data để giải phóng làn sóng tăng trưởng mới cho các nền kinh tế chính là việc các nhà làm chính sách, chủ doanh nghiệp và mọi người đều quan tâm. Vì lợi ích của tất cả.

Theo NCĐT

dred