fbpx

TIN TỨC

Chuyên mục

TIN XEM NHIỀU

18Nov

Tương lai của ngành Logistics trong 5-10 năm tới sẽ ra sao ?: nghiên cứu toàn diện của PWC

Trong chuỗi các bài “PwC’s Future Insight Series” được công bố từ PwC, Smartlog đã...

06Jan

Điều gì xảy ra khi chuỗi cung ứng gặp blockchain?

Cho đến nay, Smartlog đã cung cấp nhiều bài viết nói về blockchain và tiềm...

08Sep

Công nghệ thực tế ảo tăng cường (AR) trong logistics (Phần 1)

Làn sóng thay đổi lớn tiếp theo của ngành công nghiệp logistics có lẽ sẽ...

07May

ANC: “THAY ĐỔI ĐỂ TỒN TẠI, THAY ĐỔI ĐỂ PHÁT TRIỂN.”

Được thành lập từ năm 1996, Công ty TNHH ANC là một trong những công...

18Apr

IDOCEAN GIÚP NGƯỜI TIÊU DÙNG KHÔNG BAO GIỜ THIẾU NHỮNG MÓN NGON VỚI STM

Nhắc đến Idocean hẳn nhiều người vẫn còn lạ lẫm với tên thương hiệu này,...

Làm sao biết doanh nghiệp có vấn đề về chất lượng dữ liệu hay không?

Các nhà ra quyết định, các nhà lãnh đạo, các nhà khoa học dữ liệu và các nhà quản lý thường phải đánh giá nhanh về việc họ có thể tin tưởng vào một bộ dữ liệu hay không, liệu họ có nên đưa nó vào một phân tích, hay họ có đưa đó sang một hướng mới. Mặc dù có hàng ngàn biến thể nhưng câu hỏi cơ bản vẫn là “Liệu ta có đang gặp vấn đề về chất lượng dữ liệu không?” Bài viết dưới đây Smartlog xin giới thiệu phương pháp tìm ra vấn đề về chất lượng của dữ liệu từ ông Thomas C. Redman, tác giả cuốn sách về cải tiến chất lượng dữ liệu vừa được xuất bản năm 2016, Getting In Front on Data: The Who Does What 
Tôi đã tạo ra một phương pháp đơn giản giúp mọi người trả lời câu hỏi này. Tôi gọi nó là Friday Afternoon Measurement (FAM)”, nhằm vào các nhà quản lý ở bất kỳ cấp bậc nào có công việc phụ thuộc vào dữ liệu. (Trên thực tế, FAM là một cách hay để biết liệu bạn có muốn trở thành, người mà tôi gọi là “data provocateur” (người khiêu khích dữ liệu). Phương pháp này giúp bạn dễ dàng đánh giá mức độ hiện tại của chất lượng dữ liệu, phát triển mức độ ước lượng cao về tác động của nó, và tổng hợp kết quả. Phương pháp này có thể thay thế được, có nghĩa là nó thích nghi tốt với nhiều công ty, quy trình, và các bộ dữ liệu khác nhau.

Phương pháp này gồm bốn bước.

Bước 1. Tập hợp 100 bản ghi dữ liệu mới nhất mà nhóm bạn đã sử dụng hoặc tạo ra. Ví dụ: nếu nhóm của bạn lấy đơn hàng của khách hàng, tập hợp 100 đơn hàng mới nhất; nếu bạn tạo các bản vẽ kỹ thuật, tập hợp 100 bản vẽ mới nhất. Sau đó tập trung vào 10-15 yếu tố dữ liệu quan trọng (hoặc thuộc tính) trong bản ghi dữ liệu. Đặt những thứ này trên một bảng tính hoặc một tờ giấy lớn.

Bước 2. Yêu cầu hai hoặc ba người có kiến thức về dữ liệu tham gia với bạn trong một cuộc họp kéo dài hai giờ. (FAM lấy tên này vì nhiều người thiết lập các cuộc họp này vào chiều thứ sáu, khi tốc độ làm việc chậm lại.)

Bước 3. Làm việc trên hồ sơ một, hướng dẫn đồng nghiệp của bạn đánh dấu rõ ràng các lỗi bằng màu sắc đáng chú ý, như màu đỏ hoặc cam. Đối với hầu hết các hồ sơ, điều này sẽ vô cùng nhanh chóng. Các thành viên trong nhóm của bạn sẽ phát hiện lỗi – tên khách hàng sai chính tả hoặc thông tin đặt sai cột – hoặc có khi họ sẽ không phát hiện ra. Trong một số trường hợp, bạn sẽ tham gia vào các cuộc thảo luận chi tiết về việc liệu một bản có thật sự không chính xác, nhưng thông thường bạn sẽ dành không quá 30 giây cho một hồ sơ.

Bước 4. Tổng kết kết quả. Đầu tiên, thêm cột “ghi nhận hoàn hảo hay không” vào bảng tính của bạn. Đánh dấu “có” nếu không có lỗi nào và “không” nếu màu đỏ hoặc cam xuất hiện trong bản ghi. Tính tổng số hồ sơ hoàn hảo. Bạn sẽ tạo ra bảng giống như hình dưới đây.

Assess Whether You Have a Data Quality Problem_hinh1
Giải thích “số lượng hồ sơ hoàn hảo” như sau: Trong số 100 hồ sơ dữ liệu mới nhất mà nhóm của chúng tôi đã hoàn thành, chúng tôi chỉ hoàn thành đúng 2/3 – 67 trong số 100. Hầu như tất cả mọi người sẽ nhận ra hiệu suất như vậy thực sự kém. (Lưu ý rằng, tôi thường xuyên sử dụng cách này trong các bài giảng và các bài tập tư vấn, và tôi đã nhìn thấy nhiều kết quả kém hơn và một vài kết quả tốt hơn. Chất lượng dữ liệu ở 67% là mức cao điển hình.)

Phát hiện này xác nhận rằng bạn đang có vấn đề về chất lượng dữ liệu. Để thấy được ảnh hưởng của nó lên doanh nghiệp của bạn như thế nào, hãy đi thêm một bước nữa. Dữ liệu không hợp lý gây ra tất cả các rắc rối – việc ra quyết định tốt trở nên khó khăn hơn, khách hàng bất mãn – và làm tăng chi phí. Một quy tắc được gọi là “Quy tắc 10″* sẽ là một phương tiện đơn giản để ước tính những chi phí này. Quy tắc này dựa trên quan sát rằng “bạn sẽ tốn chi phí gấp 10 lần để hoàn thành một đơn vị công việc khi dữ liệu đầu vào bị lỗi so với khi chúng không có sai sót.”

Do đó, trong ví dụ trên, ai đó sử dụng dữ liệu này sẽ không cần nỗ lực thêm hai phần ba thời gian, nhưng một phần ba thời gian sẽ tốn khoảng 10 lần để tiến hành những sửa chữa và hoàn thành công việc . Như một ví dụ đơn giản, giả sử đội ngũ làm việc của bạn phải hoàn thành 100 đơn vị mỗi ngày và mỗi đơn vị tốn $ 1.00 khi dữ liệu hoàn hảo. Nếu mọi thứ đều hoàn hảo, một ngày làm việc có giá 100 đô la. Nhưng với chỉ 67 hoàn hảo:
Tổng chi phí = (67 x $ 1.00) + (33 x $ 1.00 x 10) = $ 67 + $ 330 = $ 397
Như bạn thấy, tổng chi phí gần gấp bốn lần so với khi dữ liệu hoàn toàn tốt. Hãy suy nghĩ về sự khác biệt như là chi phí của chất lượng dữ liệu kém. Hầu hết các công ty không thể, và không nên, chịu đựng những chi phí như vậy.

Bây giờ bạn biết doanh nghiệp có vấn đề về dữ liệu và chi phí liên quan đến nó, cho nên có thể bạn đang mong muốn thực hiện một số cải tiến thực tế. Bảng tính chỉ ra thuộc tính nào có lỗi, và bằng cách nhìn vào dữ liệu đó, bạn có thể thấy các thuộc tính nào cần phải được sửa trước tiên. Đếm số lỗi trong mỗi cột, và tập trung vào hai đến ba thuộc tính có tổng số cao nhất. Tìm và loại bỏ nguyên nhân gốc rễ của chúng. Trong hầu hết các trường hợp, bạn mong đợi những người chịu trách nhiệm về việc tạo ra dữ liệu (hoặc là nhóm của bạn hoặc nhóm khác, tùy thuộc vào dữ liệu bạn chọn) thực hiện các cải tiến này như là một phần của công việc hằng ngày, với ít hoặc không có vốn đầu tư. Bạn sẽ thấy tỷ lệ lỗi giảm và chi phí liên quan giảm đáng kể.

Mọi người nên biến chất lượng dữ liệu trở thành một phần công việc của mình, và phương pháp này cung cấp một cách dễ dàng để tiến hành các cải tiến dữ liệu. Quá trình này không phải là bài tập một lần – bạn có thể làm FAM thường xuyên để đánh giá chất lượng dữ liệu của bạn. Bằng cách dành thời gian với FAM, bạn không chỉ xác định được liệu doanh nghiệp mình có vấn đề về chất lượng dữ liệu hay không mà còn biết nơi nào bạn nên tập trung nỗ lực của mình để sửa chữa chúng.

—-
*Rule of 10: được đề cập trong quyển sách mởi nhất của Thomas C. Redman  “Data Driven: Profiting from Your Most Important Business Asset”
Nguồn: Thomas C. Redman, Harvard Business Review

%d bloggers like this: