Data Quality – Chất lượng dữ liệu

Data Quality (DQ) – được dịch/hiểu theo một cách thông thường là “Chất lượng dữ liệu” và đây là nhu cầu không thể thiếu cho tất cả các doanh nghiệp/tổ chức bất kể loại hình gì trong thời đại số ngày nay (Digital Era). Vậy chất lượng dữ liệu là cái gì và tại sao lại phải cần đến nó?

Mục này nêu lý do đầu tiên vì nó … dễ hình dung; như đã biết, thông tin trong kỷ nguyên số (nhấn mạnh đến 4.0 – thực tế chả cần 4.0 thì cái DQ vẫn cần) thì dữ liệu (Data) được xem là nguồn thực phẩm cung cấp năng lượng cho hoạt động của các chương trình/các bước chuyển mình để đột phá (disruptive technolgy/digital transformation) để tìm kiếm cơ hội (mới) và dẫn đầu thị trường; vậy thì với nguồn thực phẩm không tốt liệu có ảnh hưởng (lớn) tức thời/lâu dài cho kết quả việc hoạch định/sản phẩm nào đó của tổ chức doanh nghiệp. Mặc dù, biết rằng sẽ trường hợp “đột biến” nhưng chắc là con số này khá nhỏ hoặc là đã bị “die-well” trước khi tích lũy đủ để “đột và biến”.

Nói thế thôi, thực tế và ví dụ vẫn là những điều gần gũi với mọi người hơn; trong trường hợp doanh nghiệp bạn làm việc trong ngành nghề logistic – nói cho sang thế thôi, mình gọi là shipper cho khỏe. Nếu làm ngành nghề này thì sẽ biết công việc trả hàng lại do sai địa chỉ là một trong những chi phí (tốn kém) kinh khủng; và là người kinh doanh chắn hẳn đều biết rằng khi tôi tiết kiệm được 1$ (1đồng/Euro gì cũng được) thì hầu như chắc chắn có được 1$ tiền lời. Vậy thì trong tình huống này, chất lượng dữ liệu mong muốn có thể là: địa chỉ chính xác. Ai đó có thể nói rằng, địa chỉ mà người ta viết/nhập vào thì cứ thế mà giao; vâng, nếu mà họ viết/nhập đúng hết thì nói làm gì, mà cho dù họ nhập đúng nhưng có trường hợp đổi tên đường (kiểu mới/cũ) chẳng hạn thì có mà … à mà thôi. Nhớ rằng thời đại số nên chương trình làm là chủ yếu nhé. Ví dụ tỉnh Đắc Lắc sẽ có rất nhiều cách ghi ví dụ như Dak Lak, Đắc Lak, Đắc Lak, còn TP.HCM, HCM, Hồ Chí Minh City …và nếu ghi DakLak gì đó có thể trên bản đồ chỉ đến vùng…đất của Iraq không chừng (ai xài mấy chương trình Geo-map và tự động check mấy cái tên sẽ dính trường hợp này).

Nói về chất lượng của dữ liệu theo một cách chung chung thì các tính chất sau đây được nhắc đến:

  1. Conformity : dữ liệu cần phải được chuẩn hóa/tuân thủ theo nguyên tắc (áp dụng chuẩn quốc tế thì càng hay, ví dụ: +84-số điện thoại)
  2. Accurate : độ chính xác của thông tin (cần được cập nhật, điều chỉnh khi có sự thay đổi)
  3. Integrity : tính toàn vẹn của thông tin (thường cái này dính tới các mối quan hệ trong hệ thống thông tin)
  4. Completeness : đảm bảo thông tin là đây đủ, hữu dụng (không có thông tin thừa và vô dụng –> thực tế thì vẫn có đấy).
  5. Consistence : tính thống nhất/nhất quán của thông tin
  6. Timeliness : kịp thời, phù hợp.

6 thuộc tính/tiêu chí trên là những yêu cầu cần thiết cho chất lượng của dữ liệu; tuy nhiên không phải lúc nào các thuộc tính này cũng có đầy đủ, đôi khi cũng chỉ có một vài tiêu chí như Integrity, Conformity, Consistence…mà thôi. Tùy thuộc vào hiện trạng và nhu cầu của tổ chức/doanh nghiệp cũng như hệ thống thông tin/chương trình đã/đang/hoạch định mà dữ liệu cần bổ sung hoặc hoàn thiện những thuộc tính/tiêu chí cần thiết để đáp ứng được nhu cầu cần thiết.

Không phải ở đâu, khi nào mà là cho mục đích gì

Chất lượng dữ liệu được xác định/đánh giá dựa trên
yêu cầu cụ thể
phạm vi ảnh hưởng/tác động

 

Ghi

chú: về

c

ơ bản

6

thuộ

c

tính/tính chất đượ

c

nêu ở trên

c

ó thể khá

c

biệt với một số

c

ách tiếp

c

ận khá

c

chẳng hạn như thuộ

c

tính (

Anti

)

Duplicate

(chống trùng lặp) hoặ

c

Priority

(mứ

c

độ ưu tiên).

S

ự khá

c

biệt này tùy thuộ

c

vào hoạt động

c

ụ thể

Priority

thường liên quan đến việ

c

ra quyết định, dự án, thời điểm

c

ụ thể.

Trong 6 thuộc tính trên thì cái nào là quan trọng nhất? Nói thật, rất khó để trả lời câu hỏi này, mỗi người đều có một vài tiêu chí riêng cho mình. Về khía cạnh cá nhân, tôi sẽ chọn Conformity – đại loại là một dạng chuẩn mực/chuẩn hóa; khi có chuẩn thì dễ cho việc duy trì sau này. Chú ý cái hình ở trên của tôi, bản thân tôi cũng đã cố tình sắp xếp để 2 hình có yếu tố bổ trợ dạng mâu-thuẫn với nhau; chẳng hạn, yếu tố Conformity sẽ bị yếu tố thời gian (Timeliness) ảnh hưởng; sự chính xác (Accurate) và sự đầy đủ (Completeness)…

Vì sao tổ chức/doanh nghiệp nào cũng cần Data Quality nhất là hiện nay? Vì sự kết nối thông tin đa dạng cùng với sự phát triển, cùng với việc lưu trữ, xử lý các thông tin (từ các hệ thống khác nhau) nên có sự không nhất quán, chưa chính xác về các dữ liệu và đó là lý do cho Data Quality (DQ) là một tiến trình/công việc/ngành nghề quan trọng. DQ cũng giống như Security, nó là một quá trình không phải sản phẩm.

Tùy quan điểm mà có sự khác biệt về quan điểm Data Quality, đặc biệt là tính “lịch sử”; chẳng hạn: 150 năm trước TP.HCM được gọi là thành Gia Định (hy vọng tôi nhớ đúng 🙂 ) cho nên các tài liệu, kỷ yếu, trích lục phải chính xác để đảm bảo tính “lịch sử” này.

Lời cuối: Data Quality là một câu chuyện dài, từ việc lý thuyết cho đến thực tế thực sự là một trời một vực, nếu không có các chương trình/công cụ hỗ trợ, sự đồng thuận và các phản hồi/góp ý tích cực để từng bước hoàn thiện thì …nó vẫn ở trên giấy hoặc dự án ở trình trạng “treo vô thời hạn”. Đó là một trong những thử thách lớn đối với các doanh nghiệp lớn đang vận hành (có quá nhiều dữ liệu, hệ thống và sự kết nối không rõ ràng, chia sẻ, sử dụng dữ liệu không được hoạch định rõ ràng + các chương trình phát triển cho nội bộ).

Data Quality về cơ bản nó là một Program khá lớn ở tầm chiến lược (Strategic) bởi vì nó gắn liền với Data Governance; Data Quality thường được bắt đầu tại tổ chức/doanh nghiệp dưới dạng dự án (Project) và tập trung cho mục đích mang tính chiến thuật (Tactical) cụ thể; kết quả của dự án đem lại ngoài dữ liệu sẽ là một số các qui trình/qui định/tiến trình (Process) được tích hợp để phục vụ vận hành (Operations).

TPHCM, trưa 21/04/2018,