Tổng quan về Data quality – Chất lượng dữ liệu (P1) – Big Data Uni
Bigdatauni.com
Follow Fanpage
Contact
Ngày nay, khi nhiều tổ chức đẩy mạnh tiếp cận dữ liệu, và cho rằng dữ liệu là nguồn lực quan trọng để phát triển, thì Data quality – chất lượng dữ liệu – càng được quan tâm và chú ý hơn. Theo Gartner (công ty hàng đầu thế giới chuyên về tư vấn và nghiên cứu), dữ liệu có chất lượng thấp sẽ ảnh hưởng tiêu cực đến năng suất, lợi nhuận của mỗi tổ chức đặc biệt khi mọi hành động, quyết định, chiến lược đều dựa vào dữ liệu. Theo các nghiên cứu của Gartner (tại thị trường Hoa Kỳ) thì chất lượng dữ liệu thấp sẽ làm chi phí tốn kém trung bình gần 15 triệu USD mỗi năm. Một trong những điều cần lưu ý khi chúng ta khai thác dữ liệu phục vụ cho mục đích kinh doanh chính là: chất lượng, sự thành công của các quyết định phụ thuộc mạnh mẽ vào chất lượng dữ liệu.
Tuy nhiên nếu chỉ mới nhận thức không thì chưa đủ, mỗi tổ chức cần phải đo lường chất lượng dữ liệu và đưa ra giải pháp, hành động cụ thể để duy trì và cải thiện chất lượng dữ liệu. Trong thời đại kỹ thuật số ngày nay, quản lý chất lượng dữ liệu có thể hỗ trợ tổ chức đối phó với những thách thức từ dữ liệu.
Image by rawpixel.com
Ở hai bài viết trước về chủ đề “Quản lý dữ liệu”, BigDataUni đã đề cập về Data quality – chất lượng dữ liệu – là một phần không thể thiếu trong hệ thống Data management, là yếu tố quyết định sự thành công của mỗi tổ chức trong các dự án khai thác, phân tích dữ liệu.
Trong phần 1 bài viết “Tổng quan về Data quality – chất lượng dữ liệu”, chúng tôi sẽ giới thiệu đến các bạn chi tiết hơn về Data quality hay Data quality management (DQM) bao gồm khái niệm; tầm quan trọng; các tiêu chí (cơ sở) để đo lường chất lượng dữ liệu.
Data quality là gì? Và cần hiểu thế nào là Data quality management?
Nhắc lại về định nghĩa Data management: là việc phát triển, triển khai, giám soát các kế hoạch, chính sách, chương trình hoạt động, và các công việc thực tiễn nhằm cung cấp (phân phối), kiểm soát, bảo vệ, gia tăng giá trị của tài sản dữ liệu và thông tin xuyên suốt vòng đời của chúng (trích dẫn trong The Data Management Body of Knowledge (DMBOK)).
Tham khảo thêm về bài viết Data management:
Tầm quan trọng của quản lý dữ liệu (Data Management) (Phần 1)
Tầm quan trọng của quản lý dữ liệu (Data management) (Phần 2)
Data quality là một chức năng trong Data management với mục đích cải thiện chất lượng dữ liệu, đảm bảo dữ liệu đạt tiêu chuẩn, sự phù hợp (ví dụ dữ liệu liên quan đến mục tiêu nghiên cứu, có khả năng đem lại thông tin hữu ích) để đưa vào sử dụng hay phân tích. Data quality luôn được triển khai song song với các chức năng, quy trình còn lại của Data management hay xuyên suốt hệ thống Data management (từ giai đoạn tổ chức, thu thập dữ liệu, làm sạch, tích hợp, lưu trữ, chuyển đổi, đến giai đoạn phân tích). Nguyên nhân là khi chúng ta thao tác, xử lý, hay thực hiện các công việc liên quan đến dữ liệu, chất lượng dữ liệu có thể bị ảnh hưởng.
Data quality đề cập đến việc đánh giá chất lượng thông tin, dữ liệu mỗi tổ chức có, xem xét lại mục đích kinh doanh, mục tiêu nghiên cứu, phân tích dữ liệu, và đánh giá dữ liệu có khả năng hỗ trợ đạt được những mục tiêu ấy hay không. Chất lượng dữ liệu được xác định bởi các yếu tố, chỉ tiêu đo lường khác nhau sẽ được chúng tôi trình bày ở phần sau, chẳng hạn như mức độ chính xác, đầy đủ, tính nhất quán, phù hợp,… Chất lượng dữ liệu đóng vai trò quan trọng, đáp ứng những yêu cầu trong các hoạt động, kế hoạch, quyết định của tổ chức.
Do đó, từ 2 khái niệm trên mà theo DAMA, (The Global Data Management Community) thuật ngữ Data quality bao gồm những định nghĩa về chất lượng dữ liệu và cả các quy trình, các phương pháp được sử dụng để đảm bảo, và cải thiện chất lượng dữ liệu.
Data quality management (thông thường được viết tắt là DQM) theo DAMA: “Việc lập kế hoạch, thực hiện và kiểm soát các hoạt động áp dụng những kỹ thuật quản lý chất lượng vào dữ liệu, để đảm bảo dữ liệu phù hợp để phân tích và đáp ứng nhu cầu của người dùng.”
Quản lý chất lượng dữ liệu là một tập hợp các công việc, giải pháp thực tiễn mục đích nhằm đảm bảo, duy trì, cải thiện chất lượng của dữ liệu, thông tin. DQM xuất hiện trong mọi giai đoạn, quy trình liên quan tới dữ liệu từ việc thu thập, lưu trữ, áp dụng các kỹ thuật xử lý, phân tích, đến truyền đạt, phân phối, chia sẻ dữ liệu, thông tin (tương tự như Data quality trong Data management vừa nhắc lại ở trên).
Các nhà quản lý, nhân viên thực thiện quản lý chất lượng dữ liệu tức là “kiểm soát” một cách tổng quan “thực trạng” của toàn bộ nguồn dữ liệu, thông tin mà tổ chức đang có trong mỗi thời điểm. Ví dụ trước khi đem vào phân tích, chúng ta cần xác định dữ liệu có đủ “tốt” để phân tích hay không?
Dữ liệu có bị sai sót, thiếu, thất lạc hay không? Kết cấu, format của dữ liệu có phức tạp, gây khó khăn cho việc phân tích không? DQM là yếu tố không thể thiếu trong bất kỳ các dự án, project về Data analytics, Data mining, cũng có thể là Big Data analytics đang trổi dậy mạnh mẽ trong những năm vừa qua. Mục tiêu sau cùng và quan trọng nhất khi các công ty triển khai khai thác, phân tích dữ liệu, đó chính là mong muốn tìm ra được những thông tin hữu ích, tiềm ẩn trong bộ dữ liệu (insights). Kết quả phân tích hay thông tin trích xuất từ dữ liệu có chính xác hay không, có đem lại những giá trị cụ thể cho tổ hay không, sẽ được quyết định bởi chất lượng dữ liệu.
Theo SAS (công ty hàng đầu thế giới chuyên cung cấp các giải pháp, công nghệ hỗ trợ phân tích dữ liệu), quản lý chất lượng dữ liệu giúp kết hợp giữa văn hóa tổ chức (organizational culture), công nghệ, và dữ liệu để mang lại kết quả phân tích, khai thác được thông tin hữu ích và chính xác hơn. SAS cho rằng: “Chất lượng dữ liệu không thể được coi là tốt hay xấu, cao hay thấp mà nó có phạm vi, tiêu chuẩn đo lường cụ thể…
Quản lý chất lượng dữ liệu cung cấp một quy trình cụ thể tùy theo ngữ cảnh để cải thiện tính phù hợp của dữ liệu được sử dụng để phân tích và ra quyết định. Mục đích của quản lý chất lượng dữ liệu là tạo ra những hiểu biết sâu sắc về “sức khỏe” (chất lượng) của dữ liệu bằng cách sử dụng nhiều quy trình và công nghệ khác nhau trên các tập dữ liệu ngày càng lớn hơn và phức tạp hơn.”
Theo BMC (công ty công nghệ của Mỹ, sản xuất phần mềm và dịch vụ hỗ trợ doanh nghiệp trong lĩnh vực kỹ thuật số) đưa ra định nghĩa khác về DQM: “Quản lý chất lượng dữ liệu (DQM) đòi hỏi sự kết hợp giữa đúng nhân viên có kỹ năng, quy trình và công nghệ với mục tiêu chung là cải thiện chất lượng dữ liệu… Mục đích cuối cùng của DQM không chỉ dừng lại là cải thiện chất lượng dữ liệu mà là nhằm đạt được kết quả kinh doanh phụ thuộc vào dữ liệu chất lượng cao.” Qua phân tích trên về các khái niệm, chắc các bạn cũng đã nắm được Data quality và Data quality management, phần tiếp theo chúng ta đi vào tìm hiểu sơ lược về tầm quan trọng, và một số lợi ích của quản lý chất lượng dữ liệu.
Tại sao cần phải quản lý chất lượng dữ liệu?
Dữ liệu quan trọng đối với mọi tổ chức vì nó cung cấp các dự báo về hành vi của khách hàng, hỗ trợ quản lý sản xuất hiệu quả, cung cấp thông tin về đối thủ cạnh tranh,… Lợi ích mà dữ liệu đem lại là rất nhiều, nhưng chúng ta sẽ không thể khai thác triệt để, thậm chí sẽ không đạt được bất kỳ lợi ích nào nếu chất lượng dữ liệu không được đảm bảo.
Đầu tiên chất lượng dữ liệu tốt sẽ tăng khả năng đưa ra những sáng kiến, quyết định, giải pháp hiệu quả và tỷ lệ thành công hơn, hạn chế rủi ro có thể xảy ra cho mọi hoạt động kinh doanh (tư sản xuát, marketing, đến logistics, sale,…) trong hiện tại và tương lai. Những dữ liệu lỗi thời, dữ liệu không đáng tin cậy sẽ bị loại bỏ bởi các quy trình trong DQM. Ngoài ra, khi triển khai DQM, các tổ chức sẽ phải thiết lập những quy tắc, tiêu chuẩn về dữ liệu mà tất cả phòng ban, bộ phận chức năng phải tuân thủ, đảm bảo mọi thông tin, dữ liệu tiếp nhận và chia sẻ có thể đưa vào sử dụng hiệu quả.
Dữ liệu chất lượng là dữ liệu có độ chính xác cao (về các cơ sở đo lường chất lượng chúng tôi sẽ trình bày sau trong bài viết), được cập nhật liên tục sẽ giúp tổ chức vẽ nên bức tranh rõ ràng về mọi hoạt động hàng ngày của tổ chức, bên cạnh đó DQM còn cắt giảm những chi phí không cần thiết (chi phí phát sinh khi chất lượng dữ liệu kém) qua đó tăng hiệu quả kinh doanh. DQM hỗ trợ các hệ thống Data governance hay Data management được vận hành trơn tru và tốt hơn. DQM còn giúp tổ chức tuân thủ các quy tắc (bao gồm các điều luật về bảo mật), áp dụng các chính sách đề ra trong Data governance một cách hợp lý.
Ngoài ra, với dữ liệu chất lượng cao, các nhân viên làm việc sẽ có năng suất cao hơn ví dụ nhân viên giám sát, quản lý dữ liệu sẽ dễ dàng và nhanh chóng kiểm duyệt dữ liệu mới thu thập dựa vào các tiêu chuẩn chất lượng đã được xác định trước đó hoặc nhân viên phân tích dữ liệu sẽ có thể dành nhiều thời gian vào nhiệm vụ chính là nghiên cứu thuật toán, kỹ thuật phân tích thay vì phải sửa lại những dữ liệu bị sai sót.
DQM hỗ trợ tổ chức phát triển các chiến dịch marketing hiệu quả hơn, ví dụ nếu tổ chức thu thập được một bộ dữ liệu về khách hàng tiềm năng bao gồm trên 20,000 địa chỉ e-mail, tên, số điện thoại,… và dùng đó để chạy quảng cáo trên Facebook, hay gửi các e-mail giới thiệu sản phẩm, chương trình khuyến mãi, hoặc gọi điện trực tiếp đến từng khách hàng. Giả sử, bộ dữ liệu bị sai sót, khi đó chi phí quảng cáo trên Facebook bỏ ra rất nhiều nhưng các thông tin quảng cáo lại không đến đúng khách hàng (do dữ liệu về tên khách hàng bị sai), tương tự các e-mail cũng có thể không thể gửi đến khách hàng (do dữ liệu địa chỉ e-mail sai), và nhân viên sale, chăm sóc khách hàng cũng không thể liên lạc được (do dữ liệu về số điện thoại khách hàng không đúng).
Dẫu biết, dữ liệu thu thập được không phải lúc nào cũng hoàn chỉnh, nhưng nếu không sàng lọc, loại bỏ những dữ liệu kém chất lượng thì chi phí bỏ ra cho marketing sẽ không đem lại lợi nhuận trong tương lai. Tại sao trong phần này chúng tôi không nêu rõ các lợi ích mà Data quality management đem lại cho tất cả các hoạt động kinh doanh của tổ chức (ví dụ như sản xuất, logistics, hoạt động tài chính,..) mà chỉ đề cập về marketing như vừa nói ở trên? Đó chính là do tầm quan trọng và vô giá của dữ liệu khách hàng trong thời đại ngày nay, dữ liệu về khách hàng được xem là trọng tâm phát triển của tổ chức, và đặc biệt khi nhu cầu cá nhân hóa (personlization) trong sản phẩm, dịch vụ, cả chiến dịch marketing được khách hàng quan tâm nhiều hơn.
Để hiểu rõ về khách hàng, từ thói quen, hành vi, cho đến nhu cầu, mong muốn tiềm ẩn của họ, thì mỗi công ty không chỉ phải thu thập những dữ liệu từ khách hàng mà còn phải đảm bảo chất lượng, độ tin cậy và chính xác của chúng. Khi ấy, không chỉ phát triển được những sản phẩm, dịch vụ, xây dựng nội dung quảng cáo phù hợp hơn với từng phân khúc khách hàng, mà công ty có thể đạt được lợi thế cạnh tranh trước đối thủ bằng cách bắt kịp những xu hướng mới, tìm thấy cơ hội kinh doanh thông qua phân tích dữ liệu có chất lượng tốt, luôn được cập nhật mỗi ngày nhờ vào hệ thống DQM.
Bên cạnh đó, chất lượng dữ liệu khách hàng được đảm bảo sẽ giúp công ty xây dựng một mối liên hệ bền vững với mọi khách hàng (ví dụ thông tin liên lạc với khách hàng cũ, hay khách hàng mới được chia sẽ, bảo mật tốt, không bị thất lạc, thiếu sót). Hiện nay, vấn đề bảo mật, an toàn thông tin cá nhân của khách hàng, kể cả dữ liệu mật, dữ liệu nhạy cảm trong lĩnh vực tài chính được đưa lên hàng đầu khi ngày càng xuất hiện tội phạm, các nhóm hacker chuyên nghiệp hay việc các tổ chức, công ty sử dụng thông tin cá nhân của khách hàng vào nhiều mục đích khác nhau, không minh bạch.
Bộ luật bảo vệ dữ liệu chúng GDPR (General Data Protection Regulation) được ban hành và có hiệu lực 5/2018 tại các nước thuộc khối liên minh châu Âu EU đã dẫn đầu cho xu hướng trên,và ở nước ta trong năm 2019, luật An ninh mạng cũng chính thức có hiệu lực. Khi triển khai một hệ thống quản lý chất lượng dữ liệu bao gồm các phương pháp, tiêu chuẩn đo lường, và những quy tắc, quy định về bảo mật và sử dụng dữ liệu, qua đó sẽ giúp công ty, tổ chức tuân thủ tốt hơn các điều luật nghiêm nghặt được ban hành tại mỗi quốc gia, đặc biệt là tăng sự minh bạch khi sử dụng thông tin khách hàng và nhận được sự tin tưởng từ chính khách hàng.
Dữ liệu chất lượng tốt sẽ được nhanh chóng và dễ dàng đưa vào sử dụng hơn là dữ liệu kém chất lượng, tăng năng suất hoạt động của toàn tổ chức hay công ty đặc biệt là khả năng tiếp cận, ứng dụng những xu hướng công nghệ mới như AI, Machine Learning, hay Big Data trong thời đại 4.0. Quá trình xử lý dữ liệu trong Big Data, hay tốc độ các thuật toán Machine Learning cho ra kết quả từ bộ dữ liệu, và việc sử dụng kết quả đó để phát triển các phần mềm, thiết bị AI, phụ thuộc rất nhiều vào chất lượng của dữ liệu. Tóm lại, chất lượng dữ liệu, và quản lý chất lượng dữ liệu tác động đến mọi khía cạnh, quyết định sự thành công, tiềm năng phát triển bền vững của tất cả các tổ chức khác nhau hoạt động trong nhiều lĩnh vực, ngành nghề khác nhau, khi dữ liệu được coi là “nguồn sống”. Do đó cho dù chúng tôi không cần giải thích, hay phân tích gì nhiều, chắc chắn các bạn cũng biết được tầm quan trọng của DQM là như thế nào.
Tiếp theo BigDataUni sẽ giới thiệu đến các bạn những tiêu chuẩn đo lường chất lượng của dữ liệu, hay trả lời cho câu hỏi: “thế nào là dữ liệu có chất lượng tốt?”
Những thước đo, tiêu chí, hay tiêu chuẩn đánh giá, đo lường chất lượng dữ liệu chúng tôi phân tích dưới đây được tham khảo và trích dẫn The Data Management Body of Knowledge (DMBOK) – tài liệu hướng dẫn về Data management – của The Global Data Management Community, còn được gọi là DAMA.
Theo DAMA, có nhiều chuyên gia, những người đi đầu trong lĩnh vực dữ liệu đã xây dựng và phát triển những hệ thống đo lường chất lượng khác nhau nhưng có 3 hệ thống được xem là cơ sở, có ảnh hưởng nhất đến các tiêu chuẩn về chất lượng dữ liệu mà các tổ chức, công ty sử dụng ngày nay. Đầu tiên là Strong – Wang Framework (1996), tập trung vào mong muốn, ý kiến, nhận thức của người sử dụng dữ liệu
- Intrinsic Data quality (theo bản chất bên trong dữ liệu)
- Accuracy (độ tính xác)
- Objectivity (tính khách quan)
- Believability (mức độ tin cậy)
- Reputation (ý kiến của nhân viên về bộ dữ liệu dựa trên những gì xảy ra trong quá khứ)
- Contextual Data quality (bối cảnh dữ liệu)
- Value-added (giá trị có được từ dữ liệu)
- Relevancy (mức độ liên quan, phù hợp)
- Timeliness (tính kịp thời)
- Completeness (tính đầy đủ)
- Appropriate amount of data (mức độ phù hợp của khối lượng dữ liệu)
- Representational DQ (trình bày, thể hiện dữ liệu)
- Interpretability (khả năng giải thích, diễn giải)
- Ease of understanding (độ dễ hiểu)
- Representational consistency (tính nhất quán khi trình bày)
- Concise representation (súc tích, ngắn gọn khi trình bày)
- Accessibility DQ (khả năng tiếp cận dữ liệu)
- Accessibility (khả năng tiếp cận)
- Access security (khả năng bảo mật truy cập)
Trong tài liệu Data Quality for the Information Age (1996), Thomas Redman đã xây dựng một tập hợp các thước đo chất lượng dữ liệu theo cấu trúc của dữ liệu. Data model (mô hình dữ liệu)
- Content (nội dung dữ liệu)
- Relevance of data (mức độ liên quan của dữ liệu)
- The ability to obtain the values (khả năng có được giá trị)
- Clarity of definitions (mức độ rõ ràng về định nghĩa, ý nghĩa loại dữ liệu)
- Level of detail (mức độ chi tiết)
- Attribute granularity (độ chi tiết của thuộc tính dữ liệu)
- Precision of attribute domains (độ chính xác của các miền thuộc tính)
- Composition (thành phần dữ liệu)
- Naturalness (độ tự nhiên)
- Identify-ability (khả năng phân biệt, xác định)
- Homogeneity (tính đồng nhất)
- Minimum necessary redundancy (mức dư thừa tối thiểu cần thiết)
- Consistency (tính nhất quán)
- Tính nhất quán về ngữ nghĩa của các thành phần của mô hình
- Cấu trúc thống nhất của các thuộc tính trên các loại dữ liệu
- Reaction to change (khả năng thích ứng sự thay đổi)
- Data Values (giá trị dữ liệu)
- Accuracy (mức độ chính xác)
- Completeness (tính đầy đủ)
- Currency (khả năng được công nhận)
- Consistency (tính nhất quán)
- Representation (trình bày dữ liệu)
- Appropriateness (độ phù hợp)
- Interpretability (khả năng diễn giải)
- Portability (khả năng truyền đạt, chia sẻ)
- Format precision (định dạng chính xác)
- Format flexibility (mức độ linh hoạt của định dạng), …
Thứ ba là, trong tài liệu Improving Data Warehouse and Business Information Quality (1999), Larry English đã trình bày một tập hợp đầy đủ các thước đo chất lượng dữ liệu được chia thành hai loại chính: Inherent (gồm các thuộc tính dữ liệu phải có độc lập với mục đích sử dụng) và Pramagtic (các thuộc tính dữ liệu liên quan đến mục đích sử dụng dữ liệu). Do có những tiêu chí gần giống với các tiêu chí trong 2 hệ thống đo lường được giới thiệu ở trên, nên chúng tôi sẽ chỉ giới thiệu mà không đề cập thêm một cách chi tiết tránh làm dài bài viết. Hơn nữa cả 3 bộ tiêu chuẩn trên đã ra đời từ lâu và là cơ sở để tham khảo để xây dựng các tiêu chuẩn đo lường chất lượng dữ liệu được sử dụng phổ biến ngày nay.
Năm 2013, tổ chức DAMA giới thiệu một tập hợp các tiêu chí đánh giá đo lường chất lượng dữ liệu hoàn chỉnh, phù hợp cho thời đại công nghệ phát triển như hiện nay – khi nguồn dữ liệu mỗi tổ chức, công ty thu thập trở nên đa dạng hơn, khối lượng lớn, vô cùng phức tạp bên cạnh đó là xu hướng AI, Machine Llearning, Big Data đang phát triển mạnh mẽ.
Kết hợp với trích dẫn trong The Data Management Body of Knowledge (DMBOK) phiên bản 2 năm 2017 và các article về Data quality trên các website của những công ty cung cấp giải pháp về dữ liệu, BigDataUni xin trình bày, và giải thích lại một cách dễ hiểu đến các bạn những tiêu chuẩn đo lường chất lượng dữ liệu đang được áp dụng phổ biến hiện nay
- Accuracy
Accuracy là khả năng dữ liệu có thể miêu tả một sự vật hay hiện tượng nào đó trong thế giới thực, cũng có thể hiểu là mức độ chính xác của thông tin mà dữ liệu cung cấp. Thước đo sử dụng là tỷ lệ sai sót có trong một bộ dữ liệu (the ratio of data to errors). Ví dụ đơn giản để các bạn dễ hiểu: tên 1 khách hàng VIP thực sự là Nguyễn Văn Dũng đã được kiểm chứng và được liên hệ bởi nhân viên chăm sóc khách hàng, nhưng trước đó trong bộ dữ liệu thu thập về nhóm những khách hàng viết thì lại để tên là Nguyễn Văn Dung, vậy là có sai sót. Ví dụ khác như bạn có một bộ dữ liệu về một nhóm khách hàng, không có tên, tuổi, giới tính nhưng có thông tin về số điện thoại, hành vi tìm kiếm sản phẩm (bao gồm loại sản phẩm tìm kiếm, số tiền mua muốn bỏ ra,..) và dựa vào đó bạn cho rằng đây là nhóm khách hàng nữ, độ tuổi từ 18 đến 30, và chạy chiến dịch quảng cáo nhắm mục tiêu, nhưng khi liên hệ, hoặc thu thập các form đăng ký của họ thì bạn phát hiện đa số là khách hàng nam, đây cũng được coi là sai sót, kết luận bộ dữ liệu ban đầu không đáp ứng Accuracy (dữ liệu chưa có khả năng mô tả chi tiết một nhóm khách hàng cụ thể)
- Completeness
Tính đầy đủ của dữ liệu trả lời cho câu hỏi “Dữ liệu phải thu thập theo nhu cầu đã đầy đủ chưa?”, hiểu đơn giản tức là tất cả các thành phần, yếu tố trong dữ liệu đều có mang giá trị hữu hình – values – không có các trường hợp “missing values”, hay “null values”. Ví dụ, một tập dữ liệu được lưu dưới dạng file Excel, bên trong có nhiều cột ứng với nhiều trường thông tin (ví dụ cột tên, cột tuổi, cột thu nhập của khách hàng), và mỗi dòng là một khách hàng, và mỗi ô được gọi là “record” (hoặc “data entry”, hay là một quan sát). Nếu tất cả các ô đều được nhập giá trị (có thể là số, chuỗi ký tự,…) cung cấp thông tin đầy đủ, cần thiết và đúng yêu cầu về đối tượng khách hàng để đem vào phân tích và thu được kết quả, thì tập dữ liệu đó đã đáp ứng tiêu chí Completeness. Số lượng “missing values”, số lượng các ô quan sát trong tập dữ liệu không có giá trị có thể được xem là thước đo cho Completeness. Ngoài ra có trường hợp, các ô quan sát trong tập dữ liệu đều mang giá trị thể hiện thông tin nhưng không chính xác hoặc thiếu, do đó chưa thể coi là Completeness ví dụ số điện thoại khách hàng A là 0909102100, nhưng trong ô quan sát chỉ để 0909102.
- Consistency
Tính nhất quán hiểu đơn giản là không có sự mâu thuẫn giữa cùng một đối tượng dữ liệu trong các tập dữ liệu khác nhau. Ví dụ trong tập dữ liệu về khách hàng gửi đến bộ phận bán hàng, khách hàng tên Nguyễn Văn A đã thực hiện 6 giao dịch hay mua hàng 6 lần trong 1 tháng, tuy nhiên trong tập dữ liệu khác về khách hàng gửi đến bộ phận chăm sóc khách hàng thì là 5 giao dịch trong 1 tháng, suy ra mâu thuẫn. Càng ít mâu thuẫn, càng ít sự khác biệt về thông tin, giá trị cung cấp bởi cùng một đối tượng dữ liệu giữa nhiều tập dữ liệu khác nhau thì tính nhất quán càng được gia tăng. Tính nhất quán còn xét về sự đồng nhất về thuộc tính dữ liệu, hay format của dữ liệu. Ví dụ trong 1 tập dữ liệu về giao dịch, thời gian giao dịch để theo thứ tự ngày/tháng/năm, thì tất cả các ô còn lại cũng phải theo ngày/tháng/năm chứ không được xuất hiện tháng/ngày/năm tại bất kỳ ô nào, tương tự xét giữa nhiều tập dữ liệu giao dịch. Nói chung, còn rất nhiều trường hợp, tình huống khác nhau để đánh giá tính nhất quán về dữ liệu, tùy vào thực tế bộ dữ liệu gốc ra sao, cách thức thao tác với dữ liệu, quá trình luân chuyển, chia sẻ dữ liệu thực tế là như thế nào,…
- Integrity
Integrity, tính vẹn toàn, tính gắn kết chặt chẽ là tiêu chuẩn đánh giá kết hợp cả 3 tiêu chí Accuracy, Completeness, Consistency. Một tập dữ liệu không đảm bảo Integrity hay Coherence được coi là tập dữ liệu thiếu thông tin, thiếu giá trị tại các ô quan sát, dữ liệu bên trong không thể sử dụng vì bị sai lệch, bị sửa đổi, dữ liệu bị trùng lặp, bị lỗi,… Một số giải thích khác về Integrity như Data Integrity gần giống Data Validation (hay Validity, tính xác thực của dữ liệu chúng tôi sắp trình bày dưới đây), kiểm tra cấu trúc dữ liệu, đảm bảo cấu trúc dữ liệu không thay đổi so với cấu trúc được chuẩn hóa trước đó, và không phát sinh lỗi khi chuyển đổi, tích hợp, hay gộp chung từ nhiều tập dữ liệu khác nhau, thang đo ở đây chính là tỷ lệ phát sinh lỗi khi chuyển đổi dữ liệu, hay tỷ lệ lỗi xuất hiện trong quá trình lưu trữ dữ liệu dưới 1 định dạng bất kỳ đến khi chuyển đổi sang định dạng khác.
- Relevance
Mức độ liên quan có nghĩa là dữ liệu thu thập phải liên quan đến mục tiêu kinh doanh, mục tiêu nghiên cứu của tổ chức, có hữu ích cho các chiến lược, sáng kiến trong tương lai hay không? Còn tính hợp lý thể hiện ở chỗ liệu mẫu dữ liệu đáp ứng sự kỳ vọng của tổ chức, công ty không? Ví dụ việc phân phối các điểm bán hàng trong khu vực thành phố Hồ Chí Minh có ý nghĩa không? dựa trên việc phân tích dữ liệu khách hàng trong chính khu vực này. Để đo lường mức độ liên quan hay tính hợp lý của dữ liệu thì chúng ta có nhiều cách khác nhau do nó còn phụ thuộc vào quan điểm của từng tổ chức, công ty với định hướng phát triển, mục tiêu ngắn hạn, dài hạn khác nhau, nhiệm vụ hoạt động của từng phòng ban chức năng, và phụ thuộc vào nhu cầu, mong muốn của người sử dụng dữ liệu. Mặc dù vậy, đây được coi tiêu chí chất lượng dữ liệu cần quan tâm, cần xem xét đầu tiên khi bắt đầu thu thập, khai thác và sử dụng dữ liệu, vì cho dù nguồn dữ liệu đáp ứng đủ từ Accuracy, Completeness, Consistency, Integrity hay các tiêu chuẩn đo lường khác chúng tôi sắp nói đến dưới đây, mà không thể hiện sự liên quan đến “business goals”, “operational goals” thì sẽ không mang lại giá trị.
- Timeliness
Tính kịp thời, đúng lúc của dữ liệu liên quan đến việc dữ liệu có cung cấp, mô tả thông tin là những sự kiện xảy ra gần đây hay không, nói cách khác dữ liệu về một sự kiện, về một hiện tượng, đối tượng nghiên cứu nào đó phải được thu thập càng sớm càng tốt khi nó vừa xuất hiện, vì dữ liệu qua thời gian sẽ không còn chính xác, giảm giá trị, không còn phù hợp để sử dụng trong các bối cảnh hiện tại hay tương lai. Nếu dữ liệu phản ánh được các sự kiện xảy ra gần đây, sẽ có nhiều khả năng phản ánh được thực tế hiện tại một cách hợp lý hơn, ngược lại với dữ liệu lỗi thời hoặc quá cũ. Tính kịp thời dữ liệu còn là sự kết hợp tương ứng giữa tính sẵn có của dữ liệu (availability) và khả năng tiếp cận của dữ liệu (accessability). Các thước đo được sử dụng là giá trị dữ liệu theo thời gian thay đổi như thế nào theo thời gian, ngoài ra là mức độ biến động dự kiến của dữ liệu – tần suất dữ liệu thay đổi theo thời gian, hay do bất kỳ lý do gì, sau cùng là độ trễ – khoảng thời gian từ lúc dữ liệu xuất hiện đến khi được đưa vào sử dụng.
- Validity
Tính hợp lệ, hiệu lực sử dụng của dữ liệu liên quan đến cách dữ liệu được thu thập, chuyển đổi chứ không phải bản chất của chính dữ liệu. Dữ liệu được coi là hợp lệ, có hiệu lực sử dụng nếu nó đạt yêu cầu về định dạng, loại dữ liệu, giá trị, thông tin dữ liệu cung cấp nằm trong phạm vi phù hợp,… Ví dụ: nếu công ty đang thu thập dữ liệu về thời gian người dùng truy cập trang web của công ty, trước tiên phải xác định format chuẩn, cố đinh như sử dụng mốc thời gian 24 giờ (vì một số nguyên nhân nào đó), thay vì 12 giờ (pm và am) và sử dụng hai chữ số cho phút và hai cho giờ, như 17:15, 08:20, 19:30, sau đó đối chiếu với dữ liệu, nếu dữ liệu không theo đúng định dạng trên thì không thể sử dụng. Để đo lường tính hợp lệ, chúng ta phải thiết lập các bảng tham thiếu về dữ liệu bao gồm phạm vi thông tin của dữ liệu (ví dụ dữ liệu chỉ bao gồm thông tin về khách hàng khu vực thành phố Hồ Chí Minh), phạm vi về giá trị (ví dụ dữ liệu về số tiền giao dịch hàng ngày không được vượt quá 50 triệu VND), định dạng, loại dữ liệu, và các yêu cầu khác về dữ liệu, sau khi thiết lập xong bảng thì mới bắt đầu kiểm tra, đối chiếu với dữ liệu.
- Uniqueness
Tính độc nhất của dữ liệu liên quan đến việc dữ liệu không có bị trùng lặp, dữ liệu được xác định và nhập vào các cơ sở dữ liệu, tập dữ liệu hay được ghi lại một lần duy nhất ví dụ trong tập dữ liệu về khách hàng chỉ có 1 dòng dữ liệu về khách hàng tên Nguyễn Văn A, 50 tuổi, quê quán thành phố Hồ Chí Minh. Thước đo là số lượng, số lần trùng lặp dữ liệu trong tập dữ liệu.
- Auditability
Auditability là khả năng dễ dàng thống kê, theo dấu dữ liệu, nắm được các thay đổi của dữ liệu ví dụ nhân viên chăm sóc khách hàng phải biết thông tin về khách hàng Nguyễn Văn A đã bị thay đổi từ ngày 10/5/2019, và thông tin bị thay đổi là số điện thoại. Thước đo là tỷ lệ tiếp cận các dữ liệu bị thay đổi hoặc tỷ lệ % lượng (hay các ô dữ liệu) dữ liệu (hay metadata) thay đổi mà không thể tiếp cận.
Như vậy, BigDataUni đã giới thiệu xong đến các bạn những tiêu chí, tiêu chuẩn đo lường chất lượng dữ liệu, cũng là điểm kết thúc cho phần 1 bài viết “Tổng quan về Data quality – chất lượng dữ liệu”. Ở phần 2 bài viết, chúng tôi sẽ đi vào phân tích các tác hại khi chất lượng dữ liệu kém, các thách thức phải đối mặt khi cải thiện chất lượng dữ liệu, và sau cùng là những giải pháp thực tiễn hỗ trợ cải thiện chất lượng dữ liệu.
Nguồn tham khảo:
Tài liệu The Data Management Body of Knowledge (DMBOK, phiên bản 2, năm 2017) của DAMA
https://www.sas.com/en_au/insights/articles/data-management/data-quality-management-what-you-need-to-know.html
https://www.bmc.com/blogs/what-is-data-quality-management/
https://www.scnsoft.com/blog/guide-to-data-quality-management
https://www.edq.com/glossary/data-quality-importance/
https://www.forbes.com/sites/forbesinsights/2017/06/05/the-importance-of-data-quality-good-bad-or-ugly/#4ae41d7410c4
Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”. Nếu các bạn có bất kỳ thắc mắc nào xin đừng ngần ngại liên hệ chúng tôi tại mục liên hệ hoặc comment trực tiếp dưới bài viết.