Giải pháp Viettel OCR: Lời giải cho “tự động hoá” dữ liệu

Câu chuyện về OCR và sức mạnh ngầm của một công nghệ xử lý “big data”

Trong quốc tế số có một thuật ngữ gọi là ” Dark data ” – ” Dark data ” là tài liệu không có cấu trúc, chưa thể sử dụng được nếu không qua giải quyết và xử lý, nghiên cứu và phân tích, sắp xếp. Nếu data tăng lên với cấp số nhân thì trong đó phần được cho là ” dark data ” tăng lên theo cấp số mũ. Điều này yên cầu con người phải sẵn sàng chuẩn bị những giải pháp giải quyết và xử lý tài liệu lớn và siêu lớn. Vai trò của tài liệu là đặc biệt quan trọng quan trọng, nhưng việc khai thác, tối ưu tài liệu trở thành gia tài có giá trị lại không hề đơn thuần. Trong khoảng chừng 3 năm gần đây, giải pháp số hoá văn bản OCR trở nên mê hoặc với nhiều Doanh Nghiệp bởi sức mạnh giải quyết và xử lý tài liệu của nó. Nhưng ít ai biết, từ những năm đầu của thế kỷ XX, nhà vật lý Emanuel Goldberg đã tăng trưởng một máy đọc những ký tự và quy đổi chúng thành mã điện báo tiêu chuẩn được gọi là ” Máy tính thống kê ” để tìm kiếm số tàng trữ trong vi phim ( microfilm ) bằng cách sử dụng một mạng lưới hệ thống nhận diện mã quang học. Cho đến năm 2002, việc hoàn toàn có thể sử dụng OCR ngay trên điện thoại di động và máy tính để bàn trải qua điện toán đám mây được coi là một bước ngoặt .

Tại Việt Nam, mặc dù OCR được tiếp cận sau nhưng đến nay đã đạt được những kết quả tương đương với thế giới trong việc xử lý ngôn ngữ Tiếng Việt (các công ty công nghệ lớn trên thế giới thường tập trung xử lý ngôn ngữ Tiếng Anh). Năm 2020, theo quy định của Thông tư 23/2019/TT-NHNN, các dịch vụ ví điện tử, thanh toán trung gian phải xác thực tài khoản người dùng qua chứng minh nhân dân (CMND), hay các quy định liên quan đến mở tài khoản của Ngân hàng Nhà nước là động lực thúc đẩy DN nhanh chóng ứng dụng OCR để trích xuất thông tin, tự động hóa quá trình nhập liệu và xét duyệt thông tin. 

Trước nhu yếu lớn, thị trường lan rộng ra, chủ trương của nhà nước thôi thúc quy đổi số ( CĐS ) là động lực để Trung tâm Không gian mạng Viettel đã tập trung chuyên sâu nghiên cứu và điều tra, đóng gói bộ giải pháp OCR trên cơ sở phối hợp những công nghệ tiên tiến : Công nghệ nhận dạng ký tự quang học ( OCR ) được cho phép nhận dạng tài liệu dạng PDF, dạng ảnh, văn bản giấy … ; Công nghệ giải quyết và xử lý ngôn từ tự nhiên ( NLP ) tự động hóa hiệu chỉnh thông tin bảo vệ độ đúng mực cao về mặt ngữ nghĩa Sức mạnh của Viettel OCR còn đến từ công nghệ học sâu ( Deep Learning ) đem lại tác dụng nhận dạng trên 99 % so với chữ in, trên 90 % so với chữ viết tay và lên tới 98 % so với việc trích xuất thông tin theo trường, tiêu biểu vượt trội so với những nhà tăng trưởng cùng nghành nghề dịch vụ trên thị trường từ 4-5 %. Giải pháp Viettel OCR: Lời giải cho "tự động hoá" dữ liệu - Ảnh 1.Trải nghiệm tính năng Viettel OCR .

Năm 2020 là cuộc dấn thân của Viettel OCR để giải quyết những case study cụ thể

Tháng 10/2020, trước đầu bài của Công ty CP giao thông số Nước Ta ( ePass ) về việc tiến hành mở thông tin tài khoản thu phí không dừng với tham vọng phủ rộng đến 4 triệu xe xe hơi trong tiến trình bùng nổ thị trường của dịch vụ này, Viettel OCR nhanh gọn đưa ra ” giải thuật ” bằng việc giải quyết và xử lý quét tự động hóa ~ 5000 bộ hồ sơ / ngày với độ đúng mực lên tới 98 %, vận dụng cho phong phú những loại sách vở như : CMND, Bằng lái xe, Đăng ký xe, Đăng kiểm, Đăng ký kinh doanh thương mại … quy đổi thành dạng ký tự số hoàn toàn có thể tìm kiếm, chỉnh sửa và tàng trữ thuận tiện. Có thể nói, cuộc ” lao vào ” của OCR đóng góp thêm phần vào vận tốc tăng trưởng thần tốc của ePass. Tính đến tháng 7/2020 đã có 800.000 thông tin tài khoản người dùng .

Ứng dụng OCR vào việc đăng ký dịch vụ thu phí không dừng ePass.

Với ngành tài chính ngân hàng, theo nghiên cứu của PricewaterhouseCoopers (PwC), trung bình, một tổ chức Tài chính phải trả 20 USD để gửi một hồ sơ, và khoảng 120 USD để tìm một hồ sơ bị thiếu theo cách thủ công. Thế nhưng, với mô hình OCR được thiết kế và lắp đặt đúng cách, DN sẽ có nguồn dữ liệu “sạch” ngay từ đầu, dễ dàng chỉnh sửa và đồng bộ hóa. 

Đặc biệt, dữ liệu được sắp xếp hệ thống hóa giúp dễ dàng quản lý và tái sử dụng trong kho dữ liệu lớn của DN, hỗ trợ hầu khắp các mẫu giấy tờ như: CMND, hợp đồng, biên lai, mà còn là giấy vay tiền, báo cáo tài chính,… Tác động của công nghệ sẽ biến những quy trình từ rườm rà, phức tạp trở nên tối giản, tự động và chính xác. Viettel OCR dễ dàng tích hợp và triển khai trên các hệ thống như CMS, ERP, CRM… thông qua các API mở.

Piyush Gupta, CEO Ngân hàng DBS đã từng nói : ” Tại DBS, chúng tôi hoạt động giải trí ít giống một ngân hàng nhà nước mà như một công ty công nghệ tiên tiến hơn ” – đây có lẽ rằng là khuynh hướng có đặc thù toàn thế giới và đang dần hình thành tại Nước Ta. Giải pháp Viettel OCR: Lời giải cho "tự động hoá" dữ liệu - Ảnh 2. Đội ngũ tăng trưởng OCR của Viettel

OCR đồng hành giải quyết bài toán khó cho ngành Dược

Công nghệ số không chỉ dừng lại ở công nghệ tiên tiến mà nó đang làm đổi khác phương pháp quản lý và vận hành ở Lever cơ bản tại một tổ chức triển khai. Đầu năm 2021, Viettel OCR khởi động một dự án Bất Động Sản có tính đặc trưng trong một ngành đặc biệt quan trọng – đó là Y tế. Với lượng tài liệu siêu khủng, nhu yếu bảo mật thông tin khắt khe và tri thức ngành cao, Viettel OC đang tham gia vào quy trình tiến độ ĐK lưu hành thuốc ( tại Cục Quản lý Dược ) và tiến trình đăng ĐK công bố / ĐK quảng cáo thực phẩm bảo vệ sức khỏe thể chất ( tại Cục An toàn thực phẩm ). Trước khi sử dụng Viettel OCR, Cục Quản lý Dược và Cục An toàn thực phẩm đảm nhiệm giải quyết và xử lý những hồ sơ ở dạng bản cứng, Doanh Nghiệp cần đặt lịch hẹn và nộp trực tiếp tại trụ sở. Ít ai biết Cục quản trị Dược đã từng phải sử dụng nhiều phòng thao tác chỉ để tàng trữ số lượng sách vở khổng lồ đó. Thời gian giải quyết và xử lý hồ sơ lê dài gây tốn kém về nhân lực và thời hạn. Ứng dụng vào thực tiễn, Viettel OCR tham gia số hoá những hồ sơ ĐK thuốc tại Bộ phận một cửa bằng cách kiểm tra tính thống nhất và tính đúng đắn của hồ sơ, tương hỗ những chuyên viên đánh giá và thẩm định sách vở pháp lý, dược lý như : mẫu nhãn, hướng dẫn sử dụng, giấy phép xây dựng văn phòng đại diện thay mặt, giấy ghi nhận đủ điều kiện kèm theo kinh doanh thương mại dược, hồ sơ kỹ thuật và theo dõi những pháp luật tương quan đến việc cung ứng điều kiện kèm theo kinh doanh thương mại thuốc ( GMP, CPP, GLP, … ). Thông tin được so sánh tự động từ Đơn ĐK đến tài liệu chứng tỏ, từ đó cảnh báo nhắc nhở những trường hợp xô lệch, không trùng khớp. Giai đoạn 2, Viettel OCR thanh tra rà soát, thẩm định và đánh giá 35 loại hồ sơ với những định dạng khác nhau và gần 60 trường thông tin sẽ được trích xuất, tạo mạng lưới hệ thống thông tin điện tử ( metadata ) tương hỗ tra cứu, tìm kiếm, chỉnh sửa và tàng trữ. Ứng dụng công nghệ tiên tiến giải quyết và xử lý ngôn từ tự nhiên sẽ tương hỗ hiệu quả trả về đúng ngữ nghĩa hơn và hoàn toàn có thể liên kết với kho thông tin biệt dược gốc đồ sộ.

Kết quả thu được thật ấn tượng: tốc độ nhập liệu của OCR cao hơn 50-60 lần so với cách làm thủ công; những căn phòng giấy tờ giờ thu gọn trong một vài máy chủ; nhu cầu duy trì tài liệu giấy gần như không còn, số giờ lao động tiết kiệm được là không hề nhỏ, độ chính xác ngày càng cao với cơ chế huấn luyện học máy.

Nói về quyền lợi khi ứng dụng giải pháp Viettel OCR, ông Hoàng Trung Hiếu – Giám đốc mẫu sản phẩm san sẻ : ” Các tài liệu trong bộ hồ sơ ĐK đến từ nhiều vương quốc khác nhau. Do đó ngôn từ là một rào cản đáng kể trong quy trình đánh giá và thẩm định hồ sơ. Việc quy đổi những tài liệu trong hồ sơ sang dạng văn bản hoàn toàn có thể chỉnh sửa, tìm kiếm được giúp những nhân viên thuận tiện dịch và tra cứu thông tin ” Giải pháp Viettel OCR: Lời giải cho "tự động hoá" dữ liệu - Ảnh 3.Ông Hoàng Trung Hiếu – Giám đốc mẫu sản phẩm Viettel OCRKhông chỉ cơ quan nhà nước, những Doanh Nghiệp tham gia và những tiến trình ĐK là đối tượng người tiêu dùng được hưởng lợi nhiều nhất trong việc quy đổi số, sử dụng công nghệ tiên tiến triển khai những việc thủ công bằng tay có đặc thù lặp đi lặp lại thay con người. Viettel OCR giúp nâng cao thưởng thức của những Doanh Nghiệp, mang đến sự chuyên nghiệp, hạn chế những xúc cảm xấu đi trong tiếp xúc giữa người – người ; mọi tiếp xúc giữa chính quyền sở tại và Doanh Nghiệp sẽ được thực thi và tàng trữ trên mạng lưới hệ thống. / .