Hỗ trợ trực tuyến
Thư viện ảnh
Liên kết website
 
Trao đổi kinh nghiệm

Phần mềm nhận dạng chữ in tiếng việt ABBYY ứng dụng trong xây dựng số hóa tài liệu

Với nhiều tính năng hiện đại, phần mềm nhận dạng của ABBYY đang được nhiều Trung tâm Thông tin – Thư viện và các cơ quan đơn vị đưa vào ứng dụng trong quá trình xây dựng Thư viện số, quản lý và kinh doanh. Đây là giải pháp hoàn chỉnh giải quyết vấn đề số hóa nhận dạng, một chủ đề không mới nhưng vẫn còn rất nóng hiện nay.


Như chúng ta đã biết, mục đích của một dây chuyền số hóa là chuyển kho tài liệu giấy thành tài liệu số. Nếu tài liệu số chỉ đơn thuần là các ảnh quét thì dây chuyền số hóa đó mới chỉ thực hiện được việc “file hóa” tài liệu. Trong bài viết này, việc số hóa được hiểu là một quá trình tự động chuyển đổi kho tài liệu giấy thành tài liệu điện tử ở dạngcó thể biên tập lại, trích dẫn và tìm kiếm được. Với ý nghĩa của việc số hóa như vậy, phần mềm nhận dạng rõ ràng đóng một vai trò then chốt của dây chuyền số hóa.
       Hiện nay, trên thị trường Việt Nam có một số phần mềm nhận dạng chữ in (OCR) tiếng Việt và giải pháp số hóa. Tuy nhiên, thực tế sử dụng các phần mềm này cho thấy chúng bộc lộ nhiều hạn chế như không đọc được ảnh màu (chỉ làm việc với ảnh đen trắng), dàn trang của tài liệu sau nhận dạng hay bị vỡ, công suất xử lý thấp, thao tác thủ công, chỉ làm việc với rất ít ngôn ngữ.
       Xuất hiện sau các sản phẩm trên và dù mới chỉ là thế hệ sản phẩm đầu tiên hỗ trợ tiếng Việt nhưng do được thừa hưởng không chỉ những bí quyết công nghệ mà còn cả những tính năng phần mềm chuyên nghiệp của các phiên bản trước, phần mềm nhận dạng phiên bản mới của ABBYY đang được đánh giálà giải pháp nhận dạng tiếng Việt chính xác và toàn diện nhất hiện nay. Các phần mềm nhận dạng của ABBYY có thể được dùng như là một giải pháp số hóa tài liệu hoàn chỉnh hoặc tích hợp vào các hệ thống quản lý tài liệu hay hệ thống quản lý thông tin sẵn có khác.
       ABBYY có 2 dòng sản phẩm nhận dạng chính: ABBYY Recognition Server và ABBYY FlexiCapture. Trong đó:
         - ABBYY Recognition Server không chỉ là một giải pháp số hóa tài liệu và chuyển đổi file PDF mạnh mà còn có thể dễ dàng tích hợp vào các hệ thống CMS, DMS, ECM, ERP sẵn có.
         - ABBYY FlexiCapture là giải pháp hoàn chỉnh cho bài toán tự động phân loại tài liệu và bóc tách dữ liệu; FlexiCapture được thiết kế để tự động định vị và nhận dạng các siêu dữ liệu là chữ in (OCR), chữ viết tay (ICR), đánh dấu (OMR) hay mã vạch rồi kết xuất dữ liệu này tới các file lưu trữ hoặc cơ sở dữ liệu.
       Phần mềm ABBYY Recognition Server có thể nhận dạng các tài liệu in của hơn 190 ngôn ngữ với độ chính xác trên 99%, bao gồm cả tiếng Việt; khuôn dạng và cấu trúc văn bản được giữ nguyên; tốc độ nhận dạng cao, chỉ 2 giây cho 1 trang khổ A4. Sau khi nhận dạng, ABBYY Recognition Server cho phép kết xuất kết quả nhận dạng ra nhiều định dạng file có thể tìm kiếm và biên tập được như MS Word, MS Excel, PDF, PDF/A, HTML, XML. Trong đó, định dạng PDF/A – một loại định dạng PDF – là định dạng giữ nguyên ảnh quét gốc nên đảm bảo tuyệt đối tính tin cậy của thông tin cho người đọc, đồng thời vẫn cho phép người dùng biên tập và tìm kiếm toàn văn. Chính vì các lý do trên, PDF/A được coi là định dạng phù hợp nhất hiện nay cho công tác lưu trữ nói chung và ngành thư viện nói riêng.
       Định dạng PDF hai lớp cho phép người dùng đọc thông tin trên ảnh gốc đồng thời vẫn có thể thực hiện việc trích chọn thông tin hay tìm kiếm toàn văn
       Nhờ các tính năng vượt trội trên nên mặc dù mới được du nhập vào Việt Nam nhưng các phần mềm nhận dạng của ABBYY đã được nhiều cơ quan tổ chức đánh giá cao và đưa vào sử dụng như: Bộ Khoa học và Công nghệ (Cục Sở hữu trí tuệ), Trung tâm Thông tin Thư viện ĐHQG Hà Nội, Văn phòng TW Đoàn Thanh niên Cộng sản Hồ Chí Minh, Công ty Cổ phần Chứng Khoán Vndirect, …
Theo TS. Nguyễn Huy Chương, Giám đốc Trung tâm Thông tin – Thư viện ĐHQG Hà Nội:
       “Sau khi kiểm nghiệm các sản phẩm cùng loại, chúng tôi đánh giá ABBYY Recognition Server vượt trội hơn cả. Với khả năng làm việc tự động, chất lượng nhận dạng cao, chấp nhận nhiều định dạng đầu vào và cho phép kết xuất kết quả nhận dạng ra nhiều định dạng lưu trữ khác nhau, phần mềm nhận dạng của ABBYY là giải pháp tốt nhất để giải quyết bài toán số hóa tại các thư viện hiện nay”.
       Bạn đọc có thể thử nghiệm công nghệ nhận dạng của ABBYY trên website www.sohoa.com.vn. Tại đây, việc nhận dạng được thực hiện tự động, người dùng chỉ việc tải các ảnh quét tài liệu lên hệ thống và nhận về các file tài liệu điện tử dạng MS Word hay PDF./.

                              



Tin khác

Một số lưu ý khi xây dựng kế hoạch/ Dự án số hóa tài liệu
 
Thông báo
Thư viện tỉnh Điện Biên thông báo thay đổi thời gian Phục vụ bạn đọc
Thông báo tổ chức Ngày Sách Việt Nam năm lần thứ IV năm 2017
Thư viện tỉnh Điện Biên thông báo về việc mở cửa phục vụ bạn đọc vào các buổi tối thứ 7 và chủ nhật
Thông báo tổ chức Ngày hội sách và văn hóa đọc năm 2016
Thông báo chuẩn bị vốn đối ứng cho các Thư viện tiếp nhận dự án BMGF-VN giai đoạn III
Xem tất cả
Điểm báo
Danh lam thắng cảnh
Thống kê
 
TRANG THÔNG TIN ĐIỆN TỬ THƯ VIỆN TỈNH ĐIỆN BIÊN
Giấy phép thiết lập Website số 135/GP-TTĐT do Cục quản lý phát thanh, Truyền hình và thông tin điện tử cấp ngày 30 tháng 8 năm 2013
Địa chỉ: Phố 7 - Phường Mường Thanh - Tp. Điện Biên Phủ - Tỉnh Điện Biên
Điện thoại: 02153.502.828 - Fax: 02153.827.232
Email: thuvientinh.dienbien@gmail.com