Hệ thống nhận dạng văn bản hoặc hệ thống OCR. Xây dựng hệ thống nhận dạng quang học cho thông tin cấu trúc trên ví dụ của Imago OCR

Mọi thông tin được quét đều là một tệp đồ họa (hình ảnh). Do đó, văn bản được quét không thể được chỉnh sửa nếu không có bản dịch đặc biệt sang định dạng văn bản. Việc chuyển tiền này có thể được thực hiện bằng hệ thống nhận dạng ký tự quang học (OCR).

Để nhận được bản sao điện tử (sẵn sàng chỉnh sửa) của tài liệu in, chương trình OCR cần thực hiện một số thao tác, trong đó có thể phân biệt các thao tác sau:

1. Phân đoạn - "hình ảnh" nhận được từ máy quét được chia thành các phân đoạn (văn bản được tách ra khỏi đồ họa, các ô bảng được chia thành các phần riêng biệt, v.v.).

2. Sự công nhận - văn bản được chuyển đổi từ dạng đồ họa sang dạng văn bản thuần túy.

3. Kiểm tra Chính tả và Chỉnh sửa -trình kiểm tra chính tả nội bộ kiểm tra và sửa hoạt động của hệ thống nhận dạng (các từ và ký hiệu nghi vấn được tô màu, người dùng được thông báo về "các ký tự được nhận dạng không chắc chắn")

4. Sự bảo tồn - ghi tài liệu được công nhận vào tệp có định dạng cần thiết để chỉnh sửa thêm trong chương trình thích hợp.

Các thao tác trên trong hầu hết các hệ thống OCR có thể được thực hiện cả tự động (sử dụng trình hướng dẫn) và thủ công (riêng biệt).

Các hệ thống OCR hiện đại nhận dạng văn bản bằng nhiều phông chữ khác nhau; làm việc chính xác với các văn bản có chứa các từ trong một số ngôn ngữ; nhận biết bảng và số liệu; cho phép bạn lưu kết quả dưới dạng tệp văn bản hoặc dạng bảng, v.v.

Ví dụ về hệ thống OCR bao gồm CuneiForm từ Cognitive và FineReader từ ABBYY Software.

Hệ thống OCR FineReader được phát hành trong nhiều phiên bản khác nhau (Sprint, Home Edition, Professional Edition, Corporate Edition, Office) và tất cả chúng, từ đơn giản nhất đến mạnh mẽ nhất, đều có giao diện thân thiện với người dùng và (tùy thuộc vào sửa đổi) có một số ưu điểm giúp phân biệt chúng với các chương trình tương tự.

Ví dụ: FineReader Professional Edition (FineReader Pro) có chức năng sau:

hỗ trợ gần hai trăm ngôn ngữ (thậm chí cả các ngôn ngữ cổ và các ngôn ngữ lập trình phổ biến);

nhận dạng đồ họa, bảng biểu, tài liệu trên biểu mẫu, v.v.;

bảo toàn đầy đủ tất cả các tính năng của định dạng tài liệu và thiết kế đồ họa của chúng;

đối với các văn bản sử dụng phông chữ trang trí hoặc gặp các ký tự đặc biệt (ví dụ: toán học), chế độ "Nhận dạng có huấn luyện" được cung cấp, do đó tiêu chuẩn của các ký tự được tìm thấy trong văn bản được tạo ra để sử dụng thêm trong quá trình nhận dạng;

Kết thúc công việc -

Chủ đề này thuộc về phần:

Thông tin: thuộc tính của thông tin, lượng thông tin đơn vị đo lường - 13

Chủ đề và các khái niệm cơ bản về công nghệ thông tin .. thông tin hoá, xã hội thông tin và văn hoá thông tin .. công nghệ thông tin máy tính và phân loại của chúng ..

Nếu bạn cần tài liệu bổ sung về chủ đề này hoặc bạn không tìm thấy những gì bạn đang tìm kiếm, chúng tôi khuyên bạn nên sử dụng tìm kiếm trong cơ sở làm việc của chúng tôi:

Chúng tôi sẽ làm gì với tài liệu nhận được:

Nếu tài liệu này hữu ích cho bạn, bạn có thể lưu nó vào trang của mình trên mạng xã hội:

Tất cả các chủ đề trong phần này:

Vai trò của thông tin hóa trong xã hội hiện đại
Các luồng thông tin không ngừng phát triển, và một rào cản thông tin chắc chắn xuất hiện khi mức độ phức tạp của việc xử lý các luồng thông tin vượt quá khả năng của con người. Người là chính

Khoa học máy tính như một khoa học
Như bạn đã biết, một nét đặc trưng của thế kỷ XX và XXI. là sự làm chủ công nghệ máy tính của nhân loại, nó đã đi sâu vào cả lĩnh vực sản xuất và đời sống hàng ngày đến nay lao động

Các loại thông tin
Thông tin có thể tồn tại dưới dạng: văn bản, tranh ảnh, hình vẽ, ảnh chụp; tín hiệu ánh sáng hoặc âm thanh; sóng radio; xung điện và thần kinh

Chuyển giao thông tin
Thông tin được truyền dưới dạng thông điệp từ một số nguồn thông tin đến người nhận thông qua một kênh liên lạc giữa chúng. Là

Lượng thông tin
Ví dụ, bao nhiêu thông tin được chứa trong văn bản của cuốn tiểu thuyết "Chiến tranh và hòa bình", trong các bức bích họa của Raphael, hoặc trong mã di truyền của con người? Khoa học không đưa ra câu trả lời cho những câu hỏi này và với tất cả niềm tin

Xử lí dữ liệu
Thông tin có thể được: tạo ra; chuyển khoản; nhận thức; sử dụng; ghi nhớ; lấy;

Cơ sở số học của công nghệ thông tin
Hệ thống số là một tập hợp các kỹ thuật và quy tắc mà các số được ghi và đọc. Có hệ thống số vị trí và không vị trí.

Tạo số nguyên trong hệ thống số vị trí
Trong mỗi hệ thống số, các số được sắp xếp theo ý nghĩa của chúng: 1 lớn hơn 0, 2 lớn hơn 1, v.v. Số tiến của một chữ số được gọi là thay thế nó bằng số lớn nhất tiếp theo.

Hệ thống số được sử dụng để giao tiếp với máy tính
Ngoài hệ thập phân, các hệ có cơ số là lũy thừa của 2 được sử dụng rộng rãi, đó là: nhị phân (sử dụng chữ số 0, 1); tám

Cơ sở pháp lý của thông tin hóa ở Cộng hòa Belarus
Trong thời đại thông tin, Cộng hòa Belarus rất chú trọng đến việc tổ chức thị trường thông tin văn minh. Điều này được chứng minh bằng các văn bản được thông qua sau đây: - luật:

Hỗ trợ kỹ thuật công nghệ thông tin
Hỗ trợ kỹ thuật - một tập hợp các phương tiện kỹ thuật dành cho hoạt động của hệ thống thông tin. Nó được lựa chọn dựa trên khối lượng và mức độ phức tạp của các giải pháp cần giải quyết tại doanh nghiệp

Lịch sử phát triển của máy tính
Sự phát triển nhanh chóng của công nghệ máy tính kỹ thuật số (BT) và sự hình thành của khoa học về các nguyên tắc xây dựng và thiết kế của nó bắt đầu vào những năm 40. Thế kỷ XX, khi cơ sở kỹ thuật của VT là điện tử và

Nguyên tắc cấu trúc và hoạt động của máy tính của John von Neumann
Hầu hết các máy tính hiện đại hoạt động trên cơ sở các nguyên tắc được xây dựng vào năm 1945 bởi nhà khoa học người Mỹ gốc Hungary John von Neumann. 1. Nguyên tắc mã hóa nhị phân

Các thành phần chính và thiết bị ngoại vi của PC
Về mặt cấu trúc, PC bao gồm một đơn vị hệ thống, màn hình, bàn phím, chuột và các thiết bị ngoại vi (ngoại vi). Đơn vị hệ thống (vỏ) là một hộp làm bằng kim loại và nhựa

Bộ xử lý và các đặc điểm chính của nó
Thành phần quan trọng nhất của bất kỳ máy tính nào là bộ xử lý của nó (bộ vi xử lý) - một thiết bị xử lý thông tin được điều khiển bằng phần mềm được tạo ra dưới dạng một hoặc nhiều kích thước lớn hoặc siêu lớn.

Thiết bị bộ nhớ ngoài PC
Để lưu trữ các chương trình và dữ liệu trong máy tính, các thiết bị bộ nhớ ngoài được sử dụng - ổ đĩa. Liên quan đến máy tính, chúng có thể được gắn bên ngoài và được nhúng (nội bộ

Thiết bị đầu vào / đầu ra 3D
Một trong những hướng phát triển của công nghệ thông tin là phát triển các thiết bị cho phép làm việc với hình ảnh 3 chiều. Máy quét 3D là một thiết bị phân tích

Cấu hình PC
Chức năng của một máy tính được xác định bởi cấu hình của nó - thành phần và đặc điểm của các thiết bị chính của nó: bộ xử lý, RAM, đĩa cứng, ổ CD / DVD, màn hình, video

Các thông số ảnh hưởng đến hiệu suất PC
Hiệu suất của PC là đặc điểm quan trọng nhất. Tất cả các yếu tố và thông số ảnh hưởng đến hiệu suất của PC nói chung có thể được chia thành phần mềm và phần cứng. Ảnh hưởng

Xu hướng công nghệ máy tính
Theo đánh giá của các chuyên gia, vào những thập kỷ đầu của thế kỷ XXI. phần mềm sẽ phát triển về tầm quan trọng, các vấn đề tương thích và bảo mật sẽ tăng lên. Trong số các hệ điều hành

Nguyên lý chương trình điều khiển máy tính
Máy tính là một công cụ phổ biến để giải quyết nhiều nhiệm vụ chuyển đổi thông tin khác nhau, nhưng tính linh hoạt của nó không được xác định nhiều bởi phần cứng mà bởi cài đặt

Hệ điều hành
Hệ điều hành (OS) là một tập hợp các chương trình được thiết kế để kiểm soát việc tải, khởi chạy và thực thi các chương trình người dùng khác, cũng như lập lịch và kiểm soát máy tính

Hệ điều hành Windows
Tập đoàn Microsoft bắt đầu phát triển hệ điều hành Windows vào cuối những năm 80 của thế kỷ trước. Ngày nay có thể kể đến các hệ điều hành sau thuộc họ này: Windows 3.0 / 3.1 / 3.

Hệ thống tệp Windows
Cốt lõi của hệ điều hành là mô-đun cung cấp quản lý tệp - hệ thống tệp. Nhiệm vụ chính của hệ thống tệp là đảm bảo sự tương tác của các chương trình

Đối tượng Windows
Một trong những khái niệm cơ bản trong Windows là một đối tượng, các thuộc tính và hành động của nó có thể được thực hiện trên đối tượng và bản thân đối tượng đó có thể thực hiện. Các đối tượng Windows chính là:

Giao diện đồ họa Windows và các yếu tố của nó
Sau khi Windows được tải, một màn hình nền điện tử xuất hiện trên màn hình, trên đó đặt các đối tượng đồ họa - biểu tượng (icon) của các thư mục và tệp, lối tắt, v.v. Biểu tượng tệp tài liệu

Thiết lập hệ điều hành Windows
Cài đặt hệ điều hành Windows có thể được chia theo điều kiện thành hai loại: 1. Tùy chỉnh giao diện và các yếu tố của Bảng điều khiển - bất kỳ người dùng nào cũng có thể thực hiện chúng. 2. Thay đổi thông qua ẩn

Các chương trình dịch vụ
Các chương trình dịch vụ mở rộng khả năng của HĐH để bảo trì hệ thống và cung cấp trải nghiệm người dùng. Danh mục này bao gồm hệ thống bảo trì, phần mềm shell

Vi rút máy tính và các công cụ chống vi rút
Virus máy tính là một chương trình được thiết kế để tồn tại và nhân lên trong một tệp do bị sửa đổi trái phép, tức là nhiễm trùng, cũng như thực hiện các hành động không mong muốn

Lưu trữ
Mục đích của lưu trữ là cung cấp một vị trí nhỏ gọn hơn của thông tin trên đĩa, cũng như giảm thời gian và do đó, chi phí truyền thông tin qua các kênh truyền thông trong mạng máy tính

Đặc điểm chung và chức năng của chương trình lưu trữ WinRAR 3.3
WinRAR là phiên bản 32-bit của trình lưu trữ RAR dành cho Windows, một công cụ mạnh mẽ để tạo và quản lý các tệp lưu trữ. Có hai phiên bản RAR cho Windows: 1. Phiên bản cho dòng lệnh

Phần mềm nhạc cụ
Phần mềm công cụ bao gồm: hệ thống lập trình - để phát triển các chương trình mới, ví dụ, Pascal, BASIC. Chúng thường bao gồm:

Clipboard Staging Buffer
Ngay trong các phiên bản đầu tiên của Windows, Clipboard tích hợp đã được triển khai, hoạt động liên tục và có sẵn cho tất cả các ứng dụng Windows.

Công nghệ DDE
Để trao đổi dữ liệu giữa các ứng dụng, công nghệ DDE (Trao đổi dữ liệu động) có thể được sử dụng, bản chất của công nghệ này là được chèn qua bộ đệm

Công nghệ OLE
Công nghệ liên kết và nhúng các đối tượng (Object Linking and Embedding) có nhiều chức năng hơn, và nếu ứng dụng hỗ trợ OLE thì bản thân nó sẽ thực hiện trao đổi dữ liệu qua đ

Xu hướng hệ điều hành
Các hướng phát triển chính của hệ điều hành như sau: 1. Khả năng mở rộng - khả năng thêm các chức năng bổ sung mà không phá hủy tính toàn vẹn của hệ thống (nhớ là HĐH Linux).

Máy tính xử lý thông tin
Để xử lý thông tin, có nhiều phương án (hình thức tổ chức) quy trình công nghệ. Thông thường, quy trình công nghệ xử lý thông tin bằng máy tính bao gồm một sl

Công nghệ và hệ thống xử lý thông tin dạng bảng (bộ xử lý dạng bảng)
Bộ xử lý bảng là gói phần mềm để quản lý bảng tính. Bảng tính (ET) là một công cụ phổ biến để tự động hóa các phép tính trên

Đặc điểm chung và chức năng của Microsoft Excel 2003
Có thể phân biệt các chức năng sau của bộ xử lý văn bản Microsoft Excel 2003: xây dựng bảng và lưu chúng trên phương tiện máy tính, làm việc với các mẫu; Việc làm

Công nghệ và hệ thống xử lý thông tin đồ họa (đồ họa máy tính)
Đồ họa máy tính là một trong những công nghệ hiện đại để tạo và xử lý các hình ảnh khác nhau bằng phần cứng và phần mềm máy tính. Máy vi tính

Hệ thống đồ họa máy tính và chức năng của chúng
Các hệ thống đồ họa máy tính tồn tại ngày nay (các gói chương trình ứng dụng hoạt động với hình ảnh đồ họa) cũng có thể được phân loại theo nhiều cách khác nhau, ví dụ:

Định dạng đồ họa
Định dạng tệp đồ họa (graphic format) là một tập hợp thông tin về hình ảnh và cách nó được ghi vào tệp. Dữ liệu đồ họa, theo quy luật, lớn và yêu cầu

Đặc điểm chung và chức năng của chương trình Corel DRAW
CorelDRAW là một gói phần mềm đồ họa vector hướng đối tượng. Thuật ngữ "hướng đối tượng" nên được hiểu theo nghĩa là tất cả các toán tử

Đặc điểm chung và chức năng của chương trình Adobe PhotoShop
PhotoShop là chương trình dành cho các nhà thiết kế chuyên nghiệp và tất cả mọi người liên quan đến xử lý hình ảnh đồ họa. Nó cho phép bạn xử lý và chỉnh sửa hình ảnh được nhập vào máy tính.

Công nghệ và hệ thống để tạo bản trình bày động
Bản trình bày (phim chiếu về một chủ đề cụ thể, được làm theo cùng một kiểu và được lưu trữ trong một tệp duy nhất) là một tài liệu điện tử có nội dung đa phương tiện phức tạp với các khả năng

Hệ thống trình bày và chức năng của chúng
Thị trường các gói để tạo bản trình bày đang phát triển theo hai hướng: 1. Các công cụ để tạo bản trình bày cho người dùng không chuyên nghiệp (ví dụ: Microsoft PowerPoint, Corel Pres

Đặc điểm chung và chức năng của Microsoft PowerPoint 2003
Hệ thống trình chiếu PowerPoint là một thành phần của Microsoft Office và được thiết kế để tạo các tài liệu trình bày dưới dạng các trang chiếu và đầu ra của chúng trên giấy, màn hình, phim trong suốt

Khái niệm và lịch sử phát triển của mạng máy tính
Mạng máy tính (máy tính) là một tập hợp các máy tính (máy tính) được kết nối với nhau thông qua các kênh truyền dữ liệu và cung cấp cho người sử dụng các phương tiện trao đổi thông tin và

Mạng máy tính cục bộ
Đặc điểm phân biệt chính của mạng cục bộ là kênh truyền dữ liệu tốc độ cao dùng chung cho tất cả các máy tính và xác suất sai sót trong thiết bị truyền thông thấp.

Công nghệ và thiết bị cơ bản của mạng cục bộ
Để tổ chức một mạng cục bộ, cần có các phương tiện kỹ thuật, phần mềm và thông tin. Các phương tiện kỹ thuật của mạng bao gồm: 1. Máy tính, các đặc tính kỹ thuật

Internet toàn cầu
Internet (Internet) - mạng máy tính toàn cầu, là sự liên kết toàn cầu của các mạng máy tính không đồng nhất tạo thành một không gian thông tin duy nhất do việc sử dụng

Giải quyết các máy tính trên Internet
Định tuyến giữa các mạng cục bộ được thực hiện theo các địa chỉ IP trong tiêu đề datagram. Địa chỉ IP được chỉ định bởi quản trị viên mạng trong quá trình cấu hình máy tính

Các thành phần cấu trúc và giao thức của lớp ứng dụng của Internet
Trang web là một tài liệu siêu văn bản ở định dạng .html - đơn vị nhỏ nhất của World Wide Web. Nó có thể chứa văn bản, hình minh họa đồ họa, đa phương tiện và các đối tượng khác, và quan trọng nhất là

Khái niệm về một thuật toán và các loại quy trình thuật toán
Bất kỳ nhiệm vụ nào trước khi giải quyết trên máy tính đều cần có sự chuẩn bị chính thức, bao gồm một tập hợp các giải pháp về thành phần và nội dung của dữ liệu đầu vào và đầu ra, cũng như các quy trình chuyển đổi dữ liệu đầu vào.

Công cụ lập trình
Công cụ lập trình là một tập hợp các sản phẩm phần mềm cung cấp công nghệ để phát triển, gỡ lỗi và triển khai các sản phẩm phần mềm mới đang được tạo ra. Chúng được chia theo Thứ Tư

Cơ sở dữ liệu
Hiện tại, các thuật ngữ cơ sở dữ liệu (DB) và hệ quản trị cơ sở dữ liệu (DBMS) được sử dụng, như một quy luật, liên quan đến cơ sở dữ liệu máy tính. Theo nghĩa chung, thuật ngữ này có thể được áp dụng

Mục trên đầu
Số hóa đơn Mã người mua Số hóa đơn Mặt hàng Số lượng

Mô hình phân cấp
Trong mô hình phân cấp, dữ liệu được tổ chức dưới dạng cây. Các ngọn cây như vậy nằm ở các tầng khác nhau. Các nhóm bản ghi trong cấu trúc như vậy được sắp xếp theo một trình tự nhất định như

Mô hình mạng
Trong mô hình mạng, dữ liệu được biểu diễn dưới dạng các bản ghi, các bản ghi này được liên kết với nhau theo những quy tắc nhất định và tạo thành một mạng (Hình 2.5). Dữ liệu trong cấu trúc mạng bằng nhau. Một ví dụ

Các chức năng chính của DBMS
Có một số lượng lớn các chương trình được thiết kế để cấu trúc thông tin, đặt nó trong các bảng và thao tác với dữ liệu có sẵn - những chương trình như vậy được gọi là SU

Mô hình dữ liệu quan hệ
Một trong những cách tự nhiên nhất để biểu diễn dữ liệu là bảng hai chiều. Mặt khác, mối quan hệ giữa các dữ liệu cũng có thể được biểu diễn dưới dạng bảng hai chiều. Ví dụ,

Các tính năng của Access DBMS
Access là một hệ quản trị cơ sở dữ liệu quan hệ hỗ trợ tất cả các công cụ và khả năng xử lý dữ liệu vốn có trong các mô hình quan hệ. Trong trường hợp này, thông tin phải được lưu trữ trong

Các điều khoản DBMS quan hệ
· Bảng - thông tin về các đối tượng cùng loại (ví dụ, về khách hàng, đơn đặt hàng, nhân viên) được trình bày dưới dạng bảng. · Thuộc tính - được lưu trữ trong một trường (cột) của bảng. Et

Các giai đoạn thiết kế cơ sở dữ liệu
· Xác định mục đích của cơ sở dữ liệu. · Xác định dữ liệu nguồn (bảng) cơ sở dữ liệu sẽ chứa. Xác định các trường sẽ được bao gồm trong bảng và chọn các trường chứa duy nhất

Công nghệ nhận dạng quang học (khái niệm và phạm vi của OCR, thuật toán nhận dạng quang học, đặc điểm và chương trình của OCR, khái niệm Nhận dạng ký tự thông minh, hệ thống nhận dạng chữ viết tay)

OCR (Nhận dạng ký tự quang học) - công nghệ chuyển đổi hình ảnh đồ họa của văn bản thành văn bản máy tính bằng cách sử dụng thuật toán nhận dạng mẫu đồ họa.

Ocr được sử dụng:

1) khi quét và chụp ảnh văn bản.

2) để nhập một lượng lớn thông tin dạng văn bản vào máy tính (từ 100 trang trở lên mỗi ngày).

3) để nhập thông tin văn bản bằng chữ viết tay vào máy tính.

4) để chuyển đổi định dạng này sang định dạng khác.

Có ba công nghệ nhận dạng ký tự chính phổ biến:

Mẫu (trong ảnh đầu vào, ảnh raster của các ký tự riêng lẻ được chọn, so với tất cả các mẫu có sẵn trong cơ sở dữ liệu, mẫu có số điểm khác biệt với ảnh đầu vào ít nhất được chọn. Hệ thống mẫu dễ thực hiện hơn, chống được các lỗi ảnh, có tốc độ xử lý dữ liệu đầu vào cao, nhưng chỉ nhận dạng đáng tin cậy những phông chữ có mẫu mà họ biết),

Cấu trúc (một đối tượng được mô tả dưới dạng đồ thị, các nút của chúng là phần tử của đối tượng đầu vào và các cung là quan hệ không gian giữa chúng. Các hệ thống cấu trúc rất nhạy cảm với các khuyết tật đồ họa của hình ảnh vi phạm các yếu tố cấu thành. Đối với các hệ thống này, ngược lại với khuôn mẫu và tính năng, vẫn không có quy trình đào tạo tự động hiệu quả đã được tạo),

Sự biến đổi của đài phun nước (kết hợp những ưu điểm của hệ thống khuôn mẫu và cấu trúc. Bất kỳ đối tượng tri giác nào cũng được coi là một tổng thể, bao gồm các bộ phận được kết nối với nhau bằng những mối quan hệ nhất định).

Đặc điểm của Ocr:

    số lỗi khi nhập văn bản. 10 lỗi trên mỗi trang được coi là chấp nhận được.

    tính chính xác đối với chất lượng của văn bản nguồn.

    khả năng sửa lỗi chính tả để nâng cao chất lượng đầu vào.

    hỗ trợ cho các ngôn ngữ khác nhau.

    khả năng đào tạo và tùy chỉnh các tính năng của phông chữ in và văn bản viết tay.

    tốc độ nhận dạng. Điều mong muốn là nó có thể so sánh với thời gian tài liệu được nhập bởi máy quét.

Các chương trình Ocr:

Các gói nổi tiếng nhất là FineReader, CuneiForm, OmniPage, TextBridge.

ABBYY FineReader - OCR để nhập tự động văn bản, bảng, biểu mẫu, bảng câu hỏi, v.v.

ADRT (Công nghệ nhận dạng tài liệu thích ứng), công nghệ nhận dạng tài liệu thích ứng ở cấp độ IDR (Nhận dạng tài liệu thông minh).

Đầu đọc danh thiếp ABBYY - một ứng dụng di động để nhận dạng danh thiếp, tự động nhận dạng thông tin từ ảnh danh thiếp, tạo một liên hệ mới, ghi thông tin liên hệ và thông tin bổ sung vào các trường bắt buộc của sổ ghi chép.

    ICR (Nhận dạng ký tự thông minh) - hệ thống xử lý các biểu mẫu, cung cấp mục nhập dữ liệu từ các tài liệu dựa trên các mẫu hình học

Hệ thống nhận dạng ký tự quang học (OCR) đã trở thành một phần không thể thiếu của các gói tích hợp hỗ trợ máy tính nhập, lưu trữ và xử lý tài liệu giấy và điện tử. Hệ thống bao gồm một máy quét để nhập thông tin.

Nếu hình ảnh do máy quét tạo ra chứa văn bản và hình ảnh, thì bằng cách sử dụng chương trình nhận dạng ký tự quang học đặc biệt (OCR), bạn có thể:

  • - tách văn bản khỏi hình ảnh;
  • - viết văn bản này ở định dạng tệp trình xử lý văn bản.

Phần mềm trong hệ thống OCR hiện đại phân tích hình dạng của các chữ cái và tạo ra một tệp văn bản trong đó văn bản được nhận dạng được viết theo từng ký tự với sự hình thành tuần tự của các từ và câu.

Có hai loại gói OCR: có thể đào tạo và thông minh. Các gói nhận dạng ký tự quang học đầu tiên có sự phân tách rõ ràng theo loại. Gần đây, có xu hướng kết hợp hai loại này trong một gói, điều này phản ánh nỗ lực phát triển các thuật toán nhận dạng mới về cơ bản.

Các gói phần mềm OCR có thể dạy được tạo nên phần lớn trong những phát triển ban đầu. Các gói như vậy về mặt lý thuyết có khả năng học cách nhận ra bất kỳ ký tự nào trong bất kỳ kiểu chữ nào. Để dạy chương trình cho một tai nghe cụ thể, bạn cần quét hình ảnh tham chiếu với quá trình đào tạo tiếp theo cho từng nhân vật cụ thể. Đây là một quy trình khá dài, tuy nhiên, nếu tai nghe này sau đó sẽ được sử dụng thường xuyên, thì bạn nên dành một vài giờ để tìm hiểu. Loại chương trình này so sánh từng ký tự riêng lẻ trên trang với các ký tự trong bảng tra cứu được tạo trong quá trình đào tạo, tạo tệp văn bản.

Các gói OCR thông minh không cần đào tạo và có thể diễn giải hình dạng ký tự bất kể kiểu chữ được sử dụng. Công việc của các chương trình này gây ấn tượng lớn: tài liệu được chuyển qua máy quét, kết quả được xử lý bằng chương trình OCR thông minh với kết quả đầu ra là tệp văn bản. Đối với một trang A4, toàn bộ quy trình chỉ mất hơn một phút. Với độ chính xác cao, điều này nhanh hơn nhiều so với nhập thủ công.

FineReader là hệ thống nhận dạng ký tự quang học (OCR) chuyển đổi hình ảnh đồ họa (ảnh) nhận được bằng máy quét thành văn bản (nghĩa là thành các mã chữ cái mà hệ thống hiểu được).

Quá trình nhập văn bản vào máy tính được thực hiện qua nhiều giai đoạn: quét; lựa chọn các khối trong hình ảnh; sự công nhận; kiểm tra lỗi; lưu kết quả nhận dạng (chuyển nó sang ứng dụng khác, vào bộ đệm, v.v.)

Hình 2. Giao diện của FineReader 11

Hệ thống nhận dạng ký tự quang học thông minh Cuneiform (OCR) chạy trên Microsoft Windows 3.1 trở lên. Hệ thống có các khả năng công nghệ sau: hỗ trợ nhiều loại máy quét để bàn, nhận dạng trang được quét (bao gồm văn bản nhiều cột và văn bản có thiết kế phức tạp); cho phép bạn quét và ghi lại một hình ảnh dưới dạng TIFF, và bắt đầu nhận dạng sau (rất tiện lợi khi quét một loạt tài liệu); có thể đọc các hình ảnh được quét bởi các chương trình và fax khác ở chế độ Fine và Normal; nhận dạng các chữ cái trong bảng chữ cái tiếng Nga và tiếng Anh, ngoại trừ các phông chữ cách điệu như chữ cái Gothic; có thể giữ nguyên định dạng và tab ban đầu, đồng thời điều chỉnh thụt lề và căn chỉnh; không nhận dạng văn bản viết tay.

Màn hình chữ hình nêm bao gồm bốn phần chính, được chỉ ra trong hình.


Hình 3. Giao diện của chương trình Сuneiform

Phiên bản mới của hệ thống nhận dạng Intuitia 2.0 dành cho Windows sử dụng công nghệ Omnifont (nhận dạng nhiều phông chữ khác nhau mà không cần đào tạo). Nó cung cấp khả năng nhận dạng hình ảnh của tài liệu văn bản từ các tệp ở định dạng TIFF, PCX, BMP, cũng như từ tất cả các Máy quét hỗ trợ giao thức TWAIN, cũng như từ các máy quét gia đình HP ScanJet (trực tiếp).

Hệ thống nhập và nhận dạng chữ viết tay PenO "Man for Windows" là một công cụ để nhập, nhận dạng và chỉnh sửa văn bản bằng chữ viết tay bằng bút stylus: có thể nhập và chỉnh sửa cả văn bản kết hợp tiếng Anh và tiếng Nga trong tất cả các ứng dụng Windows; quá trình nhập liệu tương tự như việc sử dụng bút thông thường khi viết từ trái sang phải, tốt nhất là viết tay gọn gàng và nghiêng sang trái cổ điển; có thể chỉnh sửa văn bản đã nhập nhờ sử dụng các chức năng tiêu chuẩn (chèn, xóa, chuyển, kích hoạt các đoạn văn bản, v.v.), cũng như các nét đơn giản của bút.

Đầu vào của tài liệu chính - số hóa (xử lý ảnh, chụp tài liệu)
Trong quá trình chuẩn bị thông tin cho việc tin học hoá doanh nghiệp, tự động hoá kế toán, phát sinh nhiệm vụ nhập một lượng lớn thông tin văn bản và đồ hoạ. Sử dụng phần mềm OCR, bạn có thể số hóa thông tin văn bản. Hệ thống phần mềm và phần cứng hiện đại cho phép bạn tự động hóa việc nhập một lượng lớn thông tin bằng cách sử dụng máy quét mạng và nhận dạng văn bản song song trên nhiều máy tính đồng thời.

OCR - Mục đích - Công nhận
Hầu hết các chương trình Nhận dạng Ký tự Quang học (OCR) hoạt động với hình ảnh bitmap nhận được qua modem fax, máy quét, máy ảnh kỹ thuật số hoặc thiết bị khác. Mục đích của hệ thống OCR là phân tích thông tin raster (ký hiệu được quét) và gán ký hiệu tương ứng cho đoạn ảnh. Sau khi hoàn tất quá trình nhận dạng, hệ thống OCR phải có khả năng duy trì định dạng của tài liệu gốc, gán thuộc tính đoạn văn vào đúng vị trí, lưu bảng, đồ họa, v.v. Các chương trình OCR hiện đại hỗ trợ tất cả các định dạng văn bản, hình ảnh và bảng tính đã biết và một số định dạng hỗ trợ như HTML và PDF.

Đầu vào luồng
Để nhập khối lượng lớn, tính năng quét tài liệu liên tục được sử dụng trên các máy quét tài liệu công nghiệp đặc biệt. Quá trình xử lý trong các hệ thống như vậy được thực hiện ở chế độ bán tự động với năng suất cao. Tính năng quét tài liệu theo luồng là tối ưu để tạo một kho lưu trữ điện tử với một khối lượng lớn thông tin cùng loại (tài liệu kế toán, báo cáo, kết luận, bài báo khoa học, v.v.). Tính năng quét luồng được sử dụng để số hóa: tài liệu kế toán và tài chính, tài liệu hợp đồng, tài liệu pháp lý, tài liệu lưu trữ, danh mục thư viện, v.v.

Các công cụ xử lý ảnh được sử dụng để nhập dữ liệu tự động vào hệ thống thông tin từ bất kỳ loại tài liệu nào (giấy tờ tùy thân, kế toán, pháp lý, v.v.) nhằm tạo ra các tài liệu lưu trữ điện tử với khả năng tìm kiếm nhanh các tài liệu cần thiết khi xử lý mảng dữ liệu lớn (tổng điều tra dân số, đơn kỳ thi tiểu bang, v.v.), cũng như để dịch các tài liệu, hình ảnh và tệp PDF được quét sang các định dạng có thể chỉnh sửa. Sự ra đời của các phương tiện nhập liệu hiện đại cho phép giảm hơn 50% chi phí xử lý văn bản, tăng tốc độ vào hệ thống thông tin từ 3-10 lần, đảm bảo tăng tính tiện lợi và chất lượng làm việc với dữ liệu (mức độ bảo mật cao của dữ liệu mật, giảm số lỗi liên quan với yếu tố con người khi nhập dữ liệu), tối ưu hóa quy trình nghiệp vụ bằng cách tự động hóa chức năng nhập dữ liệu thông thường và giải phóng thời gian của nhân viên để giải quyết các công việc chuyên môn. Hơn nữa, lợi tức đầu tư trung bình là từ ba tháng đến một năm.

Người tiêu dùng chính của Xử lý hình ảnh trên thế giới là các tổ chức lớn (chiếm hơn một nửa thị trường tính theo tiền tệ), thị phần doanh nghiệp quy mô vừa chiếm khoảng một phần ba, còn lại là doanh nghiệp nhỏ.

Hệ thống nhận dạng văn bản hoặc hệ thống OCR (Nhận dạng ký tự quang học) được thiết kế để tự động nhập tài liệu vào máy tính. Nó có thể là một trang sách, tạp chí, từ điển, một số loại tài liệu - bất cứ thứ gì đã được in và cần được chuyển đổi lại thành dạng điện tử.

Hệ thống OCR nhận dạng văn bản và các yếu tố khác nhau của nó (hình ảnh, bảng) từ một hình ảnh điện tử. Hình ảnh thường có được bằng cách quét tài liệu và ít thường xuyên hơn bằng cách chụp ảnh tài liệu đó. Hình ảnh nhận được được xử lý bằng thuật toán của chương trình OCR, các vùng văn bản, hình ảnh, bảng được chọn, rác được tách khỏi dữ liệu cần thiết.

Ở giai đoạn tiếp theo, mỗi ký tự được so sánh với một từ điển đặc biệt của các ký tự, và nếu tìm thấy khớp, thì ký tự này được coi là được công nhận. Kết quả là, bạn nhận được một tập hợp các ký tự được nhận dạng, nghĩa là văn bản mong muốn.

Hệ thống OCR hiện đại là những giải pháp phần mềm khá phức tạp. Rốt cuộc, văn bản có thể bị ngổn ngang, méo mó, bẩn và chương trình phải tính đến điều này và có thể xử lý chính xác các tình huống như vậy. Ngoài ra, các hệ thống OCR hiện đại cũng cho phép bạn có được bản sao của tài liệu in ở dạng điện tử trong khi vẫn duy trì định dạng, kiểu, kích thước văn bản và loại phông chữ, v.v.

Mô tả quy trình OCR

1. Tiền xử lý hình ảnh.

2. Nhận biết đối tượng của cấp độ cao hơn.

3. Nhận dạng ký tự

4. Cấu trúc các giả thuyết. Kiểm tra từ điển.

5. Tổng hợp một tài liệu điện tử.

Hầu hết các chương trình Nhận dạng ký tự quang học OCR hoạt động với hình ảnh bitmap được nhận qua modem fax, máy quét, máy ảnh kỹ thuật số hoặc thiết bị khác. Trong bước đầu tiên, OCR phải chia trang thành các khối văn bản dựa trên căn lề phải và trái và sự hiện diện của nhiều cột. Sau đó, khối được nhận dạng được chia thành các dòng. Mặc dù sự đơn giản rõ ràng, đây không phải là một nhiệm vụ hiển nhiên, vì trong thực tế, hình ảnh của trang hoặc các mảnh trang là không thể tránh khỏi khi gấp lại. Ngay cả một độ nghiêng nhẹ cũng sẽ khiến cạnh trái của một dòng nằm dưới cạnh phải của dòng tiếp theo, đặc biệt là với khoảng cách dòng nhỏ. Kết quả là, vấn đề nảy sinh trong việc xác định dòng mà đoạn ảnh này hoặc đoạn ảnh đó thuộc về. Ví dụ, đối với các chữ cái j, Y, e, với độ nghiêng nhẹ, rất khó để xác định phần phía trên (riêng biệt) của ký tự thuộc dòng nào (trong một số trường hợp, nó có thể bị nhầm thành dấu phẩy hoặc dấu chấm).

Các dòng sau đó được chia thành các vùng liên tục của hình ảnh, thường tương ứng với các chữ cái riêng lẻ; thuật toán nhận dạng đưa ra các giả định về sự tương ứng của các vùng này với các ký hiệu; và sau đó lựa chọn từng ký tự được thực hiện, với kết quả là trang được khôi phục ở dạng ký tự văn bản và theo quy tắc, ở định dạng thích hợp. Hệ thống OCR có thể đạt được độ chính xác nhận dạng tốt nhất vượt quá 99,9% để có hình ảnh sạch được tạo thành từ các phông chữ thông thường. Thoạt nhìn, độ chính xác nhận dạng này có vẻ lý tưởng, nhưng tỷ lệ lỗi vẫn còn thấp, bởi vì nếu có khoảng 1500 ký tự trên một trang, thì ngay cả với tỷ lệ thành công là 99,9%, một hoặc hai lỗi trên mỗi trang vẫn được tạo ra. Trong những trường hợp như vậy, phương pháp tra từ điển là giải pháp. Có nghĩa là, nếu một từ không có trong từ điển của hệ thống, thì nó sẽ cố gắng tìm một từ tương tự theo các quy tắc đặc biệt. Nhưng điều này vẫn không cho phép sửa chữa 100% lỗi, mà cần có sự kiểm soát của con người đối với kết quả.

54. Microsoft Word -trình xử lý văn bản mạnh mẽ (văn bản. bộ xử lý thực hiện các hoạt động phức tạp hơn trình soạn thảo - gói văn bản, các thao tác định dạng), được thiết kế để thực hiện tất cả các quy trình xử lý văn bản.

Hiện nay phổ biến nhất. Đi kèm với bộ Microsoft Office tích hợp. Mục đích chính là tạo và chỉnh sửa tài liệu văn bản. Có nhiều cơ hội. Chương trình thuận tiện để làm việc với các tài liệu lớn nhờ các công cụ có sẵn để tạo chỉ mục, mục lục, đầu trang và chân trang, tiêu đề phân cấp, v.v.

1. Khả năng của trình xử lý văn bản Word bao gồm đánh máy, kiểm tra chính tả, chèn đồ họa theo chuẩn * .pcx hoặc * .bmp, mô-đun âm nhạc ở định dạng * .wav., In văn bản. Vị trí của các đối tượng đồ họa, bảng, sơ đồ, siêu liên kết trong tài liệu, tự động hóa xử lý tài liệu, sử dụng các kiểu; danh sách, trường Word; tạo macro; chuẩn bị văn bản để xuất bản (tạo mục lục, mục lục chữ cái, chú thích cuối trang, ghi chú); làm việc trên văn bản cùng với nhiều người dùng, tạo tài liệu bằng cách hợp nhất, sử dụng mẫu, v.v. Nó hoạt động với nhiều phông chữ ở bất kỳ ngôn ngữ nào trong số 21 ngôn ngữ trên thế giới. Tính sẵn có của bố cục văn bản và mẫu. Word cung cấp tính năng tìm kiếm một đoạn văn bản được chỉ định, thay thế nó bằng một đoạn văn bản được chỉ định, xóa, sao chép vào bộ đệm bên trong. Sự hiện diện của dấu trang trong văn bản cho phép bạn nhanh chóng chuyển đến một vị trí nhất định trong văn bản. Word cho phép bạn đưa vào văn bản của cơ sở dữ liệu. Bạn có thể đặt mật khẩu. Word cho phép bạn mở nhiều cửa sổ để làm việc với nhiều văn bản cùng một lúc. Microsoft Word (thường là MS Word, WinWord hoặc đơn giản là Word) là một trình xử lý văn bản được thiết kế để tạo, xem và chỉnh sửa tài liệu văn bản, với ứng dụng cục bộ của các dạng thuật toán ma trận bảng đơn giản nhất. Được xuất bản bởi Microsoft như một phần của bộ Microsoft Office. Phiên bản đầu tiên được viết bởi Richard Brodie cho máy tính IBM sử dụng hệ điều hành DOS vào năm 1983.

Trình soạn thảo văn bản -nó là một chương trình được thiết kế để tạo và xử lý các từ.

Bốn nhóm biên tập viên:

1. Trình chỉnh sửa để in văn bản.

2. Bộ xử lý Word để tạo tài liệu phức hợp, tức là tài liệu bao gồm các văn bản của bảng, hình, đồ thị.

3. Các chương trình sắp chữ văn bản (in typography)

4. Người chỉnh sửa để tạo văn bản khoa học

Các chế độ của trình soạn thảo Word:

Chế độ bình thường - được sử dụng để in thông tin văn bản

Chế độ bố cục trang

· Chế độ cấu trúc tài liệu - một hệ thống chia nhỏ tài liệu thành nhiều phần. Được thiết kế để làm việc với các văn bản lớn và có một số đề mục, tiêu đề phụ.

Chế độ tài liệu web

Nhập và chỉnh sửa văn bản:

1. Không in dấu cách ở đầu câu. Một khoảng trắng được coi là một ký tự.

2. Bạn không thể nhấn phím enter để chuyển sang dòng mới. Nhưng hãy nhớ nhấn enter với một đoạn văn mới.

3. Trước các ký hiệu “.,:!? »Bạn không thể đặt dấu cách, sau các ký hiệu bạn phải đặt dấu cách.

4. Đầu tiên bạn phải chọn văn bản, và sau đó chỉ cần thực hiện một số công việc.

Định dạng tài liệu bao gồm:

1. Định dạng trang

2. Định dạng một đoạn văn

3. Ký hiệu

4. định dạng bảng

5. định dạng hình ảnh.

Tạo tài liệu.

Có hai phương pháp tạo tài liệu mới trong trình soạn thảo văn bản MS Word:

1. Dựa trên mẫu làm sẵn

2. Dựa trên một tài liệu hiện có.

Phương pháp thứ hai là lùm xùm, nhưng phương pháp thứ nhất đúng hơn về mặt phương pháp. Khi tạo tài liệu dựa trên tài liệu hiện có, hãy mở tài liệu hiện có, lưu nó dưới tên mới, sau đó chọn tất cả nội dung trong đó và xóa mọi thứ, sau đó chúng ta có một tài liệu trống có tên riêng và giữ lại tất cả các cài đặt đã được thông qua trước đó cho tài liệu gốc.

Word bao gồm một loạt các công cụ tự động hóa giúp bạn dễ dàng hoàn thành các tác vụ thông thường. Hầu hết chúng đều được trình bày dưới dạng này hay dạng khác trong các phiên bản trước của trình soạn thảo, nhưng hiện nay khả năng tự động hóa đã trở nên rộng rãi hơn nhiều. Các công cụ này bao gồm:

Tự động thay thế, cho phép bạn tự động sửa các lỗi đánh máy phổ biến;

Tự động điền (hoặc tự động điền văn bản), với sự trợ giúp của nó, bạn có thể tự động tiếp tục nhập một từ hoặc một đoạn văn bản sau khi nhập một vài chữ cái đầu tiên (bây giờ trình soạn thảo đã có một cơ sở nhất định về các ô trống như vậy ngay từ đầu);

Trình kiểm tra chính tả tự động bao gồm kiểm tra chính tả và ngữ pháp. Người dùng có khả năng vô hiệu hóa bất kỳ loại xác minh nào hoặc thậm chí chỉ tiến hành xác minh sau khi hoàn thành việc nhập toàn bộ tài liệu;

Microsoft Office

Tự động tạo và xem trước các kiểu;

Tự động định dạng khi đầu vào, được thiết kế để tự động định dạng tài liệu ngay khi nhập hoặc sau khi hoàn thành;

Một trợ lý được thiết kế để tự động cung cấp lời khuyên và thông tin tham khảo mà bạn có thể cần khi bạn hoàn thành nhiệm vụ.

Ví dụ: nếu Trợ lý quyết định rằng bạn sẽ bắt đầu tạo một bức thư, anh ta sẽ đề nghị khởi chạy Trình hướng dẫn viết thư.

Word có các công cụ giúp làm việc với bảng, đường viền (border) và tô bóng dễ dàng hơn:

Sử dụng chuột, bạn có thể vẽ các bảng có nhiều hình dạng khác nhau (các ô bảng riêng lẻ có thể có chiều rộng và chiều cao bất kỳ). Đường viền của ô, hàng hoặc cột của bảng có thể dễ dàng loại bỏ và có tác dụng giống như nối các ô. Trong Word, bạn có thể hợp nhất mọi ô liền kề theo cả chiều ngang và chiều dọc;

Nội dung của các ô trong bảng có thể được căn chỉnh ở trên cùng hoặc dưới cùng hoặc ở giữa ô. Văn bản bên trong ô có thể được định vị theo chiều dọc (xoay 90 độ);

Hơn 150 kiểu đường viền khác nhau được bao gồm trong Word để giúp trang trí bất kỳ tài liệu nào và làm cho nó trông chuyên nghiệp;

Word cung cấp một bộ công cụ đồ họa mà bạn có thể làm phong phú và trang trí văn bản và bản vẽ bằng cách thêm khối lượng, bóng đổ, tô màu có kết cấu và trong suốt cũng như hình dạng tự động.

Trình chỉnh sửa đồ họa Microsoft Office cung cấp một loạt các công cụ vẽ. Để trang trí văn bản và hình ảnh, hơn 100 hình dạng tự động có thể tùy chỉnh được cung cấp, 4 loại tô màu (gradient nhiều màu, hoa văn, trong suốt và hoa văn), đồng thời thêm bóng và âm lượng.

Danh sách các tính năng của Microsoft Word

Việc soạn thảo văn bản được thực hiện bằng các chức năng sau:

§ lựa chọn, sao chép và dán đoạn văn bản cần thiết;

§ chèn các đối tượng không phải là văn bản ở định dạng Microsoft Word (ví dụ, bao gồm đồ họa, bảng tính và đồ thị, âm thanh, hình ảnh video, v.v. vào văn bản);

§ chèn số trang, ngày tháng và thời gian, chú thích cuối trang, ký tự đặc biệt, v.v. vào tài liệu;

§ khả năng tìm, nhảy, thay thế từ mong muốn của văn bản, dòng, phần, trang, v.v.;

§ khả năng làm lại hoặc hoàn tác hành động cuối cùng được thực hiện với văn bản;

§ mở rộng khả năng định dạng tài liệu. Khác với Word Pad, Word cho phép căn chỉnh tài liệu trên cả hai cạnh, bố cục nhiều cột;

§ sử dụng các kiểu để nhanh chóng định dạng tài liệu.

Ngoài các tính năng được liệt kê, chương trình cung cấp một tập hợp các chức năng dịch vụ, chẳng hạn như:

§ kiểm tra chính tả và ngữ pháp, bao gồm cả nền - khi bạn nhập văn bản;

§ lựa chọn các từ đồng nghĩa cho các từ (mục menu "Từ đồng nghĩa");

§ gạch nối trong văn bản của tài liệu;

§ định nghĩa dữ liệu thống kê của tài liệu (số ký tự, từ, dòng, đoạn, trang);

§ làm việc với macro và các mẫu tài liệu.

Chương trình cũng có một tập hợp lớn các chức năng để làm việc với các bảng và đồ họa, một hệ thống trợ giúp (help system) khổng lồ và nhiều hơn nữa.


Thông tin tương tự.