Tìm hiểu công nghệ nhận dạng ký tự OCR Cognex

Posted on Posted in Tin tức kỹ thuật

1.OCR là gì?
OCR (Optical Charater Recognition) hay còn gọi là nhận dạng ký tự là công nghệ nhận diện kí tự được xây dựng theo hệ thống mạng Neuron nhân tạo. Nó là công việc chuyển đổi chữ viết tay hoặc đánh máy sang một dạng chuỗi các ký tự được định dạng bởi máy. Để máy có thể hiểu, đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu ký tự cụ thể. Nói đơn giản là chụp ảnh lại các ký tự cần nhận dạng , lập trình phần mềm để hiểu các ký tự tương ứng với các chữ cần thiết cho máy hiểu. Các ký tự này sẽ được lưu lại thành một bộ thư viện (template hay font).

2. Lịch sử của OCR?

OCR đã được sử dụng rộng rãi trong các ứng dụng thương mại từ năm 1970. Đầu năm 1970 một công ty ở Dallas, Texas đã phát triển một hệ thống tốc độ cao đọc hóa đơn tín dụng cho việc mua xăng dầu. Khi đó một hóa đơn sẽ được in một số nhận dạng cho mỗi khác hàng tương ứng (font OCR-A) . Một bản copy của hóa đơn sẽ được gửi đến trung tâm xử lý dữ liệu nơi thiết bị tạo ra bởi công ty liên hợp “Thiết bị nhận dạng” sẽ đọc số tài khoản trên hóa đơn tốc độ 45 -55 feet giây và thực hiện thanh toán tương ứng.
Cuối năm 1970, OCR-B đã được dùng trên trạm thu phí tự động. Một vài công ty ở Mỹ hiện giờ vẫn dùng hệ thống này. Phát triển hơn công ty liên hợp Thiết bị nhận dạng tạo ra thiết bị đọc OCR cầm tay. Sản phẩm này được phát triển với nhiệm vụ chính là cộng đồng bán lẻ để chuyển từ tag ghi bấm lỗ giá hàng hóa sang tag giá hàng hóa với chuỗi OCR. Nhanh chóng sau đó trong năm 1980 và 1983 các nhà bán lẻ lớn như Sears, JCPenney và Kmart bắt đầu dùng OCR-A . Riêng Sears và  JCPenney năm đó đã mua hơn 50,000 đầu đọc. OCR-A đã được dùng trên tag giá cho đến năm 1987, khi đó cộng đồng bán lẻ đã chọn UPC như chuẩn của họ.
Từ giữa năm 1980 cho đến nay, OCR đã được thừa nhận rộng rãi trong nhiều ứng dụng như chuyển tiền ngân hàng, xử lý hộ chiếu, sản xuất linh kiện bán dẫn, sản xuất trong ngành hàng không, không gian.., đóng gói bao bì thực phẩm (số lô, ngày sản xuất, hạn sử dụng) và ứng dụng y khoa.
3. So sánh giữa OCR và Mã vạch (Barcode, 2D code)
ORC và Barcode đều dùng chung Phương pháp thu thập dữ liệu và mỗi cái có điểm mạnh và yếu khác nhau. Điểm mạnh chính của OCR là thông tin mã hóa được in với định dạng cả người và máy có thể đọc được trong khi đó mã vạch chỉ duy nhất máy có thể giải mã, hiểu được. Dữ liệu được mã hóa bằng OCR không cần thêm một máy nhận dạng ký tự.
4. Ứng dụng của OCR khi tích hợp vào sản xuất
Hiện nay có 3 ứng dụng chính có thể thấy khi dùng OCR:

  • Kiểm tra có/không: đảm bảo rằng ký tự được in

+ Đảm bảo rằng có ký tự được in
+ Đảm bảo rằng ký tự có khả năng đọc được

  • Dò tìm xuất xứ: từ kho đến sản xuất và đóng gói

+ Số lô, mẻ, ngày sản xuất, số sản phẩm
+ Ứng dụng chung với mã vạch (in dưới mã vạch)

  • Nhận dạng: nhận dạng một thành phần hay cả 1 lô hàng hóa

+ Đảm bảo rằng nhãn được in đúng
+ Đảm bảo sản phẩm nằm đúng lô hàng

5. OCV

OCR làm nhiệm vụ duy nhất là nhận dạng các ký tự chưa biết sau đó OCV (Optical Character Verification)-Kiểm tra ký tự dùng để kiểm tra tính hợp pháp của ký tự như chất lượng in,in đúng chuỗi ký tự. OCV đảm bảo chuỗi ký tự đươc in đạt những chỉ tiêu chất lượng đề ra.

Công cụ này thường được sử dụng để:

  • Kiểm tra hạn sử dụng có bị thiếu nét
  • Kiểm tra hạn sử dụng có bị in mờ

Khi sử dụng các dòng máy Cognex; được tích hợp công nghệ OCRMax, với các công cụ OCR và OCV  giúp người sử dụng có thể đạt tốt độ nhận dạng ký tự nhanh nhất và chính xác nhất.

Demo công nghệ OCRMax của Cognex

 

OCR font và OCR template
Để ứng dụng công cụ kiểm tra/ nhận diện ký tự, trước đây cách đơn giản nhất là sử dụng font chữ OCR và OCR template. Những font phổ biến có thể kể đến như:

  • OCR-A hay OCR-B: theo tiêu chuẩn ANSI INCITS 17-1981 và ANSI INCITS 49-1975 dùng chủ yếu trong ứng dụng in ấn tài liệu như hộ chiếu, văn thư và dược phẩm
  • MICR: font chữ được sử dụng nhiều trong ngành ngân hàng tại Mỹ, Canada, Anh quốc…
  • SEMI: được sử dụng trong ngành sản xuất bán dẫn

Download một số font tempale Cognex Dataman OCR

Date 

File

Size

08/10/2015

Arialbd_BoW_0-9_A-Z

Arialbd_BoW_0-9_A-Z
26 KB
08/10/2015

Arialbd_WoB_0-9_A-Z

Arialbd_WoB_0-9_A-Z
25 KB
08/10/2015

Codentify_Inkjet

Codentify_Inkjet
9 KB
08/10/2015

Codentify_Laser

Codentify_Laser
9 KB
08/10/2015

Demofont_0-9_A-Z+

Demofont_0-9_A-Z+
25 KB
08/10/2015

MarkemImaje_0-9_A-Z

MarkemImaje_0-9_A-Z
14 KB
08/10/2015

VideoJet_OCR-B9_0-9_A-Z

VideoJet_OCR-B9_0-9_A-Z
18 KB